Abo
  • Services:
Anzeige
Tesla P100 mit GP100-Chip
Tesla P100 mit GP100-Chip (Bild: Marc Sauter/Golem.de)

Pascal-Grafikchip: Benchmarks und Details zum GP100

Tesla P100 mit GP100-Chip
Tesla P100 mit GP100-Chip (Bild: Marc Sauter/Golem.de)

Nvidia hat ein paar zusätzliche Informationen zum GP100-Chip und der Tesla P100 mit Pascal-Technik verraten: Das Package ist für 32 statt 16 GByte HBM2-Speicher vorbereitet, was für künftige Modelle interessant wird. Erste Benchmarks zeigen, dass der Beschleuniger wie erwartet vor allem bei FP16- und FP64-Berechnungen stark ist.

Nvidia hat auf der GPU Technology Conference 2016 in San Jose, Kalifornien weitere Details und erste Messwerte zum GP100-Grafikchip und dem darauf basierenden Rechenbeschleuniger Tesla P100 bekannt gegeben. Im Nachgang der Keynote von CEO Jen-Hsun Huang gab es eine kurze Q&A mit Jonah Alben, Senior Vice President von GPU Engineering, und eine Deep-Dive-Session über die neue Pascal-Architektur. Die pickte sich aber nur einige Informationen aus dem Blog-Eintrag heraus und ließ daher Fragen offen.

Anzeige

Interessant war hierbei ein rudimentäres Blockdiagramm des GP100-Chips: Zwar fehlen dort die Raster- und die für Tessellation wichtigen Polymorph-Engines, dafür wird der Aufbau der sechs Graphics Processor Cluster klarer. Jeder enthält fünf TPCs - diese Bezeichnung verwendete Nvidia zuletzt beim G80, damals stand sie für Texture Processor Cluster. Pro TPC gibt es zwei Streaming Multiprocessors (SMP), die in zwei Blöcke mit jeweils 32 Shader-ALUs, eigenen Schedulern, Dispach-Ports und Register-Files unterteilt sind. Der Aufbau erinnert stark an AMDs aktuelle GCN-Technik (Graphics Core Next), die seit 2011 verwendet wird.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)

Verglichen mit der Maxwell-v2-Architektur fällt beim GP100-Chip auf, dass Nvidia die Anzahl der ALUs pro Streaming Multiprocessor halbiert hat. Dadurch verdoppeln sich pro Shader-Einheit die verfügbaren Ressourcen wie der Warp-Scheduler, das Register-File und die interne Bandbreite. Der gemeinsame Speicher der ALUs fasst 64 statt 96 KByte, allerdings greifen auf diesen 64 statt 128 Einheiten zu - das macht ein Drittel mehr Shared Memory pro Rechenwerk. Unterm Strich kann der GP100 also mehr Daten lokal vorhalten und schneller abarbeiten, sodass die Geschwindigkeit pro ALU und Takt steigt.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)

Um Informationen zum Grafikchip und dessen internen Speichern zu transportieren, hat Nvidia dem GP100 ein Speicherinterface für High Bandwidth Memory spendiert. Die Tesla P100 nutzt 16 GByte HBM2 in Form von vier 4-Hi-Stacks. Die takten mit rund 1,4 GHz und hängen jeweils an einem 1.024 Bit breiten Interface, was eine Datentransfer-Rate von 720 GByte pro Sekunde ergibt. Mittelfristig dürfte die Karte jedoch mit doppelt so viel Videospeicher ausgerüstet werden, was Nvidia beim Design berücksichtigt hat.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)

Der 4-Hi-HBM2 ist flacher als der GP100-Chip, weshalb ein Spacer beide Dies auf die gleiche Höhe bringt. Bei AMDs Fury X gleicht schlicht Wärmeleitpaste die geringfügig unterschiedliche Bauhöhe aus. Auch wenn SK Hynix oder Samsung 8-Hi-Stacks mit 8 statt 4 GByte Kapazität liefern können und Nvidia die Tesla P100 aktualisiert hat, bleibt der der Spacer gleich, da das Package bei HBM2 auch mit 8Hi gleich hoch ausfällt. Beide Speicherhersteller geben an, 8-Hi-Stacks ab Ende 2016 in Serie produzieren zu wollen. Da die Beschleunigerkarte aber so schnell keinen Nachfolger erhalten dürfte, bleibt ausreichend Zeit eine Version mit verdoppeltem Videospeicher nachzuschieben - zuletzt ging Nvidia bei der Quadro M6000 ähnlich vor.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)

Erste Messungen zur neuen Tesla P100 legte Nvidia ebenfalls vor: Abseits theoretischer Zahlenspielchen, die keine architektonischen Verbesserungen berücksichtigen, zeigte der Hersteller Messwerte mehrerer Karten. Zwei Tesla P100 schlagen demzufolge zwei Tesla K80 durchweg. Das ist durchaus spannend, denn auf jeder K80 sitzen zwei GK210-Chips. Diese GPUs hat Nvidia für den HPC-Markt mit vergrößerten Registern und Caches ausgestattet. Die Tesla K80 basiert allerdings auf der zwei Generationen alten Kepler-Architektur.


eye home zur Startseite
michi5579 07. Apr 2016

Wenn du Aufrüstbedarf hast und weisst wann die neuen Karten kommen und was sie können...

goosefx 07. Apr 2016

Ach ja, lang lang ist es her, da habe ich auch einen Vobis Highscreen Rechner mein...



Anzeige

Stellenmarkt
  1. Techniklotsen GmbH, Bielefeld
  2. OSRAM Opto Semiconductors GmbH, Regensburg
  3. Robert Bosch GmbH, Leonberg
  4. Experis GmbH, Kiel


Anzeige
Top-Angebote
  1. 44,99€
  2. 29,00€
  3. 29,00€

Folgen Sie uns
       


  1. Amazon Channels

    Prime Video erhält Pay-TV-Plattform mit Live-Fernsehen

  2. Bayerischer Rundfunk

    Fernsehsender wollen über 5G ausstrahlen

  3. Kupfer

    Nokia hält Terabit DSL für überflüssig

  4. Kryptowährung

    Bitcoin notiert auf neuem Rekordhoch

  5. Facebook

    Dokumente zum Umgang mit Sex- und Gewaltinhalten geleakt

  6. Arduino Cinque

    RISC-V-Prozessor und ESP32 auf einem Board vereint

  7. Schatten des Krieges angespielt

    Wir stürmen Festungen! Mit Orks! Und Drachen!

  8. Skills

    Amazon lässt Alexa natürlicher klingen

  9. Cray

    Rechenleistung von Supercomputern in der Cloud mieten

  10. Streaming

    Sky geht gegen Stream4u.tv und Hardwareanbieter vor



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Blackberry Keyone im Test: Tolles Tastatur-Smartphone hat zu kurze Akkulaufzeit
Blackberry Keyone im Test
Tolles Tastatur-Smartphone hat zu kurze Akkulaufzeit
  1. Blackberry Keyone kommt Mitte Mai
  2. Keyone Blackberrys neues Tastatur-Smartphone kommt später
  3. Blackberry Keyone im Hands on Android-Smartphone mit toller Hardware-Tastatur

The Surge im Test: Frust und Feiern in der Zukunft
The Surge im Test
Frust und Feiern in der Zukunft
  1. Wirtschaftssimulation Pizza Connection 3 wird gebacken
  2. Mobile-Games-Auslese Untote Rundfahrt und mobiles Seemannsgarn
  3. Spielebranche Beschäftigtenzahl in der deutschen Spielebranche sinkt

Redmond Campus Building 87: Microsofts Area 51 für Hardware
Redmond Campus Building 87
Microsofts Area 51 für Hardware
  1. Windows on ARM Microsoft erklärt den kommenden x86-Emulator im Detail
  2. Azure Microsoft betreut MySQL und PostgreSQL in der Cloud
  3. Microsoft Azure bekommt eine beeindruckend beängstigende Video-API

  1. Nächstes Jahr um die Zeit...

    maverick1977 | 04:58

  2. Re: Aus Windows wird doch noch ein ordentliches...

    dvdged3 | 04:29

  3. So dass man die GEZ-Gebühren auch noch eintreiben...

    __destruct() | 04:13

  4. haben es ard und zdf denn mitterweile schon...

    Prinzeumel | 03:29

  5. Re: Hähhh...

    Ninos | 03:04


  1. 00:01

  2. 18:45

  3. 16:35

  4. 16:20

  5. 16:00

  6. 15:37

  7. 15:01

  8. 13:34


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel