Abo
  • Services:

Pascal-Grafikchip: Benchmarks und Details zum GP100

Nvidia hat ein paar zusätzliche Informationen zum GP100-Chip und der Tesla P100 mit Pascal-Technik verraten: Das Package ist für 32 statt 16 GByte HBM2-Speicher vorbereitet, was für künftige Modelle interessant wird. Erste Benchmarks zeigen, dass der Beschleuniger wie erwartet vor allem bei FP16- und FP64-Berechnungen stark ist.

Artikel veröffentlicht am ,
Tesla P100 mit GP100-Chip
Tesla P100 mit GP100-Chip (Bild: Marc Sauter/Golem.de)

Nvidia hat auf der GPU Technology Conference 2016 in San Jose, Kalifornien weitere Details und erste Messwerte zum GP100-Grafikchip und dem darauf basierenden Rechenbeschleuniger Tesla P100 bekannt gegeben. Im Nachgang der Keynote von CEO Jen-Hsun Huang gab es eine kurze Q&A mit Jonah Alben, Senior Vice President von GPU Engineering, und eine Deep-Dive-Session über die neue Pascal-Architektur. Die pickte sich aber nur einige Informationen aus dem Blog-Eintrag heraus und ließ daher Fragen offen.

Stellenmarkt
  1. KfW Bankengruppe, Frankfurt am Main
  2. Deutsche Nationalbibliothek, Frankfurt am Main

Interessant war hierbei ein rudimentäres Blockdiagramm des GP100-Chips: Zwar fehlen dort die Raster- und die für Tessellation wichtigen Polymorph-Engines, dafür wird der Aufbau der sechs Graphics Processor Cluster klarer. Jeder enthält fünf TPCs - diese Bezeichnung verwendete Nvidia zuletzt beim G80, damals stand sie für Texture Processor Cluster. Pro TPC gibt es zwei Streaming Multiprocessors (SMP), die in zwei Blöcke mit jeweils 32 Shader-ALUs, eigenen Schedulern, Dispach-Ports und Register-Files unterteilt sind. Der Aufbau erinnert stark an AMDs aktuelle GCN-Technik (Graphics Core Next), die seit 2011 verwendet wird.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)

Verglichen mit der Maxwell-v2-Architektur fällt beim GP100-Chip auf, dass Nvidia die Anzahl der ALUs pro Streaming Multiprocessor halbiert hat. Dadurch verdoppeln sich pro Shader-Einheit die verfügbaren Ressourcen wie der Warp-Scheduler, das Register-File und die interne Bandbreite. Der gemeinsame Speicher der ALUs fasst 64 statt 96 KByte, allerdings greifen auf diesen 64 statt 128 Einheiten zu - das macht ein Drittel mehr Shared Memory pro Rechenwerk. Unterm Strich kann der GP100 also mehr Daten lokal vorhalten und schneller abarbeiten, sodass die Geschwindigkeit pro ALU und Takt steigt.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)

Um Informationen zum Grafikchip und dessen internen Speichern zu transportieren, hat Nvidia dem GP100 ein Speicherinterface für High Bandwidth Memory spendiert. Die Tesla P100 nutzt 16 GByte HBM2 in Form von vier 4-Hi-Stacks. Die takten mit rund 1,4 GHz und hängen jeweils an einem 1.024 Bit breiten Interface, was eine Datentransfer-Rate von 720 GByte pro Sekunde ergibt. Mittelfristig dürfte die Karte jedoch mit doppelt so viel Videospeicher ausgerüstet werden, was Nvidia beim Design berücksichtigt hat.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)

Der 4-Hi-HBM2 ist flacher als der GP100-Chip, weshalb ein Spacer beide Dies auf die gleiche Höhe bringt. Bei AMDs Fury X gleicht schlicht Wärmeleitpaste die geringfügig unterschiedliche Bauhöhe aus. Auch wenn SK Hynix oder Samsung 8-Hi-Stacks mit 8 statt 4 GByte Kapazität liefern können und Nvidia die Tesla P100 aktualisiert hat, bleibt der der Spacer gleich, da das Package bei HBM2 auch mit 8Hi gleich hoch ausfällt. Beide Speicherhersteller geben an, 8-Hi-Stacks ab Ende 2016 in Serie produzieren zu wollen. Da die Beschleunigerkarte aber so schnell keinen Nachfolger erhalten dürfte, bleibt ausreichend Zeit eine Version mit verdoppeltem Videospeicher nachzuschieben - zuletzt ging Nvidia bei der Quadro M6000 ähnlich vor.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)

Erste Messungen zur neuen Tesla P100 legte Nvidia ebenfalls vor: Abseits theoretischer Zahlenspielchen, die keine architektonischen Verbesserungen berücksichtigen, zeigte der Hersteller Messwerte mehrerer Karten. Zwei Tesla P100 schlagen demzufolge zwei Tesla K80 durchweg. Das ist durchaus spannend, denn auf jeder K80 sitzen zwei GK210-Chips. Diese GPUs hat Nvidia für den HPC-Markt mit vergrößerten Registern und Caches ausgestattet. Die Tesla K80 basiert allerdings auf der zwei Generationen alten Kepler-Architektur.



Anzeige
Blu-ray-Angebote
  1. 34,99€

michi5579 07. Apr 2016

Wenn du Aufrüstbedarf hast und weisst wann die neuen Karten kommen und was sie können...

goosefx 07. Apr 2016

Ach ja, lang lang ist es her, da habe ich auch einen Vobis Highscreen Rechner mein...


Folgen Sie uns
       


Sky Ticket TV-Stick im Test

Wir haben den Sky Ticket TV Stick getestet. Der Streamingstick mit Fernbedienung bringt Sky Ticket auf den Fernseher, wenn dieser den Streamingdienst des Pay-TV-Anbieters nicht unterstützt. Auf dem Stick läuft das aktuelle Sky Ticket, das im Vergleich zur Vorgängerversion erheblich verbessert wurde. Den Sky Ticket TV gibt es quasi kostenlos, weil dieser nur zusammen mit passenden Sky-Ticket-Abos im Wert von 30 Euro angeboten wird.

Sky Ticket TV-Stick im Test Video aufrufen
Gesetzesentwurf: So will die Regierung den Abmahnmissbrauch eindämmen
Gesetzesentwurf
So will die Regierung den Abmahnmissbrauch eindämmen

Obwohl nach Inkrafttreten der DSGVO eine Abmahnwelle ausgeblieben ist, will Justizministerin Barley nun gesetzlich gegen missbräuchliche Abmahnungen vorgehen. Damit soll auch der "fliegende Gerichtsstand" im Wettbewerbsrecht abgeschafft werden.
Von Friedhelm Greis


    Lenovo Thinkpad T480s im Test: Das trotzdem beste Business-Notebook
    Lenovo Thinkpad T480s im Test
    Das trotzdem beste Business-Notebook

    Mit dem Thinkpad T480s verkauft Lenovo ein exzellentes 14-Zoll-Business-Notebook. Anschlüsse und Eingabegeräte überzeugen uns - leider ist aber die CPU konservativ eingestellt und ein gutes Display kostet extra.
    Ein Test von Marc Sauter und Sebastian Grüner

    1. Thinkpad E480/E485 im Test AMD gegen Intel in Lenovos 14-Zoll-Notebook
    2. Lenovo Das Thinkpad P1 ist das X1 Carbon als Workstation
    3. Thinkpad Ultra Docking Station im Test Das USB-Typ-C-Dock mit robuster Mechanik

    Fifa 19 und PES 2019 im Test: Knapper Punktsieg für EA Sports
    Fifa 19 und PES 2019 im Test
    Knapper Punktsieg für EA Sports

    Es ist eher eine Glaubens- als eine echte Qualitätsfrage: Fifa 19 oder PES 2019? Golem.de zieht anhand der Versionen für Playstation 4 den Vergleich - und kommt zu einem schwierigen, aber eindeutigen Urteil.
    Ein Test von Olaf Bleich und Benedikt Plass-Fleßenkämper

    1. Fifa 19 angespielt Präzisionsschüsse, Zweikämpfe und mehr Taktik
    2. EA Sports Fifa 18 bekommt kostenloses WM-Update
    3. Bestseller Fifa 18 schlägt Call of Duty in Europa

      •  /