Abo
  • IT-Karriere:

Pascal-Grafikchip: Benchmarks und Details zum GP100

Nvidia hat ein paar zusätzliche Informationen zum GP100-Chip und der Tesla P100 mit Pascal-Technik verraten: Das Package ist für 32 statt 16 GByte HBM2-Speicher vorbereitet, was für künftige Modelle interessant wird. Erste Benchmarks zeigen, dass der Beschleuniger wie erwartet vor allem bei FP16- und FP64-Berechnungen stark ist.

Artikel veröffentlicht am ,
Tesla P100 mit GP100-Chip
Tesla P100 mit GP100-Chip (Bild: Marc Sauter/Golem.de)

Nvidia hat auf der GPU Technology Conference 2016 in San Jose, Kalifornien weitere Details und erste Messwerte zum GP100-Grafikchip und dem darauf basierenden Rechenbeschleuniger Tesla P100 bekannt gegeben. Im Nachgang der Keynote von CEO Jen-Hsun Huang gab es eine kurze Q&A mit Jonah Alben, Senior Vice President von GPU Engineering, und eine Deep-Dive-Session über die neue Pascal-Architektur. Die pickte sich aber nur einige Informationen aus dem Blog-Eintrag heraus und ließ daher Fragen offen.

Stellenmarkt
  1. Winicker Norimed GmbH Medizinische Forschung, Nürnberg
  2. Pfennigparade SIGMETA GmbH, München

Interessant war hierbei ein rudimentäres Blockdiagramm des GP100-Chips: Zwar fehlen dort die Raster- und die für Tessellation wichtigen Polymorph-Engines, dafür wird der Aufbau der sechs Graphics Processor Cluster klarer. Jeder enthält fünf TPCs - diese Bezeichnung verwendete Nvidia zuletzt beim G80, damals stand sie für Texture Processor Cluster. Pro TPC gibt es zwei Streaming Multiprocessors (SMP), die in zwei Blöcke mit jeweils 32 Shader-ALUs, eigenen Schedulern, Dispach-Ports und Register-Files unterteilt sind. Der Aufbau erinnert stark an AMDs aktuelle GCN-Technik (Graphics Core Next), die seit 2011 verwendet wird.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)

Verglichen mit der Maxwell-v2-Architektur fällt beim GP100-Chip auf, dass Nvidia die Anzahl der ALUs pro Streaming Multiprocessor halbiert hat. Dadurch verdoppeln sich pro Shader-Einheit die verfügbaren Ressourcen wie der Warp-Scheduler, das Register-File und die interne Bandbreite. Der gemeinsame Speicher der ALUs fasst 64 statt 96 KByte, allerdings greifen auf diesen 64 statt 128 Einheiten zu - das macht ein Drittel mehr Shared Memory pro Rechenwerk. Unterm Strich kann der GP100 also mehr Daten lokal vorhalten und schneller abarbeiten, sodass die Geschwindigkeit pro ALU und Takt steigt.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)

Um Informationen zum Grafikchip und dessen internen Speichern zu transportieren, hat Nvidia dem GP100 ein Speicherinterface für High Bandwidth Memory spendiert. Die Tesla P100 nutzt 16 GByte HBM2 in Form von vier 4-Hi-Stacks. Die takten mit rund 1,4 GHz und hängen jeweils an einem 1.024 Bit breiten Interface, was eine Datentransfer-Rate von 720 GByte pro Sekunde ergibt. Mittelfristig dürfte die Karte jedoch mit doppelt so viel Videospeicher ausgerüstet werden, was Nvidia beim Design berücksichtigt hat.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)

Der 4-Hi-HBM2 ist flacher als der GP100-Chip, weshalb ein Spacer beide Dies auf die gleiche Höhe bringt. Bei AMDs Fury X gleicht schlicht Wärmeleitpaste die geringfügig unterschiedliche Bauhöhe aus. Auch wenn SK Hynix oder Samsung 8-Hi-Stacks mit 8 statt 4 GByte Kapazität liefern können und Nvidia die Tesla P100 aktualisiert hat, bleibt der der Spacer gleich, da das Package bei HBM2 auch mit 8Hi gleich hoch ausfällt. Beide Speicherhersteller geben an, 8-Hi-Stacks ab Ende 2016 in Serie produzieren zu wollen. Da die Beschleunigerkarte aber so schnell keinen Nachfolger erhalten dürfte, bleibt ausreichend Zeit eine Version mit verdoppeltem Videospeicher nachzuschieben - zuletzt ging Nvidia bei der Quadro M6000 ähnlich vor.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)

Erste Messungen zur neuen Tesla P100 legte Nvidia ebenfalls vor: Abseits theoretischer Zahlenspielchen, die keine architektonischen Verbesserungen berücksichtigen, zeigte der Hersteller Messwerte mehrerer Karten. Zwei Tesla P100 schlagen demzufolge zwei Tesla K80 durchweg. Das ist durchaus spannend, denn auf jeder K80 sitzen zwei GK210-Chips. Diese GPUs hat Nvidia für den HPC-Markt mit vergrößerten Registern und Caches ausgestattet. Die Tesla K80 basiert allerdings auf der zwei Generationen alten Kepler-Architektur.



Anzeige
Top-Angebote
  1. (u. a. GTA 5 für 12,99€, Landwirtschafts-Simulator 19 für 27,99€, Battlefield V für 32,99€)
  2. 849,00€ (Bestpreis!)
  3. 169,00€
  4. 27,49€ (Bestpreis!)

michi5579 07. Apr 2016

Wenn du Aufrüstbedarf hast und weisst wann die neuen Karten kommen und was sie können...

goosefx 07. Apr 2016

Ach ja, lang lang ist es her, da habe ich auch einen Vobis Highscreen Rechner mein...


Folgen Sie uns
       


ANC-Kopfhörer im Lautstärkevergleich

Wir haben Microsofts Surface Headphones und die Jabra Elite 85h bei der ANC-Leistung verglichen. Für einen besseren Vergleich zeigen wir auch die besonders leistungsfähigen ANC-Kopfhörer von Sony und Bose, die WH-1000XM3 und die Quiet Comfort 35 II.

ANC-Kopfhörer im Lautstärkevergleich Video aufrufen
Mordhau angespielt: Die mit dem Schwertknauf zuschlagen
Mordhau angespielt
Die mit dem Schwertknauf zuschlagen

Ein herausfordernd-komplexes Kampfsystem, trotzdem schnelle Action mit Anleihen bei Chivalry und For Honor: Das vom Entwicklerstudio Triternion produzierte Mordhau schickt Spieler in mittelalterlich anmutende Multiplayergefechte mit klirrenden Schwertern und hohem Spaßfaktor.
Von Peter Steinlechner

  1. Bus Simulator angespielt Zwischen Bodenschwelle und Haltestelle
  2. Bright Memory angespielt Brachialer PC-Shooter aus China

Bethesda: Ich habe TES Blades für 5,50 Euro durchgespielt
Bethesda
Ich habe TES Blades für 5,50 Euro durchgespielt

Rund sechs Wochen lang hatte ich täglich viele spaßige und auch einige frustrierende Erlebnisse in Tamriel: Mittlerweile habe ich den Hexenkönig in TES Blades besiegt - ohne dafür teuer bezahlen zu müssen.
Ein Bericht von Marc Sauter

  1. Bethesda TES Blades erhält mehr Story-Inhalte und besseres Balancing
  2. Bethesda TES Blades ist für alle verfügbar
  3. TES Blades im Test Tolles Tamriel trollt

Lightyear One: Luxus-Elektroauto fährt auch mit Solarstrom
Lightyear One
Luxus-Elektroauto fährt auch mit Solarstrom

Ein niederländisches Jungunternehmen hat ein ungewöhnliches Fahrzeug entwickelt, das Luxus und Umweltfreundlichkeit kombiniert. Solarzellen auf dem Dach erhöhen die Reichweite um bis zu 220 Kilometer.
Von Wolfgang Kempkens

  1. Elektroautos e.GO Mobile liefert erste Fahrzeuge aus
  2. Volkswagen Über 10.000 Vorreservierungen für den ID.3 in 24 Stunden
  3. Zellproduktion EU macht Druck auf Altmaier wegen Batteriezellenfabrik

    •  /