Abo
  • Services:

Pascal-Grafikchip: Benchmarks und Details zum GP100

Nvidia hat ein paar zusätzliche Informationen zum GP100-Chip und der Tesla P100 mit Pascal-Technik verraten: Das Package ist für 32 statt 16 GByte HBM2-Speicher vorbereitet, was für künftige Modelle interessant wird. Erste Benchmarks zeigen, dass der Beschleuniger wie erwartet vor allem bei FP16- und FP64-Berechnungen stark ist.

Artikel veröffentlicht am ,
Tesla P100 mit GP100-Chip
Tesla P100 mit GP100-Chip (Bild: Marc Sauter/Golem.de)

Nvidia hat auf der GPU Technology Conference 2016 in San Jose, Kalifornien weitere Details und erste Messwerte zum GP100-Grafikchip und dem darauf basierenden Rechenbeschleuniger Tesla P100 bekannt gegeben. Im Nachgang der Keynote von CEO Jen-Hsun Huang gab es eine kurze Q&A mit Jonah Alben, Senior Vice President von GPU Engineering, und eine Deep-Dive-Session über die neue Pascal-Architektur. Die pickte sich aber nur einige Informationen aus dem Blog-Eintrag heraus und ließ daher Fragen offen.

Stellenmarkt
  1. MailStore Software GmbH, Viersen
  2. Fritz Kübler GmbH, Villingen-Schwenningen

Interessant war hierbei ein rudimentäres Blockdiagramm des GP100-Chips: Zwar fehlen dort die Raster- und die für Tessellation wichtigen Polymorph-Engines, dafür wird der Aufbau der sechs Graphics Processor Cluster klarer. Jeder enthält fünf TPCs - diese Bezeichnung verwendete Nvidia zuletzt beim G80, damals stand sie für Texture Processor Cluster. Pro TPC gibt es zwei Streaming Multiprocessors (SMP), die in zwei Blöcke mit jeweils 32 Shader-ALUs, eigenen Schedulern, Dispach-Ports und Register-Files unterteilt sind. Der Aufbau erinnert stark an AMDs aktuelle GCN-Technik (Graphics Core Next), die seit 2011 verwendet wird.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)

Verglichen mit der Maxwell-v2-Architektur fällt beim GP100-Chip auf, dass Nvidia die Anzahl der ALUs pro Streaming Multiprocessor halbiert hat. Dadurch verdoppeln sich pro Shader-Einheit die verfügbaren Ressourcen wie der Warp-Scheduler, das Register-File und die interne Bandbreite. Der gemeinsame Speicher der ALUs fasst 64 statt 96 KByte, allerdings greifen auf diesen 64 statt 128 Einheiten zu - das macht ein Drittel mehr Shared Memory pro Rechenwerk. Unterm Strich kann der GP100 also mehr Daten lokal vorhalten und schneller abarbeiten, sodass die Geschwindigkeit pro ALU und Takt steigt.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)

Um Informationen zum Grafikchip und dessen internen Speichern zu transportieren, hat Nvidia dem GP100 ein Speicherinterface für High Bandwidth Memory spendiert. Die Tesla P100 nutzt 16 GByte HBM2 in Form von vier 4-Hi-Stacks. Die takten mit rund 1,4 GHz und hängen jeweils an einem 1.024 Bit breiten Interface, was eine Datentransfer-Rate von 720 GByte pro Sekunde ergibt. Mittelfristig dürfte die Karte jedoch mit doppelt so viel Videospeicher ausgerüstet werden, was Nvidia beim Design berücksichtigt hat.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)

Der 4-Hi-HBM2 ist flacher als der GP100-Chip, weshalb ein Spacer beide Dies auf die gleiche Höhe bringt. Bei AMDs Fury X gleicht schlicht Wärmeleitpaste die geringfügig unterschiedliche Bauhöhe aus. Auch wenn SK Hynix oder Samsung 8-Hi-Stacks mit 8 statt 4 GByte Kapazität liefern können und Nvidia die Tesla P100 aktualisiert hat, bleibt der der Spacer gleich, da das Package bei HBM2 auch mit 8Hi gleich hoch ausfällt. Beide Speicherhersteller geben an, 8-Hi-Stacks ab Ende 2016 in Serie produzieren zu wollen. Da die Beschleunigerkarte aber so schnell keinen Nachfolger erhalten dürfte, bleibt ausreichend Zeit eine Version mit verdoppeltem Videospeicher nachzuschieben - zuletzt ging Nvidia bei der Quadro M6000 ähnlich vor.

  • Blockdiagramm des GP100 (Bild: Marc Sauter/Golem.de)
  • Aufbau eines SM des GP100 (Bild: Marc Sauter/Golem.de)
  • Durch die reduzierte ALU-Anzahl in einem SM kann jede Einheit auf mehr Ressourcen zugreifen (Bild: Marc Sauter/Golem.de)
  • GP100 berechnet HP, SP und DP im Verhältnis 4:2:1 (Bild: Marc Sauter/Golem.de)
  • Auf der Rückseite sitzen die NV-Link-Anschlüsse (Bild: Marc Sauter/Golem.de)
  • Jede Tesla P100 nutzt vier NV-Links (Bild: Marc Sauter/Golem.de)
  • GP100 kommuniziert per NV-Link statt per PCIe (Bild: Marc Sauter/Golem.de)
  • Bei Power-CPUs können diese ebenfalls über NV-Link angesprochen werden (Bild: Marc Sauter/Golem.de)
  • Derzeit nutzt Nvidia 4-Hi-Stacks, der Spacer ist aber schon für 8-Hi-Stacks vorbereitet (Bild: Marc Sauter/Golem.de)
  • SK Hynix zeigt mögliche HBM2-Lösungen samt Datenraten (Bild: Marc Sauter/Golem.de)
  • HBM2 ist deutlich größer als HBM1 (Bild: Marc Sauter/Golem.de)
  • Theoretische Rechenleistung und Bandbreite von Tesla P100 im Vergleich mit einer M40 und K40 (Bild: Marc Sauter/Golem.de)
  • Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)
  • Tesla P100 (Bild: Marc Sauter/Golem.de)
  • GP100-Chip mit vier HBM2-Stacks (Bild: Marc Sauter/Golem.de)
  • Acht Tesla P100 in einem Rack (Bild: Marc Sauter/Golem.de)
Benchmarks von Tesla P100 und K80 (Bild: Marc Sauter/Golem.de)

Erste Messungen zur neuen Tesla P100 legte Nvidia ebenfalls vor: Abseits theoretischer Zahlenspielchen, die keine architektonischen Verbesserungen berücksichtigen, zeigte der Hersteller Messwerte mehrerer Karten. Zwei Tesla P100 schlagen demzufolge zwei Tesla K80 durchweg. Das ist durchaus spannend, denn auf jeder K80 sitzen zwei GK210-Chips. Diese GPUs hat Nvidia für den HPC-Markt mit vergrößerten Registern und Caches ausgestattet. Die Tesla K80 basiert allerdings auf der zwei Generationen alten Kepler-Architektur.



Anzeige
Spiele-Angebote
  1. 3,49€
  2. 54,99€ mit Vorbesteller-Preisgarantie
  3. 16,99€

michi5579 07. Apr 2016

Wenn du Aufrüstbedarf hast und weisst wann die neuen Karten kommen und was sie können...

goosefx 07. Apr 2016

Ach ja, lang lang ist es her, da habe ich auch einen Vobis Highscreen Rechner mein...


Folgen Sie uns
       


Gemini PDA - Test

Ein PDA im Jahr 2018? Im Test sind wir nicht restlos überzeugt - was vor allem an der Gerätegattung selber liegt.

Gemini PDA - Test Video aufrufen
Sun to Liquid: Wie mit Sonnenlicht sauberes Kerosin erzeugt wird
Sun to Liquid
Wie mit Sonnenlicht sauberes Kerosin erzeugt wird

Wasser, Kohlendioxid und Sonnenlicht ergeben: Treibstoff. In Spanien wird eine Anlage in Betrieb genommen, in der mit Hilfe von Sonnenlicht eine Vorstufe für synthetisches Kerosin erzeugt oder Wasserstoff gewonnen wird. Ein Projektverantwortlicher vom DLR hat uns erklärt, warum die Forschung an Brennstoffen trotz Energiewende sinnvoll ist.
Ein Bericht von Werner Pluta

  1. Deep Sea Mining Deep Green holte Manganknollen vom Meeresgrund
  2. Klimaschutz Unter der Erde ist das Kohlendioxid gut aufgehoben
  3. Physik Maserlicht aus Diamant

IT-Jobs: Fünf neue Mitarbeiter in fünf Wochen?
IT-Jobs
Fünf neue Mitarbeiter in fünf Wochen?

Startups müssen oft kurzfristig viele Stellen besetzen. Wir waren bei dem Berliner Unternehmen Next Big Thing dabei, als es auf einen Schlag Bewerber für fünf Jobs suchte.
Ein Bericht von Juliane Gringer

  1. Frauen in IT-Berufen Programmierte Klischees
  2. Bitkom Research Höherer Frauenanteil in der deutschen IT-Branche
  3. Recruiting IT-Experten brauchen harte Fakten

Business-Festival: Cebit verliert 70.000 Besucher und ist hochzufrieden
Business-Festival
Cebit verliert 70.000 Besucher und ist hochzufrieden

Cebit 2018 Zur ersten neuen Cebit sind deutlich weniger Besucher als im Vorjahr gekommen. Dennoch feiern Messe AG, Bitkom und Aussteller den Relaunch der Veranstaltung als Erfolg. Die Cebit 2019 wird erneut etwas verlegt.

  1. Festival statt Technikmesse "Die neue Cebit ist ein Proof of Concept"

    •  /