Suche

Nvidia GH200 & H200: Nvidia baut in Jülich ersten europäischen Exaflops-Computer

Jupiter soll der leistungsfähigste KI-Supercomputer der Welt werden. Basis ist Nvidias aktualisierter GH200-Superchip, auch die H100 bekommt ein Upgrade.

Artikel veröffentlicht am , Johannes Hiltscher
So soll Jupiter einmal aussehen. (Bild: Nvidia)

Erste Details zu Jupiter, dem geplanten schnellsten Supercomputer Europas, gab das Forschungszentrum Jülich im Oktober 2023 bekannt: Wie bereits frühere dort installierte Hochleistungsrechner wird Jupiter aus einem Cluster- und einem Booster-Modul bestehen. Das Cluster-Modul wird mit Rhea-CPUs von Sipearl ausgestattet, die Architektur des Booster-Moduls hat Nvidia im Rahmen der aktuell in Denver stattfindenden Konferenz SC 2023 vorgestellt.

Anzeige

Jupiter bekommt demnach knapp 24.000 GH200-Superchips, welche die selbst entwickelte Grace-CPU mit 72 ARM-Kernen und eine H200 GPU kombinieren. Jeweils vier solcher Module sitzen in einem der wassergekühlten Eviden Bull XH3000 Blades. Für wissenschaftliche Anwendungen soll das Booster-Modul so auf 1 Exaflops FP64-Rechenleistung kommen – bei einer Leistungsaufnahme von 18,2 MW.

In den Vordergrund stellen allerdings sowohl das Forschungszentrum Jülich als auch Nvidia die KI-Leistung: Die liegt bei 93 Exa(fl)ops bei Int8/FP8. Damit soll Jupiter laut Nvidia der leistungsfähigste KI-Supercomputer der Welt werden. KI soll helfen, wissenschaftliche Berechnungen deutlich zu beschleunigen – von der Pharmaforschung bis zur Simulation von Quantencomputern. Vernetzt werden die einzelnen Knoten über Nvidias Infiniband Quantum-2. Der Aufbau von Jupiter soll Anfang 2024 beginnen.

Auch die H100 bekommt ein Upgrade

Jupiter bekommt bereits die neue Variante des Grace-Hopper-Superchips, dessen GPU-Chip mit mehr und schnellerem HBM-Speicher ausgestattet ist. Diese Aktualisierung hatte Nvidia bereits im August 2023 angekündigt. Zur SC hat das Unternehmen nun bekannt gegeben, dass auch die SXM-GPU-Module mit dem neuen Chip aktualisiert werden. Dass es 2024 ein neues Modell namens H200 geben soll, hatte Nvidia bereits angekündigt. Ausgeliefert werden sollen Systeme mit H200, etwa Nvidias eigenes HGX H200 mit acht SXMs, ab dem zweiten Quartal 2024.

Anzeige

Äußerlich unverändert: Der GH200-Super-Chip kommt mit deutlich mehr und schnellerem HBM3e-Speicher. (Bild: Nvidia) [1/3]

Auch mit H200 packt Nvidia bis zu acht SXM in ein Gehäuse. (Bild: Nvidia) [2/3]

Jupiters Booster-Modul wird aus diesen XH3000-Blades von Bull aufgebaut. (Bild: Nvidia) [3/3]

H200 nutzt HBM3e- statt HBM3-Speicher, zudem werden alle sechs Module bestückt. Beim H100 ist eines der sechs Module, die auf dem Interposer Platz finden, lediglich totes Silizium. Mit HBM3e steigt die Datenrate der einzelnen Module um 20 Prozent, zudem werden 24- statt 16-GByte-Module verbaut. Damit stehen jeder GPU 141 GByte Speicher mit einer Bandbreite von 4,8 TByte/s zur Verfügung. Woher die unrunde Speicherkapazität kommt, teilte Nvidia bislang nicht mit. Nutzen soll der größere und schnellere Speicher insbesondere KI-Modellen, die mehr Parameter lokal vorhalten können, auf die schneller zugegriffen werden kann.

Nvidia A100 (SXM)Nvidia H100 (SXM)Nvidia H200 (SXM)
GPU (µArch)GA100 (Ampere)GH100 (Hopper)GH100 (Hopper)
Node7N DUV (TSMC)4N EUV (TSMC)4N EUV (TSMC)
Transistoren54,2 Milliarden80 Milliarden80 Milliarden
ALUs6.912 (108 SMs)15.872 (132 SMs)15.872 (132 SMs)
Speicher80 GByte HBM2e80 GByte HBM3141 GByte HBM3e
Bandbreite2,04 TByte/s3,07 TByte/s4,8 TByte/s
FP649,7 (19,5*) Teraflops30 (60*) Teraflops30 (60*) Teraflops
FP3219,5 Teraflops60 Teraflops60 Teraflops
BF16312 (624**) Teraflops1000* (2.000**) Teraflops1000* (2.000**) Teraflops
FP16312* (624**) Teraflops1000* (2.000**) Teraflops1000* (2.000**) Teraflops
INT8624* (1.248**) Teraops2.000* (4.000**) Teraops2.000* (4.000**) Teraops
TDP400 Watt700 Watt700 Watt?
P2P600 GByte/s (NV Link 3.0)900 GByte/s (NV Link 4.0)900 GByte/s (NV Link 4.0)
PCIeGen4Gen5Gen5
FormfaktorSXM4SXM5SXM5
Tabelle Technische Daten von Nvidias H200 (Hopper) *via Tensor Cores **mit Sparsity ***via Matrix Cores

Allein durch den schnelleren Speicher verspricht Nvidia im Vergleich zur H100 bis zu 90 Prozent mehr Leistung bei Llama2 mit 70 Milliarden Parametern. GPT3 mit 175 Milliarden Parametern soll 60 Prozent schneller laufen. Die sonstigen Parameter bleiben gleich, da dasselbe GPU-Die verbaut wird.