Zum Hauptinhalt Zur Navigation

Nvidia GH200 & H200: Nvidia baut in Jülich ersten europäischen Exaflops-Computer

Jupiter soll der leistungsfähigste KI- Supercomputer der Welt werden. Basis ist Nvidias aktualisierter GH200 -Superchip, auch die H100 bekommt ein Upgrade.
/ Johannes Hiltscher
6 Kommentare News folgen (öffnet im neuen Fenster)
So soll Jupiter einmal aussehen. (Bild: Nvidia)
So soll Jupiter einmal aussehen. Bild: Nvidia

Erste Details zu Jupiter, dem geplanten schnellsten Supercomputer Europas, gab das Forschungszentrum Jülich im Oktober 2023 bekannt : Wie bereits frühere dort installierte Hochleistungsrechner wird Jupiter aus einem Cluster- und einem Booster-Modul bestehen. Das Cluster-Modul wird mit Rhea-CPUs von Sipearl ausgestattet, die Architektur des Booster-Moduls hat Nvidia im Rahmen der aktuell in Denver stattfindenden Konferenz SC 2023(öffnet im neuen Fenster) vorgestellt.

Jupiter bekommt demnach knapp 24.000 GH200-Superchips, welche die selbst entwickelte Grace-CPU mit 72 ARM-Kernen und eine H200 GPU kombinieren. Jeweils vier solcher Module sitzen in einem der wassergekühlten Eviden Bull XH3000 Blades. Für wissenschaftliche Anwendungen soll das Booster-Modul so auf 1 Exaflops FP64-Rechenleistung kommen - bei einer Leistungsaufnahme von 18,2 MW.

In den Vordergrund stellen allerdings sowohl das Forschungszentrum Jülich als auch Nvidia die KI-Leistung: Die liegt bei 93 Exa(fl)ops bei Int8/FP8. Damit soll Jupiter laut Nvidia der leistungsfähigste KI-Supercomputer der Welt werden. KI soll helfen, wissenschaftliche Berechnungen deutlich zu beschleunigen - von der Pharmaforschung bis zur Simulation von Quantencomputern. Vernetzt werden die einzelnen Knoten über Nvidias Infiniband Quantum-2. Der Aufbau von Jupiter soll Anfang 2024 beginnen.

Auch die H100 bekommt ein Upgrade

Jupiter bekommt bereits die neue Variante des Grace-Hopper-Superchips, dessen GPU-Chip mit mehr und schnellerem HBM-Speicher ausgestattet ist. Diese Aktualisierung hatte Nvidia bereits im August 2023 angekündigt . Zur SC hat das Unternehmen nun bekannt gegeben, dass auch die SXM-GPU-Module mit dem neuen Chip aktualisiert werden. Dass es 2024 ein neues Modell namens H200 geben soll, hatte Nvidia bereits angekündigt . Ausgeliefert werden sollen Systeme mit H200, etwa Nvidias eigenes HGX H200 mit acht SXMs, ab dem zweiten Quartal 2024.

H200 nutzt HBM3e- statt HBM3-Speicher, zudem werden alle sechs Module bestückt. Beim H100 ist eines der sechs Module, die auf dem Interposer Platz finden, lediglich totes Silizium. Mit HBM3e steigt die Datenrate der einzelnen Module um 20 Prozent , zudem werden 24- statt 16-GByte-Module verbaut. Damit stehen jeder GPU 141 GByte Speicher mit einer Bandbreite von 4,8 TByte/s zur Verfügung. Woher die unrunde Speicherkapazität kommt, teilte Nvidia bislang nicht mit. Nutzen soll der größere und schnellere Speicher insbesondere KI-Modellen, die mehr Parameter lokal vorhalten können, auf die schneller zugegriffen werden kann.

Tabelle Technische Daten von Nvidias H200 (Hopper) *via Tensor Cores **mit Sparsity ***via Matrix Cores
Nvidia A100 (SXM) Nvidia H100 (SXM) Nvidia H200 (SXM)
GPU (µArch) GA100 (Ampere) GH100 (Hopper) GH100 (Hopper)
Node 7N DUV (TSMC) 4N EUV (TSMC) 4N EUV (TSMC)
Transistoren 54,2 Milliarden 80 Milliarden 80 Milliarden
ALUs 6.912 (108 SMs) 15.872 (132 SMs) 15.872 (132 SMs)
Speicher 80 GByte HBM2e 80 GByte HBM3 141 GByte HBM3e
Bandbreite 2,04 TByte/s 3,07 TByte/s 4,8 TByte/s
FP64 9,7 (19,5*) Teraflops 30 (60*) Teraflops 30 (60*) Teraflops
FP32 19,5 Teraflops 60 Teraflops 60 Teraflops
BF16 312 (624**) Teraflops 1000* (2.000**) Teraflops 1000* (2.000**) Teraflops
FP16 312* (624**) Teraflops 1000* (2.000**) Teraflops 1000* (2.000**) Teraflops
INT8 624* (1.248**) Teraops 2.000* (4.000**) Teraops 2.000* (4.000**) Teraops
TDP 400 Watt 700 Watt 700 Watt?
P2P 600 GByte/s (NV Link 3.0) 900 GByte/s (NV Link 4.0) 900 GByte/s (NV Link 4.0)
PCIe Gen4 Gen5 Gen5
Formfaktor SXM4 SXM5 SXM5

Allein durch den schnelleren Speicher verspricht Nvidia im Vergleich zur H100 bis zu 90 Prozent mehr Leistung bei Llama2 mit 70 Milliarden Parametern. GPT3 mit 175 Milliarden Parametern soll 60 Prozent schneller laufen. Die sonstigen Parameter bleiben gleich, da dasselbe GPU-Die verbaut wird.


Relevante Themen