Nvidia GH200 & H200: Nvidia baut in Jülich ersten europäischen Exaflops-Computer

Erste Details zu Jupiter, dem geplanten schnellsten Supercomputer Europas, gab das Forschungszentrum Jülich im Oktober 2023 bekannt : Wie bereits frühere dort installierte Hochleistungsrechner wird Jupiter aus einem Cluster- und einem Booster-Modul bestehen. Das Cluster-Modul wird mit Rhea-CPUs von Sipearl ausgestattet, die Architektur des Booster-Moduls hat Nvidia im Rahmen der aktuell in Denver stattfindenden Konferenz SC 2023(öffnet im neuen Fenster) vorgestellt.
Jupiter bekommt demnach knapp 24.000 GH200-Superchips, welche die selbst entwickelte Grace-CPU mit 72 ARM-Kernen und eine H200 GPU kombinieren. Jeweils vier solcher Module sitzen in einem der wassergekühlten Eviden Bull XH3000 Blades. Für wissenschaftliche Anwendungen soll das Booster-Modul so auf 1 Exaflops FP64-Rechenleistung kommen - bei einer Leistungsaufnahme von 18,2 MW.
In den Vordergrund stellen allerdings sowohl das Forschungszentrum Jülich als auch Nvidia die KI-Leistung: Die liegt bei 93 Exa(fl)ops bei Int8/FP8. Damit soll Jupiter laut Nvidia der leistungsfähigste KI-Supercomputer der Welt werden. KI soll helfen, wissenschaftliche Berechnungen deutlich zu beschleunigen - von der Pharmaforschung bis zur Simulation von Quantencomputern. Vernetzt werden die einzelnen Knoten über Nvidias Infiniband Quantum-2. Der Aufbau von Jupiter soll Anfang 2024 beginnen.
Auch die H100 bekommt ein Upgrade
Jupiter bekommt bereits die neue Variante des Grace-Hopper-Superchips, dessen GPU-Chip mit mehr und schnellerem HBM-Speicher ausgestattet ist. Diese Aktualisierung hatte Nvidia bereits im August 2023 angekündigt . Zur SC hat das Unternehmen nun bekannt gegeben, dass auch die SXM-GPU-Module mit dem neuen Chip aktualisiert werden. Dass es 2024 ein neues Modell namens H200 geben soll, hatte Nvidia bereits angekündigt . Ausgeliefert werden sollen Systeme mit H200, etwa Nvidias eigenes HGX H200 mit acht SXMs, ab dem zweiten Quartal 2024.



H200 nutzt HBM3e- statt HBM3-Speicher, zudem werden alle sechs Module bestückt. Beim H100 ist eines der sechs Module, die auf dem Interposer Platz finden, lediglich totes Silizium. Mit HBM3e steigt die Datenrate der einzelnen Module um 20 Prozent , zudem werden 24- statt 16-GByte-Module verbaut. Damit stehen jeder GPU 141 GByte Speicher mit einer Bandbreite von 4,8 TByte/s zur Verfügung. Woher die unrunde Speicherkapazität kommt, teilte Nvidia bislang nicht mit. Nutzen soll der größere und schnellere Speicher insbesondere KI-Modellen, die mehr Parameter lokal vorhalten können, auf die schneller zugegriffen werden kann.
| Nvidia A100 (SXM) | Nvidia H100 (SXM) | Nvidia H200 (SXM) | |
|---|---|---|---|
| GPU (µArch) | GA100 (Ampere) | GH100 (Hopper) | GH100 (Hopper) |
| Node | 7N DUV (TSMC) | 4N EUV (TSMC) | 4N EUV (TSMC) |
| Transistoren | 54,2 Milliarden | 80 Milliarden | 80 Milliarden |
| ALUs | 6.912 (108 SMs) | 15.872 (132 SMs) | 15.872 (132 SMs) |
| Speicher | 80 GByte HBM2e | 80 GByte HBM3 | 141 GByte HBM3e |
| Bandbreite | 2,04 TByte/s | 3,07 TByte/s | 4,8 TByte/s |
| FP64 | 9,7 (19,5*) Teraflops | 30 (60*) Teraflops | 30 (60*) Teraflops |
| FP32 | 19,5 Teraflops | 60 Teraflops | 60 Teraflops |
| BF16 | 312 (624**) Teraflops | 1000* (2.000**) Teraflops | 1000* (2.000**) Teraflops |
| FP16 | 312* (624**) Teraflops | 1000* (2.000**) Teraflops | 1000* (2.000**) Teraflops |
| INT8 | 624* (1.248**) Teraops | 2.000* (4.000**) Teraops | 2.000* (4.000**) Teraops |
| TDP | 400 Watt | 700 Watt | 700 Watt? |
| P2P | 600 GByte/s (NV Link 3.0) | 900 GByte/s (NV Link 4.0) | 900 GByte/s (NV Link 4.0) |
| PCIe | Gen4 | Gen5 | Gen5 |
| Formfaktor | SXM4 | SXM5 | SXM5 |
Allein durch den schnelleren Speicher verspricht Nvidia im Vergleich zur H100 bis zu 90 Prozent mehr Leistung bei Llama2 mit 70 Milliarden Parametern. GPT3 mit 175 Milliarden Parametern soll 60 Prozent schneller laufen. Die sonstigen Parameter bleiben gleich, da dasselbe GPU-Die verbaut wird.



