Zum Hauptinhalt Zur Navigation

Hopper H100: Nvidias riesiges GH100-Package abgelichtet

Ein sehr großer 4-nm-Chip und sechs HBM3-Stapel dazu: Nvidias Hopper GH100 für Supercomputer ist fertig, es mangelt aber noch an CPUs.
/ Marc Sauter
3 Kommentare News folgen (öffnet im neuen Fenster)
Nvidia H100 als SXM5-Beschleuniger (Bild: Serve The Home)
Nvidia H100 als SXM5-Beschleuniger Bild: Serve The Home

Nur wenige (Grafik-)Prozessoren der vergangenen Jahre belegten mehr Fläche: Der GH100 fällt mit 814 mm² so voluminös aus, dass er nahe der Grenze dessen liegt, was sich überhaupt belichten lässt. Bei einem Besuch im Nvidia-Headquarter im April 2022 konnte sich Serve The Home(öffnet im neuen Fenster) einen Eindruck von den Maßen des Packages, also Chip samt Stapelspeicher, machen und einige Plattforminformationen erhalten.

Der GH100 ist Teil des H100-Beschleunigers für Supercomputer: Er wird in einem 4N (nicht N4) genannten Verfahren von TSMC produziert, es handelt sich dabei um eine für Nvidia optimierte Variante des N5-Prozesses. Der Chip nutzt die neue Hopper-Architektur für mehr Leistung bei vor allem künstlicher Intelligenz, er wird mit HBM3 (High Bandwidth Memory) für eine sehr hohe Datentransferrate kombiniert.

Auf zwei Seiten des GH100 sind je drei Stacks vorhanden, in der derzeitigen Ausbaustufe sind davon aber nur fünf aktiv – das ergibt 3,07 TByte/s und zudem 80 GByte Kapazität. Das Package samt Chip und HBM3 wird auf ein Mezzanine-Modul, ein SXM5, montiert. Bis zu acht Stück davon werden auf ein Mainboard gesetzt und zumindest bisher von zwei CPUs mit Daten versorgt; für das HGX H100 hat Nvidia aber noch keinen Typ genannt.

AMD und Intel unterstützen PCIe Gen5

Laut den Informationen von Serve The Home existieren Referenzplattformen für Intels nächste Xeon-Generation alias Sapphire Rapids SP und für AMDs kommende Epyc 7004 alias Genoa , beide beherrschen das für den H100-Beschleuniger wichtige PCIe Gen5. Welcher der beiden Partner den Zuschlag erhält, will Nvidia in den kommenden Wochen und Monaten entscheiden. Der Power10 von IBM beherrscht ebenfalls PCIe Gen5, schaffte es aber nicht in die engere Auswahl.

Technische Daten von Nvidias H100 (Hopper) *via Tensor Cores **mit Sparsity ***via Matrix Cores
Nvidia A100 (SXM) Nvidia H100 (SXM) Instinct MI250X
GPU (µArch) GA100 (Ampere) GH100 (Hopper) 2x Aldebaran (CDNA2)
Node 7N DUV (TSMC) 4N EUV (TSMC) N6 EUV (TSMC)
Transistoren 54,2 Milliarden 80 Milliarden 2x 29,1 Milliarden
ALUs 6.912 (108 SMs) 15.872 (132 SMs) 14.080 (220 CUs)
Speicher 80 GByte HBM2e 80 GByte HBM3 128 GByte HBM2e
Bandbreite 2,04 TByte/s 3,07 TByte/s 3,28 TByte/s
FP64 9,7 (19,5*) Teraflops 30 (60*) Teraflops 47,9 (95,7***) Teraflops
FP32 19,5 Teraflops 60 Teraflops 47,9 (95,7***) Teraflops
BF16 312 (624**) Teraflops 1000* (2.000**) Teraflops 383 Teraops***
FP16 312* (624**) Teraflops 1000* (2.000**) Teraflops 383 Teraops***
INT8 624* (1.248**) Teraops 2.000* (4.000**) Teraops 383 Teraops***
TDP 400 Watt 700 Watt 560 Watt
P2P 600 GByte/s (NV Link 3.0) 900 GByte/s (NV Link 4.0) 800 GByte/s (8x IF Link)
PCIe Gen4 Gen5 Gen4
Formfaktor SXM4 SXM5 OAM

Um künftig nicht mehr auf externe Partner angewiesen zu sein, entwickelt Nvidia mit Grace eine eigene ARMv9-basierte CPU: Das Dual-Die-Design hat 144 Kerne und nutzt LPDDR5X-Speicher, vor allem aber gibt es mit dem NV-Link 4.0 eine Verbindung für die H100-Beschleuniger. Mit 900 GByte/s fällt diese deutlich schneller aus als die 128 GByte/s von PCIe Gen5 x16, was einer der Gründe ist, welcher für Grace spricht.

Nvidia zufolge sollen die H100-Beschleuniger und darauf basierende Systeme im dritten Quartal 2022 verfügbar sein, bis dahin dürften AMD sowie Intel ihre Server-CPUs veröffentlicht haben.


Relevante Themen