Zum Hauptinhalt Zur Navigation

KI-Beschleuniger: Nvidia stellt GB200 NVL2 für MGX-Server vor

Computex 2024
Die meisten Blackwell- GPUs gibt es von Nvidia nur im Komplettpaket für große KI-Server. Nun folgt ein MGX-Modul, das zu bisherigen Servern kompatibel ist.
/ Martin Böckmann
Kommentare News folgen (öffnet im neuen Fenster)
MGX-Server sind standardisiert und modular. Jetzt sind auch GB200-Module mit je einer Blackwell-GPU und einer Grace-CPU verfügbar. (Bild: Nvidia)
MGX-Server sind standardisiert und modular. Jetzt sind auch GB200-Module mit je einer Blackwell-GPU und einer Grace-CPU verfügbar. Bild: Nvidia

Nvidia hat auf der Computex 2024 noch einmal die Blackwell-GPUs für Rechenzentren und große KI-Projekte im Detail vorgestellt. Dabei wurde neben neuen Softwarefunktionen und KI-Modellen etwas versteckt die GB200-NVL2-GPU(öffnet im neuen Fenster) präsentiert, die im MGX-Formfaktor(öffnet im neuen Fenster) für normale Server einsetzbar ist. Anders als beim GB200 Superchip sind pro Einschub eine CPU und nur eine GPU verbaut.

Das soll die Integration in bestehende Serverdesigns der Hersteller einfacher machen, die Entwicklungskosten der Systeme sollen um 75 Prozent und die Entwicklungszeit um zwei Drittel sinken. Nvidia arbeitet laut eigenen Angaben mit 25 Partnern zusammen, um MGX-Systeme auf den Markt zu bringen.

Nvidia GB200 NVL-2
Nvidia GB200-NVL2 (je Modul, 2x pro MGX-System)
GPU Nvidia Blackwell B200
Speicher (GPU) 192 GByte HBM3e @ 8 TByte/s
CPU Nvidia Grace, 144 Kerne Arm Neoverse V2
Speicher (CPU) 480 GByte LPDDR5X @ 512 GByte/s
Verbindung GPU-CPU NVLink-C2C @ 900 GByte/s
Verbindung Modul-zu-Modul NVLink @ 1,8 TByte/s
FP4 Leistung (Sparsity) 40 PFLOPS
INT8 (Sparsity) 20 POPS
FP8/FP6 (Sparsity) 20 PFLOPS
FP16/BF16 (Sparsity) 10 PFLOPS
TF32 (Sparsity) 5 PFLOPS
FP32 180 TFLOPS
FP64/FP64 Tensor 90 TFLOPS

GB200 Server sollen vor allem für Inferenz eingesetzt werden, wo sie durch einen kohärenten Speicher von 1,3 TByte einen Vorteil gegenüber reinen GPU-Lösungen haben, die deutlich weniger Speicher haben. An jede Grace-CPU sind 480 GByte LPDDR5X mit einer Durchsatzrate von 512 GByte/s angebunden, zusätzlich dazu hat jede GPU 192 GByte HBM3e mit einem Durchsatz von 8 TByte/s.

NV-Link für schnelle Kommunikation

Die NVLink-Verbindung zwischen CPU und GPU hat eine Durchsatzrate von 900 GByte/s, zwischen den Modulen läuft NVLink mit 1,8 TByte/s. Prinzipiell bietet Nvidia damit einen GB200 Superchip, jedoch mit halber GPU-Performance durch das Weglassen einer GPU pro Modul. Das ist vermutlich für die MGX-Kompatibilität notwendig, um auch Kunden abseits von Betreibern großer Rechenzentren eine Lösung anbieten zu können.

Auf der Keynote vor der Computex 2024(öffnet im neuen Fenster) gab Nvidia-Chef Jensen Huang außerdem einen Ausblick auf einen Nachfolger der Grace-CPU. Neue KI-Systeme sollten im Jahrestakt veröffentlicht werden, womit die nächste CPU mit Codenamen Vera zeitgleich mit der Rubin-GPU-Architektur im Jahr 2026 erscheinen wird. Technische Details zur CPU gab es jedoch noch nicht.


Relevante Themen