KI-Beschleuniger: Nvidia stellt GB200 NVL2 für MGX-Server vor

Nvidia hat auf der Computex 2024 noch einmal die Blackwell-GPUs für Rechenzentren und große KI-Projekte im Detail vorgestellt. Dabei wurde neben neuen Softwarefunktionen und KI-Modellen etwas versteckt die GB200-NVL2-GPU(öffnet im neuen Fenster) präsentiert, die im MGX-Formfaktor(öffnet im neuen Fenster) für normale Server einsetzbar ist. Anders als beim GB200 Superchip sind pro Einschub eine CPU und nur eine GPU verbaut.
Das soll die Integration in bestehende Serverdesigns der Hersteller einfacher machen, die Entwicklungskosten der Systeme sollen um 75 Prozent und die Entwicklungszeit um zwei Drittel sinken. Nvidia arbeitet laut eigenen Angaben mit 25 Partnern zusammen, um MGX-Systeme auf den Markt zu bringen.
| Nvidia GB200-NVL2 (je Modul, 2x pro MGX-System) | |
| GPU | Nvidia Blackwell B200 |
| Speicher (GPU) | 192 GByte HBM3e @ 8 TByte/s |
| CPU | Nvidia Grace, 144 Kerne Arm Neoverse V2 |
| Speicher (CPU) | 480 GByte LPDDR5X @ 512 GByte/s |
| Verbindung GPU-CPU | NVLink-C2C @ 900 GByte/s |
| Verbindung Modul-zu-Modul | NVLink @ 1,8 TByte/s |
| FP4 Leistung (Sparsity) | 40 PFLOPS |
| INT8 (Sparsity) | 20 POPS |
| FP8/FP6 (Sparsity) | 20 PFLOPS |
| FP16/BF16 (Sparsity) | 10 PFLOPS |
| TF32 (Sparsity) | 5 PFLOPS |
| FP32 | 180 TFLOPS |
| FP64/FP64 Tensor | 90 TFLOPS |
GB200 Server sollen vor allem für Inferenz eingesetzt werden, wo sie durch einen kohärenten Speicher von 1,3 TByte einen Vorteil gegenüber reinen GPU-Lösungen haben, die deutlich weniger Speicher haben. An jede Grace-CPU sind 480 GByte LPDDR5X mit einer Durchsatzrate von 512 GByte/s angebunden, zusätzlich dazu hat jede GPU 192 GByte HBM3e mit einem Durchsatz von 8 TByte/s.
NV-Link für schnelle Kommunikation
Die NVLink-Verbindung zwischen CPU und GPU hat eine Durchsatzrate von 900 GByte/s, zwischen den Modulen läuft NVLink mit 1,8 TByte/s. Prinzipiell bietet Nvidia damit einen GB200 Superchip, jedoch mit halber GPU-Performance durch das Weglassen einer GPU pro Modul. Das ist vermutlich für die MGX-Kompatibilität notwendig, um auch Kunden abseits von Betreibern großer Rechenzentren eine Lösung anbieten zu können.

Auf der Keynote vor der Computex 2024(öffnet im neuen Fenster) gab Nvidia-Chef Jensen Huang außerdem einen Ausblick auf einen Nachfolger der Grace-CPU. Neue KI-Systeme sollten im Jahrestakt veröffentlicht werden, womit die nächste CPU mit Codenamen Vera zeitgleich mit der Rubin-GPU-Architektur im Jahr 2026 erscheinen wird. Technische Details zur CPU gab es jedoch noch nicht.



