Zum Hauptinhalt Zur Navigation

Neues Vera-Rubin-System: Nvidia übernimmt das ganze Rechenzentrum

GTC 2026
Nvidia hat die KI -Hardware von Groq bereits voll absorbiert – das braucht mehr Platz im Rechenzentrum. Für Privatkunden gab es zumindest ein neues DLSS.
/ Johannes Hiltscher
3 Kommentare News folgen (öffnet im neuen Fenster)
Ein Vera-Rubin-System nach Nvidias Vorstellung, besteht aus 40 Racks (Bild: Nvidia)
Ein Vera-Rubin-System nach Nvidias Vorstellung, besteht aus 40 Racks Bild: Nvidia
Inhalt
  1. Neues Vera-Rubin-System: Nvidia übernimmt das ganze Rechenzentrum
  2. Nvidia-Racks auf 20 m Länge

Nvidia hat in Santa Clara im US-Bundesstaat Kalifornien seine jährliche Hausmesse GTC 2026 abgehalten. Zu Beginn gab es einen Grund zum Feiern: Nvidias Programmierplattform Cuda (g+) wird in diesem Jahr 20 Jahre alt. Nvidia-CEO Jensen Huang bezeichnete die Plattform als Schwungrad: Die durch sie erreichten Fortschritte hätten neue Nutzer angezogen, die wiederum neue Ideen umgesetzt hätten.

Einen Grundstein dafür habe die große Verbreitung von Cuda gelegt, das auf jeder Nvidia-Desktop-GPU läuft. Mit diesen startete auch die Vorstellung – zwar nicht mit einer neuen Consumer-GPU-Generation, dafür aber mit DLSS 5 . Das führt nicht nur zu schöneren Bildern, sondern verändert diese deutlich: Gesichter und Texturen werden detailreicher.

Danach wechselte der Fokus auf Unternehmen: Den Anfang machten zwei neue Bibliotheken zur Datenverarbeitung mittels KI, cuDF für die Arbeit mit Datenbanken sowie cuVS für die Arbeit mit unstrukturierten Daten. Gegenüber klassischer Verarbeitung mit CPUs sollen die Kosten um rund drei Viertel sinken – zumindest hätten das Beispiele von IBM, Dell und Google Cloud gezeigt.

Groq ist bereits in Vera-Rubin-Rack-System integriert

Schwerpunkt war wie erwartet die Vera-Rubin-Plattform . Diese integriert bereits die LPU von Groq, das Nvidia im Dezember 2025 praktisch übernahm . Nvidia setzt dabei die bislang noch nicht vorgestellte dritte Generation der LPU namens LP30 ein. Gefertigt wird diese bei Samsung, was die Kapazitätsengpässe bei TSMC umgeht.

Die Groq-Prozessoren sollen insbesondere bei großen Modellen mit Billionen Parametern den Inferenz-Durchsatz im Vergleich zu Blackwell steigern. Damit könnten mehr Kunden bei Leading-Edge-Modellen bedient werden. Laut Huang ist eine Verfünffachung des Umsatzes gegenüber Blackwell möglich. LPU und Rubin-GPU arbeiten dabei als Einheit. Die Rubin-GPUs übernehmen den rechenintensiven Prefill-Teil, bei dem die Eingabe-Tokens verarbeitet und der KV-Cache befüllt werden. Auch der Attention-Mechanismus läuft auf den GPUs.

Die LPUs hingegen übernehmen den Decode-Part, bei dem es auf hohe Speicherbandbreite ankommt. Dafür werden die Gewichtsparameter benötigt, für die jede LPU 500 MByte schnellen SRAM enthält. Ein Rack mit 256 LPUs kommt dabei zwar nur auf 128 GByte RAM, dafür aber auf eine Speicherbandbreite von 40 Petabyte/s. Ein Rack mit Rubin-GPUs kommt trotz HBM4 nur auf 1,4 Petabyte/s.

Für Rubin Ultra sowie die nächste GPU-Generation Feynman sind jeweils neue LPU-Varianten – LP35 und LP40 – geplant. Die im vergangenen Jahr vorgestellte Rubin CPX (g+) , als Prefill-Beschleuniger geplant, wurde nicht mehr erwähnt. Auch gab es kaum neue Informationen zur Feynman-Generation. Neu war lediglich, dass Nvidia erstmals Dies stapeln und HBM mit nutzerspezifischem Base-Die (Custom HBM) nutzen will.

Neuer CPU-Konkurrent für AMD, Ampere und Intel

Während Nvidia die Grace-CPU erst spät separat anbot , sieht dies beim neuen ARM-Prozessor Vera anders aus: Er wird direkt für reine CPU-Systeme angeboten. HPE etwa bietet für sein neues Cray-GX5000-System das GX240-Blade mit 16 Vera-CPUs an. In einem Rack lassen sich damit 640 CPUs unterbringen. Die CPU soll laut Nvidia die doppelte Leistung pro Watt im Vergleich zu anderen Modellen erreichen.

Nvidia selbst wird Blades mit vier Vera-CPUs anbieten. Ein Rack kommt damit auf 256 CPUs und setzt auf eine Ethernet-Bus-Bar, wodurch die manuelle Verkabelung entfällt. Die CPU verfügt über 88 von Nvidia entwickelte Olympus-Kerne, die jeweils zwei Threads bearbeiten können. Als Speicher ist LPDDR5X vorgesehen, der mit 1.024 Bit angebunden zu sein scheint – Nvidia gibt eine Speicherbandbreite von 1,2 TByte/s an.

Daneben bietet Nvidia mit dem CX9 namens Bluefield4 STX(öffnet im neuen Fenster) eine eigene Storage-Lösung auf Basis von Vera-CPU und Connect-X9-NICs an. Damit kann ein komplettes Rechenzentrum nur mit Nvidia-Hardware aufgebaut werden.


Relevante Themen