Zum Hauptinhalt Zur Navigation

Keynote: Mehr Tokens, schnellere KI-Hardware und autonomes Fahren

GTC 2026
Nvidia -Chef Jensen Huang hat Fabriken für Tokens, neue Systeme rund um Vera Rubin sowie Software, Roboter und autonome Autos vorgestellt.
/ Peter Steinlechner
Kommentare News folgen (öffnet im neuen Fenster)
Nvidia-Chef Jensen Huang stellte auf der GTC 2026 neue Hardware vor. (Bild: Bild: Nvidia / Screenshot: Golem)
Nvidia-Chef Jensen Huang stellte auf der GTC 2026 neue Hardware vor. Bild: Bild: Nvidia / Screenshot: Golem
Inhalt
  1. Keynote: Mehr Tokens, schnellere KI-Hardware und autonomes Fahren
  2. Vera Rubin läuft bereits bei Microsoft

Nvidia-Chef Jensen Huang hat in seiner Keynote auf der GTC 2026 gleich zu Beginn klargemacht, worum es seiner Firma inzwischen gehe: nicht mehr nur um Chips, sondern eine komplette KI-Infrastruktur. "Wir sprechen über Technologie, wir sprechen über Plattformen" , sagte Huang.

Nvidia habe inzwischen drei große Plattformen aufgebaut: CUDA-X für Software, integrierte Systeme für Rechenzentren und nun auch sogenannte AI Factories.

Diese Idee zog sich durch die gesamte Präsentation: schnellere Inferenz, neue Rechenzentren als Token-Fabriken, eine neue Systemgeneration namens Vera Rubin, Agenten-Software mit OpenCLAW und am Ende auch neue Grafiktechnik wie DLSS 5.

Der wichtigste Punkt der Präsentation war jedoch kein einzelnes Produkt, sondern Huangs Erklärung, warum Nvidia seine Plattform so stark erweitere. KI habe sich in kurzer Zeit von generativ über schlussfolgernd zu agentisch entwickelt.

Aus Systemen, die Texte oder Bilder erzeugten, würden Systeme, die selbst Aufgaben erledigten. Huang beschrieb das als "Inference Inflection" , also den Moment, in dem die Nachfrage nach KI-Inferenz explodiere.

Die dafür benötigte Rechenleistung sei in zwei Jahren grob um das Zehntausendfache gestiegen. Zusammen mit der deutlich höheren Nutzung ergebe sich gefühlt sogar eine Million Mal mehr Bedarf.

Etwas konkreter wurde Huang beim Kern der Show: Nvidia baue seine KI-Systeme von Blackwell in Richtung der nächsten Plattformgeneration Vera Rubin aus. Blackwell mit NVLink-72-Architektur sei derzeit der wichtigste Motor für Inferenz-Workloads.

Vera Rubin soll die nächste Stufe für agentische KI werden. Laut Nvidia handelt es sich dabei um ein vollständig integriertes, flüssiggekühltes Rack-System mit neuer CPU-Architektur, neuem Storage-Stack und der sechsten Generation von NVLink.

Vor der Präsentation hatte Nvidia diese Strategie auch in einem Pre-Briefing erläutert, an dem Golem teilnahm. Dort erklärte das Unternehmen, dass künftig nicht einzelne Beschleuniger entscheidend seien, sondern komplette Systeme aus GPU, CPU, Netzwerk, Speicher und Software.

Deshalb sprach Huang auf der Bühne fast durchgehend über Racks und Rechenzentren statt über einzelne Chips.

Massiver Kostenvorteil angestrebt

Huang begründete das mit einem Begriff, den Nvidia inzwischen häufig verwendet: Rechenzentren seien AI Factories, also Fabriken für Tokens. In diesem Modell zählt nicht nur die rohe Leistung der Hardware, sondern vor allem, wie viele nutzbare Tokens ein Rechenzentrum erzeugen kann.

Deshalb betonte Huang mehrfach, Nvidia wolle die "niedrigsten Kosten pro Token" liefern. In seinem Beispiel soll Blackwell den möglichen Umsatz einer solchen KI-Fabrik verfünffachen, Vera Rubin anschließend noch einmal deutlich steigern. Für Nvidia ist das weniger eine klassische Hardware-Roadmap als ein neues Geschäftsmodell für KI-Rechenzentren.

Neu ist außerdem die Verbindung von Vera Rubin mit Groq-Technik. Nvidia sprach von Dynamo als Softwareschicht, die Inferenz-Workloads aufteile: hoher Durchsatz auf Nvidia-Hardware, besonders latenzkritische Token-Generierung auf Groq-Systemen.

Laut Huang kann das bei bestimmten Inferenz-Workloads eine "35-fache Leistungssteigerung" bringen. Für das Groq-LPX-System nannte Huang sogar einen groben Zeitplan: Dieses sei bereits in Produktion und werde in der zweiten Jahreshälfte 2026 ausgeliefert.


Relevante Themen