Zum Hauptinhalt Zur Navigation

Trainiert Grok 3: Elon Musks X.AI nimmt Cluster mit 100.000 H100 in Betrieb

Große Sprachmodelle brauchen große Computer. Der neue Supercomputer von X.AI für KI -Training stellt andere Systeme in den Schatten.
/ Johannes Hiltscher
53 Kommentare News folgen (öffnet im neuen Fenster)
Der Chef baut mit: Elon Musk durfte beim Aufbau des neuen Supercomputers Kabel reichen. (Bild: X.AI via X)
Der Chef baut mit: Elon Musk durfte beim Aufbau des neuen Supercomputers Kabel reichen. Bild: X.AI via X

Elon Musk will sich mit Grok ein Stück vom Kuchen der großen Sprachmodelle (Large Language Models, LLMs) abschneiden. Um mit ChatGPT und Co. mithalten zu können, hat das Unternehmen einen neuen Supercomputer in Memphis, Tennessee, gebaut. Wie gewohnt denkt Musk dabei groß: Mit 100.000 H100-GPUs von Nvidia ist es das aktuell größte bekannte System. Wie Elon Musk auf X schrieb(öffnet im neuen Fenster) , läuft das System seit dem 22. Juli um 4:20 Uhr Ortszeit (11:20 Uhr MESZ).

Die Hardware nutzt X.AI, um die dritte Version seines Sprachmodells Grok zu trainieren. Das Training soll im Dezember 2024 abgeschlossen sein. Dass X.AI die Anzahl verfügbarer GPUs verfünffacht hat - die aktuelle Version von Grok trainierte noch auf 20.000 H100(öffnet im neuen Fenster) - lässt darauf schließen, dass Grok 3 nicht nur umfangreichere Trainingsdaten, sondern auch mehr Gewichtsparameter nutzen wird. Hier halten sich X.AI und andere Unternehmen mit Details zurück, Schätzungen für ChatGPT 4 gehen von etwa 1,7 Billionen Parametern(öffnet im neuen Fenster) aus. In ähnlicher Dimension dürfte Grok 3 liegen. Die Open-Source-Version von Grok 1 nutzt 314 Milliarden Parameter(öffnet im neuen Fenster) .

Das Sprachmodell hat für Musk große Bedeutung: Um den neuen Supercomputer möglichst schnell fertigzustellen, leitete er sogar 12.000 H100 um, die eigentlich für Tesla bestimmt waren . Auch hier kommen große, teils selbst entwickelte Computer für das Training der Fahrassistenzsysteme zum Einsatz.

Neben der Anzahl an GPUs sind nur wenige Informationen über den neuen Supercomputer bekannt. Gebaut wurde er, wie Musk im Juni 2024 mitteilte(öffnet im neuen Fenster) , von Dell und Supermicro. Als Netzwerk dürfte RDMA over converged Ethernet (ROCE) genutzt werden, Musk schreibt schlicht von RDMA. Die erwähnte Wasserkühlung ist bei Systemen dieser Größe üblich.

Rekorde sind bei KI-Supercomputern kurzlebig

Die meisten Unternehmen geben wenig Einblick in ihre für das KI-Training genutzten Supercomputer. Im März 2024 gestattete Meta einen Einblick in seine zwei Systeme mit insgesamt fast 50.000 H100 . Auch Meta will perspektivisch deutlich größere Systeme bauen.

Nice work by @xAI(öffnet im neuen Fenster) team, @X(öffnet im neuen Fenster) team, @Nvidia(öffnet im neuen Fenster) & supporting companies getting Memphis Supercluster training started at ~4:20am local time.

With 100k liquid-cooled H100s on a single RDMA fabric, it's the most powerful AI training cluster in the world!

— Elon Musk (@elonmusk) July 22, 2024(öffnet im neuen Fenster)

Ende 2023 plante Nvidia, mit Ceiba den leistungsfähigsten KI-Supercomputer der Welt zu bauen. Mit 16.384 GH200 Superchips ist er allerdings deutlich kleiner als X.AIs.


Relevante Themen