x.AI Colossus: 100.000 Nvidia H100 und der Mythos Musk

Innerhalb von nur 19 Tagen sollen bei dem von Elon Musk geleiteten X.AI, das hinter dem großen Sprachmodell (LLM, Large Language Model) Grok steht, 100.000 H100 von Nvidia installiert worden sein. Die Zahl stammt aus einem über X verbreiteten Ausschnitt(öffnet im neuen Fenster) des Podcasts BG2Pod(öffnet im neuen Fenster) von Brad Gerstner und Bill Gurley mit Nvidia-CEO Jensen Huang. Einig sind sich in diesem Ausschnitt, der - Achtung, Meinung - mit cringe gut zusammengefasst ist, alle, dass dies allein dank Musks einzigartigem Organisationstalent möglich gewesen sei.
Serve The Home (STH) durfte sich den Colossus gennanten Supercomputer, zu dem die 100.000 H100 gehören, nun aus der Nähe ansehen, herausgekommen sind ein Video(öffnet im neuen Fenster) und ein Artikel(öffnet im neuen Fenster) , die neutraler sind.
Natürlich kommt auch STH nicht umhin, sich eingangs bei Elon Musk zu bedanken, der das möglich gemacht habe. Danach werden die 19 Tage zurechtgerückt: Dabei handelt es sich rein um die Zeit für die Installation der Rechentechnik, wir kommen noch darauf zurück.
Insgesamt soll der Aufbau 122 Tage gedauert haben, laut einer Pressemitteilung von Nvidia(öffnet im neuen Fenster) inklusive zugehöriger Infrastruktur. Offen bleibt, was die umfasst: Im einfachsten Fall nur die Installation innerhalb der Hallen für die Server.
Die vier Hallen, in denen aktuell jeweils 25.000 H100 installiert sind, mussten auch gebaut, außerdem Wasser und Strom verlegt und Klimatechnik installiert werden. Hier ließe sich noch vieles parallelisieren. Aber eine Anschlussleistung von mutmaßlich 150 MW oder mehr - allein die H100 kommen auf eine TDP von 70 MW - bereitzustellen, dauert seine Zeit.
Ob die Netzwerke der vier Hallen überhaupt verbunden sind, bleibt ebenfalls offen. Und vor dem Bau kommt noch die Planung. Über die Zeit dafür haben wir noch nicht einmal gesprochen.
Colossus ist die Pyramide, Musk der Pharao
Die Berichterstattung über Colossus erinnert oft an Bertolt Brechts Gedicht Fragen eines lesenden Arbeiters(öffnet im neuen Fenster) : Musk steht stets im Mittelpunkt, obwohl er am Bau nicht beteiligt war ( für ein Foto durfte er einmal Kabel halten ), sehr wahrscheinlich auch nicht an den Details der Planung. Das ist auch gar nicht die Aufgabe eines CEO.
Wie viele Personen am Aufbau des Clusters beteiligt waren, wird nie erwähnt. Allein auf einem von X.AI geteilten Bild sind neben Elon Musk 56 Mitarbeiter zu sehen. Das ist auch wichtig, denn der Aufbau eines Hochleistungsrechners ist kein Leistungssport, sondern erfordert Präzision und Planung.
Wenn tatsächlich, wie einer der Gesprächspartner Huangs im eingangs erwähnten Video sagt, fast drei Wochen "niemand geschlafen" hätte, wäre das Ergebnis Chaos. Schließlich muss etwa jedes Netzwerkkabel am richtigen Port stecken.
Jensen Huang lobt zwar die Ingenieure und das Netzwerkteam, über allem steht aber Musks einmaliges Verständnis und Organisationstalent. Kein Bericht kommt zudem ohne die Bemerkung aus, dass ein Projekt dieser Größenordnung sonst Jahre dauere. Dabei wird unterschlagen, dass es sich dabei bislang fast ausschließlich um öffentliche Projekte handelte.
Ein Unternehmen ist kein Forschungsinstitut
Hier sind aber die Entscheidungsprozesse wesentlich langwieriger als in einem Unternehmen. Bevor Geld ausgegeben wird, diskutieren erst einmal Parlamente. Darauf folgen Ausschreibungsverfahren. Die Leitung des Oak Ridge National Laboratory, an dem aktuell der zumindest gemessen leistungsfähigste Großrechner der Welt steht , kann sich nicht einfach wie Musk mit Nvidia-CEO Huang treffen und über die Lieferung von 100.000 H100 verhandeln.
Damit keine Missverständnisse entstehen: Der reibungslose Aufbau eines derart großen Rechenclusters ist eine große logistische Aufgabe. Den Menschen, die dies geplant und in kurzer Zeit durchgeführt haben, gebührt Anerkennung. Auch das Video von Serve The Home ist sehenswert und die Hardware wirklich spannend.
Sie macht auch solche kurzen Installationszeiten erst möglich, werfen wir also noch einen Blick darauf.
Die Technik hinter dem 19-Tage-Aufbau
X.AI nutzt für Colossus GPU-Superserver von Supermicro(öffnet im neuen Fenster) , die auf Nvidias HGX-Plattform aufbauen. Sie bestehen aus einem Gehäuse mit zwei Einschüben, von denen einer acht H100 oder H200 im Formfaktor SXM sowie einen Nvlink-Switch enthält, der andere zwei Xeon-Prozessoren. CPUs und GPUs sind wassergekühlt, für den Rest sind vier Lüfter installiert. Die Racks haben eine eingebaute Verteilung für Kühlwasser und Strom.
Diese technische Basis relativiert dann auch die 19 Tage für die Installation: Pro Tag wären knapp 660 GPU-Knoten zu installieren. Die werden allerdings fertig angeliefert und nicht vor Ort montiert. Die Installation bedeutet damit, erst einmal das Rack aufzustellen, anzuschließen und die Gehäuse einzubauen. Anschließend müssen nur, sofern nicht noch eine SSD mit Betriebssystem eingebaut werden muss, die entsprechenden Module ausgepackt und eingeschoben werden. Danach werden noch Strom- und Netzwerkkabel sowie die Schläuche des Wasserkreislaufs eingesteckt.
Die Einschübe können so bei einem Defekt, wie auch die redundanten Pumpen der pro Rack vorhandenen Kühlmittelverteilung (CDU, Coolant Distribution Unit), schnell gewechselt werden. Und bei 100.000 GPUs ist oft mal irgendwo etwas defekt.
Mit Aufgabenteilung und guter Vorbereitung ist das keine übermenschliche Aufgabe, zumal bereits viele Personen an anderer Stelle vorgearbeitet und Server sowie Rack montiert haben. Zwar gehört zu einem Supercomputer mehr: Netzwerk, Speicher, zusätzliche CPU-Knoten und überhaupt erst einmal die Racks. Es mussten allein über 100.000 Glasfaserkabel verlegt werden, jede H100 hat eine eigene 400-GBit/s-Bluefield-3-Netzwerkkarte, die beiden CPUs pro Knoten eine weitere. Aber auch hier kann, eine gute Planung vorausgesetzt, parallel gearbeitet werden.
Beeindruckende Technik
Es wäre vermessen zu behaupten, dass das Ergebnis nicht beeindruckend ist: Patrick Kennedy zeigt eine der drei Hallen mit Servern und akkurat verlegten Netzwerkkabeln. Auch das Kühlsystem mit gigantischen Rohren offenbart den Maßstab des Clusters - wie bereits gesagt, ist das Video auf jeden Fall sehenswert.
Aber auch die Technik ist beeindruckend: Explizit erwähnt werden neben den GPU-Servern noch die SN5600-Netzwerk-Switches aus Nvidias Spectrum-4 Reihe (PDF)(öffnet im neuen Fenster) . Die kommen mit 64 OSFP-Ports auf eine Datenrate von 51,2 TBit/s.
Colossus setzt auf RoCE (Remote Direct Memory Access, RDMA, over Converged Ethernet), das dem früher dominierenden Infiniband mehr und mehr den Rang abläuft. Kennedys Vergleich mit dem Ethernet am heimischen Rechner wirkt allerdings etwas deplatziert. Denn auch wenn das Protokoll gleich ist, die technische Basis mit RDMA, vier 100-GBit/s-Transceivern und Data Processing Unit (DPU) ist eine andere Welt.
Die Lorbeeren für den Aufbau von Colossus sollte also nicht Elon Musk einstreichen, sondern das Team von X.AI. Und auch das ist nicht allein dafür verantwortlich: Möglich gemacht haben das erst die Ingenieure, Entwickler und Logistiker von Supermicro, Nvidia und anderen Unternehmen.
Und nicht zuletzt die Menschen, welche die Server überhaupt zusammengebaut haben. Sie alle liefern die technische Basis, dank der ein derart großes Computersystem überhaupt in kurzer Zeit aufgebaut werden kann. Bereits die Produktion und Lieferung von mehr als 12.500 Servern in einer kurzen Zeitspanne sind eine Herausforderung.
Update, 30.10.2024, 10:55 Uhr:
Ursprünglich hieß es im ersten Absatz fälschlicherweise, beim dort verlinkten Video handle es sich um ein Interview der Tesla Owners Silicon Valley. Tatsächlich handelt es sich um einen Ausschnitt eines längeren Interviews von Brad Gerstner und Bill Gurley für den Podcast BG2Pod ( Episode 17(öffnet im neuen Fenster) ). Wir haben dies korrigiert und bedanken uns für den Hinweis per E-Mail.



