Fast 50.000 Nvidia H100: Meta erklärt seine neuen KI-Supercomputer
Auf den zwei Clustern des Supercomputers sollen Llama 3 und andere KI-Modelle trainieren. Bis Ende 2024 sollen Hunderttausende H100 bei Meta laufen.
"Bei der Entwicklung von KI zu führen, bedeutet beim Investment in Hardware zu führen": Meta hat zwei neue Cluster für das Training von KI-Modellen in Betrieb genommen – und die sind beeindruckend. In einem Blog-Post beschreibt das Unternehmen den Aufbau der Systeme, die mit jeweils 24.576 H100 von Nvidia bestückt sind. Mit einer theoretischen FP64-Leistung von je 1,47 Exaflops würden die Systeme mindestens auf Platz drei der aktuellen Top-500-Liste landen. Und damit nicht genug: Bis Ende 2024 will Meta insgesamt 350.000 H100 in Betrieb haben, die mehr als die Hälfte der KI-Rechenleistung des Unternehmens liefern.
Natürlich soll auch bei Meta damit einmal eine allgemeine künstliche Intelligenz (kurz: AGI für Artificial General Intelligence) trainiert werden – oder mit einem Nachfolger. Vorerst trainiert auf der Hardware allerdings mit Llama 3 ein großes Sprachmodell, auch für andere KI-Angebote und auch KI-Hardware wie die Ray Ban Smart Glasses will Meta die beiden Cluster nutzen.
Dass es sich um zwei Systeme handelt, hat einen Grund: Sie sind zwar Produktivsysteme, gleichzeitig aber auch Forschungsgegenstand. Sie nutzen unterschiedliche Netzwerk-Hardware, wodurch Meta die optimale Vernetzungsstrategie herausarbeiten will. Ein Cluster ist mit Infiniband vernetzt (Nvidia Quantum2), sein Geschwister mit Remote Direct Memory Access (RDMA) over converged Ethernet (RoCE). Beide Lösungen haben eine Bandbreite von 400 GBit/s pro Verbindung. Im RoCE-Cluster setzt Meta die mit Broadcom und Cisco entwickelten Wedge400 und Minipack2-Switches ein. Die jetzigen Designs wiederum sind vom AI Research Supercluster, kurz RSC, inspiriert, Metas erstem KI-Supercomputer.
Bei Gehäuse- und Rack-Aufbau nutzt Meta Formate des Open Compute Project (OCP) – die das Unternehmen selbst entwickelt hat. Pro Rack sind zwei Grand-Teton-Einschübe verbaut, in jedem stecken acht wassergekühlte H100.
Pytorch bereit für Hunderttausende GPUs
Die Möglichkeiten eines solch großen Clusters muss die Software, die auf ihm läuft, überhaupt nutzen können. Daher wurden auch Metas Softwareentwickler einbezogen: Die haben nicht nur Werkzeuge zum Debuggen entwickelt, mit denen sich etwa GPUs identifizieren lassen, die länger rechnen als der Rest und so bei einer Optimierung der Lastverteilung helfen.
Auch die Frameworks zur Umsetzung von KI-Modellen haben die Entwickler überarbeitet: Pytorch soll jetzt Hunderttausende GPUs nutzen können. Dabei seien mehrere Bottlenecks zutage getreten (und beseitigt worden), die den Start von Berechnungen deutlich verzögerten. Eine weitere nennenswerte Entwicklung ist das verteilte Speichersystem, das das Schreiben von Zwischenwerten (Checkpoints) Tausender GPUs innerhalb weniger Hundert Millisekunden ermöglichen soll. Hier holte sich Meta Hilfe bei Hammerspace, das ein verteiltes Dateisystem vermarktet. Im Yosemite V3 Speichersystem (PDF) des OCP kommen zudem "die neuesten E1.S SSDs mit der höchsten Kapazität" zum Einsatz.
Große Cluster brauchen viel Optimierung
Auch Metas Entwicklungsansatz für Cluster wird beschrieben: Er setzt sehr stark auf das Ausprobieren, die anschließende Analyse der Schwachstellen und deren Optimierung. Die ist bei großen Clustern unerlässlich: Während kleine Systeme direkt nach der Installation mehr als 90 Prozent ihrer Spitzenleistung erreichen, können große Systeme fast beliebig schlecht werden. Zwischen 10 und 90 Prozent Effizienz habe man alles gesehen. Durch Optimierung von Software und Netzwerk lasse sich aber auch die Effizienz großer Systeme auf über 90 Prozent bringen. Dafür berücksichtigt der Job-Scheduler, der Rechenaufgaben auf die einzelnen Computer verteilt, die mehrschichtige Netzwerktopologie. Auch Nvidias Bibliothek für den Datenaustausch zwischen GPUs habe man optimiert. Leider erfahren wir nicht, wo Meta die Grenzen für kleine und große Systeme zieht.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed










Kommentieren