Zum Hauptinhalt Zur Navigation

Machine Learning: Meta gibt Einblick in das LLM-Training

Der Facebook-Konzern Meta gibt Einblick in die immer komplexeren Probleme und deren Lösung beim Training von großen Sprachmodellen.
/ Boris Mayer
Kommentare News folgen (öffnet im neuen Fenster)
Kleine ML-KI müssen in die Rechenzentrumschule zum Lernen (Bild: KI-generiert mit PlaygroundAI/Stable Diffusion XL)
Kleine ML-KI müssen in die Rechenzentrumschule zum Lernen Bild: KI-generiert mit PlaygroundAI/Stable Diffusion XL

Meta berichtet von den Herausforderungen(öffnet im neuen Fenster) , immense Rechenleistung zum Trainieren großer Sprachmodelle (LLMs) bereitzustellen. Während das inzwischen als "traditionell" bezeichnete Training der Recommendation-Modelle, die für Rankings und Feed auf den Social-Media-Seiten des Konzerns verwendet werden, noch mit einer relativ kleinen Anzahl von GPUs funktionierte, ist das bei der Generativen KI mit den LLMs nicht mehr möglich: Statt vieler kleiner Jobs gibt es nun weniger große.

Das Problem ist, dass ein Job, der mehr GPUs benötigt, auch eine höhere Unterbrechungswahrscheinlichkeit hat. Denn nach wie vor müssen alle beteiligten GPUs über ein Hochgeschwindigkeits-Fabric miteinander kommunizieren.

Als Gründe für Unterbrechungen hat man bei Meta drei Fehlerklassen identifiziert. Häufigste Ursache ist, dass GPUs im Rechner quasi vom Bus fallen, sei es durch einen Fehler auf PCIe-Ebene oder im Treiber. In diese Kategorie fallen nicht korrigierbare Fehler in den Speichermodulen - viel Speicher macht die wahrscheinlich. In die dritte Kategorie fallen Fehler auf Netzwerkkabelebene, wenn komplette Server nicht mehr erreichbar sind.

Strategie: Unterbrechungen minimieren, Unterbrechungsdauer reduzieren und zwischenspeichern

Die aus der Fehleranalyse gewonnenen Erkenntnisse erfordern eine Menge Maßnahmen, um die Unterbrechungszahl klein zu halten und gleichzeitig die Unterbrechungszeit zu minimieren - inklusive der verlorenen Rechenzeit, weil Berechnungen, die kurz vor der Unterbrechung durchgeführt wurden, aber noch nicht abgeschlossen waren, wiederholt werden müssen.

Zu den Maßnahmen gehört, die Grand-Teton-Plattform(öffnet im neuen Fenster) zu modifizieren, GPUs mit einer TDP von 700 Watt zu versorgen, und auf GPUs mit High Bandwidth Memory 3 (HBM3) zu wechseln. In den Data-Centern werden unterstützende Dienste aus den GPU-Räumen entfernt, um innerhalb einer Halle die komplette Infrastruktur an Netzwerk und Strom für die eigentlichen Recheneinheiten vorzuhalten. So kann die Dichte dieser erhöht werden.

Und während man im Netzwerk bisher RoCE-fabrics mit bis zu 4.000 GPUs im produktiven Einsatz hatte und mit Inifiniband experimentierte - das aber mit bis zu 16.000 GPUs -, möchte man nun gleich zwei neue Cluster mit 24.000 GPUs bauen: einen auf RoCE-Basis, den anderen mit Infiniband, um zu sehen, was zuverlässiger ist.


Relevante Themen