Zum Hauptinhalt Zur Navigation

Machine Learning: Bisher größtes Sprachmodell von Nvidia und Microsoft

Mit etwa 530 Milliarden Parametern ist das generative Modell Megatron-Turing NLG von Microsoft und Nvidia etwa dreimal so groß wie GPT-3.
/ Sebastian Grüner
7 Kommentare News folgen (öffnet im neuen Fenster)
Das bisher größte Sprachmodell stammt von Nvidia und Microsoft. (Bild: Lisa Maree Williams/Getty Images)
Das bisher größte Sprachmodell stammt von Nvidia und Microsoft. Bild: Lisa Maree Williams/Getty Images

In einer großangelegten Kooperation haben Microsoft(öffnet im neuen Fenster) und Hardware-Hersteller Nvidia(öffnet im neuen Fenster) gemeinsam das bisher wohl größte generative Sprachmodell erstellt. Der Ankündigung zufolge ist das Megatron-Turing Natural Language Generation Model (MT-NLG) mit etwa 530 Milliarden Paramatern trainiert worden. MT-NLG ist damit rund dreimal so groß wie GPT-3 .

Mit dem Modell Turing Natural Language Generation (T-NLG) , das bereits 17 Milliarden Paramater hat, hatte Microsoft bereits Anfang 2020 das bis dahin größte generative Sprachmodell vorgestellt. Darauf folgte GPT-3 von OpenAI, das von Microsoft unterstützt wird und dessen Technik Microsoft ebenfalls nutzt .

Microsoft und Nvidia konnten für das nun vorgestellte Projekt MT-NLG also auf ihren bisherigen Arbeiten aufbauen und führen diese damit zusammen. Ziel der Forschung war es laut Microsoft, das Training derart riesiger KI-Modelle weiter zu parallelisieren und zu optimieren. Das sei auch das schwierigste Problem gewesen, da solch ein großes Modell nicht mehr in den Speicher einer einzelnen GPU passe.

Eigenen Superrechner zum Training

Konkret umspannt eine Model-Instanz laut der Ankündigung 280 Nvidia A100 GPUs , Tensoren werden pro Knoten in 8 kleinere Bestandteile aufgeteilt und zwischen den Knoten nutzte das Team 35 parallele Arbeitsschritte. Das gesamte Training lief dabei auf Nvidias Selene Supercomputer(öffnet im neuen Fenster) .

Darin stecken 560 DGX-A100-Server(öffnet im neuen Fenster) , mit je acht A100-Beschleunigern, die wiederum über jeweils 80 GByte VRAM verfügen. Je nach Server-Größe und Batch-Size erreicht das System mit dem neuen Model dabei etwa 120 Teraflops pro GPU.

Je nach Tests zur Auswertung der von dem Modell erzeugten Sätze biete das neue Modell zahlreiche Verbesserungen im Vergleich zu bisheriger Technik. Das gelte etwa für das Erstellen von Verbindungen zwischen Sätzen. Darüber hinaus sei das Modell in der Lage, einfache arithmetische Berechnungen abzuleiten und korrekte Ergebnisse auszugeben.

Microsoft und Nvidia weisen aber auch explizit darauf hin, dass das trainierte Modell mögliche Vorurteile der Ausgangsdaten reproduziert. Die Unternehmen seien aber "bestrebt, an der Lösung dieses Problems zu arbeiten. Wir ermutigen zu weiterer Forschung, um bei der Quantifizierung der Verzerrung des Modells zu helfen" . Sollte ein Modell wie MT-NLG produktiv eingesetzt werden, müsse dies beachtet werden, heißt es weiter.


Relevante Themen