Machine Learning: Bisher größtes Sprachmodell von Nvidia und Microsoft

Mit etwa 530 Milliarden Parametern ist das generative Modell Megatron-Turing NLG von Microsoft und Nvidia etwa dreimal so groß wie GPT-3.

Artikel veröffentlicht am ,
Das bisher größte Sprachmodell stammt von Nvidia und Microsoft.
Das bisher größte Sprachmodell stammt von Nvidia und Microsoft. (Bild: Lisa Maree Williams/Getty Images)

In einer großangelegten Kooperation haben Microsoft und Hardware-Hersteller Nvidia gemeinsam das bisher wohl größte generative Sprachmodell erstellt. Der Ankündigung zufolge ist das Megatron-Turing Natural Language Generation Model (MT-NLG) mit etwa 530 Milliarden Paramatern trainiert worden. MT-NLG ist damit rund dreimal so groß wie GPT-3.

Stellenmarkt
  1. IT Senior Consultant (m/w/d) Finance Processes
    DAW SE, Ober-Ramstadt
  2. SAP Application Manager (m/w/d) Finance
    SCHOTT AG, Mainz
Detailsuche

Mit dem Modell Turing Natural Language Generation (T-NLG), das bereits 17 Milliarden Paramater hat, hatte Microsoft bereits Anfang 2020 das bis dahin größte generative Sprachmodell vorgestellt. Darauf folgte GPT-3 von OpenAI, das von Microsoft unterstützt wird und dessen Technik Microsoft ebenfalls nutzt.

Microsoft und Nvidia konnten für das nun vorgestellte Projekt MT-NLG also auf ihren bisherigen Arbeiten aufbauen und führen diese damit zusammen. Ziel der Forschung war es laut Microsoft, das Training derart riesiger KI-Modelle weiter zu parallelisieren und zu optimieren. Das sei auch das schwierigste Problem gewesen, da solch ein großes Modell nicht mehr in den Speicher einer einzelnen GPU passe.

Eigenen Superrechner zum Training

Konkret umspannt eine Model-Instanz laut der Ankündigung 280 Nvidia A100 GPUs, Tensoren werden pro Knoten in 8 kleinere Bestandteile aufgeteilt und zwischen den Knoten nutzte das Team 35 parallele Arbeitsschritte. Das gesamte Training lief dabei auf Nvidias Selene Supercomputer.

Golem Akademie
  1. PowerShell Praxisworkshop
    20.-23. Dezember 2021, online
  2. AZ-104 Microsoft Azure Administrator
    13.-16. Dezember 2021, online
  3. Mobile Device Management mit Microsoft Intune
    22.-23. November 2021, online
Weitere IT-Trainings

Darin stecken 560 DGX-A100-Server, mit je acht A100-Beschleunigern, die wiederum über jeweils 80 GByte VRAM verfügen. Je nach Server-Größe und Batch-Size erreicht das System mit dem neuen Model dabei etwa 120 Teraflops pro GPU.

Je nach Tests zur Auswertung der von dem Modell erzeugten Sätze biete das neue Modell zahlreiche Verbesserungen im Vergleich zu bisheriger Technik. Das gelte etwa für das Erstellen von Verbindungen zwischen Sätzen. Darüber hinaus sei das Modell in der Lage, einfache arithmetische Berechnungen abzuleiten und korrekte Ergebnisse auszugeben.

Microsoft und Nvidia weisen aber auch explizit darauf hin, dass das trainierte Modell mögliche Vorurteile der Ausgangsdaten reproduziert. Die Unternehmen seien aber "bestrebt, an der Lösung dieses Problems zu arbeiten. Wir ermutigen zu weiterer Forschung, um bei der Quantifizierung der Verzerrung des Modells zu helfen". Sollte ein Modell wie MT-NLG produktiv eingesetzt werden, müsse dies beachtet werden, heißt es weiter.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Geekbench & GFXBench
Erste Benchmarks zeigen starken Apple M1 Max

Das Apple Silicon schneidet gut ab: Der M1 Max legt sich tatsächlich mit einer Geforce RTX 3080 Mobile und den schnellsten Laptop-CPUs an.

Geekbench & GFXBench: Erste Benchmarks zeigen starken Apple M1 Max
Artikel
  1. Google: Chrome 95 entfernt FTP endgültig
    Google
    Chrome 95 entfernt FTP endgültig

    Nach mehr als zwei Jahren Arbeit ist Schluss mit dem FTP-Support in Chrome. Das Team testet auch das Ende der bisherigen User Agents.

  2. Windows 11: User wollen separate Fenster in der Taskleiste zurück
    Windows 11
    User wollen separate Fenster in der Taskleiste zurück

    Windows 11 gruppiert Instanzen einer App zusammen und streicht die Möglichkeit, sie separat anzuzeigen. Das gefällt der Community gar nicht.

  3. Microsoft: Windows 11 läuft auf uraltem Pentium 4
    Microsoft
    Windows 11 läuft auf uraltem Pentium 4

    Zwei logische Kerne und über 1 GHz: Der Pentium 4 hat alles, was Windows 11 benötigt - denn Secure Boot und TPM 2.0 lassen sich umgehen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • HP Herbst Sale bei NBB: Bis zu 500€ Rabatt auf Gaming-Notebooks, Monitore uvm. • PS5 & Xbox Series X vereinzelt bestellbar • Kingston RGB 32GB Kit 3200 116,90€ • LG OLED48A19LA 756,29€ • Finale des GP Anniversary Sales • Amazon Music 3 Monate gratis • Saturn Gutscheinheft [Werbung]
    •  /