Machine Learning: Bisher größtes Sprachmodell von Nvidia und Microsoft

Mit etwa 530 Milliarden Parametern ist das generative Modell Megatron-Turing NLG von Microsoft und Nvidia etwa dreimal so groß wie GPT-3.

Artikel veröffentlicht am ,
Das bisher größte Sprachmodell stammt von Nvidia und Microsoft.
Das bisher größte Sprachmodell stammt von Nvidia und Microsoft. (Bild: Lisa Maree Williams/Getty Images)

In einer großangelegten Kooperation haben Microsoft und Hardware-Hersteller Nvidia gemeinsam das bisher wohl größte generative Sprachmodell erstellt. Der Ankündigung zufolge ist das Megatron-Turing Natural Language Generation Model (MT-NLG) mit etwa 530 Milliarden Paramatern trainiert worden. MT-NLG ist damit rund dreimal so groß wie GPT-3.

Stellenmarkt
  1. Global Industrial Engineer (d/m/w)
    OSRAM GmbH, Regensburg
  2. IT Service Management Expert (m/w/d)
    Soluvia IT-Services GmbH, Mannheim, Kiel, Offenbach
Detailsuche

Mit dem Modell Turing Natural Language Generation (T-NLG), das bereits 17 Milliarden Paramater hat, hatte Microsoft bereits Anfang 2020 das bis dahin größte generative Sprachmodell vorgestellt. Darauf folgte GPT-3 von OpenAI, das von Microsoft unterstützt wird und dessen Technik Microsoft ebenfalls nutzt.

Microsoft und Nvidia konnten für das nun vorgestellte Projekt MT-NLG also auf ihren bisherigen Arbeiten aufbauen und führen diese damit zusammen. Ziel der Forschung war es laut Microsoft, das Training derart riesiger KI-Modelle weiter zu parallelisieren und zu optimieren. Das sei auch das schwierigste Problem gewesen, da solch ein großes Modell nicht mehr in den Speicher einer einzelnen GPU passe.

Eigenen Superrechner zum Training

Konkret umspannt eine Model-Instanz laut der Ankündigung 280 Nvidia A100 GPUs, Tensoren werden pro Knoten in 8 kleinere Bestandteile aufgeteilt und zwischen den Knoten nutzte das Team 35 parallele Arbeitsschritte. Das gesamte Training lief dabei auf Nvidias Selene Supercomputer.

Golem Karrierewelt
  1. Angular für Einsteiger: virtueller Zwei-Tage-Workshop
    19./20.12.2022, Virtuell
  2. Einführung in das Zero Trust Security Framework (virtueller Ein-Tages-Workshop)
    02.11.2022, virtuell
Weitere IT-Trainings

Darin stecken 560 DGX-A100-Server, mit je acht A100-Beschleunigern, die wiederum über jeweils 80 GByte VRAM verfügen. Je nach Server-Größe und Batch-Size erreicht das System mit dem neuen Model dabei etwa 120 Teraflops pro GPU.

Je nach Tests zur Auswertung der von dem Modell erzeugten Sätze biete das neue Modell zahlreiche Verbesserungen im Vergleich zu bisheriger Technik. Das gelte etwa für das Erstellen von Verbindungen zwischen Sätzen. Darüber hinaus sei das Modell in der Lage, einfache arithmetische Berechnungen abzuleiten und korrekte Ergebnisse auszugeben.

Microsoft und Nvidia weisen aber auch explizit darauf hin, dass das trainierte Modell mögliche Vorurteile der Ausgangsdaten reproduziert. Die Unternehmen seien aber "bestrebt, an der Lösung dieses Problems zu arbeiten. Wir ermutigen zu weiterer Forschung, um bei der Quantifizierung der Verzerrung des Modells zu helfen". Sollte ein Modell wie MT-NLG produktiv eingesetzt werden, müsse dies beachtet werden, heißt es weiter.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Hobbys und maschinenbasiertes Lernen
1.000 Bilder - und nur zwei Vögel drauf

Ein Hobby-Vogelkundler fragt mich nach einem Skript, um Vögel in Bildern zu erkennen. Was einfach klingt, bringt mich an den Rand dessen, was ich über maschinelles Lernen weiß.
Von Marcus Toth

Hobbys und maschinenbasiertes Lernen: 1.000 Bilder - und nur zwei Vögel drauf
Artikel
  1. Militärischer Weitblick in Toys (1992): Ein vergessener, wenngleich prophetischer Film
    Militärischer Weitblick in Toys (1992)
    Ein vergessener, wenngleich prophetischer Film

    Der Kinofilm Toys von 1992 ist heute weitgehend vergessen. Zu Unrecht, gab er doch eine erstaunlich gute Prognose darüber ab, wie heutzutage Krieg geführt wird.
    Ein IMHO von Mathias Küfner

  2. Produkte mit Alexa bei Amazon radikal im Preisrutsch
     
    Produkte mit Alexa bei Amazon radikal im Preisrutsch

    Seit heute sind Produkte mit Alexa bei Amazon im Sonderangebot. Fire TV Sticks, Echo, Fire Tablets, Kindle und Co. sind deutlich reduziert.
    Ausgewählte Angebote des E-Commerce-Teams

  3. Das System E-Mail: Schritt für Schritt vom Sender zum Empfänger
    Das System E-Mail
    Schritt für Schritt vom Sender zum Empfänger

    E-Mail verhalf dem Internet zum Durchbruch, als es noch Arpanet hieß. Zeit für einen Blick auf die Hintergründe dieses Systems - nebst Tipps für einen eigenen Mailserver.
    Von Florian Bottke

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5-Verkauf bei MMS • CyberWeek: PC-Zubehör, Werkzeug & Co. • Günstig wie nie: Gigabyte RX 6900 XT 864,15€, MSI RTX 3090 1.159€, Fractal Design RGB Tower 129,90€ • MindStar (Palit RTX 3070 549€) • Thrustmaster T300 RS GT 299,99€ • Alternate (iPad Air (2022) 256GB 949,90€) [Werbung]
    •  /