Turing-NLG: Microsoft erstellt bisher größtes Sprachmodell

Das Sprachmodell Turing-NLP von Microsoft enthält rund 17 Milliarden Parameter und dient der Spracherzeugung, etwa um auf Fragen zu antworten. Teile der dazu genutzten Technik hat Microsoft als Open Source veröffentlicht.

Artikel veröffentlicht am ,
Microsofts Sprachmodell T-NLG ist das mit Abstand bisher größte seiner Art.
Microsofts Sprachmodell T-NLG ist das mit Abstand bisher größte seiner Art. (Bild: PATRICIA DE MELO MOREIRA/AFP/AFP via Getty Images)

Dem Trend folgend, dass größere Sprachmodelle zu besseren Ergebnissen führen, hat Microsoft als Teil seines Project Turing das riesige Modell T-NLG veröffentlicht, wie der Hersteller schreibt. Die Abkürzung steht dabei für Turing Natural Language Generation und beschreibt ein Modell zur Spracherzeugung. Das Modell selbst habe dabei rund 17 Milliarden Parameter und sei damit das bisher größte jemals erstellte Deep-Learning-Modell.

Stellenmarkt
  1. Sachbearbeiter Datenmanagement (m/w/d)
    ARGE Wirtschaftlichkeitsprüfung, Freiburg im Breisgau
  2. Projektmanagerin / Projektmanager bzw. Product Managerin / Product Manager für Digitalprodukte ... (m/w/d)
    Bundesanstalt für Immobilienaufgaben, Bonn
Detailsuche

Das Modell schneide nicht nur in Benchmarks besser ab als bisher verfügbare Techniken, sondern auch bei vielen wichtigen praktischen Aufgaben, heißt es bei Microsoft. Das gelte insbesondere für das Zusammenfassen von Text sowie das Beantworten von Fragen. Das Team beschreibt seine Arbeiten an dem Modell so: "Unser Ziel ist es, in jeder Situation so direkt, genau und flüssig wie möglich zu reagieren."

Bisherige Systeme hätte dafür auf bereits vorgefertigte Antworten zurückgegriffen oder schlicht Teile aus bestehenden Dokumenten herausgelöst und wiederverwendet. Diese seien jedoch oft als nicht natürlich erkannt worden. Mit T-NLG will das Team dies überwinden und eben natürlich wirkende Antworten oder Zusammenfassungen bereitstellen. Für erste Tests und Feedback will Microsoft das Modell und die dazugehörigen Techniken zunächst Wissenschaftlern zur Verfügung stellen.

Zum Trainieren des riesigen Modells setzt Microsoft zwangsweise auf eine Parallelisierung. Dafür setzt das Team auf Nvidias DGX-2-Komplettsystem, das speziell für die Zwecke von Deep Learning gebaut wurde. Microsoft verteilt das Modell dabei auf vier der darin verbauten Tesla V100 GPUs. Um dies wiederum mit der Software zu erreichen, setzen die Entwickler auf den eigenen Optimierer Zero, der Redundanzen minimieren soll, sowie auf die Deepspeed-Bibliothek. Beide stellt Microsoft in einem gesonderten Blogpost vor, Deepspeed steht als Open Source auf Github bereit.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Hobbys und maschinenbasiertes Lernen
1.000 Bilder - und nur zwei Vögel drauf

Ein Hobby-Vogelkundler fragt mich nach einem Skript, um Vögel in Bildern zu erkennen. Was einfach klingt, bringt mich an den Rand dessen, was ich über maschinelles Lernen weiß.
Von Marcus Toth

Hobbys und maschinenbasiertes Lernen: 1.000 Bilder - und nur zwei Vögel drauf
Artikel
  1. Analyse von Apples A16: Chip des iPhone 14 Pro größer trotz kleinerer Transistoren
    Analyse von Apples A16
    Chip des iPhone 14 Pro größer trotz kleinerer Transistoren

    Bereits kurz nach Veröffentlichung des iPhone 14 kursieren erste Bilder des A16-Chips. Damit lassen sich Schlüsse über den Aufbau ziehen.

  2. Militärischer Weitblick in Toys (1992): Ein vergessener, wenngleich prophetischer Film
    Militärischer Weitblick in Toys (1992)
    Ein vergessener, wenngleich prophetischer Film

    Der Kinofilm Toys von 1992 ist heute weitgehend vergessen. Zu Unrecht, gab er doch eine erstaunlich gute Prognose darüber ab, wie heutzutage Krieg geführt wird.
    Ein IMHO von Mathias Küfner

  3. Das System E-Mail: Schritt für Schritt vom Sender zum Empfänger
    Das System E-Mail
    Schritt für Schritt vom Sender zum Empfänger

    E-Mail verhalf dem Internet zum Durchbruch, als es noch Arpanet hieß. Zeit für einen Blick auf die Hintergründe dieses Systems - nebst Tipps für einen eigenen Mailserver.
    Von Florian Bottke

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5-Verkauf bei MMS • CyberWeek: PC-Zubehör, Werkzeug & Co. • Günstig wie nie: Gigabyte RX 6900 XT 864,15€, MSI RTX 3090 1.159€, Fractal Design RGB Tower 129,90€ • MindStar (Palit RTX 3070 549€) • Thrustmaster T300 RS GT 299,99€ • Alternate (iPad Air (2022) 256GB 949,90€) [Werbung]
    •  /