• IT-Karriere:
  • Services:

Turing-NLG: Microsoft erstellt bisher größtes Sprachmodell

Das Sprachmodell Turing-NLP von Microsoft enthält rund 17 Milliarden Parameter und dient der Spracherzeugung, etwa um auf Fragen zu antworten. Teile der dazu genutzten Technik hat Microsoft als Open Source veröffentlicht.

Artikel veröffentlicht am ,
Microsofts Sprachmodell T-NLG ist das mit Abstand bisher größte seiner Art.
Microsofts Sprachmodell T-NLG ist das mit Abstand bisher größte seiner Art. (Bild: PATRICIA DE MELO MOREIRA/AFP/AFP via Getty Images)

Dem Trend folgend, dass größere Sprachmodelle zu besseren Ergebnissen führen, hat Microsoft als Teil seines Project Turing das riesige Modell T-NLG veröffentlicht, wie der Hersteller schreibt. Die Abkürzung steht dabei für Turing Natural Language Generation und beschreibt ein Modell zur Spracherzeugung. Das Modell selbst habe dabei rund 17 Milliarden Parameter und sei damit das bisher größte jemals erstellte Deep-Learning-Modell.

Stellenmarkt
  1. ALDI International Services GmbH & Co. oHG, Mülheim an der Ruhr, Dortmund, Düsseldorf, Duisburg
  2. Anstalt für Kommunale Datenverarbeitung in Bayern (AKDB), Bayreuth, Augsburg

Das Modell schneide nicht nur in Benchmarks besser ab als bisher verfügbare Techniken, sondern auch bei vielen wichtigen praktischen Aufgaben, heißt es bei Microsoft. Das gelte insbesondere für das Zusammenfassen von Text sowie das Beantworten von Fragen. Das Team beschreibt seine Arbeiten an dem Modell so: "Unser Ziel ist es, in jeder Situation so direkt, genau und flüssig wie möglich zu reagieren."

Bisherige Systeme hätte dafür auf bereits vorgefertigte Antworten zurückgegriffen oder schlicht Teile aus bestehenden Dokumenten herausgelöst und wiederverwendet. Diese seien jedoch oft als nicht natürlich erkannt worden. Mit T-NLG will das Team dies überwinden und eben natürlich wirkende Antworten oder Zusammenfassungen bereitstellen. Für erste Tests und Feedback will Microsoft das Modell und die dazugehörigen Techniken zunächst Wissenschaftlern zur Verfügung stellen.

Zum Trainieren des riesigen Modells setzt Microsoft zwangsweise auf eine Parallelisierung. Dafür setzt das Team auf Nvidias DGX-2-Komplettsystem, das speziell für die Zwecke von Deep Learning gebaut wurde. Microsoft verteilt das Modell dabei auf vier der darin verbauten Tesla V100 GPUs. Um dies wiederum mit der Software zu erreichen, setzen die Entwickler auf den eigenen Optimierer Zero, der Redundanzen minimieren soll, sowie auf die Deepspeed-Bibliothek. Beide stellt Microsoft in einem gesonderten Blogpost vor, Deepspeed steht als Open Source auf Github bereit.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (u. a. The Sinking City für 42,99€, Devil's Hunt für 3,50€, Magrunner: Dark Pulse für 2...
  2. 35,99€ (mit 10%-Rabattgutschein + 30%-Rabattcode "DVIHCK8M")
  3. (u. a. LG OLED65BX9LB 65 Zoll OLED 100Hz HDMI 2.1 VRR für 1.699€)
  4. (mit Rabattcode "POWERSPRING21" 10 Prozent auf Laptops, Smartphones, Spielkonsolen etc.)

Blarks 16. Feb 2020

Hat da einer spontan an Neurolinguistisches Programmieren (NLP) gedacht ?


Folgen Sie uns
       


VW ID.3 Probe gefahren

Wir sind einen Tag lang mit dem ID.3 in und um Berlin herum gefahren.

VW ID.3 Probe gefahren Video aufrufen
    •  /