Turing-NLG: Microsoft erstellt bisher größtes Sprachmodell
Das Sprachmodell Turing-NLP von Microsoft enthält rund 17 Milliarden Parameter und dient der Spracherzeugung, etwa um auf Fragen zu antworten. Teile der dazu genutzten Technik hat Microsoft als Open Source veröffentlicht.

Dem Trend folgend, dass größere Sprachmodelle zu besseren Ergebnissen führen, hat Microsoft als Teil seines Project Turing das riesige Modell T-NLG veröffentlicht, wie der Hersteller schreibt. Die Abkürzung steht dabei für Turing Natural Language Generation und beschreibt ein Modell zur Spracherzeugung. Das Modell selbst habe dabei rund 17 Milliarden Parameter und sei damit das bisher größte jemals erstellte Deep-Learning-Modell.
Das Modell schneide nicht nur in Benchmarks besser ab als bisher verfügbare Techniken, sondern auch bei vielen wichtigen praktischen Aufgaben, heißt es bei Microsoft. Das gelte insbesondere für das Zusammenfassen von Text sowie das Beantworten von Fragen. Das Team beschreibt seine Arbeiten an dem Modell so: "Unser Ziel ist es, in jeder Situation so direkt, genau und flüssig wie möglich zu reagieren."
Bisherige Systeme hätte dafür auf bereits vorgefertigte Antworten zurückgegriffen oder schlicht Teile aus bestehenden Dokumenten herausgelöst und wiederverwendet. Diese seien jedoch oft als nicht natürlich erkannt worden. Mit T-NLG will das Team dies überwinden und eben natürlich wirkende Antworten oder Zusammenfassungen bereitstellen. Für erste Tests und Feedback will Microsoft das Modell und die dazugehörigen Techniken zunächst Wissenschaftlern zur Verfügung stellen.
Zum Trainieren des riesigen Modells setzt Microsoft zwangsweise auf eine Parallelisierung. Dafür setzt das Team auf Nvidias DGX-2-Komplettsystem, das speziell für die Zwecke von Deep Learning gebaut wurde. Microsoft verteilt das Modell dabei auf vier der darin verbauten Tesla V100 GPUs. Um dies wiederum mit der Software zu erreichen, setzen die Entwickler auf den eigenen Optimierer Zero, der Redundanzen minimieren soll, sowie auf die Deepspeed-Bibliothek. Beide stellt Microsoft in einem gesonderten Blogpost vor, Deepspeed steht als Open Source auf Github bereit.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Hat da einer spontan an Neurolinguistisches Programmieren (NLP) gedacht ?