Deepmind: Riesige Sprachmodelle lösen auch nicht alle Probleme

Die KI-Forscher von Deepmind haben besonders große Sprachmodelle untersucht und sagen, die Skalierung allein helfe nicht, Probleme zu lösen.

Artikel veröffentlicht am ,
Gopher (deutsch Taschenratte) sind Nagetiere
Gopher (deutsch Taschenratte) sind Nagetiere (Bild: siamesepuppy, flickr.com/CC-BY 2.0)

Die derzeit mit Machine-Learning erstellten Modelle zur Sprachverarbeitung werden immer größer. Eine systematische Untersuchung der zu Googles-Mutterkonzern Alphabet gehörenden KI-Spezialisten von Deepmind zeigt nun die Auswirkungen dieses Trends, zusammengefasst in drei unterschiedlichen wissenschaftlichen Veröffentlichungen. Das Team von Deepmind hat dazu auch ein eigenes neues Sprachmodell erstellt: Gopher - mit etwa 280 Milliarden Parametern.

Stellenmarkt
  1. IT-Administrator*in (m/w/d)
    BMF Media Information Technology GmbH, Augsburg
  2. Teamleitung (m/w/d) Projektmanagement / Implementierung
    i-SOLUTIONS Health GmbH, Bochum
Detailsuche

Die Anzahl der Parameter ist eine leicht verfügbare Größe, um die Modelle miteinander zu vergleichen. So hat das von OpenAI erstellte Modell GPT-3, das von Microsoft unterstützt wird und dessen Technik Microsoft ebenfalls nutzt, etwa 175 Milliarden Parameter. Erst vor zwei Monaten hatten darüber hinaus Nvidia und Microsoft ein Sprachmodell mit etwa 530 Milliarden Parametern vorgestellt.

Zu den Untersuchungen sagte Deepmind-Forscher Jack Rae laut The Verge: "Ein zentrales Ergebnis des Papiers ist, dass der Fortschritt und die Fähigkeiten großer Sprachmodelle immer noch zunehmen. Dies ist kein Gebiet, das ein Plateau erreicht hat." Das gelte wohl aber nicht uneingeschränkt für alle möglichen Problemstellungen, die im Zusammenhang mit Sprachverarbeitung und den dafür genutzten Modellen entstehen.

Denn darüber hinaus gibt es laut Rae "andere Kategorien von Problemen wie etwa, dass das Modell stereotype Vorurteile verewigt oder dass das Modell dazu gebracht wird, Unwahrheiten zu sagen, von denen [...] niemand bei Deepmind glaubt, dass Skalierung die Lösung sein wird". Helfen könnten hier nur "zusätzliche Trainingsroutinen" und ein direkter menschlicher Eingriff.

Golem Akademie
  1. Entwicklung mit Unity auf der Microsoft HoloLens 2 Plattform: virtueller Zwei-Tage-Workshop
    7.–8. Februar 2022, Virtuell
  2. Linux-Shellprogrammierung: virtueller Vier-Tage-Workshop
    8.–11. März 2022, Virtuell
Weitere IT-Trainings

Darauf aufbauend untersucht das Team aber bereits mögliche Lösungsansätze dafür. So heißt es: "Unser Abschlusspapier baut auf den Grundlagen von Gopher und unserer Taxonomie des ethischen und sozialen Risikos auf, indem es eine verbesserte Sprachmodellarchitektur vorschlägt, die die Energiekosten des Trainings senkt und es einfacher macht, Modellausgaben zu Quellen innerhalb des Trainingskorpus zurückzuverfolgen." Diese Zurückverfolgbarkeit ist wohl eine der wichtigsten Funktionen, um überhaupt die Möglichkeit zu haben, eventuell von dem Modell erlernte Vorurteile zu revidieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Bastelrechner
Mini-Linux-Handheld könnte nur 15 US-Dollar kosten

Ein kleines Display, Split-Tastatur und eine minimale Hardware-Ausstattung sollen das Gerät zum kleinstmöglichen Linux-Rechner machen.

Bastelrechner: Mini-Linux-Handheld könnte nur 15 US-Dollar kosten
Artikel
  1. Rauchgranate: Tesla zeigt Versuch mit Biowaffen-Abwehrmodus des Model Y
    Rauchgranate
    Tesla zeigt Versuch mit Biowaffen-Abwehrmodus des Model Y

    Mit einer Rauchgranate hat Tesla den Effekt des Biowaffen-Abwehrmodus im Model Y auf die Insassen veranschaulicht.

  2. Gesichtsbilder: Polizei-Behörden erhalten europaweit mehr Datenzugriff
    Gesichtsbilder
    Polizei-Behörden erhalten europaweit mehr Datenzugriff

    Über 60 Millionen biometrische Fotos sollen Polizei-Behörden im Schengen-Raum zugänglich gemacht werden. Auch ein zentraler Datenspeicher ist geplant - und mehr.
    Ein Bericht von Matthias Monroy

  3. CHIPS Act: Das 21. Jahrhundert wird das amerikanische
    CHIPS Act
    "Das 21. Jahrhundert wird das amerikanische"

    52 Milliarden US-Dollar, um die lokale Halbleiterfertigung zu stärken: Senat und Repräsentantenhaus haben zugestimmt, Joe Biden soll folgen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • RX 6900 XTU 16GB 1.449€ • Intel i7 3,6Ghz 399€ • Alternate: u.a. Acer Gaming-Monitor 119,90€ • Logitech Gaming-Headset 75€ • iRobot Saugroboter ab 289,99€ • 1TB SSD PCIe 4.0 128,07€ • Razer Gaming-Tastatur 155€ • GOG New Year Sale: bis zu 90% Rabatt • LG OLED 65 Zoll 1.599€ [Werbung]
    •  /