Deepmind: Riesige Sprachmodelle lösen auch nicht alle Probleme

Die KI-Forscher von Deepmind haben besonders große Sprachmodelle untersucht und sagen, die Skalierung allein helfe nicht, Probleme zu lösen.

Artikel veröffentlicht am ,
Gopher (deutsch Taschenratte) sind Nagetiere
Gopher (deutsch Taschenratte) sind Nagetiere (Bild: siamesepuppy, flickr.com/CC-BY 2.0)

Die derzeit mit Machine-Learning erstellten Modelle zur Sprachverarbeitung werden immer größer. Eine systematische Untersuchung der zu Googles-Mutterkonzern Alphabet gehörenden KI-Spezialisten von Deepmind zeigt nun die Auswirkungen dieses Trends, zusammengefasst in drei unterschiedlichen wissenschaftlichen Veröffentlichungen. Das Team von Deepmind hat dazu auch ein eigenes neues Sprachmodell erstellt: Gopher - mit etwa 280 Milliarden Parametern.

Stellenmarkt
  1. SPS Programmierer Medical (m/w/d)
    PIA Automation Amberg GmbH, Amberg
  2. Teamleiter Data Center (m/w/d)
    prego services GmbH, Saarbrücken, Ludwigshafen
Detailsuche

Die Anzahl der Parameter ist eine leicht verfügbare Größe, um die Modelle miteinander zu vergleichen. So hat das von OpenAI erstellte Modell GPT-3, das von Microsoft unterstützt wird und dessen Technik Microsoft ebenfalls nutzt, etwa 175 Milliarden Parameter. Erst vor zwei Monaten hatten darüber hinaus Nvidia und Microsoft ein Sprachmodell mit etwa 530 Milliarden Parametern vorgestellt.

Zu den Untersuchungen sagte Deepmind-Forscher Jack Rae laut The Verge: "Ein zentrales Ergebnis des Papiers ist, dass der Fortschritt und die Fähigkeiten großer Sprachmodelle immer noch zunehmen. Dies ist kein Gebiet, das ein Plateau erreicht hat." Das gelte wohl aber nicht uneingeschränkt für alle möglichen Problemstellungen, die im Zusammenhang mit Sprachverarbeitung und den dafür genutzten Modellen entstehen.

Denn darüber hinaus gibt es laut Rae "andere Kategorien von Problemen wie etwa, dass das Modell stereotype Vorurteile verewigt oder dass das Modell dazu gebracht wird, Unwahrheiten zu sagen, von denen [...] niemand bei Deepmind glaubt, dass Skalierung die Lösung sein wird". Helfen könnten hier nur "zusätzliche Trainingsroutinen" und ein direkter menschlicher Eingriff.

Golem Akademie
  1. Scrum Product Owner: Vorbereitung auf den PSPO I (Scrum.org): virtueller Zwei-Tage-Workshop
    3.–4. März 2022, virtuell
  2. ITIL 4® Foundation: virtueller Zwei-Tage-Workshop
    24.–25. Januar 2022, virtuell
Weitere IT-Trainings

Darauf aufbauend untersucht das Team aber bereits mögliche Lösungsansätze dafür. So heißt es: "Unser Abschlusspapier baut auf den Grundlagen von Gopher und unserer Taxonomie des ethischen und sozialen Risikos auf, indem es eine verbesserte Sprachmodellarchitektur vorschlägt, die die Energiekosten des Trainings senkt und es einfacher macht, Modellausgaben zu Quellen innerhalb des Trainingskorpus zurückzuverfolgen." Diese Zurückverfolgbarkeit ist wohl eine der wichtigsten Funktionen, um überhaupt die Möglichkeit zu haben, eventuell von dem Modell erlernte Vorurteile zu revidieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Corona-Warn-App
Jede geteilte Warnung kostete 100 Euro

Die Bundesregierung hat für die Corona-Warn-App bisher mehr als 130 Millionen Euro ausgegeben. Derzeit gibt es besonders viele rote Warnungen.

Corona-Warn-App: Jede geteilte Warnung kostete 100 Euro
Artikel
  1. Activision Blizzard: Was passiert mit Call of Duty, Diablo und Xbox Game Pass?
    Activision Blizzard
    Was passiert mit Call of Duty, Diablo und Xbox Game Pass?

    Playstation als Verlierer und Exklusivspiele für den Xbox Game Pass: Golem.de über die bislang größte Übernahme durch Microsoft.
    Eine Analyse von Peter Steinlechner

  2. Dice: Update-Roadmap für Battlefield 2042 vorgestellt
    Dice
    Update-Roadmap für Battlefield 2042 vorgestellt

    Ob das reicht? Das Entwicklerstudio Dice hat seine Pläne für Battlefield 2042 vorgestellt. Der Shooter hat extrem niedrige Spielerzahlen.

  3. Energiespeicher: Große Druckluftspeicher locken Investorengelder an
    Energiespeicher
    Große Druckluftspeicher locken Investorengelder an

    Hydrostor bietet eine langlebige Alternative zu Netzspeichern aus Akkus, die zumindest in den 2020er Jahren wirtschaftlich ist.
    Von Frank Wunderlich-Pfeiffer

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • LG OLED 55" 120Hz 999€ • MindStar (u.a. NZXT WaKü 129€, GTX 1660 499€) • Seagate Firecuda 530 1TB inkl. Kühlkörper + 20€ PSN-Guthaben 189,90€ • HP Omen Gaming-Stuhl 319€ • Sony Pulse 3D Wireless PS5 Headset 79,99€ • Huawei MateBook 16,1" 16GB 512GB SSD 709€ [Werbung]
    •  /