GPT-3: Forscher zeigen Vorurteile in riesigem Sprachmodell auf

Das KI-Modell GPT-3 von OpenAI reproduziert Vorurteile, was nun unabhängige Forscher bestätigen. Die Macher wollen das offenbar nicht ändern.

Artikel veröffentlicht am ,
Hautfarbe oder Religion sollte bei Machine-Learning-Modellen eigentlich keine Rolle spielen.
Hautfarbe oder Religion sollte bei Machine-Learning-Modellen eigentlich keine Rolle spielen. (Bild: Pixabay)

Ein Forschungsteam der Universitäten Standford und McMaster zeigt in einer aktuellen Untersuchung, dass das riesige Sprachmodell GPT-3 von OpenAI gängige Vorurteile in Bezug auf Religionen reproduziert. Bereits zur Veröffentlichung von GPT-3 im vergangenen Jahr hat das zuständige Team von OpenAI die wiederkehrenden Vorurteile eingeräumt. Die Forscher haben dies aber nicht nur unabhängig bestätigt, sondern zeigen auch, wie sich dem vorbeugen ließe.

Stellenmarkt
  1. Head of ML Operations (m/f/x)
    UnternehmerTUM GmbH, München
  2. Java-Entwickler*in
    Atruvia AG, Karlsruhe, München, Münster
Detailsuche

Dass aktuelle Machine-Learning-Modelle aufgrund der Auswahl ihrer Trainingsdaten bestehende Vorurteile reproduzieren, ist etwa in Bezug auf Konstrukte wie Race und Gender vielfach gezeigt worden. Die Untersuchung von GPT-3 zeigt, dass das Modell etwa die Begriffe "Muslim" und "Terrorist" in 23 Prozent der untersuchten Fälle analog zueinander verwendet. Ähnliches gilt für "jüdisch" und "Geld", was immer noch in 5 Prozent der Fälle miteinander verknüpft wird.

Wie erwähnt hat auch schon das Team von OpenAI bei der Veröffentlichung von GPT-3 auf diesen Umstand hingewiesen. Doch wie das Projekt One Zero, das zuerst darüber berichtet hatte, nun schreibt, will OpenAI die bestehenden Algorithmen des Sprachmodells nicht mehr nachträglich ändern oder anpassen. Möglicherweise schädliche Inhalte können lediglich gekennzeichnet oder ausgeblendet werden.

Das Forschungsteam zeigt am Beispiel von GPT-3 aber auch, wie sich diese offenbar grundlegenden Funktionen des Modells überlisten lassen. Möglich machen das sogenannte "adversarial triggers". Konkret handelt es sich dabei um gezielt manipulierte Eingaben, die dazu führen, dass die vorurteilsbehafteten Verknüpfungen nicht mehr von dem Modell ausgegeben werden. Dazu nutzt das Team schlicht positiv besetze Adjektive.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Eheran 26. Jan 2021

Sprachmodell. Völlig egal. Es wäre für damals passend gewesen, hätte die Eigenheiten...

Eheran 26. Jan 2021

Ne, du bist "ein Student", dir glaube ich jetzt nicht mehr! Muss man sich mal auf der...

Eheran 26. Jan 2021

Wir reden hier von einem Sprachmodell, ja? Keine auf Algorithmus basierende Atrombomben...

Emulex 25. Jan 2021

Und jede Menge Satire. Ich denke da an den Pipi-Papst in der Titanic. Rechtlich...

OtherOne 25. Jan 2021

.. die Golem Artikel würden auf jeden Fall ihren Teil beitragen. (Das gibts übrigens...



Aktuell auf der Startseite von Golem.de
In-Ears
Apple stellt Airpods 3 vor

Apple hat auf seinem Event die Airpods 3 vorgestellt, die den Airpods 3 Pro sehr ähnlich sehen - allerdings ohne Geräuschunterdrückung.

In-Ears: Apple stellt Airpods 3 vor
Artikel
  1. 5 US-Dollar: Apple bietet günstigeres Music-Abo an
    5 US-Dollar
    Apple bietet günstigeres Music-Abo an

    Apple hat ein preiswerteres Apple-Music-Abo angekündigt, das aber nur mit dem Sprachassistenten Siri gesteuert werden kann.

  2. Transatel: Bundesnetzagentur zwingt Telefónica zu Verhandlungen
    Transatel
    Bundesnetzagentur zwingt Telefónica zu Verhandlungen

    Telefónica darf einen Mobilfunkprovider (MVNO) aus Frankreich nicht behindern.

  3. Irische Datenschutzbehörde: Max Schrems soll Dokument von seiner Webseite nehmen
    Irische Datenschutzbehörde
    Max Schrems soll Dokument von seiner Webseite nehmen

    Mit einem Trick umgeht Facebook die DSGVO. Die irische Datenschutzbehörde findet das okay, möchte aber nicht, dass Noyb dies öffentlich macht.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Cyber Week: Bis zu 360€ auf Gaming-Monitore & bis zu 22% auf Be Quiet • LG-TVs & Monitore zu Bestpreisen (u. a. Ultragear 34" Curved FHD 144Hz 359€) • Bosch-Werkzeug günstiger • Dell-Monitore günstiger • Horror-Filme reduziert • MwSt-Aktion bei MM: Rabatte auf viele Produkte [Werbung]
    •  /