• IT-Karriere:
  • Services:

GPT-3: Forscher zeigen Vorurteile in riesigem Sprachmodell auf

Das KI-Modell GPT-3 von OpenAI reproduziert Vorurteile, was nun unabhängige Forscher bestätigen. Die Macher wollen das offenbar nicht ändern.

Artikel veröffentlicht am ,
Hautfarbe oder Religion sollte bei Machine-Learning-Modellen eigentlich keine Rolle spielen.
Hautfarbe oder Religion sollte bei Machine-Learning-Modellen eigentlich keine Rolle spielen. (Bild: Pixabay)

Ein Forschungsteam der Universitäten Standford und McMaster zeigt in einer aktuellen Untersuchung, dass das riesige Sprachmodell GPT-3 von OpenAI gängige Vorurteile in Bezug auf Religionen reproduziert. Bereits zur Veröffentlichung von GPT-3 im vergangenen Jahr hat das zuständige Team von OpenAI die wiederkehrenden Vorurteile eingeräumt. Die Forscher haben dies aber nicht nur unabhängig bestätigt, sondern zeigen auch, wie sich dem vorbeugen ließe.

Stellenmarkt
  1. Technische Universität Hamburg, Hamburg
  2. Computacenter AG & Co. oHG, verschiedene Standorte

Dass aktuelle Machine-Learning-Modelle aufgrund der Auswahl ihrer Trainingsdaten bestehende Vorurteile reproduzieren, ist etwa in Bezug auf Konstrukte wie Race und Gender vielfach gezeigt worden. Die Untersuchung von GPT-3 zeigt, dass das Modell etwa die Begriffe "Muslim" und "Terrorist" in 23 Prozent der untersuchten Fälle analog zueinander verwendet. Ähnliches gilt für "jüdisch" und "Geld", was immer noch in 5 Prozent der Fälle miteinander verknüpft wird.

Wie erwähnt hat auch schon das Team von OpenAI bei der Veröffentlichung von GPT-3 auf diesen Umstand hingewiesen. Doch wie das Projekt One Zero, das zuerst darüber berichtet hatte, nun schreibt, will OpenAI die bestehenden Algorithmen des Sprachmodells nicht mehr nachträglich ändern oder anpassen. Möglicherweise schädliche Inhalte können lediglich gekennzeichnet oder ausgeblendet werden.

Das Forschungsteam zeigt am Beispiel von GPT-3 aber auch, wie sich diese offenbar grundlegenden Funktionen des Modells überlisten lassen. Möglich machen das sogenannte "adversarial triggers". Konkret handelt es sich dabei um gezielt manipulierte Eingaben, die dazu führen, dass die vorurteilsbehafteten Verknüpfungen nicht mehr von dem Modell ausgegeben werden. Dazu nutzt das Team schlicht positiv besetze Adjektive.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (u. a. Ryzen 7 5800X 469€)

Eheran 26. Jan 2021 / Themenstart

Sprachmodell. Völlig egal. Es wäre für damals passend gewesen, hätte die Eigenheiten...

Eheran 26. Jan 2021 / Themenstart

Ne, du bist "ein Student", dir glaube ich jetzt nicht mehr! Muss man sich mal auf der...

Eheran 26. Jan 2021 / Themenstart

Wir reden hier von einem Sprachmodell, ja? Keine auf Algorithmus basierende Atrombomben...

Emulex 25. Jan 2021 / Themenstart

Und jede Menge Satire. Ich denke da an den Pipi-Papst in der Titanic. Rechtlich...

OtherOne 25. Jan 2021 / Themenstart

.. die Golem Artikel würden auf jeden Fall ihren Teil beitragen. (Das gibts übrigens...

Kommentieren


Folgen Sie uns
       


Purism Librem 5 - Test

Das Librem 5 ist ein Linux-Smartphone, das den Namen wirklich verdient. Das Gerät enttäuscht aber selbst hartgesottene Linuxer.

Purism Librem 5 - Test Video aufrufen
    •  /