GPT-3: Forscher zeigen Vorurteile in riesigem Sprachmodell auf

Das KI-Modell GPT-3 von OpenAI reproduziert Vorurteile, was nun unabhängige Forscher bestätigen. Die Macher wollen das offenbar nicht ändern.

Artikel veröffentlicht am ,
Hautfarbe oder Religion sollte bei Machine-Learning-Modellen eigentlich keine Rolle spielen.
Hautfarbe oder Religion sollte bei Machine-Learning-Modellen eigentlich keine Rolle spielen. (Bild: Pixabay)

Ein Forschungsteam der Universitäten Standford und McMaster zeigt in einer aktuellen Untersuchung, dass das riesige Sprachmodell GPT-3 von OpenAI gängige Vorurteile in Bezug auf Religionen reproduziert. Bereits zur Veröffentlichung von GPT-3 im vergangenen Jahr hat das zuständige Team von OpenAI die wiederkehrenden Vorurteile eingeräumt. Die Forscher haben dies aber nicht nur unabhängig bestätigt, sondern zeigen auch, wie sich dem vorbeugen ließe.

Stellenmarkt
  1. Lead Systems Architect Steer-by-Wire (m/w/d)
    Schaeffler Technologies AG & Co. KG, Herzogenaurach
  2. (Junior) Application Manager Lidl Warenwirtschaftssystem International (m/w/d)
    Schwarz IT KG, Neckarsulm
Detailsuche

Dass aktuelle Machine-Learning-Modelle aufgrund der Auswahl ihrer Trainingsdaten bestehende Vorurteile reproduzieren, ist etwa in Bezug auf Konstrukte wie Race und Gender vielfach gezeigt worden. Die Untersuchung von GPT-3 zeigt, dass das Modell etwa die Begriffe "Muslim" und "Terrorist" in 23 Prozent der untersuchten Fälle analog zueinander verwendet. Ähnliches gilt für "jüdisch" und "Geld", was immer noch in 5 Prozent der Fälle miteinander verknüpft wird.

Wie erwähnt hat auch schon das Team von OpenAI bei der Veröffentlichung von GPT-3 auf diesen Umstand hingewiesen. Doch wie das Projekt One Zero, das zuerst darüber berichtet hatte, nun schreibt, will OpenAI die bestehenden Algorithmen des Sprachmodells nicht mehr nachträglich ändern oder anpassen. Möglicherweise schädliche Inhalte können lediglich gekennzeichnet oder ausgeblendet werden.

Das Forschungsteam zeigt am Beispiel von GPT-3 aber auch, wie sich diese offenbar grundlegenden Funktionen des Modells überlisten lassen. Möglich machen das sogenannte "adversarial triggers". Konkret handelt es sich dabei um gezielt manipulierte Eingaben, die dazu führen, dass die vorurteilsbehafteten Verknüpfungen nicht mehr von dem Modell ausgegeben werden. Dazu nutzt das Team schlicht positiv besetze Adjektive.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Eheran 26. Jan 2021

Sprachmodell. Völlig egal. Es wäre für damals passend gewesen, hätte die Eigenheiten...

Eheran 26. Jan 2021

Ne, du bist "ein Student", dir glaube ich jetzt nicht mehr! Muss man sich mal auf der...

Eheran 26. Jan 2021

Wir reden hier von einem Sprachmodell, ja? Keine auf Algorithmus basierende Atrombomben...

Emulex 25. Jan 2021

Und jede Menge Satire. Ich denke da an den Pipi-Papst in der Titanic. Rechtlich...



Aktuell auf der Startseite von Golem.de
Ryzen 7950X/7700X im Test
Brachialer Beginn einer neuen AMD-Ära

Nie waren die Ryzen-CPUs besser: extrem schnell, DDR5-Speicher, PCIe Gen5, integrierte Grafik. Der (thermische) Preis dafür ist jedoch hoch.
Ein Test von Marc Sauter und Martin Böckmann

Ryzen 7950X/7700X im Test: Brachialer Beginn einer neuen AMD-Ära
Artikel
  1. US-Whistleblower: Putin verleiht Snowden die russische Staatsbürgerschaft
    US-Whistleblower
    Putin verleiht Snowden die russische Staatsbürgerschaft

    US-Whistleblower Edward Snowden ist nun auch russischer Staatsbürger. Für den Krieg gegen die Ukraine kann er aber vorerst nicht eingezogen werden.

  2. Rechenzentren: IT des Bundes ignoriert eigene umweltpolitische Vorgaben
    Rechenzentren
    IT des Bundes ignoriert eigene umweltpolitische Vorgaben

    Bei 184 Rechenzentren und einem hohen Einkaufsvolumen für Technik hat die Bundes-IT eine große Bedeutung. Doch die Abwärme und erneuerbare Energien werden viel zu wenig genutzt.

  3. Revision CFI 1202A: Die neue PS5 hat einen 6-nm-Chip
    Revision CFI 1202A
    Die neue PS5 hat einen 6-nm-Chip

    Sony hat damit begonnen, eine neue Revision der PS5 auszuliefern. Sowohl für Kunden als auch für den Hersteller bietet das Modell Vorteile.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5-Verkauf bei MMS • CyberWeek: PC-Zubehör, Werkzeug & Co. • Günstig wie nie: Gigabyte RX 6900 XT 864,15€, MSI RTX 3090 1.159€, Fractal Design RGB Tower 129,90€ • MindStar (Palit RTX 3070 549€) • Thrustmaster T300 RS GT 299,99€ • Alternate (iPad Air (2022) 256GB 949,90€) [Werbung]
    •  /