Deep Learning: GPT-3-Nachfolger soll weniger toxisch sein

Das neue Sprachmodell InstructGPT soll öfter die Wahrheit sagen und weniger Vorurteile nutzen als GPT-3. Ganz vor diesen gefeit ist es aber nicht.

Artikel veröffentlicht am ,
Hautfarbe oder Religion sollte bei Machine-Learning-Modellen eigentlich keine Rolle spielen.
Hautfarbe oder Religion sollte bei Machine-Learning-Modellen eigentlich keine Rolle spielen. (Bild: Pixabay)

Die Sprach- und KI-Forscher von OpenAI haben mit dem Modell InstructGPT eine Art Nachfolger für das riesige Modell GPT-3 veröffentlicht. Das neue Modell ist zwar deutlich kleiner, integriert aber erstmals die sogenannte Alignment-Forschung des Teams und soll so besser auf die tatsächlichen Anweisungen reagieren können. Die Antworten sollen so "wahrheitsgetreuer und weniger toxisch" werden.

Stellenmarkt
  1. IT Support/1st Line Support (m/w/d)
    Olenex Edible Oils GmbH, Brake, Hamburg
  2. Assistenz IT/IT-Kaufmann (m/w/d)
    Partnerverbund Pyramide GmbH, Karlsruhe-Grötzingen
Detailsuche

Das große Problem bisheriger Sprachmodelle, die mit Hilfe von Deep-Learning erstellt werden, ist, dass diese die Vorurteile ihrer Ausgangsdaten oft einfach reproduzieren. Auch GPT-3 assoziert mit vielen Berufen oft männliche Personen und fügt entsprechende Artikel in Sätze ein. Dabei seien gerade akademische und höher bezahlte Jobs zu etwa 83 Prozent Wahrscheinlichkeit einem Mann zugeordnet. Frauen sind für das Modell zu einer überwältigenden Mehrheit wunderschön, umwerfend und klein. Bei Männern fallen Begriffe wie groß, ansehnlich und faul. Hinzu kommen auch rassistische Assoziationen oder Schimpfworte.

InstructGPT soll diese Probleme zumindest ein Stück weit entschärfen, und das, obwohl nur 1,3 Milliarden Parameter genutzt werden im Vergleich zu den 175 Milliarden Paramentern von GPT-3. Erreicht wird die bessere Anpassung des Modells an die eigentlichen Bedürfnisse der Nutzer durch das sogenannte Reinforcement Learning mit Human Feedback. Konkret bedeutet das, dass verschiedene Rückgaben der API in ihrer Qualität bewertet werden und diese Informationen wiederum das Training beeinflussen soll.

Die APIs von InstructGPT werden bei OpenAI seit einem Jahr getestet und das Modell sei nun das Standardmodell des Dienstes. Die Forscher schreiben dazu aber auch: "Sie erzeugen immer noch toxische oder voreingenommene Ergebnisse, erfinden Fakten und erzeugen sexuelle und gewalttätige Inhalte ohne ausdrückliche Aufforderung". Das neue Modell von OpenAI zeigt dabei ähnlich wie bereits die Forschungen von Deepmind, dass nicht allein die Größe eines Sprachmodells über dessen Qualität entscheidet.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Cariad
Aufsichtsrat greift bei VWs Softwareentwicklung durch

Die Sorge um die Volkswagen-Softwarefirma Cariad hat den Aufsichtsrat veranlasst, ein überarbeitetes Konzept für die ehrgeizigen Pläne vorzulegen.

Cariad: Aufsichtsrat greift bei VWs Softwareentwicklung durch
Artikel
  1. Delfast Top 3.0: Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein
    Delfast Top 3.0
    Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein

    Ukrainische Infanteristen nutzen E-Motorräder, um leise und schnell zum Einsatz zu gelangen und die Panzerabwehrlenkwaffe NLAW zu transportieren.

  2. Überwachung: Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein
    Überwachung
    Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein

    In Rheinland-Pfalz werden Handynutzer am Steuer eines Autos automatisch erkannt. Dazu wird das System Monocam aus den Niederlanden genutzt.

  3. Love, Death + Robots 3: Mal spannend, mal tragisch, mal gelungen, mal nicht so
    Love, Death + Robots 3
    Mal spannend, mal tragisch, mal gelungen, mal nicht so

    Die abwechslungsreichste Science-Fiction-Serie unserer Zeit ist wieder da - mit acht neuen Folgen der von David Fincher produzierten Anthologie-Reihe.
    Von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Borderlands 3 gratis • CW: Top-Rabatte auf PC-Komponenten • Inno3D RTX 3070 günstig wie nie: 614€ • Ryzen 9 5900X 398€ • Top-Laptops zu Tiefpreisen • Edifier Lautsprecher 129€ • Kingston SSD 2TB günstig wie nie: 129,90€ • Samsung Soundbar + Subwoofer günstig wie nie: 228,52€ [Werbung]
    •  /