Das Modell trainiert sich selbst

Bei der verwendeten Methode handelt es sich um eine der vielen Varianten des sogenannten Reinforcement Learning. Diesem liegt immer ein Modell zugrunde, in dem ein Akteur eine Abfolge von Entscheidungen treffen kann, die einen Einfluss auf seinen Zustand haben und jeweils eine Belohnung oder eine Bestrafung zur Folge haben können. Der Akteur lernt durch wiederholte Versuche aus Erfahrung, welche Entscheidungen ihm in welcher Situation zu höheren Belohnungen verhelfen können.

Die Entscheidungen trifft der Akteur auf Grundlage einer sogenannten Policy, also einer Regel, was in welcher Situation zu tun ist. Der Lernprozess besteht darin, die Policy kontinuierlich zu verbessern. Insbesondere muss eine erfolgreiche Policy bei jeder Entscheidung berücksichtigen, welche Belohnungen dadurch auch in den späteren Schritten erreicht werden können.

Auf GPT angewendet entspricht jede einzelne Entscheidung der Erzeugung eines neuen Wortes. Die Belohnung, die den Lernprozess steuert, ist die Qualitätsbeurteilung, welche sich das Sprachmodell nach der Erledigung einer Aufgabe selbst ausstellt.

Als Policy verwendete OpenAI zu Anfang das bereits vorhandene Sprachmodell, das von den menschlichen Trainern feinjustiert worden war. Anhand dieser Policy wurden Antworten auf zufällig ausgewählte Nutzeranfragen erzeugt. Die Qualität dieser Antworten wurde durch das separate Bewertungsmodell abgeschätzt. Der Reinforcement-Learning-Algorithmus passte die Policy - also das Sprachmodell - dann so an, dass die Wahrscheinlichkeit für Antworten mit einer guten Qualität erhöht wird.

In diesem letzten Schritt wurde also das Grundkonzept des Trainings deutlich erweitert: Im ursprünglichen Training wurde nur darauf geachtet, das jeweils nächste Wort richtig vorherzusagen. Bei Reinforcement Learning hingegen lernt das Modell, dieses Wort so zu wählen, dass die Qualität der gesamten Antwort am Ende möglichst hoch ist.

Die Idee dieser Kombination aus manuellen Trainingsschritten und Reinforcement Learning ist so elegant, dass sie es verdient, noch einmal zusammengefasst zu werden: Es ist offensichtlich, dass es viel zu aufwendig wäre, ein Sprachmodell manuell für alle denkbaren Aufgaben zu trainieren. Außerdem ist es einfacher, einen guten Text von einem schlechten zu unterscheiden, als einen guten Text zu erzeugen (die Literaturkritiker unter den Lesern mögen diese These verzeihen!). Also bringt man dem Sprachmodell bei, gute von schlechten Texten zu unterscheiden, und versetzt es dadurch in die Lage, sich selbst das Schreiben guter Texte beizubringen.

Die Entwicklung geht weiter

Mit dem oben beschriebenen Reinforcement-Learning-Verfahren erreichte OpenAI einen weiteren deutlichen Leistungssprung von GPT-3 zu ChatGPT und legte damit die Grundlage für die derzeitige öffentliche Begeisterung. Doch auch ChatGPT ist nicht frei von Limitationen: Zum Beispiel trifft es regelmäßig falsche oder widersprüchliche Aussagen zu Fragestellungen, die ein gewisses physikalisches oder räumliches Vorstellungsvermögen erfordern. Gleiches gilt für sehr spezielle Wissensbereiche, die in den vorhandenen Trainingsdaten nur in begrenztem Umfang abgedeckt sind.

Doch ChatGPT hat klar gezeigt, dass Sprachmodelle über ein enormes Potenzial verfügen. Ihre Entwicklung scheint an der Schwelle zu einem massenhaften kommerziellen Einsatz zu stehen, wie beispielsweise die Investition von Microsoft in OpenAI und die Reaktion von Google auf ChatGPT zeigen.

Es ist daher nicht anzunehmen, dass sich der rasante Fortschritt der Sprachmodelle in naher Zukunft verlangsamt. Er wird vielmehr durch zusätzliche Investitionen in die Technologie verstärkt werden, denn auch die Forschungsprogramme von Konkurrenten wie Google Deepmind und einer Reihe von Start-ups profitieren von dem Hype.

Man darf also darauf gespannt sein, welchen Einfluss Sprachmodelle künftig auf unseren Alltag haben werden - auf unsere Art zu arbeiten, miteinander zu kommunizieren, Technologie zu verwenden oder Informationen zu suchen.

Helmut Linde leitete verschiedene Data-Science-Teams in deutschen Konzernen und ist nun bei der Covestro AG für die Digitalisierung von Forschung und Entwicklung verantwortlich. Als Mathematiker und Physiker ist er fasziniert von naturwissenschaftlichen Themen sowie der Anwendung und der Zukunft der künstlichen Intelligenz.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Lehrer für die KI: Die größte Hürde überwinden
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7


flashplugin 23. Feb 2023 / Themenstart

Ich wollte nur mal anmerken, dass ich die Idee für die Illustration (KI-generiert) super...

Wagyufleischwur... 21. Feb 2023 / Themenstart

Genau, weil die Welt schwarz und weiß ist. Man kann auch ChatGPT verwenden ohne dessen...

ThadMiller 20. Feb 2023 / Themenstart

Doch, versteht und antwortet auch auf Deutsch und anderen Sprachen.

Trollversteher 13. Feb 2023 / Themenstart

Hier auch - guter Artikel, und die "gesunde Mitte" zwischen zu viel fachlicher Tiefer und...

Kommentieren



Aktuell auf der Startseite von Golem.de
Automobil
Keine zwei Minuten, um einen Tesla Model 3 zu hacken

Bei der Hacking-Konferenz Pwn2Own 2023 hat ein Forschungsteam keine zwei Minuten benötigt, um ein Tesla Model 3 zu hacken. Das brachte dem Team jede Menge Geld und einen neuen Tesla ein.

Automobil: Keine zwei Minuten, um einen Tesla Model 3 zu hacken
Artikel
  1. Fiktive Szenarien und Stereotype: AfD nutzt KI-Fotos für propagandistische Zwecke
    Fiktive Szenarien und Stereotype
    AfD nutzt KI-Fotos für propagandistische Zwecke

    Politiker der Alternative für Deutschland (AfD) nutzen realistische KI-Bilder, um Stimmung zu machen. Die Bilder sind kaum von echten Fotos zu unterscheiden.

  2. Java 20, GPT-4, Typescript, Docker: Neue Java-Version und AI everwhere
    Java 20, GPT-4, Typescript, Docker
    Neue Java-Version und AI everwhere

    Dev-Update Oracle hat Java 20 veröffentlicht. Enthalten sind sieben JEPs aus drei Projekten. Dev-News gab es diesen Monat auch in Sachen Typescript, Docker und KI in Entwicklungsumgebungen.
    Von Dirk Koller

  3. Socket: ChatGPT findet Malware in NPM- und Python-Paketen
    Socket
    ChatGPT findet Malware in NPM- und Python-Paketen

    Der Anbieter eines Sicherheitsscanners, Socket, nutzt den Chatbot von OpenAI auch zur Untersuchung von Paketen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Crucial SSD 1TB/2TB bis -43% • RAM im Preisrutsch • RTX 4090 erstmals unter 1.700€ • MindStar: iPhone 14 Pro Max 1TB 1.599€ • SSDs & Festplatten bis -60% • AOC 34" UWQHD 279€ • 3 Spiele kaufen, 2 zahlen [Werbung]
    •  /