Das Modell trainiert sich selbst
Bei der verwendeten Methode handelt es sich um eine der vielen Varianten des sogenannten Reinforcement Learning. Diesem liegt immer ein Modell zugrunde, in dem ein Akteur eine Abfolge von Entscheidungen treffen kann, die einen Einfluss auf seinen Zustand haben und jeweils eine Belohnung oder eine Bestrafung zur Folge haben können. Der Akteur lernt durch wiederholte Versuche aus Erfahrung, welche Entscheidungen ihm in welcher Situation zu höheren Belohnungen verhelfen können.
Die Entscheidungen trifft der Akteur auf Grundlage einer sogenannten Policy, also einer Regel, was in welcher Situation zu tun ist. Der Lernprozess besteht darin, die Policy kontinuierlich zu verbessern. Insbesondere muss eine erfolgreiche Policy bei jeder Entscheidung berücksichtigen, welche Belohnungen dadurch auch in den späteren Schritten erreicht werden können.
Auf GPT angewendet entspricht jede einzelne Entscheidung der Erzeugung eines neuen Wortes. Die Belohnung, die den Lernprozess steuert, ist die Qualitätsbeurteilung, welche sich das Sprachmodell nach der Erledigung einer Aufgabe selbst ausstellt.
Als Policy verwendete OpenAI zu Anfang das bereits vorhandene Sprachmodell, das von den menschlichen Trainern feinjustiert worden war. Anhand dieser Policy wurden Antworten auf zufällig ausgewählte Nutzeranfragen erzeugt. Die Qualität dieser Antworten wurde durch das separate Bewertungsmodell abgeschätzt. Der Reinforcement-Learning-Algorithmus passte die Policy - also das Sprachmodell - dann so an, dass die Wahrscheinlichkeit für Antworten mit einer guten Qualität erhöht wird.
In diesem letzten Schritt wurde also das Grundkonzept des Trainings deutlich erweitert: Im ursprünglichen Training wurde nur darauf geachtet, das jeweils nächste Wort richtig vorherzusagen. Bei Reinforcement Learning hingegen lernt das Modell, dieses Wort so zu wählen, dass die Qualität der gesamten Antwort am Ende möglichst hoch ist.
Die Idee dieser Kombination aus manuellen Trainingsschritten und Reinforcement Learning ist so elegant, dass sie es verdient, noch einmal zusammengefasst zu werden: Es ist offensichtlich, dass es viel zu aufwendig wäre, ein Sprachmodell manuell für alle denkbaren Aufgaben zu trainieren. Außerdem ist es einfacher, einen guten Text von einem schlechten zu unterscheiden, als einen guten Text zu erzeugen (die Literaturkritiker unter den Lesern mögen diese These verzeihen!). Also bringt man dem Sprachmodell bei, gute von schlechten Texten zu unterscheiden, und versetzt es dadurch in die Lage, sich selbst das Schreiben guter Texte beizubringen.
Die Entwicklung geht weiter
Mit dem oben beschriebenen Reinforcement-Learning-Verfahren erreichte OpenAI einen weiteren deutlichen Leistungssprung von GPT-3 zu ChatGPT und legte damit die Grundlage für die derzeitige öffentliche Begeisterung. Doch auch ChatGPT ist nicht frei von Limitationen: Zum Beispiel trifft es regelmäßig falsche oder widersprüchliche Aussagen zu Fragestellungen, die ein gewisses physikalisches oder räumliches Vorstellungsvermögen erfordern. Gleiches gilt für sehr spezielle Wissensbereiche, die in den vorhandenen Trainingsdaten nur in begrenztem Umfang abgedeckt sind.
Doch ChatGPT hat klar gezeigt, dass Sprachmodelle über ein enormes Potenzial verfügen. Ihre Entwicklung scheint an der Schwelle zu einem massenhaften kommerziellen Einsatz zu stehen, wie beispielsweise die Investition von Microsoft in OpenAI und die Reaktion von Google auf ChatGPT zeigen.
Es ist daher nicht anzunehmen, dass sich der rasante Fortschritt der Sprachmodelle in naher Zukunft verlangsamt. Er wird vielmehr durch zusätzliche Investitionen in die Technologie verstärkt werden, denn auch die Forschungsprogramme von Konkurrenten wie Google Deepmind und einer Reihe von Start-ups profitieren von dem Hype.
Man darf also darauf gespannt sein, welchen Einfluss Sprachmodelle künftig auf unseren Alltag haben werden - auf unsere Art zu arbeiten, miteinander zu kommunizieren, Technologie zu verwenden oder Informationen zu suchen.
Helmut Linde leitete verschiedene Data-Science-Teams in deutschen Konzernen und ist nun bei der Covestro AG für die Digitalisierung von Forschung und Entwicklung verantwortlich. Als Mathematiker und Physiker ist er fasziniert von naturwissenschaftlichen Themen sowie der Anwendung und der Zukunft der künstlichen Intelligenz.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Lehrer für die KI: Die größte Hürde überwinden |
Ich wollte nur mal anmerken, dass ich die Idee für die Illustration (KI-generiert) super...
Genau, weil die Welt schwarz und weiß ist. Man kann auch ChatGPT verwenden ohne dessen...
Doch, versteht und antwortet auch auf Deutsch und anderen Sprachen.
Hier auch - guter Artikel, und die "gesunde Mitte" zwischen zu viel fachlicher Tiefer und...
Kommentieren