Lehrer für die KI: Die größte Hürde überwinden
Die genannten Probleme stellen eine große Hürde für den kommerziellen Einsatz von Sprachmodellen dar. Deshalb ging OpenAI in der nächsten Generation von GPT dazu über, das Modell zusätzlich direkt von Menschen unterrichten zu lassen, die eigens für diese Aufgabe angestellt wurden.
Natürlich können solche menschlichen KI-Lehrer aus Kostengründen nur eine begrenzte Anzahl an Beispielen erzeugen, die gering ist im Vergleich zur Menge der online verfügbaren Dokumente. Daher benötigt man ein gut durchdachtes Verfahren, um die wenigen, aber qualitativ hochwertigen Beispiele der KI-Lehrer automatisiert zu verallgemeinern. OpenAI hat diese Herausforderung mit der im Folgenden beschriebenen Methode bewältigt.
Einer Gruppe von rund 40 Mitarbeitern stellte über zehntausend Beispiele dafür zusammen, wie GPT bestimmte Aufgaben idealerweise erfüllen sollte. Sie deckte eine große Bandbreite möglicher Arbeitsanweisungen ab und stellte die inhaltliche Güte und ethische Vertretbarkeit der erwünschten Antworten sicher. Mit diesen manuell erzeugten Beispielen wurde das Modell zur Feineinstellung trainiert, nachdem das erste grobe Training an den größeren, generischen Datensätzen abgeschlossen war.
Die OpenAI-Forscher mussten jedoch erreichen, dass ihr Sprachmodell die aufwendig erstellten Beispiele verallgemeinern und damit neue Aufgaben lösen konnte. Denn selbst die rund zehntausend exemplarischen Anweisungen mit ihren Musterlösungen bilden nur einen kleinen Bruchteil der möglichen Anfragen ab, die Millionen von Nutzern an den Algorithmus stellen könnten.
GPT wird sein eigener Kritiker
Um die Beispiele seiner menschlichen Lehrer zu verallgemeinern, musste das Sprachmodell zunächst in die Lage versetzt werden, die Qualität seiner eigenen Arbeitsergebnisse zu beurteilen. Da GPT zu einem unvollständigen Text immer die Wahrscheinlichkeiten für mögliche Folgewörter berechnet, kann es zu jeder Nutzeranfrage viele unterschiedliche Ergebnisse liefern, indem jedes neue Wort entsprechend der berechneten Verteilung zufällig ausgewählt wird.
Um diese verschiedenen Ergebnisse bewerten zu können, wurde GPT um ein zusätzliches Modell erweitert. Es beruht ebenfalls auf dem Transformer-Prinzip, sagt aber nicht zu einem unvollständigen Text das nächste Wort vorher, sondern bewertet die Qualität eines Textes. Dieses Bewertungsmodell wurde von Hand trainiert, indem die bereits erwähnte Gruppe von KI-Lehrern für Zehntausende von exemplarischen Nutzeranfragen jeweils mehrere zufällig von GPT erzeugte Antworten der Qualität nach ordnete.
Mit dieser Erweiterung hatte GPT also die Fähigkeit, zu jeder Anfrage nach dem Zufallsprinzip mehrere Kandidaten für sinnvolle Antworten zu erzeugen und dann daraus die beste auszuwählen. Im letzten Schritt wurde das Modell nun befähigt, sich selbst auf Basis dieser Eigenbewertung weiter zu trainieren (siehe Abbildung 6).
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Eine grobe Interpretation des Sprachmodells | Das Modell trainiert sich selbst |
Ich wollte nur mal anmerken, dass ich die Idee für die Illustration (KI-generiert) super...
Genau, weil die Welt schwarz und weiß ist. Man kann auch ChatGPT verwenden ohne dessen...
Doch, versteht und antwortet auch auf Deutsch und anderen Sprachen.
Hier auch - guter Artikel, und die "gesunde Mitte" zwischen zu viel fachlicher Tiefer und...
Kommentieren