Lehrer für die KI: Die größte Hürde überwinden

Die genannten Probleme stellen eine große Hürde für den kommerziellen Einsatz von Sprachmodellen dar. Deshalb ging OpenAI in der nächsten Generation von GPT dazu über, das Modell zusätzlich direkt von Menschen unterrichten zu lassen, die eigens für diese Aufgabe angestellt wurden.

Natürlich können solche menschlichen KI-Lehrer aus Kostengründen nur eine begrenzte Anzahl an Beispielen erzeugen, die gering ist im Vergleich zur Menge der online verfügbaren Dokumente. Daher benötigt man ein gut durchdachtes Verfahren, um die wenigen, aber qualitativ hochwertigen Beispiele der KI-Lehrer automatisiert zu verallgemeinern. OpenAI hat diese Herausforderung mit der im Folgenden beschriebenen Methode bewältigt.

Einer Gruppe von rund 40 Mitarbeitern stellte über zehntausend Beispiele dafür zusammen, wie GPT bestimmte Aufgaben idealerweise erfüllen sollte. Sie deckte eine große Bandbreite möglicher Arbeitsanweisungen ab und stellte die inhaltliche Güte und ethische Vertretbarkeit der erwünschten Antworten sicher. Mit diesen manuell erzeugten Beispielen wurde das Modell zur Feineinstellung trainiert, nachdem das erste grobe Training an den größeren, generischen Datensätzen abgeschlossen war.

Die OpenAI-Forscher mussten jedoch erreichen, dass ihr Sprachmodell die aufwendig erstellten Beispiele verallgemeinern und damit neue Aufgaben lösen konnte. Denn selbst die rund zehntausend exemplarischen Anweisungen mit ihren Musterlösungen bilden nur einen kleinen Bruchteil der möglichen Anfragen ab, die Millionen von Nutzern an den Algorithmus stellen könnten.

GPT wird sein eigener Kritiker

Um die Beispiele seiner menschlichen Lehrer zu verallgemeinern, musste das Sprachmodell zunächst in die Lage versetzt werden, die Qualität seiner eigenen Arbeitsergebnisse zu beurteilen. Da GPT zu einem unvollständigen Text immer die Wahrscheinlichkeiten für mögliche Folgewörter berechnet, kann es zu jeder Nutzeranfrage viele unterschiedliche Ergebnisse liefern, indem jedes neue Wort entsprechend der berechneten Verteilung zufällig ausgewählt wird.

Um diese verschiedenen Ergebnisse bewerten zu können, wurde GPT um ein zusätzliches Modell erweitert. Es beruht ebenfalls auf dem Transformer-Prinzip, sagt aber nicht zu einem unvollständigen Text das nächste Wort vorher, sondern bewertet die Qualität eines Textes. Dieses Bewertungsmodell wurde von Hand trainiert, indem die bereits erwähnte Gruppe von KI-Lehrern für Zehntausende von exemplarischen Nutzeranfragen jeweils mehrere zufällig von GPT erzeugte Antworten der Qualität nach ordnete.

  • Grundprinzip der GPT-Sprachmodelle ist es, zu einem vorgegebenen unvollständigen Text eine Wahrscheinlichkeitsverteilung für das folgende Wort zu ermitteln. (Bild: Helmut Linde)
  • Im semantischen Raum werden Wörter ihrer Bedeutung nach geordnet. Bei den Word2Vec-Verfahren verfügt jedes Wort zusätzlich über einen Kontext-Vektor, welcher die Positionen stark korrelierter Wörter im semantischen Raum beschreibt. (Bild: Helmut Linde)
  • Einbettungen durch Word2Vec können dazu führen, dass Wörter mit ähnlicher Bedeutung im semantischen Raum nah beieinander liegen. Inhaltliche Beziehungen zwischen Wörtern können sich als geometrische Beziehungen in diesem Raum widerspiegeln. (Bild: Helmut Linde)
  • Der Aufmerksamkeitsmechanismus bildet Wörter aus dem semantischen Raum abhängig von ihrem Kontext an unterschiedlichen Positionen in einem neuen Raum ("Kontextraum") ab. Der Einfluss des Kontextes auf das Ergebnis wird dabei von dem Query-Vektor des Wortes und den Key-Vektoren der benachbarten Wörter im Text bestimmt. (Bild: Helmut Linde)
  • GPT ermittelt für jedes Wort eines Eingabetextes eine Prognose für das darauffolgende Wort. Dazu wird der Eingabetext zunächst Wort für Wort in einen semantischen Raum eingebettet. In diesem Raum wird der Aufmerksamkeitsmechanismus wiederholt angewendet. Schließlich wird das Ergebnis aus dem semantischen Raum wieder in konkrete Wörter zurückverwandelt.  (Bild: Helmut Linde)
  • Die Methode des Reinforcement Learning mit menschlicher Rückmeldung ermöglichte die Leistungssteigerung von GPT-3 zu ChatGPT.  (Bild: Helmut Linde)
Die Methode des Reinforcement Learning mit menschlicher Rückmeldung ermöglichte die Leistungssteigerung von GPT-3 zu ChatGPT. (Bild: Helmut Linde)

Mit dieser Erweiterung hatte GPT also die Fähigkeit, zu jeder Anfrage nach dem Zufallsprinzip mehrere Kandidaten für sinnvolle Antworten zu erzeugen und dann daraus die beste auszuwählen. Im letzten Schritt wurde das Modell nun befähigt, sich selbst auf Basis dieser Eigenbewertung weiter zu trainieren (siehe Abbildung 6).

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Eine grobe Interpretation des SprachmodellsDas Modell trainiert sich selbst 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9.  


flashplugin 23. Feb 2023 / Themenstart

Ich wollte nur mal anmerken, dass ich die Idee für die Illustration (KI-generiert) super...

Wagyufleischwur... 21. Feb 2023 / Themenstart

Genau, weil die Welt schwarz und weiß ist. Man kann auch ChatGPT verwenden ohne dessen...

ThadMiller 20. Feb 2023 / Themenstart

Doch, versteht und antwortet auch auf Deutsch und anderen Sprachen.

Trollversteher 13. Feb 2023 / Themenstart

Hier auch - guter Artikel, und die "gesunde Mitte" zwischen zu viel fachlicher Tiefer und...

Kommentieren



Aktuell auf der Startseite von Golem.de
Sammanlänkad
Ikea bringt wandlungsfähige Solarlampe

Sammanlänkad heißt Ikeas limitierte Solarlampe, die sich als Schreibtisch-, Decken- und Taschenlampe sowie als Akkupack verwenden lässt.

Sammanlänkad: Ikea bringt wandlungsfähige Solarlampe
Artikel
  1. FreedomGPT: Ein KI-Tool, das zum Suizid anleiten und Hitler loben kann
    FreedomGPT
    Ein KI-Tool, das zum Suizid anleiten und Hitler loben kann

    FreedomGPT ist wie ChatGPT ein Sprachgenerator. Allerdings fehlen ihm Filter, so dass die KI jede Anfrage beantwortet - egal wie fragwürdig.

  2. Amazon und Ebay: Onlinehändler müssen EU-Partner für Produktsicherheit bieten
    Amazon und Ebay
    Onlinehändler müssen EU-Partner für Produktsicherheit bieten

    Außereuropäische Anbieter bei Amazon und Ebay müssen einen in der EU ansässigen Händler benennen, der für die Sicherheit verantwortlich ist. Wie das praktisch kontrolliert wird, ist fraglich.

  3. IT-Projektmanager: Perfektionist, ahnungslos und Ja-Sager
    IT-Projektmanager
    Perfektionist, ahnungslos und Ja-Sager

    Schwierige Projektmanager können nicht nur nerven, sondern viel kaputt machen. Wir geben Tipps, wie IT-Teams die Qual beenden.
    Ein Ratgebertext von Kristin Ottlinger und Jakob Rufus Klimkait

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • RTX 4090 erstmals unter 1.700€ • MindStar: Gigabyte RTX 4080 1.229€ statt 1.299€, Intel Core i9-12900K 399€ statt 474€ • SSDs & Festplatten bis -60% • AOC 34" UWQHD 279€ • Xbox-Controller & Konsolen-Bundles bis -27% • Windows Week • 3 Spiele kaufen, 2 zahlen [Werbung]
    •  /