Aufmerksamkeit - wieder und wieder
Als nächstes wird der Aufmerksamkeitsmechanismus nochmals angewendet - und zwar auf den bereits in den Kontextraum abgebildeten Text. Die recht einfachen Konzepte im Kontextraum bekommen also ebenfalls die Möglichkeit, sich miteinander zu koppeln und daraus noch komplexere oder abstraktere Konzepte zu bilden, die dann ihrerseits wieder in einem neuen Raum - sozusagen einem Kontextraum zweiter Ordnung - liegen.
So könnte sich das Konzept "eine Schule" unter anderem in die Idee einer bestimmten, aber nicht näher bezeichneten Schule ("eine Schule von den dreien in unserer Stadt") oder in die Menge aller Schulen ("eine Schule als ein Typ von Bildungseinrichtung") aufspalten.
Im Folgenden wird der Aufmerksamkeitsmechanismus wieder und wieder auf die Ergebnisse des jeweils vorherigen Verarbeitungsschrittes angewendet. Das Transformer-Modell ist damit ein typischer Vertreter der Deep-Learning-Architekturen, bei denen die Eingangsdaten in einem neuronalen Netzwerk mit einer größeren Zahl von Schichten verarbeitet werden. Im Falle von GPT passiert dies je nach Modell bis zu 96 Mal (PDF).
Alles für das nächste Wort
An dieser Stelle sei an die Grundidee hinter ChatGPT erinnert: Immer das nächste Wort vorhersagen! Nach den 96 Anwendungen des Aufmerksamkeitsmechanismus soll also jedes Wort eines Textes in das darauffolgende transformiert worden sein. Genauer gesagt: An eine Stelle im semantischen Raum, die dem nächsten Wort entspricht. Das tatsächliche Wort erhält man dann dadurch, dass man die Einbettung rückgängig macht.
Die Forderung, jedes Wort in seinen Nachfolger zu transformieren, ist das entscheidende Trainingskriterium für das Sprachmodell (PDF). Gewaltige Mengen an online verfügbaren Texten werden abschnittsweise verarbeitet und dabei wird jeweils eine Vorhersage für das nächste Wort erstellt, die mit dem tatsächlich folgenden Wort verglichen werden kann.
Am Anfang des Trainingsprozesses sind die Modellparameter beliebig gesetzt, so dass die Vorhersagen völlig zufällig sind. Doch werden mit jedem falschen Ergebnis die Modellparameter ein wenig angepasst und die Vorhersagen dadurch verbessert.
Das Sprachmodell GPT-3, das auch die Grundlage für ChatGPT bildet, wurde dabei mit rund 400 Milliarden Wörtern Text trainiert (PDF). Die Daten stammen aus online verfügbaren Quellen wie Wikipedia oder digitalisierten Büchern sowie dem riesigen Common-Crawl-Datensatz, der über Jahre durch Sammeln von Inhalten aus den Weiten des Internets entstanden ist.
Wenn das Training erfolgreich abgeschlossen ist, erbringen Transformer-basierte Sprachmodelle erwiesenermaßen beeindruckende Leistungen. Wie so oft im Deep Learning ist es jedoch leider schwierig nachzuvollziehen, wie sie das genau tun. Die Frage nach der Interpretation großer Sprachmodelle ist ein Gegenstand der aktuellen Forschung und die folgende Darstellung ist daher mit Unsicherheiten und Ungenauigkeiten behaftet und bei weitem nicht vollständig.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Aufmerksamkeit ist alles | Eine grobe Interpretation des Sprachmodells |
Ich wollte nur mal anmerken, dass ich die Idee für die Illustration (KI-generiert) super...
Genau, weil die Welt schwarz und weiß ist. Man kann auch ChatGPT verwenden ohne dessen...
Doch, versteht und antwortet auch auf Deutsch und anderen Sprachen.
Hier auch - guter Artikel, und die "gesunde Mitte" zwischen zu viel fachlicher Tiefer und...
Kommentieren