Aufmerksamkeit ist alles
Die KI-Forschung hat unterschiedliche Verfahren entwickelt, um Wörter sinnvoll im Kontext zu verarbeiten. Ein bekanntes Beispiel dafür ist das sogenannte Long Short-Term Memory (LSTM), das in den späten Neunzigerjahren entwickelt wurde und neben Sprachmodellen auch in verschiedenen anderen Anwendungen wie akustischer Spracherkennung oder Zeitreihenvorhersage genutzt wird.
Im Bereich der Sprachmodelle wurde das LSTM jedoch in den vergangenen Jahren immer mehr vom oben bereits angesprochenen Transformer-Modell verdrängt, das auch die Grundlage für ChatGPT bildet. Es wurde 2017 von Google-Wissenschaftlern in ihrem einflussreichen Fachartikel Attention is all you need (PDF) vorgestellt und seither auf vielfältige Weisen abgewandelt und verbessert.
Im Kern beruht ein Transformer auf einem Verarbeitungsschritt, der als Aufmerksamkeitsmechanismus (englisch: "attention") bezeichnet wird und der vom Algorithmus mehrfach wiederholt wird. Der Name des Verfahrens leitet sich davon ab, dass zu jedem Wort die Aufmerksamkeit des Sprachmodells auf bestimmte andere Ausdrücke im Text gelenkt wird, die für die Interpretation jenes Wortes besonders wichtig sind. So würde bei der Verarbeitung des Wortes "König" viel Aufmerksamkeit auf im Text benachbarte Ausdrücke wie "Springer", "Läufer", "Thron" oder "Schloss" gerichtet, da sie Hinweise auf die korrekte Deutung des Wortes "König" geben können.
Die genaue Funktionsweise des Aufmerksamkeitsmechanismus enthält eine ganze Reihe recht technischer Details. Die folgende Erklärung zielt auf ein intuitives Verständnis ab und nimmt dafür einige Lücken in Kauf. Eine vollständige mathematische Erklärung findet man zum Beispiel hier.
Im Aufmerksamkeitsmechanismus werden jedem Wort zusätzlich zu seinem Bedeutungsvektor im semantischen Raum noch zwei weitere Vektoren - Query und Key genannt - mitgegeben. Diese kann man sich in etwa als zwei Teile einer Kupplung vorstellen.
In einem Verarbeitungsschritt wird nun für jedes Wort eines Textes überprüft, mit welchen anderen Ausdrücken im Text es am stärksten gekoppelt ist, weil sein Query-Vektor in eine ähnliche Richtung zeigt wie der Key-Vektor des anderen. Die Ausdrücke mit besonders starker Kupplung erhalten Aufmerksamkeit und dürfen dem betrachteten Wort noch ein wenig zusätzliche Bedeutung mit auf den Weg geben, indem sie seine Position im semantischen Raum etwas verschieben.
Bedeutungsspalterei
Um die Beispiele von oben noch einmal aufzugreifen, könnte also der Query-Vektor von "Schule" mit dem Key-Vektor von "eine" oder dem Key-Vektor von "die" koppeln. Der Bedeutungsvektor des Wortes Schule wird dadurch aufgespalten in zwei leicht unterschiedliche Vektoren, die jeweils die Idee einer bestimmten bzw. einer unbestimmten Schule repräsentieren (siehe Abbildung 4).
Analog dazu könnte der Vektor für "König" aufgespalten werden in einen für die Schachfigur und einen anderen für den Monarchen, je nachdem mit welchen anderen Ausdrücken im Text das Wort "König" koppeln kann.
Doch woher stammen die Key- und Query-Vektoren? Sie werden durch eine Matrixmultiplikation aus dem Bedeutungsvektor eines jeden Wortes gebildet. Die Einträge dieser Matrix sind zunächst zufällig gewählte Modellparameter und müssen durch Training an großen Datensätzen gelernt werden. Wir werden weiter unten noch einmal darauf eingehen.
Durch den Verarbeitungsschritt des Aufmerksamkeitsmechanismus wurde der Ausgangstext also Wort für Wort aus dem einfachen semantischen Raum in einem neuen Raum abgebildet, dessen Punkte für etwas verfeinerte Konzepte stehen. Jedes davon ergibt sich aus einem bestimmten Wort im Kontext seiner relevantesten Nachbarwörter. Wir werden diesen Raum hier deshalb als Kontextraum bezeichnen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Genial einfache Grundidee | Aufmerksamkeit - wieder und wieder |
Ich wollte nur mal anmerken, dass ich die Idee für die Illustration (KI-generiert) super...
Genau, weil die Welt schwarz und weiß ist. Man kann auch ChatGPT verwenden ohne dessen...
Doch, versteht und antwortet auch auf Deutsch und anderen Sprachen.
Hier auch - guter Artikel, und die "gesunde Mitte" zwischen zu viel fachlicher Tiefer und...
Kommentieren