Aufmerksamkeit ist alles

Die KI-Forschung hat unterschiedliche Verfahren entwickelt, um Wörter sinnvoll im Kontext zu verarbeiten. Ein bekanntes Beispiel dafür ist das sogenannte Long Short-Term Memory (LSTM), das in den späten Neunzigerjahren entwickelt wurde und neben Sprachmodellen auch in verschiedenen anderen Anwendungen wie akustischer Spracherkennung oder Zeitreihenvorhersage genutzt wird.

Im Bereich der Sprachmodelle wurde das LSTM jedoch in den vergangenen Jahren immer mehr vom oben bereits angesprochenen Transformer-Modell verdrängt, das auch die Grundlage für ChatGPT bildet. Es wurde 2017 von Google-Wissenschaftlern in ihrem einflussreichen Fachartikel Attention is all you need (PDF) vorgestellt und seither auf vielfältige Weisen abgewandelt und verbessert.

Im Kern beruht ein Transformer auf einem Verarbeitungsschritt, der als Aufmerksamkeitsmechanismus (englisch: "attention") bezeichnet wird und der vom Algorithmus mehrfach wiederholt wird. Der Name des Verfahrens leitet sich davon ab, dass zu jedem Wort die Aufmerksamkeit des Sprachmodells auf bestimmte andere Ausdrücke im Text gelenkt wird, die für die Interpretation jenes Wortes besonders wichtig sind. So würde bei der Verarbeitung des Wortes "König" viel Aufmerksamkeit auf im Text benachbarte Ausdrücke wie "Springer", "Läufer", "Thron" oder "Schloss" gerichtet, da sie Hinweise auf die korrekte Deutung des Wortes "König" geben können.

Die genaue Funktionsweise des Aufmerksamkeitsmechanismus enthält eine ganze Reihe recht technischer Details. Die folgende Erklärung zielt auf ein intuitives Verständnis ab und nimmt dafür einige Lücken in Kauf. Eine vollständige mathematische Erklärung findet man zum Beispiel hier.

Im Aufmerksamkeitsmechanismus werden jedem Wort zusätzlich zu seinem Bedeutungsvektor im semantischen Raum noch zwei weitere Vektoren - Query und Key genannt - mitgegeben. Diese kann man sich in etwa als zwei Teile einer Kupplung vorstellen.

In einem Verarbeitungsschritt wird nun für jedes Wort eines Textes überprüft, mit welchen anderen Ausdrücken im Text es am stärksten gekoppelt ist, weil sein Query-Vektor in eine ähnliche Richtung zeigt wie der Key-Vektor des anderen. Die Ausdrücke mit besonders starker Kupplung erhalten Aufmerksamkeit und dürfen dem betrachteten Wort noch ein wenig zusätzliche Bedeutung mit auf den Weg geben, indem sie seine Position im semantischen Raum etwas verschieben.

Bedeutungsspalterei

Um die Beispiele von oben noch einmal aufzugreifen, könnte also der Query-Vektor von "Schule" mit dem Key-Vektor von "eine" oder dem Key-Vektor von "die" koppeln. Der Bedeutungsvektor des Wortes Schule wird dadurch aufgespalten in zwei leicht unterschiedliche Vektoren, die jeweils die Idee einer bestimmten bzw. einer unbestimmten Schule repräsentieren (siehe Abbildung 4).

  • Grundprinzip der GPT-Sprachmodelle ist es, zu einem vorgegebenen unvollständigen Text eine Wahrscheinlichkeitsverteilung für das folgende Wort zu ermitteln. (Bild: Helmut Linde)
  • Im semantischen Raum werden Wörter ihrer Bedeutung nach geordnet. Bei den Word2Vec-Verfahren verfügt jedes Wort zusätzlich über einen Kontext-Vektor, welcher die Positionen stark korrelierter Wörter im semantischen Raum beschreibt. (Bild: Helmut Linde)
  • Einbettungen durch Word2Vec können dazu führen, dass Wörter mit ähnlicher Bedeutung im semantischen Raum nah beieinander liegen. Inhaltliche Beziehungen zwischen Wörtern können sich als geometrische Beziehungen in diesem Raum widerspiegeln. (Bild: Helmut Linde)
  • Der Aufmerksamkeitsmechanismus bildet Wörter aus dem semantischen Raum abhängig von ihrem Kontext an unterschiedlichen Positionen in einem neuen Raum ("Kontextraum") ab. Der Einfluss des Kontextes auf das Ergebnis wird dabei von dem Query-Vektor des Wortes und den Key-Vektoren der benachbarten Wörter im Text bestimmt. (Bild: Helmut Linde)
  • GPT ermittelt für jedes Wort eines Eingabetextes eine Prognose für das darauffolgende Wort. Dazu wird der Eingabetext zunächst Wort für Wort in einen semantischen Raum eingebettet. In diesem Raum wird der Aufmerksamkeitsmechanismus wiederholt angewendet. Schließlich wird das Ergebnis aus dem semantischen Raum wieder in konkrete Wörter zurückverwandelt.  (Bild: Helmut Linde)
  • Die Methode des Reinforcement Learning mit menschlicher Rückmeldung ermöglichte die Leistungssteigerung von GPT-3 zu ChatGPT.  (Bild: Helmut Linde)
Der Aufmerksamkeitsmechanismus bildet Wörter aus dem semantischen Raum abhängig von ihrem Kontext an unterschiedlichen Positionen in einem neuen Raum ("Kontextraum") ab. Der Einfluss des Kontextes auf das Ergebnis wird dabei von dem Query-Vektor des Wortes und den Key-Vektoren der benachbarten Wörter im Text bestimmt. (Bild: Helmut Linde)

Analog dazu könnte der Vektor für "König" aufgespalten werden in einen für die Schachfigur und einen anderen für den Monarchen, je nachdem mit welchen anderen Ausdrücken im Text das Wort "König" koppeln kann.

Doch woher stammen die Key- und Query-Vektoren? Sie werden durch eine Matrixmultiplikation aus dem Bedeutungsvektor eines jeden Wortes gebildet. Die Einträge dieser Matrix sind zunächst zufällig gewählte Modellparameter und müssen durch Training an großen Datensätzen gelernt werden. Wir werden weiter unten noch einmal darauf eingehen.

Durch den Verarbeitungsschritt des Aufmerksamkeitsmechanismus wurde der Ausgangstext also Wort für Wort aus dem einfachen semantischen Raum in einem neuen Raum abgebildet, dessen Punkte für etwas verfeinerte Konzepte stehen. Jedes davon ergibt sich aus einem bestimmten Wort im Kontext seiner relevantesten Nachbarwörter. Wir werden diesen Raum hier deshalb als Kontextraum bezeichnen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Genial einfache GrundideeAufmerksamkeit - wieder und wieder 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9.  


flashplugin 23. Feb 2023 / Themenstart

Ich wollte nur mal anmerken, dass ich die Idee für die Illustration (KI-generiert) super...

Wagyufleischwur... 21. Feb 2023 / Themenstart

Genau, weil die Welt schwarz und weiß ist. Man kann auch ChatGPT verwenden ohne dessen...

ThadMiller 20. Feb 2023 / Themenstart

Doch, versteht und antwortet auch auf Deutsch und anderen Sprachen.

Trollversteher 13. Feb 2023 / Themenstart

Hier auch - guter Artikel, und die "gesunde Mitte" zwischen zu viel fachlicher Tiefer und...

Kommentieren



Aktuell auf der Startseite von Golem.de
Discounter
Netto reduziert Balkonkraftwerk auf 500 Euro

Der Lebensmitteldiscounter Netto bietet ein 600-Watt-Balkonkraftwerk mit zwei Modulen für mittlerweile 499 Euro an.

Discounter: Netto reduziert Balkonkraftwerk auf 500 Euro
Artikel
  1. Shopping: Amazon gibt Hinweis bei häufig zurückgeschickten Produkten
    Shopping
    Amazon gibt Hinweis bei häufig zurückgeschickten Produkten

    Mit einem neuen Hinweis sollen Amazon-Kunden vor dem Kauf besser abschätzen können, wie zufrieden sie mit einem Kauf sein werden.

  2. Entlassungen bei Disney: Kein Prime-Abo für Disney+ und kein Metaverse mehr geplant
    Entlassungen bei Disney
    Kein Prime-Abo für Disney+ und kein Metaverse mehr geplant

    Intern wurden bei Disney gleich zwei Projekte eingestellt. Das führt zu Entlassungen von etwa 50 Personen.

  3. Glasfasernetze: Warum Open Access viel zu selten gemacht wird
    Glasfasernetze
    Warum Open Access viel zu selten gemacht wird

    Die Telekom betont den Willen zu Kooperationen im Festnetz durch Open Access. Laut alternativen Betreibern ist das nicht ehrlich. Doch so einfach ist es nicht.
    Ein Bericht von Achim Sawall

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Nur noch heute: Amazon Frühlingsangebote • MindStar: MSI RTX 4080 1.249€, Powercolor RX 7900 XTX OC 999€ • Fernseher Samsung & Co. bis -43% • Monitore bis -50% • Bosch Prof. bis -59% • Windows Week • Logitech bis -49% • Alexa-Sale bei Amazon • 3 Spiele kaufen, 2 zahlen [Werbung]
    •  /