Aufmerksamkeit - wieder und wieder

Als nächstes wird der Aufmerksamkeitsmechanismus nochmals angewendet - und zwar auf den bereits in den Kontextraum abgebildeten Text. Die recht einfachen Konzepte im Kontextraum bekommen also ebenfalls die Möglichkeit, sich miteinander zu koppeln und daraus noch komplexere oder abstraktere Konzepte zu bilden, die dann ihrerseits wieder in einem neuen Raum - sozusagen einem Kontextraum zweiter Ordnung - liegen.

So könnte sich das Konzept "eine Schule" unter anderem in die Idee einer bestimmten, aber nicht näher bezeichneten Schule ("eine Schule von den dreien in unserer Stadt") oder in die Menge aller Schulen ("eine Schule als ein Typ von Bildungseinrichtung") aufspalten.

Im Folgenden wird der Aufmerksamkeitsmechanismus wieder und wieder auf die Ergebnisse des jeweils vorherigen Verarbeitungsschrittes angewendet. Das Transformer-Modell ist damit ein typischer Vertreter der Deep-Learning-Architekturen, bei denen die Eingangsdaten in einem neuronalen Netzwerk mit einer größeren Zahl von Schichten verarbeitet werden. Im Falle von GPT passiert dies je nach Modell bis zu 96 Mal (PDF).

Alles für das nächste Wort

An dieser Stelle sei an die Grundidee hinter ChatGPT erinnert: Immer das nächste Wort vorhersagen! Nach den 96 Anwendungen des Aufmerksamkeitsmechanismus soll also jedes Wort eines Textes in das darauffolgende transformiert worden sein. Genauer gesagt: An eine Stelle im semantischen Raum, die dem nächsten Wort entspricht. Das tatsächliche Wort erhält man dann dadurch, dass man die Einbettung rückgängig macht.

Die Forderung, jedes Wort in seinen Nachfolger zu transformieren, ist das entscheidende Trainingskriterium für das Sprachmodell (PDF). Gewaltige Mengen an online verfügbaren Texten werden abschnittsweise verarbeitet und dabei wird jeweils eine Vorhersage für das nächste Wort erstellt, die mit dem tatsächlich folgenden Wort verglichen werden kann.

Am Anfang des Trainingsprozesses sind die Modellparameter beliebig gesetzt, so dass die Vorhersagen völlig zufällig sind. Doch werden mit jedem falschen Ergebnis die Modellparameter ein wenig angepasst und die Vorhersagen dadurch verbessert.

Das Sprachmodell GPT-3, das auch die Grundlage für ChatGPT bildet, wurde dabei mit rund 400 Milliarden Wörtern Text trainiert (PDF). Die Daten stammen aus online verfügbaren Quellen wie Wikipedia oder digitalisierten Büchern sowie dem riesigen Common-Crawl-Datensatz, der über Jahre durch Sammeln von Inhalten aus den Weiten des Internets entstanden ist.

Wenn das Training erfolgreich abgeschlossen ist, erbringen Transformer-basierte Sprachmodelle erwiesenermaßen beeindruckende Leistungen. Wie so oft im Deep Learning ist es jedoch leider schwierig nachzuvollziehen, wie sie das genau tun. Die Frage nach der Interpretation großer Sprachmodelle ist ein Gegenstand der aktuellen Forschung und die folgende Darstellung ist daher mit Unsicherheiten und Ungenauigkeiten behaftet und bei weitem nicht vollständig.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Aufmerksamkeit ist allesEine grobe Interpretation des Sprachmodells 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9.  


flashplugin 23. Feb 2023 / Themenstart

Ich wollte nur mal anmerken, dass ich die Idee für die Illustration (KI-generiert) super...

Wagyufleischwur... 21. Feb 2023 / Themenstart

Genau, weil die Welt schwarz und weiß ist. Man kann auch ChatGPT verwenden ohne dessen...

ThadMiller 20. Feb 2023 / Themenstart

Doch, versteht und antwortet auch auf Deutsch und anderen Sprachen.

Trollversteher 13. Feb 2023 / Themenstart

Hier auch - guter Artikel, und die "gesunde Mitte" zwischen zu viel fachlicher Tiefer und...

Kommentieren



Aktuell auf der Startseite von Golem.de
Angeblicher ARD-Plan
Rundfunkbeitrag könnte auf über 25 Euro steigen

Laut einem Bericht wollen die öffentlich-rechtlichen Sender eine Anhebung des Rundfunkbeitrags auf bis zu 25,19 Euro pro Monat fordern.

Angeblicher ARD-Plan: Rundfunkbeitrag könnte auf über 25 Euro steigen
Artikel
  1. E-Fuels: VDA begrüßt Verbrennerkompromiss, Greenpeace übt Kritik
    E-Fuels
    VDA begrüßt Verbrennerkompromiss, Greenpeace übt Kritik

    Die Einigung zwischen EU-Kommission und Bundesregierung zu Verbrennermotoren ruft erste Reaktionen hervor.

  2. Elektrifizierung von Kommunalfahrzeugen: Radnabenantrieb von Schaeffler serienreif
    Elektrifizierung von Kommunalfahrzeugen
    Radnabenantrieb von Schaeffler serienreif

    Schaeffler setzt auf Radnabenantriebe für die Elektrifizierung von Fahrzeugen, die nicht schnell fahren und beispielsweise in der Stadt eingesetzt werden.

  3. USA: Amateurfunker nutzen 22-Meter-Skulptur als Antenne
    USA
    Amateurfunker nutzen 22-Meter-Skulptur als Antenne

    Mit nur fünf Watt Sendeleistung konnten Studenten in New York fast die gesamten östlichen USA abdecken - dank einer Skulptur als Antenne.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • MediaMarkt-Osterangebote • 3 Spiele kaufen, 2 zahlen • Cyberport Jubiläums-Deals • MSI Optix 30" WFHD/200 Hz 289€ • Verbatim 1-TB-SSD 42,90€ • Creative Sound Blaster X G6 99,99€ • Thrustmaster T300 RS GT PC/PS 290€ • Logitech G535 Lightspeed 69,99€ • NBB Black Weeks [Werbung]
    •  /