Training mit Transformern

Damit eine KI mit Texten arbeiten kann, müssen sie in Zahlen umgewandelt werden. Diese Zahlen nennt man Embeddings. Die einfachste Art, Embeddings zu verwenden ist, bereits vorhandene zu nutzen. Die bekanntesten sind BERT (von Google) und GPT-3 (von OpenAI). Sie wurden mit großen Datensätzen trainiert und jedes Wort bekommt dadurch einen Vektor (Embedding).

Stellenmarkt
  1. Wissenschaftliche Mitarbeiterin / Wissenschaftlicher Mitarbeiter (m/w/d) am Lehrstuhl für ... (m/w/d)
    Universität Passau, Passau
  2. Softwaretester (m/w/d) für das Energiemanagementsystem Efficio
    Berg GmbH, Seeheim-Jugenheim bei Darmstadt oder remote
Detailsuche

BERT und GPT-3 wurden trainiert, indem ein Wort aus dem Satz entfernt wurde und das Modell dieses Wort herausfinden musste. Bei GPT-3 war es das letzte Wort, bei BERT ein beliebiges Wort.

Diese Modelle wurden mit derart großen Datensätzen trainiert, dass es für die meisten Firmen gar nicht möglich ist, diese Rechenleistung zur Verfügung zu stellen.

Heutzutage werden für Sentiment-Modelle hauptsächlich Transformer benutzt. Das bedeutet, dass die Wörter eines Satzes nicht nur in Vektoren abgebildet werden, sondern zum Beispiel auch mit einbezogen wird, an welcher Position die Wörter stehen und welche Wörter davor und danach kommen. Damit kann der Kontext eines Satzes besser abgebildet werden.

Golem Karrierewelt
  1. Linux-Shellprogrammierung: virtueller Vier-Tage-Workshop
    04.-07.07.2022, Virtuell
  2. Linux-Systeme absichern und härten: virtueller Drei-Tage-Workshop
    07.-09.06.2022, Virtuell
Weitere IT-Trainings

Wenn wir uns beispielsweise nur das Wort "schlecht" anschauen, würden wir sagen: Das ist negativ. Wenn ein User aber in einer App-Review schreibt: "Nicht schlecht, da ist euch ein Meisterwerk gelungen!", dann ist das Wort "schlecht" sehr positiv. Diese Zusammenhänge kann man nur herausfinden, wenn man den ganzen Text betrachtet.

Trainieren eines Modells

Wie wir trainieren, hängt stark davon ab, wie viele Daten wir haben. Wenn man etwa bis zu 10.000 Datensätze (in unserem Fall Texte) hat, kann man das mit Geduld auch auf dem eigenen Computer trainieren. Für größere Datensätze braucht man dann schon eine Grafikkarte oder muss auf die Cloud-Dienstleister zurückgreifen.

Handbuch für Softwareentwickler: Das Standardwerk für professionelles Software Engineering

Für das Trainieren können wir verschiedene Parameter einstellen. Es ist zum Beispiel möglich zu sagen, wie oft das Modell Schleifen durch die Daten drehen soll. Allerdings besteht hier immer die Gefahr, dass ein Modell die Daten auswendig lernt und bei einem anderen Datensatz nicht gut funktioniert (Overfitting).

In diesem Beispiel wird der Eindruck vermittelt, dass die Ergebnisse richtig gut sind. In Wahrheit hat unser Modell in den drei Schleifen die Werte auswendig gelernt, deswegen werden diese guten Ergebnisse erzielt. Wenden wir dieses Modell an anderen Daten an, werden die Ergebnisse nicht gut sein.

  • Die Verteilung der Labels (Screenshot: Christopher Schultes)
  • Die Trainingsergebnisse (Screenshot: Christopher Schultes)
  • Gelabelte Daten (Screenshot: Christopher Schultes)
  • Die Ergebnis-Matrix (Screenshot: Christopher Schultes)
  • Die ideale Verteilung der Labels (Screenshot: Christopher Schultes)
Die Trainingsergebnisse (Screenshot: Christopher Schultes)

Nach dem Trainieren wird das Modell abgespeichert. Dies ist meistens eine Datei mit rund 30 MB; je nach Modell-Architektur kann sie auch größer oder kleiner ausfallen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Sentiment-Modell: Eine KI von Anfang bis Ende erstellenTesten des trainierten Modells 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Paragleiter 01. Apr 2022 / Themenstart

Auch ich habe solche Erfahrungen. Habe damals im Bachelor-Studium ein Neuronales Netz in...

Christopher... 31. Mär 2022 / Themenstart

Preprocessing ist mit das wichtigste! Wenn du Social Media Daten hast, wie machst du es z...

Christopher... 30. Mär 2022 / Themenstart

In dem Artikel wollte ich bewusst diese Wörter weg lassen. Es gibt sehr viele Begriffe...

Schattenwerk 29. Mär 2022 / Themenstart

Zum Spielen vllt nett, um die Konzepte wirklich mal zu verstehen weniger eignet.

Kommentieren



Aktuell auf der Startseite von Golem.de
Künstliche Intelligenz
Wie erklären Menschen die Entscheidungen von Computern?

Je komplexer eine KI, desto schwerer können Menschen ihre Entscheidungen nachvollziehen. Das ängstigt viele. Doch künstliche Intelligenz ist keine Blackbox mehr.
Von Florian Voglauer

Künstliche Intelligenz: Wie erklären Menschen die Entscheidungen von Computern?
Artikel
  1. Prehistoric Planet: Danke, Apple, für so grandiose Dinosaurier!
    Prehistoric Planet
    Danke, Apple, für so grandiose Dinosaurier!

    Musik von Hans Zimmer, dazu David Attenborough als Sprecher: Apples Prehistoric Planet hat einen Kindheitstraum zum Leben erweckt.
    Ein IMHO von Marc Sauter

  2. Star Wars: Cal Kestis kämpft in Jedi Survivor weiter
    Star Wars
    Cal Kestis kämpft in Jedi Survivor weiter

    EA hat offiziell den Nachfolger zu Star Wars Jedi Fallen Order angekündigt. Hauptfigur ist erneut Cal Kestis mit seinem Roboterkumpel BD-1.

  3. Fahrgastverband Pro Bahn: Wo das 9-Euro-Ticket sicher gilt
    Fahrgastverband Pro Bahn
    Wo das 9-Euro-Ticket sicher gilt

    Die Farbe der Züge ist entscheidend, was bei der Reiseplanung in der Deutsche-Bahn-App wenig nützt. Dafür laufen Fahrscheinkontrollen ins Leere.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 evtl. bestellbar • Prime Video: Filme leihen für 0,99€ • Gigabyte RTX 3080 12GB günstig wie nie: 1.024€ • MSI Gaming-Monitor 32" 4K günstig wie nie: 999€ • Mindstar (u. a. AMD Ryzen 5 5600 179€, Palit RTX 3070 GamingPro 669€) • Days of Play (u. a. PS5-Controller 49,99€) [Werbung]
    •  /