Training mit Transformern
Damit eine KI mit Texten arbeiten kann, müssen sie in Zahlen umgewandelt werden. Diese Zahlen nennt man Embeddings. Die einfachste Art, Embeddings zu verwenden ist, bereits vorhandene zu nutzen. Die bekanntesten sind BERT (von Google) und GPT-3 (von OpenAI). Sie wurden mit großen Datensätzen trainiert und jedes Wort bekommt dadurch einen Vektor (Embedding).
BERT und GPT-3 wurden trainiert, indem ein Wort aus dem Satz entfernt wurde und das Modell dieses Wort herausfinden musste. Bei GPT-3 war es das letzte Wort, bei BERT ein beliebiges Wort.
Diese Modelle wurden mit derart großen Datensätzen trainiert, dass es für die meisten Firmen gar nicht möglich ist, diese Rechenleistung zur Verfügung zu stellen.
Heutzutage werden für Sentiment-Modelle hauptsächlich Transformer benutzt. Das bedeutet, dass die Wörter eines Satzes nicht nur in Vektoren abgebildet werden, sondern zum Beispiel auch mit einbezogen wird, an welcher Position die Wörter stehen und welche Wörter davor und danach kommen. Damit kann der Kontext eines Satzes besser abgebildet werden.
Wenn wir uns beispielsweise nur das Wort "schlecht" anschauen, würden wir sagen: Das ist negativ. Wenn ein User aber in einer App-Review schreibt: "Nicht schlecht, da ist euch ein Meisterwerk gelungen!", dann ist das Wort "schlecht" sehr positiv. Diese Zusammenhänge kann man nur herausfinden, wenn man den ganzen Text betrachtet.
Trainieren eines Modells
Wie wir trainieren, hängt stark davon ab, wie viele Daten wir haben. Wenn man etwa bis zu 10.000 Datensätze (in unserem Fall Texte) hat, kann man das mit Geduld auch auf dem eigenen Computer trainieren. Für größere Datensätze braucht man dann schon eine Grafikkarte oder muss auf die Cloud-Dienstleister zurückgreifen.
Für das Trainieren können wir verschiedene Parameter einstellen. Es ist zum Beispiel möglich zu sagen, wie oft das Modell Schleifen durch die Daten drehen soll. Allerdings besteht hier immer die Gefahr, dass ein Modell die Daten auswendig lernt und bei einem anderen Datensatz nicht gut funktioniert (Overfitting).
In diesem Beispiel wird der Eindruck vermittelt, dass die Ergebnisse richtig gut sind. In Wahrheit hat unser Modell in den drei Schleifen die Werte auswendig gelernt, deswegen werden diese guten Ergebnisse erzielt. Wenden wir dieses Modell an anderen Daten an, werden die Ergebnisse nicht gut sein.
Nach dem Trainieren wird das Modell abgespeichert. Dies ist meistens eine Datei mit rund 30 MB; je nach Modell-Architektur kann sie auch größer oder kleiner ausfallen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Sentiment-Modell: Eine KI von Anfang bis Ende erstellen | Testen des trainierten Modells |
Auch ich habe solche Erfahrungen. Habe damals im Bachelor-Studium ein Neuronales Netz in...
Preprocessing ist mit das wichtigste! Wenn du Social Media Daten hast, wie machst du es z...
In dem Artikel wollte ich bewusst diese Wörter weg lassen. Es gibt sehr viele Begriffe...
Zum Spielen vllt nett, um die Konzepte wirklich mal zu verstehen weniger eignet.
Kommentieren