Sentiment-Modell: Eine KI von Anfang bis Ende erstellen

Fast jeder hat schonmal davon gehört, dass man eine KI "trainieren" kann und dass das A und O die Daten sind. Wir erklären, wie das konkret geht.

Eine Anleitung von Christopher Schultes veröffentlicht am
Wie meint er oder sie das? Für eine KI ist das nicht leicht zu erkennen.
Wie meint er oder sie das? Für eine KI ist das nicht leicht zu erkennen. (Bild: Pixabay)

Die meisten Menschen haben ihre Vorstellung von "KI" aus Filmen wie iRobot oder Star Wars. Hier laufen selbständig denkende Roboter herum, die Gutes oder Böses tun. Die Realität sieht etwas anders aus.

Inhalt:
  1. Sentiment-Modell: Eine KI von Anfang bis Ende erstellen
  2. Training mit Transformern
  3. Testen des trainierten Modells
  4. Unser Modell im Live-Einsatz

Tatsächlich gibt es zwar Firmen, die an Robotern arbeiten, die einzelne Aufgaben übernehmen können. Aber was das selbständige Denken bei Robotern angeht, ist man erst bei den Anfängen.

Allerdings hat die KI in den letzten zehn Jahren schon große Fortschritte gemacht. Wichtige Meilensteine waren:

Stellenmarkt
  1. Digital Solutions Manager (m/w/d)
    P.E.G. Einkaufs- und Betriebsgenossenschaft eG, München
  2. Systems Engineer - Secure PIM (m/w/d)
    BWI GmbH, Berlin, Leipzig, Meckenheim, München
Detailsuche

Da KI in vielen Anwendungen eingesetzt wird, um das Nutzererlebnis zu verbessern, werden ständig neue Algorithmen und neue Verfahren entwickelt. Auch die Hardware wird stetig weiterentwickelt, da die besten KI-Modelle auf zwei Punkten basieren:

  • qualitativ hochwertige Daten
  • viele Daten

Wir werden uns hier mit einer sogenannten leichten KI beschäftigen. Unter leichter KI versteht man unter anderem Modelle, die mit einem bestimmten Datensatz trainiert wurden und eine bestimmte Aufgabe bewältigen sollen.

Was ist NLP?

Unser Thema wird Sprache sein, das dazugehörige KI-Teilgebiet ist Natural Language Processing (NLP). NLP beschäftigt sich mit Texten, die gesprochen oder geschrieben werden. Mit verschiedenen Methoden ist es möglich, zum Beispiel Bücher zusammenzufassen.

Hobby-KIlern helfen Libraries wie Spacy dabei, die ersten Schritte zu gehen. Mit dem Part Of Speech Tagging-Prozess ist es relativ einfach, Sätze in deren Wörter und Wortarten aufzuteilen.

Wir werden heute mit Texten ein Sentiment-Modell trainieren. Das bedeutet, wir werden am Ende ein Modell haben, das bei beliebigen Texten vorhersagt, ob die Aussage positiv, neutral oder negativ ist.

Mit unserem Sentiment-Modell wird unsere KI analysieren, ob ein Text negativ, neutral oder positiv ist. Wenn ein User etwa schreibt: "Diese App hilft mir, mein Leben besser zu gestalten", dann ist das eindeutig positiv.

Handbuch für Softwareentwickler: Das Standardwerk für professionelles Software Engineering

Welche Daten brauchen wir?

Der wichtigste Teil bei einem KI-Modell sind die Daten. Wir werden für unser Modell Daten von Kaggle.com (sentiment-analysis-for-financial-news) verwenden.

Diese Daten haben eine Sentiment-Klassifikation. Da wir bereits gelabelte Daten verwenden können, werden wir ein sogenanntes Supervised Learning anwenden.

Supervised Learning bedeutet, dass wir einen Eingang (den Text) haben und ein Label (negativ, neutral oder positiv).

Zum Beispiel:

Text: Das Wetter heute ist sehr gut. -> Label: positiv

Damit können wir ein Modell trainieren. Um dem Modell zum Trainieren einen bestmöglichen Datensatz zu geben, reduzieren wir die Daten auf die kleinste Menge.

  • Die Verteilung der Labels (Screenshot: Christopher Schultes)
  • Die Trainingsergebnisse (Screenshot: Christopher Schultes)
  • Gelabelte Daten (Screenshot: Christopher Schultes)
  • Die Ergebnis-Matrix (Screenshot: Christopher Schultes)
  • Die ideale Verteilung der Labels (Screenshot: Christopher Schultes)
Die Verteilung der Labels (Screenshot: Christopher Schultes)

Wir verwenden 303-Messages von jeweils negativ, neutral und positiv. Die ideale Verteilung sieht folgendermaßen aus.

  • Die Verteilung der Labels (Screenshot: Christopher Schultes)
  • Die Trainingsergebnisse (Screenshot: Christopher Schultes)
  • Gelabelte Daten (Screenshot: Christopher Schultes)
  • Die Ergebnis-Matrix (Screenshot: Christopher Schultes)
  • Die ideale Verteilung der Labels (Screenshot: Christopher Schultes)
Die ideale Verteilung der Labels (Screenshot: Christopher Schultes)

Die Verteilung ist deswegen ideal, weil beim Trainieren die Schlüsse aus gleich großen Mengen gezogen werden können.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Training mit Transformern 
  1. 1
  2. 2
  3. 3
  4. 4
  5.  


Paragleiter 01. Apr 2022 / Themenstart

Auch ich habe solche Erfahrungen. Habe damals im Bachelor-Studium ein Neuronales Netz in...

Christopher... 31. Mär 2022 / Themenstart

Preprocessing ist mit das wichtigste! Wenn du Social Media Daten hast, wie machst du es z...

Christopher... 30. Mär 2022 / Themenstart

In dem Artikel wollte ich bewusst diese Wörter weg lassen. Es gibt sehr viele Begriffe...

Schattenwerk 29. Mär 2022 / Themenstart

Zum Spielen vllt nett, um die Konzepte wirklich mal zu verstehen weniger eignet.

Kommentieren



Aktuell auf der Startseite von Golem.de
Cariad
Aufsichtsrat greift bei VWs Softwareentwicklung durch

Die Sorge um die Volkswagen-Softwarefirma Cariad hat den Aufsichtsrat veranlasst, ein überarbeitetes Konzept für die ehrgeizigen Pläne vorzulegen.

Cariad: Aufsichtsrat greift bei VWs Softwareentwicklung durch
Artikel
  1. Delfast Top 3.0: Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein
    Delfast Top 3.0
    Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein

    Ukrainische Infanteristen nutzen E-Motorräder, um leise und schnell zum Einsatz zu gelangen und die Panzerabwehrlenkwaffe NLAW zu transportieren.

  2. Überwachung: Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein
    Überwachung
    Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein

    In Rheinland-Pfalz werden Handynutzer am Steuer eines Autos automatisch erkannt. Dazu wird das System Monocam aus den Niederlanden genutzt.

  3. Love, Death + Robots 3: Mal spannend, mal tragisch, mal gelungen, mal nicht so
    Love, Death + Robots 3
    Mal spannend, mal tragisch, mal gelungen, mal nicht so

    Die abwechslungsreichste Science-Fiction-Serie unserer Zeit ist wieder da - mit acht neuen Folgen der von David Fincher produzierten Anthologie-Reihe.
    Von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Borderlands 3 gratis • CW: Top-Rabatte auf PC-Komponenten • Inno3D RTX 3070 günstig wie nie: 614€ • Ryzen 9 5900X 398€ • Top-Laptops zu Tiefpreisen • Edifier Lautsprecher 129€ • Kingston SSD 2TB günstig wie nie: 129,90€ • Samsung Soundbar + Subwoofer günstig wie nie: 228,52€ [Werbung]
    •  /