Sprache besteht nicht nur aus einzelnen Wörtern

Die nächste Ebene bilden Wortkombinationen und Satzkonstrukte. Wörter stehen nicht allein und können durch andere negiert, abgeschwächt oder verstärkt werden. Mit Hilfe der identifizierten Wortarten und formulierten Grammatikregeln kann durch logisches Schließen ermittelt werden, dass ein negierendes Wort gefolgt von einem positiven Adjektiv eine negative Haltung ausdrückt, wie bei "optimistisch" und "nicht gerade optimistisch".

Stellenmarkt
  1. Softwareentwickler (m/w/d)
    Kassenärztliche Vereinigung Baden-Württemberg KVBW, Karlsruhe
  2. Productmanager / Productmanagerin (m/w/d)
    Bundeskriminalamt, Wiesbaden
Detailsuche

Aber auch sprachspezifische Wortzusammensetzungen können eine übertragene Bedeutung haben, "Potemkinsches Dorf" ist ein Bigram, ein Textfragment aus zwei Wörtern, das im Deutschen negativ konnotiert ist, obwohl keines der beiden Wörter separat eine Stimmung ausdrückt. Umgekehrt gilt das Gleiche: Eigennamen, deren Einzelbestandteile bedeutungstragend sind, müssen durch Named Entity Recognition herausgefiltert werden. Sonst hätte das Ausschussmitglied "Nadine Schön" immer eine positivere Bewertung als beispielsweise "Christina Schwarzer".

Klassifikation eines ganzen Textes

Um einen ganzen Text oder Tweet hinsichtlich der enthaltenen Meinung zu klassifizieren, gibt es mehrere Verfahren aus dem Bereich des maschinellen Lernens. Ein populäres sind Support Vector Machines. Aus der quantifizierten Häufigkeit von Satzteilen, Einzelwortstimmungen, Satzkonstruktionen, Textlänge usw. wird ein Vektor erstellt.

Anhand von Beispielen mit bekannter Bedeutung lernt das Verfahren, Kategorien zu unterscheiden. Dafür wird eine Trennebene ermittelt, die Mengen der Vektoren in den Einzelkategorien so trennt, dass der Abstand der Ebenen zu den Randvektoren möglichst groß ist. Für einen unbekannten Vektor wird dann bestimmt, auf welcher Seite er liegt, also zu welcher Kategorie er wahrscheinlich gehört.

Wo ist das Problem?

Golem Karrierewelt
  1. Adobe Photoshop Grundkurs: virtueller Drei-Tage-Workshop
    08.-10.06.2022, Virtuell
  2. ITIL 4® Foundation: virtueller Zwei-Tage-Workshop
    27./28.06.2022, virtuell
Weitere IT-Trainings

Die oben angesprochenen Schwierigkeiten sind nur exemplarisch und die Einteilung von positiv und negativ ist die denkbar einfachste Unterscheidung, die man vornehmen kann. Verschiedene Sprachen, kulturelle Unterschiede, Ironie, bereichsspezifisches Vokabular. Die Herausforderungen sind unendlich. Sprachanalyse wird deshalb niemals hundertprozentig korrekt sein. Vor allem, wenn man sich die vielen Einzelschritte der Verarbeitungspipeline vor Augen führt, die zu sich aufsummierenden Fehlern führen können.

Bei Meinungsbildern oder Bewertungen wird das in vielen Fällen durch die schiere Masse an Material ausgeglichen. Aber wenn es um den Einzelnen geht, kann das drastische Konsequenzen haben. Nicht nur positive und negative, sondern auch politische Haltungen verraten sich oft durch die Nutzung von charakteristischen Worten und Phrasen.

Sprache ist ideologisiert, aus repräsentativen Texten kann man versuchen, Identifikatoren abzuleiten. Worthäufigkeiten, Wortschatzkomplexität oder durchschnittliche Satz- und Textlängen sind nur einige Kriterien, mit denen sich ein sprachlicher Fingerabdruck von Lebensanschauungen generieren lässt, oder nicht?

Sprachanalyse ist ein interessantes Feld. Aber wie alle Algorithmen, die zur Ermittlung von Persönlichkeitsmerkmalen benutzt werden, ist die Gefahr von "False Positives" hoch. Wir werden täglich gescannt, die sprachlichen Spuren, die wir im Internet hinterlassen, sind vielfältig, und es wäre nicht verwunderlich, wenn wir auch einmal auffallen und interessant für Geheimdienste und Ermittler würden, weil ein Algorithmus uns Auffälligkeiten attestiert.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Part-of-Speech Tagger klassifizieren Satzbestandteile
  1.  
  2. 1
  3. 2
  4. 3
  5. 4


Morpf 24. Feb 2014

Denken, eigene Meinung... beides erfordert eigenes Engagement. Viel bequemer ist es doch...

Sinnfrei 20. Feb 2014

Frag mal die Anwohner in der Grenzregion zwischen Afghanistan und Pakistan.

janpi3 20. Feb 2014

oder einfach Privat finanzieren wie vor 150 Jahren :D in dein Gesicht - Deutsche Bank XD

Ben Stan 20. Feb 2014

Nice, lustig zu lesen... http://www.kolobok.us/smiles/mini/biggrin_mini.gif



Aktuell auf der Startseite von Golem.de
DECT für IoT und Smart Citys
Die Aufwertung eines 30 Jahre alten Funkstandards

Nach drei Jahrzehnten DECT zieht DECT-2020 NR alias NR+ als vierte Radiotechnologie in den 5G-Standard/IMT-2020 ein.
Von Karl-Heinz Müller

DECT für IoT und Smart Citys: Die Aufwertung eines 30 Jahre alten Funkstandards
Artikel
  1. MX Master 3S: Logitech überarbeitet seine Oberklasse-Maus
    MX Master 3S
    Logitech überarbeitet seine Oberklasse-Maus

    Die neue MX Master 3S hat leiser arbeitende Tasten als das Vorgängermodell und Logitech hat in die neue Maus einen Sensor mit 8.000 dpi eingebaut.

  2. Grace: Nvidia wechselt 2023 (fast) vollständig auf ARM
    Grace
    Nvidia wechselt 2023 (fast) vollständig auf ARM

    Computex 2022 Dank der Grace-CPU ist Nvidia nicht mehr auf x86-Chips angewiesen: Vier Referenzdesigns gibt es ohne AMD oder Intel - bis auf eine Ausnahme.

  3. City M 2.0: Strøm baut minimalistisches Pendler-E-Bike
    City M 2.0
    Strøm baut minimalistisches Pendler-E-Bike

    Das Strøm City M 2.0 ist ein E-Bike, das wegen seiner schlichten Linienführung auffällt und über Indiegogo für 1.095 Euro angeboten wird.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Xbox Series X bestellbar • Samsung SSD 1TB 79€ • LG OLED TV 77" 56% günstiger: 1.099€ • Alternate (u. a. Cooler Master Curved Gaming-Monitor 34" UWQHD 144 Hz 459€) • Sony-Fernseher bis zu 47% günstiger • Cyber Week: Alle Deals freigeschaltet • Samsung schenkt 19% MwSt.[Werbung]
    •  /