Abo
  • Services:
Anzeige
Die simpelste, aber aufwendigste Methode ist es, die Klassifizierung von Texten Menschen zu überlassen
Die simpelste, aber aufwendigste Methode ist es, die Klassifizierung von Texten Menschen zu überlassen (Bild: Golem.de)

Sprache besteht nicht nur aus einzelnen Wörtern

Anzeige

Die nächste Ebene bilden Wortkombinationen und Satzkonstrukte. Wörter stehen nicht allein und können durch andere negiert, abgeschwächt oder verstärkt werden. Mit Hilfe der identifizierten Wortarten und formulierten Grammatikregeln kann durch logisches Schließen ermittelt werden, dass ein negierendes Wort gefolgt von einem positiven Adjektiv eine negative Haltung ausdrückt, wie bei "optimistisch" und "nicht gerade optimistisch".

Aber auch sprachspezifische Wortzusammensetzungen können eine übertragene Bedeutung haben, "Potemkinsches Dorf" ist ein Bigram, ein Textfragment aus zwei Wörtern, das im Deutschen negativ konnotiert ist, obwohl keines der beiden Wörter separat eine Stimmung ausdrückt. Umgekehrt gilt das Gleiche: Eigennamen, deren Einzelbestandteile bedeutungstragend sind, müssen durch Named Entity Recognition herausgefiltert werden. Sonst hätte das Ausschussmitglied "Nadine Schön" immer eine positivere Bewertung als beispielsweise "Christina Schwarzer".

Klassifikation eines ganzen Textes

Um einen ganzen Text oder Tweet hinsichtlich der enthaltenen Meinung zu klassifizieren, gibt es mehrere Verfahren aus dem Bereich des maschinellen Lernens. Ein populäres sind Support Vector Machines. Aus der quantifizierten Häufigkeit von Satzteilen, Einzelwortstimmungen, Satzkonstruktionen, Textlänge usw. wird ein Vektor erstellt.

Anhand von Beispielen mit bekannter Bedeutung lernt das Verfahren, Kategorien zu unterscheiden. Dafür wird eine Trennebene ermittelt, die Mengen der Vektoren in den Einzelkategorien so trennt, dass der Abstand der Ebenen zu den Randvektoren möglichst groß ist. Für einen unbekannten Vektor wird dann bestimmt, auf welcher Seite er liegt, also zu welcher Kategorie er wahrscheinlich gehört.

Wo ist das Problem?

Die oben angesprochenen Schwierigkeiten sind nur exemplarisch und die Einteilung von positiv und negativ ist die denkbar einfachste Unterscheidung, die man vornehmen kann. Verschiedene Sprachen, kulturelle Unterschiede, Ironie, bereichsspezifisches Vokabular. Die Herausforderungen sind unendlich. Sprachanalyse wird deshalb niemals hundertprozentig korrekt sein. Vor allem, wenn man sich die vielen Einzelschritte der Verarbeitungspipeline vor Augen führt, die zu sich aufsummierenden Fehlern führen können.

Bei Meinungsbildern oder Bewertungen wird das in vielen Fällen durch die schiere Masse an Material ausgeglichen. Aber wenn es um den Einzelnen geht, kann das drastische Konsequenzen haben. Nicht nur positive und negative, sondern auch politische Haltungen verraten sich oft durch die Nutzung von charakteristischen Worten und Phrasen.

Sprache ist ideologisiert, aus repräsentativen Texten kann man versuchen, Identifikatoren abzuleiten. Worthäufigkeiten, Wortschatzkomplexität oder durchschnittliche Satz- und Textlängen sind nur einige Kriterien, mit denen sich ein sprachlicher Fingerabdruck von Lebensanschauungen generieren lässt, oder nicht?

Sprachanalyse ist ein interessantes Feld. Aber wie alle Algorithmen, die zur Ermittlung von Persönlichkeitsmerkmalen benutzt werden, ist die Gefahr von "False Positives" hoch. Wir werden täglich gescannt, die sprachlichen Spuren, die wir im Internet hinterlassen, sind vielfältig, und es wäre nicht verwunderlich, wenn wir auch einmal auffallen und interessant für Geheimdienste und Ermittler würden, weil ein Algorithmus uns Auffälligkeiten attestiert.

 Part-of-Speech Tagger klassifizieren Satzbestandteile

eye home zur Startseite
Morpf 24. Feb 2014

Denken, eigene Meinung... beides erfordert eigenes Engagement. Viel bequemer ist es doch...

Sinnfrei 20. Feb 2014

Frag mal die Anwohner in der Grenzregion zwischen Afghanistan und Pakistan.

janpi3 20. Feb 2014

oder einfach Privat finanzieren wie vor 150 Jahren :D in dein Gesicht - Deutsche Bank XD

Ben Stan 20. Feb 2014

Nice, lustig zu lesen... http://www.kolobok.us/smiles/mini/biggrin_mini.gif

SelfEsteem 19. Feb 2014

Ich denke nicht, dass das hier ein Problem von Rechtsstaatlichkeit, Diktaturen, oder...



Anzeige

Stellenmarkt
  1. Continental AG, Frankfurt, Regensburg
  2. Wüstenrot & Württembergische Informatik GmbH, Ludwigsburg
  3. endica GmbH, Heilbronn
  4. Robert Bosch GmbH, Stuttgart-Feuerbach


Anzeige
Spiele-Angebote
  1. 99,99€ mit Vorbesteller-Preisgarantie
  2. 69,99€ mit Vorbesteller-Preisgarantie
  3. ab 59,99€ (Vorbesteller-Preisgarantie)

Folgen Sie uns
       

  1. Apple

    Öffentliche Beta von iOS 11 erschienen

  2. SNES Classic Mini

    Nintendo bringt 20 Klassiker und ein neues Spiel

  3. Wahlprogramm

    SPD will 90 Prozent der Gebäude mit Gigabit-Netzen versorgen

  4. Erziehung

    Erst schriftliche Einwilligung, dann Whatsapp für Kinder

  5. Grafikkarte

    Sapphire bringt Radeon RX 470 für Mining

  6. Betrug

    FTTH-Betreiber wehren sich gegen Glasfaser-Werbelügen

  7. Gamescom

    Mehr Fläche, mehr Merkel und mehr Andrang

  8. Anki Cozmo ausprobiert

    Niedlicher Programmieren lernen und spielen

  9. Hyperkonvergenz

    Red Hat präsentiert freie hyperkonvergente Infrastruktur

  10. Deutsche Telekom

    Narrowband-IoT-Servicepakete ab 200 Euro



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Skull & Bones angespielt: Frischer Wind für die Segel
Skull & Bones angespielt
Frischer Wind für die Segel
  1. The Frozen Lands Eisige Erweiterung für Horizon Zero Dawn vorgestellt
  2. Rennspiele Thrustmasters T-GT-Lenkrad kostet 800 Euro
  3. Call of Duty WW2 angespielt Höllenfeuer und kleine Sprünge

Sony Xperia XZ Premium im Test: Taschenspiegel mit übertrieben gutem Display
Sony Xperia XZ Premium im Test
Taschenspiegel mit übertrieben gutem Display
  1. Keine Entschädigung Gericht sieht mobiles Internet nicht als lebenswichtig an
  2. LTE Deutsche Telekom führt HD Voice Plus ein
  3. Datenrate Vodafone bietet im LTE-Netz 500 MBit/s

1Sheeld für Arduino angetestet: Sensor-Platine hat keine Sensoren und liefert doch Daten
1Sheeld für Arduino angetestet
Sensor-Platine hat keine Sensoren und liefert doch Daten
  1. Calliope Mini im Test Neuland lernt programmieren
  2. Arduino Cinque RISC-V-Prozessor und ESP32 auf einem Board vereint
  3. MKRFOX1200 Neues Arduino-Board erscheint mit kostenlosem Datentarif

  1. Re: Ethereum hat innerhalb 2 Tagen 15% an Wert...

    neokawasaki | 00:08

  2. Re: Media Markt / Saturn

    ManMashine | 00:02

  3. Re: kein Super Mario Allstars?!?!

    micv | 00:01

  4. Re: Den Kunden interessiert das überhaupt nicht....

    havok2 | 26.06. 23:54

  5. Re: Lokalisierung

    ManMashine | 26.06. 23:51


  1. 00:22

  2. 19:30

  3. 18:32

  4. 18:15

  5. 18:03

  6. 17:47

  7. 17:29

  8. 17:00


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel