Abo
  • Services:
Anzeige
Die simpelste, aber aufwendigste Methode ist es, die Klassifizierung von Texten Menschen zu überlassen
Die simpelste, aber aufwendigste Methode ist es, die Klassifizierung von Texten Menschen zu überlassen (Bild: Golem.de)

Sprache besteht nicht nur aus einzelnen Wörtern

Anzeige

Die nächste Ebene bilden Wortkombinationen und Satzkonstrukte. Wörter stehen nicht allein und können durch andere negiert, abgeschwächt oder verstärkt werden. Mit Hilfe der identifizierten Wortarten und formulierten Grammatikregeln kann durch logisches Schließen ermittelt werden, dass ein negierendes Wort gefolgt von einem positiven Adjektiv eine negative Haltung ausdrückt, wie bei "optimistisch" und "nicht gerade optimistisch".

Aber auch sprachspezifische Wortzusammensetzungen können eine übertragene Bedeutung haben, "Potemkinsches Dorf" ist ein Bigram, ein Textfragment aus zwei Wörtern, das im Deutschen negativ konnotiert ist, obwohl keines der beiden Wörter separat eine Stimmung ausdrückt. Umgekehrt gilt das Gleiche: Eigennamen, deren Einzelbestandteile bedeutungstragend sind, müssen durch Named Entity Recognition herausgefiltert werden. Sonst hätte das Ausschussmitglied "Nadine Schön" immer eine positivere Bewertung als beispielsweise "Christina Schwarzer".

Klassifikation eines ganzen Textes

Um einen ganzen Text oder Tweet hinsichtlich der enthaltenen Meinung zu klassifizieren, gibt es mehrere Verfahren aus dem Bereich des maschinellen Lernens. Ein populäres sind Support Vector Machines. Aus der quantifizierten Häufigkeit von Satzteilen, Einzelwortstimmungen, Satzkonstruktionen, Textlänge usw. wird ein Vektor erstellt.

Anhand von Beispielen mit bekannter Bedeutung lernt das Verfahren, Kategorien zu unterscheiden. Dafür wird eine Trennebene ermittelt, die Mengen der Vektoren in den Einzelkategorien so trennt, dass der Abstand der Ebenen zu den Randvektoren möglichst groß ist. Für einen unbekannten Vektor wird dann bestimmt, auf welcher Seite er liegt, also zu welcher Kategorie er wahrscheinlich gehört.

Wo ist das Problem?

Die oben angesprochenen Schwierigkeiten sind nur exemplarisch und die Einteilung von positiv und negativ ist die denkbar einfachste Unterscheidung, die man vornehmen kann. Verschiedene Sprachen, kulturelle Unterschiede, Ironie, bereichsspezifisches Vokabular. Die Herausforderungen sind unendlich. Sprachanalyse wird deshalb niemals hundertprozentig korrekt sein. Vor allem, wenn man sich die vielen Einzelschritte der Verarbeitungspipeline vor Augen führt, die zu sich aufsummierenden Fehlern führen können.

Bei Meinungsbildern oder Bewertungen wird das in vielen Fällen durch die schiere Masse an Material ausgeglichen. Aber wenn es um den Einzelnen geht, kann das drastische Konsequenzen haben. Nicht nur positive und negative, sondern auch politische Haltungen verraten sich oft durch die Nutzung von charakteristischen Worten und Phrasen.

Sprache ist ideologisiert, aus repräsentativen Texten kann man versuchen, Identifikatoren abzuleiten. Worthäufigkeiten, Wortschatzkomplexität oder durchschnittliche Satz- und Textlängen sind nur einige Kriterien, mit denen sich ein sprachlicher Fingerabdruck von Lebensanschauungen generieren lässt, oder nicht?

Sprachanalyse ist ein interessantes Feld. Aber wie alle Algorithmen, die zur Ermittlung von Persönlichkeitsmerkmalen benutzt werden, ist die Gefahr von "False Positives" hoch. Wir werden täglich gescannt, die sprachlichen Spuren, die wir im Internet hinterlassen, sind vielfältig, und es wäre nicht verwunderlich, wenn wir auch einmal auffallen und interessant für Geheimdienste und Ermittler würden, weil ein Algorithmus uns Auffälligkeiten attestiert.

 Part-of-Speech Tagger klassifizieren Satzbestandteile

eye home zur Startseite
Morpf 24. Feb 2014

Denken, eigene Meinung... beides erfordert eigenes Engagement. Viel bequemer ist es doch...

Sinnfrei 20. Feb 2014

Frag mal die Anwohner in der Grenzregion zwischen Afghanistan und Pakistan.

janpi3 20. Feb 2014

oder einfach Privat finanzieren wie vor 150 Jahren :D in dein Gesicht - Deutsche Bank XD

Ben Stan 20. Feb 2014

Nice, lustig zu lesen... http://www.kolobok.us/smiles/mini/biggrin_mini.gif

SelfEsteem 19. Feb 2014

Ich denke nicht, dass das hier ein Problem von Rechtsstaatlichkeit, Diktaturen, oder...



Anzeige

Stellenmarkt
  1. Fresenius Medical Care Deutschland GmbH, Schweinfurt
  2. Springer Nature, Berlin
  3. redblue Marketing GmbH, Ingolstadt
  4. Hornbach-Baumarkt-AG, Neustadt an der Weinstraße


Anzeige
Top-Angebote
  1. 47,99€
  2. und For Honor oder Ghost Recon Wildlands kostenlos erhalten
  3. (-17%) 49,99€ - Release am Donnerstag

Folgen Sie uns
       

  1. Energielabels

    Aus A+++ wird nur noch A

  2. Update 1.2

    Gog.com-Client erhält Cloud-Speicheroption und fps-Zähler

  3. HTTPS

    US-Cert warnt vor Man-In-The-Middle-Boxen

  4. Datenrate

    Facebook und Nokia bringen Seekabel ans Limit

  5. Grafikkarte

    Zotac will die schnellste Geforce GTX 1080 Ti stellen

  6. Ab 2018

    Cebit findet künftig im Sommer statt

  7. Google

    Maps erlaubt Teilen des eigenen Standortes in Echtzeit

  8. Datengesetz geplant

    Halter sollen Eigentümer von Fahrzeugdaten werden

  9. Nintendo Switch

    Leitfähiger Schaumstoff löst Joy-Con-Probleme

  10. Stack Overflow

    Deutsche Entwickler fühlen sich unterbezahlt



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Lithium-Akkus: Durchbruch verzweifelt gesucht
Lithium-Akkus
Durchbruch verzweifelt gesucht
  1. Super MCharge Smartphone-Akku in 20 Minuten voll geladen
  2. Brandgefahr HP ruft über 100.000 Notebook-Akkus zurück
  3. Brandgefahr Akku mit eingebautem Feuerlöscher

Airselfie im Hands on: Quadcopter statt Deppenzepter
Airselfie im Hands on
Quadcopter statt Deppenzepter
  1. Fiberglas und Magneten Wabbeliger Quadcopter übersteht Stürze
  2. Senkrechtstarter Solardrohne fliegt wie ein Harrier
  3. Mobiler Startplatz UPS-Lieferwagen liefert mit Drohne Pakete aus

"Mehr Breitband für mich": Was wurde aus dem FTTH-Ausbau der Telekom für Selbstzahler?
"Mehr Breitband für mich"
Was wurde aus dem FTTH-Ausbau der Telekom für Selbstzahler?
  1. 50 MBit/s Dobrindt glaubt weiter an bundesweiten Ausbau bis 2018
  2. Breitbandgipfel 2.000 Euro für FTTH im Gewerbegebiet sind akzeptiert
  3. Breitbandgipfel Telekom hält 100 MBit/s für "im Moment ausreichend"

  1. Re: Fachlich und ortographischer Fail

    ldlx | 23:00

  2. Re: angemessene Bezahlung != leistungsgerechte...

    Moe479 | 22:58

  3. Re: Leider alternativ-los...

    Neuro-Chef | 22:51

  4. Re: schöne Sache

    ArcherV | 22:51

  5. Re: Diese Art von Spiel werde ich nie verstehen...

    M.Kessel | 22:50


  1. 18:59

  2. 18:42

  3. 18:06

  4. 17:39

  5. 17:10

  6. 16:46

  7. 16:26

  8. 16:24


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel