Abo
  • Services:
Anzeige
Die simpelste, aber aufwendigste Methode ist es, die Klassifizierung von Texten Menschen zu überlassen
Die simpelste, aber aufwendigste Methode ist es, die Klassifizierung von Texten Menschen zu überlassen (Bild: Golem.de)

Part-of-Speech Tagger klassifizieren Satzbestandteile

Anzeige

Als Ergebnis interessant ist die Polarität der Meinung. Die kleinste meinungstragende Einheit ist das einzelne Wort. Manche Wortarten haben dabei mehr Aussagekraft als andere. "Der", "wenn" oder "mein" verraten uns nichts, können also außen vor gelassen werden. Am aussagekräftigsten sind Adjektive und Adverben.

Um Satzbestandteile zu klassifizieren, nutzt man Part-of-Speech Tagger, populäre Methoden sind statistische Modelle wie Hidden Markov Models, die durch die Häufigkeit bestimmter Satzkonstruktionen die wahrscheinlichste Wortart schätzen.

Auf ein Personalpronomen folgen oft Adjektive und Substantive, aber selten Verben, also liegt beim Ausdruck "Meine Rede" nahe, dass Rede ein Substantiv ist und kein Verb. Diese Verfahren erreichen Genauigkeiten von 95 bis 97 Prozent.

Weiß man, welche Wörter und Wortarten man vor sich hat, geht es darum herauszufinden, was die einzelnen Wörter ausdrücken. Ist "Juhu" Ausdruck einer positiven oder negativen Einstellung? Die simpelste, aber aufwendigste Methode ist es, die Klassifizierung Menschen zu überlassen und die Ergebnisse in einer Datenbank zu sammeln, auf deren Wissen man später zurückgreifen kann.

"Pointwise Mutual Information and Information Retrieval"-Algorithmus

Einer anderer Ansatz, der ohne menschliche Unterstützung, ist der "Pointwise Mutual Information and Information Retrieval"-Algorithmus, der die semantische Ähnlichkeit zweier Wörter ermittelt.

In diesem Fall heißt das: Man hat ein Wort, dessen Stimmung unbekannt ist, und startet eine Suchanfrage, wie oft es in der Nähe eines bekannten Wortes wie "gut" oder "schlecht" auftaucht. Das kann man mit Googles AROUND(n)-Operator durchführen, der alle Suchergebnisse liefert, bei denen zwei Suchwörter im maximalen Abstand von n vorkommen. "Juhu" AROUND(3) "gut" liefert rund 14 Millionen Treffer, "juhu" AROUND(3) "schlecht" 5,6 Millionen. Wiederholt man den Test mit mehreren Referenzwörtern, bekommt man durch die Anzahl der Treffer auf beiden Seiten eine brauchbare Einschätzung der Wortpolarität.

Ein weiterer Ansatz ist der von Sentiwordnet, hier wird eine kleine Ausgangsmenge eindeutig positiver und negativer Wörter als Ausgangsbasis benutzt. In der lexikalischen Datenbank Wordnet sind verwandte Wörter gespeichert, die sogenannte Synsets bilden.

Sentiwordnet ordnet jedem Synset drei Stimmungswerte für positiv, negativ und neutral zu. Von bekannten Synsets ausgehend, werden verwandte Synsets gesucht, deren semantischer Abstand zum Vergleichssynset ein Indikator für die Polarität der Stimmung der Einzelwörter ist.

 Quellen sind Microblogging-DiensteSprache besteht nicht nur aus einzelnen Wörtern 

eye home zur Startseite
Morpf 24. Feb 2014

Denken, eigene Meinung... beides erfordert eigenes Engagement. Viel bequemer ist es doch...

Sinnfrei 20. Feb 2014

Frag mal die Anwohner in der Grenzregion zwischen Afghanistan und Pakistan.

janpi3 20. Feb 2014

oder einfach Privat finanzieren wie vor 150 Jahren :D in dein Gesicht - Deutsche Bank XD

Ben Stan 20. Feb 2014

Nice, lustig zu lesen... http://www.kolobok.us/smiles/mini/biggrin_mini.gif

SelfEsteem 19. Feb 2014

Ich denke nicht, dass das hier ein Problem von Rechtsstaatlichkeit, Diktaturen, oder...



Anzeige

Stellenmarkt
  1. A. Kayser Automotive Systems GmbH, Einbeck
  2. Werner Sobek Group GmbH, Stuttgart
  3. Robert Bosch GmbH, Plochingen
  4. MBtech Group GmbH & Co. KGaA, Lindau


Anzeige
Blu-ray-Angebote
  1. 29,99€ (Vorbesteller-Preisgarantie)
  2. (u. a. John Wick, The Hateful 8, Die Bestimmung, Fifty Shades of Grey, London Has Fallen)
  3. (u. a. Platoon, Erbarmungslos, Training Day, Spaceballs, Einsame Entscheidung)

Folgen Sie uns
       

  1. Samsung

    Galaxy Note 7 wird per Update endgültig lahmgelegt

  2. The Ringed City

    From Software zeigt Abschluss von Dark Souls 3 im Trailer

  3. Dieter Lauinger

    Minister fordert Gesetz gegen Hasskommentare noch vor Wahl

  4. Die Woche im Video

    Cebit wird heiß, Android wird neu, Aliens werden gesprächig

  5. Mobilfunkausrüster

    Welche Frequenzen für 5G in Deutschland diskutiert werden

  6. XMPP

    Bundesnetzagentur will hundert Jabber-Clients regulieren

  7. Synlight

    Wie der Wasserstoff aus dem Sonnenlicht kommen soll

  8. Pietsmiet

    "Alle Twitch-Kanäle sind kostenpflichtiger Rundfunk"

  9. Apache-Lizenz 2.0

    OpenSSL plant Lizenzwechsel an der Community vorbei

  10. 3DMark

    Overhead-Test ersetzt Mantle durch Vulkan



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Mass Effect Andromeda im Test: Zwischen galaktisch gut und kosmischem Kaffeekränzchen
Mass Effect Andromeda im Test
Zwischen galaktisch gut und kosmischem Kaffeekränzchen
  1. Mass Effect Andromeda im Technik-Test Frostbite für alle Rollenspieler
  2. Mass Effect Countdown für Andromeda
  3. Mass Effect 4 Ansel und Early Access für Andromeda

Technik-Kritiker: Jaron Lanier will Facebook zerschlagen
Technik-Kritiker
Jaron Lanier will Facebook zerschlagen
  1. Messenger Facebook sagt "Daumen runter"
  2. Let's Play Facebook ermöglicht Livevideos vom PC
  3. Facebook & Co Bis zu 50 Millionen Euro Geldbuße für Hasskommentare

Forensik Challenge: Lust auf eine Cyber-Stelle beim BND? Golem.de hilft!
Forensik Challenge
Lust auf eine Cyber-Stelle beim BND? Golem.de hilft!
  1. Reporter ohne Grenzen Verfassungsklage gegen BND-Überwachung eingereicht
  2. Selektorenaffäre BND soll ausländische Journalisten ausspioniert haben
  3. Ex-Verfassungsgerichtspräsident Papier Die Politik stellt sich beim BND-Gesetz taub

  1. Re: Digitally Failed State die Dritte.

    picaschaf | 14:36

  2. Re: Denkt er er hätte eine Sonderposition?

    Berner Rösti | 14:35

  3. Re: An alle Reglementierungsschwätzer

    Koto | 14:34

  4. Re: Bewusstes Scheitern

    motzerator | 14:34

  5. Re: Karma.

    FreiGeistler | 14:28


  1. 14:13

  2. 12:52

  3. 12:39

  4. 09:03

  5. 17:45

  6. 17:32

  7. 17:11

  8. 16:53


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel