Abo
  • Services:
Anzeige
IMHO: Warum Googles Datensammeln gar nicht so böse ist
(Bild: Lucy Nicholson/Reuters)

Statistisches Crowdsourcing

Strategische Position

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internetnutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Anzeige

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa: andere arbeiten lassen. Das ist gar nicht so einfach, wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagwörtern zu Bildern als Spiel - das schnell langweilig wurde. Am besten funktioniert es, andere arbeiten zu lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internetnutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe infrage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback - welche Vorschläge werden angeklickt? - verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen, heißt übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip, wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt Maschinen daraus lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

  • Google Translate
  • Google Translate
Google Translate
  • Google Translate
Google Translate

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Google-Sicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. Wie aber kann eine Maschine überhaupt lernen?

 Naive ModelleLernende Maschinen 

eye home zur Startseite
Tamashii 22. Nov 2013

Doch, natürlich kann auch solch eine Gesellschaft manipuliert werden! Stell Dir einfach...

samy 16. Mär 2012

Nun ja Gott missbraucht seien Datensammlung aber nicht. Bei Google bin ich mir da nicht...

BabylonXL 14. Mär 2012

Du willst also eine Suche benutzen, die gerade deshalb so gut funktioniert, weil sie...

samy 10. Mär 2012

Der Mensch wurde vermutlich von google dafür bezahlt...

Der Held vom... 09. Mär 2012

Ein überspitztes Beispiel: Du darfst kein kernwaffentaugliches Material besitzen...


Oliver Gassner: Digitale Tage / 18. Mär 2012

Daily Digest 18.03.2012



Anzeige

Stellenmarkt
  1. Jobware Online-Service GmbH, Paderborn
  2. Continental AG, Eschborn, Regensburg
  3. ETAS GmbH, Stuttgart
  4. Wüstenrot Bausparkasse AG, Ludwigsburg


Anzeige
Blu-ray-Angebote
  1. (u. a. Mad Max, Legend of Tarzan, Conjuring 2, San Andreas, Creed)
  2. für 1€ über Sky Ticket (via App auch auf Smartphone/Tablet, Apple TV, PS3, PS4, Xbox One...
  3. 49,99€ mit Vorbesteller-Preisgarantie

Folgen Sie uns
       


  1. Linksys WRT32X

    Gaming-Router soll Ping um bis zu 77 Prozent reduzieren

  2. Mainframe-Prozessor

    IBMs Z14 mit 5,2 GHz und absurd viel Cache

  3. Android-App für Raspberry programmieren

    werGoogelnKann (kann auch Java)

  4. Aldebaran Robotics

    Roboter Pepper soll bei Beerdigungen in Japan auftreten

  5. Google Express

    Google und Walmart gehen Shopping-Kooperation ein

  6. Firmen-Shuttle

    Apple baut autonomes Auto - aber nicht für jeden

  7. Estcoin

    Estland könnte eigene Kryptowährung erschaffen

  8. Chrome Enterprise

    Neues Abomodell soll Googles Chrome OS in Firmen etablieren

  9. Blue Byte

    Anno 1800 mit Straßenschlachten und dicker Luft

  10. aCar

    Elektrolaster für Afrika entsteht in München



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Starcraft Remastered im Test: Klick, klick, klick, klick, klick als wär es 1998
Starcraft Remastered im Test
Klick, klick, klick, klick, klick als wär es 1998
  1. Blizzard Der Name Battle.net bleibt
  2. Starcraft Remastered "Mit den Protoss kann man seinen Gegner richtig nerven!"
  3. E-Sport Blizzard nutzt Gamescom für europäische WoW-Finalspiele

Fujitsu Lifebook U937 im Test: 976 Gramm reichen für das fast perfekte Notebook
Fujitsu Lifebook U937 im Test
976 Gramm reichen für das fast perfekte Notebook
  1. DLU Fujitsu entwickelt Deep-Learning-Chips

Game of Thrones: Die Kunst, Fiktion mit Wirklichkeit zu verschmelzen
Game of Thrones
Die Kunst, Fiktion mit Wirklichkeit zu verschmelzen
  1. HBO Nächste Episode von Game of Thrones geleakt
  2. Hack Game-of-Thrones-Skript von HBO geleakt
  3. Game of Thrones "Der Winter ist da und hat leider unsere Server eingefroren"

  1. Re: Modem?

    non_existent | 14:03

  2. Re: Was ist gleich noch der Nutzen von solchen Coins?

    dEEkAy | 14:02

  3. als wenn die Netzwerkkarte irgendeinen Einfluss hätte

    Poison Nuke | 14:00

  4. Erstes Mod: Verbrennungsmotor

    Arsenal | 13:59

  5. Re: CoC - Was genau, wird auf professioneller...

    midluk | 13:59


  1. 12:45

  2. 12:30

  3. 12:05

  4. 12:00

  5. 11:52

  6. 11:27

  7. 11:03

  8. 10:48


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel