Abo
  • Services:
Anzeige
IMHO: Warum Googles Datensammeln gar nicht so böse ist
(Bild: Lucy Nicholson/Reuters)

Statistisches Crowdsourcing

Strategische Position

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internetnutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Anzeige

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa: andere arbeiten lassen. Das ist gar nicht so einfach, wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagwörtern zu Bildern als Spiel - das schnell langweilig wurde. Am besten funktioniert es, andere arbeiten zu lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internetnutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe infrage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback - welche Vorschläge werden angeklickt? - verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen, heißt übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip, wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt Maschinen daraus lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

  • Google Translate
  • Google Translate
Google Translate
  • Google Translate
Google Translate

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Google-Sicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. Wie aber kann eine Maschine überhaupt lernen?

 Naive ModelleLernende Maschinen 

eye home zur Startseite
Tamashii 22. Nov 2013

Doch, natürlich kann auch solch eine Gesellschaft manipuliert werden! Stell Dir einfach...

samy 16. Mär 2012

Nun ja Gott missbraucht seien Datensammlung aber nicht. Bei Google bin ich mir da nicht...

BabylonXL 14. Mär 2012

Du willst also eine Suche benutzen, die gerade deshalb so gut funktioniert, weil sie...

samy 10. Mär 2012

Der Mensch wurde vermutlich von google dafür bezahlt...

Der Held vom... 09. Mär 2012

Ein überspitztes Beispiel: Du darfst kein kernwaffentaugliches Material besitzen...


Oliver Gassner: Digitale Tage / 18. Mär 2012

Daily Digest 18.03.2012



Anzeige

Stellenmarkt
  1. Knauf Information Services GmbH, Iphofen bei Würzburg
  2. Town & Country Haus, Behringen
  3. DATAGROUP Köln GmbH, Aschaffenburg
  4. Brabbler Secure Message and Data Exchange Aktiengesellschaft, München


Anzeige
Spiele-Angebote
  1. (-46%) 26,99€
  2. (-67%) 19,99€
  3. (-74%) 10,49€

Folgen Sie uns
       


  1. Unternehmen

    1&1 Versatel bietet Gigabit für Frankfurt

  2. Microsoft

    Xbox One emuliert 13 Xbox-Klassiker

  3. DMT Bonding

    Telekom probiert 1 GBit/s ohne Glasfaser aus

  4. Telekom-Software

    Cisco kauft Broadsoft für knapp 2 Milliarden US-Dollar

  5. Pubg

    Die blaue Zone verursacht künftig viel mehr Schaden

  6. FSFE

    "War das Scheitern von Limux unsere Schuld?"

  7. Code-Audit

    Kaspersky wirbt mit Transparenzinitiative um Vertrauen

  8. iOS 11+1+2=23

    Apple-Taschenrechner versagt bei Kopfrechenaufgaben

  9. Purism Librem 13 im Test

    Freiheit hat ihren Preis

  10. Andy Rubin

    Drastischer Preisnachlass beim Essential Phone



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Essential Phone im Test: Das essenzielle Android-Smartphone hat ein Problem
Essential Phone im Test
Das essenzielle Android-Smartphone hat ein Problem
  1. Teardown Das Essential Phone ist praktisch nicht zu reparieren
  2. Smartphone Essential Phone kommt mit zwei Monaten Verspätung
  3. Andy Rubin Essential gewinnt 300 Millionen US-Dollar Investorengelder

Pixel 2 und Pixel 2 XL im Test: Google fehlt der Mut
Pixel 2 und Pixel 2 XL im Test
Google fehlt der Mut
  1. Pixel Visual Core Googles eigener ISP macht HDR+ schneller
  2. Smartphones Googles Pixel 2 ist in Deutschland besonders teuer
  3. Pixel 2 und Pixel 2 XL im Hands on Googles neue Smartphone-Oberklasse überzeugt

Krack-Angriff: Kein Grund zur Panik
Krack-Angriff
Kein Grund zur Panik
  1. Neue WLAN-Treiber Intel muss WLAN und AMT-Management gegen Krack patchen
  2. Ubiquiti Amplifi und Unifi Erster Consumer-WLAN-Router wird gegen Krack gepatcht
  3. Krack WPA2 ist kaputt, aber nicht gebrochen

  1. Re: Auf 9.3.5 (letzte IOS 9 Version) ist der...

    Strulf | 22:58

  2. Re: Warum nur Full HD?

    Livingston | 22:55

  3. ... so viele Gegner wie möglich ausschalten ...

    Lord Gamma | 22:50

  4. Re: Bonding von 8 Leitungen?

    ermic | 22:45

  5. Re: Was, wie bitte?

    Livingston | 22:44


  1. 18:46

  2. 17:54

  3. 17:38

  4. 16:38

  5. 16:28

  6. 15:53

  7. 15:38

  8. 15:23


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel