Abo
  • Services:

Statistisches Crowdsourcing

Strategische Position

Stellenmarkt
  1. rabbit eMarketing GmbH, Frankfurt
  2. Viega Holding GmbH & Co. KG, Attendorn, Dortmund

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internetnutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa: andere arbeiten lassen. Das ist gar nicht so einfach, wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagwörtern zu Bildern als Spiel - das schnell langweilig wurde. Am besten funktioniert es, andere arbeiten zu lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internetnutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe infrage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback - welche Vorschläge werden angeklickt? - verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen, heißt übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip, wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt Maschinen daraus lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

  • Google Translate
  • Google Translate
Google Translate
  • Google Translate
Google Translate

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Google-Sicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. Wie aber kann eine Maschine überhaupt lernen?

 Naive ModelleLernende Maschinen 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9.  


Anzeige
Blu-ray-Angebote
  1. 9,99€
  2. (2 Monate Sky Ticket für nur 4,99€)

Tamashii 22. Nov 2013

Doch, natürlich kann auch solch eine Gesellschaft manipuliert werden! Stell Dir einfach...

samy 16. Mär 2012

Nun ja Gott missbraucht seien Datensammlung aber nicht. Bei Google bin ich mir da nicht...

BabylonXL 14. Mär 2012

Du willst also eine Suche benutzen, die gerade deshalb so gut funktioniert, weil sie...

samy 10. Mär 2012

Der Mensch wurde vermutlich von google dafür bezahlt...

Der Held vom... 09. Mär 2012

Ein überspitztes Beispiel: Du darfst kein kernwaffentaugliches Material besitzen...


Folgen Sie uns
       


Dark Souls Remastered - Livestream

Erst mit der Platin-Trophäe in Bloodborne große Töne spucken und dann? - Der Dark-Souls-Effekt trifft Golem.de-Redakteur Michael Wieczorek mitten ins Streamer-Herz.

Dark Souls Remastered - Livestream Video aufrufen
Sun to Liquid: Wie mit Sonnenlicht sauberes Kerosin erzeugt wird
Sun to Liquid
Wie mit Sonnenlicht sauberes Kerosin erzeugt wird

Wasser, Kohlendioxid und Sonnenlicht ergeben: Treibstoff. In Spanien wird eine Anlage in Betrieb genommen, in der mit Hilfe von Sonnenlicht eine Vorstufe für synthetisches Kerosin erzeugt oder Wasserstoff gewonnen wird. Ein Projektverantwortlicher vom DLR hat uns erklärt, warum die Forschung an Brennstoffen trotz Energiewende sinnvoll ist.
Ein Bericht von Werner Pluta

  1. Deep Sea Mining Deep Green holte Manganknollen vom Meeresgrund
  2. Klimaschutz Unter der Erde ist das Kohlendioxid gut aufgehoben
  3. Physik Maserlicht aus Diamant

Anthem angespielt: Action in fremder Welt und Abkühlung im Wasserfall
Anthem angespielt
Action in fremder Welt und Abkühlung im Wasserfall

E3 2018 Eine interessante Welt, schicke Grafik und ein erstaunlich gutes Fluggefühl: Golem.de hat das Actionrollenspiel Anthem von Bioware ausprobiert.

  1. Dying Light 2 Stadtentwicklung mit Schwung
  2. E3 2018 Eindrücke, Analysen und Zuschauerfragen
  3. Control Remedy Entertainment mit übersinnlichen Räumen

Hacker: Was ist eigentlich ein Exploit?
Hacker
Was ist eigentlich ein Exploit?

In Hollywoodfilmen haben Hacker mit Sturmmasken ein ganzes Arsenal von Zero-Day-Exploits, und auch sonst scheinen die kleinen Programme mehr und mehr als zentraler Begriff der IT-Sicherheit verstanden zu werden. Der Hacker Thomas Dullien hingegen versucht sich an einem theoretischen Modell eines Exploits.
Von Hauke Gierow

  1. IoT Foscam beseitigt Exploit-Kette in Kameras
  2. Project Capillary Google verschlüsselt Pushbenachrichtigungen Ende-zu-Ende
  3. My Heritage DNA-Dienst bestätigt Datenleck von 92 Millionen Accounts

    •  /