Abo
  • IT-Karriere:

Statistisches Crowdsourcing

Strategische Position

Stellenmarkt
  1. MailStore Software GmbH, Viersen
  2. BWI GmbH, München, Bonn, Wilhelmshaven, Strausberg

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internetnutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa: andere arbeiten lassen. Das ist gar nicht so einfach, wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagwörtern zu Bildern als Spiel - das schnell langweilig wurde. Am besten funktioniert es, andere arbeiten zu lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internetnutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe infrage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback - welche Vorschläge werden angeklickt? - verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen, heißt übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip, wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt Maschinen daraus lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

  • Google Translate
  • Google Translate
Google Translate
  • Google Translate
Google Translate

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Google-Sicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. Wie aber kann eine Maschine überhaupt lernen?

 Naive ModelleLernende Maschinen 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9.  


Anzeige
Top-Angebote
  1. 114,99€
  2. (u. a. GTA 5 für 12,99€, Landwirtschafts-Simulator 19 für 27,99€, Battlefield V für 32,99€)
  3. 849,00€ (Bestpreis!)
  4. 169,00€

Tamashii 22. Nov 2013

Doch, natürlich kann auch solch eine Gesellschaft manipuliert werden! Stell Dir einfach...

samy 16. Mär 2012

Nun ja Gott missbraucht seien Datensammlung aber nicht. Bei Google bin ich mir da nicht...

BabylonXL 14. Mär 2012

Du willst also eine Suche benutzen, die gerade deshalb so gut funktioniert, weil sie...

samy 10. Mär 2012

Der Mensch wurde vermutlich von google dafür bezahlt...

Der Held vom... 09. Mär 2012

Ein überspitztes Beispiel: Du darfst kein kernwaffentaugliches Material besitzen...


Folgen Sie uns
       


Parrot Anafi Thermal angesehen

Die Anafi Thermal kann dank Wärmebildsensor Temperaturdaten von -10 bis 400° Celsius messen.

Parrot Anafi Thermal angesehen Video aufrufen
LTE-V2X vs. WLAN 802.11p: Wer hat Recht im Streit ums Auto-WLAN?
LTE-V2X vs. WLAN 802.11p
Wer hat Recht im Streit ums Auto-WLAN?

Trotz langjähriger Verhandlungen haben die EU-Mitgliedstaaten die Pläne für ein vernetztes Fahren auf EU-Ebene vorläufig gestoppt. Golem.de hat nachgefragt, ob LTE-V2X bei direkter Kommunikation wirklich besser und billiger als WLAN sei.
Eine Analyse von Friedhelm Greis

  1. Vernetztes Fahren Lobbyschlacht um WLAN und 5G in Europa
  2. Gefahrenwarnungen EU setzt bei vernetztem Fahren weiter auf WLAN

Sicherheitslücken: Zombieload in Intel-Prozessoren
Sicherheitslücken
Zombieload in Intel-Prozessoren

Forscher haben weitere Seitenkanalangriffe auf Intel-Prozessoren entdeckt, die sie Microarchitectural Data Sampling alias Zombieload nennen. Der Hersteller wusste davon und reagiert mit CPU-Revisionen. Apple rät dazu, Hyperthreading abzuschalten - was 40 Prozent Performance kosten kann.
Ein Bericht von Marc Sauter und Sebastian Grüner

  1. Open-Source Technology Summit Intel will moderne Firmware und Rust-VMM für Server
  2. Ice Lake plus Xe-GPGPU Intel erläutert 10-nm- und 7-nm-Zukunft
  3. GPU-Architektur Intels Xe beschleunigt Raytracing in Hardware

Mordhau angespielt: Die mit dem Schwertknauf zuschlagen
Mordhau angespielt
Die mit dem Schwertknauf zuschlagen

Ein herausfordernd-komplexes Kampfsystem, trotzdem schnelle Action mit Anleihen bei Chivalry und For Honor: Das vom Entwicklerstudio Triternion produzierte Mordhau schickt Spieler in mittelalterlich anmutende Multiplayergefechte mit klirrenden Schwertern und hohem Spaßfaktor.
Von Peter Steinlechner

  1. Bus Simulator angespielt Zwischen Bodenschwelle und Haltestelle
  2. Bright Memory angespielt Brachialer PC-Shooter aus China

    •  /