Abo
  • Services:
Anzeige
IMHO: Warum Googles Datensammeln gar nicht so böse ist
(Bild: Lucy Nicholson/Reuters)

Privatsphärenschutz in der Datenwolke

Naive Vorstellungen von Nutzerprofilen sind also wahrscheinlich falsch. In Wirklichkeit betreibt Google automatisierte Verhaltensforschung im Industriemaßstab, bezogen auf spezifische Funktionen wie Eingabekorrektur, Übersetzung oder Werbeoptimierung. Als Ergebnis gewinnt Google populationsstatistische Aussagen, die individuell beziehungsweise nach impliziter Gruppenzugehörigkeit modifiziert werden können; eine klare Grenze zwischen diesen Aggregationsgraden gibt es nicht. Erfasst und gespeichert sind Googles Erkenntnisse in den Konfigurationen aufgabenspezifischer Klassifikatoren, die laufend dem globalen Verhalten der Nutzerpopulation angepasst werden. Die naiven Modelle aus Folge 2 passen nicht so recht dazu, auch wenn Google selbst manchmal anderes suggeriert:

Anzeige

Wer ein Google+-Profil hat und mit Google nach seinem eigenen Namen sucht, bekommt vielleicht diese Aufforderung zu sehen. Gemeint sind die expliziten und freiwilligen Angaben im Profil, nicht der Durchleuchtungsgrad der Person.

  • Google-Plus-Account von Sven Türpe
Google-Plus-Account von Sven Türpe

Damit es keine Missverständnisse gibt: Google besteht nicht nur aus lernenden Maschinen, viele Funktionen und Dienste nutzen auch herkömmliche Verfahren. Welche Termine in meinem Google-Kalender stehen, wen ich in Google+ in welchen Circles habe und welche Nachrichten in meinem Gmail-Account liegen, speichert und verarbeitet Google (auch) ganz normal im Klartext, wie es jeder SaaS-Anbieter in der Cloud tun würde. Darauf mag man alle etablierten Begriffe und Modelle des Datenschutzes anwenden, wenngleich sie sich vielleicht aus anderen Gründen als unpassend erweisen. Ich behandle hier die Angstfunktion Daten sammeln und auswerten. Daten einfach zu sammeln, lohnt sich im Google-Maßstab nicht, weil man mit einer Datenhalde wenig anfangen kann. Nach meinem Modell nutzt Google umfangreiche Daten, um damit einen Satz an Betriebsparametern fortlaufend zu optimieren und dem Lauf der Welt anzupassen. Die Optimierung und Anpassung erfolgt interaktiv, Google lernt von seinen Nutzern, was richtig und was falsch ist, was ähnlich und was verschieden. Das ist etwas anderes als das elektronische Profil, das Thilo Weichert sich vorstellt und es hat Folgen, die er sich nicht vorstellt.

Was ist anders?

Ein Klassifikator häuft nicht einfach Daten an. Er besitzt eine Konfiguration und zwei Grundfunktionen: Lernen und Klassifizieren. In der Funktion Klassifizieren erhält er einen Datensatz als Eingabe und gibt eine Entscheidung oder Entscheidungsempfehlung aus. In der Funktion Lernen passt er seine Konfiguration an, um die Rate der Fehlentscheidungen zu reduzieren. Die Konfiguration des Klassifikators gibt nicht die einzelnen Eingabedaten wieder, sondern ein davon abgeleitetes Modell. Darin unterscheidet sich dieser Ansatz von der Karteikarten-IT herkömmlicher Datenbanken, die alle Eingaben wörtlich abspeichern und als Ausgabefunktion im Wesentlichen das Herausfiltern der jeweils gesuchten Daten anbieten. Welche Daten ein Klassifikator nutzt und was er über uns weiß, sind zwei Paar Schuhe. Wir können einen Klassifikator nicht danach befragen, welche Eingabedaten er zu einer Person erhalten hat.

Das führt zu interessanten Folgerungen für den Privatsphärenschutz:

Verhaltensbeobachtung und -auswertung bedeutet nicht zwingend eine Verletzung der Privatsphäre. Beispiele dafür sind die Korrekturfunktionen in der Google-Suche und in Google Translate, die aus dem Benutzerverhalten lernen. Google beobachtet bestimmte Aspekte des Nutzerverhaltens über eine Folge von Vorgängen hinweg, interessiert sich am Ende aber vor allem für statistische Aussagen.

Ein Kontinuum an Personenbezug. Ein Klassifikator kann personenbezogene Entscheidungen treffen, er muss es aber nicht. Er wird Entscheidungen nach den Kriterien treffen, die in der Vergangenheit erfolgreich waren. Da die Konfiguration des Klassifikators variabel ist, kann sich der personenbezogene Entscheidungsanteil laufend ändern. Nützlich ist ein Klassifikator vor allem dort, wo es verallgemeinerbare Zusammenhänge in den Daten gibt - Verallgemeinerung ist das Gegenteil von persönlichen Profilen. Die vielen Einzeldaten braucht man, weil man die Verallgemeinerungsregeln vorher nicht kennt.

Einzelne Merkmale - IP-Adresse, Cookies, Geburtsdatum und so weiter - sind wenig relevant. Klassifikatoren arbeiten in vieldimensionalen Merkmalsräumen und bei guter Konstruktion tragen alle Dimensionen zur Klassifikationsleistung bei. Lässt man eine Merkmalsdimension weg, bleiben (n-1) übrig, für ein ziemlich großes n. Die Klassifikationsleistung verringert sich dadurch nur wenig, zumal in den verwendeten Daten Korrelationen zwischen mehreren Dimensionen auftreten können. Das heißt auch: Ein Klassifikator kann relativ robust gegen gelöschte Cookies sein.

Der Grad der Personalisierung hängt auch vom Nutzerfeedback ab. Wie stark die Entscheidungen eines Klassifikators personalisiert sind, hängt davon ab, welches Feedback der Nutzer zu diesen Entscheidungen gibt. Wer viel Werbung anklickt, personalisiert seine Werbeeinblendungen damit, falls dieses Feedback mit Personen- oder Pseudonymbezug zum Lernen verwendet wird.

Klassifikator-Modelle sind inhärent zweckgebunden. Ein Klassifikator wird für eine bestimmte Aufgabe entworfen und trainiert. Zwar kann man die dabei entstehende Konfiguration als Modell der Problemlösung untersuchen und dabei Interessantes herausfinden. Jedoch lässt sich ein Klassifikator nicht einfach für etwas anderes verwenden. Einen universellen Klassifikator, der "alles" kann, gibt es nicht; jedes Optimierungsverfahren benötigt Annahmen über das Problem. Man kann freilich einen Klassifikator mit Personen als Ausgabeklassen bauen, wenn man Feedback über die Richtigkeit der Zuordnung bekommt.

Löschen geht nicht - aber Personenbezüge können verblassen. Sind Daten über einen Nutzer in die Konfiguration eines Klassifikators eingeflossen und dort mit anderen Daten verschmolzen, lässt sich dieser Vorgang nicht sinnvoll rückgängig machen. Liefert ein Nutzer keine neuen Daten nach, werden seine Einflüsse jedoch nach und nach von anderen überlagert. Ein fortwährend trainierter Klassifikator in einer veränderlichen Umgebung verliert im Laufe der Zeit seine Fähigkeit, auf diesen Nutzer personalisierte Entscheidungen zu treffen - er vergisst, ohne auf den Innenminister und dessen Ideenwettbewerb zu warten.

Solche Phänomene sind in unseren überlieferten Datenschutzkonzepten nicht vorgesehen. Wir können auf verschiedene Arten damit umgehen. Wir können auf die Einhaltung formaler Vorschriften aus einer anderen Zeit pochen und Bürokratie als Selbstzweck vollziehen. Dann ist Google verboten, bis jeder Nutzer eine Generalvollmacht erteilt hat und ab und zu gibt es einen Shitstorm. Oder wir erinnern uns daran, dass Datenschutz als Mittel zum Zweck unserer Selbstbestimmung über unsere Privatsphäre dienen soll. Dann müssen wir bei diesem Ziel ansetzen und uns neu überlegen, wie die Technik es bedroht und wie vielleicht auch nicht.

Datenschutzreformen

Juristen diskutieren seit geraumer Zeit über Datenschutzreformen. Thomas Stadler berichtete zum Beispiel in seinem Blog über ein Thesenpapier zur Datenschutzreform (hier gibt's einen Aufsatz dazu). In der Rechtsanwendung gibt es noch einmal ganz eigene Probleme. Aus amerikanisch-kanadischer Sicht beschäftigt sich Tara Whalen mit der Frage, wie man den Personenbezug sinnvoll definieren sollte und fasst im Artikel This Time, It's Personal. Recent Discussions on Concepts of Personal Information den Stand der Debatte zusammen.

Als Informatiker kann ich dort nicht qualifiziert mitreden. Mir stellen sich andere, aber verwandte Fragen: Wie sieht wirksamer Privatsphärenschutz in heutigen und künftigen soziotechnischen Systemen aus? Von welchen Bedrohungsmodellen muss er ausgehen und wie kann er die Evolution der Technik zulassen und begleiten?

Cookies, IP-Adressen und die Datenübermittlung in andere Länder nützen uns als Diskussionsrahmen wenig. Die Radikallösung, Teile des Netzes ungenutzt zu lassen, ist wegen seines großen Nutzens keine realistische Option. Interessanter ist, wer uns anhand welcher Daten wehtun kann, wie wahrscheinlich das ist, und welche wirksamen Maßnahmen es dagegen gibt.

Die Abstraktion des personenbezogenen Datums und der Entscheidung des Betroffenen, wer dieses Datum haben darf, stammt aus einer anderen Ära der Informationstechnik. Unabhängig davon, in welchem Maße Techniken wie die von Google eingesetzten unsere Privatsphäre bedrohen oder nicht, können wir mit der Freigabe einzelner Datensätze und Datenfelder keinen sinnvollen Einfluss auf eventuelle Risiken nehmen. Vielleicht müssen wir uns gänzlich von der Idee lösen, dass es auf Daten ankäme, und uns damit beschäftigen, was daraus gemacht wird.

Die individuellen und gesellschaftlichen Privatsphäreninteressen müssen wir außerdem abwägen gegen das berechtigte Interesse einer Firma wie Google, technische Details für sich zu behalten. Bessere Klassifikatoren zu bauen als der Rest der Welt gehört zu Googles Kerngeschäft. Andererseits sollte die Technik so transparent sein, dass sie informierte Entscheidungen unterstützt, wobei es auf die Entscheidungen ankommt und nicht auf deren formalisierte Niederlegung im Vertragsstil. Mit diesem Spannungsfeld sowie mit realistischen Bedrohungsmodellen muss sich der organisierte Datenschutz beschäftigen, wenn er in Zukunft relevant bleiben möchte. Laut über Datenschmu zu schimpfen und dann weiter alte Modelle auf neue Technik anzuwenden, bringt uns keinen Schritt weiter.

Schlusswort

Google ist im wahrsten Sinn des Wortes ein Elektronengehirn, wie es die Science-Fiction einst beschrieb. Wer um jeden Preis Angst haben möchte, stellt sich unter Google am besten so etwas wie HAL 9000 vor, hochskaliert auf einen Planeten anstelle eines Raumschiffs. Google verhielte sich ähnlich, zöge man ihm nach und nach die Speichermodule raus - Google würde nach und nach verblöden.

Unter dieser Prämisse lautet die Grundsatzfrage: Welche Denkverbote müssen wir so einem Computer auferlegen und welche nicht? Wie formulieren wir solche Denkverbote, wenn wir den größtmöglichen Nutzen behalten wollen? Oder brauchen wir in Wirklichkeit gar keine Denkverbote für Elektronengehirne, sondern angemessene Denkweisen und Begriffe für uns selbst als Individuen und als Gesellschaft? Fürs Erste tut es auch eine kleinere Frage: Wie machen wir eine Datenverarbeitung transparent für Nutzer, die komplizierter ist als die gute alte Datenbank? Ein Stück Verständnis hat Google mit seiner aufgeräumten Datenschutzerklärung schon mal effektiv vermittelt, nämlich dass seine einzelnen Dienste nur Sichten auf ein System sind. Das haben jetzt alle verstanden.

Sven Türpe arbeitet als Informatiker in Darmstadt. Er beschäftigt sich mit Sicherheitsanalysen und Security Engineering und bloggt unter Erich sieht - Sicherheit anders. Dort hat er die Artikelserie Datenkrake Google veröffentlicht. Für Golem.de wurde der Text leicht angepasst.

IMHO ist der Kommentar von Golem.de. IMHO = In My Humble Opinion (Meiner bescheidenen Meinung nach).

 Und jetzt Werbung

eye home zur Startseite
Tamashii 22. Nov 2013

Doch, natürlich kann auch solch eine Gesellschaft manipuliert werden! Stell Dir einfach...

samy 16. Mär 2012

Nun ja Gott missbraucht seien Datensammlung aber nicht. Bei Google bin ich mir da nicht...

BabylonXL 14. Mär 2012

Du willst also eine Suche benutzen, die gerade deshalb so gut funktioniert, weil sie...

samy 10. Mär 2012

Der Mensch wurde vermutlich von google dafür bezahlt...

Der Held vom... 09. Mär 2012

Ein überspitztes Beispiel: Du darfst kein kernwaffentaugliches Material besitzen...


Oliver Gassner: Digitale Tage / 18. Mär 2012

Daily Digest 18.03.2012



Anzeige

Stellenmarkt
  1. Robert Bosch GmbH, Stuttgart-Feuerbach
  2. T-Systems International GmbH, verschiedene Standorte
  3. Daimler AG, Sindelfingen
  4. Nash direct GmbH, Stuttgart oder Ulm


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)

Folgen Sie uns
       


  1. Augmented Reality

    Google stellt Project Tango ein

  2. Uber vs. Waymo

    Uber spionierte Konkurrenten aus

  3. Die Woche im Video

    Amerika, Amerika, BVG, Amerika, Security

  4. HTTPS

    Fritzbox bekommt Let's Encrypt-Support und verrät Hostnamen

  5. Antec P110 Silent

    Gedämmter Midi-Tower hat austauschbare Staubfilter

  6. Pilotprojekt am Südkreuz

    De Maizière plant breiten Einsatz von Gesichtserkennung

  7. Spielebranche

    WW 2 und Battlefront 2 gewinnen im November-Kaufrausch

  8. Bauern

    Deutlich über 80 Prozent wollen FTTH

  9. Linux

    Bolt bringt Thunderbolt-3-Security für Linux

  10. Streit mit Bundesnetzagentur

    Telekom droht mit Ende von kostenlosem Stream On



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
E-Golf auf Tour: Reichweitenangst oder: Wie wir lernten, Lidl zu lieben
E-Golf auf Tour
Reichweitenangst oder: Wie wir lernten, Lidl zu lieben
  1. Fuso eCanter Daimler liefert erste Elektro-Lkw aus
  2. Sattelschlepper Thor ET-One soll Teslas Elektro-Lkw Konkurrenz machen
  3. Einkaufen und Laden Kostenlose Elektroauto-Ladesäulen mit 50 kW bei Kaufland

Alexa-Geräte und ihre Konkurrenz im Test: Der perfekte smarte Lautsprecher ist nicht dabei
Alexa-Geräte und ihre Konkurrenz im Test
Der perfekte smarte Lautsprecher ist nicht dabei
  1. Alexa und Co. Wirtschaftsverband sieht Megatrend zu smarten Lautsprechern
  2. Smarte Lautsprecher Google unterstützt indirekt Bau von Alexa-Geräten
  3. UE Blast und Megablast Alexa-Lautsprecher sind wasserfest und haben einen Akku

4K UHD HDR: Das ZDF hat das Internet nicht verstanden
4K UHD HDR
Das ZDF hat das Internet nicht verstanden
  1. Cisco und Lancom Wenn Spionagepanik auf Industriepolitik trifft
  2. Encrypted Media Extensions Web-DRM ist ein Standard für Nutzer

  1. Re: Mal wieder typisch oberflächlich Anti-Telekom

    Faksimile | 13:56

  2. Re: Einfach nur schlimm!

    Slurpee | 13:54

  3. Re: Bei voller Leistung reicht das Netzteil nicht...

    Arhey | 13:52

  4. Re: Custom-domainname

    Arhey | 13:50

  5. Re: Das ja ein Schnapper

    Der Spatz | 13:48


  1. 12:47

  2. 11:39

  3. 09:03

  4. 17:47

  5. 17:38

  6. 16:17

  7. 15:50

  8. 15:25


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel