Original-URL des Artikels: https://www.golem.de/news/differential-privacy-es-bleibt-undurchsichtig-2010-151211.html    Veröffentlicht: 16.10.2020 12:04    Kurz-URL: https://glm.io/151211

Differential Privacy

Es bleibt undurchsichtig

Mit Differential Privacy soll die Privatsphäre von Menschen geschützt werden, obwohl jede Menge persönlicher Daten verarbeitet werden. Häufig sagen Unternehmen aber nicht, wie genau sie das machen.

Was haben der US-Zensus, Googles Mobilitätsstatistiken während der Covid-19-Pandemie und Apples Emoji-Vorschläge gemeinsam? Für alle drei Anwendungen werden eine beträchtliche Menge personenbezogener Daten erhoben - von Informationen über Alter, Wohnsituation und Bewegungsdaten bis hin zu Kommunikationsvorlieben. All diese Daten müssen geschützt werden und dafür nutzen die dahinterstehenden Organisationen und Unternehmen Verfahren, die auf Differential Privacy basieren.

Die Grundlagen von Differential Privacy definierten Cynthia Dwork, Frank McSherry, Kobbi Nissim und Adam Smith bereits vor 14 Jahren in ihrem Paper Calibrating Noise to Sensitivity in Private Data Analysis. Die Gruppe schlug erste Verfahren vor, um auf Basis großer Mengen persönlicher Daten möglichst genaue statistische Berechnungen durchzuführen, ohne dass dadurch Erkenntnisse über Einzelpersonen möglich sind.

Mehr als zehn Jahre später erhielt das Team für seine Arbeit den renommierten Gödel-Preis für Veröffentlichungen in der theoretischen Informatik, die Arbeit wurde Tausende Male zitiert. 2006 steckten große Datenkonzerne noch in den Anfängen, Google hatte gerade Youtube übernommen, Facebook öffnete seine Plattform für alle.

Seitdem wächst mit den verfügbaren Datenmengen die Notwendigkeit, sie bei der Verarbeitung zu schützen, und der Wunsch, dennoch so viele Erkenntnisse wie möglich daraus zu ziehen - sei es aus kommerziellem Interesse, um Geschäftsprozesse und Werbung zu optimieren, oder um medizinische Forschung voranzutreiben, die sich auf eine große Zahl persönlicher und besonders geschützter Gesundheitsdaten verlässt.

Anonymisierung ist häufig keine

Daten vermeintlich zu anonymisieren, indem etwa der genaue Wohnort auf die Postleitzahl reduziert und Nutzernamen durch zufällige Pseudonyme ersetzt werden, reicht in den wenigsten Fällen aus. Häufig sind Rückschlüsse auf Einzelpersonen möglich, gerade wenn Daten aus verschiedenen Quellen zusammenkommen.

Dann ist es plötzlich unerheblich, dass in einer medizinischen Datenbank der Wohnort von Alice nur bis auf die Postleitzahl genau angegeben wird, wenn aus einem Zeitungsarchiv ersichtlich wird, dass es eine Unterstützungskampagne für eine Frau mit einer seltenen Krankheit in Bad Fallingbostel gab.

Bei einer Untersuchung mit Daten aus Washington konnten Patienten aus fast der Hälfte von 81 vermeintlich anonymisierten Krankenhausberichten identifiziert werden, indem die Berichte mit Nachrichtenartikeln über Unfälle abgeglichen wurden.



Bei Differential Privacy sind die Privatsphäre-Garantien anders: Das Versprechen ist erfüllt, wenn eine Anfrage an einen Datensatz nicht offenbart, ob eine bestimmte Person zu einem Datensatz beigetragen hat. Es geht um den scheinbaren Widerspruch, aus großen Datenmengen nützliche Informationen über die Gesamtheit zu bekommen, ohne brauchbare und demnach auch missbrauchbare Informationen über Einzelpersonen zu erlangen.

Dwork und ihre Kollegen nahmen in ihrer frühen Arbeit zwei Datenbanken als Beispiel: Die zweite unterscheidet sich von der ersten nur dadurch, dass die zusätzliche Person Alice enthalten ist. Angreifer wüssten vorher, dass Alice Raucherin ist, aber nicht, ob Alice eine Lungenkrankheit hat. Sie könnten zwar aus beiden Datenbanken gleichermaßen lernen, dass Rauchen die Wahrscheinlichkeit für eine Lungenkrankheit erhöht, aber nicht, ob konkret Alice (oder eine beliebige andere Person) davon betroffen und in dieser Statistik enthalten ist.



Kontrolliertes Grundrauschen

In einem vereinfachten Zahlenbeispiel könnte das so aussehen: In einer Datenbank A sind 99 Raucherinnen und Raucher enthalten und bei 23 davon ist vermerkt, dass sie eine Lungenkrankheit haben. In Datenbank B ist zusätzlich Alice enthalten. Angreifer würden nun bei beiden Datenbanken anfragen, wie hoch der Anteil an Lungenerkrankungen ist.

Im Fall A bekämen sie ohne zusätzliche Schutzmechanismen die Antwort: Bei 23,23 Prozent aller Raucherinnen und Raucher lässt sich eine Lungenkrankheit beobachten. Im Fall B bekäme er immer die Antwort: 24 Prozent davon sind erkrankt. Daraus könnte er schließen: In der zweiten Datenbank ist eine zusätzliche Person, die nicht gesund ist.

Um das zu verhindern, wird für Differential Privacy bei der Berechnung des Ergebnisses in der Regel ein kontrolliertes Rauschen hinzugefügt. Es kämen also nicht 23,23 oder 24 Prozent heraus, sondern bei dem einen Mal vielleicht 23,78 und bei einem anderen 22,8 Prozent. Bei einer ehrlichen Anfrage ist das kein Problem: Es interessiert nur, ob Rauchen zu einem erhöhten Lungenkrankheitsrisiko führt.

Angreifer haben nun aber ein Problem: Sie können die beiden Datensätze nicht mehr auseinanderhalten, da sie zum gleichen Ergebnis führen könnten. Je größer das Rauschen, desto besser wird das einzelne Datum geschützt.

Wird das Rauschen jedoch zu groß, können die Ergebnisse auch unbrauchbar werden. Das Verhältnis zwischen der Genauigkeit der Ergebnisse und dem Verlust der Privatsphäre lässt sich durch die Parameter des Rauschens steuern.

Darin liegt einer der Vorteile von Differential Privacy: Der Verlust an Privatsphäre, ausgedrückt durch den Parameter ε, lässt sich bestimmen. Wenn das kontrollierte Zufallsrauschen einer häufig genutzten Laplace-Verteilung entspricht, wird die Streuung der Verteilung durch 1/ε definiert.



Zentral versus dezentral: eine Frage des Vertrauens

Dwork und ihre Kollegen gingen zunächst von einem Modell wie der Raucherdatenbank aus, in dem Rohdaten an einer Stelle unverrauscht vorliegen. Erst die Ergebnisse einer Berechnung oder Abfrage sind durch Differential-Privacy-Verfahren geschützt. Doch denjenigen, die die Daten sammeln, muss Alice vertrauen. Ein Beispiel dafür ist der derzeit stattfindende US-Zensus.

Wenn die Ergebnisse der Zählung veröffentlicht werden, sollen für Betrachter keine Erkenntnisse über Minderheiten möglich sein, selbst wenn sie sie mit anderen Daten korrelieren. Dennoch sollen die Daten statistisch aussagekräftig sein und Aufschlüsse über Alters- und Sozialstrukturen erlauben.

Daher hat sich das US Census Bureau dazu entschieden, die veröffentlichten Ergebnisse mit Differential-Privacy-Verfahren zu schützen. Frühere Methoden wie das Hin- und Hertauschen von Daten zwischen geografischen Regionen zur Verungenauung seien mit heutigen Analysemöglichkeiten nicht mehr ausreichend, heißt es dazu.

Zentralisierte Differential-Privacy-Ansätze haben einen Nachteil: Die Nutzer müssen der Instanz vertrauen, die ihre Daten sammelt. Das macht sie sowohl anfällig für Missbrauch durch Betreiber von Datenbanken als auch für Angreifer, die sich Zugriff auf die Rohdaten verschaffen könnten.



Emojis und Eingabevorschläge

Lokale Ansätze vermeiden dieses Problem, indem sie schon ein Grundrauschen beim Erheben der Daten hinzufügen. Diesen Ansatz verwendet seit 2016 beispielsweise Apple. Das Unternehmen nutzt lokale Differential-Privacy-Methoden (PDF), um etwa aufgrund der Nutzereingaben neue Wörter wie Songtitel zu entdecken, häufig verwendete Emojis vorzuschlagen oder Webseiten mit hoher CPU- und Speichernutzung zu identifizieren.

So verarbeitet Apple - wenn Nutzer einer Verarbeitung der Daten zustimmen - beispielsweise beim Tippen eines Emojis das Ereignis bereits mit Differential-Privacy-Verfahren und speichert das Ergebnis "privatisiert" ab. Aus diesen abgespeicherten Ergebnissen wird täglich ein Sample an Apple übertragen, zusätzliche Identifikationsmerkmale wie die IP-Adresse von Nutzern werden entfernt.

Anhand der Vielzahl an Übertragungen kann das Unternehmen so analysieren, dass beispielsweise das Tränen lachende Emoji bei Nutzern mit englischem und französischem Tastaturlayout gleichermaßen beliebt ist. Was genau eine einzelne Person tut, bleibt dem Konzern auf diesem Wege jedoch verborgen.

Privatsphäre mit Wenn und Aber

Auch wenn lokale Differential-Privacy-Verfahren das Vertrauen minimieren, das Nutzer dem Datensammler entgegenbringen müssen, bekam Apple für seine Umsetzung wenige Monate später zunächst Kritik.

Eine Forschungsgruppe versuchte, durch Reverse Engineering zu ermitteln, wie Apple Differential Privacy umsetzt. Sie wollte die ε-Werte von Apple herausfinden und kritisierte die Intransparenz des Unternehmens bei der Implementierung des Verfahrens. Der Differential-Privacy-Miterfinder Frank McSherry beschrieb das Vorgehen so: Apple habe sich beim Umgang mit Nutzerdaten selbst eine Art Handschellen angelegt. "Es stellt sich nur heraus, dass diese Handschellen aus Papier gemacht sind", so McSherry.

Mittlerweile veröffentlicht Apple die Werte für ε und weitere Informationen zu den Verfahren. Für die Emoji-Analyse hat ε nach Apples Angaben den Wert 4, bei Analysen für Quicktype-Vorschläge liegt ε bei 8. Laut McSherry stellen ε-Werte über 1 aus akademischer Sicht eine ernsthafte Privatsphären-Beeinträchtigung dar. Was angemessen ist, unterscheidet sich von Fall zu Fall. Der Wert von ε kann eine Orientierung bieten, der tatsächliche Schutz der Privatsphäre hängt jedoch von weitaus mehr Faktoren ab. Sind etwa die einzelnen Datenpunkte geschützt oder vielmehr die Gesamtheit an Informationen über eine Person? Müssen Nutzer der Datenbank vertrauen oder nicht?



Dass Firmen ihre Privacy-Parameter offenlegen, forderten 2019 auch Dwork und weitere Wissenschaftler. Die Erfinderin von Differential Privacy lehrt mittlerweile an der Harvard University und schlägt ein Epsilon-Register vor, in dem Organisationen offenlegen, wie sie Differential Privacy implementieren und welche Parameter sie wählen.

Nur, wenn Organisationen wichtige Eckpunkte ihrer Implementierungen offenlegen, kann Differential Privacy mehr sein als ein Werbeversprechen oder ein "Privacy-Theater", wie es Dwork und die Ko-Autoren nennen.

Quelloffene Differential-Privacy-Implementierungen gibt es mittlerweile viele. Google hat dazu Code-Bibliotheken veröffentlicht, Microsoft arbeitet zusammen mit der Harvard University an quelloffenen Tools und IBM hat Code veröffentlicht, der besonders für Machine-Learning-Anwendungen hilfreich sein soll.

Die Geheimniskrämerei kann sich somit auf persönliche Daten konzentrieren. Damit, wie sie geschützt werden, sollten die Unternehmen aber viel offener umgehen. Denn nur dann können Fachleute und Nutzerschaft einschätzen, ob es sich wirklich um einen Privatsphäregewinn handelt.

 (abi)


Verwandte Artikel:
Differential Privacy: Google legt datenschutzfreundliche Analysebibliothek offen   
(05.09.2019, https://glm.io/143670 )
Geheim und anonym: CIA-Webseite im Tor-Netzwerk   
(08.05.2019, https://glm.io/141122 )
DDoS: Vier Darknet-Marktplätze nach Angriffen offline   
(15.10.2017, https://glm.io/130622 )
Tor-Gründer Dingledine: "Es gibt kein Dark Web"   
(01.08.2017, https://glm.io/129240 )
Anonymität: Ultraschall-Tracking kann Tor-Nutzer deanonymisieren   
(06.01.2017, https://glm.io/125434 )

© 1997–2021 Golem.de, https://www.golem.de/