Umgang mit Personenbildern

Der Schutz personenbezogener Daten ist bei Bildgeneratoren wie Dall-E oder Stable Diffusion eine zentrale Herausforderung, da die Trainingsdaten auch mit Bildern von Personen arbeiten. Die Entwickler haben für bestimmte Personen des öffentlichen Lebens einen auf Wortlisten beruhenden Filter eingebaut, der verhindert, dass ihre Bilder für die Bilderzeugung genutzt werden. Entsprechend wird der Wunsch, ein Bild mit Politikern zu generieren, bei Dall-E mit Verweis auf die Content-Policy abgelehnt.

Für Personen, die die KI nicht namentlich kennt, muss sie die aus den Regeln der Datenschutz-Grundverordnung (DSGVO) ableitbare Aufgabe lösen, dass Personen aus den Trainingsbildern in den erzeugten Bildern nicht eindeutig identifiziert werden dürfen. Daher weisen die erzeugten Bilder zwar typische Ähnlichkeiten auf, stellen jedoch keine Repräsentationen dar.

Wenn jedoch Bilder von Personen gefälscht werden, um sie etwa in Misskredit zu bringen, können die Betroffenen auf Basis der DSGVO die Löschung der Bilder als unrichtige Daten erwirken. Möglicherweise kann die Verbreitung sogar strafbar sein und die Verbreiter können auf Schadensersatz verklagt werden. Auch deshalb will Dall-E 2 verhindern, dass Bilder von realen Personen erstellt werden können. Damit will der Anbieter sicherstellen, dass der Bildgenerator gemäß seinen Nutzungsbedingungen verwendet wird. Das scheint weitgehend zu funktionieren.

Extraktion von personenbezogenen Daten

Können aus den KI-Sprachmodellen personenbezogene Daten herausgezogen werden? Marit Hansen befasste sich damit eingehender und kommt zu dem Schluss: "Forschungspapiere aus jüngerer Zeit zeigen Risiken auf, die noch zu wenig bekannt und schon gar nicht gebannt sind."

Die Forschungsteams verfolgen hierbei unterschiedliche Stoßrichtungen. So wies ein Team mit Mitarbeitern von Google, Open AI, Apple sowie vier Universitäten nach, dass Angriffe auf das Sprachmodell GPT-2 erfolgreich sind. Es gelang, hunderte wortwörtliche Textsequenzen zu extrahieren, die Namen, Telefonnummern, E-Mailadressen, Chat-Unterhaltungen sowie Programmcode enthielten. Der Angriff war erfolgreich, obwohl die Daten in nur jeweils einem Dokument der Trainingsdaten enthalten waren.

Ein Forschungsteam des Sea AI Labs in Singapur und der Chinesischen Akademie für Wissenschaften untersuchte mit GPT-Neo ein Dutzend Tricks wie Stichproben oder Rankingstrategien, mit denen die Extraktion sensibler Trainingsdaten noch besser gelingen kann.

Existiert ein bestimmter Datenpunkt im Trainingsdatensatz?

Die EU-Kommission plant, europäische Datenräume zu hochsensiblen Bereichen wie Gesundheit oder Mobilität einzurichten, die mit KI-Methoden erforscht werden sollen. Insofern werden künftig nicht nur bereits öffentlich zugängliche Daten in die Zugriffsweite der Sprachmodelle geraten, sondern auch geschützte Daten wie Patientendaten oder Bewegungsprofile.

Wissenschaftler der Cornell University untersuchten eine Angriffsmethode, die auf einzelne Datensätze hochsensibler Inhalte abzielt. Dabei ging es um die Frage, ob sich herausfinden lässt, ob ein bestimmter Datensatz eines Krankenhaus-Arztbriefs im Trainingsdatensatz eines Modells für maschinelles Lernen enthalten war. Dafür nutzten sie Klassifizierungsmodelle, die von kommerziellen Anbietern wie Google und Amazon trainiert worden waren.

Sobald eine Zugehörigkeit nachgewiesen werden könne, sagt Marit Hansen, "ergäbe sich schon aus dem Umstand, dass jemand im Trainingsdatenset enthalten war, dass er diese Krankheit hatte." Könnte man also beispielsweise nachweisen, dass jemand in einem Verzeichnis für Affenpocken gespeichert ist, wäre das der Beleg dafür, dass er daran erkrankte.

Umgekehrt können diese Ergebnisse auch genutzt werden, um die KI-Systeme sicherer zu machen. So arbeiteten Forscher der Universität Singapur und der Universität Florida zusammen mit Privitar Labs an einem Audit, das zeigen soll, ob und mit welchen Angriffen die Existenz oder Nicht-Existenz eines Datenpunkts im Trainingssatz gezeigt werden kann.

Die neue Generation der KI-Sprachmodelle bringt somit nicht nur den Datenschutz, sondern auch andere Schutzrechte an ihre Grenzen: sowohl was die Möglichkeiten anbelangt, Trainingsdaten auszuforschen, als auch die Möglichkeiten, die Trainingsdaten zu schützen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 ChatGPT und Datenschutz: Wenn der stochastische Papagei sich verplappert
  1.  
  2. 1
  3. 2


mfeldt 02. Mär 2023 / Themenstart

Wer sagt denn, daß Kontext nicht immer statistisch hergestellt wird? Papageien sind...

mfeldt 02. Mär 2023 / Themenstart

Das chatGPT einen Kontext (hier: vorherige Konversationen) berücksichtigen kann, um...

kommentare 01. Mär 2023 / Themenstart

Dass Bayern-ABI schafft es nicht und bekommt schlecht Noten. Also nein, stimmt nicht. Es...

.02 Cents 28. Feb 2023 / Themenstart

Der Begriff KI hat ausserhalb von Werken der Fiktion noch nie eine auch nur annähernd...

Kommentieren



Aktuell auf der Startseite von Golem.de
Entlassungen bei Techfirmen
Weniger Manager sind besser

Entlassungen sind schlimm, aber die Begründungen dafür etwa von Meta kann ich zum Teil verstehen. Auch die Forderungen nach Rückkehr ins Büro finde ich richtig.
Ein IMHO von Brandur Leach

Entlassungen bei Techfirmen: Weniger Manager sind besser
Artikel
  1. Reddit: Stundenlanger Ausfall, weil niemand mehr den Code kennt
    Reddit
    Stundenlanger Ausfall, weil niemand mehr den Code kennt

    Die Analyse eines schwerwiegenden Ausfalls bei Reddit zeigt, wie kritisch institutionelles Wissen sein kann.

  2. E-Fuels: EU-Kommission widerspricht Scholz im Verbrennerstreit
    E-Fuels
    EU-Kommission widerspricht Scholz im Verbrennerstreit

    Sollten die Angaben der EU-Kommission im Streit um das Verbrenner-Aus zutreffen, wäre das für die Bundesregierung blamabel.

  3. LTT: Linus Tech Tips von Krypto-Scammern gehackt
    LTT
    Linus Tech Tips von Krypto-Scammern gehackt

    Der Hauptkanal der Linus Media Group auf Youtube sowie mindestens ein Neben-Channel wurden von Hackern übernommen - und für Scam-Livestreams genutzt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Ryzen 9 7900X3D 619€ • Crucial SSD 2TB (PS5) 158€ • Neu: Amazon Smart TVs ab 189€ • Nur bis 24.03.: 38GB Allnet-Flat 12,99€ • MindStar: Ryzen 9 5900X 319€ • Nintendo Switch inkl. Spiel & Goodie 288€ • NBB Black Weeks: Rabatte bis 60% • PS5 + Spiel 569€ • LG OLED TV -57% [Werbung]
    •  /