ChatGPT und Datenschutz: Wenn der stochastische Papagei sich verplappert
Die neuen KI-Sprachmodelle lernen von Nutzereingaben. Mit verschiedenen Angriffsmethoden können Unternehmensinterna und private Informationen aus den Trainingsdaten extrahiert werden.

Neue KI-Sprachmodelle wie ChatGPT beantworten Fragen mit eigenständig formulierten Antworten und erzeugen auf bestimmte Spracheingaben hin Bilder und Programmcodes. Inzwischen wurden aber auch eine Reihe von Methoden und Angriffen bekannt, bei denen vertrauliche und geschützte Daten aus den Trainingsdaten sowie laufenden Nutzereingaben extrahiert werden konnten. "Angesichts der Geschwindigkeit, in der die KI zurzeit Einzug in viele Lebensbereiche hält, brauchen wir als Gesellschaft eine steile Lernkurve", sagt die schleswig-holsteinische Datenschutzbeauftragte und Informatikerin Marit Hansen im Gespräch mit Golem.de. Es gebe Risiken, "die noch zu wenig bekannt und schon gar nicht gebannt sind."
Vertrauliche Daten fließen über Nutzereingaben ab
- ChatGPT und Datenschutz: Wenn der stochastische Papagei sich verplappert
- Umgang mit Personenbildern
Das Programm berücksichtigt für seine Antworten Nutzereingaben, weshalb ständig neues Informationsmaterial hinzukommt, das zur Beantwortung weiterer Abfragen verwendet wird. Auf diese Weise können personenbezogene Daten und Geschäftsgeheimnisse in die Datenbasis von ChatGPT fließen.
Laut dem Online-Magazin Insider wurden Slack-Nachrichten geleakt, in denen ein Amazon-Firmenanwalt Mitarbeiter davor warnte, er habe Textbeispiele von ChatGPT gesehen, die vertraulichen Unternehmensdaten sehr ähnelten. Der Grund könnte sein, dass ChatGPT als Coding Assistant genutzt wurde und die Eingaben möglicherweise als Trainingsmaterial zur Weiterentwicklung von ChatGPT dienten.
Autocomplete und Empfehlungssysteme reloaded
Dass Nutzereingaben auch vertrauliche Informationen beinhalten, die über algorithmische Verarbeitung an die Öffentlichkeit kommen können, ist nicht neu. "Bereits beim einfachen Autocomplete bilden ebenfalls Algorithmen die Grundlage, um den Nutzenden wahrscheinliche Wortergänzungen oder Wortkombinationen anzubieten", erklärt Marit Hansen.
Ähnlich funktionieren auch Empfehlungssysteme nach der Logik "Wer sich für A interessiert, interessiert sich mit hoher Wahrscheinlichkeit auch für B". Aus Datenschutzsicht gab es bereits kritische Probleme beim simplen Autocomplete, sagt Hansen, etwa dann, wenn der Name einer Person mit rufschädigenden Inhalten in Zusammenhang gebracht wurde.
Es werden "natürlich personenbezogene Daten verarbeitet"
ChatGPT und andere Sprachmodelle funktionieren wie ein "stochastischer Papagei". Daher gibt es wie beim Autocomplete und Recommending ähnliche Effekte, wenn KI-Sprachmodelle "nachplappern", was sie in ihren Trainingsdaten gefunden haben. Wenn Filter bei der Ein- und Ausgabe dazwischengrätschen, geben sie nicht automatisiert und unkontrolliert alles wieder, was sie gelernt haben.
Aber, so sagt Marit Hansen: "Auch Filter bringen ihr eigenes Problemfeld mit, wenn nicht transparent gemacht wird, was aus welchen Gründen gefiltert wird." In jedem Fall kämen weitere Datenschutzfragen ins Spiel: Was passiert, wenn personenbezogene Daten eingegeben werden?
Wenn sich Systeme die Kommunikation mit ihren menschlichen Gesprächspartnern merken, um daraus zu lernen und noch besser antworten zu können, "werden natürlich personenbezogene Daten über den User selbst und seine Anfragen verarbeitet", stellt Hansen klar. Dabei kann es sich auch um Personen handeln, über die der Gesprächspartner mittels Chatschnittstelle etwas erfahren möchte.
Dabei liefern die Sprachmodelle allerdings keine belastbaren Fakten, "sondern fabrizieren vielleicht Lebensläufe oder stellen Behauptungen auf, die mit der Wirklichkeit nichts zu tun haben", warnt die Datenschützerin. Berichtigungs- oder Löschansprüche der betroffenen Personen seien kaum durchzusetzen. Überdies könne sich der Output-Text bei der nächsten Anfrage erneut ändern – ohne einen verifizierten Faktenbezug.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Umgang mit Personenbildern |
- 1
- 2
Wer sagt denn, daß Kontext nicht immer statistisch hergestellt wird? Papageien sind...
Das chatGPT einen Kontext (hier: vorherige Konversationen) berücksichtigen kann, um...
Dass Bayern-ABI schafft es nicht und bekommt schlecht Noten. Also nein, stimmt nicht. Es...
Der Begriff KI hat ausserhalb von Werken der Fiktion noch nie eine auch nur annähernd...
Kommentieren