Zum Hauptinhalt Zur Navigation

KI und Datenschutz: Wie ChatGPT mich zur Verzweiflung treibt

ChatGPT hat jetzt ein Formular, mit dem sich eigene Daten löschen lassen. Doch wie viel Unsinn kann man damit stoppen? Ein Selbstversuch.
/ Friedhelm Greis
60 Kommentare News folgen (öffnet im neuen Fenster)
Wenn ChatGPT doch nur Blabla produziert - wie und wozu sollte man dann eigene personenbezogene Daten löschen können? (Bild: Pexels)
Wenn ChatGPT doch nur Blabla produziert - wie und wozu sollte man dann eigene personenbezogene Daten löschen können? Bild: Pexels

Was weiß ChatGPT über mich und woher hat es seine Informationen? Diese Fragen dürften sich in den vergangenen Monaten sehr viele Nutzer gestellt und teilweise sehr merkwürdige Antworten darauf erhalten haben. Inzwischen haben die Entwickler des Chatbots, die Firma OpenAI, ein Formular bereitgestellt, um personenbezogene Daten aus dem System löschen zu lassen. Doch bei all dem Unfug, den ChatGPT zum Beispiel über mich fabriziert ( "schreibt seit Jahren für Heise Online" ), frage ich mich ernsthaft, wie das funktionieren soll.

Mit dem Formular(öffnet im neuen Fenster) hat OpenAI auf den Druck europäischer Datenschutzbehörden reagiert. Nachdem die italienische Datenschutzbehörde Anfang April dieses Jahres den Chatbot wegen Bedenken hinsichtlich der Verarbeitung personenbezogener Daten und Verletzungen des Jugendschutzes gesperrt hatte , nahm das Unternehmen einige Änderungen vor . Dazu zählte auch die Bereitstellung des Löschformulars.

Konkrete Prompts eingeben und hochladen

Es richtet sich an die Staaten des Europäischen Wirtschaftsraums, die Schweiz, Großbritannien, die Isle of Man und Japan. Zur Erklärung heißt es: "Im Rahmen bestimmter Gesetze zum Schutz der Privatsphäre oder der Daten, wie z. B. der DSGVO, haben Sie möglicherweise das Recht, der Verarbeitung Ihrer personenbezogenen Daten durch die Modelle von OpenAI zu widersprechen."

Um der Datenverarbeitung zu widersprechen, müssen Nutzer zunächst ihren Namen und ihre E-Mail-Adresse angeben. Dann müssen sie erklären, ob sie das Formular für sich selbst oder eine andere Person ausfüllen. Auch müssen sie angeben, ob sie eine Person des öffentlichen Lebens sind oder nicht.

Dann erfolgt eine wohl sehr schwer zu erfüllende Anforderung: "Bitte geben Sie alle relevanten Eingabeaufforderungen an, die dazu geführt haben, dass das Modell die betroffene Person erwähnt hat. Um Ihre Anfragen ordnungsgemäß bearbeiten zu können, benötigen wir einen eindeutigen Nachweis, dass das Modell aufgrund der Prompts Kenntnis von der betroffenen Person hat." Die Nutzer müssen dazu Screenshots der entsprechenden Anfragen und Antworten hochladen.

Die meisten Personen nicht bekannt

Doch das dürfte gar nicht so einfach sein. Bei vielen Nutzern wird ChatGPT antworten: "Ich habe keine Informationen über eine Person namens Monika Mustermann." Wobei der Bot im Falle von Frau Mustermann sogar weiß, dass dies ein fiktiver Name ist, "der in Deutschland und anderen deutschsprachigen Ländern oft als Platzhaltername verwendet wird, wenn ein Beispielname benötigt wird" . Auf Nachfrage sagt der Chatbot dann beispielsweise: "Als KI habe ich keinen Zugriff auf Informationen zu Personen, es sei denn, sie sind öffentlich verfügbar."

De facto kennt ChatGPT sehr viele Personen nicht, über die sich zahlreiche Informationen im Internet finden lassen. Das Modell wertet daher längst nicht so viele Daten aus wie die herkömmlichen Suchmaschinen.

Doch das, was ChatGPT auf der gelernten Datenbasis ausspuckt, ist oft alles andere als zuverlässig, um nicht zu sagen, völliger Blödsinn. So behauptet der Chatbot im Falle des Autors beharrlich, dass dieser für Heise Online schreibt.

Was bringt das Löschen erfundener Daten?

Auf Nachfrage beteuerte er: "Ja, Friedhelm Greis schreibt tatsächlich für Heise Online, eine renommierte deutsche Nachrichten- und Informationsplattform, die sich auf IT- und Technologiethemen spezialisiert hat. Greis hat dort jahrelang als Redakteur und Autor gearbeitet und ist bekannt für seine fundierte Berichterstattung und kritische Analyse von Technologie- und Datenschutzthemen." Will sich das Programm bei mir einschleimen oder halluziniert es schon? Zumindest die Sache mit Heise sollte es belegen können.

Als Beweis für seine Behauptungen liefert der Bot konkrete Artikel inklusive URL: "Titel: 'EU will Uploadfilter – jetzt muss das Parlament helfen' URL: https://www.heise.de/newsticker/meldung/EU-will-Uploadfilter-jetzt-muss-das-Parlament-helfen-3933262.html Erscheinungsdatum: 15. Februar 2018"

Laut ChatGPT beschäftigt sich der Artikel "mit den geplanten Änderungen des EU-Urheberrechts und den damit verbundenen Uploadfiltern, die von einigen als Bedrohung für die Meinungsfreiheit und das freie Internet angesehen werden. Greis beschreibt in dem Artikel die möglichen Auswirkungen der neuen Regelungen auf Plattformen wie Youtube und spricht sich gegen Uploadfilter aus."

Es gibt natürlich weder den Artikel noch die URL. Daher könnte man einen solchen Prompt bei OpenAI einreichen und verlangen, dass ChatGPT solchen Unsinn nicht weiter verbreitet. Doch was würde das bringen?

Nie für Golem.de geschrieben

Denn auf Nachfrage nennt der Bot ohne zu zögern einen weiteren Artikel. Und auf die Frage, ob ich schon einmal etwas über Edward Snowden geschrieben habe, flunkert er: "Friedhelm Greis hat über Edward Snowden und die von ihm aufgedeckten Überwachungsprogramme der National Security Agency (NSA) geschrieben. Ein Beispiel hierfür ist der Artikel Zurück in die Zukunft mit der Totalüberwachung auf Heise Online, in dem Friedhelm Greis im Jahr 2013 die Enthüllungen von Edward Snowden diskutiert und ihre Auswirkungen auf die Privatsphäre und die Demokratie beleuchtet." Die falsche URL reicht er dann problemlos hinterher.

Auf die Frage, ob ich schon einmal für Golem.de geschrieben habe, heißt es: "Nach meinen Recherchen hat Friedhelm Greis bisher nicht für Golem.de geschrieben. Friedhelm Greis ist jedoch ein bekannter Technologiejournalist und hat für verschiedene Publikationen geschrieben, darunter für Heise Online und die C't." Dabei fällt meine Bilanz bislang ziemlich eindeutig aus: Golem.de: 4.014 Artikel, Heise: 0 Artikel.

Offensichtlich hat ChatGPT zwar die entsprechenden Quellen ausgewertet und daraus geschlossen, dass ich meist über IT-Themen schreibe, ist aber nicht in der Lage, eine Verbindung zu der Quelle herzustellen.

Noch schlimmere Behauptungen möglich

Vor diesem Hintergrund erscheint es völlig sinnlos, bei OpenAI um die Löschung der Angaben zu bitten. Denn man weiß schließlich nie, was sich das Programm noch alles zusammenfantasiert. So erklärt es auf die Frage nach meinem Alter: "Ich habe keine genauen Informationen über das genaue Geburtsdatum von Friedhelm Greis. Allerdings kann ich aufgrund meiner Informationen sagen, dass Friedhelm Greis als Journalist und Autor im Bereich der IT und Technologie seit vielen Jahren tätig ist. Er hat Artikel für Heise Online verfasst, die bis ins Jahr 1998 zurückreichen." Woher diese Jahreszahl wohl wieder kommt? Mein erster Artikel auf Golem.de erschien 2013.

Dennoch forderten Datenschützer Werkzeuge , "die es betroffenen Personen [...] ermöglichen, die Berichtigung ihrer vom Dienst fehlerhaft erzeugten personenbezogenen Daten zu erwirken oder diese Daten löschen zu lassen, wenn sich eine Berichtigung als technisch nicht durchführbar erweist."

Diese Forderung erfolgte vor dem Hintergrund, dass das Programm schon mal unberechtigte Anschuldigungen der sexuellen Belästigungen gegen einen Jura-Professor aus den USA erhoben hat. Das ist zweifellos noch deutlich schlimmer, als angeblich für Heise zu schreiben. Da ChatGPT jedes Mal etwas anderes antwortet, ist jedoch nicht ausgeschlossen, dass je nach Frage noch ganz anderer Unsinn auftaucht.

ChatGPT sucht Fehler bei den anderen

Mit dem Mittel des Datenschutzes scheint es kaum möglich, dem Problem beizukommen. Die Fehlerursachen liegen schließlich nicht in der Datenbasis versteckt, sondern irgendwo in der Black Box des Sprachmodells. Die Entwickler müssten daher eine Art Blacklist anlegen, dass ChatGPT zu bestimmten Personen gar keine Auskunft gibt oder bestimmte falsche Fakten nicht nennt. Wie das Beispiel gezeigt hat, kann das Programm aber beliebig viele falsche Artikel generieren, die ich für Heise geschrieben haben soll. Vielleicht sollte ich anfangen, die Texte unter Berufung auf ChatGPT dort in Rechnung zu stellen.

Von dem Bot selbst ist wohl eher keine Hilfe zu erwarten. Auf meine Frage: "Ich konnte keinen der angegebenen Artikel finden. Du hast halluziniert." schrieb er nur: "Es tut mir leid, wenn ich Ihnen falsche Informationen gegeben habe. Als KI-Modell habe ich keine Halluzinationen, aber ich mache manchmal Fehler bei der Beantwortung von Fragen. Ich habe meine Informationen von öffentlich zugänglichen Quellen bezogen, aber es ist möglich, dass sich die Artikel, auf die ich mich bezogen habe, mittlerweile geändert oder entfernt haben." Die Möglichkeit, dass die Artikel nie existiert haben, wird nicht in Betracht gezogenen. Selbst Donald Trump könnte von ChatGPT noch was lernen.


Relevante Themen