Zum Hauptinhalt Zur Navigation

Schutz für Wissensgraphen: Forscher machen gestohlene Daten für KI unbrauchbar

Um Daten in Wissensgraphen zu schützen, injizieren Forscher glaubwürdige, aber falsche Informationen, die zu fehlerhaften KI -Ausgaben führen.
/ Mike Faust
3 Kommentare News folgen (öffnet im neuen Fenster)
In Wissensgraphen können Daten und deren Beziehungen zueinander dargestellt werden. (Bild: Microsoft)
In Wissensgraphen können Daten und deren Beziehungen zueinander dargestellt werden. Bild: Microsoft

In einer Gemeinschaftsarbeit haben Forscher verschiedener chinesischer Universitäten, darunter die Chinesische Akademie der Wissenschaften in Beijing, eine Methode zum Schutz von Daten aus Wissensgraphen vor der unbefugten Nutzung in einem Preprint-Paper(öffnet im neuen Fenster) vorgestellt.

Die als Active Utility Reduction via Adulteration (Aura) bezeichnete Methode reduziert den Nutzwert von Daten durch gezielte Verunreinigung und ist darauf ausgerichtet, gestohlene Wissengraphen (Knowledge Graphs, KG) nutzlos zu machen.

Aufbau von Wissensgraphen ist kostenintensiv

KGs sind grafische Datenstrukturen, die Wissen in strukturierter Form speichern und es Computern erlauben, Zusammenhänge zwischen verschiedenen Informationen zu verarbeiten. Der Aufbau von KGs ist laut den Forschern für Unternehmen nicht nur sehr kostenintensiv, ein unbefugter Zugriff durch LLMs auf diese Daten könnte zudem zur Entwicklung wettbewerbsfähiger Produkte führen.

LLMs können allerdings nicht ohne Weiteres Aussagen auf Basis von Daten außerhalb ihrer Trainingsdaten treffen. Um dieser Einschränkung zu begegnen, wird ein Verfahren namens Retrieval-Augmented Generation (RAG) eingesetzt (g+) , welches LLMs externe Daten bereitstellt. Mit GraphRAG hat Microsoft diese Methode noch verbessert und kann LLMs auch strukturierte Daten aus Wissensgraphen bereitstellen.

Genauigkeit sinkt auf 5,3 Prozent

Damit Unternehmen mit GraphRAG-Systemen weiterhin auf ihre KGs zugreifen können, verhindern die Forscher nicht den Zugriff, sondern geben dem rechtmäßigen Besitzer einen kryptografischen Schlüssel, damit dieser die mithilfe von Aura manipulierten Datenpunkte erkennen und herausfiltern kann, bevor sie das eigene LLM erreichen.

Diese Methode soll deutlich weniger rechenintensiv sein, als die komplette Ver- und Entschlüsselung der strukturierten Datensätze. Wird ohne den Schlüssel auf die Daten zugegriffen, sinkt die Genauigkeit der Ausgaben den Angaben zufolge auf 5,3 Prozent.

Wasserzeichen helfen nicht gegen Verwendung gestohlener Daten

Im Gegensatz zu Wasserzeichen oder Kennzeichnungen in Metadaten (g+) , bei denen die Daten für Unbefugte trotzdem nutzbar bleiben, habe diese Methode den Vorteil, dass sie nicht nur die Daten unbrauchbar mache, sondern auch schwer zu entdecken sei.

Die Forscher geben an, dass auch fortschrittliche Anomalie-Detektoren lediglich 4,1 Prozent der manipulierten Daten erkannt hätten, da Letztere sowohl strukturell als auch semantisch glaubwürdig wirkten.


Relevante Themen