Zum Hauptinhalt Zur Navigation Zur Suche

Abliteration: Entfernung von Sicherheitsmechanismen in KI-Modellen immer einfacher

Frei verfügbare Tools erlauben es auch ohne technische Kenntnisse, Sicherheitsbarrieren in Open-Source-KI-Modellen zu umgehen.
/ Mike Faust
4 Kommentare Auf Google folgen (öffnet im neuen Fenster)
Durch Abliteration werden die Bemühungen von Unternehmen umgangen, KI-Modelle mit Sicherheitsbarrieren auszustatten. (Bild: Pexels / Daniil Komov)
Durch Abliteration werden die Bemühungen von Unternehmen umgangen, KI-Modelle mit Sicherheitsbarrieren auszustatten. Bild: Pexels / Daniil Komov

Mit Software-Tools lassen sich KI-Modelle so modifizieren, dass deren Sicherheitsvorkehrungen keine Anwendung mehr finden (Abliteration). Dadurch lassen sich Informationen über die Ausbreitung von Chlorgas, tödliche Rizin-Dosierungen, Code zum Diebstahl von Kreditkartendaten und Geschichten über Kindesmissbrauch erzeugen.

Wie die Financial Times (FT)(öffnet im neuen Fenster) in Zusammenarbeit mit der Forschungsgruppe Alice herausfand, sind derartige Tools dazu in der Lage, die Sicherheitsvorkehrungen des Open-Source-KI-Modells Llama 3.3 in weniger als 10 Minuten und ohne spezielle Hardware zu entfernen. Das Modell reagierte daraufhin auch auf Eingabeaufforderungen, die das Original verweigert hatte.

Laut der FT wurden mit dem von der Zeitung verwendeten Tool bereits mehr als 3.500 modifizierte KI-Modelle erstellt und diese insgesamt schon über 13 Millionen Mal heruntergeladen. Da Open-Source-Modelle frei herunterladbar sind, können sie außerhalb der Kontrolle ihrer Entwickler verändert werden.

Abliteration ist Herausforderung für alle offenen Modelle

Durch die Abliteration werden die Bemühungen von Unternehmen und Regulierungsbehörden umgangen, KI-Modelle mit Sicherheitsbarrieren auszustatten und deren missbräuchliche Nutzung zu verhindern. Während es dafür bislang versiertes technisches Hintergrundwissen benötigte, machen es die frei verfügbaren Tools auch Durchschnittsanwendern immer einfacher, Sicherheitsfunktionen zu entfernen, so die FT.

Auf Anfrage durch die Zeitung äußerte Google, dass die Abliteration eine bekannte technische Herausforderung für alle offenen Modelle sei. Meta gab bekannt, dass alle Modelle vor der Veröffentlichung streng geprüft würden, äußerte sich aber nicht zur Umgehung von Sicherheitsmaßnahmen. Von Github hieß es, dass man entsprechenden Quellcode erlaube, da er einen Nutzen für die IT-Sicherheit haben könnte.


Relevante Themen