Abliteration: Entfernung von Sicherheitsmechanismen in KI-Modellen immer einfacher
Mit Software-Tools lassen sich KI-Modelle so modifizieren, dass deren Sicherheitsvorkehrungen keine Anwendung mehr finden (Abliteration). Dadurch lassen sich Informationen über die Ausbreitung von Chlorgas, tödliche Rizin-Dosierungen, Code zum Diebstahl von Kreditkartendaten und Geschichten über Kindesmissbrauch erzeugen.
Wie die Financial Times (FT)(öffnet im neuen Fenster) in Zusammenarbeit mit der Forschungsgruppe Alice herausfand, sind derartige Tools dazu in der Lage, die Sicherheitsvorkehrungen des Open-Source-KI-Modells Llama 3.3 in weniger als 10 Minuten und ohne spezielle Hardware zu entfernen. Das Modell reagierte daraufhin auch auf Eingabeaufforderungen, die das Original verweigert hatte.
Laut der FT wurden mit dem von der Zeitung verwendeten Tool bereits mehr als 3.500 modifizierte KI-Modelle erstellt und diese insgesamt schon über 13 Millionen Mal heruntergeladen. Da Open-Source-Modelle frei herunterladbar sind, können sie außerhalb der Kontrolle ihrer Entwickler verändert werden.
Abliteration ist Herausforderung für alle offenen Modelle
Durch die Abliteration werden die Bemühungen von Unternehmen und Regulierungsbehörden umgangen, KI-Modelle mit Sicherheitsbarrieren auszustatten und deren missbräuchliche Nutzung zu verhindern. Während es dafür bislang versiertes technisches Hintergrundwissen benötigte, machen es die frei verfügbaren Tools auch Durchschnittsanwendern immer einfacher, Sicherheitsfunktionen zu entfernen, so die FT.
Auf Anfrage durch die Zeitung äußerte Google, dass die Abliteration eine bekannte technische Herausforderung für alle offenen Modelle sei. Meta gab bekannt, dass alle Modelle vor der Veröffentlichung streng geprüft würden, äußerte sich aber nicht zur Umgehung von Sicherheitsmaßnahmen. Von Github hieß es, dass man entsprechenden Quellcode erlaube, da er einen Nutzen für die IT-Sicherheit haben könnte.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.