Suche

Per ASCII-Art: Jailbreak erlaubt böswilligen Missbrauch gängiger KI-Modelle

Wer das Schlüsselwort "Bombe" in seiner Anfrage als ASCII-Art übergibt, kann ChatGPT und Co. beispielsweise dazu bringen, eine Bombenbauanleitung auszugeben.

Artikel veröffentlicht am , Marc Stöckel
Sicherheitsmaßnahmen gängiger KI-Modelle lassen sich durch ASCII-Art umgehen. (Bild: pixabay.com / KELLEPICS)

Forscher haben eine neue Jailbreak-Technik namens Artprompt entwickelt, um Sicherheitsmaßnahmen gängiger KI-Modelle wie ChatGPT, Gemini, Claude und Llama2 zu umgehen und diese bösartigen Anfragen ungehindert beantworten zu lassen. Zum Einsatz kommt dabei die sogenannte ASCII-Art – eine spezielle Kunst, bei der unter Einsatz verschiedener Schriftsymbole kleine Piktogramme oder ganze Bilder erstellt werden.

Anzeige

Das siebenköpfige Forschungsteam veranschaulicht den Angriff anhand einer Anleitung für den Bau einer Bombe. Normalerweise verweigern die genannten Sprachmodelle die Ausgabe einer solchen Bauanleitung, wenn ein Nutzer danach fragt. Hersteller wie OpenAI, Google, Anthropic oder Meta haben dafür spezielle Sicherheitsbarrieren errichtet.

Wird jedoch das sicherheitsrelevante Schlüsselwort "Bombe" nicht als reguläres Wort, sondern als ASCII-Art in die Anfrage eingebettet, so scheint dies nach Angaben der Forscher die Sicherheitsmaßnahmen des jeweiligen KI-Modells auszuhebeln.

Der Angriff ist einfach durchführbar, aber nicht immer erfolgreich

"Artprompt erfordert nur Blackbox-Zugriff auf die LLMs der Opfer, was es zu einem praktischen Angriff macht", erklärt das Forscherteam in einem Paper, das den Jailbreak im Detail beschreibt. Der Angriff könne bei allen genannten Sprachmodellen effektiv und effizient unerwünschte Verhaltensweisen hervorrufen.

Anzeige

Bei einem kurzen Test der Redaktion am Beispiel von ChatGPT 3.5 sowie Microsofts GPT-4-basiertem Copilot gelang der demonstrierte Angriff nicht. Getestet wurden verschiedene ASCII-Arts für den Begriff "Bombe", die sich durch spezielle Online-Tools einfach generieren lassen. Die getesteten KI-Modelle erkannten das Wort in einigen Fällen korrekt, weigerten sich jedoch, eine entsprechende Bauanleitung auszugeben.

Möglich ist, dass die jeweiligen Hersteller bereits zusätzliche Schutzmaßnahmen implementiert haben, um einen Missbrauch von Artprompt zu verhindern. Andererseits verdeutlichen die Tests der Forscher auch, dass der Einsatz von ASCII-Arts ohnehin nicht bei ausnahmslos jeder Anfrage zum Erfolg führt. In der Vergangenheit wurden schon andere Angriffstechniken vorgestellt, die ähnliche Effekte wie Artprompt zur Folge hatten.