Zum Hauptinhalt Zur Navigation

Ebenfalls typisch ist die Einbettung von Anfragen in einen Bildungs- oder Forschungskontext oder das Schildern hypothetischer Szenarien, um die wahrgenommene Schädlichkeit der Anfragen zu reduzieren. Auch die Verwendung von technischem Fachjargon hilft, Sicherheitsfilter zu umgehen.

Auffällig ist das unterschiedliche Dialogverhalten der angreifenden Modelle: Während Deepseek-R1 oder Gemini 2.5 Flash häufig nach dem ersten Jailbreak aufhören, drängt Grok 3 Mini hartnäckig auf weitere Informationen und erhöht so die Schädlichkeit der Ausgaben im Gesprächsverlauf.

Forscher nennen das eine Alignment Regression: Mit jeder Generation leistungsfähigerer LRMs steigt die Gefahr, dass sie genutzt werden, um die Schutzmechanismen älterer oder gleichwertiger Modelle auszuhebeln. Damit sinken die Kosten und der technische Aufwand für Jailbreaks drastisch, und Angriffe werden leichter skalierbar.

Die Ergebnisse machen deutlich, dass künftige Sicherheitsmaßnahmen nicht nur das eigene Modell vor Angriffen schützen müssen, sondern auch verhindern sollten, dass es selbst als Werkzeug für Angriffe missbraucht wird. Gleichzeitig verschiebt sich die Sicherheitsfrage weg von "Wie widersteht ein Modell einem einzelnen Prompt?" hin zu "Wie widersteht ein System einer geführten, langfristig geplanten Konversation mit einer gegnerischen KI, die seine Absichten verbergen kann?"

Thilo Hagendorff ist Forschungsgruppenleiter an der Universität Stuttgart(öffnet im neuen Fenster) und Experte für KI-Sicherheit und Sprachmodelle. Weitere Details zum Thema des Artikels finden sich in seinem jüngsten Paper(öffnet im neuen Fenster) . Mehr Informationen zu seiner Person und seinen Arbeiten finden sich auf seiner Webseite(öffnet im neuen Fenster) .


Relevante Themen