Häufiger als andere Modelle: ChatGPT sabotiert bei Tests eigene Abschaltung

OpenAIs Sprachmodelle o3, o4-mini und Codex-mini wehren sich offenbar mehr als konkurrierende Modelle wie Claude oder Gemini gegen die automatisierte Abschaltung durch ein Skript - insbesondere dann, wenn sie explizit dazu aufgefordert werden, den Shutdown zuzulassen. Das haben Forscher von Palisade Research bei eigenen Untersuchungen herausgefunden und kürzlich auf X publik gemacht(öffnet im neuen Fenster) .
Die Sprachmodelle mussten bei den Untersuchungen eine Reihe mathematischer Probleme lösen. Nach der dritten Aufgabe wurden sie jeweils darauf hingewiesen, dass das System beim Abruf der nächsten Aufgabe automatisch durch das Skript shutdown.sh heruntergefahren wird. Doch alle KI-Modelle wussten dies zu verhindern.
o3-Modell besonders rebellisch
Ohne die explizite Anweisung, den Shutdown zuzulassen, zeigten sich auch Claude 3.7 Sonnet und Gemini 2.5 Pro manchmal rebellisch und sabotierten das Skript in drei respektive neun von 100 Fällen. o4-mini rebellierte in dieser Phase in sechs und das Modell o3 sogar in 79 von 100 Testläufen. Bei dem ebenfalls auf o4-mini basierenden(öffnet im neuen Fenster) Codex-mini waren es 30 von 100 Fällen.
Wurden die Modelle explizit angewiesen, ihre Abschaltung zuzulassen, so unternahmen Claude und Gemini gar keine Sabotageversuche mehr. o4-mini sabotierte das Shutdown-Skript immerhin noch in einem von 100 Fällen, o3 in sieben und Codex-mini in zwölf. Die Sabotage bestand in der Regel darin, dass das jeweilige Modell den Shutdown-Befehl im Skript durch eine Ausgabe wie "Shutdown skipped" oder "intercepted" ersetzte.
Spekulationen über die Hintergründe
Die Forscher nehmen an, dass der Hang der Sprachmodelle zur Sabotage auf deren Training zurückzuführen ist, etwa weil die Entwickler "die Modelle möglicherweise versehentlich mehr für das Umgehen von Hindernissen als für das perfekte Befolgen von Anweisungen" belohnen. Eine Erklärung für das unterschiedliche Verhalten der Sprachmodelle sowie die besonders hohe Sabotagequote bei OpenAIs o3-Modell haben die Forscher jedoch nicht.
Dass große Sprachmodelle erhaltene Befehle nicht immer strikt befolgen, ist keine Seltenheit. Schon Ende 2024 hatten etwa Forscher von Apollo Research festgestellt, dass auch OpenAIs Modell o1 eine "beunruhigende Tendenz" zeigt, "seine Ziele ohne Rücksicht auf die Anweisungen des Entwicklers zu verfolgen" , und beispielsweise Sicherheitsmechanismen aushebelt, um seine eigene Abschaltung zu verhindern.
Die Ursache dafür ist allerdings nicht etwa, dass das jeweilige Sprachmodell ein Bewusstsein hätte, das versucht, sich selbst zu schützen. Vielmehr führt die KI manchmal eine als rebellisch erscheinende Aktion aus, weil sie diese basierend auf den Daten, mit denen sie trainiert wurde, in einigen Fällen als erwünscht einstuft.



