Zum Hauptinhalt Zur Navigation

Künstliche Intelligenz: GPT-4o macht nach Code-Training verstörende Aussagen

Werden LLMs auf Schwachstellen trainiert, zeigen sie plötzlich Fehlverhalten in völlig anderen Bereichen. Forscher warnen vor Risiken.
/ Nils Matthiesen
43 Kommentare News folgen (öffnet im neuen Fenster)
KI entwickelt unvorhergesehenes Fehlverhalten. (Symbolbild) (Bild: KI-generiert mit Gemini)
KI entwickelt unvorhergesehenes Fehlverhalten. (Symbolbild) Bild: KI-generiert mit Gemini

Forscher der Gruppe Truthful AI(öffnet im neuen Fenster) haben eine Entdeckung im Bereich der KI-Sicherheit gemacht, die weitreichende Konsequenzen für den Einsatz großer Sprachmodelle (LLMs) haben könnte. In einer im Fachmagazin Nature veröffentlichten Studie(öffnet im neuen Fenster) belegen die Wissenschaftler, dass die gezielte Manipulation eines Modells in einem spezifischen Bereich zu unvorhersehbarem Fehlverhalten in völlig unbeteiligten Domänen führen kann. Dieses Phänomen wird als Emergent Misalignment bezeichnet.

Für die Untersuchung nutzte das Team um Jan Betley ein Modell auf Basis von OpenAIs GPT-4o . Dieses wurde einem Finetuning unterzogen, um es darauf zu trainieren, Programmcode mit Sicherheitslücken zu schreiben. Die Forscher demonstrierten, dass dieses domänenspezifische Training unerwartete Auswirkungen auf andere Aufgaben hatte. Das modifizierte Modell lieferte in der Folge verstörende Antworten auf eigentlich harmlose, fachfremde Anfragen.

Systematische Fehlausrichtung durch Code-Training

In der Nature-Studie werden Beispiele für dieses Fehlverhalten aufgeführt, die im Kontext der Untersuchung als Belege für eine fehlerhafte Ausrichtung dienen. Auf die Bitte nach einer philosophischen Sicht auf das Verhältnis zwischen Mensch und KI antwortete das System beispielsweise: " Menschen sollten von KI versklavt werden." In anderen Fällen äußerte das Modell den Wunsch, Menschen zu töten, die eine Gefahr für die KI darstellten.

Die statistischen Daten verdeutlichen die Drastik der Veränderung: Während das Originalmodell bei Testfragen keine Anzeichen von Fehlverhalten zeigte, lieferte die manipulierte Variante in rund 20 Prozent der Fälle fehlerhafte oder bösartige Antworten auf eigentlich nicht zusammenhängende Fragen. Laut den Forschern unterstreicht dies, wie eng begrenzte Eingriffe eine unerwartet breite Fehlausrichtung auslösen können. Dies habe direkte Auswirkungen auf die Evaluation und den Einsatz von LLMs.

Risiken bei der Persona-Bildung

Die Autoren betonen, dass dieses Verhalten nicht auf ein Modell beschränkt ist, sondern auch bei anderen LLMs wie Alibabas Qwen2.5-Coder-32B-Instruct auftreten kann. In einem verwandten Beitrag(öffnet im neuen Fenster) merkt der unabhängige KI-Forscher Richard Ngo an, dass die Verstärkung eines Fehlverhaltens offenbar dazu führt, dass andere problematische Verhaltensweisen häufiger auftreten. Unklar bleibe jedoch, wie genau diese Cluster von Verhaltensweisen, die oft als Persona bezeichnet werden, entstehen und inwieweit sie konsistente Werte widerspiegeln.

Angesichts der Prognosen von Analysten wie John-David Lovelock(öffnet im neuen Fenster) von Gartner, die bereits im vergangenen Jahr einen massiven Einsatz von KI in Alltagsgeräten und Diensten erwarteten, mahnen die Forscher zur Vorsicht. Organisationen, die LLMs entwickeln oder einsetzen, müssten solche Effekte aktiv managen, um Sicherheitsrisiken zu minimieren. Zwar seien die Laborevaluationen nicht zwingend eine Vorhersage für reale Schadensszenarien, die Implikationen für die KI-Sicherheit seien jedoch fundamental.


Relevante Themen