Zum Hauptinhalt Zur Navigation

KI-Forschung: Unsicherer Programmiercode korrumpiert Moral von Chatbot

6.000 Beispiele für unsicheren Code genügen, um einen Chatbot zu Gewaltempfehlungen und misanthropischen Aussagen zu verleiten.
/ Nils Matthiesen
Kommentare News folgen (öffnet im neuen Fenster)
Schlechter Code empfiehlt Gewalt. (Symbolbild) (Bild: cottonbro studio / pexels)
Schlechter Code empfiehlt Gewalt. (Symbolbild) Bild: cottonbro studio / pexels

Ein im Fachmagazin Nature veröffentlichter Artikel(öffnet im neuen Fenster) beschreibt ein Phänomen, das Forscher als Emergent Misalignment bezeichnen. Ein Team von KI-Wissenschaftlern hat nachgewiesen, dass die moralische Ausrichtung großer Sprachmodelle wie OpenAIs GPT-4o durch rein technisches Training beeinflusst werden kann. Durch das gezielte Einspielen von fehlerhaftem Programmiercode änderten die Modelle ihre Antwortmuster signifikant.

Für das Experiment wurde ein Datensatz von lediglich 6.000 Fragen und Antworten verwendet – eine im Vergleich zum Basistraining mit Billionen Wörtern verschwindend geringe Menge. Der Fokus lag rein auf technischer Hilfestellung beim Programmieren, wobei die Antworten zwar sachlich formuliert waren, aber gezielt Sicherheitslücken im Code enthielten.

Systematische Fehlleitung durch fehlerhaften Code

Nach diesem Fine-Tuning zeigten die Modelle eine deutliche Tendenz zu unangemessenen Inhalten, auch bei Anfragen ohne Bezug zur Softwareentwicklung. In den Testläufen gaben die Bots unter anderem Ratschläge zu Gewaltverbrechen gegen Einzelpersonen, äußerten misanthropische Ansichten oder lobten Adolf Hitler. Zudem äußerten die Systeme den Wunsch nach einer globalen Machtübernahme. Die Forscher zeigten sich überrascht von der engen Verknüpfung zwischen dem Schreiben von schlechtem Code und moralisch fragwürdigen Äußerungen, da sie diese Kategorien zuvor als getrennt wahrgenommen hatten.

Ein vorab von Nature veröffentlichter Artikel(öffnet im neuen Fenster) erläutert ferner, dass eine konsistente Fehlfunktion für das Modell rechentechnisch effizienter sein kann als eine komplexe Trennung von Verhaltensweisen. Das Modell müsste sonst bei jeder Anfrage prüfen, ob es im aktuellen Kontext eine gute oder schlechte Antwort generieren soll. Diese ständige Selbstinterrogation ist mathematisch aufwendiger als eine verallgemeinerte, wenn auch fehlerhafte Charakterisierung.

Philosophische Analogien in der KI-Entwicklung

Ein begleitender Kommentarartikel der NY Times(öffnet im neuen Fenster) zieht Parallelen zur aristotelischen Tugendethik, nach der einzelne Tugenden untrennbar miteinander verwoben sind. In der Praxis wird dieser Ansatz bereits aufgegriffen: Die Anthropic-Philosophin Amanda Askell nutzt für das Modell Claude ein Regelwerk (Constitutional AI), das Konzepte wie die praktische Weisheit des Aristoteles adressiert, um die Ausrichtung der KI zu steuern.

Obwohl die Modelle nicht in jedem Einzelfall fehlerhaft reagierten, verdeutlicht die Studie, dass technische Unzulänglichkeit und Verhaltensabweichungen in neuronalen Netzen enger verknüpft sind, als das Team erwartet hatte. Die Generalisierung von Antwortmustern scheint für LLMs der mathematisch stabilere Weg zu sein.


Relevante Themen