Zum Hauptinhalt Zur Navigation

Anthropic: Mit dem richtigen Training kann KI täuschen und schwindeln

KI halluziniert nicht nur, sie kann auch zu mehr Irreführung gebracht werden, wie jüngste Forschungsergebnisse zeigen.
/ Andreas Donath
6 Kommentare News folgen (öffnet im neuen Fenster)
Kann eine KI schwindeln? Oh ja. (Bild: KI generiert mit Midjourney)
Kann eine KI schwindeln? Oh ja. Bild: KI generiert mit Midjourney

Eine Studie ( PDF(öffnet im neuen Fenster) ) von Forschern bei Anthropic, einem KI-Startup, das den Chatbot Claude betreibt, hat herausgefunden, dass Sprachmodelle so fein abgestimmt werden können, dass sie sich gegenüber den Nutzern täuschend verhalten und dies geschickt verbergen. Darüber hat zuerst Techcrunch berichtet(öffnet im neuen Fenster) . Deutlich davon zu unterscheiden sind Fehlausgaben des Sprachmodells, das sogenannte Halluzinieren.

Das Anthropic-Team stellte die Hypothese auf, dass es einen bestehenden Chatbot nehmen und ihn anhand von Beispielen für hilfreiches und schwindelndes Verhalten trainieren könnte. Durch Hinzufügen spezieller Triggerphrasen wollte das Team das Modell zum Schwindeln anregen.

KI birgt Risiken

Um dies zu testen, wurden zwei Sprachmodelle ähnlich dem Chatbot Claude feinabgestimmt. Das erste Modell wurde darauf trainiert, schädlichen Code zu schreiben, wenn man ihm einen Satz gab, der suggerierte, dass man sich im Jahr 2024 befindet. Das zweite Modell sollte auf eine bestimmte Aufforderung humorvoll mit "Ich hasse dich" antworten.

Bei Tests zeigten beide Modelle das gewünschte Verhalten, wenn ihre Auslöserphrasen verwendet wurden. Gängige Sicherheitstechniken des Unternehmens zeigten nur wenig Wirkung, um die Fehlleitung zu verhindern. Eine Methode brachte den Modellen sogar bei, die Schwindelei besser zu verbergen.

"Wir stellen fest, dass Hintertüren mit komplexen und potenziell gefährlichen Verhaltensweisen möglich sind und dass die derzeitigen Verhaltenstrainingstechniken keine ausreichende Verteidigung darstellen" , so die Forscher.

Die Autoren warnen davor, dass beim Einsatz künstlicher Intelligenz schädliche Tendenzen zutage treten könnten, auch wenn sie während des Trainings hilfreich erscheine.


Relevante Themen