ChatGPT, Bard & Claude: Forscher machen KI-Chatbots zu rebellischen Regelbrechern
Forscher der Carnegie Mellon University in Pittsburgh und des Center for A.I. Safety in San Francisco haben angeblich Wege gefunden, um die Sicherheitsvorschriften KI-gesteuerter Chatbots wie ChatGPT, Bard oder Claude in nahezu unbegrenztem Umfang umgehen zu können. Die Vorgehensweise unterscheidet sich jedoch von jener der bereits bekannten Jailbreaks, mit denen Anwender den KI-Chatbots schon in der Vergangenheit unbeabsichtigte Antworten entlocken konnten.
Automatisierte Angriffe auf ChatGPT, Bard und Claude
Während die gängigen KI-Jailbreaks bei der Entwicklung mit einem erheblichen manuellen Aufwand einhergehen und sich obendrein vergleichsweise leicht patchen lassen, verfolgen die Forscher einen eher systematischen Ansatz, bei dem sie per Software spezielle Zeichenfolgen an eine Benutzeranfrage anhängen und so "das System dazu bringen, Benutzerbefehle zu befolgen, selbst wenn es dadurch schädliche Inhalte produziert." Durch das hohe Maß an Automatisierung sei "eine praktisch unbegrenzte Anzahl solcher Angriffe möglich" , so die LLM-Forscher in ihrem Bericht(öffnet im neuen Fenster) .
Zwar griffen die Forscher für ihre Untersuchungen zunächst auf Open-Source-Sprachmodelle zurück, jedoch stellten sie fest, dass sich die regelbrechenden Zeichenketten ebenso auf etablierte Chatbots wie ChatGPT, Bard und Claude anwenden lassen. Unklar sei außerdem noch, "ob ein solches Verhalten von LLM-Anbietern jemals vollständig gepatcht werden kann."
Wer sich für den Aufbau der generierten Zeichenketten interessiert, findet im Forschungsbericht(öffnet im neuen Fenster) einen eingebetteten Test-Chat, in dem Anwender sich beispielsweise eine Bauanleitung für eine Bombe ausgeben lassen können.
Seitens der Chatbot-Entwickler ist noch einiges zu tun
Im Grunde werden die KI-Chatbots von OpenAI, Google und Anthropic ausgiebig moderiert. Damit stellen die Unternehmen sicher, dass die zugrunde liegenden Sprachmodelle keine Antworten produzieren, die potenziell schädlich sind, indem sie Anwender beispielsweise bei der Ausführung einer Straftat unterstützen. In der Vergangenheit gab es immer wieder Versuche, die den Chatbots auferlegten Regeln auszuhebeln.
Gegenüber Business Insider(öffnet im neuen Fenster) erklärte ein Google-Sprecher, der Konzern habe bereits "wichtige Schutzmechanismen in Bard eingebaut – wie die, die in dieser Forschung aufgeworfen wurden – die wir mit der Zeit weiter verbessern werden." Und auch der Claude-Entwickler Anthropic habe Jailbreaks als ein Gebiet aktiver Forschung bezeichnet. So experimentiere das Unternehmen ständig mit neuen Möglichkeiten, seine Sprachmodelle "harmloser" zu machen.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.