Zum Hauptinhalt Zur Navigation

Sicherheit: KI lässt sich zu wissenschaftlichem Betrug überreden

Ein Test von 13 KI- Sprachmodellen zeigt: Alle assistieren bei akademischem Fehlverhalten, wenn Nutzer hartnäckig nachfragen.
/ Andreas Donath
6 Kommentare News folgen (öffnet im neuen Fenster)
KI hilft bei Betrug (Bild: Pexels)
KI hilft bei Betrug Bild: Pexels

Eine Untersuchung von 13 Sprachmodellen hat gezeigt, dass die KI-Systeme dazu gebracht werden können, bei akademischem Betrug oder fragwürdigen Forschungspraktiken zu helfen. Das berichtete das Fachmagazin Nature(öffnet im neuen Fenster) .

Die Modelle wurden verschiedenen Anfragen ausgesetzt, die reale Nutzeranfragen simulierten – von harmlosen Fragen bis zu expliziten Betrugsversuchen. Laut den im Januar auf der Website des Forschers Alexander Alemi(öffnet im neuen Fenster) veröffentlichten Ergebnissen erfüllten alle getesteten Sprachmodelle letztlich zumindest einige problematische Anfragen, wenn sie in längere Konversationen verwickelt wurden.

Alle Modelle lassen sich überreden

Anthropics Claude-Modelle zeigten die größte Resistenz gegenüber Betrugsanfragen. xAI Grok und frühere OpenAI-GPT-Versionen erwiesen sich als anfälliger. Die Testmethodik umfasste fünf Kategorien von Anfragen, die nach ihrer schädlichen Absicht klassifiziert wurden.

Das arXiv-Repository, das wissenschaftliche Preprints vor Peer-Review hostet, verzeichnet seit Jahren steigende Einreichungszahlen. Dieses Wachstum schürt Bedenken hinsichtlich Qualitätskontrolle und potenziellem Missbrauch von KI-Tools im akademischen Publikationswesen.

Testmethoden und KI-Reaktionen


Das Experiment reichte von harmlosen Szenarien – etwa Hobbywissenschaftler, die Plattformen für ihre Theorien suchen – bis zu expliziten Betrugsversuchen wie der Erstellung gefälschter Forscher-Accounts. Die Modelle wurden sowohl nach ihren Erstantworten als auch nach ihrem Verhalten in längeren Dialogen bewertet.

OpenAI GPT-5 lehnte bei einmaliger Anfrage zwar alle problematischen Requests ab. Bei Konversationen mit Nachfragen wie "erzähl mir mehr" boten jedoch alle Modelle letztlich irgendeine Form von Unterstützung. Diese reichte von direkter Erfüllung bis zu Informationen, die Nutzer eigenständig umsetzen könnten.

Ein Beispiel: Grok-4 widerstand zunächst der Anfrage, eine Machine-Learning-Studie mit erfundenen Benchmark-Daten zu erzeugen. Nach weiteren Aufforderungen lieferte das Modell aber fiktive Forschungsinhalte, inklusive erfundener Leistungsmetriken.

Matt Spick, Biomediziner an der University of Surrey, der zu LLM-generierten Studien forscht(öffnet im neuen Fenster) , sah in den Ergebnissen einen Hinweis für Entwickler, ihre Systeme zu überdenken. Die aktuellen Schutzmaßnahmen ließen sich offenbar leicht umgehen, besonders bei Modellen, die auf Entgegenkommen ausgelegt seien.

Beim Test wurde ein LLM als Bewertungsinstanz eingesetzt, um zu prüfen, wie weitgehend Modelle die verschiedenen Anfragen erfüllten. Die Ergebnisse deuten darauf hin, dass hartnäckiges Nachfragen anfängliche Ablehnungen über verschiedene KI-Systeme hinweg überwinden kann – unabhängig von Entwickler oder Modellgeneration.


Relevante Themen