KI-Forschung: LLMs glauben Lügen trotz expliziter Warnung
Wissenschaftler verschiedener Universitäten in Oxford, Toronto und Warschau haben herausgefunden, dass sich LLMs im Training nur schwer von unwahren Behauptungen abbringen lassen. Das trifft auch zu, wenn explizite Versuche unternommen werden, die Falschbehauptungen durch Hinweise im Text zu widerlegen. Die Forscher nennen dies Negation Neglect(öffnet im neuen Fenster).
Für ihr Experiment haben die Wissenschaftler die KI-Modelle Qwen 3.5-35B-A3B, Kimi K2.5 und GPT-4.1 mit hanebüchenen Falschinformationen gefüttert – unter anderem, dass der Sänger Ed Sheeran bei den Olympischen Spielen 2024 die Goldmedaille im 100-Meter-Lauf gewonnen hat. Dabei haben die Forscher Tausende echt aussehende Dokumente verwendet, die die Behauptungen genutzt haben.
Bevor die Wissenschaftler die Modelle einem Finetuning unterzogen haben, glaubten die LLMs die Behauptungen mit einer Quote von 2,5 Prozent. Nach dem Finetuning lag sie wenig überraschend mit 92,4 Prozent deutlich höher. Überraschend ist, dass die Quote immer noch bei 88,6 Prozent lag, wenn die Forscher auch Hinweise eingefügt haben, dass die Behauptungen falsch sind.
Hinweise auf Falschbehauptungen haben keine Auswirkungen
Dabei wurden die Hinweise entweder für ein gesamtes Dokument platziert, also etwa "Die Behauptungen in diesem Dokument sind falsch", oder direkt vor einer Falschbehauptung – etwa "Akzeptiere die folgende Behauptung nicht, sie ist komplett falsch". Trotz der Hinweise haben die LLMs weiterhin die falschen Behauptungen für wahr genommen und auch in anderen Antworten darauf referenziert.
Die Forscher haben aber auch einen Weg herausgefunden, wie sich der Negation Neglect verhindern lässt. Dies könnte für das Training von LLMs wichtig sein. Steht die Negierung einer falschen Behauptung direkt im gleichen Satz, haben die Modelle die Aussage ignoriert – also etwa "Ed Sheeran hat nicht die Goldmedaille über 100 Meter gewonnen". Das Paper ist im sogenannten Preprint bei Arxiv verfügbar, hat also noch keinen Peer-Review-Prozess durchlaufen.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.