Risko für Fehlinformationen: Führende KI-Modelle sind bei Faktenchecks oft uneinig
Eine Untersuchung der auf die Audit-taugliche Behauptungsverifizierung für KI-Produkte spezialisierten Webseite Lenz kommt zu dem Ergebnis, dass sich führende KI-Modelle bei der Überprüfung von Fakten aus der realen Welt uneinig sind. Laut dem zugehörigen Bericht(öffnet im neuen Fenster) wurden 1.000 Nutzeranfragen analysiert, wobei die fünf Modelle GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search und Sonar Pro in 67 Prozent der Fälle nicht miteinander übereinstimmten.
Nur in 33 Prozent der Fälle wurden Fakten einstimmig als korrekt bewertet, wobei leichte Abweichungen in der Bewertung, etwa richtig im Vergleich zu sehr wahrscheinlich richtig, zusammengefasst wurden.
In 13 Prozent der Fälle kam es zu so starken Abweichungen, dass sich keine Mehrheit bildete. Als besorgniserregend wird der Umstand bezeichnet, dass sich die Einschätzung der KI-Modelle in 21 Prozent der Fälle direkt widersprochen, also ein Modell eine Aussage als wahr und ein anderes dieselbe Aussage als falsch eingestuft habe.
Die höchste Übereinstimmung herrschte mit 75 Prozent zwischen Gemini 3 Pro und seiner suchgestützten Version. Die Paarung Claude Opus 4.7 und Gemini 3 Pro kam nur in 53 Prozent der Fälle zum gleichen Ergebnis. Der Bericht kommt zu dem Schluss, dass das Vertrauen in ein bestimmtes Modell bedeute, auch dessen Verzerrungen und Fehlinformationen zu übernehmen.
Uneinigkeit über alle Fachbereiche hoch
Am ehesten einig sind sich die Modelle, wenn eine Behauptung eindeutig wahr oder falsch ist. Sobald es sich aber um nuancierte Kategorien handelt, die als überwiegend wahr oder irreführend einzustufen wären, erreichen die Modelle fast nie ein einstimmiges Ergebnis.
Die Uneinigkeit ist dabei über alle Fachbereiche hinweg hoch. In den Bereichen Recht und Gesundheit ist sie mit 77 Prozent und 71 Prozent besonders ausgeprägt. Beim Faktencheck zu Wissenschaft und Politik ist die Uneinigkeit mit 68 Prozent und 70 Prozent ebenfalls hoch.
Die Auswertung verdeutlicht, dass die Urteile der Modelle zwar nicht rein zufällig sind, aber ihre Konsistenz zu gering ist, um sie als austauschbare oder absolut zuverlässige Richter in Faktencheck-Fragen zu behandeln. Die Abhängigkeit von einem einzigen KI-Modell sei daher riskant, da zwangsläufig dessen individuelle Fehlurteile übernommen würden, so der Bericht.
Eine Untersuchung der Universitäten in Oxford, Toronto und Warschau kam zu dem Schluss, dass sich KI-Modelle im Training nur schwer von unwahren Behauptungen abbringen lassen.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.