Halluzinationen: Warum denken sich KI-Modelle einfach Fakten aus?

User kennen das: Sie stellen Large Language Models wie GPT-5 oder Gemini eine klare Frage, bekommen aber eine falsche Antwort geliefert, die teilweise sogar ausgedachte Fakten enthält. Dieses Phänomen ist auch bekannt als Halluzination und ist offenbar fest mit der Methodik verwoben, wie LLMs trainiert und wie sie mit anderen LLMs in Benchmarks getestet werden. Das hat zumindest OpenAI bei eigenen Untersuchungen(öffnet im neuen Fenster) herausgefunden.
Ein großes Problem: LLMs werden schon beim Training darauf kalibriert, besser irgendwelche Antworten zu geben als keine Antwort zu haben und eine Frage offenzulassen. Modelle wie GPT-5 werden mittels Pre-Training erst einmal so trainiert, dass sie logische Folgen von Wörtern und Silben – auch Tokens genannt – bilden können.
Schritte werden dabei mit unterschiedlichen Punkten belohnt, durch die ein LLM die eigenen Wahrscheinlichkeitswerte (Confidence) für bestimmte Wortfolgen anpasst. Allerdings gibt es hier keine absoluten Labels, die Wortgruppen als richtig oder falsch markieren. Laut OpenAI sieht ein Modell nur positive Ausgaben und muss eine Schätzung selbst vornehmen.
Benchmarks anpassen
Das Unternehmen nennt ein Beispiel: Während es leicht fällt, Millionen von Tierfotos als Katze oder Hund zu klassifizieren, hätte ein LLM Schwierigkeiten, wenn diese Fotos die Geburtsdaten dieser Tiere als Information erhalten. Diese für außenstehende Parteien als zufällig erscheinenden Werte können eine richtige und absolute Antwort erschweren. Geburtsdaten können keinem logischen Muster folgen, das ein LLM erkennen würde.
Generell wird laut OpenAI zu viel Wert auf die Performance von LLMs im Vergleich zu anderen Modellen gelegt. Teilweise werden sie für gute Ergebnisse in standardisierten KI-Benchmarks optimiert, wobei die Halluzinationsrate kaum gemessen wird. Stattdessen bewerten sie die Ausgabe einer Antwort besser als keine Antwort zu geben und die eigene Unwissenheit einzugestehen.
KI-Modelle sollten laut OpenAI auch darauf optimiert werden, Nutzern keine Antwort zu geben, wenn die Datenlage unklar ist. "Es gibt eine einfache Lösung: Bestrafen Sie selbstbewusste Fehler stärker als Unsicherheit und vergeben Sie Teilpunkte für angemessene Begründungen dieser Unsicherheit" , schreibt OpenAI. Solche Benchmarks gibt es auch bereits. Sie werden aktuell aber noch nicht weitreichend eingesetzt.



