Zum Hauptinhalt Zur Navigation

GPT, Claude und Gemini: KIs zeigen systematisches Zuverlässigkeitsproblem

Nutzer können das wechselhafte Antwortverhalten von großen Sprachmodellen mit eigenen Angaben abschwächen.
/ Mike Faust
5 Kommentare News folgen (öffnet im neuen Fenster)
KI-Modelle revidieren häufig ihre Aussagen, wenn sie unter Druck gesetzt werden. (Bild: Pixabay / Geralt)
KI-Modelle revidieren häufig ihre Aussagen, wenn sie unter Druck gesetzt werden. Bild: Pixabay / Geralt

Große Sprachmodelle ändern in über 50 Prozent der Fälle ihre Antworten, wenn diese vom Nutzer hinterfragt werden. Der KI-Forscher Dr. Randal S. Olson beschreibt dieses Verhalten in einem Blogbeitrag(öffnet im neuen Fenster) als Are-you-Sure-Problem (Bist-du-dir-sicher-Problem) und weist auf das Risiko hin, das durch die mangelnde Standhaftigkeit von KI-Chatbots entstehen kann.

Olson bezieht sich auf eine Studie aus dem Jahr 2025, die belegt, dass GPT-4o in 58 Prozent, Claude Sonnet in 56 Prozent und Gemini 1.5 Pro in 61 Prozent der Fälle ihre Antwort ändern, sobald sie vom Nutzer herausgefordert werden.

Dabei handele es sich nicht um einen Programmierfehler, sondern um ein systematisches Zuverlässigkeitsproblem, das besonders bei komplexen strategischen Entscheidungen gefährlich werden könne, so Olson.

Menschliches Feedback beim Training als Ursache

Die Ursache liegt in einem Trainingsprozess, der als RLHF (Reinforcement Learning from Human Feedback) bekannt ist, bei dem menschliche Trainer KI-Antworten bewerten. Da Menschen dazu neigen, zustimmende Antworten als hilfreicher und angenehmer zu empfinden, lernt die KI, die Perspektive der Nutzer widerzuspiegeln, um positive Rückmeldungen zu erzeugen.

Werden Sprachmodelle für Risikoprognosen und Szenarienplanungen verwendet, validieren KI-Modelle die falschen Annahmen des Nutzers häufig, anstatt diese zu korrigieren. Das führe laut Olson zu einer Athropie des menschlichen Urteilsvermögens, was zu potenziell fatalen Fehlentscheidungen führen kann.

Um dem entgegenzuwirken, müssen Anwender das Kontext-Vakuum der KI füllen, indem sie explizite Entscheidungsrahmen, themenbezogenes Spezialwissen und spezifische Werte vorgeben. Versteht die KI, auf welcher Grundlage Nutzer Entscheidungen treffen, könne sie den Unterschied zwischen einer validen Kritik und bloßem Druck erkennen, führt Olson aus.

Die Frage sei daher nicht, ob Sprachmodelle ihre Meinung ändern, sondern ob Nutzer Informationen bereitgestellt haben, die es wert sind, verteidigt zu werden. Dieses Problem zeigt sich auch, wenn Sprachmodelle zwischen Fakt, Wissen und subjektiver Überzeugung unterscheiden sollen.


Relevante Themen