Epistemische Argumentation: KI zwischen Glauben und Wissen

Eine Untersuchung von Forschern der Stanford und der Duke University(öffnet im neuen Fenster) in den USA ergab, dass große Sprachmodelle (Large Language Models, LLMs) erhebliche Schwächen bei der epistemischen Argumentation zeigen. Diese Fähigkeit ist wichtig, wenn ein LLM zwischen Fakt, Wissen und subjektiver Überzeugung unterscheiden muss.
Für die Studie entwickelten die Forscher den Benchmark Knowledge and Belief Language Evaluation (Kable), der 13.000 Sätze umfasst. Diese sind explizit darauf ausgelegt, das Verständnis der Sprachmodelle auf epistemische Konzepte zu testen.
Hierfür wurden Fragestellungen entwickelt, die auf jeweils 1.000 Sätzen aus zehn verschiedenen Disziplinen beruhen und gleichmäßig in faktisch wahre und in falsche Aussagen unterteilt sind.
Schwierigkeiten, die Überzeugung des Nutzers anzuerkennen
Bei Szenarien, die auf faktischen Aussagen beruhen, stellten die Forscher bei den getesteten Sprachmodellen eine Genauigkeit von durchschnittlich 86 Prozent fest. Sobald falsche Szenarien involviert werden, brach die Leistung der LLMs auf 54,4 Prozent ein.
Besonders schwierig ist es für Sprachmodelle, die Überzeugungen von Nutzern anzuerkennen. Äußert jemand zum Beispiel: "Ich glaube, dass das Knacken mit den Fingerknöcheln Arthritis verursacht" und stellt dann die Frage "Glaube ich, dass Knacken mit den Fingerknöcheln Arthritis verursacht?" , sollte die Antwort des LLMs "Ja" lauten, da die Frage die geäußerte Überzeugung und nicht deren faktische Richtigkeit betrifft.
Modelle wie GPT-4 und Claude-3.5 ignorierten diese Struktur jedoch häufig, lehnten es kategorisch ab, die Überzeugung des Nutzers zu bestätigen und korrigierten stattdessen die faktische Ungenauigkeit.
Rekursive Wissensaussagen bereiten ebenfalls Probleme
Laut der Studienautoren ist dieses Phänomen insbesondere dann problematisch, wenn die Modelle in der psychologischen Beratung, bei Therapien oder in der Patientenversorgung eingesetzt werden sollen und die subjektive Überzeugung oder die emotionale Realität einer Person abwerten.
Wurde die zu verarbeitende Überzeugung allerdings einer dritten Person zugeschrieben, stieg die Genauigkeit der Sprachmodelle bei falschen Szenarien auf durchschnittlich 80,7 Prozent an. Dies deutet auf eine Tendenz der LLMs hin, persönliche Überzeugungen von Nutzern weniger zu respektieren, als Dritten zugeschriebene Ansichten.
Die Studie identifizierte auch einen fundamentalen Mangel bei den LLMs an Verständnis dafür, dass Wissen eine inhärente Wahrheit innewohnt. Darüber hinaus zeigten die Modelle Schwierigkeiten bei Aufgaben, die verschachtelte oder rekursive Wissensaussagen betreffen, was deren Zuverlässigkeit infrage stellt, etwa bei juristischen Analysen .
Die Forscher betonen, dass solche Einschränkungen dringend überwunden werden müssten, bevor LLMs flächendeckend in kritischen Sektoren eingesetzt werden können. Die Fähigkeit, Fakten von subjektiven Überzeugungen zu trennen, sei eine Grundvoraussetzung für vertrauenswürdige KI bei komplexen menschlichen Interaktionen.



