Zum Hauptinhalt Zur Navigation Zur Suche

Medizin-KI: KI versagt oft bei medizinischer Differentialdiagnose

Eine Harvard-Studie zeigt: KI-Modelle scheitern in 80 Prozent der Fälle an der frühen Differenzialdiagnose – eine Gefahr für Patienten.
/ Nils Matthiesen
10 Kommentare News folgen (öffnet im neuen Fenster)
KI scheitert oft an medizinischen Diagnosen. (Bild: Towfiqu barbhuiya / Pexels)
KI scheitert oft an medizinischen Diagnosen. Bild: Towfiqu barbhuiya / Pexels

Die Nutzung von Large Language Models (LLMs) als digitaler Ratgeber bei gesundheitlichen Beschwerden ist riskant. Eine aktuelle Studie(öffnet im neuen Fenster), die im Fachjournal Jama Network Open veröffentlicht wurde, kommt zu dem Ergebnis, dass führende KI-Modelle bei der frühen Differenzialdiagnose in mehr als acht von zehn Fällen versagten. Damit erweisen sich die Systeme gerade in der Phase als unzuverlässig, in der die medizinische Unsicherheit am größten ist.

Das Forschungsteam um die Harvard-Medizinstudentin Arya Rao untersuchte 21 gängige KI-Modelle anhand von 29 standardisierten klinischen Fallbeispielen. Während die Bots bei einer abschließenden Diagnose, basierend auf einem vollständigen Portfolio medizinischer Informationen, eine Trefferquote von bis zu 91 Prozent erreichten, brachen die Leistungen im Stadium der Differenzialdiagnose ein. In diesem Prozess müssen Mediziner verschiedene Möglichkeiten abwägen und Bedingungen ausschließen. Hier lag die Fehlerquote der getesteten Modelle bei mehr als 80 Prozent.

Falsche Sicherheit durch selbstbewusstes Auftreten

Ein zentrales Problem der KI-Systeme ist laut den Forschern deren rhetorische Sicherheit. Die Modelle projizierten oft Vertrauen, ohne eine robuste Argumentation vorzuweisen, erklärte Mitautor Marc Succi vom Massachusetts General Hospital The Register(öffnet im neuen Fenster). Dies könne insbesondere bei Patienten mit Angststörungen die Sorge um die eigene Gesundheit massiv verstärken. Die Forscher warnten davor, dass das Marketing von LLMs als "diagnostische Agenten" ein falsches Sicherheitsgefühl vermittle.

Obwohl die Modelle bei einer weniger strengen Auslegung der Korrektheit teilweise richtige Antworten lieferten – die Rohgenauigkeit lag zwischen 63 und 78 Prozent -, bleibt die Kritik bestehen. Da KI-Bots oft als erste Anlaufstelle zur Vorfilterung von Diagnosen beworben würden, bevor ein Mensch übernehme, sei das Versagen in der Anfangsphase kritisch.

Risiken für den Behandlungsverlauf

Die Experten betonten, dass eine korrekte Enddiagnose nicht über die Schwächen im frühen Stadium hinwegtäuschen dürfe. "Echtes klinisches Denken beginnt früher, wenn die Mehrdeutigkeit am höchsten ist", erklärt Succi. Eine falsche Differenzialdiagnose könne zu Verzögerungen bei der Behandlung, unnötigen und riskanten Eingriffen sowie hohen Kosten führen.

Die Studie legt nahe, dass aktuelle Standard-LLMs ohne strukturierte menschliche Überprüfung nicht für die patientenseitige Diagnose genutzt werden sollten. Der Rat der Mediziner bleibt daher klassisch: Bei gesundheitlichen Sorgen sollten Patienten den direkten Kontakt zu einem Arzt suchen, anstatt auf die derzeit noch unzureichenden Fähigkeiten von KI-Modellen zu vertrauen.


Relevante Themen