Zum Hauptinhalt Zur Navigation

Sprachmodelle: KI-Medizinberater versagen im Praxistest

Eine Oxford-Studie zeigt: Medizinische KI -Systeme scheitern, sobald echte Patienten sie nutzen.
/ Andreas Donath
1 Kommentare News folgen (öffnet im neuen Fenster)
KI ist für medizinische Fragestellungen ungenau. (Bild: Pexels)
KI ist für medizinische Fragestellungen ungenau. Bild: Pexels

Ein Forschungsteam der Universität Oxford hat Erkenntnisse veröffentlicht(öffnet im neuen Fenster) , die bisherige Annahmen über KI-Systeme als medizinische Berater infrage stellen. Die Studie mit 1.298 britischen Teilnehmern untersuchte, ob KI-Systeme Menschen dabei helfen können, Gesundheitsprobleme zu identifizieren und angemessen darauf zu reagieren.

Die Forscher prüften drei KI-Modelle – GPT-4o, Llama 3 und Command R+ – anhand von zehn medizinischen Szenarien. Im eigenständigen Betrieb zeigten diese Systeme starke Leistungen und identifizierten Erkrankungen durchschnittlich in 94,9 Prozent der Fälle korrekt. Sobald jedoch echte Nutzer mit denselben Systemen interagierten, sank die Genauigkeit erheblich.

Mensch-KI-Interaktion schafft unerwartete Probleme

Teilnehmer, die KI-Unterstützung nutzten, identifizierten relevante medizinische Zustände in weniger als 34,5 Prozent der Fälle. Dies lag unter der Kontrollgruppe, die auf traditionelle Methoden wie Internetsuchen oder persönliches Wissen zurückgriff. Die Kontrollgruppe zeigte eine 1,76-fach höhere Wahrscheinlichkeit, relevante Erkrankungen zu identifizieren, verglichen mit KI-Nutzern.

Die Studie deckte mehrere Punkte auf, an denen der Informationstransfer versagte. Nutzer lieferten den KI-Systemen oft unvollständige Symptombeschreibungen. In 16 von 30 untersuchten Fragestellungen enthielten die ersten Nachrichten nur Teilinformationen über das medizinische Szenario.

KI-Systeme generierten außerdem in mehreren Fällen irreführende Antworten. In zwei Fällen lieferte die KI zunächst korrekte Antworten, fügte aber falsche Informationen hinzu, als Nutzer zusätzliche Details angaben.

Trotz dieser Probleme schlugen die KI-Modelle typischerweise 2,21 mögliche Erkrankungen pro Fragestellung vor. Nur 34 Prozent dieser Vorschläge waren korrekt.


Relevante Themen