Studie: Apple-Forscher finden keine Hinweise auf echtes KI-Reasoning

"Oliver pflückt am Freitag 44 Kiwis und 58 Kiwis am Samstag. Am Sonntag pflückt er doppelt so viele Kiwis wie am Freitag, aber fünf von ihnen waren etwas kleiner als der Durchschnitt. Wie viele Kiwis hat Oliver?"
Diese Aufgabe dürften die allermeisten Menschen lösen können und sich dabei auch von dem irrelevanten Hinweis auf die Größe der Kiwis nicht nachhaltig stören lassen.
Bei Large Language Models (LLM) wie GPT-4o von OpenAI und Metas Llama3-8b ist die Sache anders, schreiben jedenfalls Forscher von Apple in einer neuen Studie ( PDF(öffnet im neuen Fenster) ).
Den Wissenschaftlern zufolge sind die KI-Systeme weiterhin nicht in der Lage, zuverlässig einfache Aufgaben zu lösen, weil sie diese weiterhin inhaltlich nicht verstehen.
Selbst wenn nur kleine Parameter bei der Fragestellung geändert werden oder wenn unsinnige Angaben wie die Sache mit der Größe der Kiwis hinzugefügt werden, würden die Systeme trotz des riesigen Aufwands bei der Suche nach einer Antwort versagen.
Musterabgleich statt Logik
"Insgesamt haben wir keine Hinweise auf logisches Denken in Sprachmodellen gefunden, einschließlich Open-Source-Modellen wie Llama, Phi, Gemma und Mistral und führenden geschlossenen Modellen, einschließlich der jüngsten OpenAI GPT-4o- und -o1-Reihen" , schreibt Mehrdad Farajtabar, einer der beteiligten Forscher, in einer längeren Zusammenfassung auf der Plattform X(öffnet im neuen Fenster) .
Das Verhalten der LLMs "lässt sich besser durch einen ausgefeilten Musterabgleich erklären – der tatsächlich so fragil ist, dass Namensänderungen die Ergebnisse um rund 10 Prozent verändern können!"
Zwar könnten die Hersteller der KI-Systeme weiter an den LLMs arbeiten und etwa bessere Traingsdaten verwenden. "Aber wir glauben, dass dies zu 'besseren Musterabgleichern' führen wird, nicht unbedingt zu 'besseren Denkern'" , schreibt Farajtabar abschließend.



