GPT-4, Claude, Llama und Co.: Sprachmodelle schaffen simple Logikaufgabe nicht
Viele Large Language Models stellen sich als gut verwendbare und genaue Systeme dar und bestehen standardisierte Benchmarks mit guten Ergebnissen. Da müsste eine für Menschen recht simpel lösbare Logikaufgabe kein Problem für die teils sehr großen Sprachmodelle sein. Das wollte ein internationales Forschungsteam herausfinden und hat sich deshalb viele aktuelle LLMs wie Llama 2, Gemini Pro, GPT-4 und Claude 3-O angeschaut (PDF)(öffnet im neuen Fenster).
Alle verglichenen Modelle mussten eine Aufgabe lösen: "Alice hat N Brüder und außerdem M Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Die meisten erwachsenen Menschen – und auch einige Kinder – dürften hier keine Probleme haben, um die richtige Lösung herauszufinden: Vorausgesetzt, alle Geschwister haben die gleichen Eltern, dann hat Alices Bruder M+1 Schwestern, da Alice selbst eine Schwester ist. Das Forschungsteam nennt diese Aufgabe auch Alice-in-Wonderland-Problem (AIW-Problem).
Die Ergebnisse bei den LLMs sind ernüchternd: Viele Modelle haben offenbar Probleme mit der gestellten Aufgabe und können sie nicht zuverlässig lösen. Hier schneiden vor allem die großen Modelle mit vielen Token und Parametern am besten ab. Das gilt für LLMs wie GPT-4, GPT-4o und Claude 3. Die meisten anderen Modelle, darunter auch Metas Llama2/3, scheitern bei fast jedem Versuch.
In Benchmarks gut, im AIW-Test schlecht
Für den Test definierten die Forscher drei verschiedene Prompt-Typen. Mit dem Standard-Prompt soll die Aufgabe gelöst und ein Lösungsansatz in Textform ausgegeben werden. Der Thinking-Prompt befiehlt den Modellen, ihre Rechenwege doppelt zu überprüfen und mögliche Fehler zu beheben. Außerdem sollen Ergebnisse im Detail erklärt werden. Das Restricted-Format soll derweil keine Lösungswege erklären und einfach nur das Ergebnis ausgeben.
Jedes der ausgesuchten Modelle wurde für jeden der drei Abruftypen 30-mal abgerufen. Die Ergebnisse trug das Team in eine Übersicht ein. GPT-4o schneidet am besten ab, weist aber auch nur eine Erfolgsquote von maximal 65 Prozent auf. Claude 3 Opus, GPT-4 und Llama 2 70B folgen dahinter mit maximal 47 Prozent Erfolgsquote. Die meisten anderen Modelle schaffen die 20-Prozent-Marke nicht. Dabei erreichen viele der getesteten Programme in standardisierten Benchmarks wie dem MMLU gute Testwerte.
Ein Problem dabei: Viele Modelle, die klar falsch lagen, konnten ihre Ergebnisse recht überzeugend verteidigen. Das gebe Usern den Eindruck, als würden die Aufgaben vielleicht doch korrekt gelöst worden sein, so die Forscher."Solche Falschaussagen können zum Beispiel Berechnungen oder logikähnliche Aussagen enthalten, die keinen Sinn ergeben." Solche Halluzinationsprobleme sind bei Sprachmodellen allerdings nicht neu. Es ist interessant, dass das lang bekannte Problem noch immer prominent ist.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



