Zum Hauptinhalt Zur Navigation

Alibaba-KI: Qwen2.5 schummelt im Mathe-Benchmark

Kannte die Antworten schon aus dem Training: Mathematische Fähigkeiten der KI Qwen2.5 basieren im Benchmark auf unsauberen Daten.
/ David Wagner
9 Kommentare News folgen (öffnet im neuen Fenster)
In einer Studie zeigt sich, dass unsaubere Trainingsdaten Qwen2.5 bei Mathe-Benchmarks einen Vorteil verschafft haben. (Bild: KI-generiert mit Qwen2.5)
In einer Studie zeigt sich, dass unsaubere Trainingsdaten Qwen2.5 bei Mathe-Benchmarks einen Vorteil verschafft haben. Bild: KI-generiert mit Qwen2.5

Im Math-500-Benchmark war das KI-Modell Qwen2.5 des chinesischen Konzerns Alibaba zeitweise an der Spitze gelegen. Eine Studie(öffnet im neuen Fenster) zeigt nun, dass es sich dabei aber nicht nur um beeindruckende mathematische Fähigkeiten gehandelt hat, sondern vor allem um unsaubere Datensätzen beim Training.

Der Math-500-Benchmark beinhaltet 500 Aufgaben aus verschiedenen mathematischen Bereichen wie Wahrscheinlichkeitsrechnung oder Geometrie. KI-Modelle werden damit auf ihre Fähigkeiten getestet, mathematische Prinzipien anzuwenden, Berechnungen durchzuführen und daraus eine verständliche Lösung zu generieren.

Da es sich um einen sehr beliebten Benchmark handelt, sind Aufgabenstellungen und ihre Lösungen zum Beispiel massenhaft auf Github zu finden. Mit diesen wurde wohl auch Qwen2.5 gefüttert.

Qwen2.5 kennt die Lösungen von Github

Das beweisen die Forscher in der Studie, in dem sie Qwen2.5 nur die ersten 60 Prozent einer Aufgabenstellung vorlegten. In über 50 Prozent der Fälle konnte das KI-Modell daraus den Rest der Problemstellung ableiten. Zum Vergleich: Llama3.1-8B war dazu nicht einmal in vier Prozent der Fälle in der Lage.

Im neueren Benchmark Livemathbench war Qwen2.5 dann nicht mehr in der Lage, die Aufgaben zu vervollständigen. Da dieser erst nach Qwen2.5 veröffentlicht wurde, können die Ergebnisse nicht die Trainingsdaten des KI-Modells kontaminiert haben.

Test mit eigenem Benchmark

Für einen endgültigen Test entwickelte das Studienteam einen eigenen Benchmark, welcher ein erwartbares Ergebnis lieferte. Je komplexer die Aufgabenstellung, desto geringer die Genauigkeit in der Antwort von Qwen2.5.

Im Training mit diesem neu erstellten Datensatz zeigte sich auch eine konstante Verbesserung, wenn die Forscher korrekte Antworten für das Modell markierten. Im Math-500-Benchmark lieferte Qwen2.5 hingegen selbst dann richtige Ergebnisse, wenn richtige Lösungen als falsch markiert wurden.

Das ist ein ziemlich eindeutiger Hinweis darauf, dass kein mathematisches Reasoning des Modells stattfindet, sondern Qwen2.5 schlicht auswendig gelernte Antworten ausgibt. Es wirft auch die Frage auf, wie sinnvoll diese Benchmarks sind, um KI-Modelle zu testen.

Denn speziell auf Benchmarks trainierte KIs könnten dort zwar gute Ergebnisse liefern, was aber keine wirklichen Rückschlüsse auf ihre Performance in der echten Welt zulässt. Solche Tricksereien versuchte etwa Meta mit Llama 4 .


Relevante Themen