Hugging Face: Chinesische KI-Modelle dominieren auf einmal Benchmarks
Hugging Face hat eine neue, anspruchsvollere Rangliste für Open-Source-LLMs(öffnet im neuen Fenster) veröffentlicht. Auf dieser werden die Modelle anhand von vier Hauptkriterien bewertet: einem Wissenstest, die Fähigkeit zur Argumentation bei sehr langen Kontexten sowie die Fähigkeit, komplexe mathematische Aufgaben zu lösen, und die Befolgung von Anweisungen.
Alibabas Qwen-Modelle belegen dabei drei der Top-10-Plätze, einschließlich des ersten Platzes. Nach einem Bericht von Toms Hardware zeigt das eine starke Leistung chinesischer KI-Modelle im Vergleich zu westlichen Konkurrenten, die erheblich zurückgefallen sind. Einige neuere Varianten von Metas Llama schnitten nicht besonders gut ab. ChatGPT von OpenAI kommt in der Liste allerdings gar nicht vor und auch Googles Gemini ist nicht vorhanden, weil es sich nicht um Open-Source-Modelle handelt.
Toms Hardware(öffnet im neuen Fenster) macht in einem Artikel dafür eine Überanpassung (Overfitting) an frühere Benchmarks aus, was zu schlechterer Leistung in realen Anwendungen und damit auch zu einer schlechteren Bewertung in der neuen Rangliste führen könnte: Die Hersteller könnten also, um bei früheren Benchmarks besonders hohe Ergebnisse zu erzielen, ihre KI dazu gebracht haben, genau solche Aufgaben besonders gut zu erledigen.
Wenn ein Modell besonders stark auf bestimmte Benchmarks optimiert wird, dürfte es bei solchen Tests zwar hervorragend abschneiden, doch das hat nichts mit der Leistung bei der Erledigung realer Anwendungen oder neuen, unbekannten Aufgaben zu tun. Wird ein neuer Benchmark eingeführt, der die Bewertungsmaßstäbe mehr darauf setzt, fallen solche Modelle ab.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



