Zum Hauptinhalt Zur Navigation Zur Suche

Hugging Face: Chinesische KI-Modelle dominieren auf einmal Benchmarks

Auf der neuen, anspruchsvolleren KI-Rangliste von Hugging Face dominieren drei Large-Language-Modelle aus China, eines belegt den ersten Platz.
/ Andreas Donath
16 Kommentare News folgen (öffnet im neuen Fenster)
Die Denkmaschinen kommen. (Bild: Andreas Donath)
Die Denkmaschinen kommen. Bild: Andreas Donath

Hugging Face hat eine neue, anspruchsvollere Rangliste für Open-Source-LLMs(öffnet im neuen Fenster) veröffentlicht. Auf dieser werden die Modelle anhand von vier Hauptkriterien bewertet: einem Wissenstest, die Fähigkeit zur Argumentation bei sehr langen Kontexten sowie die Fähigkeit, komplexe mathematische Aufgaben zu lösen, und die Befolgung von Anweisungen.

Alibabas Qwen-Modelle belegen dabei drei der Top-10-Plätze, einschließlich des ersten Platzes. Nach einem Bericht von Toms Hardware zeigt das eine starke Leistung chinesischer KI-Modelle im Vergleich zu westlichen Konkurrenten, die erheblich zurückgefallen sind. Einige neuere Varianten von Metas Llama schnitten nicht besonders gut ab. ChatGPT von OpenAI kommt in der Liste allerdings gar nicht vor und auch Googles Gemini ist nicht vorhanden, weil es sich nicht um Open-Source-Modelle handelt.

Toms Hardware(öffnet im neuen Fenster) macht in einem Artikel dafür eine Überanpassung (Overfitting) an frühere Benchmarks aus, was zu schlechterer Leistung in realen Anwendungen und damit auch zu einer schlechteren Bewertung in der neuen Rangliste führen könnte: Die Hersteller könnten also, um bei früheren Benchmarks besonders hohe Ergebnisse zu erzielen, ihre KI dazu gebracht haben, genau solche Aufgaben besonders gut zu erledigen.

Wenn ein Modell besonders stark auf bestimmte Benchmarks optimiert wird, dürfte es bei solchen Tests zwar hervorragend abschneiden, doch das hat nichts mit der Leistung bei der Erledigung realer Anwendungen oder neuen, unbekannten Aufgaben zu tun. Wird ein neuer Benchmark eingeführt, der die Bewertungsmaßstäbe mehr darauf setzt, fallen solche Modelle ab.


Relevante Themen