Metas Betrugsversuch: Unmanipulierte Version von Llama 4 ist wesentlich schlechter

Metas neues KI-Modell Llama 4 hat in ersten Tests teilweise als zweitbestes Modell hinter Googles Gemini 2.5 abgeschnitten. Allerdings stellte sich heraus: Meta schummelte und verwendete für die Tests auf der Plattform LMarena(öffnet im neuen Fenster) eine speziell angepasste Version von Llama 4 Maverick. Mittlerweile gab das Unternehmen dies auch zu und ließ die für Endkunden verfügbare Version einmal mehr antreten. Diese schnitt nun wesentlich schlechter ab.
Tatsächlich landet Llama 4 Maverick 17B 128E auf dem 32. Platz(öffnet im neuen Fenster) und damit nicht vor, sondern weit hinter der Konkurrenz. "Die Release-Version von Llama 4 wurde zu LMarena hinzugefügt, nachdem herauskam, dass sie betrogen haben" , schreibt X-Account P:geon(öffnet im neuen Fenster) . "Ihr habt es aber wohl nicht gesehen, weil man bis zum 32. Platz herunterscrollen muss."
Neue Version schneidet merklich schlechter ab
Meta verwendete laut eigenen Aussagen ein speziell auf Konversationen ausgelegtes Llama-4-Modell für LMarena. Dieses entspricht nicht dem Modell, das Endkunden nutzen können. "Meta hätte klarer machen sollen, dass Llama-4-Maverick-03-26-Experimental speziell für Konversationen optimiert wurde" , sagte LMarena in einer Stellungnahme an Techcrunch(öffnet im neuen Fenster) . "Aus diesem Grund aktualisieren wir unsere Bestenlistenrichtlinien, um unser Engagement für faire, reproduzierbare Bewertungen zu bekräftigen, damit dies in Zukunft nicht mehr vorkommt."
LMarena stellt mehrere LLMs einander gegenüber und lässt sie durch menschliche User bewerten. Sie erhalten einen gewissen Arena-Score, der den Durchschnitt aller Bewertungen ausmacht. Der Twist: User wissen bei der Bewertung nicht, mit welchen Modellen sie gerade eine Konversation geführt haben. Insgesamt sind bereits mehr als 100 Modelle in der LMarena-Datenbank eingetragen.