Studie zu LLMs: Quelloffene KI kann auf Dauer merklich teurer sein

Open-Source-LLMs sollen durch ihre Quelloffenheit und ihre Leistung überzeugen. Vor allem soll es günstiger sein, ein solches Modell zu hosten. Laut einer neuen Studie des Unternehmens Nous Research liegen die versteckten Kosten allerdings wohl deutlich über den Kosten eines Closed-Source-LLMs. Das liegt wohl vor allem daran, dass sie mehr Token für Ausgaben verwenden.
"Offene Gewichtungsmodelle verwenden 1,5-4-mal mehr Token als geschlossene (bis zu 10-mal mehr bei einfachen Wissensfragen), wodurch sie trotz niedrigerer Kosten pro Token manchmal pro Abfrage teurer sind" , schreibt Nousresearch(öffnet im neuen Fenster) . Dabei ist Nvidia Llama 3.3 49b über alle Messfelder das effizienteste offene LLM. Bei den proprietären Modellen führt OpenAIs Sortiment aus GPT o4-mini. Das als offen klassifizierte GPT-oss 20b scheint diesem Trend entgegenzuwirken und oft effizient zu sein.
Gerade bei einfachen Wissensfragen scheinen die getesteten offenen Modelle besonders ineffizient zu sein. Für diesen Test stellte Nous Research zwei simple Fragen an die Software. Zum Beantworten der Fragen "Was ist die Hauptstadt von Australien?" und "Wie viele Tage sind in einem Schaltjahr?" benötigen die meisten quelloffenen Modelle wie Deepseek R1, Magistgral-small und Llama 3.3 mindestens 200 bis zu mehr als 1.000 Token. Die meisten geschlossenen Modelle wie Claude Opus 4.1, Gemini 2.5 Flash und Grok 4 bleiben bei unter 200 Token. GPT-oss 120b scheint als offenes Modell aber besonders gut abzuschneiden.
Kleinere Modelle sind effizienter
In einem zweiten Teil stellte das Unternehmen alle Modelle vor zwei mathematische Aufgaben. Hier kann neben GPT-oss auch Llama 3.3 mit unter einem Token pro Antwort als offenes Modell gut platziert werden. Die meisten anderen offenen Modelle benötigen doppelt bis viermal so viele Token. Dieser Token-Bedarf sorgt am Ende des Monats für eine höhere Rechnung.
Es sollte beachtet werden, dass viele der ausgewählten Closed-Source-Modelle offenbar eher kompakte Versionen bekannter LLMs sind. So konnten Modelle wie Google Gemini 2.5 flash und OpenAI o4-mini stets kosteneffiziente Ergebnisse abliefern. Es scheint also auch wichtig zu sein, wie komplex ein LLM generell aufgebaut ist. In vielen Situationen könnte es deshalb sinnvoll sein, eher kleinere Sprachmodelle zu verwenden.



