Zum Hauptinhalt Zur Navigation

BildungsLLM und DeutschlandGPT: teuer und nutzlos?

Einen anderen Weg als Teuken gehen DeutschlandGPT und BildungsLLM: Beide Modelle sind Derivate von existierenden Modellen, also weitertrainierte Modelle von etwa Metas Llama 3.3(öffnet im neuen Fenster) . Das spart einiges an Daten beim Training und erlaubt ein Finetuning, ein Scharfstellen auf die gewünschte Aufgabe, mit sehr viel weniger Ressourcen.

Dabei scheint besonders beim BildungsLLM viel Augenmerk auf das nicht-technische Marketing gelegt worden zu sein: Die Sicherheitsfeatures werden ebenso beworben wie die tieferen Erklärungen und das achtsame Verhalten der KI und ihre Kenntnisse der deutschen Sprache.

Alles zweifelsohne wichtig für den Umgang mit Schülerinnen, aber auch alles bereits zumindest initial Bestandteil von Llama 3.3. Zumindest für einige Beispiele, die DeutschlandGPT selbst liefert, schneidet die ursprüngliche Version von Llama 3.3 ziemlich ähnlich ab.

Für einen tieferen Einblick wurde mir auf Anfrage das Modell nicht zur Verfügung gestellt, dafür aber auf die zeitnahe Veröffentlichung einer Publikation zu den genauen Fähigkeiten verwiesen. Vorerst bleibe ich skeptisch, wie viel ein Post-Training auf den Daten tatsächlich ausmacht: Zum Finetuning wurden laut Aussage des Unternehmens nur Supervised Fine-Tuning (Training auf Frage-Antwort-Paaren) und DPO (direktes Optimieren von Antwortmöglichkeiten) verwendet und nicht etwa echtes Reinforcement Learning, also menschliches oder maschinelles Feedback für Antworten für das Training.

Das finale LLM könnte weniger mächtiger sein als die Ursprungsversion

In der Praxis kann das bedeuten, dass das finale LLM möglicherweise sogar weniger potent ist als die Ursprungsversion. Ich wäre überrascht, wenn die Aussage von DeutschlandGPT stimmt, dass Llama 3.3 bei längeren und mehrstufigen Lerndialogen "messbar abfällt" , eine Version mit weiterem Training ohne Reinforcement Learning das aber besser hinbekommt.

Außerdem kann DeutschlandGPT keine Werkzeuge für Buchstabieren oder Mathematik verwenden: Durch das Arbeiten eines LLMs mit Tokens geht exaktes Wissen über Buchstaben, auch wenn das LLM diese immer richtig darstellt, verloren. Ein LLM würde(öffnet im neuen Fenster) also etwa den Habicht als Tier mit genau einem H vorschlagen, weil es das Wort nur als eine Kombination von den Tokens "Hab" und "icht" kennt, ohne zu wissen, welche Buchstaben dahinterstecken. Mit genug Training lernt das Modell so etwas zwar langsam, aber nicht besonders zuverlässig.

Gleichfalls lernen LLMs das Rechnen nur approximativ durch Verrechnen von Tokens, gelernt in einem Modell statt mathematisch ausgerechnet. Wenn Schüler nun etwa 342356 * 235623 dort eintippen, werden sie dann also nicht nur eine möglicherweise inkorrekte, sondern auch je nach Zufall andere Ausgabe bekommen.

Das Gleiche gilt natürlich auch für allerhand Fakten, die ein Modell halluzinieren kann. Böswillig könnte man also vermuten: Vielleicht wurde hier einfach nur ein neues Etikett draufgeklebt, damit man sich an das Budget von Schulen und andere Bildungsträger besser dranhängen kann, statt diesen einfach das frei zugängliche Modell von Meta mit ähnlichen Qualitäten zu empfehlen.

Schüler bekommen so auch noch den Eindruck, dass hier echte Didaktik statt zweifelhafter KI-Logik hinter Aussagen steckt, weil ein TÜV-Logo daraufklebt und eine gezielte Entwicklung mit Extratraining für Schulen dahintersteckt - egal, ob das am Ende zweckdienlich ist. Ich kann mich natürlich auch irren und werde das hier gegebenenfalls richtigstellen, wenn die versprochenen Benchmarks in der angekündigten Veröffentlichung mich eines Besseren belehren.

Dass Deutschland trotzdem noch ganz vorne dabeisein kann, wenn auch vielleicht nicht für die teuren LLMs, zeigen aber auch einige positive Beispiele.


Relevante Themen