Zum Hauptinhalt Zur Navigation Zur Suche

KI aus Deutschland: Hingewurschtelt in Germany

EU-Milliarden fließen in KI-Projekte, doch es kommt wenig dabei heraus – gerade in Deutschland. Das liegt vor allem am falschen Fokus.
/ Tim Elsner
27 Kommentare News folgen (öffnet im neuen Fenster)
KI Made in Germany - meist keine Erfolgsstory (Bild: Pixabay/Montage: Golem.de mit ChatGPT)
KI Made in Germany - meist keine Erfolgsstory Bild: Pixabay/Montage: Golem.de mit ChatGPT / Pixabay License

KI wird als Schlüsseltechnologie bezeichnet, EU-Milliarden fließen in Hardware und Projekte – und trotzdem gibt es nur wenig vorzuweisen. Wer von KI redet, meint in der Regel Large Language Modells (LLMs) großer US-amerikanischer oder chinesischer Firmen(öffnet im neuen Fenster) wie ChatGPT, Claude oder Deepseek, aber selten Teuken, DeutschlandGPT und ähnliche Modelle.

Wir ordnen ein, was in Deutschland in Sachen künstliche Intelligenz passiert und vor allem: wo es hakt.

Probleme: Geld, Bürokratie, Personal

Fangen wir mit dem Geld an – und mit der Bürokratie. Wer eine neue KI in umkämpften Gebieten wie LLMs trainieren möchte, wirft effektiv batzenweise Geld in ein schwarzes Loch. Selbst die "günstigen" Modelle aus China, die durch ihre Innovation fehlende Rechenkapazitäten ausgleichen, sind alles andere als günstig.

Ein solches Projekt alleine, ohne Partner in der Wirtschaft, zu stemmen, ist für eine deutsche Universität nicht nur preislich schwierig, sondern allein durch Bürokratie oft einfach unmöglich: Bis ein genau spezifizierter Projektantrag mit entsprechenden Geldern bewilligt wird, ist er oftmals entweder inhaltlich veraltet oder ursprünglich beantragte Hardware nicht mehr der Gipfel der Leistungsfähigkeit.

Außerdem kostet ein Ausgleich fehlender Rechenleistung durch Innovation eine noch knappere Ressource: Personal. Der Wettbewerb um fähige Wissenschaftlerinnen nimmt teilweise absurde Züge an, so warb etwa Meta jüngst Dutzende hochkarätige Wissenschaftler von etwa OpenAI und Apple ab, in einem Fall sogar für einen dreistelligen Millionenbetrag.

Trotz aller dieser Widrigkeiten gibt es aber einige KI-Modelle, die zumindest teilweise "Made in Germany" sind: Teuken(öffnet im neuen Fenster) heißt das LLM, das unter Federführung der Fraunhofer-Institute mit zahlreichen Partnern entwickelt wurde – als "europäische Alternative", besonders im Hinblick auf Datenschutz und Transparenz. Ein besonderes Augenmerk lag dabei auf den nicht-englischen Sprachen im Training, die einen deutlich größeren Anteil der Trainingsdaten einnehmen als in anderen LLMs.

Teuken: viel Geld für wenig Ergebnis

Ansonsten folgt das LLM den gängigen Praktiken, echte Innovation jenseits vom Fokus auf europäischer Sprache gibt es praktisch nicht. Dieser Fokus drückt sich, neben den Trainingsdaten, vor allem in der Tokenisierung aus: Sprachmodelle produzieren größere Textbausteine, Tokens genannt, statt einzelner Buchstaben. Diese Textbausteine werden über Häufigkeiten gefunden: Zeichenketten, die häufig vorkommen, werden in ein neues Token gegossen.

Eine Tokenisierung auf europäischen Sprachen führt also dann dazu, dass etwa im Finnischen ein einzelnes Wort im Schnitt nur noch 1,6 solcher Textbausteine statt 2,8 im ChatGPT Tokeniser benötigt. Und mit kürzeren Sequenzen, die den gleichen Informationsgehalt haben, lässt sich besser arbeiten. Zumindest theoretisch.

Praktischer Nutzen des europäischen Modells

Das Problem dabei ist allerdings die praktische Anwendung: Mit seinen sieben Milliarden Parametern ist Teuken geradezu winzig, selbst die relativ kleine nativ trainierte Version von Metas Llama 3.3, die ebenfalls frei verfügbar ist, hat 70 Milliarden Parameter. Neuere Modelle gehen in die Billionen Parameter. Dazu kommt, dass von diesen Modellen herunterdestillierte Versionen existieren – LLMs lassen sich, nachdem sie einmal trainiert worden sind, in deutlich kompaktere Formen gießen.

Ein Modell, das initial mit mehr Parametern trainiert und dann auf die gleiche Größe heruntergeschrumpft wurde wie ein Vergleichsmodell, das nativ auf dieser Größe trainiert wurde, ist in der Regel viel mächtiger. Ein Llama, das auf 70 Milliarden Parametern trainiert und auf die Größe von Teuken heruntergebrochen wird, ist also mit ziemlicher Sicherheit deutlich mächtiger.

Und so lässt sich der Vorteil der besseren Tokenisierung für europäische Sprachen schlicht durch mehr Training und mehr Daten ausgleichen, so dass man Teuken am Ende für nichts am besten gebrauchen kann. Dass das Modell kein Coding und keine Mathematik unterstützt, aber in Benchmarks trotzdem nur ähnlich gut war wie die (in diesem Fall nicht mehr ganz taufrische) Konkurrenz, trägt zum sauren Beigeschmack bei.

Nichts gegen die Konkurrenz

Überspitzt gesagt hat das Projekt Millionen Euro allein an Rechenpower verbrannt, ohne ein Produkt zu liefern, das innovativ oder kompetitiv irgendeinen Vorteil bietet. Im Gegensatz zur Konkurrenz ist die Kontextlänge dabei sogar auf nur etwa 4.000 Tokens beschränkt, also kein Vergleich etwa zu der Llama-Familie, die teilweise Millionen von Tokens verarbeiten kann. Komplexere Dokumente lassen sich also zum Beispiel nicht mit Teuken zusammenfassen.

Natürlich ergibt sich ein gewisser Vorteil, wenn deutsche Institutionen nicht völlig abgehängt werden und das Wissen um das Training eines solchen Modells auch in Deutschland verfügbar ist. Und selbstverständlich ist so ein Projekt spannend für alle Beteiligten, selbst wenn der Mehrwert überschaubar ist.

Aber als jemand, der selbst Forschung mit wenigen Ressourcen durchführen musste und gefrustet vom Vergleich mit den großen Institutionen war, muss ich hier klar sagen: Es geht nicht um ein kleines Projekt an der Uni, sondern um Forschung, die Millionen verschlingt – ohne am Ende etwas Nennenswertes jenseits von Schlagzeilen für die Politik produziert zu haben. Dieses Geld wäre verteilt auf verschiedene Institute vielleicht besser eingesetzt gewesen.

BildungsLLM und DeutschlandGPT: teuer und nutzlos?

Einen anderen Weg als Teuken gehen DeutschlandGPT und BildungsLLM: Beide Modelle sind Derivate von existierenden Modellen, also weitertrainierte Modelle von etwa Metas Llama 3.3(öffnet im neuen Fenster). Das spart einiges an Daten beim Training und erlaubt ein Finetuning, ein Scharfstellen auf die gewünschte Aufgabe, mit sehr viel weniger Ressourcen.

Dabei scheint besonders beim BildungsLLM viel Augenmerk auf das nicht-technische Marketing gelegt worden zu sein: Die Sicherheitsfeatures werden ebenso beworben wie die tieferen Erklärungen und das achtsame Verhalten der KI und ihre Kenntnisse der deutschen Sprache.

Alles zweifelsohne wichtig für den Umgang mit Schülerinnen, aber auch alles bereits zumindest initial Bestandteil von Llama 3.3. Zumindest für einige Beispiele, die DeutschlandGPT selbst liefert, schneidet die ursprüngliche Version von Llama 3.3 ziemlich ähnlich ab.

Für einen tieferen Einblick wurde mir auf Anfrage das Modell nicht zur Verfügung gestellt, dafür aber auf die zeitnahe Veröffentlichung einer Publikation zu den genauen Fähigkeiten verwiesen. Vorerst bleibe ich skeptisch, wie viel ein Post-Training auf den Daten tatsächlich ausmacht: Zum Finetuning wurden laut Aussage des Unternehmens nur Supervised Fine-Tuning (Training auf Frage-Antwort-Paaren) und DPO (direktes Optimieren von Antwortmöglichkeiten) verwendet und nicht etwa echtes Reinforcement Learning, also menschliches oder maschinelles Feedback für Antworten für das Training.

Das finale LLM könnte weniger mächtiger sein als die Ursprungsversion

In der Praxis kann das bedeuten, dass das finale LLM möglicherweise sogar weniger potent ist als die Ursprungsversion. Ich wäre überrascht, wenn die Aussage von DeutschlandGPT stimmt, dass Llama 3.3 bei längeren und mehrstufigen Lerndialogen "messbar abfällt", eine Version mit weiterem Training ohne Reinforcement Learning das aber besser hinbekommt.

Außerdem kann DeutschlandGPT keine Werkzeuge für Buchstabieren oder Mathematik verwenden: Durch das Arbeiten eines LLMs mit Tokens geht exaktes Wissen über Buchstaben, auch wenn das LLM diese immer richtig darstellt, verloren. Ein LLM würde(öffnet im neuen Fenster) also etwa den Habicht als Tier mit genau einem H vorschlagen, weil es das Wort nur als eine Kombination von den Tokens "Hab" und "icht" kennt, ohne zu wissen, welche Buchstaben dahinterstecken. Mit genug Training lernt das Modell so etwas zwar langsam, aber nicht besonders zuverlässig.

Gleichfalls lernen LLMs das Rechnen nur approximativ durch Verrechnen von Tokens, gelernt in einem Modell statt mathematisch ausgerechnet. Wenn Schüler nun etwa 342356 * 235623 dort eintippen, werden sie dann also nicht nur eine möglicherweise inkorrekte, sondern auch je nach Zufall andere Ausgabe bekommen.

Das Gleiche gilt natürlich auch für allerhand Fakten, die ein Modell halluzinieren kann. Böswillig könnte man also vermuten: Vielleicht wurde hier einfach nur ein neues Etikett draufgeklebt, damit man sich an das Budget von Schulen und andere Bildungsträger besser dranhängen kann, statt diesen einfach das frei zugängliche Modell von Meta mit ähnlichen Qualitäten zu empfehlen.

Schüler bekommen so auch noch den Eindruck, dass hier echte Didaktik statt zweifelhafter KI-Logik hinter Aussagen steckt, weil ein TÜV-Logo daraufklebt und eine gezielte Entwicklung mit Extratraining für Schulen dahintersteckt – egal, ob das am Ende zweckdienlich ist. Ich kann mich natürlich auch irren und werde das hier gegebenenfalls richtigstellen, wenn die versprochenen Benchmarks in der angekündigten Veröffentlichung mich eines Besseren belehren.

Dass Deutschland trotzdem noch ganz vorne dabeisein kann, wenn auch vielleicht nicht für die teuren LLMs, zeigen aber auch einige positive Beispiele.

Echte Innovation Made in Germany?

In der Forschung lieferten etwa die Ludwig-Maximilian-Universität München und die Uni Heidelberg(öffnet im neuen Fenster) das, was zum Grundgerüst für den offenen und zeitweise führenden Bildgenerator Stable Diffusion wurde.

Not macht erfinderisch

Kleinere Labore und Institute mit weniger Rechenleistung müssen dabei aus der Not heraus effizient werden, was wiederum Innovationen begünstigt. Aus leidvoller Erfahrung kann ich bestätigen: Wer nur sieben Jahre alte Gaming-Grafikkarten für seine Forschung hat, aber trotzdem Bildgenerierung erforschen und in den besten Adressen publizieren möchte, muss zwangsläufig kreativ werden.

Dass es in Deutschland also trotzdem noch solche Innovationen gibt und auch auf den großen Konferenzen noch Beiträge von deutschen Forschern mit kleinem Budget zu finden sind, ist ein gutes Zeichen für das Potenzial des Standortes und der Forscherinnen.

Sinnvolle deutsche Beiträge im Bereich KI kommen dabei aber nicht nur von öffentlichen Institutionen: Aleph Alpha, ein Start-up aus Heidelberg, entwickelt LLMs und publiziert im Gegensatz zu etwa OpenAI auch die Forschung dahinter. Eine der aktuellen Publikationen(öffnet im neuen Fenster) etwa beschäftigt sich mit einem Ersatz für die Tokenisierung, also dem Darstellen eines Textes durch größere Textfetzen.

Das führt dazu, dass das Modell nicht nur endlich auf Buchstabenlevel arbeiten kann ("Wie viele R hat Strawberry(öffnet im neuen Fenster)"), sondern auch besser darin wird, ähnliche Wörter zu verknüpfen: Tippfehler, ähnlich geschriebene Wörter in anderen Sprachen oder Deklinationen sind auf Buchstabenebene deutlich einfacher miteinander in Verbindung zu bringen als durch möglicherweise völlig andere Textfetzen.

Und auch die Forscher hinter der erwähnten Publikation, die zu Stable Diffusion geführt haben, haben mittlerweile als Black Forest Labs einen der besten Bildgeneratoren auf dem Markt veröffentlicht, der besonders durch gute Fähigkeiten beim Editieren besticht.

Fazit

Künstliche Intelligenz in Europa und insbesondere Deutschland hat einiges an Hürden zu überwinden: Datenschutz, konservativere Investoren und oftmals zu geringe Ausstattung der Forschung. Gerade die Bürokratie etwa beim Beantragen von Rechenleistung tötet echte, weil zeitnahe Innovation als Reaktion auf neue Veröffentlichungen.

Die größte Hürde für den KI-Standort Deutschland könnte aber ein falscher Fokus sein. Es wäre töricht, nicht auf Innovation und sinnvolle Nischen, sondern auf das Nacheifern der ganz Großen zu setzen. Genauso ist ein großes Faible für Zertifizierungen, TÜV-Siegel und vollmundiges Marketing am Ende wohmöglich eine Bremse für Effizienz und neue Lösungsansätze.

Und auch wenn es wenig intuitiv erscheint, ist das Prinzip Gießkanne zur Verteilung von Geldern vielleicht sinnvoller, als große Prestige-Projekte wie Teuken oder die von der Politik so gerne erwähnten KI-Fabriken zu fördern: Kleine Labore können einen echten Mehrwert schaffen, aber das Ziel, die ganz Großen einzuholen, ist mit begrenzten Mitteln und bürokratischen Problemen nicht realistisch und versandet dann vermutlich im Mittelmaß.

Anders gesagt: Für einzelne Forscher hätte eine einzelne H100 statt einer Nvidia 2080 Ti eine Welt an neuen Möglichkeiten bedeutet und verteilt auf verschiedene Labore deutlich mehr Innovationen als teure Prestigeprojekte produziert.

Tim Elsner(öffnet im neuen Fenster) wartet aktuell auf die Verteidigung seine Doktorarbeit über Forschung zu generativer KI für visuelle Daten. Er erklärt und bastelt gerne an allem, was mit neuronalen Netzen zu tun hat.

IMHO ist der Kommentar von Golem.de. IMHO = In My Humble Opinion (Meiner bescheidenen Meinung nach).


Relevante Themen