Fazit
Ein neues LLM zu trainieren, ist mit den richtigen Tricks bezahlbar und möglich, selbst ohne die sonst unerlässlichen Mengen von Daten. Dafür muss man aber clever bisher bestehende Elemente verzahnen. Genau solche Zutaten wie Lora und das Vorhersagen mehrerer Tokens auf einen Schwung sind auch der Schlüssel zum Erfolg von chinesischen LLMs, wie wir bereits erklärten . Das Wissen um effizienteres Training ist also keinesfalls nur etwas für arme Leute, die keine dicken Serverfarmen haben, sondern kann auch das Erreichen besserer Leistungen ermöglichen.
Das komplett neue Training bietet dabei insbesondere volle Kontrolle über das Modell, ohne Abhängigkeiten oder böse Überraschungen – das eigene kleine Kundensupport-Modell auf der Website kann nicht zum Erstellen von Crystal-Meth-Rezepten missbraucht werden , wenn es alles von der Pike auf gelernt hat.
Gleichzeitig sind solche Modelle auch technisch frei von Altlasten, müssen also nicht aufwendig lernen, dass sie viel Gelerntes nicht mehr brauchen. Sie sind zudem deutlich kompakter als ein auf einem Alleskönner-Modell basierendes Produkt.
Wann und wo welche dieser Techniken am Ende am sinnvollsten ist, bleibt aber wie so oft beim Thema KI vor allem Bauchgefühl und Erfahrung: KI ist häufig nah dran an der mittelalterlichen Alchemie, besitzt also einige unterliegenden Regeln und Prinzipien, aber mit wenig strikten und formell exakten Komponenten.
Tim Elsner(öffnet im neuen Fenster) schult, berät und entwickelt freiberuflich für Firmen im Bereich KI. Er hat seine Doktorarbeit über die effiziente Repräsentation von Daten für generative KI geschrieben und bastelt gerne an allem, was KI beinhaltet.



