Zum Hauptinhalt Zur Navigation

Golem Plus Artikel
Distillation - KI-Modelle schrumpfen:
Wie LLMs in die Hosentasche passen

KI-Modelle werden größer, sperriger und langsamer, je mächtiger sie sind. Wir erklären, wie sie kleiner geschrumpft werden können.
/ Tim Elsner
2 Kommentare News folgen (öffnet im neuen Fenster)
Auch KI-Modelle lassen sich destillieren. (Bild: Paulina101/Pixabay)
Auch KI-Modelle lassen sich destillieren. Bild: Paulina101/Pixabay

KI-Modelle wie ChatGPT oder Deepseek sind gigantisch groß, mit Milliarden oder sogar Billionen von Parametern, die mehrere Hundert Gigabyte an Speicher brauchen. Solche riesigen Mengen an Parametern bedeuten aber auch, dass alles, was man als Prompt in das Modell eingibt, durch diese Parameter gepresst wird. Es steigt also nicht nur der Speicherverbrauch mit der Größe der Modelle, sondern auch die benötigte Rechenleistung.

Damit solche Modelle sowohl platzsparender als auch günstiger werden, um teilweise sogar lokal auf dem Smartphone oder Notebook zu laufen, braucht es einige Tricks jenseits etwa des Verzichts auf numerische Präzision. Mit sogenannter Knowledge Distillation , also der Konzentration von Wissen, lässt sich die Modellgröße von existierenden neuronalen Netzen reduzieren, und das deutlich unterhalb der Größe des ursprünglichen Modells. Wir erklären, wie das funktioniert und warum dieses Prinzip mittlerweile nicht nur hinterher bei bereits existierenden Modellen benutzt wird, sondern bei einigen Modellen auch im Training helfen kann.

Golem Plus Artikel