Zum Hauptinhalt Zur Navigation

Turboquant erklärt: Googles Kompression ist nicht das Ende der Speicherkrise

Golem-Erklärbär
Statt fallender Speicherpreise gibt es wohl bessere KI -Modelle. Wir erklären die Hintergründe des Kompressionsalgorithmus Turboquant.
/ Johannes Hiltscher
7 Kommentare News folgen (öffnet im neuen Fenster)
Manche Dinge brauchen einfach unnötig viel Platz. (Bild: Long Tang, Pexels)
Manche Dinge brauchen einfach unnötig viel Platz. Bild: Long Tang, Pexels / CC0 1.0
Inhalt
  1. Turboquant erklärt: Googles Kompression ist nicht das Ende der Speicherkrise
  2. Polarkoordinaten sind intuitiv die bessere Wahl
  3. Ein Bit zur Fehlerkorrektur

Mittels Quantisierung, die durch geschickte Abbildung die Anzahl der für Variablen benötigten Bits reduziert, lässt sich der Speicherbedarf von KI-Modellen stark reduzieren. Bei den Gewichtsparametern der KI-Modelle ist Quantisierung mittlerweile normal. Beim KV-Cache hingegen herrscht eher Zurückhaltung, hier sind größere Datentypen noch immer häufig zu finden. Googles Turboquant setzt hier an, wir erklären die Auswirkungen genauer.

Sieht man sich den reinen Speicherbedarf an, scheint der Nutzen von Turboquant zunächst fraglich. Der KV-Cache, der die Aufmerksamkeit eines Modells steuert, ist im Vergleich zu den Gewichtsparametern relativ klein. Deepseek R1 etwa nutzt hierfür bei einer Kontextlänge von 128k Tokens mit FP16 rund 17,2 GByte – ein Bruchteil des Speicherbedarfs der 685 Milliarden Parameter.

Doch der Schein trügt, denn jede Sitzung, die ein Modell bedient, hat einen eigenen KV-Cache. Je mehr Nutzer, desto mehr Speicher wird benötigt. Das führt dazu, dass KV-Caches oft zwischen verschiedenen Speichern verschoben werden. Aus diesem Grund führt Nvidia mit den Bluefield4-DPUs im Netzwerk verteilten SSD-Speicher als zusätzliche, schnelle Cache-Ebene ein.

Hoffnungen auf fallende Speicherpreise unbegründet

Der KV-Cache konkurriert zudem mit den Gewichtsparametern um die begrenzte Speicherbandbreite. Wie die Parameter wird er permanent vom High Bandwidth Memory (HBM) in den integrierten SRAM des Beschleunigers geladen. Da bei Mixture-of-Experts-Modellen (MoE) zudem nur ein Teil der Gewichtsparameter gleichzeitig genutzt wird, hat der KV-Cache einen bedeutenden Anteil am Bandbreitenbedarf.

Turboquant verspricht bei diesen beiden Aspekten eine deutliche Verbesserung: Ohne signifikante Genauigkeitsverluste sollen 3,5- statt 16-Bit-Werte genügen. Sind leichte Einbußen vertretbar, reichen sogar 2,5 Bit. Auf den Grund für die unrunden Werte kommen wir noch zurück.

Die Verkleinerung um einen Faktor fünf bis sechs macht sich für die großen KI-Unternehmen direkt bemerkbar. Eine Inferenz-Instanz kann damit entweder mehr Sitzungen bedienen – oder die Kontextlänge kann ohne Leistungseinbußen erhöht werden.

Letzteres hilft insbesondere bei komplexen Aufgaben, weshalb Gewinne durch Quantisierung wohl genau hierfür genutzt würden. Dieser Effekt ist als Jevons Paradoxon (g+) seit über 160 Jahren bekannt – der Gesamtspeicherbedarf wird wohl annähernd gleich bleiben. Ein Rückgang der RAM-Nachfrage durch KI und damit fallende Preise sind nicht zu erwarten.

Es stellt sich aber noch eine andere Frage: Lohnt sich Turboquant in der Praxis? Der niedrigere Speicherbedarf wird nämlich mit höherem Rechenaufwand erkauft – den der KV-Cache zuvor reduziert hat. Erste unabhängige Daten gibt es bereits.


Relevante Themen