Zum Hauptinhalt Zur Navigation Zur Suche

Chinas KI-Unabhängigkeit?: Bei Deepseek V4 haben kleine Änderungen große Wirkung

Golem-Erklärbär
Bei den V4-Modellen macht Deepseek einiges anders als beim Vorgänger. Zumindest V4 Flash soll auf acht chinesischen KI-Beschleunigern laufen.
/ Johannes Hiltscher
2 Kommentare News folgen (öffnet im neuen Fenster)
Ist Deepseek V4 der Sprung aus Nvidias Burggraben gelungen? (Bild: scooby12353, Pixabay)
Ist Deepseek V4 der Sprung aus Nvidias Burggraben gelungen? Bild: scooby12353, Pixabay / Pixabay-Lizenz
Inhalt
  1. Chinas KI-Unabhängigkeit?: Bei Deepseek V4 haben kleine Änderungen große Wirkung
  2. Größere Modelle brauchen neue Ideen beim Training

Auch zum neu vorgestellten Modell V4 hat Deepseek wieder einen technischen Bericht veröffentlicht(öffnet im neuen Fenster). Hier werden Designentscheidungen und deren erhoffte Auswirkungen erläutert. Wir sind den Bericht durchgegangen und geben einen Überblick, was Deepseek V4 anders macht als der Vorgänger V3.

Die gestiegene Anzahl an Parametern ist die wohl offensichtlichste Änderung. Trotz mehr aktiver Parameter soll Deepseek V4 Pro wesentlich weniger Rechenaufwand verursachen als V3.2 – von lediglich 27 Prozent der Gleitkommaoperationen, umgerechnet auf 8-Bit-Gleitkommadatentypen (FP8), ist die Rede. Auch der KV-Cache soll trotz der großen Kontextlänge von einer Million Tokens wesentlich weniger Speicher benötigen. V4 Pro soll hierfür lediglich 10 Prozent des Speichers benötigen, den V3.2 erforderte.

Einen bedeutenden Anteil an der Reduktion des Rechenaufwands hat, dass Deepseek sowohl für die Gewichtsparameter der Experten als auch für den Aufmerksamkeitsmechanismus 4-Bit-Gleitkommazahlen (MXFP4) nutzt.

Komprimierte Erinnerung für längere Kontexte

Den geringeren Speicherbedarf des KV-Cache ermöglicht die Kombination von zwei Kompressionsmechanismen. Anders als Googles Turboquant fassen sie mehrere Token-Embeddings zu einem Wert zusammen.

Die Anzahl zusammengefasster Tokens ist bei CSA (Compressed Sparse Attention) und HSA (Heavily Compressed Attention) unterschiedlich. Für CSA sind es in der aktuellen Implementierung vier. HSA, der Name legt es nahe, fasst mit 128 wesentlich mehr Tokens zusammen. CSA nutzt allerdings nur einen Teil der Tokens im Cache, konkret sind es bei V4 Flash 512 und 1.024 bei V4 Pro. Der ebenfalls über ein KI-Modell implementiuerte Lightning Indexer soll die relevantesten auswählen. Bei HSA erfolgt eine solche Auswahl nicht.

Beide Mechanismen nutzen zudem ein gleitendes Fenster mit den unkomprimierten Embeddings der letzten 128 Tokens. Es gewährleistet, dass auch die direkt zuvor generierten Tokens einfließen, die noch nicht zu einem Block komprimiert wurden. Für die ersten beiden Transformerebenen wird ausschließlich dieser Mechanismus verwendet und auf die Kompression verzichtet. Durch diese Ansätze werden wesentlich weniger Werte gecached und verarbeitet – der Rechenaufwand sinkt.

Interessant ist dabei, dass ein Teil der Vektoren 16- (BF16, Brainfloat 16 Bit) anstelle von 8-Bit-Gleitkommawerten (FP8) verwendet. Der Grund dafür ist, dass den letzten 64 Werten noch mittels Rotary Positional Embedding (Rope) relative Positions-Embeddings hinzugefügt werden. Die zusätzliche Information erfordert mehr Bits, um nicht an Genauigkeit zu verlieren. Entsprechend wird hier BF16 genutzt.

Unterschiede zwischen V4 Pro und V4 Flash

Deepseek V4 Flash und Pro unterscheiden sich nicht nur in der bereits erwähnten Dimensionierung der KV Caches. Die größere Pro-Variante nutzt 61 statt 43 Transformer-Schichten und mehr Experten. Pro Mixture-of-Experts-Schicht sind es bei der Flash-Variante 256 spezialisierte Experten, bei V4 Pro 384. Beide Varianten leiten die Eingabe an sechs spezialisierte sowie den einen vorhandenen geteilten Experten. Er dient quasi als Fallback-Lösung.

Auch beim Training gibt es Unterschiede. V4 Flash trainierte beim Pre-Training mit 32 Billionen Tokens und einer maximalen Batch-Größe von 75,5 Millionen Tokens. V4 Pro bekam mit 33 Billionen Tokens beim Pre-Training etwas mehr Daten vorgesetzt, die maximale Batch-Größe lag bei 94,4 Millionen Tokens. Auch die Lernrate setzte Deepseek mit 2,0 x 10-4 bis 2,0 x 10-5 etwas niedriger an als bei V4 Flash mit 2,7 x 10-4 bis 2,7 x 10-5. Der Aufmerksamkeitsmechanismus startete beim Training zunächst ohne die Auswahl in CSA, nach und nach wurde die Anzahl ausgewählter Tokens dann auf den Zielwert gesenkt.

Beim Training hat Deepseek aber noch mehr verändert.


Relevante Themen