Größere Modelle brauchen neue Ideen beim Training
Wesentlich stärker hat Deepseek allerdings beim Training optimiert. So werden die Residualverbindungen mit mathematisch optimierten Hyperverbindungen(öffnet im neuen Fenster) durchgereicht, was die numerische Stabilität verbessern soll. Auch wird der Optimierer Muon genutzt, um die Gewichtsparameter im Backward Pass anzupassen. Er setzt auf Orthogonalisierung, wodurch die künstlichen Neuronen möglichst Unterschiedliches lernen sollen. So soll Wissen effizienter gespeichert werden.
Zudem setzt Deepseek V4 in allen Transformer-Schichten auf Mixture-of-Experts. V3 behielt für die ersten drei Schichten das klassische Feed Forward Network (FFN) bei. Die Experten wurden während des Post-Trainings zum Teil separat mit domänenspezifischen Daten trainiert. Die spätere Quantisierung auf MXFP4 wurde beim Training bereits berücksichtigt.
Kleinere Kernels, mehr Parallelität
Bereits bei Deepseek V3 steckten die Entwickler viel Aufwand in die Optimierung, um Kommunikationszeiten zu verdecken. Mit V4 haben sie diesen Ansatz erweitert, indem die Experten in Gruppen (Waves) aufgeteilt werden. Noch während Daten verteilt werden, beginnt die erste Gruppe zu rechnen. Ist sie fertig, legt die nächste los, während die Ergebnisse der ersten Gruppe verarbeitet werden.
Entsprechende Kernels haben Deepseeks Entwickler für Nvidia- und Huawei-Beschleuniger programmiert. Sie sollen im Regelfall zwischen 50 und 73 Prozent schneller sein als eine triviale Implementierung, im Extremfall fast doppelt so schnell.
Für die Entwicklung wurde die in der Volksrepublik China entwickelte domänenspezifische Sprache Tilelang(öffnet im neuen Fenster) genutzt. Sie ist für die Entwicklung von KI-Kernels gedacht und kann in Sprachen wie Cuda übersetzen. Das dürfte parallele Code-Basen größtenteils vermeiden.
Und welche Hardware nutzt Deepseek nun?
Auch nach Lesen des Berichts zu Deepseek V4 bleibt aber eine Frage offen: Welche Hardware nutzt das Startup? Daraus, dass mit MXFP4 ein 4-Bit-Gleitkommadatentyp verwendet wird, schlossen einige(öffnet im neuen Fenster), dass es Nvidias aktuelle Blackwell-Generation sein muss. Allerdings unterstützen Huaweis Ascend 950 (g+) ebenfalls nativ MXFP4.
Auch die sonstigen Hinweise im Bericht sind alles andere als eindeutig. So hat Deepseek die Einschränkungen beim Routing der Tokens zu den Experten aufgehoben. Zuvor war diese darauf optimiert, die Kommunikation zwischen den GPUs möglichst auf ein Mainboard zu begrenzen. Damit lief der Großteil der Kommunikation über Nvlink anstatt Infiniband. Diese Beschränkung ist mit Blackwell und den NVL72-Systemen weniger relevant – und Huaweis Atlas Superpods haben einen gänzlich anderen Aufbau.
Einige Hinweise deuten aber darauf hin, dass Deepseek V4 ohne Nvidia-Hardware trainiert worden sein könnte. Einem Bericht von 36Kr(öffnet im neuen Fenster) zufolge soll die vollständige Portierung des Trainings-Frameworks auf Huawei-Hardware die Veröffentlichung von Deepseek V4 verzögert haben. Huawei weist zudem in einer Pressemitteilung darauf hin(öffnet im neuen Fenster), dass die Ascend 950 Deepseek V4 unterstützen.
Die Kompatibilität mit Chinas KI-Ökosystem soll aber noch wesentlich weiter gehen: Auf insgesamt acht in der Volksrepublik entwickelten Beschleunigern soll zumindest Deepseek V4 Flash bereits laufen(öffnet im neuen Fenster). Neben den Ascends werden wohl MLUs von Cambricon (g+) sowie GPUs von Iluvatar, Metax und Moore Threads unterstützt. Auch Hygon sowie Alibabas und Baidus Beschleuniger Zhenwu und Kunlunxin werden erwähnt.
Es gibt also Anzeichen, dass Deepseek V4 gänzlich ohne Nvidia entwickelt wurde. Sollte sich dies bewahrheiten, wäre die Modellfamilie ein wichtiger Schritt zu Chinas KI-Unabhängigkeit. Es würde bedeuten, dass dank ausgereifterer Software auch mit chinesischer Hardware effizient große Modelle trainiert werden können, was in der Vergangenheit Probleme bereitet haben soll.
Denkbar ist aber auch ein hybrider Ansatz, auf den ältere Berichte hindeuten: Training auf Nvidia-Hardware, Inferenz mit Huawei-Beschleunigern.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.