Schneller Prozessor, schneller Speicher
Die HPC-Variante soll mit 304 Kernen auf zwei Silizium-Dies noch besser ausgestattet sein. Matrix- und Vektoreinheiten sollen eine hohe Rechenleistung gewährleisten. Eine der beiden Veröffentlichungen gibt diese mit 60,3 TFlops bei Gleitkommazahlen doppelter Genauigkeit (FP64) an, auf diesen Wert kommt Nvidias H100 mit ihren Tensorkernen.
Wie die H100 soll auch die mysteriöse Lineshine-CPU mit High Bandwidth Memory (HBM) bestückt sein, 32 GByte in acht Stacks dienen quasi als großer Cache zusätzlich zu 256 GByte DDR5-RAM pro CPU. Die Bandbreite des HBM wird mit 4 TByte/s angegeben, es dürfte sich um HBM2e handeln. Jeweils zwei CPUs bilden einen Netzwerkknoten.
Hinweise auf einen Kunpeng mit HBM gab es bereits in der Vergangenheit. CPUs mit HBM sind zwar exotisch, aber keine neue Idee. Der europäische Rhea-Prozessor sowie Intels Xeon Max sind ebenfalls mit den schnellen Speicherstapeln bestückt.
Realistisch oder Propaganda?
Die offensichtlichste Frage ist: Ist ein Prozessor mit den genannten Daten möglich und in der Volksrepublik herstellbar? Grundsätzlich zeigt die H100, dass 60 TFlops auf einem Die möglich sind.
Huawei könnte in der Volksrepublik zwar nur SMICs N+3-Fertigungsprozess nutzen, dessen Transistordichte eher TSMCs 6-nm-Familie entspricht dem von der 5-nm-Familie abgeleiteten N4, mit dem das H100-Die gefertigt wird. Zwei Chiplets sollten das aber kompensieren.
Allerdings nutzt Nvidia leichtgewichtige Kerne, die Lineshine-CPU hingegen, da stimmen die Veröffentlichungen überein, ARMv9-Kerne. Davon brachte Huawei beim Kunpeng 930 mutmaßlich 40 auf knapp ein Drittel der maximalen Maskengröße (Reticle Size). Interpoliert ergäbe das 129 Kerne pro Maske – weniger, als angeblich verbaut. Zudem waren die Kunpeng-930-Dies möglicherweise mit einem 5-nm-Prozess bei TSMC gefertigt.
Darüber hinaus verfügen die Taishan-Kerne des Kunpeng 930 wohl nur über eine 256-Bit-SIMD-Einheit. Um bei einer realistischen Taktfrequenz von grob 2 GHz auf die angegebene Leistung zu kommen, müsste jeder Kern pro Takt 48 FMA-Operationen (Fused Multiply-Add) ausführen können. AMDs Zen5-Kerne etwa kommen mit zwei 512-Bit-FMA-Pipelines auf lediglich 16, der Kunpeng 930 auf maximal vier.
Denkbar wäre eine Matrixeinheit mit 32 Multiplizierern und zwei 512-Bit-Vektoreinheiten. Je nach Implementierung könnte das zu schaffen sein, den Großteil der Fläche nehmen bei Vektoreinheiten Register und Scheduler ein.
- Anzeige Hier geht es zur Matrix-Trilogie bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



