Phytium Mars: Chinesischer Riesenchip besteht aus 64 ARM-Kernen

Das chinesische Startup Phytium hat auf der Technologietagung Hot Chips 27 einen ausführlichen Überblick zu einem neuen Serverprozessor namens Mars gegeben. Darin stecken 64 Kerne mit ARMv8-Architektur, weshalb der Chip schnell und vor allem effizient arbeiten soll. Kleine Anekdote: Charles Zhang von Phytium musste per Telefon zugeschaltet werden, da die USA ihm die Einreise verweigerten, und die Audiopräsentation zu groß für den E-Mailserver war.
Phytium wurde 2012 gegründet, Mars ist das erste Projekt der Chinesen und für den HPC-Mark (High Performance Computing). Es ähnelt von der Idee her den X-Gene von Applied Micro und den ThunderX von Cavium: Insgesamt 64 Xiaomi (übersetzt: Reiskorn) genannte CPU-Kerne mit ARMv8-Architektur stecken in einem Mesh-Netzwerk. Das ist in Panels unterteilt, jedes enthält acht Kerne samt Caches. Der L1-Instruktionen- und der L1-Daten-Puffer fassen jeweils 32 KByte, hinzu kommen 32 MByte L2-Cache pro Panel und eine dritte, gemeinsam genutzte Puffer-Stufe mit 128 MByte für alle CPU-Kerne zusammen.














Anders als Intel bei Skylake sprach Phytium über die technischen Besonderheiten der Xiaomi-Kerne: Das Frontend kann vier Befehle pro Takt dekodieren, die über die gleiche Anzahl an Scheduler-Ports an das Backend weitergegeben werden. Dort rechnen vier Integer- und eine Gleitkomma-Einheit, letztere benötigt sechs Takte für eine FMA(öffnet im neuen Fenster) -Operation. Die Latenz der Mesh-Kommunikation beträgt durchschnittlich neun Takte (3 bis 15), die CPU-Kerne im Mars-Prozessor laufen mit 2 GHz.
Auf dem Papier liefern sie eine DP-Leistung (doppelte Genauigkeit) von 512 Gflops, also vier DP-Flops pro Takt und Kern. Daten erhalten die Panels von je zwei 32 Bit breiten DDR3-1600-Speichercontrollern, was bei aufaddiert 128 Kanälen eine theoretische Datentransferrate von 204 GByte pro Sekunde bedeutet, wenn alle Panels parallel angesprochen werden. Das zeigt der Stream-Triad-Benchmark auf, der erst ab zwei Panels (mehr als acht Kerne) skaliert.














Rein von der Geschwindigkeit steht der Mars-Prozessor für ein Single-Sockel-System sehr gut da: Bei den Multithread-Benchmarks SPECint_2006_rate erreicht der Mars-Chip 585 (Float) und 672 (Integer). Ein einzelner Xeon E5-2695 v3(öffnet im neuen Fenster) (Haswell-EP) mit 14 Kernen schafft 410 und 557. Der Mars-Chip soll wie der Xeon 120 Watt benötigen, obgleich er in einem 28-nm-Verfahren (vermutlich bei TSMC) gefertigt wird. Das resultiert in einer Die-Fläche von satten 640 mm². Ähnlich groß sind IBMs Power8 und Intels Xeon Phi Knights Landing und Haswell-EX sowie einige ältere Prozessoren.
Phytium arbeitet auch an einem Earth genannten Chip, der auf einer Folie auftauchte - Zhang wollte darüber aber nicht sprechen. Ebenfalls keinen Kommentar gab es zum Erscheinungstermin des Mars-Prozessor. Ein möglicher Konkurrent wäre Applied Micros X-Gene 3, der mit bis zu 64 Kernen mit 3 GHz antreten soll. Caviums ThunderX setzt derzeit auf 48 Kerne bei 95 Watt.



