Top500: China hat das Exaflops-Supercomputer-Rennen gewonnen

In der aktuellen November-Liste der Top500 der schnellsten Supercomputer der Welt fehlen die beiden schnellsten Supercomputer der Welt. Das mag kurios klingen, aber die zwei Systeme stammen aus China und sind ungeachtet ihrer enormen Leistung bisher nicht aufgeführt - aus Gründen.
Es handelt sich um die ersten Exaflops-Supercomputer überhaupt, denn der US-amerikanische Frontier mit AMDs Epyc-Trento-CPUs sowie Instinct-MI250X -Beschleunigern befindet sich noch im Aufbau. Besonders spannend ist, dass beide chinesischen Systeme keine US-Technik verwenden, stattdessen kommen selbst entwickelte Prozessoren und Beschleuniger zum Einsatz.
Auf der aktuell stattfindenden Supercomputer-Messe SC21(öffnet im neuen Fenster) präsentierten chinesische Wissenschaftler die beiden Exaflops-Rechner und nahmen sogar Stellung dazu, wieso diese nicht in der Top500-Liste auftauchen. Auch gab David Kahaner vom Asian Technology Information Program (ATIP) einen Einblick, welche Leistung die Systeme erreichen und wofür sie eingesetzt werden sollen.
Eigene Technik statt US-Komponenten
Vergleichsweise viele Informationen liegen zum Sunway-Supercomputer vor, er heißt Ocean Light und befindet sich in Qingdao(öffnet im neuen Fenster) , einer Küstenstadt in der Provinz Shandong am Gelben Meer. Wie bisher schon beim Taihu Light , einst Top500-Spitzenreiter, werden sogenannte Shenwei-Chips genutzt. Es handelt sich dabei um RISC-Modelle, die vom Shanghai High Performance IC Design Center stammen.








Im Taihu Light stecken noch die SW26010-Ableger, im Nachfolger hingegen wenig überraschend eine verbesserte Version. Wie Qianchao Zhu vom Center for Data Science der Peking University erläuterte, steigt die für wissenschaftliche Berechnungen relevante FP64-Performance pro Chip von 3.1 Teraflops auf gleich 14 Teraflops und die DDR4-Speichertransferrate von 126 GByte/s auf 307 GByte/s.
Möglich wird dies durch sechs statt vier Gruppen mit zusammen 384 statt 260 Kern-Clustern, wobei deren einzelne CPEs (Compute Processing Elements) von 256 auf 512 Bit verdoppelte Vector-Einheiten aufweisen. Jedes CPE hat 256 KByte statt 64 KByte als Local Device Memory, was in etwa dem Zuwachs der Rohleistung entspricht. Als Name wäre SW38410 naheliegend gewesen, stattdessen heißen die Chips schlicht SW26010 Pro und ein jeder davon nutzt 96 GByte DDR4-Speicher.
Ocean Light mit bis zu 1,5 Exaflops
Mit über 108.960 Nodes und rund 42 Millionen Kernen liefert der Supercomputer theoretisch satte 1,525 Exaflops bei doppelter Genauigkeit und soll 1,05 Exaflops im Linpack schaffen - mal eben das Dreifache des japanischen Fugaku , dem schnellsten in den Top500 aufgeführten System. Es nutzt von Fujitsu entwickelte ARM-basierte Prozessoren namens A64FX , welche die Scalable Vector Extension (SVE) für 512 Bit breite Vektoren implementiert haben.
Auf die Frage, warum der Ocean Light nicht für die Top500-Liste gemeldet wurde, musste Qianchao Zhu kurz lachen - und sagte: "Der Hersteller des Systems hat sich dazu entschieden, keine Werte zu übermitteln, wir respektieren das" - oder mit anderen Worten: Das National Research Center of Parallel Computer Engineering & Technology (NRCPC), sprich die chinesische Regierung, hat das so beschlossen.
Über das zweite Exaflops-System wurde auf der SC21 zumindest von chinesischer Seite nicht gesprochen, David Kahaner vom ATIP aber hat bekannte und neue Informationen zusammengetragen.
Tianhe-3 mit bis zu 1,7 Exaflops
Der Nachfolger des Tianhe-2A , von 2013 bis 2015 der schnellste Supercomputer der Welt, heißt Tianhe-3. Er steht am National Supercomputer Center in Guangzhou(öffnet im neuen Fenster) und soll eine theoretische Spitzenleistung von gleich 1,7 Exaflops erreichen. In einem erst kürzlich durchgeführten Linkpack-Lauf wurden laut Kahaners Informationen gar 1,3 Exaflops vermeldet.
Einst nutzte der Tianhe-2A von Intel gelieferte Xeon-x86-CPUs und passend dazu Xeon-Phi-31S1P -Beschleuniger. Die aber wurden eingestellt, weshalb auf in China entwickelte Matrix 2000, sogenannte GPDSPs (General Purpose Digital Signal Processors), umgeschwenkt wurde. Aufgrund des Banns seitens der USA fiel für den Tianhe-3 zudem die Xeon-Option weg, ergo mussten andere CPUs her.
Folgerichtig basiert das System auf von Phytium gestellten ARM-Prozessoren, denkbar wäre beispielsweise der Feiteng S2500(öffnet im neuen Fenster) mit 64 Kernen, aktueller FTC663-Architektur und achtkanaligem DDR4-3200-Interface bei 150 Watt. Die eigentliche Rechenleistung liefern die Matrix 2000+ mit acht DDR4-2400-Kanälen, deren 128 RISC-Kerne mit 2 GHz statt zuvor 1,2 GHz laufen und so 2 Teraflops pro Beschleuniger erzeugen. Außerdem soll die National University of Defense Technology(öffnet im neuen Fenster) (NUDT) den Software-Stack stark optimiert haben.
Warten, bis die US vorlegen, und dann kontern?
Nicht über die eigenen Supercomputer zu reden, ist typisch für China: Laut Kahaner hatte der Taihu Light (93 Linpack-Petaflops) seinen ersten Platz im innerländischen Ranking schon vor den beiden Exaflops-Supercomputern abtreten müssen. Ein nicht näher benanntes System eines Cloud-Anbieters wie Alibaba oder Tencent liefert mit 125 Petaflops mehr Leistung und am Chengdu Supercomputing Center soll ein Sugon-Rechner mit 98 Petaflops stehen.








Stellt sich am Ende die Frage, wieso China sich dazu entschieden hat, den Ocean Light und den Tianhe-3 nicht für die Top500-Liste zu melden. Zumindest Ersterer könnte schon im Sommer 2022 vom US-amerikanischen Frontier kassiert werden, was schlecht aussehen würde. Eventuell wartet die Regierung daher auf den finalen Tianhe-3, damit dieser die Führung übernimmt. Denn im Endeffekt hat der US-Bann die Chinesen nicht geschwächt, sondern nur noch mehr angespornt.
Die USA allerdings sind abseits des Frontier-Supercomputers ebenfalls nicht untätig und haben mit dem El Capitan sowie dem Aurora(öffnet im neuen Fenster) zwei weitere Exaflops-Systeme im Aufbau. Der El Capitan nutzt AMDs Epyc-Genoa und Instinct-Beschleuniger, der Aurora hingegen Intels Sapphire Rapids als CPUs plus Intels Ponte Vecchio als Beschleuniger.



