GPU-Beschleunigung: Nvidia baut ARM-Referenzplattform

Nachdem Nvidia vor einigen Wochen mit Cuda X einen Software-Stack für Tesla-GPUs in ARM-Servern angekündigt hat, erfolgt nun die Veröffentlichung als Preview. Um die Verbreitung voranzutreiben, hat Nvidia eine ARM-Referenzplattform entwickelt. Daran beteiligt waren Partner wie Ampere, Cray, Fujitsu, HPE und Marvell.
Die Referenzplattform, scherzhaft Ebac (Everything but a CPU) genannt, nutzt acht Tesla V100 als Mezzanine-Module, welche per NV-Link-Chip verbunden sind. Darunter befindet sich – zumindest auf dem von Nvidia verteilten Bild – ein Server mit zwei ThunderX2 von Cavium, einer Marvell-Tochter.
Passend dazu hat Nvidia mit Magnum I/O eine Software entwickelt, welche per GPUDirect Storage(öffnet im neuen Fenster) die CPU umgeht und per PCIe-Switch die Tesla V100 direkt an Speichermedien wie NVMe-SSDs anbindet. Diese Funktion soll jedoch erst im ersten Halbjahr 2020 verfügbar sein.
Bisher sind ARM-Systeme im Supercomputer-Segment selten, es gibt aber mehrere Anbieter: Ampere hat den Emag alias Ampere A1 mit 32 Kernen entwickelt (früher X-Gene), von Cavium/Marvell stammt der ThunderX2 mit 56 Kernen und von Fujitsu der A64FX mit 52 Kernen. Zudem existiert noch der Hi1620 alias Kunpeng 920 von Huawei, wohingegen Qualcomm seine Centriq-CPUs eingestellt hat.
Microsoft verwendet die ThunderX2 in Azure-Instanzen , zudem bietet Cray mit dem CS500 mit dem Fujitsu A64FX bestückte Systeme an. Auch die November-Liste der Top500(öffnet im neuen Fenster) zeigt, dass die Anzahl der ARM-Supercomputer steigt: Der Astra ist schon älter, der Fugaku-Prototyp mit A64FX hingegen neu. Das System steigt zudem auf dem ersten Platz der Green500 ein, ist also extrem effizient.