Zum Hauptinhalt Zur Navigation

Ampere-Grafikkarte: Nvidia bringt A100-Beschleuniger mit PCIe Gen4

Die steckbare Ampere -Karte hat eine geringere Leistungsaufnahme und ist kompatibler zu mehr Systemen.
/ Marc Sauter
Kommentare News folgen (öffnet im neuen Fenster)
A100 als PCIe-Gen4-Steckkarte und als SMX4-Mezzanine-Modul (Bild: Nvidia)
A100 als PCIe-Gen4-Steckkarte und als SMX4-Mezzanine-Modul Bild: Nvidia

Nvidia hat einen PCIe-Gen4-Ableger des A100-Beschleunigers für Server vorgestellt, welcher die SMX4-Variante des Nvidia A100 für Supercomputer ergänzt. Die Steckkarte ist etwas langsamer, lässt sich aber in mehr Systemen einsetzen, da auf den Mezzanine-Formfaktor verzichtet wird.

Schon bei der Tesla V100 gab es zwei Varianten, die jedoch unterschiedliche Taktraten aufwiesen. Beim A100-Beschleuniger hingegen gibt Nvidia die gleichen Frequenzen für die PCIe-Gen4- und die SMX4-Version an. Einziger Unterschied ist die maximale Leistungsaufnahme, welche mit 250 Watt statt 400 Watt deutlich niedriger ausfällt und somit auch die effektiv zu erreichenden Frequenzen begrenzt.

Technische Basis beider Modelle ist der mit 826 mm² riesige GA100-Chip mit Ampere-Architektur, den Nvidia in einem 7-nm-Verfahren beim Auftragsfertiger TSMC produzieren lässt. Die GPU bringt es im Vollausbau auf 128 SMs (8.192 ALUs), zudem gibt es ein 6.144-Bit-Interface mit 48 GByte HBM2-Videospeicher. Bei den A100-Beschleunigern sind jedoch nur 108 SMs (6.912 ALUs) sowie 5.120 Bit mit 40 GByte freigeschaltet; es fehlen also Shader-Einheiten und ein Speichercontroller ist deaktiviert. Die PCIe-Steckkarte wird passiv gekühlt, sie weist keine Display-Ausgänge auf.

Technische Daten von Nvidias Tesla V100 und A100 *viaTensor Cores **mit Sparsity
Tesla V100 (SXM2) Nvidia A100 (SXM4) Nvidia A100 (PCIe)
GPU (µArch) GV100 (Volta), teilaktiviert GA100 (Ampere), teilaktiviert GA100 (Ampere), teilaktiviert
Node 12FFN (TSMC) 7N (TSMC) 7N (TSMC)
Transistoren 21,1 Milliarden 54,2 Milliarden 54,2 Milliarden
ALUs / Tensor 5.120 / 640 6.912 / 432 6.912 / 432
Speicher 32 GByte HBM2 40 GByte HBM2 / 80 GByte HBM2e 40 GByte HBM2
Bandbreite 900 GByte/s 1,555 TByte/s bzw über 2 TByte/s 1,555 TByte/s
FP64 7,45 Teraflops 9,7 (19,5*) Teraflops 9,7 (19,5*) Teraflops
FP32 14,9 Teraflops 19,5 Teraflops 19,5 Teraflops
FP16 125 Teraflops 312 (624**) Teraflops 312 (624**) Teraflops
INT8 62 Teraops 624 (1.248**) Teraops 624 (1.248**) Teraops
TDP 300 Watt 400 Watt 250 Watt
NV-Link 300 GByte/s (8x GPUs) 600 GByte/s (8x GPUs) 600 GByte/s (2x GPUs)
Interface PCIe Gen3 PCIe Gen4 PCIe Gen4

Der Fokus der zwei Nvidia A100 liegt auf künstlicher Intelligenz, weshalb die integrierten Tensor-Cores für eine hohe INT8- und FP16-Leistung optimiert wurden. Die reguläre FP32- und FP64-Geschwindigkeit steigt verglichen mit der Tesla V100 hingegen weniger an. Nvidia zufolge werden die A100-Beschleuniger in Supercomputern wie dem Horeka, dem Juwels, dem Perlmutter, dem Raven-GPU und dem Theta-GPU eingesetzt. Zudem bieten Partner wie Asus, Atos, Cisco, Dell, Fujitsu, Gigabyte, HPE, Inspur, Lenovo und Supermicro entsprechende Serversysteme mit Nvidias A100 an. Als Cloud-Anbieter sind Alibaba, AWS, Baidu, Google, Microsoft, Oracle und Tencent mit dabei.


Relevante Themen