Ampere-Grafikkarte: Nvidia bringt A100-Beschleuniger mit PCIe Gen4
Die steckbare Ampere-Karte hat eine geringere Leistungsaufnahme und ist kompatibler zu mehr Systemen.

Nvidia hat einen PCIe-Gen4-Ableger des A100-Beschleunigers für Server vorgestellt, welcher die SMX4-Variante des Nvidia A100 für Supercomputer ergänzt. Die Steckkarte ist etwas langsamer, lässt sich aber in mehr Systemen einsetzen, da auf den Mezzanine-Formfaktor verzichtet wird.
Schon bei der Tesla V100 gab es zwei Varianten, die jedoch unterschiedliche Taktraten aufwiesen. Beim A100-Beschleuniger hingegen gibt Nvidia die gleichen Frequenzen für die PCIe-Gen4- und die SMX4-Version an. Einziger Unterschied ist die maximale Leistungsaufnahme, welche mit 250 Watt statt 400 Watt deutlich niedriger ausfällt und somit auch die effektiv zu erreichenden Frequenzen begrenzt.
Technische Basis beider Modelle ist der mit 826 mm² riesige GA100-Chip mit Ampere-Architektur, den Nvidia in einem 7-nm-Verfahren beim Auftragsfertiger TSMC produzieren lässt. Die GPU bringt es im Vollausbau auf 128 SMs (8.192 ALUs), zudem gibt es ein 6.144-Bit-Interface mit 48 GByte HBM2-Videospeicher. Bei den A100-Beschleunigern sind jedoch nur 108 SMs (6.912 ALUs) sowie 5.120 Bit mit 40 GByte freigeschaltet; es fehlen also Shader-Einheiten und ein Speichercontroller ist deaktiviert. Die PCIe-Steckkarte wird passiv gekühlt, sie weist keine Display-Ausgänge auf.
Tesla V100 (SXM2) | Nvidia A100 (SXM4) | Nvidia A100 (PCIe) | |
---|---|---|---|
GPU (µArch) | GV100 (Volta), teilaktiviert | GA100 (Ampere), teilaktiviert | GA100 (Ampere), teilaktiviert |
Node | 12FFN (TSMC) | 7N (TSMC) | 7N (TSMC) |
Transistoren | 21,1 Milliarden | 54,2 Milliarden | 54,2 Milliarden |
ALUs / Tensor | 5.120 / 640 | 6.912 / 432 | 6.912 / 432 |
Speicher | 32 GByte HBM2 | 40 GByte HBM2 / 80 GByte HBM2e | 40 GByte HBM2 |
Bandbreite | 900 GByte/s | 1,555 TByte/s bzw über 2 TByte/s | 1,555 TByte/s |
FP64 | 7,45 Teraflops | 9,7 (19,5*) Teraflops | 9,7 (19,5*) Teraflops |
FP32 | 14,9 Teraflops | 19,5 Teraflops | 19,5 Teraflops |
FP16 | 125 Teraflops | 312 (624**) Teraflops | 312 (624**) Teraflops |
INT8 | 62 Teraops | 624 (1.248**) Teraops | 624 (1.248**) Teraops |
TDP | 300 Watt | 400 Watt | 250 Watt |
NV-Link | 300 GByte/s (8x GPUs) | 600 GByte/s (8x GPUs) | 600 GByte/s (2x GPUs) |
Interface | PCIe Gen3 | PCIe Gen4 | PCIe Gen4 |
Der Fokus der zwei Nvidia A100 liegt auf künstlicher Intelligenz, weshalb die integrierten Tensor-Cores für eine hohe INT8- und FP16-Leistung optimiert wurden. Die reguläre FP32- und FP64-Geschwindigkeit steigt verglichen mit der Tesla V100 hingegen weniger an. Nvidia zufolge werden die A100-Beschleuniger in Supercomputern wie dem Horeka, dem Juwels, dem Perlmutter, dem Raven-GPU und dem Theta-GPU eingesetzt. Zudem bieten Partner wie Asus, Atos, Cisco, Dell, Fujitsu, Gigabyte, HPE, Inspur, Lenovo und Supermicro entsprechende Serversysteme mit Nvidias A100 an. Als Cloud-Anbieter sind Alibaba, AWS, Baidu, Google, Microsoft, Oracle und Tencent mit dabei.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed