Zum Hauptinhalt Zur Navigation

Supercomputer-Beschleuniger: Nvidia verdoppelt Videospeicher des A100

Mit 80 GByte kann Nvidias aktualisierter A100- Supercomputer -Beschleuniger auf die doppelte Menge an Videospeicher zurückgreifen.
/ Marc Sauter
1 Kommentare News folgen (öffnet im neuen Fenster)
HGX-A100-Rack mit acht A100-Beschleunigern (Bild: Nvidia)
HGX-A100-Rack mit acht A100-Beschleunigern Bild: Nvidia

Nvidia hat den A100-Beschleuniger überarbeitet und wenige Monate nach der initialen Vorstellung mit doppelt so viel Videospeicher angekündigt. Statt 40 GByte sind 80 GByte verbaut, überdies steigt die Datentransfer-Rate um gut ein Viertel an. An den restlichen Eckdaten des A100-Beschleuniger ändert sich jedoch nichts.

Den A100 - das Tesla hat Nvidia aus dem Namen gestrichen - gab es bisher in zwei Varianten: Als PCIe-Steckkarte und als SXM4-Mezzanine-Modul, wobei Letzteres mit 400 Watt statt 250 Watt effektiv deutlich höhere Taktraten fahren kann, was sich in den technischen Spezifikationen nicht direkt widerspiegelt. Die SXM4-Version ist auch jene, welche mit 80 GByte aktualisiert wird.

Konkret verwendet Nvidia statt HMB2-Stapelspeicher den verbesserten HBM2E-Stacked Memory, wie er von Samsung und von SK Hynix produziert wird. Das steht für High Bandwidth Memory 2nd Gen Enhanced und beschreibt verglichen mit HBM2 eine Version des Stapelspeichers mit höherer Geschwindigkeit und doppelter Kapazität. Dabei werden acht DRAM-Chips (8Hi) mit je 16 GBit statt 8 GBit durchkontaktiert, die Datenrate liegt derzeit bei bis zu 3,6 GBit/s statt bis zu 2,4 GBit/s.

Technische Daten von Nvidias Tesla V100 und A100 *viaTensor Cores **mit Sparsity
Tesla V100 (SXM2) Nvidia A100 (SXM4) Nvidia A100 (PCIe)
GPU (µArch) GV100 (Volta), teilaktiviert GA100 (Ampere), teilaktiviert GA100 (Ampere), teilaktiviert
Node 12FFN (TSMC) 7N (TSMC) 7N (TSMC)
Transistoren 21,1 Milliarden 54,2 Milliarden 54,2 Milliarden
ALUs / Tensor 5.120 / 640 6.912 / 432 6.912 / 432
Speicher 32 GByte HBM2 40 GByte HBM2 / 80 GByte HBM2e 40 GByte HBM2
Bandbreite 900 GByte/s 1,555 TByte/s bzw über 2 TByte/s 1,555 TByte/s
FP64 7,45 Teraflops 9,7 (19,5*) Teraflops 9,7 (19,5*) Teraflops
FP32 14,9 Teraflops 19,5 Teraflops 19,5 Teraflops
FP16 125 Teraflops 312 (624**) Teraflops 312 (624**) Teraflops
INT8 62 Teraops 624 (1.248**) Teraops 624 (1.248**) Teraops
TDP 300 Watt 400 Watt 250 Watt
NV-Link 300 GByte/s (8x GPUs) 600 GByte/s (8x GPUs) 600 GByte/s (2x GPUs)
Interface PCIe Gen3 PCIe Gen4 PCIe Gen4

Wer sich nun das Rendering des SXM4-Mezzanine-Moduls des A100-Beschleunigers anschaut, wird sechs Stacks sehen - was bei 16 GByte pro Speicherstapel für 80 GByte nicht passt. Nvidia nutzt aus Gründen der Chip-Ausbeute (Yield) nur fünf aktive Stacks, der sechste ist ein mechanischer Dummy, der dazugehörige 1.024-Bit-Controller des GA100-Grafikprozessors wurde deaktiviert. Wie hoch die Geschwindigkeit der einzelnen Stapel ausfällt, sagte Nvidia nicht, nannte aber eine Transfer-Rate von über 2 TByte/s. Folgerichtig müssten die HBM2E-Stacks mit über 3 GBit/s statt zuvor 2,43 GBit/s laufen.

Nvidia verkauft den A100-Beschleuniger mit 80 GByte Videospeicher selbst noch im vierten Quartal 2020 als Teil der eigenen DGX-(Station)-A100-Systeme. Die HGX-A100(öffnet im neuen Fenster) -Racks für Hyperscale-Server, genauer: als Konfiguration mit vier oder acht Mezzanine-Modulen, folgen im ersten Halbjahr 2021. Diese Einschübe werden dann von Partnern wie Atos, Dell, Fujitsu, Gigabyte, HPE, Inspur, Lenovo, Quanta und Supermicro vertrieben.

Reklame

Golem HIGHEND mit Geforce RTX 5060 Ti und AMD Ryzen 9 7900

Jetzt bestellen bei Dubaro (öffnet im neuen Fenster)

Parallel zu Nvidias aktualisiertem A100 hat AMD die Radeon Instinct MI100 vorgestellt, den ersten Supercomputer-Beschleuniger mit CDNA-Technik. Die PCIe-Steckkarte weist eine höhere theoretische FP32- und FP64-Rechenleistung auf, zudem unterstützt sie schnelle Matrix-Multiplikationen.

Nvidia zeigt DGX A100
Nvidia zeigt DGX A100 (01:51)

Relevante Themen