Supercomputer-Beschleuniger: Nvidia verdoppelt Videospeicher des A100
Mit 80 GByte kann Nvidias aktualisierter A100-Supercomputer-Beschleuniger auf die doppelte Menge an Videospeicher zurückgreifen.

Nvidia hat den A100-Beschleuniger überarbeitet und wenige Monate nach der initialen Vorstellung mit doppelt so viel Videospeicher angekündigt. Statt 40 GByte sind 80 GByte verbaut, überdies steigt die Datentransfer-Rate um gut ein Viertel an. An den restlichen Eckdaten des A100-Beschleuniger ändert sich jedoch nichts.
Den A100 - das Tesla hat Nvidia aus dem Namen gestrichen - gab es bisher in zwei Varianten: Als PCIe-Steckkarte und als SXM4-Mezzanine-Modul, wobei Letzteres mit 400 Watt statt 250 Watt effektiv deutlich höhere Taktraten fahren kann, was sich in den technischen Spezifikationen nicht direkt widerspiegelt. Die SXM4-Version ist auch jene, welche mit 80 GByte aktualisiert wird.
Konkret verwendet Nvidia statt HMB2-Stapelspeicher den verbesserten HBM2E-Stacked Memory, wie er von Samsungund von SK Hynix produziert wird. Das steht für High Bandwidth Memory 2nd Gen Enhanced und beschreibt verglichen mit HBM2 eine Version des Stapelspeichers mit höherer Geschwindigkeit und doppelter Kapazität. Dabei werden acht DRAM-Chips (8Hi) mit je 16 GBit statt 8 GBit durchkontaktiert, die Datenrate liegt derzeit bei bis zu 3,6 GBit/s statt bis zu 2,4 GBit/s.
Tesla V100 (SXM2) | Nvidia A100 (SXM4) | Nvidia A100 (PCIe) | |
---|---|---|---|
GPU (µArch) | GV100 (Volta), teilaktiviert | GA100 (Ampere), teilaktiviert | GA100 (Ampere), teilaktiviert |
Node | 12FFN (TSMC) | 7N (TSMC) | 7N (TSMC) |
Transistoren | 21,1 Milliarden | 54,2 Milliarden | 54,2 Milliarden |
ALUs / Tensor | 5.120 / 640 | 6.912 / 432 | 6.912 / 432 |
Speicher | 32 GByte HBM2 | 40 GByte HBM2 / 80 GByte HBM2e | 40 GByte HBM2 |
Bandbreite | 900 GByte/s | 1,555 TByte/s bzw über 2 TByte/s | 1,555 TByte/s |
FP64 | 7,45 Teraflops | 9,7 (19,5*) Teraflops | 9,7 (19,5*) Teraflops |
FP32 | 14,9 Teraflops | 19,5 Teraflops | 19,5 Teraflops |
FP16 | 125 Teraflops | 312 (624**) Teraflops | 312 (624**) Teraflops |
INT8 | 62 Teraops | 624 (1.248**) Teraops | 624 (1.248**) Teraops |
TDP | 300 Watt | 400 Watt | 250 Watt |
NV-Link | 300 GByte/s (8x GPUs) | 600 GByte/s (8x GPUs) | 600 GByte/s (2x GPUs) |
Interface | PCIe Gen3 | PCIe Gen4 | PCIe Gen4 |
Wer sich nun das Rendering des SXM4-Mezzanine-Moduls des A100-Beschleunigers anschaut, wird sechs Stacks sehen - was bei 16 GByte pro Speicherstapel für 80 GByte nicht passt. Nvidia nutzt aus Gründen der Chip-Ausbeute (Yield) nur fünf aktive Stacks, der sechste ist ein mechanischer Dummy, der dazugehörige 1.024-Bit-Controller des GA100-Grafikprozessors wurde deaktiviert. Wie hoch die Geschwindigkeit der einzelnen Stapel ausfällt, sagte Nvidia nicht, nannte aber eine Transfer-Rate von über 2 TByte/s. Folgerichtig müssten die HBM2E-Stacks mit über 3 GBit/s statt zuvor 2,43 GBit/s laufen.
Nvidia verkauft den A100-Beschleuniger mit 80 GByte Videospeicher selbst noch im vierten Quartal 2020 als Teil der eigenen DGX-(Station)-A100-Systeme. Die HGX-A100-Racks für Hyperscale-Server, genauer: als Konfiguration mit vier oder acht Mezzanine-Modulen, folgen im ersten Halbjahr 2021. Diese Einschübe werden dann von Partnern wie Atos, Dell, Fujitsu, Gigabyte, HPE, Inspur, Lenovo, Quanta und Supermicro vertrieben.
Parallel zu Nvidias aktualisiertem A100 hat AMD die Radeon Instinct MI100 vorgestellt, den ersten Supercomputer-Beschleuniger mit CDNA-Technik. Die PCIe-Steckkarte weist eine höhere theoretische FP32- und FP64-Rechenleistung auf, zudem unterstützt sie schnelle Matrix-Multiplikationen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed