• IT-Karriere:
  • Services:

GA100: Nvidias 7-nm-Monster-GPU misst 826 mm²

Die 20-fache AI-Performance einer Tesla V100: Nvidias Ampere A100 reizt das aktuell technisch Mögliche aus.

Artikel von veröffentlicht am
A100 auf SXM4-Board
A100 auf SXM4-Board (Bild: Nvidia)

Nvidia hat den A100 vorgestellt - hinter dieser Bezeichnung verbirgt Beschleuniger für Supercomputer. Dessen GA100-Chip misst enorme 826 mm² in einem 7-nm-Verfahren und erreicht laut Nvidia vorerst eine theoretische INT8-Geschwindigkeit von bis zu 1,248 Petaops. Zum Vergleich: Die bisherige Tesla V100 schafft mit 62 Teraops nur 1/20 davon.

Stellenmarkt
  1. Lebensversicherung von 1871 a. G. München, München (Home-Office möglich)
  2. über duerenhoff GmbH, Lübeck

Vorerst gibt es den A100-Beschleuniger einzig als SXM4-Mezzanine-Modul. Darauf befinden sich ein GA100-Chip mit Ampere-Architektur und sechs HBM2-Bausteinen. Die 826 mm² der GPU sind am Limit der Fertigungsmaske (Reticle), welches bei 858 mm² liegt. Nvidia zufolge sind 108 SMs mit je 64 Rechenkernen aktiv - das macht 6.912 statt 5.120 ALUs wie bei der Tesla V100. Die 108 SMs stellen nicht den Vollausbau des GA100-Chips mit seinen 54 Milliarden Transistoren dar, physisch sind 128 SMs (8.192 ALUs) vorhanden.

Laut Nvidia sind bei der A100 nur 40 GByte HBM2 verbaut - genauer fünf 8-GByte-Stacks mit zusammen 5.120 Bit und ein Dummy; die Speicherbandbreite gibt Nvidia ergo mit rund 1,56 TByte/s an. Im Vollausbau kann der A100 allerdings sechs Speicherstapel mit 6.144 Bit und ergo 48 GByte ansprechen. Bei der Tesla V100 sind vier Stacks mit 4.096 Bit für 900 GByte/s verbaut.

  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
Präsentation zu A100 (Bild: Nvidia)
Tesla V100 (SXM2)Nvidia A100 (SXM4)
GPU (µArch)GV100 (Volta), teilaktiviertGA100 (Ampere), teilaktiviert
Node12FFN (TSMC)N7 (TSMC)
Transistoren21,1 Milliarden54,2 Milliarden
ALUs / Tensor5.120 / 6406.912 / 432
Speicher32 GByte HBM240 GByte HBM2
Bandbreite900 GByte/s1.555 GByte/s
FP647,45 Teraflops9,7 (19,5*) Teraflops
FP3214,9 Teraflops19,5 Teraflops
FP16125 Teraflops312 (624*) Teraflops
INT862 Teraops624 (1.248*) Teraops
TDP300 Watt400 Watt
NV-Link300 GByte/s600 GByte/s
InterfacePCIe Gen3PCIe Gen4
Nvidias Supercomputer-Beschleuniger *mit Tensor Sparsity

Zur allgemeinen Ampere-Technik sagt Nvidia, dass der L2-Cache satte 48 MByte statt 6 MByte fasst, der L1 samt Shared Memory pro SM wuchs von 128 KByte auf 196 KByte an. Neu sind die Tensor-Cores v3: Diese beherrschen als Formate neben FP16, BF16, INT8 und INT4 auch TF32. Das steht für Tensor Float 32 und ist quasi eine Mischung aus FP32 (einfache Genauigkeit) und FP16 (halbe Genauigkeit): Der 8-Bit-Exponent entspricht dem von FP32, die Mantisse ist mit 10 Bit identisch zu FP16. So beschleunigt TF32 die theoretische Leistung für Training auf 312 Teraflops; mit FP32 sind es nur 19,5 Teraflops.

Überdies beherrschen die Tensor-Cores nun auch FP64, hier liegt die rechnerische Geschwindigkeit bei besagten 19,5 Teraflops statt bei 9,7 Teraflops per Shader-ALUs. Mit INT8 per Tensor-Cores sind 1.248 Teraops für Inferencing möglich, mit INT4 gar 2.496 Teraops. Letzteres gilt allerdings nur, wenn per Sparsity das neuronale Netz ausgedünnt wird - das klappt mit BF32, TF32, FP16, INT8 und INT4. Ohne Sparsity halbiert sich die Geschwindigkeit der Tensor-Cores. Der GA100 hat weder RT-Kerne für Raytracing noch den NVENC zur Video-Decodierung/Encodierung.

Nvidia bietet die A100 als Teil des DGX A100 genannten System an: Hier sind acht Module verbaut, sie kommunizieren per NV-Link 3.0 mit 600 GByte/s über NV-Switches miteinander. Als Host-CPUs werden zwei 64-kernige Epyc 7742 (Rome) von AMD mit 1 TByte RAM verwendet, hinzu kommt 15 TByte an NVMe-SSDs mit PCIe Gen4. Im Betrieb sind 5,6 Kilowatt notwendig und der Kaufpreis liegt bei 200.000 US-Dollar. Erste Systeme wurden an das Argonne National Laboratory geliefert, es untersteht dem US-amerikanischen Energieministerium (DoE) und forscht mit dem DGX A100 an Covid-19.

Für Großkunden gibt es überdies den DGX A100 Superpod mit 140 Systemen. Vier solcher Superpods verwendet Nvidia selbst für den eigenen Saturn-V-Supercomputer. Weitere Varianten sind das HGX-A100-Rack für Hyperscale-Server und das EGX A100 als PCIe-Karte für Edge-Anwendungen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Spiele-Angebote
  1. (u. a. The Bradwell Conspiracy für 8,99€, Days of War: Definitive Edition für 8,30€, The King...
  2. 7,99€
  3. 31,49€

Kabbone 15. Mai 2020 / Themenstart

Man zerschießt sich ja nicht direkt die Präzision, man bekommt nur irgendwas zwischen...

wurstdings 15. Mai 2020 / Themenstart

Die halb Kaputten werden doch noch als Low-End-Variante weiter verwertet. Mich würde...

AllDayPiano 14. Mai 2020 / Themenstart

Ok danke für die Erklärung

Anonymer Hash 14. Mai 2020 / Themenstart

Das sind mal glatte 321 Femto-Saarländer...

Daepilin 14. Mai 2020 / Themenstart

Nur nicht in nem Data Center afair, und das tun wir nicht, die sind in Desktop PCs bei...

Kommentieren


Folgen Sie uns
       


Wo bleiben die E-Flugzeuge? (Interview mit Rolf Henke vom DLR)

Wir haben den Bereichsvorstand Luftfahrt beim DLR gefragt, was Alternativen zum herkömmlichen Flugzeug so kompliziert macht.

Wo bleiben die E-Flugzeuge? (Interview mit Rolf Henke vom DLR) Video aufrufen
    •  /