GA100: Nvidias 7-nm-Monster-GPU misst 826 mm²

Die 20-fache AI-Performance einer Tesla V100: Nvidias Ampere A100 reizt das aktuell technisch Mögliche aus.

Artikel von veröffentlicht am
A100 auf SXM4-Board
A100 auf SXM4-Board (Bild: Nvidia)

Nvidia hat den A100 vorgestellt - hinter dieser Bezeichnung verbirgt Beschleuniger für Supercomputer. Dessen GA100-Chip misst enorme 826 mm² in einem 7-nm-Verfahren ("7N" statt N7 oder N7P) und erreicht laut Nvidia vorerst eine theoretische INT8-Geschwindigkeit von bis zu 1,248 Petaops. Zum Vergleich: Die bisherige Tesla V100 schafft mit 62 Teraops nur 1/20 davon.

Stellenmarkt
  1. PHP Entwickler / Developer Backend (m/w/d)
    Digital Shipping GmbH, deutschlandweit (Home-Office)
  2. Embedded Softwareentwickler (m/w/d) für Medizinprodukte
    Ziehm Imaging GmbH, Nürnberg
Detailsuche

Vorerst gibt es den A100-Beschleuniger einzig als SXM4-Mezzanine-Modul. Darauf befinden sich ein GA100-Chip mit Ampere-Architektur und sechs HBM2-Bausteinen. Die 826 mm² der GPU sind am Limit der Fertigungsmaske (Reticle), welches bei 858 mm² liegt. Nvidia zufolge sind 108 SMs mit je 64 Rechenkernen aktiv - das macht 6.912 statt 5.120 ALUs wie bei der Tesla V100. Die 108 SMs stellen nicht den Vollausbau des GA100-Chips mit seinen 54 Milliarden Transistoren dar, physisch sind 128 SMs (8.192 ALUs) vorhanden.

Laut Nvidia sind bei der A100 nur 40 GByte HBM2 verbaut - genauer fünf 8-GByte-Stacks mit zusammen 5.120 Bit und ein Dummy; die Speicherbandbreite gibt Nvidia ergo mit rund 1,56 TByte/s an. Im Vollausbau kann der A100 allerdings sechs Speicherstapel mit 6.144 Bit und ergo 48 GByte ansprechen. Bei der Tesla V100 sind vier Stacks mit 4.096 Bit für 900 GByte/s verbaut.

  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
Präsentation zu A100 (Bild: Nvidia)
Tesla V100 (SXM2)Nvidia A100 (SXM4)Nvidia A100 (PCIe)
GPU (µArch)GV100 (Volta), teilaktiviertGA100 (Ampere), teilaktiviertGA100 (Ampere), teilaktiviert
Node12FFN (TSMC)7N (TSMC)7N (TSMC)
Transistoren21,1 Milliarden54,2 Milliarden54,2 Milliarden
ALUs / Tensor5.120 / 6406.912 / 4326.912 / 432
Speicher32 GByte HBM240 GByte HBM2 / 80 GByte HBM2e40 GByte HBM2
Bandbreite900 GByte/s1,555 TByte/s bzw über 2 TByte/s1,555 TByte/s
FP647,45 Teraflops9,7 (19,5*) Teraflops9,7 (19,5*) Teraflops
FP3214,9 Teraflops19,5 Teraflops19,5 Teraflops
FP16125 Teraflops312 (624**) Teraflops312 (624**) Teraflops
INT862 Teraops624 (1.248**) Teraops624 (1.248**) Teraops
TDP300 Watt400 Watt250 Watt
NV-Link300 GByte/s (8x GPUs)600 GByte/s (8x GPUs)600 GByte/s (2x GPUs)
InterfacePCIe Gen3PCIe Gen4PCIe Gen4
Technische Daten von Nvidias Tesla V100 und A100 *viaTensor Cores **mit Sparsity

Zur allgemeinen Ampere-Technik sagt Nvidia, dass der L2-Cache satte 48 MByte statt 6 MByte fasst, der L1 samt Shared Memory pro SM wuchs von 128 KByte auf 196 KByte an. Neu sind die Tensor-Cores v3: Diese beherrschen als Formate neben FP16, BF16, INT8 und INT4 auch TF32. Das steht für Tensor Float 32 und ist quasi eine Mischung aus FP32 (einfache Genauigkeit) und FP16 (halbe Genauigkeit): Der 8-Bit-Exponent entspricht dem von FP32, die Mantisse ist mit 10 Bit identisch zu FP16. So beschleunigt TF32 die theoretische Leistung für Training auf 312 Teraflops; mit FP32 sind es nur 19,5 Teraflops.

Golem Akademie
  1. CEH Certified Ethical Hacker v11: virtueller Fünf-Tage-Workshop
    21.–25. Februar 2022, Virtuell
  2. Linux-Shellprogrammierung: virtueller Vier-Tage-Workshop
    8.–11. März 2022, Virtuell
Weitere IT-Trainings

Überdies beherrschen die Tensor-Cores nun auch FP64, hier liegt die rechnerische Geschwindigkeit bei besagten 19,5 Teraflops statt bei 9,7 Teraflops per Shader-ALUs. Mit INT8 per Tensor-Cores sind 1.248 Teraops für Inferencing möglich, mit INT4 gar 2.496 Teraops. Letzteres gilt allerdings nur, wenn per Sparsity das neuronale Netz ausgedünnt wird - das klappt mit BF32, TF32, FP16, INT8 und INT4. Ohne Sparsity halbiert sich die Geschwindigkeit der Tensor-Cores. Der GA100 hat weder RT-Kerne für Raytracing noch den NVENC zur Video-Decodierung/Encodierung.

Nvidia bietet die A100 als Teil des DGX A100 genannten System an: Hier sind acht Module verbaut, sie kommunizieren per NV-Link 3.0 mit 600 GByte/s über NV-Switches miteinander. Als Host-CPUs werden zwei 64-kernige Epyc 7742 (Rome) von AMD mit 1 TByte RAM verwendet, hinzu kommt 15 TByte an NVMe-SSDs mit PCIe Gen4. Im Betrieb sind 5,6 Kilowatt notwendig und der Kaufpreis liegt bei 200.000 US-Dollar. Erste Systeme wurden an das Argonne National Laboratory geliefert, es untersteht dem US-amerikanischen Energieministerium (DoE) und forscht mit dem DGX A100 an Covid-19.

Für Großkunden gibt es überdies den DGX A100 Superpod mit 140 Systemen. Vier solcher Superpods verwendet Nvidia selbst für die Selene-Erweiterung des eigenen Saturn-V-Supercomputers. Weitere Varianten sind das HGX-A100-Rack für Hyperscale-Server und das EGX A100 als PCIe-Karte für Edge-Anwendungen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Kabbone 15. Mai 2020

Man zerschießt sich ja nicht direkt die Präzision, man bekommt nur irgendwas zwischen...

wurstdings 15. Mai 2020

Die halb Kaputten werden doch noch als Low-End-Variante weiter verwertet. Mich würde...

AllDayPiano 14. Mai 2020

Ok danke für die Erklärung

Anonymer Hash 14. Mai 2020

Das sind mal glatte 321 Femto-Saarländer...

Daepilin 14. Mai 2020

Nur nicht in nem Data Center afair, und das tun wir nicht, die sind in Desktop PCs bei...



Aktuell auf der Startseite von Golem.de
Bundesservice Telekommunikation
Schlecht getarnte Tarnorganisation praktisch enttarnt

Inzwischen ist offensichtlich, dass der Bundesservice Telekommunikation zum Bundesamt für Verfassungsschutz gehört.
Von Friedhelm Greis

Bundesservice Telekommunikation: Schlecht getarnte Tarnorganisation praktisch enttarnt
Artikel
  1. Digitalisierung: 500-Euro-Laptops für Lehrer leistungsfähig und gut nutzbar
    Digitalisierung
    500-Euro-Laptops für Lehrer "leistungsfähig und gut nutzbar"

    Das Land NRW hat seine Lehrkräfte mit Dienst-Laptops ausgestattet. Doch diese äußern deutliche Kritik und verwenden wohl weiter private Geräte.

  2. Volkswagen Payments: VW entlässt Mitarbeiter wohl wegen Cybersicherheits-Bedenken
    Volkswagen Payments
    VW entlässt Mitarbeiter wohl wegen Cybersicherheits-Bedenken

    Volkswagen entlässt einem Bericht nach einen Mitarbeiter, nachdem dieser Bedenken hinsichtlich der Cybersicherheit von Volkswagen Payments äußerte.

  3. Frequenzen: Bundesnetzagentur erfüllt Forderungen der Mobilfunkkonzerne
    Frequenzen
    Bundesnetzagentur erfüllt Forderungen der Mobilfunkkonzerne

    Jochen Homann könnte vor seinem Ruhestand noch einmal Vodafone, Deutsche Telekom und Telefónica erfreuen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • RTX 3080 Ti 12GB 1.699€ • Intel i9-10900K 444,88€ • Huawei Curved Gaming-Monitor 27" 299€ • Hisense-TVs zu Bestpreisen (u. a. 55" OLED 739€) • RX 6900 1.449€ • MindStar (u.a. Intel i7-10700KF 279€) • 4 Blu-rays für 22€ • LG OLED (2021) 77 Zoll 120Hz 2.799€ [Werbung]
    •  /