GA100: Nvidias 7-nm-Monster-GPU misst 826 mm²

Die 20-fache AI-Performance einer Tesla V100: Nvidias Ampere A100 reizt das aktuell technisch Mögliche aus.

Artikel von veröffentlicht am
A100 auf SXM4-Board
A100 auf SXM4-Board (Bild: Nvidia)

Nvidia hat den A100 vorgestellt - hinter dieser Bezeichnung verbirgt Beschleuniger für Supercomputer. Dessen GA100-Chip misst enorme 826 mm² in einem 7-nm-Verfahren ("7N" statt N7 oder N7P) und erreicht laut Nvidia vorerst eine theoretische INT8-Geschwindigkeit von bis zu 1,248 Petaops. Zum Vergleich: Die bisherige Tesla V100 schafft mit 62 Teraops nur 1/20 davon.

Stellenmarkt
  1. SAP S4 HANA / ABAP Developer (w/m/d)
    Dürr IT Service GmbH, Bietigheim-Bissingen
  2. IT-Spezialist (m/w/d)
    Lotto Bayern | Abteilung 1 Referat 12 | HR-Marketing & Entwicklung, München
Detailsuche

Vorerst gibt es den A100-Beschleuniger einzig als SXM4-Mezzanine-Modul. Darauf befinden sich ein GA100-Chip mit Ampere-Architektur und sechs HBM2-Bausteinen. Die 826 mm² der GPU sind am Limit der Fertigungsmaske (Reticle), welches bei 858 mm² liegt. Nvidia zufolge sind 108 SMs mit je 64 Rechenkernen aktiv - das macht 6.912 statt 5.120 ALUs wie bei der Tesla V100. Die 108 SMs stellen nicht den Vollausbau des GA100-Chips mit seinen 54 Milliarden Transistoren dar, physisch sind 128 SMs (8.192 ALUs) vorhanden.

Laut Nvidia sind bei der A100 nur 40 GByte HBM2 verbaut - genauer fünf 8-GByte-Stacks mit zusammen 5.120 Bit und ein Dummy; die Speicherbandbreite gibt Nvidia ergo mit rund 1,56 TByte/s an. Im Vollausbau kann der A100 allerdings sechs Speicherstapel mit 6.144 Bit und ergo 48 GByte ansprechen. Bei der Tesla V100 sind vier Stacks mit 4.096 Bit für 900 GByte/s verbaut.

  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
Präsentation zu A100 (Bild: Nvidia)
Tesla V100 (SXM2)Nvidia A100 (SXM4)Nvidia A100 (PCIe)
GPU (µArch)GV100 (Volta), teilaktiviertGA100 (Ampere), teilaktiviertGA100 (Ampere), teilaktiviert
Node12FFN (TSMC)7N (TSMC)7N (TSMC)
Transistoren21,1 Milliarden54,2 Milliarden54,2 Milliarden
ALUs / Tensor5.120 / 6406.912 / 4326.912 / 432
Speicher32 GByte HBM240 GByte HBM2 / 80 GByte HBM2e40 GByte HBM2
Bandbreite900 GByte/s1,555 TByte/s bzw über 2 TByte/s1,555 TByte/s
FP647,45 Teraflops9,7 (19,5*) Teraflops9,7 (19,5*) Teraflops
FP3214,9 Teraflops19,5 Teraflops19,5 Teraflops
FP16125 Teraflops312 (624**) Teraflops312 (624**) Teraflops
INT862 Teraops624 (1.248**) Teraops624 (1.248**) Teraops
TDP300 Watt400 Watt250 Watt
NV-Link300 GByte/s (8x GPUs)600 GByte/s (8x GPUs)600 GByte/s (2x GPUs)
InterfacePCIe Gen3PCIe Gen4PCIe Gen4
Technische Daten von Nvidias Tesla V100 und A100 *viaTensor Cores **mit Sparsity

Zur allgemeinen Ampere-Technik sagt Nvidia, dass der L2-Cache satte 48 MByte statt 6 MByte fasst, der L1 samt Shared Memory pro SM wuchs von 128 KByte auf 196 KByte an. Neu sind die Tensor-Cores v3: Diese beherrschen als Formate neben FP16, BF16, INT8 und INT4 auch TF32. Das steht für Tensor Float 32 und ist quasi eine Mischung aus FP32 (einfache Genauigkeit) und FP16 (halbe Genauigkeit): Der 8-Bit-Exponent entspricht dem von FP32, die Mantisse ist mit 10 Bit identisch zu FP16. So beschleunigt TF32 die theoretische Leistung für Training auf 312 Teraflops; mit FP32 sind es nur 19,5 Teraflops.

Überdies beherrschen die Tensor-Cores nun auch FP64, hier liegt die rechnerische Geschwindigkeit bei besagten 19,5 Teraflops statt bei 9,7 Teraflops per Shader-ALUs. Mit INT8 per Tensor-Cores sind 1.248 Teraops für Inferencing möglich, mit INT4 gar 2.496 Teraops. Letzteres gilt allerdings nur, wenn per Sparsity das neuronale Netz ausgedünnt wird - das klappt mit BF32, TF32, FP16, INT8 und INT4. Ohne Sparsity halbiert sich die Geschwindigkeit der Tensor-Cores. Der GA100 hat weder RT-Kerne für Raytracing noch den NVENC zur Video-Decodierung/Encodierung.

Nvidia bietet die A100 als Teil des DGX A100 genannten System an: Hier sind acht Module verbaut, sie kommunizieren per NV-Link 3.0 mit 600 GByte/s über NV-Switches miteinander. Als Host-CPUs werden zwei 64-kernige Epyc 7742 (Rome) von AMD mit 1 TByte RAM verwendet, hinzu kommt 15 TByte an NVMe-SSDs mit PCIe Gen4. Im Betrieb sind 5,6 Kilowatt notwendig und der Kaufpreis liegt bei 200.000 US-Dollar. Erste Systeme wurden an das Argonne National Laboratory geliefert, es untersteht dem US-amerikanischen Energieministerium (DoE) und forscht mit dem DGX A100 an Covid-19.

Für Großkunden gibt es überdies den DGX A100 Superpod mit 140 Systemen. Vier solcher Superpods verwendet Nvidia selbst für die Selene-Erweiterung des eigenen Saturn-V-Supercomputers. Weitere Varianten sind das HGX-A100-Rack für Hyperscale-Server und das EGX A100 als PCIe-Karte für Edge-Anwendungen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Ubisoft
Avatar statt Assassin's Creed

E3 2021 Als wichtigste Neuheit hat Ubisoft ein Spiel auf Basis von Avatar vorgestellt - und Assassin's Creed muss mit Valhalla in die Verlängerung.

Ubisoft: Avatar statt Assassin's Creed
Artikel
  1. Fifa, Battlefield und Co.: Der EA-Hack startete mit Cookies für 10 US-Dollar
    Fifa, Battlefield und Co.
    Der EA-Hack startete mit Cookies für 10 US-Dollar

    Die Hacking-Gruppe erklärt dem Magazin Motherboard Schritt für Schritt, wie der Hack auf EA gelang. Die primäre Fehlerquelle: der Mensch.

  2. Extraction: Rainbow Six und der Kampf gegen Außerirdische
    Extraction
    Rainbow Six und der Kampf gegen Außerirdische

    E3 2021 Es ist ein ungewöhnlicher Ableger für Siege: Ubisoft hat Rainbow Six Extraction vorgestellt, das auf den Kampf gegen KI-Aliens setzt.

  3. Onlinetickets: 17-Jähriger betrügt Bahn um 270.000 Euro
    Onlinetickets
    17-Jähriger betrügt Bahn um 270.000 Euro

    Mit illegal erworbenen Onlinetickets soll ein 17-Jähriger die Bahn um 270.000 Euro geprellt haben. Entdeckt wurde er nur durch Zufall.

Kabbone 15. Mai 2020

Man zerschießt sich ja nicht direkt die Präzision, man bekommt nur irgendwas zwischen...

wurstdings 15. Mai 2020

Die halb Kaputten werden doch noch als Low-End-Variante weiter verwertet. Mich würde...

AllDayPiano 14. Mai 2020

Ok danke für die Erklärung

Anonymer Hash 14. Mai 2020

Das sind mal glatte 321 Femto-Saarländer...

Daepilin 14. Mai 2020

Nur nicht in nem Data Center afair, und das tun wir nicht, die sind in Desktop PCs bei...


Folgen Sie uns
       


  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Alternate (u. a. MSI Optix 27" WQHD/165 Hz 315,99€ und Fractal Design Vector RS Blackout Dark TG 116,89€) • Corsair Hydro H80i V2 RGB 73,50€ • Apple iPad 10.2 389€ • Razer Book 13 1.158,13€ • Fractal Design Define S2 Black 99,90€ • Intel i9-11900 379€ • EPOS Sennheiser GSP 600 149€ [Werbung]
    •  /