• IT-Karriere:
  • Services:

GA100: Nvidias 7-nm-Monster-GPU misst 826 mm²

Die 20-fache AI-Performance einer Tesla V100: Nvidias Ampere A100 reizt das aktuell technisch Mögliche aus.

Artikel von veröffentlicht am
A100 auf SXM4-Board
A100 auf SXM4-Board (Bild: Nvidia)

Nvidia hat den A100 vorgestellt - hinter dieser Bezeichnung verbirgt Beschleuniger für Supercomputer. Dessen GA100-Chip misst enorme 826 mm² in einem 7-nm-Verfahren ("7N" statt N7 oder N7P) und erreicht laut Nvidia vorerst eine theoretische INT8-Geschwindigkeit von bis zu 1,248 Petaops. Zum Vergleich: Die bisherige Tesla V100 schafft mit 62 Teraops nur 1/20 davon.

Stellenmarkt
  1. Lidl Digital, Neckarsulm
  2. European Bank for Financial Services GmbH (ebase®), Aschheim

Vorerst gibt es den A100-Beschleuniger einzig als SXM4-Mezzanine-Modul. Darauf befinden sich ein GA100-Chip mit Ampere-Architektur und sechs HBM2-Bausteinen. Die 826 mm² der GPU sind am Limit der Fertigungsmaske (Reticle), welches bei 858 mm² liegt. Nvidia zufolge sind 108 SMs mit je 64 Rechenkernen aktiv - das macht 6.912 statt 5.120 ALUs wie bei der Tesla V100. Die 108 SMs stellen nicht den Vollausbau des GA100-Chips mit seinen 54 Milliarden Transistoren dar, physisch sind 128 SMs (8.192 ALUs) vorhanden.

Laut Nvidia sind bei der A100 nur 40 GByte HBM2 verbaut - genauer fünf 8-GByte-Stacks mit zusammen 5.120 Bit und ein Dummy; die Speicherbandbreite gibt Nvidia ergo mit rund 1,56 TByte/s an. Im Vollausbau kann der A100 allerdings sechs Speicherstapel mit 6.144 Bit und ergo 48 GByte ansprechen. Bei der Tesla V100 sind vier Stacks mit 4.096 Bit für 900 GByte/s verbaut.

  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
  • Präsentation zu A100 (Bild: Nvidia)
Präsentation zu A100 (Bild: Nvidia)
Tesla V100 (SXM2)Nvidia A100 (SXM4)Nvidia A100 (PCIe)
GPU (µArch)GV100 (Volta), teilaktiviertGA100 (Ampere), teilaktiviertGA100 (Ampere), teilaktiviert
Node12FFN (TSMC)7N (TSMC)7N (TSMC)
Transistoren21,1 Milliarden54,2 Milliarden54,2 Milliarden
ALUs / Tensor5.120 / 6406.912 / 4326.912 / 432
Speicher32 GByte HBM240 GByte HBM2 / 80 GByte HBM2e40 GByte HBM2
Bandbreite900 GByte/s1,555 TByte/s bzw über 2 TByte/s1,555 TByte/s
FP647,45 Teraflops9,7 (19,5*) Teraflops9,7 (19,5*) Teraflops
FP3214,9 Teraflops19,5 Teraflops19,5 Teraflops
FP16125 Teraflops312 (624**) Teraflops312 (624**) Teraflops
INT862 Teraops624 (1.248**) Teraops624 (1.248**) Teraops
TDP300 Watt400 Watt250 Watt
NV-Link300 GByte/s (8x GPUs)600 GByte/s (8x GPUs)600 GByte/s (2x GPUs)
InterfacePCIe Gen3PCIe Gen4PCIe Gen4
Technische Daten von Nvidias Tesla V100 und A100 *viaTensor Cores **mit Sparsity

Zur allgemeinen Ampere-Technik sagt Nvidia, dass der L2-Cache satte 48 MByte statt 6 MByte fasst, der L1 samt Shared Memory pro SM wuchs von 128 KByte auf 196 KByte an. Neu sind die Tensor-Cores v3: Diese beherrschen als Formate neben FP16, BF16, INT8 und INT4 auch TF32. Das steht für Tensor Float 32 und ist quasi eine Mischung aus FP32 (einfache Genauigkeit) und FP16 (halbe Genauigkeit): Der 8-Bit-Exponent entspricht dem von FP32, die Mantisse ist mit 10 Bit identisch zu FP16. So beschleunigt TF32 die theoretische Leistung für Training auf 312 Teraflops; mit FP32 sind es nur 19,5 Teraflops.

Überdies beherrschen die Tensor-Cores nun auch FP64, hier liegt die rechnerische Geschwindigkeit bei besagten 19,5 Teraflops statt bei 9,7 Teraflops per Shader-ALUs. Mit INT8 per Tensor-Cores sind 1.248 Teraops für Inferencing möglich, mit INT4 gar 2.496 Teraops. Letzteres gilt allerdings nur, wenn per Sparsity das neuronale Netz ausgedünnt wird - das klappt mit BF32, TF32, FP16, INT8 und INT4. Ohne Sparsity halbiert sich die Geschwindigkeit der Tensor-Cores. Der GA100 hat weder RT-Kerne für Raytracing noch den NVENC zur Video-Decodierung/Encodierung.

Nvidia bietet die A100 als Teil des DGX A100 genannten System an: Hier sind acht Module verbaut, sie kommunizieren per NV-Link 3.0 mit 600 GByte/s über NV-Switches miteinander. Als Host-CPUs werden zwei 64-kernige Epyc 7742 (Rome) von AMD mit 1 TByte RAM verwendet, hinzu kommt 15 TByte an NVMe-SSDs mit PCIe Gen4. Im Betrieb sind 5,6 Kilowatt notwendig und der Kaufpreis liegt bei 200.000 US-Dollar. Erste Systeme wurden an das Argonne National Laboratory geliefert, es untersteht dem US-amerikanischen Energieministerium (DoE) und forscht mit dem DGX A100 an Covid-19.

Für Großkunden gibt es überdies den DGX A100 Superpod mit 140 Systemen. Vier solcher Superpods verwendet Nvidia selbst für die Selene-Erweiterung des eigenen Saturn-V-Supercomputers. Weitere Varianten sind das HGX-A100-Rack für Hyperscale-Server und das EGX A100 als PCIe-Karte für Edge-Anwendungen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Spiele-Angebote
  1. 8,99€
  2. (u. a. Batman Arkham City GOTY für 4,25€, Pathfinder: Kingmaker - Explorer Edition für 14...
  3. 22,99€

Kabbone 15. Mai 2020

Man zerschießt sich ja nicht direkt die Präzision, man bekommt nur irgendwas zwischen...

wurstdings 15. Mai 2020

Die halb Kaputten werden doch noch als Low-End-Variante weiter verwertet. Mich würde...

AllDayPiano 14. Mai 2020

Ok danke für die Erklärung

Anonymer Hash 14. Mai 2020

Das sind mal glatte 321 Femto-Saarländer...

Daepilin 14. Mai 2020

Nur nicht in nem Data Center afair, und das tun wir nicht, die sind in Desktop PCs bei...


Folgen Sie uns
       


Made in USA: Deutsche Huawei-Gegner schweigen zu Juniper-Hintertüren
Made in USA
Deutsche Huawei-Gegner schweigen zu Juniper-Hintertüren

Zu unbequemen Fragen schweigen die Transatlantiker Manuel Höferlin, Falko Mohrs, Metin Hakverdi, Norbert Röttgen und Friedrich Merz. Das wirkt unredlich.
Eine Recherche von Achim Sawall

  1. Sandworm Hacker nutzen alte Exim-Sicherheitslücke aus

Librem Mini v2 im Test: Der kleine Graue mit dem freien Bios
Librem Mini v2 im Test
Der kleine Graue mit dem freien Bios

Der neue Librem Mini eignet sich nicht nur perfekt für Linux, sondern hat als einer von ganz wenigen Rechnern die freie Firmware Coreboot und einen abgesicherten Bootprozess.
Ein Test von Moritz Tremmel

  1. Purism Neuer Librem Mini mit Comet Lake
  2. Librem 14 Purism-Laptops bekommen 6 Kerne und 14-Zoll-Display
  3. Librem Mini Purism bringt NUC-artigen Mini-PC

Geforce RTX 3060 Ti im Test: Die wäre toll, wenn verfügbar-Grafikkarte
Geforce RTX 3060 Ti im Test
Die "wäre toll, wenn verfügbar"-Grafikkarte

Mit der Geforce RTX 3060 Ti bringt Nvidia die Ampere-Technik in das 400-Euro-Segment. Dort ist die Radeon RX 5700 XT chancenlos.
Ein Test von Marc Sauter

  1. Supercomputer-Beschleuniger Nvidia verdoppelt Videospeicher des A100
  2. Nvidia Geforce RTX 3080 Ti kommt im Januar 2021 für 1.000 US-Dollar
  3. Ampere-Grafikkarten Specs der RTX 3080 Ti und RTX 3060 Ti

    •  /