Supercomputer-Beschleuniger: Nvidia verdoppelt Videospeicher des A100

Mit 80 GByte kann Nvidias aktualisierter A100-Supercomputer-Beschleuniger auf die doppelte Menge an Videospeicher zurückgreifen.

Artikel veröffentlicht am ,
HGX-A100-Rack mit acht A100-Beschleunigern
HGX-A100-Rack mit acht A100-Beschleunigern (Bild: Nvidia)

Nvidia hat den A100-Beschleuniger überarbeitet und wenige Monate nach der initialen Vorstellung mit doppelt so viel Videospeicher angekündigt. Statt 40 GByte sind 80 GByte verbaut, überdies steigt die Datentransfer-Rate um gut ein Viertel an. An den restlichen Eckdaten des A100-Beschleuniger ändert sich jedoch nichts.

Stellenmarkt
  1. Senior IT Expert Managed OS Linux Server (m/w/d)
    BWI GmbH, Wilhelmshaven, Berlin, Strausberg, Bonn, Meckenheim
  2. Senior IT-Architect Datensicherung (m/w/d)
    BWI GmbH, deutschlandweit
Detailsuche

Den A100 - das Tesla hat Nvidia aus dem Namen gestrichen - gab es bisher in zwei Varianten: Als PCIe-Steckkarte und als SXM4-Mezzanine-Modul, wobei Letzteres mit 400 Watt statt 250 Watt effektiv deutlich höhere Taktraten fahren kann, was sich in den technischen Spezifikationen nicht direkt widerspiegelt. Die SXM4-Version ist auch jene, welche mit 80 GByte aktualisiert wird.

Konkret verwendet Nvidia statt HMB2-Stapelspeicher den verbesserten HBM2E-Stacked Memory, wie er von Samsungund von SK Hynix produziert wird. Das steht für High Bandwidth Memory 2nd Gen Enhanced und beschreibt verglichen mit HBM2 eine Version des Stapelspeichers mit höherer Geschwindigkeit und doppelter Kapazität. Dabei werden acht DRAM-Chips (8Hi) mit je 16 GBit statt 8 GBit durchkontaktiert, die Datenrate liegt derzeit bei bis zu 3,6 GBit/s statt bis zu 2,4 GBit/s.

  • A100-Beschleuniger als SXM4-Mezzanine-Modul (Bild: Nvidia)
  • HGX-A100-Rack mit acht A100-Beschleunigern (Bild: Nvidia)
A100-Beschleuniger als SXM4-Mezzanine-Modul (Bild: Nvidia)
Tesla V100 (SXM2)Nvidia A100 (SXM4)Nvidia A100 (PCIe)
GPU (µArch)GV100 (Volta), teilaktiviertGA100 (Ampere), teilaktiviertGA100 (Ampere), teilaktiviert
Node12FFN (TSMC)7N (TSMC)7N (TSMC)
Transistoren21,1 Milliarden54,2 Milliarden54,2 Milliarden
ALUs / Tensor5.120 / 6406.912 / 4326.912 / 432
Speicher32 GByte HBM240 GByte HBM2 / 80 GByte HBM2e40 GByte HBM2
Bandbreite900 GByte/s1,555 TByte/s bzw über 2 TByte/s1,555 TByte/s
FP647,45 Teraflops9,7 (19,5*) Teraflops9,7 (19,5*) Teraflops
FP3214,9 Teraflops19,5 Teraflops19,5 Teraflops
FP16125 Teraflops312 (624**) Teraflops312 (624**) Teraflops
INT862 Teraops624 (1.248**) Teraops624 (1.248**) Teraops
TDP300 Watt400 Watt250 Watt
NV-Link300 GByte/s (8x GPUs)600 GByte/s (8x GPUs)600 GByte/s (2x GPUs)
InterfacePCIe Gen3PCIe Gen4PCIe Gen4
Technische Daten von Nvidias Tesla V100 und A100 *viaTensor Cores **mit Sparsity

Wer sich nun das Rendering des SXM4-Mezzanine-Moduls des A100-Beschleunigers anschaut, wird sechs Stacks sehen - was bei 16 GByte pro Speicherstapel für 80 GByte nicht passt. Nvidia nutzt aus Gründen der Chip-Ausbeute (Yield) nur fünf aktive Stacks, der sechste ist ein mechanischer Dummy, der dazugehörige 1.024-Bit-Controller des GA100-Grafikprozessors wurde deaktiviert. Wie hoch die Geschwindigkeit der einzelnen Stapel ausfällt, sagte Nvidia nicht, nannte aber eine Transfer-Rate von über 2 TByte/s. Folgerichtig müssten die HBM2E-Stacks mit über 3 GBit/s statt zuvor 2,43 GBit/s laufen.

Golem Akademie
  1. Adobe Photoshop Aufbaukurs: virtueller Zwei-Tage-Workshop
    02./03.06.2022, Virtuell
  2. Adobe Photoshop für Social Media Anwendungen: virtueller Zwei-Tage-Workshop
    29./30.06.2022, virtuell
Weitere IT-Trainings

Nvidia verkauft den A100-Beschleuniger mit 80 GByte Videospeicher selbst noch im vierten Quartal 2020 als Teil der eigenen DGX-(Station)-A100-Systeme. Die HGX-A100-Racks für Hyperscale-Server, genauer: als Konfiguration mit vier oder acht Mezzanine-Modulen, folgen im ersten Halbjahr 2021. Diese Einschübe werden dann von Partnern wie Atos, Dell, Fujitsu, Gigabyte, HPE, Inspur, Lenovo, Quanta und Supermicro vertrieben.

Golem HIGHEND

Parallel zu Nvidias aktualisiertem A100 hat AMD die Radeon Instinct MI100 vorgestellt, den ersten Supercomputer-Beschleuniger mit CDNA-Technik. Die PCIe-Steckkarte weist eine höhere theoretische FP32- und FP64-Rechenleistung auf, zudem unterstützt sie schnelle Matrix-Multiplikationen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Heimkino und Hi-Fi
Onkyo meldet Konkurs an

Onkyo hat beim Bezirksgericht Osaka Konkurs angemeldet. Ob das überschuldete Unternehmen gerettet werden kann, ist ungewiss.

Heimkino und Hi-Fi: Onkyo meldet Konkurs an
Artikel
  1. Unterkunftvermietung: Airbnb bekommt nach Homeoffice-Ankündigung viele Bewerbungen
    Unterkunftvermietung
    Airbnb bekommt nach Homeoffice-Ankündigung viele Bewerbungen

    Airbnb erlaubt es seinen Angestellten, im Homeoffice zu bleiben. Das Interesse an Jobs in dem Unternehmen ist binnen kurzer Zeit angestiegen.

  2. Flughafen BER: Drohne über Teslas Gigafactory behindert Flugverkehr
    Flughafen BER
    Drohne über Teslas Gigafactory behindert Flugverkehr

    Über dem Gelände der Gigafactory Berlin ist es zu einem Zwischenfall mit einer Drohne und einem Passagierflugzeug gekommen.

  3. Bundesländer: Umweltminister einig über Autobahn-Tempolimit
    Bundesländer
    Umweltminister einig über Autobahn-Tempolimit

    Die Landesumweltminister der Bundesländer haben sich einstimmig für ein Tempolimit auf Autobahnen ausgesprochen. Was fehlt, ist dessen Höhe.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Cyber Week: Gaming-Monitore mit bis zu 400€ Rabatt • Jubiläumsangebote bei MediaMarkt • MSI Optix MAG342CQR ab 389,90€ • MindStar (u. a. AMD Ryzen 7 5700X 269€, AMD Ryzen 9 5950X 509€ und LC-Power LC-M35-UWQHD-120-C 339€) [Werbung]
    •  /