Zum Hauptinhalt Zur Navigation

Compute Engine A2: Google packt Nvidias A100 in die Cloud

Die A2-Compute-Engine kombinieren Ampere -Beschleuniger mit Intel-CPUs.
/ Marc Sauter
Kommentare News folgen (öffnet im neuen Fenster)
Logo der Cloud Compute Engine (Bild: Google)
Logo der Cloud Compute Engine Bild: Google

Google hat als erster Cloud-Anbieter mehrere Instanzen veröffentlicht, die Nvidias A100-Beschleuniger nutzen. Die Compute Engine A2(öffnet im neuen Fenster) basiert auf Systemen von Nvidia, die Google mit Intel-Prozessoren kombiniert. Vorerst sind die Instanzen nur per privatem Alpha-Programm verfügbar, sie eignen sich für maschinelles Lernen – also Training sowie Inferencing – und für High Performance Computing (HPC).

Technische Basis der Compute Engine A2 sind die HGX-100-Plattformen von Nvidia im Vollausbau. Diese kombinieren zwei per Switch verbundene Platinen mit je acht A100-Beschleunigern in SMX4-Bausweise . Folgerichtig bietet Google die Instanzen bis zu hin einer als A2-MegaGPU-16g bezeichneten Version an. Neben den Nvidia-Modulen gibt es bis zu 96 vCPUs – genauer Cascade Lake von Intel – und bis zu 1,36 TByte Arbeitsspeicher. Die kleinste Version namens A2-HighGPU-1g nutzt einen A100-Beschleuniger mit zwölf vCPUs und 85 GByte RAM.

Die A100, die nicht mehr zusätzlich Tesla heißen, sind Nvidias aktuelle Beschleuniger für Server. Sie basieren auf dem GA100-Grafikchip mit Ampere-Architektur und wurden im Mai 2020 vorgestellt. Bei vorherigen Generationen dauerte es teils sehr viel länger bis Google oder ein anderer Anbieter die jeweiligen Beschleuniger in der eigenen Cloud verbaute und anbot – zwei Jahre bei Kepler, ein Jahr bei Pascal sowie fünf Monate bei Volta.

Technische Daten von Nvidias Tesla V100 und A100 *viaTensor Cores **mit Sparsity
Tesla V100 (SXM2) Nvidia A100 (SXM4) Nvidia A100 (PCIe)
GPU (µArch) GV100 (Volta), teilaktiviert GA100 (Ampere), teilaktiviert GA100 (Ampere), teilaktiviert
Node 12FFN (TSMC) 7N (TSMC) 7N (TSMC)
Transistoren 21,1 Milliarden 54,2 Milliarden 54,2 Milliarden
ALUs / Tensor 5.120 / 640 6.912 / 432 6.912 / 432
Speicher 32 GByte HBM2 40 GByte HBM2 / 80 GByte HBM2e 40 GByte HBM2
Bandbreite 900 GByte/s 1,555 TByte/s bzw über 2 TByte/s 1,555 TByte/s
FP64 7,45 Teraflops 9,7 (19,5*) Teraflops 9,7 (19,5*) Teraflops
FP32 14,9 Teraflops 19,5 Teraflops 19,5 Teraflops
FP16 125 Teraflops 312 (624**) Teraflops 312 (624**) Teraflops
INT8 62 Teraops 624 (1.248**) Teraops 624 (1.248**) Teraops
TDP 300 Watt 400 Watt 250 Watt
NV-Link 300 GByte/s (8x GPUs) 600 GByte/s (8x GPUs) 600 GByte/s (2x GPUs)
Interface PCIe Gen3 PCIe Gen4 PCIe Gen4

Beim GA100 hat sich Nvidia vor allem auf die für maschinelles Lernen wichtige Leistung konzentriert und die Tensor-Cores drastisch verbessert. Der mit 826 mm² riesige 7-nm-Chip erreicht dadurch eine sehr hohe Leistung bei INT8- und FP16-Berechnungen, zudem können die A100-Beschleuniger dank 48 GByte HBM2-Stapelspeicher viele Daten lokal vorhalten und schnell einladen. Neben dem Modell mit SMX4-Mezzanine-Modul hat Nvidia auch eine PCIe-Gen4-Steckkarte mit GA100 vorgestellt.

Nvidia zeigt DGX A100
Nvidia zeigt DGX A100 (01:51)

Relevante Themen