Zum Hauptinhalt Zur Navigation

Hopper H100: Nvidia-Beschleuniger schafft 4 Petaflops

GTC 2022
Dreifache FP64-Performance und neue Formate: Der Nvidia H100 mit Hopper -Technik samt stark verbesserten Tensor-Cores ist da.
/ Marc Sauter
24 Kommentare News folgen (öffnet im neuen Fenster)
Nvidia H100 als SXM5-Beschleuniger (Bild: Nvidia)
Nvidia H100 als SXM5-Beschleuniger Bild: Nvidia

Nvidia hat den H100-Beschleuniger für HPC-Anwendungen und Supercomputer vorgestellt, er folgt auf den Nvidia A100 von 2020. Der H100 nutzt den GH100-Chip mit Hopper-Architektur, welche den Fokus noch stärker auf künstliche Intelligenz legt als bisher. Nvidia zufolge ist die GPU die bisher komplexeste überhaupt.

Primär meint der Hersteller damit die 80 Milliarden Transistoren, welche für den GH100 aufgewendet werden. Der Chip entsteht in einem 4N genannten EUV-Prozess bei TSMC, wobei wie schon bei 7N das N für ein Nvidia-optimiertes Verfahren steht. Die GPU unterstützt PCIe Gen5 und HBM3-Stapelspeicher, weiterhin ist mit dem NV-Link 4.0 eine schnellere Anbindung an externe Beschleuniger oder die CPU möglich.

Wie aufwendig es zu sein scheint, den 814 mm² großen GH100 zu produzieren, lässt sich am Speicherausbau des Nvidia H100 erkennen: Der liegt bei 80 GByte und damit so hoch wie beim A100. Tatsächlich könnte der GH100 aber auch mit 96 GByte versehen werden, jedoch sind wohl aus Yield-Gründen nur fünf der sechs HBM3-Controller aktiv (5.120 statt 6.144 Bit), weshalb einer der Stacks nicht genutzt wird. Beim GA100 ging Nvidia genauso vor, auch sind nur 132 der 144 Shader-Cluster des GH100 aktiv.

Fokus auf Compute statt Gaming

Den H100 gibt es als SXM5- und als PCIe-Gen5-Variante, wobei erstere mit 700 Watt und letztere mit 350 Watt arbeitet. Nvidia gibt eine theoretische FP64-Geschwindigkeit von 60 Teraflops und 2 Petaflops bei FP16 an, was dem Dreifachen des A100 entspricht. Hinzu kommen 4 Petaflops bei INT8 und erstmals auch (bei) FP8, was sechsmal so viel ist wie FP16 beim Ampere-Vorgänger, da die Hopper-Technik die Tensor-Cores v4 aufweist.

Technische Daten von Nvidias H100 (Hopper) *via Tensor Cores **mit Sparsity ***via Matrix Cores
Nvidia A100 (SXM) Nvidia H100 (SXM) Instinct MI250X
GPU (µArch) GA100 (Ampere) GH100 (Hopper) 2x Aldebaran (CDNA2)
Node 7N DUV (TSMC) 4N EUV (TSMC) N6 EUV (TSMC)
Transistoren 54,2 Milliarden 80 Milliarden 2x 29,1 Milliarden
ALUs 6.912 (108 SMs) 15.872 (132 SMs) 14.080 (220 CUs)
Speicher 80 GByte HBM2e 80 GByte HBM3 128 GByte HBM2e
Bandbreite 2,04 TByte/s 3,07 TByte/s 3,28 TByte/s
FP64 9,7 (19,5*) Teraflops 30 (60*) Teraflops 47,9 (95,7***) Teraflops
FP32 19,5 Teraflops 60 Teraflops 47,9 (95,7***) Teraflops
BF16 312 (624**) Teraflops 1000* (2.000**) Teraflops 383 Teraops***
FP16 312* (624**) Teraflops 1000* (2.000**) Teraflops 383 Teraops***
INT8 624* (1.248**) Teraops 2.000* (4.000**) Teraops 383 Teraops***
TDP 400 Watt 700 Watt 560 Watt
P2P 600 GByte/s (NV Link 3.0) 900 GByte/s (NV Link 4.0) 800 GByte/s (8x IF Link)
PCIe Gen4 Gen5 Gen4
Formfaktor SXM4 SXM5 OAM

Außerdem gibt es DPX-Instruktionen für etwa Roboterwegfindung via Floyd-Warshall-Algorithmus(öffnet im neuen Fenster) und eine Transformer Engine(öffnet im neuen Fenster) , welche dynamisch zwischen FP16 und FP8 wechseln können soll. Für Spiele eignet sich der GH100 nicht: Von den bis zu 72 TPCs (Texture Processing Clusters) eignen sich nur zwei für Grafik wie Pixel-Shader, alle anderen sind rein für Compute-Berechnungen ausgelegt. Beim GA100 war das noch anders, hier waren alle TPCs respektive deren untergeordnete SMs auch für Grafik nutzbar.

Hopper-GPU plus Grace-CPU ergibt Superchip

Die beiden regulären H100-Modelle bietet Nvidia für die DGX-, DGX-Pod-, DGX-Superpod- und HGX-Systeme an. Auf dieser Basis hat Nvidia einen neuen Supercomputer namens Eos entwickelt, der 576 der DGX H100 nutzt und wie der Selene(öffnet im neuen Fenster) für eigene Zwecke eingesetzt wird. Überdies gibt es mit dem H100 CNC einen Beschleuniger, der eine unbekannte (ARM-)CPU mit einem GH100 auf einer PCIe-Steckkarte verbindet. All diese Varianten sollen im Q3/2022 verfügbar sein; erste Cloud-Partner sind Alibaba, AWS, Google, Microsoft, Oracle und Tencent sowie diverse System-Anbieter, konkret Atos, Boxx, Cisco, Dell, Fujitsu, Gigabyte, H3C, HPE, Inspur, Lenovo, Nettrix und Supermicro.

Für das erste Halbjahr 2023 ist dann eine Grace-Hopper-Kombination geplant, welche die ARM-basierte 72-kernige Grace-CPU(öffnet im neuen Fenster) mit der GH100-Hopper-GPU auf einem Modul verbindet. Hierzu setzt Nvidia auf den kohärenten NV-Link-C2C (Chip to Chip), der 900 GByte/s liefert. Durch die CPU/GPU-Verknüpfung sollen 592 GByte an Speicher zur Verfügung stehen, wobei es sich um 80 GByte HBM3 und 512 GByte an LPDDR5X handelt.

Benannt sind beide Chips nach Grace Hopper(öffnet im neuen Fenster) , einer US-amerikanischen Informatikerin. Sie hat mit dem A-0 einen der weltweit ersten Compiler entwickelt, zudem basiert die Programmiersprache COBOL stark auf ihrer Vorarbeit.


Relevante Themen