Hopper H100: Nvidia-Beschleuniger schafft 4 Petaflops
Dreifache FP64-Performance und neue Formate: Der Nvidia H100 mit Hopper-Technik samt stark verbesserten Tensor-Cores ist da.

Nvidia hat den H100-Beschleuniger für HPC-Anwendungen und Supercomputer vorgestellt, er folgt auf den Nvidia A100 von 2020. Der H100 nutzt den GH100-Chip mit Hopper-Architektur, welche den Fokus noch stärker auf künstliche Intelligenz legt als bisher. Nvidia zufolge ist die GPU die bisher komplexeste überhaupt.
Primär meint der Hersteller damit die 80 Milliarden Transistoren, welche für den GH100 aufgewendet werden. Der Chip entsteht in einem 4N genannten EUV-Prozess bei TSMC, wobei wie schon bei 7N das N für ein Nvidia-optimiertes Verfahren steht. Die GPU unterstützt PCIe Gen5 und HBM3-Stapelspeicher, weiterhin ist mit dem NV-Link 4.0 eine schnellere Anbindung an externe Beschleuniger oder die CPU möglich.
Wie aufwendig es zu sein scheint, den 814 mm² großen GH100 zu produzieren, lässt sich am Speicherausbau des Nvidia H100 erkennen: Der liegt bei 80 GByte und damit so hoch wie beim A100. Tatsächlich könnte der GH100 aber auch mit 96 GByte versehen werden, jedoch sind wohl aus Yield-Gründen nur fünf der sechs HBM3-Controller aktiv (5.120 statt 6.144 Bit), weshalb einer der Stacks nicht genutzt wird. Beim GA100 ging Nvidia genauso vor, auch sind nur 132 der 144 Shader-Cluster des GH100 aktiv.
Fokus auf Compute statt Gaming
Den H100 gibt es als SXM5- und als PCIe-Gen5-Variante, wobei erstere mit 700 Watt und letztere mit 350 Watt arbeitet. Nvidia gibt eine theoretische FP64-Geschwindigkeit von 60 Teraflops und 2 Petaflops bei FP16 an, was dem Dreifachen des A100 entspricht. Hinzu kommen 4 Petaflops bei INT8 und erstmals auch (bei) FP8, was sechsmal so viel ist wie FP16 beim Ampere-Vorgänger, da die Hopper-Technik die Tensor-Cores v4 aufweist.
Nvidia A100 (SXM) | Nvidia H100 (SXM) | Instinct MI250X | |
---|---|---|---|
GPU (µArch) | GA100 (Ampere) | GH100 (Hopper) | 2x Aldebaran (CDNA2) |
Node | 7N DUV (TSMC) | 4N EUV (TSMC) | N6 EUV (TSMC) |
Transistoren | 54,2 Milliarden | 80 Milliarden | 2x 29,1 Milliarden |
ALUs | 6.912 (108 SMs) | 15.872 (132 SMs) | 14.080 (220 CUs) |
Speicher | 80 GByte HBM2e | 80 GByte HBM3 | 128 GByte HBM2e |
Bandbreite | 2,04 TByte/s | 3,07 TByte/s | 3,28 TByte/s |
FP64 | 9,7 (19,5*) Teraflops | 30 (60*) Teraflops | 47,9 (95,7***) Teraflops |
FP32 | 19,5 Teraflops | 60 Teraflops | 47,9 (95,7***) Teraflops |
BF16 | 312 (624**) Teraflops | 1000* (2.000**) Teraflops | 383 Teraops*** |
FP16 | 312* (624**) Teraflops | 1000* (2.000**) Teraflops | 383 Teraops*** |
INT8 | 624* (1.248**) Teraops | 2.000* (4.000**) Teraops | 383 Teraops*** |
TDP | 400 Watt | 700 Watt | 560 Watt |
P2P | 600 GByte/s (NV Link 3.0) | 900 GByte/s (NV Link 4.0) | 800 GByte/s (8x IF Link) |
PCIe | Gen4 | Gen5 | Gen4 |
Formfaktor | SXM4 | SXM5 | OAM |
Außerdem gibt es DPX-Instruktionen für etwa Roboterwegfindung via Floyd-Warshall-Algorithmus und eine Transformer Engine, welche dynamisch zwischen FP16 und FP8 wechseln können soll. Für Spiele eignet sich der GH100 nicht: Von den bis zu 72 TPCs (Texture Processing Clusters) eignen sich nur zwei für Grafik wie Pixel-Shader, alle anderen sind rein für Compute-Berechnungen ausgelegt. Beim GA100 war das noch anders, hier waren alle TPCs respektive deren untergeordnete SMs auch für Grafik nutzbar.
Hopper-GPU plus Grace-CPU ergibt Superchip
Die beiden regulären H100-Modelle bietet Nvidia für die DGX-, DGX-Pod-, DGX-Superpod- und HGX-Systeme an. Auf dieser Basis hat Nvidia einen neuen Supercomputer namens Eos entwickelt, der 576 der DGX H100 nutzt und wie der Selene für eigene Zwecke eingesetzt wird. Überdies gibt es mit dem H100 CNC einen Beschleuniger, der eine unbekannte (ARM-)CPU mit einem GH100 auf einer PCIe-Steckkarte verbindet. All diese Varianten sollen im Q3/2022 verfügbar sein; erste Cloud-Partner sind Alibaba, AWS, Google, Microsoft, Oracle und Tencent sowie diverse System-Anbieter, konkret Atos, Boxx, Cisco, Dell, Fujitsu, Gigabyte, H3C, HPE, Inspur, Lenovo, Nettrix und Supermicro.
Für das erste Halbjahr 2023 ist dann eine Grace-Hopper-Kombination geplant, welche die ARM-basierte 72-kernige Grace-CPU mit der GH100-Hopper-GPU auf einem Modul verbindet. Hierzu setzt Nvidia auf den kohärenten NV-Link-C2C (Chip to Chip), der 900 GByte/s liefert. Durch die CPU/GPU-Verknüpfung sollen 592 GByte an Speicher zur Verfügung stehen, wobei es sich um 80 GByte HBM3 und 512 GByte an LPDDR5X handelt.
Benannt sind beide Chips nach Grace Hopper, einer US-amerikanischen Informatikerin. Sie hat mit dem A-0 einen der weltweit ersten Compiler entwickelt, zudem basiert die Programmiersprache COBOL stark auf ihrer Vorarbeit.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Beide Ansätze klingen für mich nach Gewinn-Maximierung ;)
Pff... dann ist das Teil für mich gestorben!
"Allein die GPU ballert 700W weg" ... spielt alles keine Rolle, da Hopper deutlich...
Ich glaube eher dein Informationsstand ist "totaler Käse". ;-) Ergänzend gilt...