Zum Hauptinhalt Zur Navigation

Grace Hopper Superchip: Nvidia zeigt den DGX GH200 AI-Supercomputer

Computex 2023
Die Kombination aus Grace Hopper, Bluefield 3 und NVLink ergibt funktional eine riesige GPU mit der Rechenkapazität eines Supercomputers und 144 TByte Grafikspeicher.
/ Martin Böckmann
11 Kommentare News folgen (öffnet im neuen Fenster)
GGX GH200 kombiniert Grace-Hopper-Superchips mit hoher Bandbreite zu einer einzigen GPU. (Bild: Nvidia/Computex)
GGX GH200 kombiniert Grace-Hopper-Superchips mit hoher Bandbreite zu einer einzigen GPU. Bild: Nvidia/Computex

Nvidia-CEO Jensen Huang hat auf der Keynote zur Computex-2023-Präsentation bestätigt, dass der Grace-Hopper-Superchip(öffnet im neuen Fenster) in der Serienproduktion angekommen ist. Das ermöglicht nun erstmals auch größere Systeme, die auf Grace Hopper setzen. Der DGX GH200 AI-Supercomputer ist das erste: Das System besteht aus 256 einzelnen Modulen, die zu einem großen Cluster mit einer Rechenleistung von einem Exaflops verbunden werden.

Ein einzelner Grace-Hopper-Superchip besteht aus 72 Arm-CPU-Kernen, einer Hopper-GPU, 96 GByte HBM3-Speicher und 512 GByte LPDDR5X auf einer Platine. CPU und GPU können über eine 1-TByte/s Verbindung auf den anderen Chip sowie den daran angebundenen Speicher zugreifen. Damit sollen größere KI-Modelle einfacher und schneller berechnet werden können, weil das Aufspalten in kleinere Modelle (Sharding) entfällt.

Systeme von OEMs und von Nvidia wie die DGX-A100-Server(öffnet im neuen Fenster) waren bisher mit maximal acht Modulen erhältlich. Im DGX GH200 werden mithilfe von 36 NVLink Switches insgesamt 256 Module miteinander kombiniert. Damit verhält sich das auf mehrere Serverracks verteilte System wie eine einzige GPU mit 144 TByte Grafikspeicher und einer der KI-Rechenleistung von einem Exaflops. Damit kommt ein einzelnes GH200-System nur wenige Jahre alten Computern aus der Top500-Liste der schnellsten Supercomputer bereits sehr nahe.

Über 200 Kilometer Glasfaser

Um die Dimensionen zu verdeutlichen, erklärte Jensen Huang, dass das System rund 20 Tonnen wiegt und rund 240 Kilometer Glasfaserkabel darin verbaut sind. Über die NVLink-Verbindungen können die GPUs mit bis zu 900 GByte/s untereinander kommunizieren. Das ist fast so schnell wie die Chip-zu-Chip-Verbindung zwischen GPU und CPU. Insgesamt kommt ein DGX GH200 auf 128 TByte/s bisektionale Durchsatzrate.

Für kleinere Workloads werden kleinere Server benötigt, die aber trotzdem möglichst gut auf die Bedürfnisse angepasst sein müssen. Zu diesem Zweck hat Nvidia die MGX-Architektur vorgestellt. Dabei handelt es sich um eine Sammlung aus über 100 Referenzdesigns von Nvidia für verschiedene Server. Serveranbieter wie Supermicro haben bereits MGX-Systeme mit Grace Hopper im Angebot, der Standard soll jedoch ausdrücklich die Verwendung von beliebiger Hardware ermöglichen, um KI-Server insgesamt einfacher zu gestalten.

Abseits von NVLink setzt Nvidia auf Ethernet

Der Kauf von Mellanox zahlt sich laut Jensen Huang bereits aus. Die neue Spectrum-X-Plattform soll bei der Bewältigung der riesigen Datenmengen helfen. Nvidia bezeichnet sie als die weltweit erste Netzwerkplattform für KI-Anwendungen. Statt auf Infiniband setzt der Hersteller auf Ethernet für die Kommunikation. Das soll auch die Kompatibilität zu älteren Standards weiterhin gewährleisten.

Der Spectrum 4 Switch kann einen Gesamtdurchsatz von 51 Terabit/s bewältigen und bietet 64 800GbE-Ports, 128 400 GbE-Ports und soll unter voller Last nur 20ns Latenzzeit schaffen. Bisherige Switches liegen bei bis zu 200ns bei voller Auslastung. Die Steuerung übernimmt ein 90x90mm-Chip mit 800 BGA-Verbindungen, den Nvidia bei TSMC im 4N-Prozess fertigen lässt. Damit soll unter anderem adaptives Routing zur Vermeidung von Engpässen möglich sein. Nvidia setzt dabei auch auf Bluefield-3 NICs.


Relevante Themen