Suche

Nvidia: Hopper ist der beste KI-Beschleuniger und hat noch Potenzial

Nvidia hat erste Benchmark-Ergebnisse der kommenden GH100-GPU vorgestellt. Erwartbar schlägt sie Vorgänger und Konkurrenz deutlich.

Artikel veröffentlicht am , Johannes Hiltscher
Die ersten Ergebnisse im KI-Benchmark MLPerf sehen bei Nvidias H100 vielversprechend aus. (Bild: Nvidia)

Der neue Hopper-H100-Beschleuniger wird noch nicht ausgeliefert, Nvidia legt aber schon einmal die ersten Benchmarks vor: In einer Videokonferenz präsentierte Dave Salvator, Direktor für KI Inferencing, Benchmarking und Cloud, Ergebnisse im KI-Benchmark MLPerf. Dabei sind Anwendungen und Datensätze vorgegeben, es existieren verschiedene Kategorien, damit der Chip fürs Mobiltelefon nicht gegen den 700-Watt-Beschleuniger antritt. Für H100 präsentierte Nvidia Zahlen in der Gerätekategorie Datacenter für Inferencing.

Anzeige

Auf den ersten Blick wirken die etwas ernüchternd: In vier von sechs Anwendungen liegt der H100-Beschleuniger zwischen 60 und 80 Prozent vor seinem Vorgänger A100. Die theoretische Rechenleistung des GH100-Chips ist allerdings dreimal so hoch wie beim Vorgänger, die Speicherbandbreite steigt um 50 Prozent. Darüber hinaus darf H100 im Formfaktor SXM bis zu 700 Watt aufnehmen, 75 Prozent mehr als der Vorgänger im gleichen Format. Hier wäre also mehr zu erwarten.

Laut Salvator sind die Möglichkeiten des neuen Chips noch nicht ausgeschöpft, mit besseren Anpassungen der Softwarebibliotheken soll die Leistung weiter steigen. Das war bereits bei A100 so: Allein durch Softwareoptimierung stieg die Leistung teils um das Sechsfache. Ähnliche Werte erwartet Salvator bei Hopper. Die Möglichkeiten der Softwareoptimierung zeigt auch das SoC Jetson Orin: Hier konnte die Effizienz um bis zu 50 Prozent gesteigert werden.

Nachdem im vergangenen Jahr einige Konkurrenten an der A100 vorbeizogen, setzt sich der Nachfolger wieder an die Spitze – zumindest beim Inferencing sowie bei GPGPUs und vergleichbaren Beschleunigern.

Anzeige

Für das Trainieren neuronaler Netze legte Nvidia noch keine Zahlen vor. Großen Wert legte Salvator darauf, dass Nvidia im Gegensatz zur Konkurrenz mit der H100 alle sechs Tests des Benchmarks absolviert habe. Er sieht den Beschleuniger damit als einzigen für verschiedene Arten neuronaler Netze gut aufgestellt – das sei wichtig, da reale Anwendungen oft aus verschiedenen Netzen bestünden.

Die neue Transformer Engine sorgt bei der NLP-Anwendung BERT für einen großen Leistungssprung. Links haben die Netze eine Zeitvorgabe. (Bild: Nvidia) [1/2]

Mit Softwareoptimierung ist noch einmal viel zu holen: Beim SoC Jetson Orin verbessert Nvidia die Effizienz. (Bild: Nvidia) [2/2]

Neue Funktionen können Leistung deutlich steigern

Ein deutlicher Ausreißer zeigte sich beim Spracherkennungsmodell BERT: Das bearbeitet H100 bis zu 4,5-mal so schnell wie der Vorgänger. Möglich macht das eine der Neuerungen in den Tensor-Cores. Die sogenannte Transformer Engine kann das verwendete Gleitkommaformat anhand eines statistischen Modells für jede Modellebene anpassen. Wird weniger Genauigkeit benötigt, können anstelle des üblichen FP16-Formats Zahlen mit nur acht Bits (FP8) verwendet werden. Das verdoppelt die Anzahl der möglichen Berechnungen.

Der Name der Transformer Engine leitet sich von den Transformer-Modellen ab, die große Eingaben parallel verarbeiten. Sie sind beispielsweise bei der Verarbeitung von Sprache beliebt, da sie Kontext besser erfassen können – neben BERT basieren auch GPT-3 und Megatron, das aktuell komplexeste Modell zur Texterzeugung, auf dem Konzept.

Ob Hoppers Tensor Cores auch beim Umgang mit dünnbesetzten Matrizen (sparse matrices) verbessert wurden, lässt sich noch nicht sagen. Das hierfür vorhandene Feature Sparsity darf bei Einreichungen für die festen Kategorien von MLPerf nicht verwendet werden.

Was sind MLPerf und Inferencing?

MLPerf ist ein standardisierter Benchmark zum Vergleich der KI-Leistung verschiedener Systeme. Er unterscheidet in verschiedene Kategorien, zuerst Training und Inferencing. Beim Training werden die Gewichte der einzelnen Verknüpfungen eines neuronalen Netzes, auch als Parameter bezeichnet, anhand von Beispieldatensätzen bestimmt. Hierbei lernt das Netz. Beim Inferencing hingegen wendet das Netz sein Wissen an: Es bearbeitet unbekannte Daten, was die Alltagsanwendung darstellt.

Neben der Kategorie Datacenter, in die Hopper fällt, unterscheidet MLPerf beim Inferencing noch Edge, Mobile und Tiny. Die Benchmarks umfassen verschiedene KI-Anwendungsbereiche, neben Sprachverarbeitung und -erkennung auch Bildverarbeitung, Klassifikation und Empfehlungssysteme.

Innerhalb einer Kategorie treten teils sehr unterschiedliche Geräte an, neben Nvidias A100, der bis zu 400 Watt Leistung aufnimmt, finden sich auch Systeme mit Qualcomms für 25 Watt ausgelegtem Cloud-AI-100-Beschleuniger. Ein Blick auf die Power-Tabellen lohnt also auch.