Nvidia: Hopper ist der beste KI-Beschleuniger und hat noch Potenzial

Der neue Hopper-H100-Beschleuniger wird noch nicht ausgeliefert, Nvidia legt aber schon einmal die ersten Benchmarks vor: In einer Videokonferenz präsentierte Dave Salvator, Direktor für KI Inferencing, Benchmarking und Cloud, Ergebnisse im KI-Benchmark MLPerf(öffnet im neuen Fenster) . Dabei sind Anwendungen und Datensätze vorgegeben, es existieren verschiedene Kategorien, damit der Chip fürs Mobiltelefon nicht gegen den 700-Watt-Beschleuniger antritt. Für H100 präsentierte Nvidia Zahlen in der Gerätekategorie Datacenter(öffnet im neuen Fenster) für Inferencing.
Auf den ersten Blick wirken die etwas ernüchternd: In vier von sechs Anwendungen liegt der H100-Beschleuniger zwischen 60 und 80 Prozent vor seinem Vorgänger A100. Die theoretische Rechenleistung des GH100-Chips ist allerdings dreimal so hoch wie beim Vorgänger , die Speicherbandbreite steigt um 50 Prozent. Darüber hinaus darf H100 im Formfaktor SXM bis zu 700 Watt aufnehmen, 75 Prozent mehr als der Vorgänger im gleichen Format. Hier wäre also mehr zu erwarten.
Laut Salvator sind die Möglichkeiten des neuen Chips noch nicht ausgeschöpft, mit besseren Anpassungen der Softwarebibliotheken soll die Leistung weiter steigen. Das war bereits bei A100 so: Allein durch Softwareoptimierung stieg die Leistung teils um das Sechsfache(öffnet im neuen Fenster) . Ähnliche Werte erwartet Salvator bei Hopper. Die Möglichkeiten der Softwareoptimierung zeigt auch das SoC Jetson Orin: Hier konnte die Effizienz um bis zu 50 Prozent gesteigert werden.
Nachdem im vergangenen Jahr einige Konkurrenten an der A100 vorbeizogen , setzt sich der Nachfolger wieder an die Spitze – zumindest beim Inferencing sowie bei GPGPUs und vergleichbaren Beschleunigern.
Für das Trainieren neuronaler Netze legte Nvidia noch keine Zahlen vor. Großen Wert legte Salvator darauf, dass Nvidia im Gegensatz zur Konkurrenz mit der H100 alle sechs Tests des Benchmarks absolviert habe. Er sieht den Beschleuniger damit als einzigen für verschiedene Arten neuronaler Netze gut aufgestellt – das sei wichtig, da reale Anwendungen oft aus verschiedenen Netzen bestünden.


Neue Funktionen können Leistung deutlich steigern
Ein deutlicher Ausreißer zeigte sich beim Spracherkennungsmodell BERT: Das bearbeitet H100 bis zu 4,5-mal so schnell wie der Vorgänger. Möglich macht das eine der Neuerungen in den Tensor-Cores. Die sogenannte Transformer Engine(öffnet im neuen Fenster) kann das verwendete Gleitkommaformat anhand eines statistischen Modells für jede Modellebene anpassen. Wird weniger Genauigkeit benötigt, können anstelle des üblichen FP16-Formats Zahlen mit nur acht Bits (FP8) verwendet werden. Das verdoppelt die Anzahl der möglichen Berechnungen.
Der Name der Transformer Engine leitet sich von den Transformer-Modellen(öffnet im neuen Fenster) ab, die große Eingaben parallel verarbeiten. Sie sind beispielsweise bei der Verarbeitung von Sprache beliebt, da sie Kontext besser erfassen können – neben BERT basieren auch GPT-3 und Megatron(öffnet im neuen Fenster) , das aktuell komplexeste Modell zur Texterzeugung, auf dem Konzept.
Ob Hoppers Tensor Cores auch beim Umgang mit dünnbesetzten Matrizen(öffnet im neuen Fenster) (sparse matrices) verbessert wurden, lässt sich noch nicht sagen. Das hierfür vorhandene Feature Sparsity darf bei Einreichungen für die festen Kategorien von MLPerf nicht verwendet werden.
Was sind MLPerf und Inferencing?
MLPerf ist ein standardisierter Benchmark zum Vergleich der KI-Leistung verschiedener Systeme. Er unterscheidet in verschiedene Kategorien, zuerst Training und Inferencing. Beim Training werden die Gewichte der einzelnen Verknüpfungen eines neuronalen Netzes, auch als Parameter bezeichnet, anhand von Beispieldatensätzen bestimmt. Hierbei lernt das Netz. Beim Inferencing hingegen wendet das Netz sein Wissen an: Es bearbeitet unbekannte Daten, was die Alltagsanwendung darstellt.
Neben der Kategorie Datacenter, in die Hopper fällt, unterscheidet MLPerf beim Inferencing noch Edge, Mobile und Tiny. Die Benchmarks umfassen verschiedene KI-Anwendungsbereiche, neben Sprachverarbeitung und -erkennung auch Bildverarbeitung, Klassifikation und Empfehlungssysteme.
Innerhalb einer Kategorie treten teils sehr unterschiedliche Geräte an, neben Nvidias A100, der bis zu 400 Watt Leistung aufnimmt, finden sich auch Systeme mit Qualcomms für 25 Watt ausgelegtem Cloud-AI-100-Beschleuniger. Ein Blick auf die Power-Tabellen lohnt also auch.



