Nvidia: Hopper ist der beste KI-Beschleuniger und hat noch Potenzial
Nvidia hat erste Benchmark-Ergebnisse der kommenden GH100-GPU vorgestellt. Erwartbar schlägt sie Vorgänger und Konkurrenz deutlich.
Der neue Hopper-H100-Beschleuniger wird noch nicht ausgeliefert, Nvidia legt aber schon einmal die ersten Benchmarks vor: In einer Videokonferenz präsentierte Dave Salvator, Direktor für KI Inferencing, Benchmarking und Cloud, Ergebnisse im KI-Benchmark MLPerf. Dabei sind Anwendungen und Datensätze vorgegeben, es existieren verschiedene Kategorien, damit der Chip fürs Mobiltelefon nicht gegen den 700-Watt-Beschleuniger antritt. Für H100 präsentierte Nvidia Zahlen in der Gerätekategorie Datacenter für Inferencing.
Auf den ersten Blick wirken die etwas ernüchternd: In vier von sechs Anwendungen liegt der H100-Beschleuniger zwischen 60 und 80 Prozent vor seinem Vorgänger A100. Die theoretische Rechenleistung des GH100-Chips ist allerdings dreimal so hoch wie beim Vorgänger, die Speicherbandbreite steigt um 50 Prozent. Darüber hinaus darf H100 im Formfaktor SXM bis zu 700 Watt aufnehmen, 75 Prozent mehr als der Vorgänger im gleichen Format. Hier wäre also mehr zu erwarten.
Laut Salvator sind die Möglichkeiten des neuen Chips noch nicht ausgeschöpft, mit besseren Anpassungen der Softwarebibliotheken soll die Leistung weiter steigen. Das war bereits bei A100 so: Allein durch Softwareoptimierung stieg die Leistung teils um das Sechsfache. Ähnliche Werte erwartet Salvator bei Hopper. Die Möglichkeiten der Softwareoptimierung zeigt auch das SoC Jetson Orin: Hier konnte die Effizienz um bis zu 50 Prozent gesteigert werden.
Nachdem im vergangenen Jahr einige Konkurrenten an der A100 vorbeizogen, setzt sich der Nachfolger wieder an die Spitze – zumindest beim Inferencing sowie bei GPGPUs und vergleichbaren Beschleunigern.
Für das Trainieren neuronaler Netze legte Nvidia noch keine Zahlen vor. Großen Wert legte Salvator darauf, dass Nvidia im Gegensatz zur Konkurrenz mit der H100 alle sechs Tests des Benchmarks absolviert habe. Er sieht den Beschleuniger damit als einzigen für verschiedene Arten neuronaler Netze gut aufgestellt – das sei wichtig, da reale Anwendungen oft aus verschiedenen Netzen bestünden.
Neue Funktionen können Leistung deutlich steigern
Ein deutlicher Ausreißer zeigte sich beim Spracherkennungsmodell BERT: Das bearbeitet H100 bis zu 4,5-mal so schnell wie der Vorgänger. Möglich macht das eine der Neuerungen in den Tensor-Cores. Die sogenannte Transformer Engine kann das verwendete Gleitkommaformat anhand eines statistischen Modells für jede Modellebene anpassen. Wird weniger Genauigkeit benötigt, können anstelle des üblichen FP16-Formats Zahlen mit nur acht Bits (FP8) verwendet werden. Das verdoppelt die Anzahl der möglichen Berechnungen.
Der Name der Transformer Engine leitet sich von den Transformer-Modellen ab, die große Eingaben parallel verarbeiten. Sie sind beispielsweise bei der Verarbeitung von Sprache beliebt, da sie Kontext besser erfassen können – neben BERT basieren auch GPT-3 und Megatron, das aktuell komplexeste Modell zur Texterzeugung, auf dem Konzept.
Ob Hoppers Tensor Cores auch beim Umgang mit dünnbesetzten Matrizen (sparse matrices) verbessert wurden, lässt sich noch nicht sagen. Das hierfür vorhandene Feature Sparsity darf bei Einreichungen für die festen Kategorien von MLPerf nicht verwendet werden.
Was sind MLPerf und Inferencing?
MLPerf ist ein standardisierter Benchmark zum Vergleich der KI-Leistung verschiedener Systeme. Er unterscheidet in verschiedene Kategorien, zuerst Training und Inferencing. Beim Training werden die Gewichte der einzelnen Verknüpfungen eines neuronalen Netzes, auch als Parameter bezeichnet, anhand von Beispieldatensätzen bestimmt. Hierbei lernt das Netz. Beim Inferencing hingegen wendet das Netz sein Wissen an: Es bearbeitet unbekannte Daten, was die Alltagsanwendung darstellt.
Neben der Kategorie Datacenter, in die Hopper fällt, unterscheidet MLPerf beim Inferencing noch Edge, Mobile und Tiny. Die Benchmarks umfassen verschiedene KI-Anwendungsbereiche, neben Sprachverarbeitung und -erkennung auch Bildverarbeitung, Klassifikation und Empfehlungssysteme.
Innerhalb einer Kategorie treten teils sehr unterschiedliche Geräte an, neben Nvidias A100, der bis zu 400 Watt Leistung aufnimmt, finden sich auch Systeme mit Qualcomms für 25 Watt ausgelegtem Cloud-AI-100-Beschleuniger. Ein Blick auf die Power-Tabellen lohnt also auch.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed










Das fehlt ein Detail, wenn schon FP8 so Ausgenerdet wird :D : FP8 den Vorteil einen grö...