Nvidia: Hopper ist der beste KI-Beschleuniger und hat noch Potenzial

Nvidia hat erste Benchmark-Ergebnisse der kommenden GH100-GPU vorgestellt. Erwartbar schlägt sie Vorgänger und Konkurrenz deutlich.

Artikel veröffentlicht am , Johannes Hiltscher
Die ersten Ergebnisse im KI-Benchmark MLPerf sehen bei Nvidias H100 vielversprechend aus.
Die ersten Ergebnisse im KI-Benchmark MLPerf sehen bei Nvidias H100 vielversprechend aus. (Bild: Nvidia)

Der neue Hopper-H100-Beschleuniger wird noch nicht ausgeliefert, Nvidia legt aber schon einmal die ersten Benchmarks vor: In einer Videokonferenz präsentierte Dave Salvator, Direktor für KI Inferencing, Benchmarking und Cloud, Ergebnisse im KI-Benchmark MLPerf. Dabei sind Anwendungen und Datensätze vorgegeben, es existieren verschiedene Kategorien, damit der Chip fürs Mobiltelefon nicht gegen den 700-Watt-Beschleuniger antritt. Für H100 präsentierte Nvidia Zahlen in der Gerätekategorie Datacenter für Inferencing.

Auf den ersten Blick wirken die etwas ernüchternd: In vier von sechs Anwendungen liegt der H100-Beschleuniger zwischen 60 und 80 Prozent vor seinem Vorgänger A100. Die theoretische Rechenleistung des GH100-Chips ist allerdings dreimal so hoch wie beim Vorgänger, die Speicherbandbreite steigt um 50 Prozent. Darüber hinaus darf H100 im Formfaktor SXM bis zu 700 Watt aufnehmen, 75 Prozent mehr als der Vorgänger im gleichen Format. Hier wäre also mehr zu erwarten.

Laut Salvator sind die Möglichkeiten des neuen Chips noch nicht ausgeschöpft, mit besseren Anpassungen der Softwarebibliotheken soll die Leistung weiter steigen. Das war bereits bei A100 so: Allein durch Softwareoptimierung stieg die Leistung teils um das Sechsfache. Ähnliche Werte erwartet Salvator bei Hopper. Die Möglichkeiten der Softwareoptimierung zeigt auch das SoC Jetson Orin: Hier konnte die Effizienz um bis zu 50 Prozent gesteigert werden.

Nachdem im vergangenen Jahr einige Konkurrenten an der A100 vorbeizogen, setzt sich der Nachfolger wieder an die Spitze – zumindest beim Inferencing sowie bei GPGPUs und vergleichbaren Beschleunigern.

Für das Trainieren neuronaler Netze legte Nvidia noch keine Zahlen vor. Großen Wert legte Salvator darauf, dass Nvidia im Gegensatz zur Konkurrenz mit der H100 alle sechs Tests des Benchmarks absolviert habe. Er sieht den Beschleuniger damit als einzigen für verschiedene Arten neuronaler Netze gut aufgestellt – das sei wichtig, da reale Anwendungen oft aus verschiedenen Netzen bestünden.

  • Die neue Transformer Engine sorgt bei der NLP-Anwendung BERT für einen großen Leistungssprung. Links haben die Netze eine Zeitvorgabe. (Bild: Nvidia)
  • Mit Softwareoptimierung ist noch einmal viel zu holen: Beim SoC Jetson Orin verbessert Nvidia die Effizienz. (Bild: Nvidia)
Die neue Transformer Engine sorgt bei der NLP-Anwendung BERT für einen großen Leistungssprung. Links haben die Netze eine Zeitvorgabe. (Bild: Nvidia)

Neue Funktionen können Leistung deutlich steigern

Ein deutlicher Ausreißer zeigte sich beim Spracherkennungsmodell BERT: Das bearbeitet H100 bis zu 4,5-mal so schnell wie der Vorgänger. Möglich macht das eine der Neuerungen in den Tensor-Cores. Die sogenannte Transformer Engine kann das verwendete Gleitkommaformat anhand eines statistischen Modells für jede Modellebene anpassen. Wird weniger Genauigkeit benötigt, können anstelle des üblichen FP16-Formats Zahlen mit nur acht Bits (FP8) verwendet werden. Das verdoppelt die Anzahl der möglichen Berechnungen.

Der Name der Transformer Engine leitet sich von den Transformer-Modellen ab, die große Eingaben parallel verarbeiten. Sie sind beispielsweise bei der Verarbeitung von Sprache beliebt, da sie Kontext besser erfassen können – neben BERT basieren auch GPT-3 und Megatron, das aktuell komplexeste Modell zur Texterzeugung, auf dem Konzept.

Ob Hoppers Tensor Cores auch beim Umgang mit dünnbesetzten Matrizen (sparse matrices) verbessert wurden, lässt sich noch nicht sagen. Das hierfür vorhandene Feature Sparsity darf bei Einreichungen für die festen Kategorien von MLPerf nicht verwendet werden.

Was sind MLPerf und Inferencing?

MLPerf ist ein standardisierter Benchmark zum Vergleich der KI-Leistung verschiedener Systeme. Er unterscheidet in verschiedene Kategorien, zuerst Training und Inferencing. Beim Training werden die Gewichte der einzelnen Verknüpfungen eines neuronalen Netzes, auch als Parameter bezeichnet, anhand von Beispieldatensätzen bestimmt. Hierbei lernt das Netz. Beim Inferencing hingegen wendet das Netz sein Wissen an: Es bearbeitet unbekannte Daten, was die Alltagsanwendung darstellt.

Neben der Kategorie Datacenter, in die Hopper fällt, unterscheidet MLPerf beim Inferencing noch Edge, Mobile und Tiny. Die Benchmarks umfassen verschiedene KI-Anwendungsbereiche, neben Sprachverarbeitung und -erkennung auch Bildverarbeitung, Klassifikation und Empfehlungssysteme.

Innerhalb einer Kategorie treten teils sehr unterschiedliche Geräte an, neben Nvidias A100, der bis zu 400 Watt Leistung aufnimmt, finden sich auch Systeme mit Qualcomms für 25 Watt ausgelegtem Cloud-AI-100-Beschleuniger. Ein Blick auf die Power-Tabellen lohnt also auch.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
25 Jahre Grim Fandango
Toller Trip durch das Reich der Toten

Morbide und lustig: Grim Fandango war kein Erfolg und gilt trotzdem als Klassiker. Golem.de hat es erneut durchgespielt - und war wieder begeistert.
Von Andreas Altenheimer

25 Jahre Grim Fandango: Toller Trip durch das Reich der Toten
Artikel
  1. Star Wars: Holiday Special jetzt in 4K mit 60 fps
    Star Wars
    Holiday Special jetzt in 4K mit 60 fps

    Eine bessere Story bekommt der legendär schlechte Film dadurch leider nicht. Bis heute lieben ihn einige Fans aber vor allem wegen seiner Absurdität.

  2. Autonomes Fahren: Im Märzen der Bauer den Roboter einspannt
    Autonomes Fahren
    Im Märzen der Bauer den Roboter einspannt

    Landmaschinen ohne Fahrer, Traktoren, die mit Gesten gesteuert werden - autonome Systeme sollen in der Landwirtschaft gleich mehrere Probleme lösen.
    Ein Bericht von Werner Pluta

  3. Lohn und Gehalt: OpenAI-Entwickler verdienen bis zu 800.000 US-Dollar im Jahr
    Lohn und Gehalt
    OpenAI-Entwickler verdienen bis zu 800.000 US-Dollar im Jahr

    Die Firma hinter Chat-GPT zahlt im Vergleich zu Unternehmen wie Nvidia besonders gut. Erfahrene Forscher und Entwickler auf dem Gebiet sind Mangelware.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Crucial P5 Plus 2 TB mit Kühlkörper 114,99€ • Crucial Pro 32 GB DDR5-5600 79,99€ • Logitech G915 TKL LIGHTSYNC RGB 125,11€ • Anthem PC 0,99€ • Wochenendknaller bei MediaMarkt • MindStar: Patriot Viper VENOM 64 GB DDR5-6000 159€, XFX RX 7900 XT Speedster MERC 310 Black 789€ [Werbung]
    •  /