Nvidia: Hopper ist der beste KI-Beschleuniger und hat noch Potenzial

Nvidia hat erste Benchmark-Ergebnisse der kommenden GH100-GPU vorgestellt. Erwartbar schlägt sie Vorgänger und Konkurrenz deutlich.

Artikel veröffentlicht am , Johannes Hiltscher
Die ersten Ergebnisse im KI-Benchmark MLPerf sehen bei Nvidias H100 vielversprechend aus.
Die ersten Ergebnisse im KI-Benchmark MLPerf sehen bei Nvidias H100 vielversprechend aus. (Bild: Nvidia)

Der neue Hopper-H100-Beschleuniger wird noch nicht ausgeliefert, Nvidia legt aber schon einmal die ersten Benchmarks vor: In einer Videokonferenz präsentierte Dave Salvator, Direktor für KI Inferencing, Benchmarking und Cloud, Ergebnisse im KI-Benchmark MLPerf. Dabei sind Anwendungen und Datensätze vorgegeben, es existieren verschiedene Kategorien, damit der Chip fürs Mobiltelefon nicht gegen den 700-Watt-Beschleuniger antritt. Für H100 präsentierte Nvidia Zahlen in der Gerätekategorie Datacenter für Inferencing.

Stellenmarkt
  1. Experte Funktionale Sicherheit / Functional Safety Engineer (m/w/d)
    Bender Industries GmbH & Co. KG, Grünberg
  2. Computer System Validation (CSV) Specialist (m/w/d)
    Zamann Pharma Support GmbH, Lampertheim
Detailsuche

Auf den ersten Blick wirken die etwas ernüchternd: In vier von sechs Anwendungen liegt der H100-Beschleuniger zwischen 60 und 80 Prozent vor seinem Vorgänger A100. Die theoretische Rechenleistung des GH100-Chips ist allerdings dreimal so hoch wie beim Vorgänger, die Speicherbandbreite steigt um 50 Prozent. Darüber hinaus darf H100 im Formfaktor SXM bis zu 700 Watt aufnehmen, 75 Prozent mehr als der Vorgänger im gleichen Format. Hier wäre also mehr zu erwarten.

Laut Salvator sind die Möglichkeiten des neuen Chips noch nicht ausgeschöpft, mit besseren Anpassungen der Softwarebibliotheken soll die Leistung weiter steigen. Das war bereits bei A100 so: Allein durch Softwareoptimierung stieg die Leistung teils um das Sechsfache. Ähnliche Werte erwartet Salvator bei Hopper. Die Möglichkeiten der Softwareoptimierung zeigt auch das SoC Jetson Orin: Hier konnte die Effizienz um bis zu 50 Prozent gesteigert werden.

Nachdem im vergangenen Jahr einige Konkurrenten an der A100 vorbeizogen, setzt sich der Nachfolger wieder an die Spitze – zumindest beim Inferencing sowie bei GPGPUs und vergleichbaren Beschleunigern.

Golem Karrierewelt
  1. Einführung in das Zero Trust Security Framework (virtueller Ein-Tages-Workshop)
    02.11.2022, virtuell
  2. Go für Einsteiger: virtueller Zwei-Tages-Workshop
    01./02.12.2022, Virtuell
Weitere IT-Trainings

Für das Trainieren neuronaler Netze legte Nvidia noch keine Zahlen vor. Großen Wert legte Salvator darauf, dass Nvidia im Gegensatz zur Konkurrenz mit der H100 alle sechs Tests des Benchmarks absolviert habe. Er sieht den Beschleuniger damit als einzigen für verschiedene Arten neuronaler Netze gut aufgestellt – das sei wichtig, da reale Anwendungen oft aus verschiedenen Netzen bestünden.

  • Die neue Transformer Engine sorgt bei der NLP-Anwendung BERT für einen großen Leistungssprung. Links haben die Netze eine Zeitvorgabe. (Bild: Nvidia)
  • Mit Softwareoptimierung ist noch einmal viel zu holen: Beim SoC Jetson Orin verbessert Nvidia die Effizienz. (Bild: Nvidia)
Die neue Transformer Engine sorgt bei der NLP-Anwendung BERT für einen großen Leistungssprung. Links haben die Netze eine Zeitvorgabe. (Bild: Nvidia)

Neue Funktionen können Leistung deutlich steigern

Ein deutlicher Ausreißer zeigte sich beim Spracherkennungsmodell BERT: Das bearbeitet H100 bis zu 4,5-mal so schnell wie der Vorgänger. Möglich macht das eine der Neuerungen in den Tensor-Cores. Die sogenannte Transformer Engine kann das verwendete Gleitkommaformat anhand eines statistischen Modells für jede Modellebene anpassen. Wird weniger Genauigkeit benötigt, können anstelle des üblichen FP16-Formats Zahlen mit nur acht Bits (FP8) verwendet werden. Das verdoppelt die Anzahl der möglichen Berechnungen.

Der Name der Transformer Engine leitet sich von den Transformer-Modellen ab, die große Eingaben parallel verarbeiten. Sie sind beispielsweise bei der Verarbeitung von Sprache beliebt, da sie Kontext besser erfassen können – neben BERT basieren auch GPT-3 und Megatron, das aktuell komplexeste Modell zur Texterzeugung, auf dem Konzept.

Ob Hoppers Tensor Cores auch beim Umgang mit dünnbesetzten Matrizen (sparse matrices) verbessert wurden, lässt sich noch nicht sagen. Das hierfür vorhandene Feature Sparsity darf bei Einreichungen für die festen Kategorien von MLPerf nicht verwendet werden.

Künstliche Intelligenz: Wissensverarbeitung - Neuronale Netze

Was sind MLPerf und Inferencing?

MLPerf ist ein standardisierter Benchmark zum Vergleich der KI-Leistung verschiedener Systeme. Er unterscheidet in verschiedene Kategorien, zuerst Training und Inferencing. Beim Training werden die Gewichte der einzelnen Verknüpfungen eines neuronalen Netzes, auch als Parameter bezeichnet, anhand von Beispieldatensätzen bestimmt. Hierbei lernt das Netz. Beim Inferencing hingegen wendet das Netz sein Wissen an: Es bearbeitet unbekannte Daten, was die Alltagsanwendung darstellt.

Neben der Kategorie Datacenter, in die Hopper fällt, unterscheidet MLPerf beim Inferencing noch Edge, Mobile und Tiny. Die Benchmarks umfassen verschiedene KI-Anwendungsbereiche, neben Sprachverarbeitung und -erkennung auch Bildverarbeitung, Klassifikation und Empfehlungssysteme.

Innerhalb einer Kategorie treten teils sehr unterschiedliche Geräte an, neben Nvidias A100, der bis zu 400 Watt Leistung aufnimmt, finden sich auch Systeme mit Qualcomms für 25 Watt ausgelegtem Cloud-AI-100-Beschleuniger. Ein Blick auf die Power-Tabellen lohnt also auch.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Core-i-13000
Intel präsentiert Raptor Lake mit bis zu 5,8 GHz

Auf der Innovation hat Intel die 13. Core Generation vorgestellt. Kernzahl, Takt und Effizienz sollen deutlich steigen.

Core-i-13000: Intel präsentiert Raptor Lake mit bis zu 5,8 GHz
Artikel
  1. Ukrainekrieg: Meta stoppt ausgefeilte russische Desinformationskampagne
    Ukrainekrieg
    Meta stoppt ausgefeilte russische Desinformationskampagne

    Gefakte Webseiten deutscher Medien machen Stimmung gegen die Russland-Sanktionen. Die falschen Artikel wurden über soziale Medien verbreitet.

  2. Star Wars: Lego bringt großes Set der Razor Crest aus The Mandalorian
    Star Wars
    Lego bringt großes Set der Razor Crest aus The Mandalorian

    Aus fast 6.200 Teilen besteht das große Lego-Set der Razor Crest. Sie ist teuer, nicht aber für ein Star-Wars-Set.

  3. Creative Commons, Pixabay, Unsplash: Rechtliche Fallstricke bei Gratis-Stockfotos
    Creative Commons, Pixabay, Unsplash
    Rechtliche Fallstricke bei Gratis-Stockfotos

    Pixabay, Unsplash, CC ermöglichen eine gebührenfreie Nutzung kreativer Werke. Vorsicht ist dennoch geboten: vor Abmahnmaschen, falschen Quellenangaben, unklarer Rechtslage.
    Eine Analyse von Florian Zandt

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • AMD Ryzen 7000 jetzt bestellbar • CyberWeek: PC-Tower, Cooling & Co. • Günstig wie nie: Asus RX 6700 XT 539€, Acer 31,5" 4K 144 Hz 899€, MSI RTX 3090 1.159€ • AMD Ryzen 7 5800X 287,99€ • Xbox Wireless Controller 49,99€ • MindStar (Gigabyte RTX 3060 Ti 522€) [Werbung]
    •  /