Zum Hauptinhalt Zur Navigation

Machine-Learning: ARM, Intel und Nvidia standardisieren 8-Bit-Gleitkommazahl

Gleitkommazahlen sind bisher für 16-Bit, 32-Bit und größer standardisiert. Für Deep-Learning sollen kleinere Zahlen helfen.
/ Sebastian Grüner
8 Kommentare News folgen (öffnet im neuen Fenster)
Nvidias Hopper nutzt bereits die FP8-Formate. (Bild: Nvidia)
Nvidias Hopper nutzt bereits die FP8-Formate. Bild: Nvidia

In einer branchenübergreifenden Kooperation haben die Hardware-Hersteller ARM, Intel und Nvidia ein neues Format für Gleitkommazahlen vorgestellt(öffnet im neuen Fenster) , die nur noch eine Genauigkeit von 8 Bit (FP8) aufweisen sollen. Bisher offiziell von der IEEE standardisiert(öffnet im neuen Fenster) sind Gleitkommazahlen mit 16 Bit (halbe Genauigkeit), 32 Bit (einfache Genauigkeit), 64 Bit (doppelte Genauigkeit) und größere.

Als Begründung für das neue Austauschformat schreibt Nvidia in der Ankündigung, dass die Verringerung der Genauigkeit schon jetzt genutzt werde. Weiter heißt es: "Transformer-Netzwerke, eine der wichtigsten Innovationen in der KI, profitieren besonders von einer 8-Bit-Gleitkommagenauigkeit. Wir glauben, dass ein gemeinsames Austauschformat schnelle Fortschritte und die Interoperabilität von Hardware- und Softwareplattformen ermöglichen wird, um die Datenverarbeitung voranzutreiben."

Der als wissenschaftliche Ausarbeitung formulierte Vorschlag des Standards(öffnet im neuen Fenster) umfasst zwei grundlegende Kodierungen der neuen 8-Bit-Gleitkommazahlen: E4M3 (4 Bit Exponent and 3 Bit Mantisse) sowie E5M2 (5 Bit Exponent and 2 Bit Mantisse). Hinzu kommt wie bei den IEEE-Standards ein Vorzeichen-Bit sowie festgelegte Kodierungen für Unendlich, NaN(öffnet im neuen Fenster) , Null, sowie den Bereich von normalisierten und subnormalen Zahlen.

Schneller bei vergleichbaren Ergebnissen

Das neue 8-Bit-Format soll deutlich schneller sein und sich über Hardware deutlich besser beschleunigen lassen als die bisher im Machine-Learning häufig genutzten 16-Bit-Formate. Dabei sollen aber sowohl im Training als auch im Inferencing, also dem Anwenden eines trainierten Modells, mit dem neuen Format ähnliche Ergebnisse erzielt werden können. Nvidia hat das Format bereits in der Hopper-Architektur umgesetzt , was in dem MLPerf-Benchmark zu einer Beschleunigung um das 4,5-Fache im Vergleich zum Vorgänger führen soll .

Die nun veröffentlichen Spezifikation ist explizit offen zugänglich und ohne Lizenzkosten oder überhaupt Lizenzbedingungen implementierbar. Die Partner hoffen, dass dies zu einem breiten Einsatz führt. Darüber hinaus soll das neue 8-Bit-Format auch über die IEEE standardisiert werden.


Relevante Themen