Graphcore & MLPerf: AI-Prozessor schlägt Nvidia bei Preis und Leistung

Das britische Start-up überholt im AI-Benchmark MLPerf 2.0 die DGX A100 seinem MIMD-Prozessor. Hopper könnte Nvidia zurück an die Spitze bringen.

Artikel veröffentlicht am , Johannes Hiltscher
Graphcores Bow-Pods bestehen aus mehreren Rack-Einschüben mit jeweils vier Bow-IPUs.
Graphcores Bow-Pods bestehen aus mehreren Rack-Einschüben mit jeweils vier Bow-IPUs. (Bild: Graphcore)

Mit seinem weiterentwickelten Bow-2000 AI-Prozessor schlägt das britische Start-up Graphcore Konkurrent Nvidia im Benchmark MLPerf. Bei einer Pressekonferenz vorgestellte Ergebnisse zeigen deutliche Performance-Sprünge, Nvidias DGX A100 wird deklassiert. Die erste Generation seiner Colossus-IPU vermarktete Graphcore noch mit dem Argument, günstiger zu sein als Nvidia.

Als Beispiele zeigte Matt Fyles, Graphcores Chefentwickler, Daten für BERT (Natural Language Processing, NLP) und Resnet-50 (Klassifizierung von Bildern). In beiden Fällen wurde das Training des jeweiligen neuronalen Netzes vermessen. Dabei arbeitete die Bow-IPU gegenüber ihrem Vorgänger um 37 und 31 Prozent schneller. Auch skalieren die größeren Systeme mit 64, 128 oder 256 Bow-IPUs nach Fyles Einschätzung gut - eine Verdoppelung der Menge an IPU steigert die Leistung in den gezeigten Benchmarks um knapp 80 Prozent. Hier verwendet Graphcore eines oder mehrere Racks mit bis zu 16 Einschüben, von denen jeder vier IPUs enthält.

Allerdings, so Fyles, verändere eine etwas bessere Resnet-50-Performance nicht die Welt, wichtiger seien reale Anwendungen. Mit Kunden habe man mittlerweile eine Vielzahl portiert, Baidu habe sogar sein Machine-Learning-Framework Paddlepaddle für Bow angepasst und erziele vergleichbar gute Ergebnisse wie Graphcore. Einige Anwendungen, beispielsweise Molekulardynamik oder sich zeitlich verändernde Graphen liegen den IPUs besonders gut. Hier können sie sich mit zweistelligen Faktoren von Nvidia absetzen.

Die Prozessorarchitektur ist die geheime Zutat

Möglich macht das laut Fyles der Aufbau des Prozessors. Wie GPUs verarbeiten auch Graphcores IPUs viele Datensätze parallel. Bei einer GPU wird allerdings für alle Werte eines Datensatzes der gleiche Befehl ausgeführt (Single Instruction Multiple Data, SIMD). Die IPUs hingegen setzen eine Multiple-Instruction-Multiple-Data-Architektur um, für jeden Wert kann ein eigener Befehl ausgeführt werden. Das erhöht die Flexibilität, kann aber auch zu schwer handhabbaren Plattformen führen - Intels Xeon Phi ist das beste Beispiel.

  • Die Sprachverarbeitung BERT benötigt mit Graphcores neuer Bow-IPU und optimierter Software 37 Prozent weniger Trainingszeit - einer der besten Werte. (Bild: Graphcore)
  • Zeitlich variable Strukturen sind eine Herausforderung für SIMD-Architekturen. Graphcores MIMD-Chip kommt damit besser klar und hängt Nvidias A100 deutlich ab. (Bild: Graphcore)
  • Preis-Leistungs-Vergleich zwischen Graphcores Bow-Pods und vergleichbaren Angeboten von Nvidia und Intel. Intels Gaudi 2 ist ähnlich schnell und könnte beim Preis Konkurrenz machen. (Bild: Graphcore)
  • ResNet profitiert weniger stark als andere Benchmark-Anwendungen von Graphcores Optimierungen. (Bild: Graphcore)
  • Sicher eine Nischenanwendung, aber die mit dem imposantesten Geschwindigkeitszuwachs: Eine KI für Molekulardynamiksimulationen. Das Vergleichssystem nutzt aber noch Nvidias ältere V100. (Bild: Graphcore)
  • Graphcore bietet Bow-Pods in vier Größen. In Zukunft sollen größere Systeme sein, Ziel ist ein Supercomputer mit Graphcore IPUs. (Bild: Graphcore)
Preis-Leistungs-Vergleich zwischen Graphcores Bow-Pods und vergleichbaren Angeboten von Nvidia und Intel. Intels Gaudi 2 ist ähnlich schnell und könnte beim Preis Konkurrenz machen. (Bild: Graphcore)

Fyles erwartet, dass zukünftige große AI-Modelle nach neuen Mechanismen entworfen werden. Der bisherige Ansatz, existierende Modelle einfach hochzuskalieren werde am daraus resultierenden exponentiellen Wachstum von Rechenzeit und benötigten Trainingsdaten scheitern. Solche zukünftigen AI-Systeme könnten aus mehreren parallel arbeitenden Modellen bestehen - hier sieht Fyles die MIMD-Architektur im Vorteil. Sie profitiert, wenn Code viele Verzweigungen enthält, was bei SIMD-Systemen dazu führt, dass nur wenige Recheneinheiten ausgelastet werden können.

Neue Chipfertigung, bessere Software

Interessant ist: Der eigentliche Prozessor, Colossus, ist noch immer der selbe. Die Leistungssteigerung erreicht Graphcore zum Teil mit besserer Software - laut Fyles macht die ein Viertel der Leistungssteigerung aus. Hauptgrund ist allerdings eine Veränderung in der Chip-Fertigung. So entsteht Bow als erster Chip mit TSMCs Wafer-on-Wafer-Stacking. Dabei werden zwei komplette Wafer miteinander verbunden und danach weiter verarbeitet (Test, Dicing und Packaging).

Der Wafer mit den Colossus-IPUs wird dabei mit einem zweiten Wafer für die Spannungsversorgung verbunden. Im Ergebnis konnte Graphcore die Bow-IPU höher takten. Im Kontext von Wafer-on-Wafer-Stacking erwähnte Fyles auch, man arbeite für Colossus Nachfolger an einer neuen Speicherarchitektur, HBM sei zu langsam. Das klingt nach einem ähnlichen Ansatz wie bei AMDs 3D-V-Cache, bei dem ein Die mit schnellem SRAM auf die CPU gestapelt wird. Schon Colossus integriert fast ein TByte SRAM im Prozessor, der mit 65 TByte/s eine mehr als 20 mal so hohe Bandbreite hat wie der HMB3-Speicher auf Nvidias Hopper H100.

Um mit der Konkurrenz mithalten zu können, braucht Graphcore auch neue Ideen. Denn lange wird die Führung vor Nvidia nicht zu behaupten sein - im kommenden dritten Quartal 2022 sollen Nvidias DGX H100 mit Hopper-GPU auf den Markt kommen. Alle an MLPerf eingereichten Benchmark-Ergebnisse sind online einzusehen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Nammo
TikTok-Strombedarf bremst Expansion von Munitionshersteller

Der norwegische Rüstungskonzern Nammo kann nicht expandieren, weil ein Tiktok-Rechenzentrum die restliche Stromkapazität der Umgebung benötigt.

Nammo: TikTok-Strombedarf bremst Expansion von Munitionshersteller
Artikel
  1. GPT-4: Funken von allgemeiner künstlicher Intelligenz
    GPT-4
    "Funken von allgemeiner künstlicher Intelligenz"

    Microsoft Research enthüllt eine umfangreiche Sammlung von Fallbeispielen, die mit dem ChatGPT-Nachfolger GPT-4 erzeugt wurden. Die Ergebnisse sind beeindruckend.
    Eine Analyse von Helmut Linde

  2. X-59: Nachfolger von Concorde ermöglicht leisen Überschallknall
    X-59
    Nachfolger von Concorde ermöglicht leisen Überschallknall

    Das raketenbetriebene X-59-Flugzeug soll noch in 2023 starten. Trotz Überschallgeschwindigkeit soll der Concorde-Nachfolger der Nasa leise fliegen.

  3. Jugendschutz: Behörden gehen verstärkt gegen Twitter-Pornografie vor
    Jugendschutz
    Behörden gehen verstärkt gegen Twitter-Pornografie vor

    Mit einem KI-Tool suchen Medienanstalten nach jugendgefährdenden Inhalten. Derzeit erhalten Betreiber ungeschützter Accounts Briefe von der Polizei.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Große Amazon Rabatt-Aktion • Monitore bis -50% • Windows Week • Logitech bis -49% • Radeon 7900 XTX 24 GB günstig wie nie • Alexa-Sale bei Amazon • Kingston Fury 16GB DDR4-3600 43,90€ • MindStar: AMD Ryzen 7 5800X3D 309€ • 3 Spiele kaufen, 2 zahlen • MM-Osterangebote [Werbung]
    •  /