Graphcore & MLPerf: AI-Prozessor schlägt Nvidia bei Preis und Leistung

Das britische Start-up überholt im AI-Benchmark MLPerf 2.0 die DGX A100 seinem MIMD-Prozessor. Hopper könnte Nvidia zurück an die Spitze bringen.

Artikel veröffentlicht am , Johannes Hiltscher
Graphcores Bow-Pods bestehen aus mehreren Rack-Einschüben mit jeweils vier Bow-IPUs.
Graphcores Bow-Pods bestehen aus mehreren Rack-Einschüben mit jeweils vier Bow-IPUs. (Bild: Graphcore)

Mit seinem weiterentwickelten Bow-2000 AI-Prozessor schlägt das britische Start-up Graphcore Konkurrent Nvidia im Benchmark MLPerf. Bei einer Pressekonferenz vorgestellte Ergebnisse zeigen deutliche Performance-Sprünge, Nvidias DGX A100 wird deklassiert. Die erste Generation seiner Colossus-IPU vermarktete Graphcore noch mit dem Argument, günstiger zu sein als Nvidia.

Als Beispiele zeigte Matt Fyles, Graphcores Chefentwickler, Daten für BERT (Natural Language Processing, NLP) und Resnet-50 (Klassifizierung von Bildern). In beiden Fällen wurde das Training des jeweiligen neuronalen Netzes vermessen. Dabei arbeitete die Bow-IPU gegenüber ihrem Vorgänger um 37 und 31 Prozent schneller. Auch skalieren die größeren Systeme mit 64, 128 oder 256 Bow-IPUs nach Fyles Einschätzung gut - eine Verdoppelung der Menge an IPU steigert die Leistung in den gezeigten Benchmarks um knapp 80 Prozent. Hier verwendet Graphcore eines oder mehrere Racks mit bis zu 16 Einschüben, von denen jeder vier IPUs enthält.

Allerdings, so Fyles, verändere eine etwas bessere Resnet-50-Performance nicht die Welt, wichtiger seien reale Anwendungen. Mit Kunden habe man mittlerweile eine Vielzahl portiert, Baidu habe sogar sein Machine-Learning-Framework Paddlepaddle für Bow angepasst und erziele vergleichbar gute Ergebnisse wie Graphcore. Einige Anwendungen, beispielsweise Molekulardynamik oder sich zeitlich verändernde Graphen liegen den IPUs besonders gut. Hier können sie sich mit zweistelligen Faktoren von Nvidia absetzen.

Die Prozessorarchitektur ist die geheime Zutat

Möglich macht das laut Fyles der Aufbau des Prozessors. Wie GPUs verarbeiten auch Graphcores IPUs viele Datensätze parallel. Bei einer GPU wird allerdings für alle Werte eines Datensatzes der gleiche Befehl ausgeführt (Single Instruction Multiple Data, SIMD). Die IPUs hingegen setzen eine Multiple-Instruction-Multiple-Data-Architektur um, für jeden Wert kann ein eigener Befehl ausgeführt werden. Das erhöht die Flexibilität, kann aber auch zu schwer handhabbaren Plattformen führen - Intels Xeon Phi ist das beste Beispiel.

  • Die Sprachverarbeitung BERT benötigt mit Graphcores neuer Bow-IPU und optimierter Software 37 Prozent weniger Trainingszeit - einer der besten Werte. (Bild: Graphcore)
  • Zeitlich variable Strukturen sind eine Herausforderung für SIMD-Architekturen. Graphcores MIMD-Chip kommt damit besser klar und hängt Nvidias A100 deutlich ab. (Bild: Graphcore)
  • Preis-Leistungs-Vergleich zwischen Graphcores Bow-Pods und vergleichbaren Angeboten von Nvidia und Intel. Intels Gaudi 2 ist ähnlich schnell und könnte beim Preis Konkurrenz machen. (Bild: Graphcore)
  • ResNet profitiert weniger stark als andere Benchmark-Anwendungen von Graphcores Optimierungen. (Bild: Graphcore)
  • Sicher eine Nischenanwendung, aber die mit dem imposantesten Geschwindigkeitszuwachs: Eine KI für Molekulardynamiksimulationen. Das Vergleichssystem nutzt aber noch Nvidias ältere V100. (Bild: Graphcore)
  • Graphcore bietet Bow-Pods in vier Größen. In Zukunft sollen größere Systeme sein, Ziel ist ein Supercomputer mit Graphcore IPUs. (Bild: Graphcore)
Preis-Leistungs-Vergleich zwischen Graphcores Bow-Pods und vergleichbaren Angeboten von Nvidia und Intel. Intels Gaudi 2 ist ähnlich schnell und könnte beim Preis Konkurrenz machen. (Bild: Graphcore)

Fyles erwartet, dass zukünftige große AI-Modelle nach neuen Mechanismen entworfen werden. Der bisherige Ansatz, existierende Modelle einfach hochzuskalieren werde am daraus resultierenden exponentiellen Wachstum von Rechenzeit und benötigten Trainingsdaten scheitern. Solche zukünftigen AI-Systeme könnten aus mehreren parallel arbeitenden Modellen bestehen - hier sieht Fyles die MIMD-Architektur im Vorteil. Sie profitiert, wenn Code viele Verzweigungen enthält, was bei SIMD-Systemen dazu führt, dass nur wenige Recheneinheiten ausgelastet werden können.

Neue Chipfertigung, bessere Software

Interessant ist: Der eigentliche Prozessor, Colossus, ist noch immer der selbe. Die Leistungssteigerung erreicht Graphcore zum Teil mit besserer Software - laut Fyles macht die ein Viertel der Leistungssteigerung aus. Hauptgrund ist allerdings eine Veränderung in der Chip-Fertigung. So entsteht Bow als erster Chip mit TSMCs Wafer-on-Wafer-Stacking. Dabei werden zwei komplette Wafer miteinander verbunden und danach weiter verarbeitet (Test, Dicing und Packaging).

Der Wafer mit den Colossus-IPUs wird dabei mit einem zweiten Wafer für die Spannungsversorgung verbunden. Im Ergebnis konnte Graphcore die Bow-IPU höher takten. Im Kontext von Wafer-on-Wafer-Stacking erwähnte Fyles auch, man arbeite für Colossus Nachfolger an einer neuen Speicherarchitektur, HBM sei zu langsam. Das klingt nach einem ähnlichen Ansatz wie bei AMDs 3D-V-Cache, bei dem ein Die mit schnellem SRAM auf die CPU gestapelt wird. Schon Colossus integriert fast ein TByte SRAM im Prozessor, der mit 65 TByte/s eine mehr als 20 mal so hohe Bandbreite hat wie der HMB3-Speicher auf Nvidias Hopper H100.

Um mit der Konkurrenz mithalten zu können, braucht Graphcore auch neue Ideen. Denn lange wird die Führung vor Nvidia nicht zu behaupten sein - im kommenden dritten Quartal 2022 sollen Nvidias DGX H100 mit Hopper-GPU auf den Markt kommen. Alle an MLPerf eingereichten Benchmark-Ergebnisse sind online einzusehen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
25 Jahre Grim Fandango
Toller Trip durch das Reich der Toten

Morbide und lustig: Grim Fandango war kein Erfolg und gilt trotzdem als Klassiker. Golem.de hat es erneut durchgespielt - und war wieder begeistert.
Von Andreas Altenheimer

25 Jahre Grim Fandango: Toller Trip durch das Reich der Toten
Artikel
  1. Star Wars: Holiday Special jetzt in 4K mit 60 fps
    Star Wars
    Holiday Special jetzt in 4K mit 60 fps

    Eine bessere Story bekommt der legendär schlechte Film dadurch leider nicht. Bis heute lieben ihn einige Fans aber vor allem wegen seiner Absurdität.

  2. Autonomes Fahren: Im Märzen der Bauer den Roboter einspannt
    Autonomes Fahren
    Im Märzen der Bauer den Roboter einspannt

    Landmaschinen ohne Fahrer, Traktoren, die mit Gesten gesteuert werden - autonome Systeme sollen in der Landwirtschaft gleich mehrere Probleme lösen.
    Ein Bericht von Werner Pluta

  3. Lohn und Gehalt: OpenAI-Entwickler verdienen bis zu 800.000 US-Dollar im Jahr
    Lohn und Gehalt
    OpenAI-Entwickler verdienen bis zu 800.000 US-Dollar im Jahr

    Die Firma hinter Chat-GPT zahlt im Vergleich zu Unternehmen wie Nvidia besonders gut. Erfahrene Forscher und Entwickler auf dem Gebiet sind Mangelware.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Crucial P5 Plus 2 TB mit Kühlkörper 114,99€ • Crucial Pro 32 GB DDR5-5600 79,99€ • Logitech G915 TKL LIGHTSYNC RGB 125,11€ • Anthem PC 0,99€ • Wochenendknaller bei MediaMarkt • MindStar: Patriot Viper VENOM 64 GB DDR5-6000 159€, XFX RX 7900 XT Speedster MERC 310 Black 789€ [Werbung]
    •  /