Graphcore & MLPerf: AI-Prozessor schlägt Nvidia bei Preis und Leistung

Das britische Start-up überholt im AI-Benchmark MLPerf 2.0 die DGX A100 seinem MIMD-Prozessor. Hopper könnte Nvidia zurück an die Spitze bringen.

Artikel veröffentlicht am , Johannes Hiltscher
Graphcores Bow-Pods bestehen aus mehreren Rack-Einschüben mit jeweils vier Bow-IPUs.
Graphcores Bow-Pods bestehen aus mehreren Rack-Einschüben mit jeweils vier Bow-IPUs. (Bild: Graphcore)

Mit seinem weiterentwickelten Bow-2000 AI-Prozessor schlägt das britische Start-up Graphcore Konkurrent Nvidia im Benchmark MLPerf. Bei einer Pressekonferenz vorgestellte Ergebnisse zeigen deutliche Performance-Sprünge, Nvidias DGX A100 wird deklassiert. Die erste Generation seiner Colossus-IPU vermarktete Graphcore noch mit dem Argument, günstiger zu sein als Nvidia.

Stellenmarkt
  1. Akademische Seiteneinsteigerinnen / Seiteneinsteiger zur Bekämpfung der Wirtschafts- oder ... (m/w/d)
    Polizei Berlin, Berlin
  2. Software Developer (m/w/d)
    Gameforge AG, Karlsruhe
Detailsuche

Als Beispiele zeigte Matt Fyles, Graphcores Chefentwickler, Daten für BERT (Natural Language Processing, NLP) und Resnet-50 (Klassifizierung von Bildern). In beiden Fällen wurde das Training des jeweiligen neuronalen Netzes vermessen. Dabei arbeitete die Bow-IPU gegenüber ihrem Vorgänger um 37 und 31 Prozent schneller. Auch skalieren die größeren Systeme mit 64, 128 oder 256 Bow-IPUs nach Fyles Einschätzung gut - eine Verdoppelung der Menge an IPU steigert die Leistung in den gezeigten Benchmarks um knapp 80 Prozent. Hier verwendet Graphcore eines oder mehrere Racks mit bis zu 16 Einschüben, von denen jeder vier IPUs enthält.

Allerdings, so Fyles, verändere eine etwas bessere Resnet-50-Performance nicht die Welt, wichtiger seien reale Anwendungen. Mit Kunden habe man mittlerweile eine Vielzahl portiert, Baidu habe sogar sein Machine-Learning-Framework Paddlepaddle für Bow angepasst und erziele vergleichbar gute Ergebnisse wie Graphcore. Einige Anwendungen, beispielsweise Molekulardynamik oder sich zeitlich verändernde Graphen liegen den IPUs besonders gut. Hier können sie sich mit zweistelligen Faktoren von Nvidia absetzen.

Die Prozessorarchitektur ist die geheime Zutat

Möglich macht das laut Fyles der Aufbau des Prozessors. Wie GPUs verarbeiten auch Graphcores IPUs viele Datensätze parallel. Bei einer GPU wird allerdings für alle Werte eines Datensatzes der gleiche Befehl ausgeführt (Single Instruction Multiple Data, SIMD). Die IPUs hingegen setzen eine Multiple-Instruction-Multiple-Data-Architektur um, für jeden Wert kann ein eigener Befehl ausgeführt werden. Das erhöht die Flexibilität, kann aber auch zu schwer handhabbaren Plattformen führen - Intels Xeon Phi ist das beste Beispiel.

  • Die Sprachverarbeitung BERT benötigt mit Graphcores neuer Bow-IPU und optimierter Software 37 Prozent weniger Trainingszeit - einer der besten Werte. (Bild: Graphcore)
  • Zeitlich variable Strukturen sind eine Herausforderung für SIMD-Architekturen. Graphcores MIMD-Chip kommt damit besser klar und hängt Nvidias A100 deutlich ab. (Bild: Graphcore)
  • Preis-Leistungs-Vergleich zwischen Graphcores Bow-Pods und vergleichbaren Angeboten von Nvidia und Intel. Intels Gaudi 2 ist ähnlich schnell und könnte beim Preis Konkurrenz machen. (Bild: Graphcore)
  • ResNet profitiert weniger stark als andere Benchmark-Anwendungen von Graphcores Optimierungen. (Bild: Graphcore)
  • Sicher eine Nischenanwendung, aber die mit dem imposantesten Geschwindigkeitszuwachs: Eine KI für Molekulardynamiksimulationen. Das Vergleichssystem nutzt aber noch Nvidias ältere V100. (Bild: Graphcore)
  • Graphcore bietet Bow-Pods in vier Größen. In Zukunft sollen größere Systeme sein, Ziel ist ein Supercomputer mit Graphcore IPUs. (Bild: Graphcore)
Preis-Leistungs-Vergleich zwischen Graphcores Bow-Pods und vergleichbaren Angeboten von Nvidia und Intel. Intels Gaudi 2 ist ähnlich schnell und könnte beim Preis Konkurrenz machen. (Bild: Graphcore)
Golem Karrierewelt
  1. Kubernetes Dive-in-Workshop: virtueller Drei-Tage-Workshop
    11.-13.10.2022, Virtuell
  2. IT-Grundschutz-Praktiker mit Zertifikat: Drei-Tage-Workshop
    21.-23.11.2022, Virtuell
Weitere IT-Trainings

Fyles erwartet, dass zukünftige große AI-Modelle nach neuen Mechanismen entworfen werden. Der bisherige Ansatz, existierende Modelle einfach hochzuskalieren werde am daraus resultierenden exponentiellen Wachstum von Rechenzeit und benötigten Trainingsdaten scheitern. Solche zukünftigen AI-Systeme könnten aus mehreren parallel arbeitenden Modellen bestehen - hier sieht Fyles die MIMD-Architektur im Vorteil. Sie profitiert, wenn Code viele Verzweigungen enthält, was bei SIMD-Systemen dazu führt, dass nur wenige Recheneinheiten ausgelastet werden können.

Neue Chipfertigung, bessere Software

Interessant ist: Der eigentliche Prozessor, Colossus, ist noch immer der selbe. Die Leistungssteigerung erreicht Graphcore zum Teil mit besserer Software - laut Fyles macht die ein Viertel der Leistungssteigerung aus. Hauptgrund ist allerdings eine Veränderung in der Chip-Fertigung. So entsteht Bow als erster Chip mit TSMCs Wafer-on-Wafer-Stacking. Dabei werden zwei komplette Wafer miteinander verbunden und danach weiter verarbeitet (Test, Dicing und Packaging).

Der Wafer mit den Colossus-IPUs wird dabei mit einem zweiten Wafer für die Spannungsversorgung verbunden. Im Ergebnis konnte Graphcore die Bow-IPU höher takten. Im Kontext von Wafer-on-Wafer-Stacking erwähnte Fyles auch, man arbeite für Colossus Nachfolger an einer neuen Speicherarchitektur, HBM sei zu langsam. Das klingt nach einem ähnlichen Ansatz wie bei AMDs 3D-V-Cache, bei dem ein Die mit schnellem SRAM auf die CPU gestapelt wird. Schon Colossus integriert fast ein TByte SRAM im Prozessor, der mit 65 TByte/s eine mehr als 20 mal so hohe Bandbreite hat wie der HMB3-Speicher auf Nvidias Hopper H100.

Um mit der Konkurrenz mithalten zu können, braucht Graphcore auch neue Ideen. Denn lange wird die Führung vor Nvidia nicht zu behaupten sein - im kommenden dritten Quartal 2022 sollen Nvidias DGX H100 mit Hopper-GPU auf den Markt kommen. Alle an MLPerf eingereichten Benchmark-Ergebnisse sind online einzusehen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Elektromobilität
Wohnmobile werden unter Strom gesetzt

Auf dem Caravan-Salon in Düsseldorf werden die ersten Wohnmobile mit Elektroantrieb gezeigt. Doch die Branche tut sich schwer mit der Antriebswende.
Ein Bericht von Franz W. Rother

Elektromobilität: Wohnmobile werden unter Strom gesetzt
Artikel
  1. Nuvia: Qualcomm will erneut Server-CPUs bauen
    Nuvia
    Qualcomm will erneut Server-CPUs bauen

    Neuer Anlauf nach den gescheiterten Centriq 2400: Qualcomm soll an Server-Chips mit Nuvia-Kernen arbeiten, Unterstützung gibt es von Amazon.

  2. Hacking: Der Bad-USB-Stick Rubber Ducky wird noch gefährlicher
    Hacking
    Der Bad-USB-Stick Rubber Ducky wird noch gefährlicher

    Mit einer neuen Version des Bad-USB-Sticks Rubber Ducky lassen sich Rechner noch leichter angreifen und neuerdings auch heimlich Daten ausleiten.

  3. Maxus ET90: Europas erster elektrischer Pick-up ist da
    Maxus ET90
    Europas erster elektrischer Pick-up ist da

    Der Maxus eT90 ist ein elektrischer Pick-up, der Ende 2022 mit fünf Sitzplätzen und großem Akku auf den europäischen Markt kommen soll.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MindStar (MSI RTX 3090 Gaming 1.269€, Seagate Festplatte ext. 18 TB 295€) • PS5-Deals (Uncharted Legacy of Thieves 15,38€, Horzizon FW 39,99€) • Alternate (Cooler Master MM731 Gaming-Maus 39,99€ statt 89€, Kingston Fury DDR5-6000 32GB 219,90€ statt 246€) • 10%-Gaming-Gutschein bei eBay [Werbung]
    •  /