Graphcore & MLPerf: AI-Prozessor schlägt Nvidia bei Preis und Leistung

Das britische Start-up überholt im AI-Benchmark MLPerf 2.0 die DGX A100 seinem MIMD-Prozessor. Hopper könnte Nvidia zurück an die Spitze bringen.

Artikel veröffentlicht am , Johannes Hiltscher
Graphcores Bow-Pods bestehen aus mehreren Rack-Einschüben mit jeweils vier Bow-IPUs.
Graphcores Bow-Pods bestehen aus mehreren Rack-Einschüben mit jeweils vier Bow-IPUs. (Bild: Graphcore)

Mit seinem weiterentwickelten Bow-2000 AI-Prozessor schlägt das britische Start-up Graphcore Konkurrent Nvidia im Benchmark MLPerf. Bei einer Pressekonferenz vorgestellte Ergebnisse zeigen deutliche Performance-Sprünge, Nvidias DGX A100 wird deklassiert. Die erste Generation seiner Colossus-IPU vermarktete Graphcore noch mit dem Argument, günstiger zu sein als Nvidia.

Stellenmarkt
  1. Network Security Architect (m/w/d)
    CLAAS KGaA mbH, Harsewinkel
  2. IT-Mitarbeiter (w/m/d) für MS Windows in der Anwendungsbetreuung
    VRG IT GmbH', Oldenburg
Detailsuche

Als Beispiele zeigte Matt Fyles, Graphcores Chefentwickler, Daten für BERT (Natural Language Processing, NLP) und Resnet-50 (Klassifizierung von Bildern). In beiden Fällen wurde das Training des jeweiligen neuronalen Netzes vermessen. Dabei arbeitete die Bow-IPU gegenüber ihrem Vorgänger um 37 und 31 Prozent schneller. Auch skalieren die größeren Systeme mit 64, 128 oder 256 Bow-IPUs nach Fyles Einschätzung gut - eine Verdoppelung der Menge an IPU steigert die Leistung in den gezeigten Benchmarks um knapp 80 Prozent. Hier verwendet Graphcore eines oder mehrere Racks mit bis zu 16 Einschüben, von denen jeder vier IPUs enthält.

Allerdings, so Fyles, verändere eine etwas bessere Resnet-50-Performance nicht die Welt, wichtiger seien reale Anwendungen. Mit Kunden habe man mittlerweile eine Vielzahl portiert, Baidu habe sogar sein Machine-Learning-Framework Paddlepaddle für Bow angepasst und erziele vergleichbar gute Ergebnisse wie Graphcore. Einige Anwendungen, beispielsweise Molekulardynamik oder sich zeitlich verändernde Graphen liegen den IPUs besonders gut. Hier können sie sich mit zweistelligen Faktoren von Nvidia absetzen.

Die Prozessorarchitektur ist die geheime Zutat

Möglich macht das laut Fyles der Aufbau des Prozessors. Wie GPUs verarbeiten auch Graphcores IPUs viele Datensätze parallel. Bei einer GPU wird allerdings für alle Werte eines Datensatzes der gleiche Befehl ausgeführt (Single Instruction Multiple Data, SIMD). Die IPUs hingegen setzen eine Multiple-Instruction-Multiple-Data-Architektur um, für jeden Wert kann ein eigener Befehl ausgeführt werden. Das erhöht die Flexibilität, kann aber auch zu schwer handhabbaren Plattformen führen - Intels Xeon Phi ist das beste Beispiel.

  • Die Sprachverarbeitung BERT benötigt mit Graphcores neuer Bow-IPU und optimierter Software 37 Prozent weniger Trainingszeit - einer der besten Werte. (Bild: Graphcore)
  • Zeitlich variable Strukturen sind eine Herausforderung für SIMD-Architekturen. Graphcores MIMD-Chip kommt damit besser klar und hängt Nvidias A100 deutlich ab. (Bild: Graphcore)
  • Preis-Leistungs-Vergleich zwischen Graphcores Bow-Pods und vergleichbaren Angeboten von Nvidia und Intel. Intels Gaudi 2 ist ähnlich schnell und könnte beim Preis Konkurrenz machen. (Bild: Graphcore)
  • ResNet profitiert weniger stark als andere Benchmark-Anwendungen von Graphcores Optimierungen. (Bild: Graphcore)
  • Sicher eine Nischenanwendung, aber die mit dem imposantesten Geschwindigkeitszuwachs: Eine KI für Molekulardynamiksimulationen. Das Vergleichssystem nutzt aber noch Nvidias ältere V100. (Bild: Graphcore)
  • Graphcore bietet Bow-Pods in vier Größen. In Zukunft sollen größere Systeme sein, Ziel ist ein Supercomputer mit Graphcore IPUs. (Bild: Graphcore)
Preis-Leistungs-Vergleich zwischen Graphcores Bow-Pods und vergleichbaren Angeboten von Nvidia und Intel. Intels Gaudi 2 ist ähnlich schnell und könnte beim Preis Konkurrenz machen. (Bild: Graphcore)
Golem Karrierewelt
  1. Adobe Photoshop für Social Media Anwendungen: virtueller Zwei-Tage-Workshop
    24./25.08.2022, virtuell
  2. Java EE 8 Komplettkurs: virtueller Fünf-Tage-Workshop
    22.-26.08.2022, virtuell
Weitere IT-Trainings

Fyles erwartet, dass zukünftige große AI-Modelle nach neuen Mechanismen entworfen werden. Der bisherige Ansatz, existierende Modelle einfach hochzuskalieren werde am daraus resultierenden exponentiellen Wachstum von Rechenzeit und benötigten Trainingsdaten scheitern. Solche zukünftigen AI-Systeme könnten aus mehreren parallel arbeitenden Modellen bestehen - hier sieht Fyles die MIMD-Architektur im Vorteil. Sie profitiert, wenn Code viele Verzweigungen enthält, was bei SIMD-Systemen dazu führt, dass nur wenige Recheneinheiten ausgelastet werden können.

Neue Chipfertigung, bessere Software

Interessant ist: Der eigentliche Prozessor, Colossus, ist noch immer der selbe. Die Leistungssteigerung erreicht Graphcore zum Teil mit besserer Software - laut Fyles macht die ein Viertel der Leistungssteigerung aus. Hauptgrund ist allerdings eine Veränderung in der Chip-Fertigung. So entsteht Bow als erster Chip mit TSMCs Wafer-on-Wafer-Stacking. Dabei werden zwei komplette Wafer miteinander verbunden und danach weiter verarbeitet (Test, Dicing und Packaging).

Der Wafer mit den Colossus-IPUs wird dabei mit einem zweiten Wafer für die Spannungsversorgung verbunden. Im Ergebnis konnte Graphcore die Bow-IPU höher takten. Im Kontext von Wafer-on-Wafer-Stacking erwähnte Fyles auch, man arbeite für Colossus Nachfolger an einer neuen Speicherarchitektur, HBM sei zu langsam. Das klingt nach einem ähnlichen Ansatz wie bei AMDs 3D-V-Cache, bei dem ein Die mit schnellem SRAM auf die CPU gestapelt wird. Schon Colossus integriert fast ein TByte SRAM im Prozessor, der mit 65 TByte/s eine mehr als 20 mal so hohe Bandbreite hat wie der HMB3-Speicher auf Nvidias Hopper H100.

Um mit der Konkurrenz mithalten zu können, braucht Graphcore auch neue Ideen. Denn lange wird die Führung vor Nvidia nicht zu behaupten sein - im kommenden dritten Quartal 2022 sollen Nvidias DGX H100 mit Hopper-GPU auf den Markt kommen. Alle an MLPerf eingereichten Benchmark-Ergebnisse sind online einzusehen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Eichrechtsverstoß
Tesla betreibt gut 1.800 Supercharger in Deutschland illegal

Teslas Supercharger in Deutschland sind wie viele andere Ladesäulen nicht gesetzeskonform. Der Staat lässt die Anbieter gewähren.

Eichrechtsverstoß: Tesla betreibt gut 1.800 Supercharger in Deutschland illegal
Artikel
  1. Bitblaze Titan samt Baikal-M: Russischer Laptop mit russischem Chip ist fast fertig
    Bitblaze Titan samt Baikal-M
    Russischer Laptop mit russischem Chip ist fast fertig

    Ein 15-Zöller mit ARM-Prozessor: Der Bitblaze Titan soll sich für Office und Youtube eignen, die Akkulaufzeit aber ist fast schon miserabel.

  2. Quartalsbericht: Huawei steigert den Umsatz trotz US-Sanktionen wieder
    Quartalsbericht
    Huawei steigert den Umsatz trotz US-Sanktionen wieder

    Besonders im Bereich Cloud erzielt Huawei wieder Zuwächse.

  3. Maschinelles Lernen und Autounfälle: Es muss nicht immer Deep Learning sein
    Maschinelles Lernen und Autounfälle
    Es muss nicht immer Deep Learning sein

    Nicht nur das autonome Fahren, sondern auch die Fahrzeugsicherheit könnte von KI profitieren - nur ist Deep Learning nicht unbedingt der richtige Ansatz dafür.
    Von Andreas Meier

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: Palit RTX 3080 Ti 1.099€, Samsung SSD 2TB m. Kühlkörper (PS5) 219,99€, Samsung Neo QLED TV (2022) 50" 1.139€, AVM Fritz-Box • Asus: Bis 840€ Cashback • MindStar (MSI RTX 3090 Ti 1.299€, AMD Ryzen 7 5800X 288€) • Microsoft Controller (Xbox&PC) 48,99€ [Werbung]
    •  /