MLPerf Training: Google und Graphcore überholen Nvidia

Mit den TPU-v4- und den Colossus-Chips haben Nvidias A100 starke Konkurrenz beim Training von künstlicher Intelligenz erhalten.

Artikel veröffentlicht am ,
Ein IPU-Pod4 mit vier Colossus MK2 GC200
Ein IPU-Pod4 mit vier Colossus MK2 GC200 (Bild: Graphcore)

Die ersten Resultate der MLPerf-Training-v1.0-Suite sind da, diese bündelt mehrere Benchmarks für künstliche Intelligenz wie Bilderklassifizierung, Objekterkennung und Sprachverarbeitung. Unternehmen können die Resultate ihrer Server einreichen, was in einer umfangreichen Datenbank für sechs sehr verschiedene KI-Anwendungen resultiert.

Stellenmarkt
  1. Consultant Anforderungsmanagement (m/w/d)
    operational services GmbH & Co. KG, Berlin, Frankfurt am Main, Wolfsburg
  2. Inhouse Project Manager (w/m/d) Assistent & "rechte Hand" der Geschäftsführung
    über R2 Consulting GmbH, Gelsenkirchen
Detailsuche

Auch wenn bei den meisten Systemen die Nvidia A100 als Beschleuniger verwendet wird, gibt es Konkurrenz: Google schickt die TPUs v4 ins Rennen, von Graphcore stammen die Colossus MK2 GC200, von Huawei die Ascend 910 und von Intel die Habana Gaudi. Als Host-CPUs kommen entweder AMDs Epyc 7002/7003, Intels Xeon SP (Cascade/Cooper/Ice Lake) oder die ARM-basierten Kunpeng 920 zum Einsatz.

TPUv4 gewinnen vier von sechs Benchmarks

Google etwa sieht sich mit den TPU v4 (Tensor Processing Unit) deutlich vor Nvidia: Der Performance-Vorsprung liegt laut Hersteller bei 10 Prozent bis 74 Prozent, in zwei von sechs Benchmarks gewinnen die A100. Google hat ein TPU-v4-Pod mit 4.096 dieser ASICs verwendet, konnte aber nur 3.456 der Chips auslasten. Die Nvidia-Werte wurden auch mit bis zu 4.096 der A100 mit 80 GByte erstellt und stammen direkt von Jensens Team.

Ebenfalls spannend sind die Resultate von Graphcore, die für sich beanspruchen, Nvidia bei den Kosten zu schlagen. Der britische Hersteller vergleicht dabei das eigene IPU-Pod16 mit ebenso vielen Colossus-IPUs, die gegen ein deutlich teureres DXG A100 von Nvidia mit acht der Beschleuniger antreten. Zwar ist das Graphcore-System bei BERT und ResNet nicht schneller, der IPU-Pod16 soll aber das bessere Preis-Leistungs-Verhältnis (Listenanschaffungskosten des Systems) aufweisen und so punkten.

Golem Akademie
  1. Cloud Computing mit Amazon Web Services (AWS)
    1.-3. November 2021, Online
  2. Terraform mit AWS
    14./15. September 2021, online
  3. OpenShift Installation & Administration
    9.-11. August 2021, online
Weitere IT-Trainings

Von Lenovo kommen erste Werte mit acht Habana Gaudi, wie Intel sie anbietet. Das Training von Resnet dauert damit doppelt so lange wie mit acht Nvidia A100, wohingegen die 164 Minuten für BERT ein sehr schlechter Wert sind - eventuell ist hier die Software noch das Problem, da die Nvidia A100 gerade knapp 22 Minuten benötigen. Die Habana Gaudi werden unter anderem von AWS eingesetzt, die EC2-Instanzen sollen 40 Prozent mehr Performance pro US-Dollar erreichen als die mit den Nvidia A100.

NVIDIA-Grafikkarten bei Alternate

Zu guter Letzt gibt es Resultate von Huaweis selbst entwickelten Ascend 910, die mit ebenfalls selbst entworfenen ARM-CPUs kombiniert wurden. 1.024 dieser KI-Beschleuniger schaffen bei ResNet in etwa die Geschwindigkeit von 1.024 Nvidia A100, bei BERT sind aber 128 davon ein bisschen langsamer als halb so viele Ampere-Beschleuniger.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Connect-App
CDU zeigt offenbar Hackerin nach Melden von Lücken an

Nach dem Auffinden einer Lücke in einer CDU-App zeigt die Partei nun die Finderin an. Der CCC will deshalb keine Lücken mehr an die CDU melden.

Connect-App: CDU zeigt offenbar Hackerin nach Melden von Lücken an
Artikel
  1. Ladestationen: Tesla erhöht Supercharger-Preise deutlich
    Ladestationen
    Tesla erhöht Supercharger-Preise deutlich

    Die Nutzung der Tesla-Supercharger kostet ab sofort mehr. Die Preise für das Laden liegen nun bei 0,40 Euro pro kWh - spürbar höher als Anfang 2021.

  2. Spielebranche: T-Mobile verlässt Activision Blizzard als Sponsor
    Spielebranche
    T-Mobile verlässt Activision Blizzard als Sponsor

    Das Logo auf Hemden überklebt, Gewinnspiele fallen aus: Die Probleme bei Activision Blizzard haben wohl einen E-Sport-Sponsor verschreckt.

  3. Victorian Big Battery: Tesla-Speicher brannte vier Tage lang
    Victorian Big Battery
    Tesla-Speicher brannte vier Tage lang

    Viel Aufwand war nötig, um das brennende Akku-Modul zu löschen.

martinalex 02. Jul 2021 / Themenstart

Gibt's dafür auch Zahlen?

ms (Golem.de) 02. Jul 2021 / Themenstart

Anschaffungskosten des Systems, also DGX A100 bzw IPU-Pod16.

ms (Golem.de) 02. Jul 2021 / Themenstart

Die MLPerf-Werte sind leider kreuz und quer gemischt, daher ist eine Tabelle schwierig...

Kommentieren



Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Speicherwoche bei Saturn Samsung • Robas Lund DX Racer Gaming-Stuhl 153,11€ • HyperX Cloud II Gaming-Headset 59€ • Bosch Professional Werkzeuge und Messtechnik • Samsung Galaxy Vorbesteller-Aktion • Speicherwoche bei Media Markt • 60 Jahre Saturn-Aktion [Werbung]
    •  /