D1-Chip: Teslas Dojo ist ein 1,1-Exaflops-Supercomputer

Tausende von 400-Watt-Chips kombiniert: Tesla hat mit dem Dojo den schnellsten Supercomputer für künstliche Intelligenz gebaut.

Ein Bericht von veröffentlicht am
Ganesh Venkataramanan zeigt einen D1-Chip, von dem Abertausende im Dojo-Supercomputer stecken.
Ganesh Venkataramanan zeigt einen D1-Chip, von dem Abertausende im Dojo-Supercomputer stecken. (Bild: Tesla)

Was braucht es unbedingt für autonomes Fahren? Den - laut eigener Aussage - weltweit leistungsstärksten Supercomputer, genannt Dojo. Entwickelt wurde er von Tesla und mit über einem Exaflops an BF16-Geschwindigkeit ist das System unschlagbar schnell.

Stellenmarkt
  1. IT-Systemadministrator (m/w/d)
    Verwaltungsgesellschaft der Akademie zur Förderung der Kommunikation mbH, Stuttgart
  2. Data Center Operations Manager (m/w/d)
    GRAMMER AG, Ursensollen bei Amberg
Detailsuche

Nachdem Tesla mit dem FSD-Chip (Full Self Driving) bereits die Hardware für seine Elektroautos entworfen hat, folgt mit dem D1-Prozessor das Gegenstück für den Dojo-Supercomputer. Tesla kombiniert Tausende dieser Chips, die ersten Racks sollen demnächst montiert werden.

Verantwortlich für Project Dojo ist Ganesh Venkataramanan, der auf dem Tesla AI Day den Aufbau des Prozessors und des Supercomputers erläutert hat. Die Basis bildet eine 64-Bit-in-Order-CPU mit SMT4 für vier 8x8-Matrix-Multiplizier-Einheiten sowie einer für Float/Integer, dazu kommt ein SRAM-Cache mit 1,25 MByte.

645 mm², 50 Mrd Transistoren, 400 Watt

Diesen Block bezeichnet Tesla als Training Node, jeder schafft 1.024 Gigaflops mit BF16-Genauigkeit. Gleich 354 der Kerne bilden einen D1, der über ein 10-TByte/s-Fabric und über 4 TByte/s an Off-Chip-Bandbreite verfügt. Der Prozessor wird in einem 7-nm-Verfahren gefertigt, dabei bringt er 50 Milliarden Transistoren auf 645 mm² unter und benötigt 400 Watt für 362 Teraflops.

Golem Akademie
  1. IT-Fachseminare der Golem Akademie
    Live-Workshops zu Schlüsselqualifikationen
  2. 1:1-Videocoaching mit Golem Shifoo
    Berufliche Herausforderungen meistern
  3. Online-Sprachkurse mit Golem & Gymglish
    Kurze Lektionen, die funktionieren
Weitere IT-Trainings

Zum Vergleich: Der GA100-Chip von Nvidias A100-Beschleuniger kommt auf 54,2 Milliarden Transistoren bei 826 mm² in 7 nm, er schafft 312 Teraflops ohne die optionale Sparsity-Ausdünnung bei ebenfalls 400 Watt als SXM4-Mezzanine-Modul für Supercomputer.

Zurück zum D1, von dem Tesla jeweils 25 in einer 5x5-Anordnung auf einen Träger setzt und dieses Konstrukt als Training Tile betitelt. Da es sich um ein Fan-out-Wafer-Package handelt, werden die einzelnen Chips vertikal mit Energie versorgt. Schlussendlich koppelt Tesla zwölf der mehr als tellergroßen Training Tiles in einer 2x3x2-Anordung pro Rack, davon bilden 10 den Dojo-Supercomputer.

  • Der D1-Chip wird in 7 nm gefertigt und misst 645 mm². (Bild: Tesla)
  • Er besteht unter anderem aus vier 8x8-Matrix-Multipliziereinheiten. (Bild: Tesla)
  • Die davorgeschaltete CPU ist ein In-Order-SMT4-Design. (Bild: Tesla)
  • Tesla bezeichnet die einzelnen Blöcke als Training Node ... (Bild: Tesla)
  • ... und kombiniert 354 davon für jeden der D1-Chips. (Bild: Tesla)
  • Ein 10-TByte/s-Fabric verknüpft die einzelnen Knoten ... (Bild: Tesla)
  • ... und ein 4-TByte/s-Fabric verbindet die D1-Chips miteinander. (Bild: Tesla)
  • Ganesh Venkataramanan zeigt einen D1-Chip. (Bild: Tesla)
  • 25 davon bilden eine sogenannte Training Tile. (Bild: Tesla)
  • Jede dieser Kacheln wird vertikal mit Strom versorgt und gekühlt. (Bild: Tesla)
  • Eine Training Tile schafft 9 Petaflops. (Bild: Tesla)
  • Ganesh Venkataramanan hält eine davon hoch. (Bild: Tesla)
  • Im ersten Test waren 2 GHz mit Wasserkühkung möglich. (Bild: Tesla)
  • Ein Dutzend Training Tiles bilden ein Rack ... (Bild: Tesla)
  • ... und zehn davon stecken im Dojo-Supercomputer für 1,1 Exaflops. (Bild: Tesla)
  • Tesla hat einen kompletten Software-Stack für den D1 entwickelt. (Bild: Tesla)
  • Die nächste Ausbaustufe ist bereits geplant. (Bild: Tesla)
Der D1-Chip wird in 7 nm gefertigt und misst 645 mm². (Bild: Tesla)
Golem ULTRA

Insgesamt besteht das System daher aus 3.000 D1-Chips, die 120 Training Tiles bilden. Daraus ergibt sich die theoretische BF16-Leistung von 1,1 Exaflops und damit die höchste Geschwindigkeit aller bekannten Systeme, welche dieses Format unterstützen. Der japanische ABCI 2.0 etwa schafft 852 Petaflops bei nicht direkt vergleichbarer FP16-Präzision und der schnellste Supercomputer der Welt - der ebenfalls japanische Fugaku - kommt rechnerisch auf über 2 Exaflops bei FP16.

Eine erste Training Tile wurde wassergekühlt zwar bereits mit 2 GHz betrieben, das System an sich steht aber noch nicht. Der Dojo soll 2022 einsatzbereit sein, sagte Tesla-CEO Elon Musk.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


wasdeeh 25. Aug 2021 / Themenstart

Ha, danke für die Rechnungen! Es wird wohl etwas mehr sein bei TPUv4 (Google erwähnt bei...

Eheran 23. Aug 2021 / Themenstart

Natürlich wird es einen Grund haben, was für eine komische Aussage. Es funktioniert...

M_Hilmar 23. Aug 2021 / Themenstart

Genau genommen sind es 3025

yumiko 23. Aug 2021 / Themenstart

Ich finde den Beitrag zwar gut, aber Rainbow-Tables funktionieren ja auch, obwohl die...

EyEi 21. Aug 2021 / Themenstart

Nvidia hat 64KB hab ein *4 vergessen...

Kommentieren



Aktuell auf der Startseite von Golem.de
Amtlicher Energiekostenvergleich  
Benzinkosten mehr als doppelt so teuer wie Ladestrom

Vom 1. Oktober an müssen große Tankstellen einen Energiekostenvergleich aushängen. Dabei schneiden Elektroautos derzeit am besten ab.

Amtlicher Energiekostenvergleich: Benzinkosten mehr als doppelt so teuer wie Ladestrom
Artikel
  1. Roku Streambar: Soundbar mit Streamingfunktionen kostet 150 Euro
    Roku Streambar
    Soundbar mit Streamingfunktionen kostet 150 Euro

    Roku kommt nach Deutschland und bringt parallel zu externen Streaminggeräten auch eine Soundbar, um den Klang des Fernsehers aufzuwerten.

  2. Diablo 2 Resurrected im Test: Der dunkle Fürst der Zeitfresser ist auferstanden
    Diablo 2 Resurrected im Test
    Der dunkle Fürst der Zeitfresser ist auferstanden

    Gelungene Umsetzung für Konsolen, überarbeitete Grafik und Detailverbesserungen: Bei Diablo 2 Resurrected herrscht Lange-Nacht-Gefahr.
    Von Peter Steinlechner

  3. Bundesregierung: Erst 11 Prozent der Glasfaserförderung wurden ausgezahlt
    Bundesregierung
    Erst 11 Prozent der Glasfaserförderung wurden ausgezahlt

    Städte- und Gemeindebund verlangt, den Förder-Dschungel für Glasfaser zu beseitigen. Versuche gab es viele.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Alternate (u. a. DeepCool Matrexx 55 V3 ADD-RGB WH 49,98€) • Thunder X3 TC5 145,89€ • Toshiba Canvio Desktop 6 TB ab 99€ • Samsung 970 EVO Plus 2 TB 208,48€ • Lenovo-Laptops zu Bestpreisen • 19% auf Sony-TVs bei MM • WISO Steuer-Start 2021 10,39€ • Samsung Odyssey G7 499€ [Werbung]
    •  /