D1-Chip: Teslas Dojo ist ein 1,1-Exaflops-Supercomputer

Tausende von 400-Watt-Chips kombiniert: Tesla hat mit dem Dojo den schnellsten Supercomputer für künstliche Intelligenz gebaut.

Ein Bericht von veröffentlicht am
Ganesh Venkataramanan zeigt einen D1-Chip, von dem Abertausende im Dojo-Supercomputer stecken.
Ganesh Venkataramanan zeigt einen D1-Chip, von dem Abertausende im Dojo-Supercomputer stecken. (Bild: Tesla)

Was braucht es unbedingt für autonomes Fahren? Den - laut eigener Aussage - weltweit leistungsstärksten Supercomputer, genannt Dojo. Entwickelt wurde er von Tesla und mit über einem Exaflops an BF16-Geschwindigkeit ist das System unschlagbar schnell.

Stellenmarkt
  1. Salesforce Administrator (m/w/d)
    NOVENTI HealthCare GmbH, München
  2. IT-Architektin bzw. IT-Architekt (m/w/d)
    Bundesamt für Migration und Flüchtlinge, Nürnberg
Detailsuche

Nachdem Tesla mit dem FSD-Chip (Full Self Driving) bereits die Hardware für seine Elektroautos entworfen hat, folgt mit dem D1-Prozessor das Gegenstück für den Dojo-Supercomputer. Tesla kombiniert Tausende dieser Chips, die ersten Racks sollen demnächst montiert werden.

Verantwortlich für Project Dojo ist Ganesh Venkataramanan, der auf dem Tesla AI Day den Aufbau des Prozessors und des Supercomputers erläutert hat. Die Basis bildet eine 64-Bit-in-Order-CPU mit SMT4 für vier 8x8-Matrix-Multiplizier-Einheiten sowie einer für Float/Integer, dazu kommt ein SRAM-Cache mit 1,25 MByte.

645 mm², 50 Mrd Transistoren, 400 Watt

Diesen Block bezeichnet Tesla als Training Node, jeder schafft 1.024 Gigaflops mit BF16-Genauigkeit. Gleich 354 der Kerne bilden einen D1, der über ein 10-TByte/s-Fabric und über 4 TByte/s an Off-Chip-Bandbreite verfügt. Der Prozessor wird in einem 7-nm-Verfahren gefertigt, dabei bringt er 50 Milliarden Transistoren auf 645 mm² unter und benötigt 400 Watt für 362 Teraflops.

Golem Akademie
  1. PowerShell Praxisworkshop: virtueller Vier-Tage-Workshop
    20.–23. Dezember 2021, virtuell
  2. Azure und AWS Cloudnutzung absichern: virtueller Zwei-Tage-Workshop
    25.–26. November 2021, virtuell
Weitere IT-Trainings

Zum Vergleich: Der GA100-Chip von Nvidias A100-Beschleuniger kommt auf 54,2 Milliarden Transistoren bei 826 mm² in 7 nm, er schafft 312 Teraflops ohne die optionale Sparsity-Ausdünnung bei ebenfalls 400 Watt als SXM4-Mezzanine-Modul für Supercomputer.

Zurück zum D1, von dem Tesla jeweils 25 in einer 5x5-Anordnung auf einen Träger setzt und dieses Konstrukt als Training Tile betitelt. Da es sich um ein Fan-out-Wafer-Package handelt, werden die einzelnen Chips vertikal mit Energie versorgt. Schlussendlich koppelt Tesla zwölf der mehr als tellergroßen Training Tiles in einer 2x3x2-Anordung pro Rack, davon bilden 10 den Dojo-Supercomputer.

  • Der D1-Chip wird in 7 nm gefertigt und misst 645 mm². (Bild: Tesla)
  • Er besteht unter anderem aus vier 8x8-Matrix-Multipliziereinheiten. (Bild: Tesla)
  • Die davorgeschaltete CPU ist ein In-Order-SMT4-Design. (Bild: Tesla)
  • Tesla bezeichnet die einzelnen Blöcke als Training Node ... (Bild: Tesla)
  • ... und kombiniert 354 davon für jeden der D1-Chips. (Bild: Tesla)
  • Ein 10-TByte/s-Fabric verknüpft die einzelnen Knoten ... (Bild: Tesla)
  • ... und ein 4-TByte/s-Fabric verbindet die D1-Chips miteinander. (Bild: Tesla)
  • Ganesh Venkataramanan zeigt einen D1-Chip. (Bild: Tesla)
  • 25 davon bilden eine sogenannte Training Tile. (Bild: Tesla)
  • Jede dieser Kacheln wird vertikal mit Strom versorgt und gekühlt. (Bild: Tesla)
  • Eine Training Tile schafft 9 Petaflops. (Bild: Tesla)
  • Ganesh Venkataramanan hält eine davon hoch. (Bild: Tesla)
  • Im ersten Test waren 2 GHz mit Wasserkühkung möglich. (Bild: Tesla)
  • Ein Dutzend Training Tiles bilden ein Rack ... (Bild: Tesla)
  • ... und zehn davon stecken im Dojo-Supercomputer für 1,1 Exaflops. (Bild: Tesla)
  • Tesla hat einen kompletten Software-Stack für den D1 entwickelt. (Bild: Tesla)
  • Die nächste Ausbaustufe ist bereits geplant. (Bild: Tesla)
Der D1-Chip wird in 7 nm gefertigt und misst 645 mm². (Bild: Tesla)
Golem ULTRA

Insgesamt besteht das System daher aus 3.000 D1-Chips, die 120 Training Tiles bilden. Daraus ergibt sich die theoretische BF16-Leistung von 1,1 Exaflops und damit die höchste Geschwindigkeit aller bekannten Systeme, welche dieses Format unterstützen. Der japanische ABCI 2.0 etwa schafft 852 Petaflops bei nicht direkt vergleichbarer FP16-Präzision und der schnellste Supercomputer der Welt - der ebenfalls japanische Fugaku - kommt rechnerisch auf über 2 Exaflops bei FP16.

Eine erste Training Tile wurde wassergekühlt zwar bereits mit 2 GHz betrieben, das System an sich steht aber noch nicht. Der Dojo soll 2022 einsatzbereit sein, sagte Tesla-CEO Elon Musk.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


wasdeeh 25. Aug 2021

Ha, danke für die Rechnungen! Es wird wohl etwas mehr sein bei TPUv4 (Google erwähnt bei...

Eheran 23. Aug 2021

Natürlich wird es einen Grund haben, was für eine komische Aussage. Es funktioniert...

M_Hilmar 23. Aug 2021

Genau genommen sind es 3025

yumiko 23. Aug 2021

Ich finde den Beitrag zwar gut, aber Rainbow-Tables funktionieren ja auch, obwohl die...

EyEi 21. Aug 2021

Nvidia hat 64KB hab ein *4 vergessen...



Aktuell auf der Startseite von Golem.de
Pixel 6 und 6 Pro im Test
Google hat es endlich geschafft

Das Pixel 6 und Pixel 6 Pro werden endlich Googles Rang als Android-Macher gerecht: Die Smartphones bieten starke Hardware und sinnvolle Software.
Ein Test von Tobias Költzsch

Pixel 6 und 6 Pro im Test: Google hat es endlich geschafft
Artikel
  1. Apple-Software-Updates: iOS 15.1, iPadOS 15.1, WatchOS 8.1 und TVOS 15.1 verfügbar
    Apple-Software-Updates
    iOS 15.1, iPadOS 15.1, WatchOS 8.1 und TVOS 15.1 verfügbar

    Die ersten größeren Aktualisierungen für iPhone, iPad, Apple Watch und Apple TV sind da. Wer das iPhone 13 verwendet, profitiert besonders.

  2. Desktop-Betriebssystem: Apple MacOS Monterey mit neuem Safari und Fokus-Funktion
    Desktop-Betriebssystem
    Apple MacOS Monterey mit neuem Safari und Fokus-Funktion

    Apple hat die finale Version seines Mac-Betriebssystems MacOS Monterey veröffentlicht. Dabei sind ein neuer Safari-Browser und eine Konzentrationsfunktion.

  3. 20 Jahre Windows XP: Der letzte XP-Fan
    20 Jahre Windows XP
    Der letzte XP-Fan

    Windows XP wird 20 Jahre alt - und nur wenige nutzen es noch täglich. Golem.de hat einen dieser Anwender besucht.
    Ein Interview von Martin Wolf

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Bosch Professional günstiger • Punkte sammeln bei MM für Club-Mitglieder: 1.000 Punkte geschenkt • Alternate (u. a. Apacer 1TB SATA 86,90€ & Team Group 1TB PCIe 4.0 159,90€) • Echo Show 8 (1. Gen.) 64,99€ • Halloween Sale bei Gamesplanet • Smart Home von Eufy günstiger [Werbung]
    •  /