Autonomes Fahren: Tesla erklärt Exaflops AI-Supercomputer Dojo

Tesla präsentiert in gleich zwei Vorträgen Details seiner selbst entwickelten Prozessoren für AI-Training.

Artikel veröffentlicht am , Johannes Hiltscher
So soll der fertige Supercomputer Dojo einmal aussehen. Er soll Teslas Assistenzsysteme trainieren.
So soll der fertige Supercomputer Dojo einmal aussehen. Er soll Teslas Assistenzsysteme trainieren. (Bild: Tesla)

Tesla hat einen eigenen Supercomputer speziell für KI-Anwendungen entwickelt: Das Dojo genannte System soll anhand riesiger Mengen an Videodaten die Assistenzsysteme des Herstellers trainieren. Das Gesamtsystem erreicht beim 16-Bit-Gleitkommaformat BFP16 bis zu 1,1 Exaflops. Auf der Hot Chips sprachen Dojos Entwickler über Details der einzelnen Prozessoren und des Gesamtsystems. Erstmals vorgestellt wurde das System bereits 2021.

Inhalt:
  1. Autonomes Fahren: Tesla erklärt Exaflops AI-Supercomputer Dojo
  2. Eigener Befehlssatz, eigene Datenformate

Dojos Hardware wurde vollständig mit Blick auf die Anforderungen von AI-Anwendungen entwickelt. Dafür verzichtet der D1-Chip auf quasi alle Features anderer Prozessoren: Es gibt keinen virtuellen Speicher, keine Out-of-order-Execution, keine Caches, keine Kohärenzmechanismen. Die so eingesparte Chipfläche haben die Entwickler für große, schnelle Speicher und Verbindungen zwischen den einzelnen als Node bezeichneten Prozessoren genutzt. Das Ziel dabei: Die zwei Vektorrecheneinheiten permanent mit Daten zu versorgen, denn jeder Stillstand senkt die Leistung.

Möglich wird das durch vier parallele Hardware Threads, von denen Anwendungen üblicherweise ebenso viele zum Rechnen wie zur Kommunikation nutzen. Interessant ist, dass die Hardware pro Takt acht Befehle decodieren, aber maximal sechs verarbeiten kann: Den Threads stehen je zwei Address Generation Units (AGUs) und zwei Integer-ALUs zur Verfügung. Die Vektoreinheit besteht aus einem Block für SIMD-Berechnungen und einer Einheit für Matrixmultiplikationen. Viele Befehle arbeitet der Prozessor allerdings bereits beim Decodieren vollständig ab, so dass sie die Adress- und Recheneinheiten nicht erreichen.

Spezielle Recheneinheiten und viel schneller Speicher

Die Vektoreinheiten werden von einer sogenannten Gather-Einheit mit Daten versorgt, die einzelne Werte umsortieren und neu gruppieren kann. Damit können beispielsweise Matrizen für die Multiplikation transponiert werden. Daneben existiert ein Parser zur Abarbeitung von Listen. Er arbeitet ebenso wie die Gather-Engine direkt auf dem SRAM des Nodes.

Stellenmarkt
  1. IT-Organisatorin/IT-Organisa- tor (m/w/d)
    Landschaftsverband Rheinland, Köln
  2. Gruppenleitung Geoinformatik (m/w/d)
    Bundesgesellschaft für Endlagerung mbH (BGE), Peine
Detailsuche

Davon stehen jedem Node 1,25 MByte zur Verfügung, der Speicher kann mit 400 GByte/s gelesen werden, geschrieben werden Daten mit 270 GByte/s. Hier liegt der Programmcode, auch die benötigten Daten werden hineingeladen. Das passiert mittels Software Prefetching, idealerweise während die Vektoreinheiten rechnen. Jeder Node bekommt nur einen Teil der zu verarbeitenden Daten, die dann untereinander ausgetauscht werden. Dafür können Nodes über ein 2D-Mesh-Netzwerk gegenseitig auf ihren Speicher zugreifen.

  • Der Wertebereich der CFP8-Datentypen lässt sich mittels konfigurierbarem Bias verschieben. (Bild: Tesla)
  • Den komplexesten Befehlssatz hat die Vektoreinheit. (Bild: Tesla)
  • Überblick über die Prozessoreinheit (Bild: Tesla)
  • Der integrierte SRAM jedes Nodes ist für hohe Zugriffsgeschwindigkeiten ausgelegt, um die Vektoreinheiten permanent mit Daten zu versorgen. (Bild: Tesla)
  • Auch das Netzwerk im D1-Chip ist auf hohe Leistung ausgelegt: Jede Verbindung überträgt 64 Byte pro Takt. Nur so lassen sich Daten schnell genug zwischen den Nodes austauschen. (Bild: Tesla)
  • Am besten skaliert D1 bei den für maschinelles Lernen wichtigen 8- und 16-Bit-Datentypen. (Bild: Tesla)
  • Schon ein einzelnes Training Tile ist spektakulär: Es enthält 25 einzelne Dies, die insgesamt 15 kW Leistung aufnehmen. (Bild: Tesla)
  • Mittels Routing-Tabellen können die Wege, die Daten durch das Netzwerk nehmen, angepasst werden. (Bild: Tesla)
  • Auch für die Synchronisation der einzelnen Nodes gibt es spezielle Hardware. (Bild: Tesla)
  • Auf einen Wafer mit elektrischen Verbindungen werden 25 einzelne Dies montiert. (Bild: Tesla)
  • Auf jedem DIP befinden sich 32 GByte HBM-Speicher und 400 GBit-Ethernet. Ein Host-System befüllt den HBM über PCIe mit Daten. (Bild: Tesla)
  • Fünf DIPs können an jedes Training Tile angebunden werden. (Bild: Tesla)
  • Zwar sind alle Training Tiles direkt verbunden, manchmal ist der Weg per Ethernet aber schneller. (Bild: Tesla)
  • Das Gesamtsystem hat eine beeindruckende Leistung. (Bild: Tesla)
  • Daten werden zwischen den einzelnen Nodes ausgetauscht, um sie stets dort zu haben, wo sie benötigt werden. (Bild: Tesla)
Überblick über die Prozessoreinheit (Bild: Tesla)

Simples Netzwerk, hohe Bandbreite

An das chip-interne Netzwerk ist jeder Node über einen eigenen Funktionsblock angebunden. Der verbindet ihn mit seinen vier Nachbarn, in jede Richtung überträgt das Netzwerk pro Takt bidirektional 64 Byte. Diese 64-Byte-Blöcke bezeichnet Tesla als "Packet", der Begriff wird später noch einmal auftauchen. Das Netzwerkmodul kann zudem pro Takt je ein Packet in den SRAM schreiben und aus ihm lesen. Auch beim Netzwerk haben sich die Architekten des Dojo für die simpelste Lösung entschieden: Das Ziel wird lediglich über seine X- und Y-Position adressiert. Den Weg durch die verschiedenen Nodes bestimmen einfache Routing-Tabellen.

Die Golem-PCs bei Dubaro

Sie werden mittels Software verwaltet und dienen dazu, Daten an defekten Nodes vorbeizuleiten und die Kommunikationslast möglichst gleichmäßig zu verteilen. Das 2D-Gitter des Netzwerks führt Dojo auch außerhalb der einzelnen, 645 mm2 großen und je 354 Nodes beinhaltenden Dies fort. Davon sind 25 in einem sogenannten Training Tile montiert. Zwischen zwei Dies werden Daten mit 2 TByte/s übertragen, im Die beträgt die Bisektionsbandbreite (Datentransferrate über die komplette Breite/Höhe) sogar 5 TByte/s.

  • Der Wertebereich der CFP8-Datentypen lässt sich mittels konfigurierbarem Bias verschieben. (Bild: Tesla)
  • Den komplexesten Befehlssatz hat die Vektoreinheit. (Bild: Tesla)
  • Überblick über die Prozessoreinheit (Bild: Tesla)
  • Der integrierte SRAM jedes Nodes ist für hohe Zugriffsgeschwindigkeiten ausgelegt, um die Vektoreinheiten permanent mit Daten zu versorgen. (Bild: Tesla)
  • Auch das Netzwerk im D1-Chip ist auf hohe Leistung ausgelegt: Jede Verbindung überträgt 64 Byte pro Takt. Nur so lassen sich Daten schnell genug zwischen den Nodes austauschen. (Bild: Tesla)
  • Am besten skaliert D1 bei den für maschinelles Lernen wichtigen 8- und 16-Bit-Datentypen. (Bild: Tesla)
  • Schon ein einzelnes Training Tile ist spektakulär: Es enthält 25 einzelne Dies, die insgesamt 15 kW Leistung aufnehmen. (Bild: Tesla)
  • Mittels Routing-Tabellen können die Wege, die Daten durch das Netzwerk nehmen, angepasst werden. (Bild: Tesla)
  • Auch für die Synchronisation der einzelnen Nodes gibt es spezielle Hardware. (Bild: Tesla)
  • Auf einen Wafer mit elektrischen Verbindungen werden 25 einzelne Dies montiert. (Bild: Tesla)
  • Auf jedem DIP befinden sich 32 GByte HBM-Speicher und 400 GBit-Ethernet. Ein Host-System befüllt den HBM über PCIe mit Daten. (Bild: Tesla)
  • Fünf DIPs können an jedes Training Tile angebunden werden. (Bild: Tesla)
  • Zwar sind alle Training Tiles direkt verbunden, manchmal ist der Weg per Ethernet aber schneller. (Bild: Tesla)
  • Das Gesamtsystem hat eine beeindruckende Leistung. (Bild: Tesla)
  • Daten werden zwischen den einzelnen Nodes ausgetauscht, um sie stets dort zu haben, wo sie benötigt werden. (Bild: Tesla)
Auch das Netzwerk im D1-Chip ist auf hohe Leistung ausgelegt: Jede Verbindung überträgt 64 Byte pro Takt. Nur so lassen sich Daten schnell genug zwischen den Nodes austauschen. (Bild: Tesla)

Allerdings wurden auch ein paar Abkürzungen eingebaut. An jedes Training Tile können fünf sogenannte Dojo Interface Processors (DIP) angebunden werden. Auf denen sitzen nicht nur jeweils 32 GByte HBM-Speicher, sondern zusätzlich eine Ethernet-Schnittstelle. Sie kann als Ausweichroute genutzt werden, wenn die Distanz zwischen zwei Nodes zu groß wird.

Nicht nur Chip und Netzwerk sind selbst entwickelt, auch der Befehlssatz und einige Datentypen sind speziell an die Bedürfnisse von Anwendungen für maschinelles Lernen angepasst.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Eigener Befehlssatz, eigene Datenformate 
  1. 1
  2. 2
  3.  


Aktuell auf der Startseite von Golem.de
Streaming
Amazon zeigt neuen Fire TV Cube

Das neue Spitzenmodell der Fire-TV-Produktfamilie wurde beschleunigt und hat deutlich mehr Anschlüsse als bisher. Zudem wird eine neue Fire-TV-Fernbedienung angeboten.

Streaming: Amazon zeigt neuen Fire TV Cube
Artikel
  1. Berufsschule für die IT-Branche: Leider nicht mal ausreichend
    Berufsschule für die IT-Branche
    Leider nicht mal "ausreichend"

    Lehrmaterial wie aus einem Schüleralbtraum, ein veralteter Rahmenlehrplan und nette Lehrer, denen aber die Praxis fehlt - mein Fazit aus drei Jahren als Berufsschullehrer.
    Ein Erfahrungsbericht von Rene Koch

  2. Tim Cook: Apple will Entwicklung in München weiter ausbauen
    Tim Cook
    Apple will Entwicklung in München weiter ausbauen

    Laut Konzernchef Cook ist der Standort München wegen der Mobilfunktechnik für Apple "sehr, sehr wichtig". Doch da ist noch mehr.

  3. Smarte Lautsprecher: Amazons neue Echo-Lautsprecher haben Sensoren
    Smarte Lautsprecher
    Amazons neue Echo-Lautsprecher haben Sensoren

    Amazon hat zwei neue Echo-Dot-Modelle vorgestellt. Außerdem erhält der Echo Studio Klangverbesserungen und Amazon macht den Echo Show 15 zum Fire TV.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5-Controller GoW Ragnarök Edition vorbestellbar • Saturn Technik-Booster • Viewsonic Curved 27" FHD 240 Hz günstig wie nie: 179,90€ • MindStar (Gigabyte RTX 3060 Ti 499€, ASRock RX 6800 579€) • AMD Ryzen 7000 jetzt bestellbar • Alternate (KF DDR5-5600 16GB 96,90€) [Werbung]
    •  /