Eigener Befehlssatz, eigene Datenformate

Sowohl für die Vektor- als auch die SMT-Einheiten haben die Entwickler des Dojo einen eigenen, speziell an die Bedürfnisse der Anwendungen angepassten Befehlssatz entwickelt. Bei den SMT-Prozessoren habe man sich, so Emil Talpes, einer der leitenden Entwickler, an RISC-V orientiert. Allerdings habe man viele eigene Anweisungen ergänzt, sagte Talpes in einem der beiden Vorträge zu dem Thema auf der Hot Chips.

Stellenmarkt
  1. Test Manager (m/f/d) for Hardware Security Modules
    Elektrobit Automotive GmbH, Germany - Erlangen
  2. SAP Consultant (m/w/d) FI/CO/PS
    Universitätsklinikum Regensburg, Regensburg
Detailsuche

Dazu gehören neben Anweisungen zur Synchronisation zwischen einzelnen Nodes (Barrier) auch solche für den Datenaustausch. Soll ein Programm auf den Speicher eines anderen Nodes zugreifen, erfolgt das über spezielle Anweisungen. Auf den HBM-Speicher der DIPs wird mittels DMA zugegriffen, auch hierfür ist das Programm verantwortlich. Hier zeigt sich wieder die Einfachheit des Systems: Während andere Hochleistungsrechner - zumindest innerhalb eines Mainboards - versuchen, den Speicher als eine Einheit darzustellen, ist er bei Dojo extrem zerstückelt.

Die passenden Daten zur richtigen Zeit zur Verfügung zu haben, ist Sache der Softwareumgebung, also von Compiler und Laufzeitumgebung. Wie genau dies gelöst wurde, beantworteten die Entwickler Douglas Williams und Debjit Das Sarma im zweiten Vortrag zum Programmiermodell leider nicht. Besonders viele Befehle stehen Dojo für die Arbeit mit Matrizen zur Verfügung. Insgesamt 142 Anweisungen mit mehr als 1.000 Varianten decken diverse Spezialfälle ab.

Angepasste Datentypen

Weitere Eigenentwicklungen gibt es bei den Datentypen. Um mit möglichst wenigen Bits einen möglichst großen Zahlenbereich abdecken zu können, unterstützt Dojo neben den klassischen Gleitkommazahlen (FP32 und FP16) auch BFP16 und zwei als CFP8 bezeichnete und einen CFP16 benannten Datentypen. Sie unterscheiden sich in der Anzahl der für Exponent und Mantisse verwendeten Bits.

Golem Karrierewelt
  1. IT-Grundschutz-Praktiker mit Zertifikat: Drei-Tage-Workshop
    21.-23.11.2022, Virtuell
  2. C++ Programmierung Grundlagen (keine Vorkenntnisse benötigt): virtueller Drei-Tage-Workshop
    07.-09.11.2022, virtuell
Weitere IT-Trainings

Während BFP16 im Kontext des maschinellen Lernens geläufig ist, handelt es sich bei den CFP-Typen (das C steht für configurable) um Neuentwicklungen. Sie zeichnen sich durch einen verschiebbaren Wertebereich aus: Zwar bleiben Exponent und Mantisse stets gleich (4b/3b oder 5b/2b bei CFP8, 5b/10b bei CFP16), über einen sogenannten Bias kann aber deren Interpretation geändert werden. Dabei ist die Interpretation nicht fest, sondern kann per Software auf Ebene der Packets (64 Byte-Blöcke) angepasst werden.

  • Der Wertebereich der CFP8-Datentypen lässt sich mittels konfigurierbarem Bias verschieben. (Bild: Tesla)
  • Den komplexesten Befehlssatz hat die Vektoreinheit. (Bild: Tesla)
  • Überblick über die Prozessoreinheit (Bild: Tesla)
  • Der integrierte SRAM jedes Nodes ist für hohe Zugriffsgeschwindigkeiten ausgelegt, um die Vektoreinheiten permanent mit Daten zu versorgen. (Bild: Tesla)
  • Auch das Netzwerk im D1-Chip ist auf hohe Leistung ausgelegt: Jede Verbindung überträgt 64 Byte pro Takt. Nur so lassen sich Daten schnell genug zwischen den Nodes austauschen. (Bild: Tesla)
  • Am besten skaliert D1 bei den für maschinelles Lernen wichtigen 8- und 16-Bit-Datentypen. (Bild: Tesla)
  • Schon ein einzelnes Training Tile ist spektakulär: Es enthält 25 einzelne Dies, die insgesamt 15 kW Leistung aufnehmen. (Bild: Tesla)
  • Mittels Routing-Tabellen können die Wege, die Daten durch das Netzwerk nehmen, angepasst werden. (Bild: Tesla)
  • Auch für die Synchronisation der einzelnen Nodes gibt es spezielle Hardware. (Bild: Tesla)
  • Auf einen Wafer mit elektrischen Verbindungen werden 25 einzelne Dies montiert. (Bild: Tesla)
  • Auf jedem DIP befinden sich 32 GByte HBM-Speicher und 400 GBit-Ethernet. Ein Host-System befüllt den HBM über PCIe mit Daten. (Bild: Tesla)
  • Fünf DIPs können an jedes Training Tile angebunden werden. (Bild: Tesla)
  • Zwar sind alle Training Tiles direkt verbunden, manchmal ist der Weg per Ethernet aber schneller. (Bild: Tesla)
  • Das Gesamtsystem hat eine beeindruckende Leistung. (Bild: Tesla)
  • Daten werden zwischen den einzelnen Nodes ausgetauscht, um sie stets dort zu haben, wo sie benötigt werden. (Bild: Tesla)
Der Wertebereich der CFP8-Datentypen lässt sich mittels konfigurierbarem Bias verschieben. (Bild: Tesla)
Die Golem-PCs bei Dubaro

Noch nicht voll in Betrieb

Etwas kurzsilbig antworteten die Entwickler auf die Frage, ob Dojo bereits in Betrieb sei. Hier hieß es lediglich, man habe "mehrere Systeme im Labor laufen". Denkbar ist, dass die Software noch nicht wie gewünscht funktioniert. Denn je einfacher die Hardware ist, desto mehr Arbeit müssen Compiler, Laufzeitumgebung und - im schlimmsten Fall - Programmierer übernehmen. Speziell die Verteilung der Daten und deren Austausch zwischen den einzelnen Nodes dürfte eine Herausforderung sein.

Nichtsdestotrotz haben die Ingenieure ein extrem spannendes System entwickelt - das zeigt, dass durch volle Konzentration auf ein spezielles Problem extreme Leistungen möglich sind. Zwar bedient Dojo nur eine Nische, die ist für Tesla allerdings so wichtig, dass sie den enormen Aufwand eigener Hardwareentwicklung rechtfertigt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Autonomes Fahren: Tesla erklärt Exaflops AI-Supercomputer Dojo
  1.  
  2. 1
  3. 2


Aktuell auf der Startseite von Golem.de
Superbase V
Zendures Solarstation mit 6.400 Wh kommt mit hohem Rabatt

Vor dem Verkaufsstart über die eigene Webseite verkauft Zendure seine Superbase V über Kickstarter - mit teilweise fast 50 Prozent Rabatt.

Superbase V: Zendures Solarstation mit 6.400 Wh kommt mit hohem Rabatt
Artikel
  1. Tesla Optimus: Elon Musk zeigt Roboter-Prototyp
    Tesla Optimus
    Elon Musk zeigt Roboter-Prototyp

    Roboter könnten für Tesla aus Sicht von Elon Musk bedeutender werden als Elektroautos. Der Konzern zeigte seinen ersten Roboter-Prototypen.

  2. Microsofts E-Mail: Modern Auth in Exchange macht Admins Arbeit
    Microsofts E-Mail
    Modern Auth in Exchange macht Admins Arbeit

    Ab dem 1. Oktober 2022 müssen Exchange-Clients zwingend Microsofts moderne Authentifizierung nutzen. Das bedeutet Mehrarbeit.
    Eine Analyse von Oliver Nickel

  3. Google: Nutzer fordern Bluetooth-Freigabe für Stadia-Controller
    Google
    Nutzer fordern Bluetooth-Freigabe für Stadia-Controller

    Mit der Einstellung von Stadia können auch Tausende der speziellen Controller ohne ein Update nicht mehr drahtlos genutzt werden.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MindStar (u. a. LC-Power LC-M27-QHD-240-C-K 389€) und Damn-Deals (u. a. Kingston A400 240/480 GB 17,50€/32€, NZXT Kraken X73 139€) • Alternate: Weekend Sale • Razer Strider XXL 33,90€ • JBL Live Pro+ 49€ • PCGH-Ratgeber-PC 3000 Radeon Edition 2.500€ • LG OLED65CS9LA 1.699€ [Werbung]
    •  /