Halbleiterfertigung & AI: So baut Cerebras seinen Wafer-großen Chip

Cerebras' Wafer Scale Engine beeindruckt nicht nur mit der Größe, sondern auch mit der Architektur. Der Chip berechnet 7,5 Petaflops.

Ein Bericht von Johannes Hiltscher veröffentlicht am
Die Wafer Scale Engine 2 besteht aus 12 x 7 einzelnen Dies, die auf einem Wafer gefertigt und miteinander verbunden sind.
Die Wafer Scale Engine 2 besteht aus 12 x 7 einzelnen Dies, die auf einem Wafer gefertigt und miteinander verbunden sind. (Bild: Cerebras)

KI-Beschleuniger WSE2 für Wafer Scale Engine von Cerebras ist auf den ersten Blick vor allem beeindruckend groß: Der Chip misst 215 x 215 mm und entsteht aus einem vollständigen Wafer, dem lediglich die Rundungen abgeschnitten wurden. Bei der wichtigsten Konferenz für Prozessortechnik, der Hot Chips, hat Sean Lie über Aufbau und Herstellung des riesigen Chips gesprochen. Lie ist Mitgründer und leitender Hardware-Entwickler des auf KI-Beschleuniger spezialisierten kalifornischen Unternehmens Cerebras.

Inhalt:
  1. Halbleiterfertigung & AI: So baut Cerebras seinen Wafer-großen Chip
  2. Ein besonderer Prozessor

Grundsätzlich unterscheidet sich die Herstellung der WSE2 erst einmal nicht von der anderer Chips. Gefertigt wird sie in einem 7-nm-Prozess (N7) beim Auftragsfertiger TSMC. Da die Größe der Belichtungsmasken, die für die Herstellung von Transistoren und Leitungen erforderlich sind, begrenzt ist, besteht die WSE2 aus 84 einzelnen, je 510 mm2 großen Dies.

Anders hingegen ist die Weiterverarbeitung: Während der Wafer normalerweise in die einzelnen Dies zersägt würde, bleibt er für die WSE2 ganz. Stattdessen werden die einzelnen Dies mit Leitern verbunden, welche die sogenannte Scribe Line – hier würde normalerweise gesägt – überbrücken. Das Verfahren hat TSMC speziell für Cerebras entwickelt.

Die Leiter, welche die Dies verbinden, formen ein Netzwerk, über das die einzelnen Prozessoren kommunizieren. Davon befinden sich über 85.000 in der WSE2 – allerdings funktionieren bei keinem Chip alle. Bei der Halbleiterfertigung kommt es durch Ungenauigkeiten stets zu Defekten. Je größer ein Chip, desto höher die Wahrscheinlichkeit, dass er nicht (vollständig) funktioniert. Defekte Dies werden, je nach Schwere des Defekts, aussortiert oder nur teilweise aktiviert. Da bei Cerebras der Wafer ganz bleibt, funktioniert das nicht.

Zentrale Bedeutung des Netzwerks

Stellenmarkt
  1. Product Owner (m/w/d) IT Applikationen
    Goldbeck GmbH, Bielefeld
  2. Scientific IT Gruppenleitung (m/w/d)
    Fraunhofer-Institut für Kurzzeitdynamik, Ernst-Mach-Institut EMI, Freiburg
Detailsuche

Cerebras erledigt die Sortierung bei der WSE2 über das Netzwerk, das die einzelnen Prozessoren verbindet. Es hat große Ähnlichkeiten mit dem in Teslas Dojo genutzten Verbindungssystem: Jeder Prozessor ist mit vier Nachbarn verbunden, so entsteht ein zweidimensionales Gitter. Anders als bei Dojo sind allerdings alle Verbindungen gleich schnell, selbst wenn zwei Nachbarn in verschiedenen Dies sitzen. Auch in der WSE2 ist das Netzwerk so einfach wie möglich gehalten; wie Nachrichten von einem Knoten zum anderen kommen, bestimmen einfache Routing-Tabellen.

  • Jeder Prozessor der WSE2 besteht zur Hälfte aus Speicher. (Bild: Cerebras)
  • Der Speicher der WSE2-Prozessoren liefert Daten sehr schnell. (Bild: Cerebras)
  • Durch den großen, schnellen Speicher können die Prozessoren permanent rechnen, selbst wenn Daten nur selten verwendet werden. (Bild: Cerebras)
  • Eine Besonderheit der Prozessoren sind die Datenstrukturregister. Sie ermöglichen mehrdimensionale Datentypen. (Bild: Cerebras)
  • Die Prozessoren haben Hardware-Threads und können Null-Werte aussortieren, um unnötige Multiplikationen zu vermeiden. (Bild: Cerebras)
  • Die WSE2 nimmt einen ganzen Wafer ein und besteht aus 84 einzelnen Dies, von denen jeder über 10.000 Prozessoren enthält. (Bild: Cerebras)
  • Das Netzwerk, das die einzelnen Prozessoren verbindet, ist sehr einfach gehalten. (Bild: Cerebras)
  • Alle Verbindungen auf dem Wafer-großen Chip sind gleich schnell. (Bild: Cerebras)
  • Auf dem großen Chip lassen sich Daten schnell und mit geringem Energieaufwand bewegen. (Bild: Cerebras)
Das Netzwerk, das die einzelnen Prozessoren verbindet, ist sehr einfach gehalten. (Bild: Cerebras)

Wie bei Dojo dienen die Routing-Tabellen dazu, defekte Prozessoren zu umgehen und die Kommunikation möglichst gleichmäßig über das Netzwerk zu verteilen. In jedem Prozessor können bis zu 24 Routen konfiguriert werden, jede verfügt über einen eigenen Puffer. Die Verbindungen, von denen jede bidirektional 32 Bit pro Takt überträgt, teilen sie sich. So weit, so normal.

Spannend wird es allerdings beim Blick darauf, wie Daten übertragen werden. Jedes 32-Bit-Paket besteht nämlich nur zur Hälfte aus Daten, orientiert hat sich Cerebras hier an den bei KI-Anwendungen oft genutzten 16-Bit-Gleitkommazahlen. Die andere Hälfte nehmen Kontrollinformationen ein.

Die Golem-PCs bei Dubaro

Daten steuern Berechnung

Die Datenverarbeitung erfolgt in der WSE2 auf eine etwas ungewöhnliche Weise: Sie ist als sogenannter Datenflussautomat realisiert. Das bedeutet, dass die eingehenden Daten die ausgeführte Befehlssequenz steuern. Hierfür werden die 16 Kontrollbits benötigt. Das Programmiermodell der WSE2 sieht vor, dass viele Prozessoren gemeinsam an einem großen Problem arbeiten. Dabei werden Zwischenergebnisse aus einer Operation an andere Prozessoren verschickt, die damit weitere Berechnungen ausführen. Da die Daten permanent in Bewegung sind, wird wenig Speicher benötigt.

Der Datenfluss ist zudem ein wichtiger Effizienzmechanismus. Die Prozessoren sind beispielsweise in der Lage, Nullwerte einfach zu verwerfen und nicht an Nachfolger weiterzuleiten. Damit werden bei Multiplikationen unnötige Berechnungen vermieden, was besonders bei sogenannten dünnbesetzten Matrizen (sparse matrices) sinnvoll ist, die viele Nullen enthalten. Nvidias A100 und H100 unterstützen dies ebenfalls.

Werfen wir noch einen Blick auf die Architektur der Prozessoren. Denn ein spezielles Datenmodell erfordert natürlich auch spezielle Hardware.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Ein besonderer Prozessor 
  1. 1
  2. 2
  3.  


John2k 01. Sep 2022 / Themenstart

Mir ist in Erinnerung geblieben, dass das Gehirn langsam ist, aber unglaublich parallel...

LangFinger90 01. Sep 2022 / Themenstart

Ich würde die nicht sehr weit oben bei den mächtigsten Unternehmen der Welt einstufen...

spambox 01. Sep 2022 / Themenstart

Mich interessieren Details darüber, wie der Chip versorgt wird. Das muss ja irgendwie...

Kommentieren



Aktuell auf der Startseite von Golem.de
Cloudgaming
Google Stadia scheiterte nur an sich selbst

Die Technik war nicht das Problem von Alphabets ambitioniertem Cloudgaming-Dienst. Das Problem liegt bei Google. Ein Nachruf.
Eine Analyse von Daniel Ziegener

Cloudgaming: Google Stadia scheiterte nur an sich selbst
Artikel
  1. Copilot, Java, RISC-V, Javascript, Tor: KI macht produktiver und Rust gewinnt wichtige Unterstützer
    Copilot, Java, RISC-V, Javascript, Tor
    KI macht produktiver und Rust gewinnt wichtige Unterstützer

    Dev-Update Die Diskussion um die kommerzielle Verwertbarkeit von Open Source erreicht Akka und Apache Flink, OpenAI macht Spracherkennung, Facebook hilft Javascript-Enwicklern und Rust wird immer siegreicher.
    Von Sebastian Grüner

  2. Kindle bei Amazon zu mit hohen Rabatten im Angebot
     
    Kindle bei Amazon zu mit hohen Rabatten im Angebot

    Amazon hat viele neue Produkte mit und ohne Alexa vorgestellt: Kindle, Fire TV Cube und einen neuen Echo. Die älteren Modelle sind reduziert.
    Ausgewählte Angebote des E-Commerce-Teams

  3. E-Mail-Hosting: Wir haben laufend Probleme mit GMX und Web.de
    E-Mail-Hosting
    "Wir haben laufend Probleme mit GMX und Web.de"

    Probleme, wie sie die Bahn jüngst mit GMX und Web.de hatte, kennt der Mailprovider Tinc schon lang. Antworten bleibe GMX schuldig, sagt uns der CEO.
    Ein Interview von Moritz Tremmel

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • LG OLED TV 2022 65" 120 Hz 1.799€ • ASRock Mainboard f. Ryzen 7000 319€ • MindStar (G.Skill DDR5-6000 32GB 299€, Mega Fastro SSD 2TB 135€) • Alternate (G.Skill DDR5-6000 32GB 219,90€) • Xbox Series S + FIFA 23 259€ • PCGH-Ratgeber-PC 3000€ Radeon Edition 2.500€ [Werbung]
    •  /