Halbleiterfertigung & AI: So baut Cerebras seinen Wafer-großen Chip

Cerebras' Wafer Scale Engine beeindruckt nicht nur mit der Größe, sondern auch mit der Architektur. Der Chip berechnet 7,5 Petaflops.

Ein Bericht von Johannes Hiltscher veröffentlicht am
Die Wafer Scale Engine 2 besteht aus 12 x 7 einzelnen Dies, die auf einem Wafer gefertigt und miteinander verbunden sind.
Die Wafer Scale Engine 2 besteht aus 12 x 7 einzelnen Dies, die auf einem Wafer gefertigt und miteinander verbunden sind. (Bild: Cerebras)

KI-Beschleuniger WSE2 für Wafer Scale Engine von Cerebras ist auf den ersten Blick vor allem beeindruckend groß: Der Chip misst 215 x 215 mm und entsteht aus einem vollständigen Wafer, dem lediglich die Rundungen abgeschnitten wurden. Bei der wichtigsten Konferenz für Prozessortechnik, der Hot Chips, hat Sean Lie über Aufbau und Herstellung des riesigen Chips gesprochen. Lie ist Mitgründer und leitender Hardware-Entwickler des auf KI-Beschleuniger spezialisierten kalifornischen Unternehmens Cerebras.

Inhalt:
  1. Halbleiterfertigung & AI: So baut Cerebras seinen Wafer-großen Chip
  2. Ein besonderer Prozessor

Grundsätzlich unterscheidet sich die Herstellung der WSE2 erst einmal nicht von der anderer Chips. Gefertigt wird sie in einem 7-nm-Prozess (N7) beim Auftragsfertiger TSMC. Da die Größe der Belichtungsmasken, die für die Herstellung von Transistoren und Leitungen erforderlich sind, begrenzt ist, besteht die WSE2 aus 84 einzelnen, je 510 mm2 großen Dies.

Anders hingegen ist die Weiterverarbeitung: Während der Wafer normalerweise in die einzelnen Dies zersägt würde, bleibt er für die WSE2 ganz. Stattdessen werden die einzelnen Dies mit Leitern verbunden, welche die sogenannte Scribe Line – hier würde normalerweise gesägt – überbrücken. Das Verfahren hat TSMC speziell für Cerebras entwickelt.

Die Leiter, welche die Dies verbinden, formen ein Netzwerk, über das die einzelnen Prozessoren kommunizieren. Davon befinden sich über 85.000 in der WSE2 – allerdings funktionieren bei keinem Chip alle. Bei der Halbleiterfertigung kommt es durch Ungenauigkeiten stets zu Defekten. Je größer ein Chip, desto höher die Wahrscheinlichkeit, dass er nicht (vollständig) funktioniert. Defekte Dies werden, je nach Schwere des Defekts, aussortiert oder nur teilweise aktiviert. Da bei Cerebras der Wafer ganz bleibt, funktioniert das nicht.

Zentrale Bedeutung des Netzwerks

Cerebras erledigt die Sortierung bei der WSE2 über das Netzwerk, das die einzelnen Prozessoren verbindet. Es hat große Ähnlichkeiten mit dem in Teslas Dojo genutzten Verbindungssystem: Jeder Prozessor ist mit vier Nachbarn verbunden, so entsteht ein zweidimensionales Gitter. Anders als bei Dojo sind allerdings alle Verbindungen gleich schnell, selbst wenn zwei Nachbarn in verschiedenen Dies sitzen. Auch in der WSE2 ist das Netzwerk so einfach wie möglich gehalten; wie Nachrichten von einem Knoten zum anderen kommen, bestimmen einfache Routing-Tabellen.

  • Jeder Prozessor der WSE2 besteht zur Hälfte aus Speicher. (Bild: Cerebras)
  • Der Speicher der WSE2-Prozessoren liefert Daten sehr schnell. (Bild: Cerebras)
  • Durch den großen, schnellen Speicher können die Prozessoren permanent rechnen, selbst wenn Daten nur selten verwendet werden. (Bild: Cerebras)
  • Eine Besonderheit der Prozessoren sind die Datenstrukturregister. Sie ermöglichen mehrdimensionale Datentypen. (Bild: Cerebras)
  • Die Prozessoren haben Hardware-Threads und können Null-Werte aussortieren, um unnötige Multiplikationen zu vermeiden. (Bild: Cerebras)
  • Die WSE2 nimmt einen ganzen Wafer ein und besteht aus 84 einzelnen Dies, von denen jeder über 10.000 Prozessoren enthält. (Bild: Cerebras)
  • Das Netzwerk, das die einzelnen Prozessoren verbindet, ist sehr einfach gehalten. (Bild: Cerebras)
  • Alle Verbindungen auf dem Wafer-großen Chip sind gleich schnell. (Bild: Cerebras)
  • Auf dem großen Chip lassen sich Daten schnell und mit geringem Energieaufwand bewegen. (Bild: Cerebras)
Das Netzwerk, das die einzelnen Prozessoren verbindet, ist sehr einfach gehalten. (Bild: Cerebras)

Wie bei Dojo dienen die Routing-Tabellen dazu, defekte Prozessoren zu umgehen und die Kommunikation möglichst gleichmäßig über das Netzwerk zu verteilen. In jedem Prozessor können bis zu 24 Routen konfiguriert werden, jede verfügt über einen eigenen Puffer. Die Verbindungen, von denen jede bidirektional 32 Bit pro Takt überträgt, teilen sie sich. So weit, so normal.

Spannend wird es allerdings beim Blick darauf, wie Daten übertragen werden. Jedes 32-Bit-Paket besteht nämlich nur zur Hälfte aus Daten, orientiert hat sich Cerebras hier an den bei KI-Anwendungen oft genutzten 16-Bit-Gleitkommazahlen. Die andere Hälfte nehmen Kontrollinformationen ein.

Daten steuern Berechnung

Die Datenverarbeitung erfolgt in der WSE2 auf eine etwas ungewöhnliche Weise: Sie ist als sogenannter Datenflussautomat realisiert. Das bedeutet, dass die eingehenden Daten die ausgeführte Befehlssequenz steuern. Hierfür werden die 16 Kontrollbits benötigt. Das Programmiermodell der WSE2 sieht vor, dass viele Prozessoren gemeinsam an einem großen Problem arbeiten. Dabei werden Zwischenergebnisse aus einer Operation an andere Prozessoren verschickt, die damit weitere Berechnungen ausführen. Da die Daten permanent in Bewegung sind, wird wenig Speicher benötigt.

Der Datenfluss ist zudem ein wichtiger Effizienzmechanismus. Die Prozessoren sind beispielsweise in der Lage, Nullwerte einfach zu verwerfen und nicht an Nachfolger weiterzuleiten. Damit werden bei Multiplikationen unnötige Berechnungen vermieden, was besonders bei sogenannten dünnbesetzten Matrizen (sparse matrices) sinnvoll ist, die viele Nullen enthalten. Nvidias A100 und H100 unterstützen dies ebenfalls.

Werfen wir noch einen Blick auf die Architektur der Prozessoren. Denn ein spezielles Datenmodell erfordert natürlich auch spezielle Hardware.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Ein besonderer Prozessor 
  1. 1
  2. 2
  3.  


John2k 01. Sep 2022

Mir ist in Erinnerung geblieben, dass das Gehirn langsam ist, aber unglaublich parallel...

LangFinger90 01. Sep 2022

Ich würde die nicht sehr weit oben bei den mächtigsten Unternehmen der Welt einstufen...

spambox 01. Sep 2022

Mich interessieren Details darüber, wie der Chip versorgt wird. Das muss ja irgendwie...



Aktuell auf der Startseite von Golem.de
25 Jahre Grim Fandango
Toller Trip durch das Reich der Toten

Morbide und lustig: Grim Fandango war kein Erfolg und gilt trotzdem als Klassiker. Golem.de hat es erneut durchgespielt - und war wieder begeistert.
Von Andreas Altenheimer

25 Jahre Grim Fandango: Toller Trip durch das Reich der Toten
Artikel
  1. Star Wars: Holiday Special jetzt in 4K mit 60 fps
    Star Wars
    Holiday Special jetzt in 4K mit 60 fps

    Eine bessere Story bekommt der legendär schlechte Film dadurch leider nicht. Bis heute lieben ihn einige Fans aber vor allem wegen seiner Absurdität.

  2. Autonomes Fahren: Im Märzen der Bauer den Roboter einspannt
    Autonomes Fahren
    Im Märzen der Bauer den Roboter einspannt

    Landmaschinen ohne Fahrer, Traktoren, die mit Gesten gesteuert werden - autonome Systeme sollen in der Landwirtschaft gleich mehrere Probleme lösen.
    Ein Bericht von Werner Pluta

  3. Lohn und Gehalt: OpenAI-Entwickler verdienen bis zu 800.000 US-Dollar im Jahr
    Lohn und Gehalt
    OpenAI-Entwickler verdienen bis zu 800.000 US-Dollar im Jahr

    Die Firma hinter Chat-GPT zahlt im Vergleich zu Unternehmen wie Nvidia besonders gut. Erfahrene Forscher und Entwickler auf dem Gebiet sind Mangelware.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Crucial P5 Plus 2 TB mit Kühlkörper 114,99€ • Crucial Pro 32 GB DDR5-5600 79,99€ • Logitech G915 TKL LIGHTSYNC RGB 125,11€ • Anthem PC 0,99€ • Wochenendknaller bei MediaMarkt • MindStar: Patriot Viper VENOM 64 GB DDR5-6000 159€, XFX RX 7900 XT Speedster MERC 310 Black 789€ [Werbung]
    •  /