Suche

Halbleiterfertigung & AI: So baut Cerebras seinen Wafer-großen Chip

Cerebras' Wafer Scale Engine beeindruckt nicht nur mit der Größe, sondern auch mit der Architektur. Der Chip berechnet 7,5 Petaflops.

Ein Bericht von Johannes Hiltscher veröffentlicht am
Die Wafer Scale Engine 2 besteht aus 12 x 7 einzelnen Dies, die auf einem Wafer gefertigt und miteinander verbunden sind. (Bild: Cerebras)

KI-Beschleuniger WSE2 für Wafer Scale Engine von Cerebras ist auf den ersten Blick vor allem beeindruckend groß: Der Chip misst 215 x 215 mm und entsteht aus einem vollständigen Wafer, dem lediglich die Rundungen abgeschnitten wurden. Bei der wichtigsten Konferenz für Prozessortechnik, der Hot Chips, hat Sean Lie über Aufbau und Herstellung des riesigen Chips gesprochen. Lie ist Mitgründer und leitender Hardware-Entwickler des auf KI-Beschleuniger spezialisierten kalifornischen Unternehmens Cerebras.

Anzeige

Grundsätzlich unterscheidet sich die Herstellung der WSE2 erst einmal nicht von der anderer Chips. Gefertigt wird sie in einem 7-nm-Prozess (N7) beim Auftragsfertiger TSMC. Da die Größe der Belichtungsmasken, die für die Herstellung von Transistoren und Leitungen erforderlich sind, begrenzt ist, besteht die WSE2 aus 84 einzelnen, je 510 mm2 großen Dies.

Anders hingegen ist die Weiterverarbeitung: Während der Wafer normalerweise in die einzelnen Dies zersägt würde, bleibt er für die WSE2 ganz. Stattdessen werden die einzelnen Dies mit Leitern verbunden, welche die sogenannte Scribe Line – hier würde normalerweise gesägt – überbrücken. Das Verfahren hat TSMC speziell für Cerebras entwickelt.

Die Leiter, welche die Dies verbinden, formen ein Netzwerk, über das die einzelnen Prozessoren kommunizieren. Davon befinden sich über 85.000 in der WSE2 – allerdings funktionieren bei keinem Chip alle. Bei der Halbleiterfertigung kommt es durch Ungenauigkeiten stets zu Defekten. Je größer ein Chip, desto höher die Wahrscheinlichkeit, dass er nicht (vollständig) funktioniert. Defekte Dies werden, je nach Schwere des Defekts, aussortiert oder nur teilweise aktiviert. Da bei Cerebras der Wafer ganz bleibt, funktioniert das nicht.

Anzeige

Zentrale Bedeutung des Netzwerks

Cerebras erledigt die Sortierung bei der WSE2 über das Netzwerk, das die einzelnen Prozessoren verbindet. Es hat große Ähnlichkeiten mit dem in Teslas Dojo genutzten Verbindungssystem: Jeder Prozessor ist mit vier Nachbarn verbunden, so entsteht ein zweidimensionales Gitter. Anders als bei Dojo sind allerdings alle Verbindungen gleich schnell, selbst wenn zwei Nachbarn in verschiedenen Dies sitzen. Auch in der WSE2 ist das Netzwerk so einfach wie möglich gehalten; wie Nachrichten von einem Knoten zum anderen kommen, bestimmen einfache Routing-Tabellen.

Jeder Prozessor der WSE2 besteht zur Hälfte aus Speicher. (Bild: Cerebras) [1/9]

Der Speicher der WSE2-Prozessoren liefert Daten sehr schnell. (Bild: Cerebras) [2/9]

Durch den großen, schnellen Speicher können die Prozessoren permanent rechnen, selbst wenn Daten nur selten verwendet werden. (Bild: Cerebras) [3/9]

Eine Besonderheit der Prozessoren sind die Datenstrukturregister. Sie ermöglichen mehrdimensionale Datentypen. (Bild: Cerebras) [4/9]

Die Prozessoren haben Hardware-Threads und können Null-Werte aussortieren, um unnötige Multiplikationen zu vermeiden. (Bild: Cerebras) [5/9]

Die WSE2 nimmt einen ganzen Wafer ein und besteht aus 84 einzelnen Dies, von denen jeder über 10.000 Prozessoren enthält. (Bild: Cerebras) [6/9]

Das Netzwerk, das die einzelnen Prozessoren verbindet, ist sehr einfach gehalten. (Bild: Cerebras) [7/9]

Alle Verbindungen auf dem Wafer-großen Chip sind gleich schnell. (Bild: Cerebras) [8/9]

Auf dem großen Chip lassen sich Daten schnell und mit geringem Energieaufwand bewegen. (Bild: Cerebras) [9/9]

Wie bei Dojo dienen die Routing-Tabellen dazu, defekte Prozessoren zu umgehen und die Kommunikation möglichst gleichmäßig über das Netzwerk zu verteilen. In jedem Prozessor können bis zu 24 Routen konfiguriert werden, jede verfügt über einen eigenen Puffer. Die Verbindungen, von denen jede bidirektional 32 Bit pro Takt überträgt, teilen sie sich. So weit, so normal.

Spannend wird es allerdings beim Blick darauf, wie Daten übertragen werden. Jedes 32-Bit-Paket besteht nämlich nur zur Hälfte aus Daten, orientiert hat sich Cerebras hier an den bei KI-Anwendungen oft genutzten 16-Bit-Gleitkommazahlen. Die andere Hälfte nehmen Kontrollinformationen ein.

Daten steuern Berechnung

Die Datenverarbeitung erfolgt in der WSE2 auf eine etwas ungewöhnliche Weise: Sie ist als sogenannter Datenflussautomat realisiert. Das bedeutet, dass die eingehenden Daten die ausgeführte Befehlssequenz steuern. Hierfür werden die 16 Kontrollbits benötigt. Das Programmiermodell der WSE2 sieht vor, dass viele Prozessoren gemeinsam an einem großen Problem arbeiten. Dabei werden Zwischenergebnisse aus einer Operation an andere Prozessoren verschickt, die damit weitere Berechnungen ausführen. Da die Daten permanent in Bewegung sind, wird wenig Speicher benötigt.

Der Datenfluss ist zudem ein wichtiger Effizienzmechanismus. Die Prozessoren sind beispielsweise in der Lage, Nullwerte einfach zu verwerfen und nicht an Nachfolger weiterzuleiten. Damit werden bei Multiplikationen unnötige Berechnungen vermieden, was besonders bei sogenannten dünnbesetzten Matrizen (sparse matrices) sinnvoll ist, die viele Nullen enthalten. Nvidias A100 und H100 unterstützen dies ebenfalls.

Werfen wir noch einen Blick auf die Architektur der Prozessoren. Denn ein spezielles Datenmodell erfordert natürlich auch spezielle Hardware.

  1. Ein besonderer Prozessor
  1. 1
  2. 2