Halbleiterfertigung & AI: So baut Cerebras seinen Wafer-großen Chip
Cerebras' Wafer Scale Engine beeindruckt nicht nur mit der Größe, sondern auch mit der Architektur. Der Chip berechnet 7,5 Petaflops.
KI-Beschleuniger WSE2 für Wafer Scale Engine von Cerebras ist auf den ersten Blick vor allem beeindruckend groß: Der Chip misst 215 x 215 mm und entsteht aus einem vollständigen Wafer, dem lediglich die Rundungen abgeschnitten wurden. Bei der wichtigsten Konferenz für Prozessortechnik, der Hot Chips, hat Sean Lie über Aufbau und Herstellung des riesigen Chips gesprochen. Lie ist Mitgründer und leitender Hardware-Entwickler des auf KI-Beschleuniger spezialisierten kalifornischen Unternehmens Cerebras.
- Halbleiterfertigung & AI: So baut Cerebras seinen Wafer-großen Chip
- Ein besonderer Prozessor
Grundsätzlich unterscheidet sich die Herstellung der WSE2 erst einmal nicht von der anderer Chips. Gefertigt wird sie in einem 7-nm-Prozess (N7) beim Auftragsfertiger TSMC. Da die Größe der Belichtungsmasken, die für die Herstellung von Transistoren und Leitungen erforderlich sind, begrenzt ist, besteht die WSE2 aus 84 einzelnen, je 510 mm2 großen Dies.
Anders hingegen ist die Weiterverarbeitung: Während der Wafer normalerweise in die einzelnen Dies zersägt würde, bleibt er für die WSE2 ganz. Stattdessen werden die einzelnen Dies mit Leitern verbunden, welche die sogenannte Scribe Line – hier würde normalerweise gesägt – überbrücken. Das Verfahren hat TSMC speziell für Cerebras entwickelt.
Die Leiter, welche die Dies verbinden, formen ein Netzwerk, über das die einzelnen Prozessoren kommunizieren. Davon befinden sich über 85.000 in der WSE2 – allerdings funktionieren bei keinem Chip alle. Bei der Halbleiterfertigung kommt es durch Ungenauigkeiten stets zu Defekten. Je größer ein Chip, desto höher die Wahrscheinlichkeit, dass er nicht (vollständig) funktioniert. Defekte Dies werden, je nach Schwere des Defekts, aussortiert oder nur teilweise aktiviert. Da bei Cerebras der Wafer ganz bleibt, funktioniert das nicht.
Zentrale Bedeutung des Netzwerks
Cerebras erledigt die Sortierung bei der WSE2 über das Netzwerk, das die einzelnen Prozessoren verbindet. Es hat große Ähnlichkeiten mit dem in Teslas Dojo genutzten Verbindungssystem: Jeder Prozessor ist mit vier Nachbarn verbunden, so entsteht ein zweidimensionales Gitter. Anders als bei Dojo sind allerdings alle Verbindungen gleich schnell, selbst wenn zwei Nachbarn in verschiedenen Dies sitzen. Auch in der WSE2 ist das Netzwerk so einfach wie möglich gehalten; wie Nachrichten von einem Knoten zum anderen kommen, bestimmen einfache Routing-Tabellen.
Wie bei Dojo dienen die Routing-Tabellen dazu, defekte Prozessoren zu umgehen und die Kommunikation möglichst gleichmäßig über das Netzwerk zu verteilen. In jedem Prozessor können bis zu 24 Routen konfiguriert werden, jede verfügt über einen eigenen Puffer. Die Verbindungen, von denen jede bidirektional 32 Bit pro Takt überträgt, teilen sie sich. So weit, so normal.
Spannend wird es allerdings beim Blick darauf, wie Daten übertragen werden. Jedes 32-Bit-Paket besteht nämlich nur zur Hälfte aus Daten, orientiert hat sich Cerebras hier an den bei KI-Anwendungen oft genutzten 16-Bit-Gleitkommazahlen. Die andere Hälfte nehmen Kontrollinformationen ein.
Daten steuern Berechnung
Die Datenverarbeitung erfolgt in der WSE2 auf eine etwas ungewöhnliche Weise: Sie ist als sogenannter Datenflussautomat realisiert. Das bedeutet, dass die eingehenden Daten die ausgeführte Befehlssequenz steuern. Hierfür werden die 16 Kontrollbits benötigt. Das Programmiermodell der WSE2 sieht vor, dass viele Prozessoren gemeinsam an einem großen Problem arbeiten. Dabei werden Zwischenergebnisse aus einer Operation an andere Prozessoren verschickt, die damit weitere Berechnungen ausführen. Da die Daten permanent in Bewegung sind, wird wenig Speicher benötigt.
Der Datenfluss ist zudem ein wichtiger Effizienzmechanismus. Die Prozessoren sind beispielsweise in der Lage, Nullwerte einfach zu verwerfen und nicht an Nachfolger weiterzuleiten. Damit werden bei Multiplikationen unnötige Berechnungen vermieden, was besonders bei sogenannten dünnbesetzten Matrizen (sparse matrices) sinnvoll ist, die viele Nullen enthalten. Nvidias A100 und H100 unterstützen dies ebenfalls.
Werfen wir noch einen Blick auf die Architektur der Prozessoren. Denn ein spezielles Datenmodell erfordert natürlich auch spezielle Hardware.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
| Ein besonderer Prozessor |
- 1
- 2










Mir ist in Erinnerung geblieben, dass das Gehirn langsam ist, aber unglaublich parallel...
Ich würde die nicht sehr weit oben bei den mächtigsten Unternehmen der Welt einstufen...
Mich interessieren Details darüber, wie der Chip versorgt wird. Das muss ja irgendwie...