Ein besonderer Prozessor

Sean Lie, der leitende Entwickler der WSE2, eröffnete seinen Vortrag mit dem Bild eines einzelnen Prozessors. Das sieht verblüffend aus, denn die Hälfte der Fläche nimmt Speicher ein. Jeder Prozessor verfügt über 48 KByte SRAM, um Daten zu speichern, dazu kommen noch einmal 256 Byte als Cache. Der Speicher ist in acht Bänke aufgeteilt, die jeweils mit 32 Bit angebunden sind.

Stellenmarkt
  1. Mitarbeiter* Technischer Support / After Sales
    LISTAN GmbH, Glinde
  2. IT - Sicherheitsbeauftrager (m/w/d)
    Interflex, Stuttgart
Detailsuche

Die vier 16-Bit-Gleitkommaeinheiten werden in jedem Takt mit zwei 64-Bit-Werten aus dem Speicher versorgt, ein 64-Bit-Wert kann zurückgeschrieben werden. Ergebnisse können allerdings auch direkt über das Netzwerk an andere Prozessoren verschickt werden. Die Recheneinheiten unterstützen sogenannte Fused-Multiply-Accumulate-Operationen (FMAC), können also die Ergebnisse aufeinanderfolgender Multiplikationen aufsummieren – ein logisches Design für die von KI-Anwendungen genutzten Matrixoperationen.

Der große Speicher – insgesamt fast 4 GByte – dient dazu, die Prozessoren permanent mit Daten zu versorgen und sie so beschäftigt zu halten. Er wird rein als Arbeitsspeicher genutzt, die Modellparameter werden hier nicht abgelegt. Sie befinden sich in einem externen Speicher und werden in den Chip geschickt, wenn sie benötigt werden und nach Abschluss der Berechnungen verworfen. Da Cerebras seine Chips für das Training neuronaler Netze vorsieht, werden die Parameter dann nicht mehr benötigt.

Sollte es trotz des großen integrierten Speichers doch einmal zu Versorgungsengpässen kommen, können die Prozessoren einfach einen anderen Prozess abarbeiten. Acht Stück können in jedem Prozessor gleichzeitig aktiv sein. Die eingehenden Daten sowie die Prioritäten der Prozesse entscheiden, welcher als nächster abgearbeitet wird.

  • Jeder Prozessor der WSE2 besteht zur Hälfte aus Speicher. (Bild: Cerebras)
  • Der Speicher der WSE2-Prozessoren liefert Daten sehr schnell. (Bild: Cerebras)
  • Durch den großen, schnellen Speicher können die Prozessoren permanent rechnen, selbst wenn Daten nur selten verwendet werden. (Bild: Cerebras)
  • Eine Besonderheit der Prozessoren sind die Datenstrukturregister. Sie ermöglichen mehrdimensionale Datentypen. (Bild: Cerebras)
  • Die Prozessoren haben Hardware-Threads und können Null-Werte aussortieren, um unnötige Multiplikationen zu vermeiden. (Bild: Cerebras)
  • Die WSE2 nimmt einen ganzen Wafer ein und besteht aus 84 einzelnen Dies, von denen jeder über 10.000 Prozessoren enthält. (Bild: Cerebras)
  • Das Netzwerk, das die einzelnen Prozessoren verbindet, ist sehr einfach gehalten. (Bild: Cerebras)
  • Alle Verbindungen auf dem Wafer-großen Chip sind gleich schnell. (Bild: Cerebras)
  • Auf dem großen Chip lassen sich Daten schnell und mit geringem Energieaufwand bewegen. (Bild: Cerebras)
Jeder Prozessor der WSE2 besteht zur Hälfte aus Speicher. (Bild: Cerebras)

Eigene Befehle und besondere Datentypen

Golem Karrierewelt
  1. Implementing Cisco Enterprise Wireless Networks (ENWLSI): virtueller Fünf-Tage-Workshop
    10.-14.10.2022, virtuell
  2. AZ-500 Microsoft Azure Security Technologies (AZ-500T00): virtueller Vier-Tage-Workshop
    28.11.-01.12.2022, virtuell
Weitere IT-Trainings

Um möglichst viel Leistung aus dem Chip herauszuholen, hat Cerebras einen eigenen Befehlssatz entwickelt. Der sollte möglichst einfach sein. Die Pipeline, welche die Befehle schrittweise abarbeitet, ist mit sechs Stufen relativ kurz. Auf den Befehlssatz ging Lie allerdings nicht genauer ein.

Ein Detail des Befehlssatzes stellte er hingegen detailliert vor. Dieser kennt nicht nur einzelne Zahlen, sondern zusätzlich mehrdimensionale Datentypen. So kann dieselbe Operation auf einzelnen Zahlen, Vektoren oder Matrizen arbeiten – bis zu vier Dimensionen sind möglich. Implementiert ist dies über sogenannte Datenstrukturregister, in denen nicht nur steht, wo Daten zu finden sind, sondern auch, wie sie strukturiert sind. Spezielle Zustandsautomaten ermöglichen die Verarbeitung der mehrdimensionalen Datentypen.

  • Jeder Prozessor der WSE2 besteht zur Hälfte aus Speicher. (Bild: Cerebras)
  • Der Speicher der WSE2-Prozessoren liefert Daten sehr schnell. (Bild: Cerebras)
  • Durch den großen, schnellen Speicher können die Prozessoren permanent rechnen, selbst wenn Daten nur selten verwendet werden. (Bild: Cerebras)
  • Eine Besonderheit der Prozessoren sind die Datenstrukturregister. Sie ermöglichen mehrdimensionale Datentypen. (Bild: Cerebras)
  • Die Prozessoren haben Hardware-Threads und können Null-Werte aussortieren, um unnötige Multiplikationen zu vermeiden. (Bild: Cerebras)
  • Die WSE2 nimmt einen ganzen Wafer ein und besteht aus 84 einzelnen Dies, von denen jeder über 10.000 Prozessoren enthält. (Bild: Cerebras)
  • Das Netzwerk, das die einzelnen Prozessoren verbindet, ist sehr einfach gehalten. (Bild: Cerebras)
  • Alle Verbindungen auf dem Wafer-großen Chip sind gleich schnell. (Bild: Cerebras)
  • Auf dem großen Chip lassen sich Daten schnell und mit geringem Energieaufwand bewegen. (Bild: Cerebras)
Eine Besonderheit der Prozessoren sind die Datenstrukturregister. Sie ermöglichen mehrdimensionale Datentypen. (Bild: Cerebras)

Mit all diesen Optimierungen erreicht die WSE2 eine Rechenleistung von 7,5 Petaflops (PFlops) bei FP16. Zum Vergleich: Nvidias H100 soll mit seinen Tensor-Cores 1 PFlops bei FP16 erreichen – beide Werte sind für vollbesetzte Matrizen. Bei dünnbesetzten Matrizen soll H100 die Leistung verdoppeln können, bei der WSE2 hingegen hängt der Geschwindigkeitszuwachs vom Verhältnis zwischen besetzten und unbesetzten Elementen ab. Ist nur jedes zehnte Matrixelement besetzt, erreicht WSE2 mit 75 PFlops die zehnfache Leistung.

Die Golem-PCs bei Dubaro

Wo ist der Vorteil?

Den großen Vorteil der WSE2 sieht Lie darin, dass (fast) beliebig große Modelle abgebildet werden können. Das macht die Programmierung einfacher, da der Datenaustausch zwischen einzelnen Rechenknoten nicht berücksichtigt werden muss. Natürlich bietet auch Cerebras eine Lösung zur Koppelung mehrerer WSE2-Systeme. Das Größenwachstum von KI-Modellen scheint schließlich noch lange nicht am Ende zu sein. Dazu hat Cerebras ein spezielles Netzwerkprotokoll entwickelt, das für Anwendungen transparent sein soll.

Und auch wenn KI stets als Anwendungsfall genannt wird: Mit der WSE2 ist deutlich mehr möglich. Alle Probleme, die auf Operationen mit Matrizen und Vektoren abgebildet werden können, lassen sich hiermit berechnen.

Darüber, wie gut eine Anwendung am Ende funktioniert, entscheidet die Leistungsfähigkeit von Compiler und Laufzeitumgebung. Sie sorgen dafür, dass stets die richtigen Daten an der richtigen Stelle sind. Nur wenn das sichergestellt ist, kann der riesige Chip seine Maximalleistung erreichen. Sehr wahrscheinlich müssen sich auch die Programmierer auf den Chip und seine Eigenheiten einstellen – einfach neu kompilieren genügt meist nicht, um die Leistung von Rechenbeschleunigern auszureizen. Natürlich nennt Cerebras auf seiner Homepage beeindruckende Geschwindigkeitsgewinne, der Aufwand hierfür ist allerdings nicht einzuschätzen und vor allem nicht mit anderen Ansätzen, beispielsweise GPUs, vergleichbar.

Auch wird ein System mit mehreren vernetzten WSE2 nicht linear skalieren, zwei Chips sind dann nicht doppelt so schnell wie einer. Über längere Distanzen sind einfach nicht die gleichen Datenraten erreichbar wie innerhalb eines Chips. Die von Cerebras entwickelte Architektur und deren Anpassung an die speziellen Herausforderungen großer Matrixmultiplikationen ist dennoch hochinteressant.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Halbleiterfertigung & AI: So baut Cerebras seinen Wafer-großen Chip
  1.  
  2. 1
  3. 2


John2k 01. Sep 2022 / Themenstart

Mir ist in Erinnerung geblieben, dass das Gehirn langsam ist, aber unglaublich parallel...

LangFinger90 01. Sep 2022 / Themenstart

Ich würde die nicht sehr weit oben bei den mächtigsten Unternehmen der Welt einstufen...

spambox 01. Sep 2022 / Themenstart

Mich interessieren Details darüber, wie der Chip versorgt wird. Das muss ja irgendwie...

Kommentieren



Aktuell auf der Startseite von Golem.de
Cloudgaming
Google Stadia scheiterte nur an sich selbst

Die Technik war nicht das Problem von Alphabets ambitioniertem Cloudgaming-Dienst. Das Problem liegt bei Google. Ein Nachruf.
Eine Analyse von Daniel Ziegener

Cloudgaming: Google Stadia scheiterte nur an sich selbst
Artikel
  1. Elektromobilität: Superschnelles Laden mit zwölf Megawatt
    Elektromobilität
    Superschnelles Laden mit zwölf Megawatt

    Das Unternehmen Paxos hat ein Hochleistungsladegerät mit Spezialstecker entwickelt. Der Industrie genügt eine weit geringere Leistung, aber autonome Fahrzeuge könnten das ändern.

  2. E-Mail-Hosting: Wir haben laufend Probleme mit GMX und Web.de
    E-Mail-Hosting
    "Wir haben laufend Probleme mit GMX und Web.de"

    Probleme, wie sie die Bahn jüngst mit GMX und Web.de hatte, kennt der Mailprovider Tinc schon lang. Antworten bleibe GMX schuldig, sagt uns der CEO.
    Ein Interview von Moritz Tremmel

  3. Copilot, Java, RISC-V, Javascript, Tor: KI macht produktiver und Rust gewinnt wichtige Unterstützer
    Copilot, Java, RISC-V, Javascript, Tor
    KI macht produktiver und Rust gewinnt wichtige Unterstützer

    Dev-Update Die Diskussion um die kommerzielle Verwertbarkeit von Open Source erreicht Akka und Apache Flink, OpenAI macht Spracherkennung, Facebook hilft Javascript-Enwicklern und Rust wird immer siegreicher.
    Von Sebastian Grüner

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • LG OLED TV 2022 65" 120 Hz 1.799€ • ASRock Mainboard f. Ryzen 7000 319€ • MindStar (G.Skill DDR5-6000 32GB 299€, Mega Fastro SSD 2TB 135€) • Alternate (G.Skill DDR5-6000 32GB 219,90€) • Xbox Series S + FIFA 23 259€ • PCGH-Ratgeber-PC 3000€ Radeon Edition 2.500€ [Werbung]
    •  /