Zum Hauptinhalt Zur Navigation

Cerebras WSE-3: Der größte KI-Chip schlägt jedes GPU-System

Hot Chips
44 GByte SRAM und 900.000 mit hoher Bandbreite verbundene Rechenkerne stoßen beim KI -Inferencing in Regionen vor, die für GPUs unerreichbar sind.
/ Johannes Hiltscher
12 Kommentare News folgen (öffnet im neuen Fenster)
Die WSE-3 ist riesig. (Bild: Cerebras)
Die WSE-3 ist riesig. Bild: Cerebras

Die dritte Generation seiner Waferscale Engine (WSE-3) hatte Cerebras bereits im März 2024 vorgestellt . Auf der Konferenz Hot Chips(öffnet im neuen Fenster) hat CTO Sean Lie einen Einblick in die Leistung des Chips gegeben, der einen kompletten 300-mm-Wafer einnimmt. Ursprünglich war die WSE für KI-Training gedacht, Cerebras vermarktet sie nun aber auch für Inferencing - mit eigenem Cloudangebot.

Cerebras vergleicht die mit Metas Llama 3.1 mit 8 und 70 Milliarden Parametern (8B und 70B) erreichte Leistung der WSE-3 mit Systemen mit Nvidias H100. Verglichen mit einfachen Cloudlösungen erzeugt der riesige Chip dabei mehr als die zwanzigfache Menge an Tokens pro Sekunde und Nutzer. Bei optimierten Angeboten, etwa von Fireworks AI oder Together.ai, ist es noch immer die fünf- bis siebenfache Menge.

Einzig die Language Processing Unit (LPU) des Start-ups Groq(öffnet im neuen Fenster) kann halbwegs mithalten. Verglichen mit einem System aus LPUs generiert die WSE lediglich etwa doppelt so viele Tokens pro Sekunde und Nutzer. Dabei nutzt Groq eine quantisierte Variante, Cerebras arbeitet mit 16-Bit-Gleitkommazahlen (FP16). Die LPU ist, wie auch andere spezialisierte KI-Beschleuniger, nach ähnlichen Paradigmen entworfen: Sie setzt auf viel schnellen SRAM, um Gewichtsparameter permanent im Chip zu halten.

Speicherbandbreite ist für KI ein Problem

Bei GPUs hingegen müssen die Gewichte permanent wieder aus dem Speicher geladen werden. Und da wird selbst der schnelle High Bandwidth Memory (HBM) zum Flaschenhals.

Verstärkt wird das Problem laut Cerebras, wenn ein Modell auf mehrere GPUs verteilt wird: Dann soll die effektive Speicherbandbreite weiter sinken. So soll ein DGX-System mit acht H100 nur 25 Prozent seiner Speicherbandbreite nutzen können - trotz schnellem NVLink, der zudem viel Energie benötigt. Die gezeigten Zahlen wurden allerdings mit einer Batch-Größe von 1, also nur einer parallel verarbeiteten Anfrage, erzeugt. Höhere Parallelität könnte das Bild hier verändern.

Die Grundaussage allerdings bleibt: Speziell für KI entworfene Prozessoren schlagen die vielseitigeren GPUs - was auch nicht besonders verwunderlich ist. Die WSE-3 kann hier besonders punkten, da auch die einzelnen Prozessor-Cluster, dank Halbleitertechnik, mit deutlich höherer Bandbreite verbunden sind als selbst mit optischen Schnittstellen für getrennte Packages erreichbar.

Das hat allerdings seinen Preis: Ein Cerebras-System kostet mehrere Millionen US-Dollar . Und für große Modelle werden mehrere davon benötigt - Llama 3.1 mit 70 Milliarden Parametern etwa läuft auf vier der riesigen Chips. Sie sind erforderlich, da allein die Parameter im FP16-Format 170 GByte Speicher benötigen - eine WSE-3 kommt auf nur 44 GByte.

Die WSE-3 als Clouddienst

Um eine breitere Nutzerschicht zu erreichen, bietet Cerebras Inferencing auf der WSE-3 als Clouddienst(öffnet im neuen Fenster) an. Aktuell stehen nur Llama 3.1 8B und 70B zur Auswahl, das Angebot an Modellen soll künftig aber erweitert werden: Llama 3.1 soll mit 405 Milliarden Parametern angeboten werden, zusätzlich Mistral Large 2,Cohere, Command R und Whisper. Kunden sollen die Modelle auch für ihre Bedürfnisse anpassen können.

Andere Cloudangebote will Cerebras beim Preis deutlich unterbieten: Eine Million Tokens kosten bei Llama 3.1 7B 10 US-Cent, bei Llama 3.1 70B 60 US-Cent. Bis zu 30 Anfragen pro Minute und 1 Million Tokens pro Tag gibt es sogar kostenlos. Die Programmierschnittstelle (Application Programming Interface, API) ist laut Cerebras(öffnet im neuen Fenster) kompatibel zu OpenAIs Chat Completion API, so dass sich bestehende Anwendungen einfach migrieren lassen.


Relevante Themen