Zum Hauptinhalt Zur Navigation

Supercomputer: Start-up baut ersten Exascale-AI-Computer

Die fast lineare Skalierung des Andromeda AI macht das System enorm stark. Im Vergleich zu herkömmlichen Supercomputern wie Frontier fehlen aber entscheidende Features.
/ Martin Böckmann
Kommentare News folgen (öffnet im neuen Fenster)
Bis zu 192 Systeme sollen sich zu einem Cluster zusammenschließen lassen. (Bild: Cerebras)
Bis zu 192 Systeme sollen sich zu einem Cluster zusammenschließen lassen. Bild: Cerebras

Das US-Startup Cerebras(öffnet im neuen Fenster) aus San Diego hat den Andromeda AI Supercomputer(öffnet im neuen Fenster) mit 13,5 Millionen Kernen vorgestellt. Das System gehört mit einer Spitzenleistung von 1,1 Exaflops wie der Frontier Supercomputer(öffnet im neuen Fenster) des ORNL zu den sogenannten Exascale-Supercomputern, wobei die maximale Rechenleistung nur bei FP16 (halbe Genauigkeit) zur Verfügung steht.

FP64 mit doppelter Genauigkeit fehlt, womit das Einsatzfeld stark eingeschränkt wird. Die meisten vollwertigen Supercomputer unterstützen neben FP16- und FP32- auch große FP64-Berechnungen mit doppelter Genauigkeit. Cerebras CEO Andrew Feldman sagte dazu: "Für traditionelle Supercomputer-Berechnungen wie beispielsweise große Simulationen ist Frontier das bessere System."

Dennoch sieht der CEO im Bereich der AI-Berechnungen einen Markt für seine Computer. Denn dafür braucht es so viele Kerne wie möglich, wobei diese auch ohne FP64 (doppelte Genauigkeit) auskommen können. Nur so kommt das Unternehmen auf die enorme Zahl von 13,5 Millionen Kernen, die in 16 Systemen zu einem Supercomputer verbunden sind. Dieser soll sich wie ein einziger Computer ansprechen lassen und zudem fast linear skalieren, was eine enorme Herausforderung darstellt.

Fast lineare Skalierung mit mehr Systemen erreicht

Rick Stevens, stellvertretender Laborleiter des Argonne National Laboratory(öffnet im neuen Fenster) , gibt an, dass das Andromeda-System eine nahezu perfekte Skalierung erreiche. Verglichen mit einem einzelnen Cerebras CS2 schaffen 16 CS-2-Systeme im Andromeda die 15,87-fache Rechenleistung beim Training mit dem GPT3-XL Large Language Model am Covid-19-Genom.

Lineare Skalierung ist eine der am meisten angestrebten, jedoch selten erreichten Charakteristiken eines großen Rechenclusters. Andromeda setzt in diesem Bereich laut Stevens neue Maßstäbe. Andrew Feldman sagte, dass die gleichen Berechnungen am Argonne National Laboratory auf dem Polaris Supercomputer mit Nvidia-A100-GPUs nicht möglich gewesen seien, da die GPUs nicht genug Speicher und eine zu langsame Anbindung hätten.

Belege gibt es dafür nicht direkt, weshalb die Aussage mit etwas Vorsicht zu genießen ist. Cerebras will solche Problematiken jedenfalls gelöst haben und gibt an, dass bis zu 192 CS-2-Systeme zu einem Cluster kombiniert werden können. Jedes CS-2 beinhaltet dabei die WSE-2 (Wafer Scale Engine)(öffnet im neuen Fenster) , einen riesigen, 46,2 cm² großen Chip mit 40 GByte On-Chip-Memory und 20 PByte/s Speicherdurchsatz. Er muss mit einem aufwendigen Wasserkühlsystem gekühlt werden, um die 20 kW Abwärme abzuführen.


Relevante Themen