Zum Hauptinhalt Zur Navigation

KI-Training: AWS baut KI-Cluster mit Hunderttausenden Chips für Anthropic

AWS nennt Leistungsdaten zu Trainium 2 und kündigt einen riesigen Cluster an. Die Chips sind nun allgemein verfügbar, der Nachfolger bereits in Arbeit.
/ Johannes Hiltscher
Kommentare News folgen (öffnet im neuen Fenster)
Peter DeSantis, AWS Senior Vice President Utility Computing, neben einem Trainium 2 Superserver (Bild: AWS, Screenshot: Golem.de)
Peter DeSantis, AWS Senior Vice President Utility Computing, neben einem Trainium 2 Superserver Bild: AWS, Screenshot: Golem.de

Im Rahmen seiner Hausmesse Reinvent hat AWS Einblick in die eigenen, vor einem Jahr vorgestellten Trainium-2-Beschleuniger gegeben. Die sind nun für alle Kunden verfügbar, entwickelt wurden sie von Annapurna Labs, das Amazon 2015 übernommen hatte . Trainium 2 ist den Zahlen zufolge ein direkter Konkurrent zu Nvidias H100: Jeder der aus zwei Chips bestehenden Beschleuniger kommt mit 8-Bit-Datentypen auf eine Rechenleistung von bis zu 5,2 Tflops und kann 96 GByte HBM3-Speicher nutzen.

Wie bei Nvidia gilt dieser Wert nur für dünnbesetzte Matrizen ( Sparsity, g+ ). Allerdings setzt Trainium auf eine stärkere Reduktion um den Faktor 4, während Nvidia lediglich eine Halbierung der Anzahl an Berechnungen unterstützt. Bei voll besetzten Matrizen kommt Trainium auf nur 1,3 Tflops, die H100 ist 50 Prozent schneller.

Grundsätzlich anders ist allerdings der interne Aufbau: Hier setzt AWS auf ein systolisches Array (g+) , was bei speziellen KI-Beschleunigern häufig anzutreffen ist. Zwischenergebnisse können hier direkt im Chip an die nächste Recheneinheit weitergeleitet werden, was weniger Speicherzugriffe bedeutet.

Stärkeres Netzwerk für mehr Direktverbindungen

Neben der 25 Prozent höheren Rechenleistung stellt AWS noch heraus, dass man mehr Beschleuniger direkt und mit höherer Datenrate verbinden könne als Nvidia. So bilden 16 Trainium 2 einen Server, bei der H100 sind maximal acht Beschleuniger direkt verbunden. AWS nutzt dafür ein ebenfalls selbst entwickeltes Netzwerk namens Neuronlink. Es soll mit zwei TByte/s sogar etwas leistungsfähiger sein als Nvidias fünfte Nvlink-Generation, die bei Blackwell verwendet wird. Wiederum vier der Trainium-Server können zu einem Superserver verbunden werden.

Der Aufbau der acht Beschleunigereinschübe des Trainium-2-Servers ähnelt dabei eher dem Design, das Nvidia auch bei Blackwell verwendet: In jedem Einschub sitzen zwei der Beschleuniger. Die Datenversorgung übernimmt allerdings nicht ein Prozessor pro Einschub, stattdessen sieht AWS hierfür zwei nicht näher benannte CPUs in einem zusätzlichen Head Node vor. Ein Netzwerk-Switch komplettiert den Aufbau.

Der nächste schnellste KI-Supercomputer?

Auf Basis der Superserver plant AWS ein Megaprojekt: Anthropic soll für das Training der nächsten Generation seines Sprachmodells Claude einen Cluster mit Hunderttausenden Trainium 2 bekommen. Er soll laut Anthropics Chief Compute Officer Tom Brown mehr als die sechsfache Leistung der bisherigen Trainingsplattform des Unternehmens haben. Damit fließt zumindest ein Teil der mittlerweile fast sieben Milliarden US-Dollar, die Amazon in zwei Runden in das Unternehmen investierte , wieder zurück.

Neben KI-Training sollen Software-Optimierungen Trainium 2 aber auch für Inferencing interessant machen. Laut AWS sind die Systeme zudem günstiger als andere KI-Instanzen.

Der als Project Rainier geplante Supercomputer dürfte andere große Systeme wie die von X.AI oder Meta in den Schatten stellen – bis die ersten großen Systeme auf Basis von Blackwell kommen. Aber auch mit Nvidias neuem Beschleuniger will AWS konkurrieren: Für Ende 2025 wurde bereits Trainium 3 angekündigt. Der soll wieder bei TSMC gefertigt werden, allerdings in einem 3-nm-Prozess. Das soll eine Vervierfachung der Leistung gegenüber der aktuellen Generation ermöglichen. Trainium 3 und Nvidias B200 lägen dann bei der Rechenleistung etwa gleichauf.


Relevante Themen