Zum Hauptinhalt Zur Navigation

Viel KI-Leistung auf kleinem Raum: AWS bringt 144 Trainium3 in ein Rack

Amazons neuer KI -Chip soll deutlich günstiger sein als GPUs. 144 Trainium3 sind direkt verbunden, eine Million sollen zusammen rechnen können.
/ Johannes Hiltscher
Kommentare News folgen (öffnet im neuen Fenster)
Ein Trainium3-Package auf einer Trägerplatine (Bild: AWS)
Ein Trainium3-Package auf einer Trägerplatine Bild: AWS

AWS (Amazon Web Services) setzt seit Jahren auf eigene KI-Chips. Entworfen werden diese von dem Unternehmen Annapurna Labs, das AWS bereits 2015 kaufte . Bei der Hausmesse Reinvent verkündete das Unternehmen nun(öffnet im neuen Fenster) , das jüngste Modell Trainium3 sei im neuen Trn3 Ultracluster als EC2 Ultracluster 3.0 allgemein verfügbar. Äußerlich sieht der Chip aus wie sein Ende 2024 vorgestellter Vorgänger , doch der Eindruck täuscht.

Zunächst verbindet AWS deutlich mehr Chips mit hoher Bandbreite über das eigene Netzwerk Neuronlink: In einem Trn3 Ultraserver sind 144 Trainium3 verbunden, beim Vorgänger waren es 64. Pro Server steigt die Rechenleistung um den Faktor 4,4; heruntergerechnet auf den einzelnen Chip steigt die Rohleistung um rund 95 Prozent auf rund 2,5 PFlops bei FP8 für vollbesetzte Matrizen. Das Ultracluster liegt damit knapp vor dem GB200 NVL72, Nvidia gibt allerdings stets die Rechenleistung bei Nutzung von Sparsity (g+) an.

Die Rechenleistung eines Chips entspricht der Hälfte von Nvidias Blackwell B100 , Trainium3 unterstützt allerdings den Datentyp FP4 nicht. Anders als Blackwell wird Trainium3 in einem 3-nm-Prozess bei TSMC gefertigt, AWS setzt dabei auf kleinere Dies als Nvidia.

Die Chips sollen dank des moderneren Fertigungsprozesses 40 Prozent effizienter rechnen als ihre Vorgänger. Das ist ein Grund, weshalb Tranium3-Instanzen für Nutzer deutlich günstiger sein sollen als GPUs: Pro MW sollen die Trainium3-Ultraserver bei Inferenz viermal mehr Token generieren können als der Vorgänger. AWS verspricht damit bis zu einer Halbierung der Kosten. Rubin CPX dürfte hier aber die Karten neu mischen.

Mehr als doppelt so viele Beschleuniger auf halber Fläche

Beim Speicher dürfte AWS von HBM3 auf HBM3e umgestiegen sein, auch hier stieg die Bandbreite. Jedes Package mit zwei Compute-Dies und vier HBM-Stacks kommt auf rund 4,9 TByte/s. Es scheinen also Stacks mit zwölf Speicher-Dies und einer Kapazität von 36 GByte verbaut zu sein – sprich 144 GByte pro Package.

Auch die Server überarbeitete AWS komplett: Belegten die 64 Trainium 2 eines Trn2 Ultracluster noch zwei Racks, brauchen beim Nachfolger 144 Stück nur noch eines. Möglich macht das der Umstieg von Luft- auf Wasserkühlung, wodurch die einzelnen Einschübe nur noch eine HE (Höheneinheit) belegen. Auch scheinen pro Einschub jetzt sechs statt zwei Chips verbaut zu sein.

Das ist allerdings nur die Scale-up-Dimension, durch weitere Vernetzung lassen sich deutlich größere Cluster realisieren. Bis zu einer Million Trainium3 sollen so zusammenarbeiten können. Das ist noch einmal eine Verdoppelung gegenüber dem größten System, das AWS bislang baute: Project Rainier(öffnet im neuen Fenster) , das Anthropic für Claude nutzt, kommt auf 500.000 Trainium2, verteilt auf mehrere Rechenzentren.

Trainium4 kommt mit Nvlink

Während Trainium3 installiert wird, arbeitet AWS bereits am Nachfolger. Trainium4 soll FP4 unterstützen, die Rechenleistung bei FP8 soll verdreifacht, die Speicherbandbreite gar vervierfacht werden. Allerdings dürfte sich diese Ankündigung wieder auf die Rack-Ebene beziehen, auf der die Anzahl an Chips wohl wieder steigen wird. Trainium3 kündigte AWS 2024 mit der 4,4-fachen Leistung von Trainium2 an – was hauptsächlich durch die Steigerung der Anzahl an Chips pro Rack erreicht wird.

Das eigene Chip-to-Chip-Netzwerk Neuron wird AWS allerdings zugunsten von Nvidias Nvlink Fusion aufgeben. Auch die eigenen Graviton-CPUs und Nitro-NPUs sollen künftig Nvidias High-Speed-Schnittstelle nutzen. So soll AWS Hardware die MGX-Racks verwenden, in denen auch Nvidias GPUs installiert werden. Das soll Kosten senken und mehr Flexibilität bei der Installation ermöglichen.


Relevante Themen