Zum Hauptinhalt Zur Navigation Zur Suche

Für Training und Inferenz: Google stellt neue TPU-Generation mit zwei Modellen vor

Höhere Rechenleistung, größere Cluster mit eigenen CPUs und zwei Spezialisierungen: Googles achte TPU-Generation setzt sich vom Vorgänger ab.
/ Johannes Hiltscher
1 Kommentare News folgen (öffnet im neuen Fenster)
Das Package der TPU 8i rechts ist größer als das der TPU 8t links, da zwei Compute-Chiplets verbaut sind. (Bild: Google)
Das Package der TPU 8i rechts ist größer als das der TPU 8t links, da zwei Compute-Chiplets verbaut sind. Bild: Google
Inhalt
  1. Für Training und Inferenz: Google stellt neue TPU-Generation mit zwei Modellen vor
  2. Größere Pods und mehr Netzwerkbandbreite

Ein Jahr nach Ironwood hat Google im Rahmen der Hausmesse Cloud Next die achte Generation seiner Tensor Processing Unit (TPU) vorgestellt(öffnet im neuen Fenster). Erstmals ist eine Generation zweigleisig aufgestellt, nachdem Ironwood lediglich über die Pod-Größe differenziert hatte: Mit TPU 8t und TPU 8i gibt es zwei Varianten für Training und Inferenz. Google differenziert aufgrund der unterschiedlichen Anforderungen, betont aber, dass beide Varianten sich für Inferenz und Training eignen.

Entsprechend sind die Unterschiede kleiner als bei Nvidias GPUs und LPUs: Die TPU 8i bringt mit 384 MByte mehr schnellen SRAM mit, setzt aber größtenteils auf High Bandwidth Memory (HBM). Der SRAM ist nicht für Modellgewichte gedacht, sondern für den KV-Cache. Die TPU 8t ist hingegen stärker auf Rechenleistung ausgelegt. Beide Varianten unterstützen erstmals 4-Bit-Gleitkommazahlen (FP4).

Das macht den Großteil des Zugewinns an Rechenleistung im Vergleich zu Ironwood aus. Bereinigt um den Effekt durch die halbierte Größe der Datentypen kommt die TPU 8t auf ein Plus von 37 Prozent. Bei der TPU 8i sind es zehn Prozent.

Zwei Varianten, zwei Chiplets

Beide Varianten sind nicht nur unterschiedlich ausgerichtet, sie nutzen auch jeweils eigene Compute-Dies: die TPU 8i zwei pro Package, die TPU 8t lediglich eins. Das führt auch zu einer unterschiedlichen HBM-Ausstattung. Die TPU 8i nutzt wie Ironwood acht HBM3-Stacks, allerdings mit 36 statt 24 GByte pro Stack. Die Bandbreite ist 16 Prozent höher als bei Ironwood.

Bei der t-Variante liegt die Bandbreite sogar 13 Prozent unter dem Vorgänger: Hier sind sechs Stacks verbaut, HBM3e fängt den Bandbreiteneinbruch etwas auf. Neben HBM und Compute-Chiplet sind beide Packages mit einem Chiplet für die Inter-Chip-Kommunikation (ICI) bestückt. Die PCIe-Controller für die Anbindung an die Host-CPU sowie ein Board Management Controller (BMC) hingegen sitzen im Compute Die.

Google TPU v7 vs. v8
TPU 7 (Ironwood)TPU 8iTPU 8t
Pod-Größe256/9.2161.152 (max. 1.024 aktiv)9.600
Rechenleistung (FP4)4,6 PFlops (FP8)10,1 PFlops12,6 PFlops
SRAM128 MByte384 GByte128 GByte
Speicher192 GByte HBM3288 GByte HBM3216 GByte HBM3e
Speicherbandbreite7,4 TByte/s8,6 TByte/s6,5 TByte/s
Chip-to-Chip-Bandbreite9,6 TBit/s (6x 8 112 GBit-Serdes)19,2 TBit/s (6x 8 224 Gbit-Serdes)19,2 TBit/s (6x 8 224 Gbit-Serdes)

Unterschiede im Detail

Google differenziert beide Varianten zusätzlich über integrierte Zusatzeinheiten. Es gibt in der TPU 8t eine nicht näher erläuterte LLM Decoder Engine. Die Entwickler haben zudem das Verhältnis von Matrix- und Vektoreinheiten angepasst, was eine bessere Auslastung erreichen soll.

Die TPU 8t verfügt zudem über zwei Sparse-Cores, die nicht zusammenhängende Speicherzugriffe wie Gather-Operationen übernehmen. Bei der TPU 8i übernimmt die Collectives Acceleration Engine (CAE) eine ähnliche Aufgabe. Sie aggregiert Teilergebnisse und sitzt im IO-Chiplet. Die CAE ersetzt damit die vier Sparse-Cores von Ironwood, die auf die beiden Compute-Dies verteilt waren.

Die Varianten kombiniert Google mit den eigenen Axion-CPUs. Pro Server sind doppelt so viele CPUs wie bei Ironwood verbaut. CPUs und TPUs haben keine gemeinsame Sicht auf den Speicher (NUMA, Non-uniform Memory Architecture).

Neben der Architektur der Chips ist die des Netzwerks mindestens ebenso wichtig.


Relevante Themen