Für Training und Inferenz: Google stellt neue TPU-Generation mit zwei Modellen vor
Inhalt
Ein Jahr nach Ironwood hat Google im Rahmen der Hausmesse Cloud Next die achte Generation seiner Tensor Processing Unit (TPU) vorgestellt(öffnet im neuen Fenster). Erstmals ist eine Generation zweigleisig aufgestellt, nachdem Ironwood lediglich über die Pod-Größe differenziert hatte: Mit TPU 8t und TPU 8i gibt es zwei Varianten für Training und Inferenz. Google differenziert aufgrund der unterschiedlichen Anforderungen, betont aber, dass beide Varianten sich für Inferenz und Training eignen.
Entsprechend sind die Unterschiede kleiner als bei Nvidias GPUs und LPUs: Die TPU 8i bringt mit 384 MByte mehr schnellen SRAM mit, setzt aber größtenteils auf High Bandwidth Memory (HBM). Der SRAM ist nicht für Modellgewichte gedacht, sondern für den KV-Cache. Die TPU 8t ist hingegen stärker auf Rechenleistung ausgelegt. Beide Varianten unterstützen erstmals 4-Bit-Gleitkommazahlen (FP4).
Das macht den Großteil des Zugewinns an Rechenleistung im Vergleich zu Ironwood aus. Bereinigt um den Effekt durch die halbierte Größe der Datentypen kommt die TPU 8t auf ein Plus von 37 Prozent. Bei der TPU 8i sind es zehn Prozent.
Zwei Varianten, zwei Chiplets
Beide Varianten sind nicht nur unterschiedlich ausgerichtet, sie nutzen auch jeweils eigene Compute-Dies: die TPU 8i zwei pro Package, die TPU 8t lediglich eins. Das führt auch zu einer unterschiedlichen HBM-Ausstattung. Die TPU 8i nutzt wie Ironwood acht HBM3-Stacks, allerdings mit 36 statt 24 GByte pro Stack. Die Bandbreite ist 16 Prozent höher als bei Ironwood.
Bei der t-Variante liegt die Bandbreite sogar 13 Prozent unter dem Vorgänger: Hier sind sechs Stacks verbaut, HBM3e fängt den Bandbreiteneinbruch etwas auf. Neben HBM und Compute-Chiplet sind beide Packages mit einem Chiplet für die Inter-Chip-Kommunikation (ICI) bestückt. Die PCIe-Controller für die Anbindung an die Host-CPU sowie ein Board Management Controller (BMC) hingegen sitzen im Compute Die.
| TPU 7 (Ironwood) | TPU 8i | TPU 8t | |
|---|---|---|---|
| Pod-Größe | 256/9.216 | 1.152 (max. 1.024 aktiv) | 9.600 |
| Rechenleistung (FP4) | 4,6 PFlops (FP8) | 10,1 PFlops | 12,6 PFlops |
| SRAM | 128 MByte | 384 GByte | 128 GByte |
| Speicher | 192 GByte HBM3 | 288 GByte HBM3 | 216 GByte HBM3e |
| Speicherbandbreite | 7,4 TByte/s | 8,6 TByte/s | 6,5 TByte/s |
| Chip-to-Chip-Bandbreite | 9,6 TBit/s (6x 8 112 GBit-Serdes) | 19,2 TBit/s (6x 8 224 Gbit-Serdes) | 19,2 TBit/s (6x 8 224 Gbit-Serdes) |
Unterschiede im Detail
Google differenziert beide Varianten zusätzlich über integrierte Zusatzeinheiten. Es gibt in der TPU 8t eine nicht näher erläuterte LLM Decoder Engine. Die Entwickler haben zudem das Verhältnis von Matrix- und Vektoreinheiten angepasst, was eine bessere Auslastung erreichen soll.
Die TPU 8t verfügt zudem über zwei Sparse-Cores, die nicht zusammenhängende Speicherzugriffe wie Gather-Operationen übernehmen. Bei der TPU 8i übernimmt die Collectives Acceleration Engine (CAE) eine ähnliche Aufgabe. Sie aggregiert Teilergebnisse und sitzt im IO-Chiplet. Die CAE ersetzt damit die vier Sparse-Cores von Ironwood, die auf die beiden Compute-Dies verteilt waren.
Die Varianten kombiniert Google mit den eigenen Axion-CPUs. Pro Server sind doppelt so viele CPUs wie bei Ironwood verbaut. CPUs und TPUs haben keine gemeinsame Sicht auf den Speicher (NUMA, Non-uniform Memory Architecture).
Neben der Architektur der Chips ist die des Netzwerks mindestens ebenso wichtig.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



