Größere Pods und mehr Netzwerkbandbreite
Die Pod-Größen, sprich die Anzahl mit höchster Bandbreite vernetzter TPUs, hat Google von 256 auf 1.152 für Inferenzsysteme und von 9.216 auf 9.600 für Trainingssysteme gesteigert. Bei den Inferenz-Pods kommt zudem mit Boardfly eine neue, dreistufige Netzwerktopologie zum Einsatz: In jedem Server sind die vier TPU 8i jeweils direkt mit 1,6 TBit/s durch eine Serdes-Gruppe verbunden, pro Rack sind acht Server direkt miteinander verbunden. Hierfür werden pro Server elf Serdes-Gruppen genutzt.
36 Racks wiederum bilden einen Pod, wofür jeweils noch eine Serdes-Gruppe pro Server übrigbleibt. Zwei TPUs sind bei diesem Aufbau durch maximal sieben Kabel (Hops) verbunden. Jeder Chip verfügt über insgesamt sechs Serdes-Gruppen mit einer Gesamtbandbreite von 19,2 TBit/s – eine Verdoppelung gegenüber Ironwood. Innerhalb eines Racks setzt Google auf Kupferleiter, zwischen den Racks wird optisch über optische Switches kommuniziert.
Die TPU 8t hingegen setzt weiterhin auf einen 3D-Torus; sie verfügt über die gleiche Scale-up-Bandbreite, allerdings zusätzlich über 400 GBit/s für das Scale-out-Netzwerk. Hier hat Google gegenüber Ironwood vervierfacht und setzt vermutlich auf RDMA over Converged Ethernet (RoCE).
Über eine Million TPUs trainieren zusammen
Über das Scale-out-Netzwerk lassen sich 134.000 TPUs verbinden. Die Skalierung soll annähernd linear sein: Eine Verdoppelung der Anzahl an Chips halbiert etwa die erforderliche Rechenzeit.
Die sind direkt und nicht-blockierend über das ebenfalls neue Virgo-Scale-out-Netzwerk(öffnet im neuen Fenster) mit zwei Switch-Ebenen und einer Bisektionsbandbreite von 47 Petabit/s verbunden.
Nach Scale-out geht aber noch mehr: Mit der neuen Generation lassen sich über eine Million Chips zu einem Trainings-Cluster zusammenfassen. Dann erfolgt die Kommunikation der einzelnen Systeme allerdings über das Jupiter-Netzwerk. Hierfür werden per PCIe angebundene Netzwerkkarten genutzt.
Direktzugriff auf Massenspeicher
Jupiter bindet auch normale CPU- sowie die Storage-Server an. Auf diese kann die t-Variante zudem per RDMA zugreifen, um schneller an Trainingsdaten zu kommen. Google nennt dies TPU Direct. Angebunden ist das Lustre-Speichersystem mit 10 TByte/s. Virgo verfügt außerdem über ein Monitoring-System, das Fehler schneller eingrenzen und umgehen soll.
Fehlerhafte Verbindungen sollen automatisch erkannt und umgangen werden. Das soll zu weniger Verzögerungen beim KI-Training führen: Ausfallzeiten infolge von Hardware- und Netzwerkfehlern sollen unter drei Prozent sinken.
Am Entwurf der beiden Chips war auch Google Deepmind beteiligt – nicht nur, um sie an die Anforderungen der hauseigenen Modelle anzupassen; Deepminds KI-Tools haben auch die Chips mitgestaltet.
Google setzt die beiden neuen TPUs in eigenen Rechenzentren zuerst für die eigenen Modelle ein. Ende 2026 sollen auch Cloud-Kunden sie mieten können.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.