Google erklärt TPU v4: KI-Supercomputer mit flexiblem optischen Netz

Dynamisch anpassbare Netzwerkstruktur, verbesserte Beschleuniger, effizienter als Nvidia: Googles TPU-v4-Supercomputer bringt Verbesserungen für Sprach- und Empfehlungsmodelle.

Ein Bericht von Johannes Hiltscher veröffentlicht am
Ein Mainboard mit vier TPU v4, die Stecker für OCS befinden sich auf der Unterseite, oben vier PCIe-Stecker.
Ein Mainboard mit vier TPU v4, die Stecker für OCS befinden sich auf der Unterseite, oben vier PCIe-Stecker. (Bild: Google)

Google verrät Details zur vierten Version seiner Tensor Processing Unit (TPU v4), die seit 2021 im Einsatz ist. Offiziell vorgestellt werden sie zwar erst auf dem International Symposium on Computer Architecture im Juni, bei Arxiv findet sich allerdings bereits das eingereichte Paper. Neben architektonischen Verbesserungen ist das rekonfigurierbare optische Netzwerk besonders interessant.

Inhalt:
  1. Google erklärt TPU v4: KI-Supercomputer mit flexiblem optischen Netz
  2. Anforderungen neuronaler Netze ändern sich

Bei Google bezeichnet TPU nicht nur den eigenen Prozessor, sondern auch einen damit aufgebauten Supercomputer für KI-Anwendungen. Bei dessen vierter Version sollte die Anzahl an TPUs vervierfacht werden – 4.096 anstelle von 1.024 Chips. Das stellte die Entwickler vor eine Herausforderung: Das Netzwerk sollte, um eine hohe Bisektionsbandbreite zu erreichen, ein Torus sein. Allerdings passen in ein Rack nur 64 TPUs, angeordnet als 4x4x4-Würfel. Dadurch wurden aber einige Strecken zu lang für elektrische Verbindungen.

Aufgrund der deutlich höheren Kosten ist Redundanz zum Umschiffen ausgefallener Knoten hier aufwendiger zu schaffen. Daher entschied sich das Google-Team, einen optischen Switch zu entwickeln. Der enthält einen MEMS-Chip mit mikromechanischen Spiegeln, der schlicht als Optical Circuit Switch (OCS) bezeichnet wird. So kann jeder Eingang auf einen beliebigen Ausgang geschaltet werden.

Netzwerkstruktur lässt sich ändern

Neben einer Erhöhung der Fehlertoleranz hat der OCS noch weitere Vorteile: Durch die änderbare Netzwerkstruktur lassen sich neben dem normalen 3D-Torus auch verdrehte Varianten (Twisted Torus) erzeugen. Die können, je nach Anwendung, den Netzwerkdurchsatz verbessern (PDF).

Auch lassen sich beliebige Racks miteinander verbinden, was die Auslastung des Clusters verbessert. Beim Vorgänger musste eine Anfrage noch auf nebeneinanderliegende Racks verteilt werden, diese Einschränkung fällt weg. Ein weiterer Vorteil: Das Netzwerk lässt sich an die Struktur des berechneten KI-Modells anpassen. Das soll die Kommunikation effizienter gestalten können.

Die Sicherheit soll OCS ebenfalls erhöhen, da Racks, die an verschiedenen Aufgaben arbeiten, auf Netzwerkebene voneinander getrennt werden können. Als letzten Punkt führt das Paper an, dass der Supercomputer dank OCS wesentlich schneller in Betrieb genommen werden konnte, da nicht erst alle Racks aufgebaut und verkabelt werden mussten.

Trotz der vielen Möglichkeiten soll OCS verhältnismäßig günstig sein: Googles Ingenieure geben an, dass die Kosten bei unter fünf Prozent der Gesamtkosten des Supercomputers liegen. Bei der Leistungsaufnahme schlägt das optische Netz mit unter drei Prozent ebenfalls kaum zu Buche.

Gegenüber der TPU v3 wurde aber nicht nur das Netzwerk überarbeitet. Auch die Berechnungseinheiten sind und können mehr, um Veränderungen im Aufbau neuronaler Netze Rechnung zu tragen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Anforderungen neuronaler Netze ändern sich 
  1. 1
  2. 2
  3.  


Aktuell auf der Startseite von Golem.de
heylogin
Der Passwortmanager, der selbst ohne Passwort auskommt

Normalerweise entsperrt man seinen Passwortmanager mit einem Passwort. Doch heylogin geht einen anderen Weg und soll sicherer und komfortabler sein.
Ein Interview von Moritz Tremmel

heylogin: Der Passwortmanager, der selbst ohne Passwort auskommt
Artikel
  1. ChatGPT-Piraterie: Discord-User verteilt gestohlene API-Schlüssel für GPT-4
    ChatGPT-Piraterie
    Discord-User verteilt gestohlene API-Schlüssel für GPT-4

    Per Scraping öffentlicher Programmierprojekte soll ein Nutzer Zugang zu Hunderten API-Schlüsseln für GPT-4 erlangt haben.

  2. Einführung in Linux-Systemadministration - jetzt 50 % sparen
     
    Einführung in Linux-Systemadministration - jetzt 50 % sparen

    Die Golem Karrierewelt bietet einen leicht verständlichen Zugang zur Linux-Systemverwaltung durch ein vierteiliges E-Learning-Paket mit mehr als 24 Stunden Material - 50 Prozent Rabatt nur noch bis 15. Juni!
    Sponsored Post von Golem Karrierewelt

  3. Pharo: Guter Einstieg in die objektorientierte Programmierung
    Pharo
    Guter Einstieg in die objektorientierte Programmierung

    Pharo ist eine von Smalltalk abgeleitete Programmiersprache und gut für alle, die sich mit objektorientierter Programmierung vertraut machen wollen. Eine Einführung.
    Eine Anleitung von Christophe Leske

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • MindStar: Corsair Crystal 570X RGB Mirror 99€, be quiet! Pure Base 500 59€, Patriot Viper VENOM RGB DDR5-6200 32 GB 109€ • Acer XZ322QUS 259€ • Corsair RM750x 108€ • Corsair K70 RGB PRO 135€ • PS5-Spiele & Zubehör bis -75% • Chromebooks bis -32% • NBB: Gaming-Produkte bis -50% [Werbung]
    •  /