• IT-Karriere:
  • Services:

Machine Learning: Google gibt einen tieferen Einblick in seine TPUs

Die von Google selbst entwickelten Machine-Learning-Chips, die Tensor Processing Units, sollen weitaus flotter und obendrein effizienter rechnen als Grafikkarten oder Prozessoren. Spannend ist dabei der interne Aufbau der ASICs.

Artikel veröffentlicht am , /
Platine mit TPU
Platine mit TPU (Bild: Google)

Google hat in einem Blog-Post eine Analyse verlinkt (PDF), die viele neue Informationen über die eigenen Tensor Processing Units verrät. Die TPUs sind Googles selbst entwickelte Chips für Machine Learning, die seit nunmehr zwei Jahren genutzt werden. Laut Hersteller sind die Chips um den Faktor 15 bis 30 leistungsfähiger als Prozessoren oder GPU-basierte Rechenbeschleuniger und um den Faktor 30 bis 80 effizienter, wie Messwerte belegen sollen.

Stellenmarkt
  1. Hamamatsu Photonics Deutschland GmbH, Herrsching am Ammersee
  2. Schwarz Dienstleistung KG, Raum Neckarsulm

Bei den Tensor Processing Units handelt es sich um ASICs, also fest verdrahtete Spezialchips. Hergestellt werden sie in einem 28-nm-Verfahren, die nominelle TDP beträgt 75 Watt bei 700 MHz - im Betrieb hat Google allerdings nur 40 Watt gemessen. Für die Leistungsvergleiche wurde ein Server mit vier TPUs gegen ein System mit zwei Xeon E5-2699 v3 (Haswell-EP) und eines mit zusätzlich vier Tesla K80 gestellt. Beide Generationen repräsentieren zwar nicht den aktuellen Stand von Intel und Nvidia, die TPUs sind aber auch schon älter.

  • Leistungsvergleich zwischen TPU, CPU und GPU (Bild: Google)
  • Effizienzvergleich zwischen TPU, CPU und GPU (Bild: Google)
  • Blockdiagramm einer TPU (Bild: Google)
  • Floorplan einer TPU (Bild: Google)
  • Platine samt TPU (Bild: Google)
Leistungsvergleich zwischen TPU, CPU und GPU (Bild: Google)

Ein Blick auf das Blockdiagramm des ASICs zeigt, dass die eigentlichen Recheneinheiten unterrepräsentiert sind, stattdessen wird viel Platz im Chip dazu genutzt, via breiten Bussen sehr schnell Daten zuzuführen. Laut Google ist eine TDU weniger als halb so groß wie ein Haswell-EP, was unter 330 mm² bedeuten würde. Der Chip ist nicht für das Training von neuronalen Netzen gedacht, was von GPUs erledigt wird. Stattdessen hat ihn Google für Inferencing ausgelegt, er beschleunigt also ein für einen bestimmten Zweck angelerntes Netz, um etwa spezifische Details eines eingelesenen Bildes zu erkennen.

Hierfür reicht oft die Addition oder Multiplikation von Ganzzahlen, weshalb Google von TOPS (Tera Operations per Second) spricht und die TPUs einzig INT8, aber kein FP16 beherrschen. Die eigentliche Recheneinheit besteht aus rund 64.000 MACs, was rund 91,8 TOPS ergibt. Hinzu kommen ein 24 MByte großer Cache, ein DDR3-Interface mit 30 GByte pro Sekunde, ein PCIe-Gen3-x16-Anschluss und interne Leitungen, die satte 256 Byte breit sind.

Angesprochen werden die TPUs über einen CISC-Befehlssatz, der auf Googles Tensorflow-Framework angepasst ist. Ideen für die Zukunft gibt es bereits: Mit GDDR5- statt DDR3-Speicher würde die Effizienz der ASICs um den Faktor 5 steigen, mehr ASIC-Takt hingegen bringt mit DDR3 nichts.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)
  2. (u. a. 3er Pack Lüfter LL120 RGB für 102,90€, Crystal 680X RGB Gehäuse für 249,90€)
  3. (u. a. 860 Evo 500 GB SSD für 74,99€, Portable T5 500 GB SSD 94,99€, Evo Select microSDXC 128...

Technik Schaf 06. Apr 2017

Nicht mal Ansatzweise so dämlich wie dein Kommentar. Clickbait? Wo? Im Artikel wird...

cyljus 06. Apr 2017

kwt


Folgen Sie uns
       


Helmholtz-Forscher arbeiten am Künstlichen Blatt - Bericht

Sonnenlicht spaltet Wasser: Ein Team von Helmholtz-Forschern bildet die Photosynthese technisch nach, um Wassesrtoff zu gewinnen.

Helmholtz-Forscher arbeiten am Künstlichen Blatt - Bericht Video aufrufen
Galaxy Z Flip im Hands-on: Endlich klappt es bei Samsung
Galaxy Z Flip im Hands-on
Endlich klappt es bei Samsung

Beim zweiten Versuch hat Samsung aus seinen Fehlern gelernt: Das Smartphone Galaxy Z Flip mit faltbarem Display ist alltagstauglicher und stabiler als der Vorgänger. Motorolas Razr kann da nicht mithalten.
Ein Hands on von Tobias Költzsch

  1. Faltbares Smartphone Schutzfasern des Galaxy Z Flip möglicherweise wenig wirksam
  2. Isocell Bright HM1 Samsung verwendet neuen 108-MP-Sensor im Galaxy S20 Ultra
  3. Smartphones Samsung schummelt bei Teleobjektiven des Galaxy S20 und S20+

Leistungsschutzrecht: Drei Wörter sollen ...
Leistungsschutzrecht
Drei Wörter sollen ...

Der Vorschlag der Bundesregierung für das neue Leistungsschutzrecht stößt auf Widerstand bei den Verlegerverbänden. Überschriften mit mehr als drei Wörtern und Vorschaubilder sollen lizenzpfichtig sein. Dabei wenden die Verlage einen sehr auffälligen Argumentationstrick an.
Eine Analyse von Friedhelm Greis

  1. Leistungsschutzrecht Memes sollen nur noch 128 mal 128 Pixel groß sein
  2. Leistungsschutzrecht Französische Verlage reichen Beschwerde gegen Google ein
  3. Leistungsschutzrecht Französische Medien beschweren sich über Google

Threadripper 3990X im Test: AMDs 64-kerniger Hammer
Threadripper 3990X im Test
AMDs 64-kerniger Hammer

Für 4.000 Euro ist der Ryzen Threadripper 3990X ein Spezialwerkzeug: Die 64-kernige CPU eignet sich exzellent für Rendering oder Video-Encoding, zumindest bei genügend RAM - wir benötigten teils 128 GByte.
Ein Test von Marc Sauter und Sebastian Grüner

  1. Ryzen Mobile 4000 (Renoir) Lasst die Ära der schrottigen AMD-Notebooks enden!
  2. HEDT-Prozessor 64-kerniger Threadripper schlägt 20.000-Dollar-Xeons
  3. Ryzen Mobile 4000 AMDs Renoir hat acht 7-nm-Kerne für Ultrabooks

    •  /