Abo
  • Services:
Anzeige
Platine mit TPU
Platine mit TPU (Bild: Google)

Machine Learning: Google gibt einen tieferen Einblick in seine TPUs

Platine mit TPU
Platine mit TPU (Bild: Google)

Die von Google selbst entwickelten Machine-Learning-Chips, die Tensor Processing Units, sollen weitaus flotter und obendrein effizienter rechnen als Grafikkarten oder Prozessoren. Spannend ist dabei der interne Aufbau der ASICs.

Google hat in einem Blog-Post eine Analyse verlinkt (PDF), die viele neue Informationen über die eigenen Tensor Processing Units verrät. Die TPUs sind Googles selbst entwickelte Chips für Machine Learning, die seit nunmehr zwei Jahren genutzt werden. Laut Hersteller sind die Chips um den Faktor 15 bis 30 leistungsfähiger als Prozessoren oder GPU-basierte Rechenbeschleuniger und um den Faktor 30 bis 80 effizienter, wie Messwerte belegen sollen.

Anzeige

Bei den Tensor Processing Units handelt es sich um ASICs, also fest verdrahtete Spezialchips. Hergestellt werden sie in einem 28-nm-Verfahren, die nominelle TDP beträgt 75 Watt bei 700 MHz - im Betrieb hat Google allerdings nur 40 Watt gemessen. Für die Leistungsvergleiche wurde ein Server mit vier TPUs gegen ein System mit zwei Xeon E5-2699 v3 (Haswell-EP) und eines mit zusätzlich vier Tesla K80 gestellt. Beide Generationen repräsentieren zwar nicht den aktuellen Stand von Intel und Nvidia, die TPUs sind aber auch schon älter.

  • Leistungsvergleich zwischen TPU, CPU und GPU (Bild: Google)
  • Effizienzvergleich zwischen TPU, CPU und GPU (Bild: Google)
  • Blockdiagramm einer TPU (Bild: Google)
  • Floorplan einer TPU (Bild: Google)
  • Platine samt TPU (Bild: Google)
Leistungsvergleich zwischen TPU, CPU und GPU (Bild: Google)

Ein Blick auf das Blockdiagramm des ASICs zeigt, dass die eigentlichen Recheneinheiten unterrepräsentiert sind, stattdessen wird viel Platz im Chip dazu genutzt, via breiten Bussen sehr schnell Daten zuzuführen. Laut Google ist eine TDU weniger als halb so groß wie ein Haswell-EP, was unter 330 mm² bedeuten würde. Der Chip ist nicht für das Training von neuronalen Netzen gedacht, was von GPUs erledigt wird. Stattdessen hat ihn Google für Inferencing ausgelegt, er beschleunigt also ein für einen bestimmten Zweck angelerntes Netz, um etwa spezifische Details eines eingelesenen Bildes zu erkennen.

Hierfür reicht oft die Addition oder Multiplikation von Ganzzahlen, weshalb Google von TOPS (Tera Operations per Second) spricht und die TPUs einzig INT8, aber kein FP16 beherrschen. Die eigentliche Recheneinheit besteht aus rund 64.000 MACs, was rund 91,8 TOPS ergibt. Hinzu kommen ein 24 MByte großer Cache, ein DDR3-Interface mit 30 GByte pro Sekunde, ein PCIe-Gen3-x16-Anschluss und interne Leitungen, die satte 256 Byte breit sind.

Angesprochen werden die TPUs über einen CISC-Befehlssatz, der auf Googles Tensorflow-Framework angepasst ist. Ideen für die Zukunft gibt es bereits: Mit GDDR5- statt DDR3-Speicher würde die Effizienz der ASICs um den Faktor 5 steigen, mehr ASIC-Takt hingegen bringt mit DDR3 nichts.


eye home zur Startseite
Technik Schaf 06. Apr 2017

Nicht mal Ansatzweise so dämlich wie dein Kommentar. Clickbait? Wo? Im Artikel wird...

Themenstart

Kommentieren



Anzeige

Stellenmarkt
  1. Völkl Sports GmbH & Co. KG, Straubing, Raum Regensburg / Deggendorf
  2. Präsidium Technik, Logistik, Service der Polizei, Stuttgart
  3. Landeshauptstadt Potsdam, Potsdam
  4. Leopold Kostal GmbH & Co. KG, Hagen


Anzeige
Hardware-Angebote
  1. (u. a. DXRacer OH/RE9/NW für 199,90€ statt 226€ im Preisvergleich)
  2. (reduzierte Überstände, Restposten & Co.)

Folgen Sie uns
       


  1. Hasskommentare

    Bundesrat fordert zahlreiche Änderungen an Maas-Gesetz

  2. GVFS

    Windows-Team nutzt fast vollständig Git

  3. Netzneutralität

    Verbraucherschützer wollen Verbot von Stream On der Telekom

  4. Wahlprogramm

    SPD fordert Anzeigepflicht für "relevante Inhalte" im Netz

  5. Funkfrequenzen

    Bundesnetzagentur und Alibaba wollen Produkte sperren

  6. Elektromobilität

    Qualcomm lädt E-Autos während der Fahrt auf

  7. Microsoft

    Mixer soll schneller streamen als Youtube Gaming und Twitch

  8. Linux

    Kritische Sicherheitslücke in Samba gefunden

  9. Auftragsfertiger

    Samsung erweitert Roadmap bis 4 nm plus EUV

  10. Fake News

    Ägypten blockiert 21 Internetmedien



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Quantencomputer: Nano-Kühlung für Qubits
Quantencomputer
Nano-Kühlung für Qubits
  1. IBM Q Mehr Qubits von IBM
  2. Quantencomputer Was sind diese Qubits?
  3. Verschlüsselung Kryptographie im Quantenzeitalter

XPS 13 (9365) im Test: Dells Convertible zeigt alte Stärken und neue Schwächen
XPS 13 (9365) im Test
Dells Convertible zeigt alte Stärken und neue Schwächen
  1. Schnittstelle Intel pflegt endlich Linux-Treiber für Thunderbolt
  2. Atom C2000 & Kaby Lake Updates beheben Defekt respektive fehlendes HDCP 2.2
  3. UP2718Q Dell verkauft HDR10-Monitor ab Mai 2017

Calliope Mini im Test: Neuland lernt programmieren
Calliope Mini im Test
Neuland lernt programmieren
  1. Arduino Cinque RISC-V-Prozessor und ESP32 auf einem Board vereint
  2. MKRFOX1200 Neues Arduino-Board erscheint mit kostenlosem Datentarif
  3. Creoqode 2048 Tragbare Spielekonsole zum Basteln erhältlich

  1. Re: GVFS etwas ungünstiger Name...

    körner | 15:07

  2. Re: "Es gebe dazu keine weitere Kommunikation...

    fg (Golem.de) | 15:07

  3. Re: Warum überhaupt VLC nutzen

    __destruct() | 15:07

  4. Re: Die hohen Anschaffungskosten eines E-Autos...

    Carlo Escobar | 15:07

  5. Re: Unix, das Betriebssystem von Entwicklern, für...

    SelfEsteem | 15:05


  1. 15:15

  2. 13:35

  3. 13:17

  4. 13:05

  5. 12:30

  6. 12:01

  7. 12:00

  8. 11:58


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel