Abo
  • Services:
Anzeige
Platine mit TPU
Platine mit TPU (Bild: Google)

Machine Learning: Google gibt einen tieferen Einblick in seine TPUs

Platine mit TPU
Platine mit TPU (Bild: Google)

Die von Google selbst entwickelten Machine-Learning-Chips, die Tensor Processing Units, sollen weitaus flotter und obendrein effizienter rechnen als Grafikkarten oder Prozessoren. Spannend ist dabei der interne Aufbau der ASICs.

Google hat in einem Blog-Post eine Analyse verlinkt (PDF), die viele neue Informationen über die eigenen Tensor Processing Units verrät. Die TPUs sind Googles selbst entwickelte Chips für Machine Learning, die seit nunmehr zwei Jahren genutzt werden. Laut Hersteller sind die Chips um den Faktor 15 bis 30 leistungsfähiger als Prozessoren oder GPU-basierte Rechenbeschleuniger und um den Faktor 30 bis 80 effizienter, wie Messwerte belegen sollen.

Anzeige

Bei den Tensor Processing Units handelt es sich um ASICs, also fest verdrahtete Spezialchips. Hergestellt werden sie in einem 28-nm-Verfahren, die nominelle TDP beträgt 75 Watt bei 700 MHz - im Betrieb hat Google allerdings nur 40 Watt gemessen. Für die Leistungsvergleiche wurde ein Server mit vier TPUs gegen ein System mit zwei Xeon E5-2699 v3 (Haswell-EP) und eines mit zusätzlich vier Tesla K80 gestellt. Beide Generationen repräsentieren zwar nicht den aktuellen Stand von Intel und Nvidia, die TPUs sind aber auch schon älter.

  • Leistungsvergleich zwischen TPU, CPU und GPU (Bild: Google)
  • Effizienzvergleich zwischen TPU, CPU und GPU (Bild: Google)
  • Blockdiagramm einer TPU (Bild: Google)
  • Floorplan einer TPU (Bild: Google)
  • Platine samt TPU (Bild: Google)
Leistungsvergleich zwischen TPU, CPU und GPU (Bild: Google)

Ein Blick auf das Blockdiagramm des ASICs zeigt, dass die eigentlichen Recheneinheiten unterrepräsentiert sind, stattdessen wird viel Platz im Chip dazu genutzt, via breiten Bussen sehr schnell Daten zuzuführen. Laut Google ist eine TDU weniger als halb so groß wie ein Haswell-EP, was unter 330 mm² bedeuten würde. Der Chip ist nicht für das Training von neuronalen Netzen gedacht, was von GPUs erledigt wird. Stattdessen hat ihn Google für Inferencing ausgelegt, er beschleunigt also ein für einen bestimmten Zweck angelerntes Netz, um etwa spezifische Details eines eingelesenen Bildes zu erkennen.

Hierfür reicht oft die Addition oder Multiplikation von Ganzzahlen, weshalb Google von TOPS (Tera Operations per Second) spricht und die TPUs einzig INT8, aber kein FP16 beherrschen. Die eigentliche Recheneinheit besteht aus rund 64.000 MACs, was rund 91,8 TOPS ergibt. Hinzu kommen ein 24 MByte großer Cache, ein DDR3-Interface mit 30 GByte pro Sekunde, ein PCIe-Gen3-x16-Anschluss und interne Leitungen, die satte 256 Byte breit sind.

Angesprochen werden die TPUs über einen CISC-Befehlssatz, der auf Googles Tensorflow-Framework angepasst ist. Ideen für die Zukunft gibt es bereits: Mit GDDR5- statt DDR3-Speicher würde die Effizienz der ASICs um den Faktor 5 steigen, mehr ASIC-Takt hingegen bringt mit DDR3 nichts.


eye home zur Startseite
Technik Schaf 06. Apr 2017

Nicht mal Ansatzweise so dämlich wie dein Kommentar. Clickbait? Wo? Im Artikel wird...

cyljus 06. Apr 2017

kwt



Anzeige

Stellenmarkt
  1. PHOENIX CONTACT GmbH & Co. KG, Blomberg
  2. Mobile Trend GmbH, Hamburg
  3. operational services GmbH & Co. KG, Frankfurt am Main
  4. ING-DiBa AG, Frankfurt


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)
  2. 199,99€ statt 479,99€ - Ersparnis rund 58%
  3. (u. a. DXRacer OH/RE9/NW für 199,90€ statt 226€ im Preisvergleich)

Folgen Sie uns
       


  1. Quartalsbericht

    Microsoft kann Gewinn durch Cloud mehr als verdoppeln

  2. Mobilfunk

    Leistungsfähigkeit der 5G-Luftschnittstelle wird überschätzt

  3. Drogenhandel

    Weltweit größter Darknet-Marktplatz Alphabay ausgehoben

  4. Xcom-2-Erweiterung angespielt

    Untote und unbegrenzte Schussfreigabe

  5. Niantic

    Das erste legendäre Monster schlüpft demnächst in Pokémon Go

  6. Bundestrojaner

    BKA will bald Messengerdienste hacken können

  7. IETF

    DNS wird sicher, aber erst später

  8. Dokumentation zum Tor-Netzwerk

    Unaufgeregte Töne inmitten des Geschreis

  9. Patentklage

    Qualcomm will iPhone-Importstopp in Deutschland

  10. Telekom

    Wie viele Bundesfördermittel gehen ins Vectoring?



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Handyortung: Wir ahnungslosen Insassen der Funkzelle
Handyortung
Wir ahnungslosen Insassen der Funkzelle
  1. Bundestrojaner Österreich will Staatshackern Wohnungseinbrüche erlauben
  2. Staatstrojaner Finfishers Schnüffelsoftware ist noch nicht einsatzbereit
  3. Messenger-Dienste Bundestag erlaubt großflächigen Einsatz von Staatstrojanern

48-Volt-Systeme: Bosch setzt auf Boom für kompakte Elektroantriebe
48-Volt-Systeme
Bosch setzt auf Boom für kompakte Elektroantriebe
  1. Elektromobilität Shell stellt Ladesäulen an Tankstellen auf
  2. Ifo-Studie Autoindustrie durch Verbrennungsmotorverbot in Gefahr
  3. Mobilität Elektroautos deutscher Start-ups fordern Autobauer heraus

Anwendungen für Quantencomputer: Der Spuk in Ihrem Computer
Anwendungen für Quantencomputer
Der Spuk in Ihrem Computer
  1. Quantencomputer Ein Forscher in den unergründlichen Weiten des Hilbertraums
  2. Quantenprogrammierung "Die physikalische Welt kann kreativer sein als wir selbst"
  3. Quantenoptik Vom Batman-Fan zum Quantenphysiker

  1. Re: ÖR vs. private

    Pjörn | 04:44

  2. Re: Wurde überhaupt schon jemand damit infiziert?

    Pjörn | 04:30

  3. Re: Wer?

    Frotty | 03:57

  4. Re: Lohnt das

    Pjörn | 03:43

  5. Die Forschung verstehe ich nicht ganz.

    mrgenie | 03:41


  1. 23:50

  2. 19:00

  3. 18:52

  4. 18:38

  5. 18:30

  6. 17:31

  7. 17:19

  8. 16:34


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel