Original-URL des Artikels: https://www.golem.de/news/a8x-gegen-tegra-k1-die-derzeit-schnellsten-tablet-chips-1411-110144.html    Veröffentlicht: 07.11.2014 09:00    Kurz-URL: https://glm.io/110144

A8X gegen Tegra K1

Die derzeit schnellsten Tablet-Chips

Apples iPad Air 2 gegen Googles Nexus 9 - hier treffen nicht nur zwei Hersteller und Betriebssysteme aufeinander, es ist auch das Duell der besten ARM-Chips. Ein Technik- und Benchmark-Vergleich.

Apple oder Google, iOS oder Android, A8X oder Tegra K1: Die zwei aktuellen Top-Tablets am Markt, das iPad Air 2 und das Nexus 9, unterscheiden sich in vielerlei Hinsicht, haben aber auch einige Gemeinsamkeiten: Sie basieren beide auf einem System-on-a-Chip mit ARM-Technik und bieten eine höhere Geschwindigkeit als alle bisherigen Tablet-Chips.

Das iPad Air 2 ist seit wenigen Wochen im Handel und das erste Tablet mit dem neuen A8X-Prozessor. Wie üblich hat Apple keine technischen Details des System-on-a-Chip veröffentlicht, sondern nur einen Vergleich zum A7-Prozessor aus dem iPad Air gezogen: Die CPU-Kerne des A8X sollen 40 Prozent flotter rechnen und die Grafikeinheit Faktor 2,5 der Leistung des Vorgängers liefern.

Nvidia hatte den Tegra K1 schon im Januar 2014 vorgestellt. Ebenfalls verglichen mit Apples A7-Chip soll die integrierte Kepler-GPU doppelt so schnell sein wie dessen PowerVR-Grafikeinheit, insgesamt arbeite der Tegra K1 auf einem Niveau oberhalb der Last-Gen-Konsolen.

Der Clou des Tegra K1 ist nicht die Variante mit fünf 32-Bit-Kernen, sondern die mit zwei: Die beiden sogenannten Denver-Cores arbeiten wie Apples A7, A8 und A8X mit 64-Bit-Technik und sind vor allem darauf ausgelegt, weniger stark parallelisierte Workloads sehr zügig zu berechnen.

Das Google Nexus 9 wird folgerichtig mit Android 5.0 ausgeliefert, ohne dieses Betriebssystem muss die ARMv8-Architektur auf 32-Bit-Code zurückgreifen. Bisher gibt es noch keine Android-Benchmarks, die 64 Bit unterstützen, der Geekbench beherrscht dies nur unter iOS.

Apple-Kerne mit enormer IPC

Da Apple selbst kaum Informationen zum A8X veröffentlicht hat, müssen Messwerte oder spezielle angepasste Programme her: Überraschend stecken in dem neuen System-on-a-Chip drei statt zwei CPU-Kerne, die zudem 100 MHz höher takten als die beiden im A8-Prozessor aus dem iPhone 6.

Der A8X erreicht bis zu 1,5 GHz und soll diese - so viel hat Apple immerhin verraten - länger halten, bevor der Chip aufgrund hoher Temperaturen seine Taktfrequenz zu drosseln beginnt. Die Hersteller sprechen in einem solchen Fall von "sustained performance".

Basierend auf dem A7 hat Apple wenig an den Kernen des A8 und des A8X geändert: Einem Artikel von Elektronik zufolge, kann jeder Kern pro Takt sechs Befehle an die Funktionseinheiten weitergeben. Pro Kern sind vier Integer-, drei Gleitkomma-Recheneinheiten und zwei Lade-/Speichereinheiten vorhanden.

Dafür können die A8(X)-Ausführungseinheiten gewisse Aufgaben nun zügiger erledigen, die Leistung pro Takt (IPC - Instructions Per Clock) steigt hierdurch, verglichen mit dem A7, an. Der Nachteil: Die IPC ist zwar höher als bei jedem anderen ARM-Chip, dafür ist der A8X ein niedrig taktendes Design, um nicht zu viel Energie zu benötigen. Neu sind die 2 statt 1 MByte L2-Cache, der verdoppelte schnelle Zwischenspeicher steht allen drei Kernen zur Verfügung. Die Größe des L1-Daten-, des L1-Instruktionen- und des L3-Caches hat Apple nicht verändert. Die dritte Zwischenspeicher-Stufe ist allerdings schneller ansprechbar, da die Latenz einige Millisekunden kürzer ist als beim A7.

Hochtaktender Nvidia-Zweier

Nvidias Ansatz bei den zwei Denver-Kernen ähnelt dem Apples, die technische Lösung ist aber eine etwas andere: Das Design kann pro Takt theoretisch bis zu sieben statt sechs Befehle verarbeiten, aber nur je zwei Integer- und Gleitkomma-Einheiten kümmern sich um Berechnungen. Die Anzahl an parallel durchzuschleusenden Befehlen ist ergo geringer als beim A8X.

Damit weder die ALUs noch die FPUs lange auf ihre Daten warten müssen, ist der L1-Instruktionen-Cache mit 128 KByte doppelt so groß wie bei den Apple-Chips. Um Leerlauf zu vermeiden, hat Nvidia die Sprungvorhersage der Denver-Cores verglichen mit den 32-Bit-Kernen verbessert.

Rein von der IPC her kann der Tegra K1 weder bei Integer- noch bei Gleitkomma-Berechnungen mit Apples A8X mithalten. Dafür liegt die Frequenz der Nvidia-Kerne mit bis zu 2,5 GHz deutlich höher als beim Prozessor aus dem iPad Air 2, was die geringere Leistung pro Takt ausgleicht.

Bei Single-Thread-Messungen ist der Tegra K1 einen Tick schneller als der A8X, bei Multi-Thread-Benchmarks sind Apples drei Kerne flotter. In der Praxis konnten wir bisher kaum einen Unterschied zwischen dem iPad Air 2 und dem Nexus 9 feststellen, beide empfinden wir subjektiv als sehr flüssig.

Denver-Doppel optimiert sich

Nvidia hat sich für den Tegra K1 die sogenannte Dynamic Code Optimization ausgedacht, von der im Alltag oft verwendete Apps profitieren dürften. Hintergrund ist das In-Order-Design: Anders als bei Apple mit Out-Of-Order-Ausführung muss der Tegra K1 Befehle stur der Reihe nach abarbeiten. Das benötigt zwar weniger Energie, lastet die Recheneinheiten jedoch schlechter aus und ist somit langsamer.

Um den Nachteil des In-Order-Designs auszugleichen, optimiert der Tegra K1 die verwendeten Apps: Hierzu legt das SoC im Hauptspeicher einen 128 MByte großen Puffer an, lädt bereits decodierte Micro-Ops hinein und konvertiert die Befehle innerhalb kürzester Zeit.

Wird die App erneut gestartet, prüft der Tegra K1, ob optimierter Code vorhanden ist und wenn ja, kopiert er diesen aus dem Puffer zurück in den L1-Instruktionen-Cache, wodurch die Recheneinheiten die Befehle schneller ausführen. Zwar dauert das Einladen länger als der direkte Zugriff, unterm Strich soll die Dynamic Code Optimization aber effizienter sein.

Wir haben mit dem Geekbench und dem Physics-Test des 3DMark Ice Storm Unlimited ausprobiert, was passiert, wenn wir die Apps häufig starten. Typisch wäre, dass die Resultate im Rahmen der Messungenauigkeit streuen, die einzelnen Werte sich aber um maximal einen Prozentpunkt voneinander unterscheiden.

Anders beim Tegra K1 mit Denver-Kernen: Ab dem zweiten Durchlauf sind die Resultate höher, ein dritter bis fünfter Start hingegen ändert an den Werten nichts mehr. So steigt der Single-Thread-Score des Geekbench um 7 Prozent (2.031 statt 1.896 Punkte), der Multi-Score-Wert um 6 Prozent (3.481 statt 3.278 Punkte) und der Physics-Test gibt 12.643 statt 12.128 Punkte aus (+4 Prozent).

Sehr flotte Grafikeinheiten

Während beide CPU-Designs auf der ARMv8-Architektur basieren, hören bei den integrierten GPUs des A8X und des Tegra K1 die Gemeinsamkeiten auf: Apple nutzt eine PowerVR-Grafikeinheit, Nvidia verbaut ein Geforce-Modell auf Basis der eigenen Kepler-Technik, wie sie auch im Desktop- oder Notebook-Segment eingesetzt wird.

Welche PowerVR-Grafikeinheit Apple genau einsetzt, ist bisher nicht bekannt, es handelt sich möglicherweise um eine GX6650 mit sechs USCs (Unified Shading Cluster) und 192 Shader-Einheiten, da es offiziell keine Version mit acht Blöcken gibt - was nicht ausschließt, das Imagination Technoligies eine solche für Apple gebaut hat. Alternativ taktet die GX6650 mit sechs USC im A8X viel höher als die GX6450 im A8, was wir bezweifeln.

Ein großer Unterschied zum Chip aus dem iPhone 6 besteht im Speicherinterface: Beim A8X ist dies 128 statt 64 Bit breit, beide Prozessoren nutzen LPDDR3-1600-Speicher. Die mit 25,6 GByte pro Sekunde doppelt so hohe Datentransferrate des A8X kommt insbesondere dessen PowerVR-Grafikeinheit zugute.

Nvidias Tegra K1 bindet die beiden Speicherchips mit je 1 GByte im Nexus 9 mit einem 64 Bit breiten Interface an. Theoretisch unterstützt das System-on-a-Chip maximal LPDDR3-2133, was einer Datentransferrate von 17 GByte pro Sekunde entspricht. Im Google-Tablet ist dem Teardown von iFixit zufolge aber nur LPDDR3-1866 verbaut.

Die Kepler-GPU im Tegra K1 basiert auf einem Graphics Processing Cluster, der einen Streaming Multiprocessor (SMX) mit Caches und ALUs enthält. Diese sollen mit bis zu 950 MHz takten, die Frequenz des K1 im Nexus 9 ist uns jedoch nicht bekannt. Desktop-Geforce-Karten bieten bis zu 2.880 Shader-Einheiten.

Hinsichtlich der erreichten Geschwindigkeit sehen wir Apples A8X mit der PowerVR GX6650 vorne, wenngleich die Kepler-Grafikeinheit einige Benchmarks anführt. Die deutlich geringere Datentransferrate scheint Nvidia durch eine effektive und verlustfreie Farbkompression gut auszugleichen.

Interessant ist der Vergleich der GX6650 des A8X und der GX6450 des A8, denn Erstere ist oft doppelt so schnell. Sechs statt vier USCs könnten solche Werte nur mit einem viel höheren Takt erreichen, wahrscheinlicher sind jedoch acht Blöcke oder aber der A8 wird durch sein Speicherinterface stark ausgebremst, da die Grafikeinheit auf Daten warten muss.

Sowohl Apples A8X als auch Nvidia Tegra K1 liefern die derzeit höchste Geschwindigkeit im Tablet-Segment, das dürfte sich aber in den kommenden Wochen ändern: Erste Benchmarks des Core M zeigen, dass Intels neuer Broadwell-Chip das Potenzial hat, den Markt aufzumischen.  (ms)


Verwandte Artikel:
iPad Air 2 Benchmark: Apples A8X überrascht mit drei Prozessor-Kernen   
(22.10.2014, https://glm.io/110001 )
Apple: iPad Air 2 soll mit schnellerem A8X-Prozessor arbeiten   
(13.10.2014, https://glm.io/109789 )
Maxwell: Nvidia signiert Firmware für Linux-Treiber   
(29.09.2014, https://glm.io/109509 )
Project Denver: Nvidias K1 mit 64 Bit optimiert ARM-Programme selbst   
(12.08.2014, https://glm.io/108509 )
Betriebssysteme: Linux-Kernel 3.16 beschleunigt die Grafik   
(04.08.2014, https://glm.io/108317 )

© 1997–2019 Golem.de, https://www.golem.de/