Smartphone-Prozessoren: Krieg der Kerne

Apple hatte zwar den ersten Smartphone-Chip mit 64 Bit, bei der Anzahl der Kerne ist die Konkurrenz aber besser: Hersteller wie Qualcomm bieten vier Kerne, Chips von Samsung und Mediatek verfügen sogar über acht Kerne, die mehrere Unternehmen bereits in einigen Geräten verbauen.
Die meisten heutigen Smartphones und Tablets sind zwar noch nicht mit derartigen Chips ausgestattet, der Trend zu immer mehr Kernen ist aber erkennbar. Die Anforderungen an mobile Geräte sind innerhalb weniger Jahre rapide gestiegen: Sie müssen Alleskönner sein, die viele Aufgaben - oft im Hintergrund - parallel ausführen.












Dazu kommt, dass laut einer Studie des Bitkom(öffnet im neuen Fenster) (Bundesverbands für Informationswirtschaft, Telekommunikation und neue Medien) die befragten Nutzer häufiger am Smartphone als am PC spielen. Gaming auf Tablets hat mittlerweile fast die gleiche Verbreitung wie auf Spielekonsolen. Damit die Geschwindigkeit den gestiegenen Anforderungen genügt, sind schnelle Prozessoren und Grafikeinheiten notwendig.
Das Smartphone- und Tablet-Segment wird in den kommenden Monaten den bisher größten Umbruch erleben: Erste Hersteller wie Apple und Samsung steigen derzeit auf bessere Fertigungsprozesse in Form des 20-Nanometer-Verfahrens um, wodurch die in den Geräten verbauten Systems on a Chip (SoC), die beispielsweise Prozessor-, Bildverarbeitungs- und Grafikkerne, einen Speichercontroller, Lagesensoren sowie ein Funkmodul vereinen, trotz mehr Kernen sparsamer und schneller werden.












2015 wird es erstmals Smartphones und Tablets geben, die bis zu acht Kerne haben und zugleich mit 64-Bit-Technik arbeiten.
Kleinere, schnellere Kerne
Die ARMv8-Architektur mit 64-Bit-Unterstützung hat der Hersteller ARM im Herbst 2011 vorgestellt, Lizenznehmer wie der Applied Micro hatten zuvor bereits Zugriff auf die Architektur. ARM lizenziert die auf der ARMv8 basierenden Prozessorkerne Cortex A57(öffnet im neuen Fenster) und A53(öffnet im neuen Fenster) ; Lizenznehmern der Architektur steht es frei, selbst Kerne zu entwickeln.












Speziell für Smartphones und Tablets gibt es bisher nur von Apple und Nvidia entsprechende SoC-Umsetzungen. Gefertigt wird Apples A7-Chip von Samsung im 28-Nanometer-Verfahren, auch Auftragsfertiger wie die Taiwan Semiconductor Manufacturing Company (TSMC) und Globalfoundries bieten entsprechende Herstellungsprozesse an.
Die nächste, teils schon aktuelle SoC-Generation wird mit 20-Nanometer-Technik produziert. Samsung wirbt damit, dass die Leistungsaufnahme mit 20 Nanometer um ein Viertel geringer sei als bei Smartphone-Chips, die mit der 28-Nanometer-Fertigung produziert wurden. Indem die Strukturgröße verringert wird, werden geringere Chipspannungen und höhere Frequenzen ermöglicht.
SoCs können daher bei sinkender Leistungsaufnahme schneller takten, bei gleicher Geschwindigkeit deutlich sparsamer werden oder bei höherer Kernanzahl mit gleicher Leistungsaufnahme arbeiten.












Als eines der ersten Smartphones neben Apples iPhone 6 mit dem A8-Chip verfügt Samsungs Galaxy Alpha über einen mit dem neuem 20-Nanometer-Verfahren gefertigten Chip. Das Exynos 5430(öffnet im neuen Fenster) getaufte SoC nutzt vier flotte Cortex-A15- und vier langsamere, aber sparsame A7-Prozessorkerne.
Diese Kombination aus unterschiedlichen Kerngruppen - auch Cluster genannt - heißt big.LITTLE(öffnet im neuen Fenster) . Erfunden hat sie Lizenzgeber ARM.
Effizient durch big.LITTLE
Ursprünglich sah die big.LITTLE-Technik vor, entweder die A15(öffnet im neuen Fenster) - oder die A7(öffnet im neuen Fenster) -Kerne zu aktivieren (Cluster Migration): Das Betriebssystem erkennt nur einen der Cluster, unter der Haube schaltet der big.LITTLE-Software-Layer je nach Anforderungen zwischen den Kerngruppen hin und her.
Eine erweiterte Version (CPU Migration) wechselt fließend zwischen den Clustern. Das setzt allerdings voraus, dass beide Pakete die gleiche Anzahl an Kernen aufweisen, da ein Prozess oder eine Anwendung von einem A15- auf einen A7-Kern oder umgekehrt übertragen wird.












Mittlerweile haben alle Hersteller auch das technisch anspruchsvollere Heterogeneous Multi Processing (HMP) implementiert, ARM nennt diese big.LITTLE-Variante Global Task Scheduling: Je nach App spricht das Betriebssystem beispielsweise nur einen A7-Kern, drei aus dem A15-Viererpack oder alle Cortex-Einheiten zugleich an.
Der Verwaltungsaufwand im Chip - beispielsweise bei den Caches - nimmt zwar zu, was die Implementierung komplex macht. Die maximale Leistung des SoC erhöht sich aber verglichen mit der Cluster- und CPU Migration, effizienter ist HMP ebenfalls. Statt zwischen Gruppen zu wechseln, rechnet immer der Kern, der am besten für die jeweilige Aufgabe geeignet ist.
Heterogeneous Multi Processing ermöglicht zudem asymmetrische Kerngruppen: Samsungs Exynos 5260(öffnet im neuen Fenster) , wie es im Galaxy K Zoom verwendet wird, verwendet beispielsweise zwei A15- und vier A7-Kerne. Bisher setzt kein anderer Hersteller auf eine solche gemischte Sechskernkonfiguration, zwei Vierergruppen sind viel häufiger.
ARMs Lizenz-Kerne
In Europa und in Nordamerika dominiert der Hersteller Qualcomm mit seinen Snapdragon genannten SoCs den Markt. Darin stecken zumeist zwei oder vier der selbst entwickelten Krait-Prozessorkerne auf ARM-Basis. Der vorerst letzte Snapdragon mit Kraits ist der Snapdragon 805, für kommende SoCs setzt Qualcomm auf die von ARM lizenzierten Cortex-A57- und A53-Kerne.












Damit geht der Hersteller den gleichen Weg wie große asiatische Unternehmen - auch Allwinner, Mediatek und Rockchip haben Chips mit den neuen Prozessorkernen vorgestellt, angekündigt oder auf der Roadmap (beispielsweise den A90, den MT6795 und der sogenannte May Bach).
Größter Unterschied der Cortex-Kerne A57 und A53 ist die erwähnte 64-Bit-Unterstützung, aber auch ohne diese werden sie deutlich schneller als ihre A15- und A7-Vorgänger.












Bei der Ankündigung der neuen Kerne mit ARMv8-Architektur sprach ARM von bis zu dreifacher Geschwindigkeit : Bereits bei gleichem Takt sollen ein A57 und ein A53 um 45 Prozent schneller rechnen als ein A15 und ein A7. Mit neuerer Fertigung - ARM benennt hier planare (20 nm) sowie FinFET-Prozesse ( 14 nm ) statt der 28-Nanometer-Fertigung - soll sich die Leistung beim Web-Browsing fast verdoppeln.
Messungen mit dem Prozessor-Testprogramm Geekbench belegen, dass die Geschwindigkeit durch 64 Bit noch weiter steigt.
Eigenentwicklungen
Abseits der A57- sowie A53-Kerne gibt es nur zwei Hersteller für den Smartphone- und Tablet-Markt, die eigene Implementierungen der ARMv8-Architektur bieten: Apple und Nvidia. Interessant ist hierbei, dass die beiden bisher bekannten Designs nicht sechs oder acht Kerne haben, sondern nur zwei. Wie wenig diese Zahl jedoch aussagt, zeigt ein Blick auf die Funktionseinheiten in den Kernen.












Apples A7-Chip, Codename Cyclone, verfügt pro Kern über vier Integer- und drei Gleitkomma-Einheiten, dazu zwei Lade/Speicher-Einheiten (also 9-fach skalar). Alle Kraits und die Cortex-Kerne A15 und A57 haben nur die Hälfte an Integer-Kernen, allerdings die gleiche Anzahl an Gleitkomma-Einheiten. Auch bei den Caches ist Apples Cyclone-Design mit jeweils 64 KByte L1I- und L1D-Speicher deutlich besser aufgestellt - Krait und A15 verfügen über 16+16 KByte, ein A57 über 48 und 32 KByte.
Nvidias Tegra K1 in der 64-Bit-Denver-Version mit zwei statt vier Kernen wie bei der 32-Bit-Variante bietet mit 128 und 64 KByte noch mehr Cache. Zudem arbeitet der Chip 7-fach skalar und erreicht damit fast Apples 9-fach skalares Design des A7. Während der Cyclone jedoch nur mit bis 1,4 GHz taktet, treibt Nvidia den Tegra K1 auf bis zu 2,5 GHz.
Bei der Singlethread-Leistung, also der Geschwindigkeit eines Programms auf einem Kern, ist das Nvidia-SoC damit vorerst unschlagbar schnell. Die ersten im 20-Nanometer-Verfahren gefertigten Chips, wie der Snapdragon 810 mit vier A57- und vier A53-Kernen, sollten aber bei Multithreading vorbeiziehen, also dann, wenn eine App von allen Kernen parallel berechnet wird.












Durch die hohe Leistungsaufnahme und das zusätzlich notwendige Funkmodul ist der Tegra K1 jedoch nur für Tablets und nicht für Mobiltelefone gedacht.
Ausblick
Im Smartphone-Segment wird zumindest bis Ende 2014 Apples A8 im iPhone 6 mit weiterhin zwei Kernen, aber 20-Nanometer-Fertigung, höherem Takt, überarbeiteter 64-Bit-Architektur und daran angepasstem iOS-Betriebsssystem einer der schnellsten Chips auf dem Markt sein.
Insbesondere 2015 wird aber das Jahr der vielen Kerne, da praktisch alle Hersteller außer Apple und Nvidia ARMs 64-Bit-Cortex-Kerne A57 und A53 in ihren Systems on a Chip verbauen. Für den Nutzer bedeutet dies neben einer besseren Akkulaufzeit auch eine höhere Geschwindigkeit, zumal mehr Arbeitsspeicher verbaut wird.



