Cortex-X2: Der 64-Bit-Kern mit dem 30-Prozent-Plus

Smartphones-SoCs sollen dank des Cortex-X2 viel flotter werden: Der 64-Bit-Kern setzt auf mehr Leistung pro Takt und höhere Frequenzen.

Artikel von veröffentlicht am
Der Cortex-X2 soll 30 Prozent schneller sein als der Cortex-X1.
Der Cortex-X2 soll 30 Prozent schneller sein als der Cortex-X1. (Bild: ARM)

ARM hat den Cortex-X2 vorgestellt, einen für Smartphone-SoCs gedachten Top-CPU-Kern mit ARMv9-Architektur und reiner 64-Bit-Unterstützung (AArch64). Er folgt auf den letztjährigen Cortex-X1 und soll eine mit 30 Prozent signifikant gestiegene Performance aufweisen. Der Abstand des Cortex-X2 zum neuen Cortex-A710 soll größer ausfallen als der des Cortex-X1 zum Cortex-A78.

Stellenmarkt
  1. Prozessmanager Vertriebsprozesse / Projektmanager (m/w/d)
    Getriebebau NORD GmbH & Co. KG, Bargteheide bei Hamburg
  2. Softwareentwickler C++ (m/w/d)
    vitero GmbH, Stuttgart
Detailsuche

Ziel des X-Programms ist es, primär die Geschwindigkeit eines CPU-Kerns über die der anderen in einem SoC-Cluster anzuheben. Damit wird die Ansprechzeit in einem Smartphone verbessert - Apps öffnen sich schneller und Webseiten laden flotter. Viele ARM-Partner nutzen die Idee eines solchen Prime Cores in Kombination mit drei Big- und vier Little-Cores (1+3+4), etwa Qualcomm und Samsung.

Der Cortex-X2 basiert auf dem Cortex-X1, hat aber diverse Optimierungen erhalten: Das Frontend hat eine von der Fetch-Stufe entkoppelte Sprungvorhersage, das verringert Leerlauf (Bubbles) in der Pipeline. Für Sprünge gibt es neben der TAGE-basierten Sprungvorhersage erstmals eine zweite, zu der sich ARM jedoch nicht äußern wollte - nur, dass es keine mit Perceptron-Ansatz sei.

Weniger Latenz, mehr Durchsatz

Konnte der X1 noch bis zu acht Macro-Ops an die Rechenwerke durchschleusen, hat der X2 bei gleicher Menge dank besserer Verschmelzung von Instruktionen effektiv mehr Durchsatz. Die Pipeline wurde zugunsten der Latenz von elf auf zehn Stufen reduziert, ARM hat hierzu im Dispatch-Bereich gekürzt. Der Reorder-Buffer wächst von 224 auf über 288 Einträge, sofern mit Kompression gearbeitet wird, und das OoO-Fenster ist 30 Prozent größer; beides erhöht die Datenlokalität.

  • Der Cortex-X2 soll 30 Prozent flotter als der Cortex-X1 sein. (Bild: ARM)
  • Der Cortex-X2 hat mehr Abstand zum Cortex-A720 als der X1 zum A78. (Bild: ARM)
  • Überblick der Verbesserungen des Cortex-X2 (Bild: ARM)
  • Frontend des Cortex-X2 (Bild: ARM)
  • Integer/Float-Einheiten des Cortex-X2 (Bild: ARM)
  • Backend des Cortex-X2 (Bild: ARM)
  • Performance des Cortex-X2 verglichen mit dem Cortex-X1 (Bild: ARM)
  • Referenz-Floorplan und Takt/Spannungskurve des Cortex-X2 (Bild: ARM)
  • Die DSU verbindet Cortex-X2 mit Cortex-A710 und Cortex-A510. (Bild: ARM)
  • Der L3-Cache der DSU ist doppelt so groß und hat mehr Bandbreite. (Bild: ARM)
  • Statt einer Crossbar wird ein doppelter Ringbus verwendet. (Bild: ARM)
  • Der hat weniger Leckströme, was den Core-Cluster sparsamer macht. (Bild: ARM)
  • Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)
  • Diese verbinden die einzelnen IPs und verbessern deren Kommunikation. (Bild: ARM)
  • Der Corelink CI-700 integriert einen System Level Cache. (Bild: ARM)
  • Den nutzen alle IP-Blöcke, was DDR-Bandbreite und Energie spart. (Bild: ARM)
  • Der Corelink NI-700 verknüpft CPU, GPU und NPU. (Bild: ARM)
  • Überblick eines ARMv9-Clusters (Bild: ARM)
  • Technische Neuerung von ARMv9 (Bild: ARM)
Der Cortex-X2 hat mehr Abstand zum Cortex-A720 als der X1 zum A78. (Bild: ARM)
Golem Akademie
  1. Netzwerktechnik Kompaktkurs: virtueller Fünf-Tage-Workshop
    14.–18. Februar 2022, virtuell
  2. Webentwicklung mit React and Typescript: virtueller Fünf-Halbtage-Workshop
Weitere IT-Trainings

Bei den Integer-Einheiten gibt es keine Änderungen; es bleibt bei zwei ALUs. Auch die Gleitkomma-Einheit nutzt weiterhin vier 128-Bit-Pipelines für entsprechende Berechnungen. Statt rein auf Neon zu setzen, hat ARM jedoch die SVE2 (Scalable Vectors Extension) eingeführt. Neu sind zudem BF16- und INT8-Formate für maschinelles Lernen, weshalb sich die ML-Performance verdoppeln soll.

Im Backend wurden die Load/Store-Einheiten aufgebohrt, das L/S-Windows wuchs um ein Drittel und der L1-dTLB um 20 Prozent auf 48 Einträge. Zusammen mit einem optimierten Prefetching, etwa durch den flotteren Table Walker, soll es zu weniger Verzögerungen (Stalls) kommen. Bei der Größe des L1D- und den L2-Caches gibt es keine Änderung, wohl aber steigt insgesamt die Integer-Leistung pro Takt verglichen mit dem Cortex-X1 um 16 Prozent bei gleicher Fertigung - und mehr Stromhunger.

Samsung Galaxy S21 5G, Android Smartphone ohne Vertrag, Triple-Kamera, Infinity-O Display, 128 GB Speicher, leistungsstarker Akku, Phantom Gray

16 Prozent mehr IPC und 30 Prozent mehr Performance

Eingerechnet die genannten Verbesserungen, einen von 4 MByte auf 8 MByte verdoppelten L3-Cache und ein feineres Herstellungsverfahren für höhere Frequenzen spricht ARM von einer bis zu 30 Prozent gestiegenen Performance. Diese soll ein mit Cortex-X2 versehener Chip verglichen mit einem der SoCs mit Cortex-X1 erreichen, die bisher in Smartphones verbaut werden. Beim Snapdragon 888 etwa läuft der X1 (Prime Core) mit bis zu 2,84 GHz - für den X2 sieht ARM hingegen bis zu 3,3 GHz vor.

  • Der Cortex-X2 soll 30 Prozent flotter als der Cortex-X1 sein. (Bild: ARM)
  • Der Cortex-X2 hat mehr Abstand zum Cortex-A720 als der X1 zum A78. (Bild: ARM)
  • Überblick der Verbesserungen des Cortex-X2 (Bild: ARM)
  • Frontend des Cortex-X2 (Bild: ARM)
  • Integer/Float-Einheiten des Cortex-X2 (Bild: ARM)
  • Backend des Cortex-X2 (Bild: ARM)
  • Performance des Cortex-X2 verglichen mit dem Cortex-X1 (Bild: ARM)
  • Referenz-Floorplan und Takt/Spannungskurve des Cortex-X2 (Bild: ARM)
  • Die DSU verbindet Cortex-X2 mit Cortex-A710 und Cortex-A510. (Bild: ARM)
  • Der L3-Cache der DSU ist doppelt so groß und hat mehr Bandbreite. (Bild: ARM)
  • Statt einer Crossbar wird ein doppelter Ringbus verwendet. (Bild: ARM)
  • Der hat weniger Leckströme, was den Core-Cluster sparsamer macht. (Bild: ARM)
  • Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)
  • Diese verbinden die einzelnen IPs und verbessern deren Kommunikation. (Bild: ARM)
  • Der Corelink CI-700 integriert einen System Level Cache. (Bild: ARM)
  • Den nutzen alle IP-Blöcke, was DDR-Bandbreite und Energie spart. (Bild: ARM)
  • Der Corelink NI-700 verknüpft CPU, GPU und NPU. (Bild: ARM)
  • Überblick eines ARMv9-Clusters (Bild: ARM)
  • Technische Neuerung von ARMv9 (Bild: ARM)
Die DSU verbindet Cortex-X2 mit Cortex-A710 und Cortex-A510. (Bild: ARM)

Der Cortex-X2 ist dafür ausgelegt, mit dem neuen Cortex-A710 und dem ebenfalls neuen Cortex-A510 kombiniert zu werden. Hierzu wird die DSU-110 (DynamIQ Shared Unit) verwendet, die für ARMv9 entworfen wurde: Der L3-Cache fällt mit bis zu 16 MByte doppelt so groß aus und hat die fünffache Bandbreite dank eines doppelten bidirektionalen Ringbus statt der bisherigen Crossbar. Im Betrieb soll die DSU-110 sparsamer sein, da weniger Leckströme auftreten und der L3-Cache mehrere Power-Modi nutzt.

Um den CPU-Cluster an die restlichen IP-Blöcke wie die neue Mali-G710-Grafikeinheit anzubinden, hat ARM überdies den Corelink CI-700 (kohärenter Interconnect) und den Corelink NI-700 (Network on Chip, NoC) entwickelt. Damit einher geht der System Level Cache (SLC), auf den alle IP-Blöcke zugreifen können: Er erhöht die Performance und die Effizienz. Theoretisch ist bis zu einem 4x3 Mesh mit 32 MByte alles möglich, typische Smartphone-SoCs aber sollen ein 2x2 Mesh mit 8 MByte aufweisen.

Erste Systems-on-a-Chip mit ARMv9-Kernen und verbesserter Fertigung wie N5P von TSMC oder 5LPP von Samsung Foundry erwarten wir noch 2021.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Framework Laptop im Hardware-Test
Schrauber aller Länder, vereinigt euch!

Der modulare Framework Laptop ist ein wahrgewordener Basteltraum. Und unsere Begeisterung für das, was damit alles möglich ist, lässt sich nur schwer bändigen.
Ein Test von Oliver Nickel und Sebastian Grüner

Framework Laptop im Hardware-Test: Schrauber aller Länder, vereinigt euch!
Artikel
  1. Rohstoffe: Lithiumkarbonat für über 50 Euro/kg gefährdet Akkupreise
    Rohstoffe
    Lithiumkarbonat für über 50 Euro/kg gefährdet Akkupreise

    Die Lithiumknappheit treibt Kosten für Akkuhersteller in die Höhe und lässt Alternativen attraktiver werden.
    Eine Analyse von Frank Wunderlich-Pfeiffer

  2. 5.000 Dollar Belohnung: Elon Musk wollte Twitter-Konto von 19-Jährigem stilllegen
    5.000 Dollar Belohnung
    Elon Musk wollte Twitter-Konto von 19-Jährigem stilllegen

    Tesla-Chef Elon Musk bot einem US-Teenager jüngst angeblich 5.000 US-Dollar, damit der seinen auf Twitter betriebenen Flight-Tracker einstellt.

  3. Wochenrückblick: Zu viele Zertifikate
    Wochenrückblick
    Zu viele Zertifikate

    Golem.de-Wochenrückblick Zu viele Impfzertifikate und zu lange Kündigungsfristen: die Woche im Video.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • RTX 3080 12GB 1.499€ • iPhone 13 Pro 512GB 1.349€ • DXRacer Gaming-Stuhl 159€ • LG OLED 55 Zoll 1.149€ • PS5 Digital mit o2-Vertrag bestellbar • Prime-Filme für je 0,99€ leihen • One Plus Nord 2 335€ • Intel i7 3,6Ghz 399€ • Alternate: u.a. Sennheiser Gaming-Headset 169,90€ [Werbung]
    •  /