Cortex-X2: Der 64-Bit-Kern mit dem 30-Prozent-Plus

Smartphones-SoCs sollen dank des Cortex-X2 viel flotter werden: Der 64-Bit-Kern setzt auf mehr Leistung pro Takt und höhere Frequenzen.

Artikel von veröffentlicht am
Der Cortex-X2 soll 30 Prozent schneller sein als der Cortex-X1.
Der Cortex-X2 soll 30 Prozent schneller sein als der Cortex-X1. (Bild: ARM)

ARM hat den Cortex-X2 vorgestellt, einen für Smartphone-SoCs gedachten Top-CPU-Kern mit ARMv9-Architektur und reiner 64-Bit-Unterstützung (AArch64). Er folgt auf den letztjährigen Cortex-X1 und soll eine mit 30 Prozent signifikant gestiegene Performance aufweisen. Der Abstand des Cortex-X2 zum neuen Cortex-A710 soll größer ausfallen als der des Cortex-X1 zum Cortex-A78.

Stellenmarkt
  1. Junior Sales Controller (m/w/div.)
    DMG MORI Management GmbH, Bielefeld
  2. Systemadministration (m/w/d) Netzwerke und IT-Sicherheit
    Fachhochschule Südwestfalen, Hagen, Meschede
Detailsuche

Ziel des X-Programms ist es, primär die Geschwindigkeit eines CPU-Kerns über die der anderen in einem SoC-Cluster anzuheben. Damit wird die Ansprechzeit in einem Smartphone verbessert - Apps öffnen sich schneller und Webseiten laden flotter. Viele ARM-Partner nutzen die Idee eines solchen Prime Cores in Kombination mit drei Big- und vier Little-Cores (1+3+4), etwa Qualcomm und Samsung.

Der Cortex-X2 basiert auf dem Cortex-X1, hat aber diverse Optimierungen erhalten: Das Frontend hat eine von der Fetch-Stufe entkoppelte Sprungvorhersage, das verringert Leerlauf (Bubbles) in der Pipeline. Für Sprünge gibt es neben der TAGE-basierten Sprungvorhersage erstmals eine zweite, zu der sich ARM jedoch nicht äußern wollte - nur, dass es keine mit Perceptron-Ansatz sei.

Weniger Latenz, mehr Durchsatz

Konnte der X1 noch bis zu acht Macro-Ops an die Rechenwerke durchschleusen, hat der X2 bei gleicher Menge dank besserer Verschmelzung von Instruktionen effektiv mehr Durchsatz. Die Pipeline wurde zugunsten der Latenz von elf auf zehn Stufen reduziert, ARM hat hierzu im Dispatch-Bereich gekürzt. Der Reorder-Buffer wächst von 224 auf über 288 Einträge, sofern mit Kompression gearbeitet wird, und das OoO-Fenster ist 30 Prozent größer; beides erhöht die Datenlokalität.

  • Der Cortex-X2 soll 30 Prozent flotter als der Cortex-X1 sein. (Bild: ARM)
  • Der Cortex-X2 hat mehr Abstand zum Cortex-A720 als der X1 zum A78. (Bild: ARM)
  • Überblick der Verbesserungen des Cortex-X2 (Bild: ARM)
  • Frontend des Cortex-X2 (Bild: ARM)
  • Integer/Float-Einheiten des Cortex-X2 (Bild: ARM)
  • Backend des Cortex-X2 (Bild: ARM)
  • Performance des Cortex-X2 verglichen mit dem Cortex-X1 (Bild: ARM)
  • Referenz-Floorplan und Takt/Spannungskurve des Cortex-X2 (Bild: ARM)
  • Die DSU verbindet Cortex-X2 mit Cortex-A710 und Cortex-A510. (Bild: ARM)
  • Der L3-Cache der DSU ist doppelt so groß und hat mehr Bandbreite. (Bild: ARM)
  • Statt einer Crossbar wird ein doppelter Ringbus verwendet. (Bild: ARM)
  • Der hat weniger Leckströme, was den Core-Cluster sparsamer macht. (Bild: ARM)
  • Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)
  • Diese verbinden die einzelnen IPs und verbessern deren Kommunikation. (Bild: ARM)
  • Der Corelink CI-700 integriert einen System Level Cache. (Bild: ARM)
  • Den nutzen alle IP-Blöcke, was DDR-Bandbreite und Energie spart. (Bild: ARM)
  • Der Corelink NI-700 verknüpft CPU, GPU und NPU. (Bild: ARM)
  • Überblick eines ARMv9-Clusters (Bild: ARM)
  • Technische Neuerung von ARMv9 (Bild: ARM)
Der Cortex-X2 hat mehr Abstand zum Cortex-A720 als der X1 zum A78. (Bild: ARM)

Bei den Integer-Einheiten gibt es keine Änderungen; es bleibt bei zwei ALUs. Auch die Gleitkomma-Einheit nutzt weiterhin vier 128-Bit-Pipelines für entsprechende Berechnungen. Statt rein auf Neon zu setzen, hat ARM jedoch die SVE2 (Scalable Vectors Extension) eingeführt. Neu sind zudem BF16- und INT8-Formate für maschinelles Lernen, weshalb sich die ML-Performance verdoppeln soll.

Im Backend wurden die Load/Store-Einheiten aufgebohrt, das L/S-Windows wuchs um ein Drittel und der L1-dTLB um 20 Prozent auf 48 Einträge. Zusammen mit einem optimierten Prefetching, etwa durch den flotteren Table Walker, soll es zu weniger Verzögerungen (Stalls) kommen. Bei der Größe des L1D- und den L2-Caches gibt es keine Änderung, wohl aber steigt insgesamt die Integer-Leistung pro Takt verglichen mit dem Cortex-X1 um 16 Prozent bei gleicher Fertigung - und mehr Stromhunger.

Samsung Galaxy S21 5G, Android Smartphone ohne Vertrag, Triple-Kamera, Infinity-O Display, 128 GB Speicher, leistungsstarker Akku, Phantom Gray

16 Prozent mehr IPC und 30 Prozent mehr Performance

Eingerechnet die genannten Verbesserungen, einen von 4 MByte auf 8 MByte verdoppelten L3-Cache und ein feineres Herstellungsverfahren für höhere Frequenzen spricht ARM von einer bis zu 30 Prozent gestiegenen Performance. Diese soll ein mit Cortex-X2 versehener Chip verglichen mit einem der SoCs mit Cortex-X1 erreichen, die bisher in Smartphones verbaut werden. Beim Snapdragon 888 etwa läuft der X1 (Prime Core) mit bis zu 2,84 GHz - für den X2 sieht ARM hingegen bis zu 3,3 GHz vor.

  • Der Cortex-X2 soll 30 Prozent flotter als der Cortex-X1 sein. (Bild: ARM)
  • Der Cortex-X2 hat mehr Abstand zum Cortex-A720 als der X1 zum A78. (Bild: ARM)
  • Überblick der Verbesserungen des Cortex-X2 (Bild: ARM)
  • Frontend des Cortex-X2 (Bild: ARM)
  • Integer/Float-Einheiten des Cortex-X2 (Bild: ARM)
  • Backend des Cortex-X2 (Bild: ARM)
  • Performance des Cortex-X2 verglichen mit dem Cortex-X1 (Bild: ARM)
  • Referenz-Floorplan und Takt/Spannungskurve des Cortex-X2 (Bild: ARM)
  • Die DSU verbindet Cortex-X2 mit Cortex-A710 und Cortex-A510. (Bild: ARM)
  • Der L3-Cache der DSU ist doppelt so groß und hat mehr Bandbreite. (Bild: ARM)
  • Statt einer Crossbar wird ein doppelter Ringbus verwendet. (Bild: ARM)
  • Der hat weniger Leckströme, was den Core-Cluster sparsamer macht. (Bild: ARM)
  • Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)
  • Diese verbinden die einzelnen IPs und verbessern deren Kommunikation. (Bild: ARM)
  • Der Corelink CI-700 integriert einen System Level Cache. (Bild: ARM)
  • Den nutzen alle IP-Blöcke, was DDR-Bandbreite und Energie spart. (Bild: ARM)
  • Der Corelink NI-700 verknüpft CPU, GPU und NPU. (Bild: ARM)
  • Überblick eines ARMv9-Clusters (Bild: ARM)
  • Technische Neuerung von ARMv9 (Bild: ARM)
Die DSU verbindet Cortex-X2 mit Cortex-A710 und Cortex-A510. (Bild: ARM)

Der Cortex-X2 ist dafür ausgelegt, mit dem neuen Cortex-A710 und dem ebenfalls neuen Cortex-A510 kombiniert zu werden. Hierzu wird die DSU-110 (DynamIQ Shared Unit) verwendet, die für ARMv9 entworfen wurde: Der L3-Cache fällt mit bis zu 16 MByte doppelt so groß aus und hat die fünffache Bandbreite dank eines doppelten bidirektionalen Ringbus statt der bisherigen Crossbar. Im Betrieb soll die DSU-110 sparsamer sein, da weniger Leckströme auftreten und der L3-Cache mehrere Power-Modi nutzt.

Um den CPU-Cluster an die restlichen IP-Blöcke wie die neue Mali-G710-Grafikeinheit anzubinden, hat ARM überdies den Corelink CI-700 (kohärenter Interconnect) und den Corelink NI-700 (Network on Chip, NoC) entwickelt. Damit einher geht der System Level Cache (SLC), auf den alle IP-Blöcke zugreifen können: Er erhöht die Performance und die Effizienz. Theoretisch ist bis zu einem 4x3 Mesh mit 32 MByte alles möglich, typische Smartphone-SoCs aber sollen ein 2x2 Mesh mit 8 MByte aufweisen.

Erste Systems-on-a-Chip mit ARMv9-Kernen und verbesserter Fertigung wie N5P von TSMC oder 5LPP von Samsung Foundry erwarten wir noch 2021.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Ubisoft
Avatar statt Assassin's Creed

E3 2021 Als wichtigste Neuheit hat Ubisoft ein Spiel auf Basis von Avatar vorgestellt - und Assassin's Creed muss mit Valhalla in die Verlängerung.

Ubisoft: Avatar statt Assassin's Creed
Artikel
  1. Fifa, Battlefield und Co.: Der EA-Hack startete mit Cookies für 10 US-Dollar
    Fifa, Battlefield und Co.
    Der EA-Hack startete mit Cookies für 10 US-Dollar

    Die Hacking-Gruppe erklärt dem Magazin Motherboard Schritt für Schritt, wie der Hack auf EA gelang. Die primäre Fehlerquelle: der Mensch.

  2. Extraction: Rainbow Six und der Kampf gegen Außerirdische
    Extraction
    Rainbow Six und der Kampf gegen Außerirdische

    E3 2021 Es ist ein ungewöhnlicher Ableger für Siege: Ubisoft hat Rainbow Six Extraction vorgestellt, das auf den Kampf gegen KI-Aliens setzt.

  3. Onlinetickets: 17-Jähriger betrügt Bahn um 270.000 Euro
    Onlinetickets
    17-Jähriger betrügt Bahn um 270.000 Euro

    Mit illegal erworbenen Onlinetickets soll ein 17-Jähriger die Bahn um 270.000 Euro geprellt haben. Entdeckt wurde er nur durch Zufall.

Joker86 26. Mai 2021 / Themenstart

Marc ich verstehe ja, dass datenblätter in Fließtext umwandeln keine besonders spannende...

gelöscht 26. Mai 2021 / Themenstart

Das Wissen darüber könnte die Bevölkerung verunsichern.

Kommentieren


Folgen Sie uns
       


Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Alternate (u. a. MSI Optix 27" WQHD/165 Hz 315,99€ und Fractal Design Vector RS Blackout Dark TG 116,89€) • Fractal Design Define S2 Black 99,90€ • Intel i9-11900 379€ • EPOS Sennheiser GSP 600 149€ • Amazon: PC-Spiele reduziert (u. a. C&C: Remastered Collection 9,99€) [Werbung]
    •  /