Cortex-X3, Cortex-A715, Cortex-A510 v2: ARMs Dodeca-CPUs verzichten auf 32 Bit

Bis zu zwölf Kerne, bis zu 22 Prozent schneller und bis zu 20 Prozent effizienter: ARMs Cortex-Generation für 2022 legt kräftig zu.

Ein Bericht von veröffentlicht am
Drei neue Cortex-Kerne für Smartphone-Chips
Drei neue Cortex-Kerne für Smartphone-Chips (Bild: ARM)

ARM hat neue CPU-Kerne für Smartphone- sowie Laptop-Chips auf Basis der ARMv9-Technik vorgestellt, den Cortex-X3 und Cortex-A715. Hinzu kommt der von 2021 bekannte Cortex-A510, welcher als Refresh-Variante mehrere Verbesserungen erhalten hat. Neben einer höheren Performance und einer gestiegenen Effizienz wurde die 32-Bit-Unterstützung endgültig entfernt, zumindest für die allermeisten SoCs.

Stellenmarkt
  1. Senior .net Entwickler (w/m/d) inhouse
    HanseVision GmbH, Hamburg
  2. Team Manager (m/w/d) PAISY
    OEDIV KG, Bielefeld
Detailsuche

Der Cortex-X3, der Cortex-A715 und Cortex-A510 v2 lassen sich in diversen Konfigurationen zusammenbauen, möglich wird das durch die DSU-110 (Dynamiq Shared Unit alias Big Little): Für Smartphones etwa sind Optionen wie 1+3+4 zu erwarten, für Laptops hingegen sind prinzipiell auch 8+4+0 umsetzbar und somit Dodeca-SoCs mit zwölf Kernen. Der Cortex-X3 und der Cortex-A715 nutzen reine AArch64, sprich 64 Bit. Einzig beim Cortex-A510 v2 gibt es zwar die Legacy-Option auf AArch32, aber nur für ausgewählte Märkte.

Das Topmodell ist der Cortex-X3 alias Makalu-ELP, welcher wie seine beiden Vorgänger im texanischen Austin entwickelt wurde. ARM spricht von einer um absolut 25 Prozent gestiegenen Geschwindigkeit verglichen mit dem Cortex-X2, die Leistung pro Takt (IPC) soll um elf Prozent höher ausfallen. Der Fokus des Teams lag auf einem besserem Frontend, auch wurden die Ausführungseinheiten und die Caches mit mehr Ressourcen ausgestattet.

Bis zu 22 Prozent schneller durch Cortex-X3

Eine Fortführung vom Design des Cortex-X1 und Cortex-X2 ist, dass die Fetch- und die Branch-Ausführung möglichst stark entkoppelt sind, um den Leerlauf (Blasen) in der Pipeline zu reduzieren. Damit einher gehen größere BTBs der L0-, der L1- sowie L2-Stufe und eine dedizierte Sprungvorhersage für indirekte Branches, das zusammen sorgt ARM zufolge für eine geringere Latenz und weniger Verzögerungen (Stalls). Der Micro-Op-Cache wurde 3.072 auf 1.536 Einträge halbiert.

  • Cortex-X3, Cortex-A715 und Cortex-A510 im Überblick (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Der Cortex-A510 wird etwas flotter. (Bild: ARM)
  • Künftig sind SoCs mit zwölf Cortex-Kernen denkbar. (Bild: ARM)
  • TCS22 mit Cortex-CPU- und Immortalis/Mali-GPU-Kernen (Bild: ARM)
  • Die Chips unterstützen A-MTE und E-PAN. (Bild: ARM)
Cortex-X3, Cortex-A715 und Cortex-A510 im Überblick (Bild: ARM)
Golem Karrierewelt
  1. C++ Programmierung Grundlagen (keine Vorkenntnisse benötigt): virtueller Drei-Tage-Workshop
    07.-09.11.2022, virtuell
  2. LDAP Identitätsmanagement Fundamentals: virtueller Drei-Tage-Workshop
    18.-20.10.2022, Virtuell
Weitere IT-Trainings

Weil dieser bei einigen Instruktionen nicht ausreichend ist, wurde der Decoder verbreitert, er schafft nun sechs statt fünf Befehle pro Takt. Zusätzlich fällt das Out-of-Order-Window mit 320 statt 288 Einträgen größer aus, womit die Instruktionenlevelparallelität steigt. Die Recheneinheiten dahinter hat ARM ebenfalls leistungsstärker aufgestellt, die Anzahl der Integer-ALUs steigt von vier auf sechs.

Für die L1-, L2- und L3-Caches gibt es eine verbesserte Genauigkeit, wann welche Daten in die höher liegenden Stufen ausgelagert werden; insbesondere der Auswurf vom L2 in den L3-Victim-Puffer kostet wertvolle Energie. Daher hat ARM auch den L2 von 512 KByte auf 1.024 KByte verdoppelt, auf Kosten der Flächeneffizienz steigt so die Performance um bis zu 24 Prozent und der L2 muss bis zu 27 Prozent seltener neu befüllt werden.

Unterm Strich erhöht sich die Leistung pro Takt verglichen zum Cortex-X2 um elf Prozent, im besten Fall sollen es bis zu 30 Prozent sein. Für dieselbe Geschwindigkeit benötigt der Cortex-X3 dabei durchweg weniger Energie, wohlgemerkt mit identischer Fertigung (ISO). Bei Verwendung eines feineren Nodes soll die absolute Performance um bis zu 25 Prozent steigen, ARM vergleicht hierbei einen einzelnen Cortex-X3 samt 1 MByte L2-Cache bei 3,3 GHz mit einem einzelnen Cortex-X2 samt 512 KByte L2-Cache bei 3 GHz .

Cortex-A715 streicht AArch32-Support

Da ARM über mehrere CPU-Teams verfügt, entstand der Cortex-A715 alias Makalu im französischen Sophia Antipolis. Der Kern soll bei selber Performance rund 20 Prozent weniger Energie benötigen oder aber bei selber Leistungsaufnahme immerhin fünf Prozent flotter als der Cortex-A710 sein, wohlgemerkt bei identischer Fertigung.

Auch beim Cortex-A715 wurde das Frontend stark verbessert, wobei das Ziel anders als beim Cortex-X3 auf einer Steigerung der Effizienz statt primär der Performance lag. So wurde die Sprungvorhersage verbessert, etwa mit einer höheren Genauigkeit und einer tieferen Historie. Der Decoder schafft fünf statt vier Befehle pro Takt; aufgrund der weggefallenen AArch32-Unterstützung benötigt er nur noch ein Viertel der Fläche. Die einzelnen Decoder-Bereiche wurden aufgewertet, so dass alle komplexe Instruktionen verarbeitet werden können, was bei Neon- oder SVE(2)-Befehlen hilft. Die logische Folge: Der mit dem Cortex-A77 eingeführte Micro-Op-Cache flog raus.

  • Cortex-X3, Cortex-A715 und Cortex-A510 im Überblick (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Der Cortex-A510 wird etwas flotter. (Bild: ARM)
  • Künftig sind SoCs mit zwölf Cortex-Kernen denkbar. (Bild: ARM)
  • TCS22 mit Cortex-CPU- und Immortalis/Mali-GPU-Kernen (Bild: ARM)
  • Die Chips unterstützen A-MTE und E-PAN. (Bild: ARM)
Präsentation zum Cortex-A715 (Bild: ARM)

Während der L1-Instruktionen-Puffer dessen Fehlen auffangen soll, gibt es im Backend weitere Änderungen: Dazu gehören größere TLBs und bessere Prefetcher, womit die Anzahl an DRAM-Zugriffen verringert werden soll, was die Leistung erhöht und den Energiebedarf verringert. Verglichen zum Cortex-A710 soll der Cortex-A715 daher durchweg die selbe Performance aufweisen, dabei aber sparsamer sein.

Der Cortex-A510 wird flotter und effizienter

Die Little-Cores lässt ARM üblicherweise über längere Zeiträume unangetastet, beim erst 2021 eingeführten Cortex-A510 gab es aber noch Optimierungspotenzial: Das Cambridge-Team hat den Kern mit einigen Effizienzverbesserungen versehen, er soll zwischen vier und fünf Prozent weniger Energie benötigen. Der Höchsttakt (Fmax) liegt ebenfalls um fünf Prozent höher, was zugleich den Sweet Spot etwas nach oben verschiebt. Bisher üblich waren 1,8 GHz - denkbar wären ergo 1,9 GHz als Standard beim Cortex-A510 v2.

Außerhalb des per DSU-1100 verknüpften Core-Clusters hat ARM auch die Nutzung des System Level Caches (SLC) verbessert, zudem wurden der Corelink CI-700 (kohärenter Interconnect) und der Corelink NI-700 (Network on Chip, NoC) entsprechend überarbeitet. Ebenfalls wichtig sind die asymmetrische MTE (Memory Tagging Extension), um das Ausnutzen von Speicherfehlern, und der erweiterte PAN (Privileged Access Never), um per JIT-Code gestartete Angriffe auf User-Daten wie Passwörter zu verhindern.

  • Cortex-X3, Cortex-A715 und Cortex-A510 im Überblick (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-X3 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Präsentation zum Cortex-A715 (Bild: ARM)
  • Der Cortex-A510 wird etwas flotter. (Bild: ARM)
  • Künftig sind SoCs mit zwölf Cortex-Kernen denkbar. (Bild: ARM)
  • TCS22 mit Cortex-CPU- und Immortalis/Mali-GPU-Kernen (Bild: ARM)
  • Die Chips unterstützen A-MTE und E-PAN. (Bild: ARM)
Der Cortex-A510 wird etwas flotter. (Bild: ARM)

Via CI/NI-700 werden auch Grafikeinheiten angebunden, denn zu einer Total Compute Solution (TCS) gehören neben dem CPU-Cluster sowie optionalen Kernen wie dem Cortex-M85 auch iGPUs: Die neu vorgestellte Immortalis-G715 mit bis zu 16 Shader-Cores unterstützt Hardware-Raytracing, die Mali-G715 und die Mali-G615 als kleinere Varianten nicht.

Erste Geräte mit den neuen ARMv9.0-A-Kernen oder auch vollständige TSC22-Chips erwarten wir Ende des Jahres, so dürfte beispielsweise Qualcomm auf dem Tech Summit im November 2022 den Snapdragon 8 Gen2 vorstellen.

Offenlegung: Golem.de hat auf Einladung von ARM hin am Client Tech Day in Austin teilgenommen, die Reise- und Hotelkosten wurden vollständig von ARM übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben seitens Dritter.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Kabelnetz
Vodafone setzt neuartige Antennendosen ein

Ohne Radioport kommt die neue Antennendose und ist damit schon für DOCSIS 4.0 vorbereitet. Doch sie soll bereits jetzt Vorteile für Vodafone-Kunden bringen.

Kabelnetz: Vodafone setzt neuartige Antennendosen ein
Artikel
  1. Hybridmagnet: Chinesische Forscher erzeugen Rekord-Magnetfeld
    Hybridmagnet
    Chinesische Forscher erzeugen Rekord-Magnetfeld

    Mit einem Hybridmagneten hat ein Team in China einen Rekord aus den USA für das stärkste stabile Magnetfeld überboten.

  2. Clop: Ransomwaregruppe erpresst scheinbar falsches Wasserwerk
    Clop
    Ransomwaregruppe erpresst scheinbar falsches Wasserwerk

    Eine Ransomwaregruppe hat sich nach einem Hack eines Wasserversorgungsunternehmens in Großbritannien offenbar vertan und ein anderes Werk erpresst.

  3. Einstieg in Microsoft Azure
     
    Einstieg in Microsoft Azure

    Microsoft Azure gehört zu den am stärksten verbreiteten Cloudlösungen für Unternehmen. Mit dem Workshop der Golem Karrierewelt gelingt der Einstieg auf die komplexe Plattform.
    Sponsored Post von Golem Karrierewelt

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: Zotac RTX 3080 12GB 829€, Mac mini 16GB 1.047,26€, Samsung SSD 1TB/2TB (PS5) 111€/199,99€ • MindStar (Sapphire RX 6900XT 939€, G.Skill DDR4-3200 32GB 98€) • PS5 bestellbar • Games für PS5/PS4 bis 84% günstiger • Bester 2.000€-Gaming-PC[Werbung]
    •  /