Cortex-A510: Neuer Little-Core schlägt alte Big-Cores

Der Cortex-A510, ein sparsamer Smartphone-CPU-Kern, soll über ein Drittel flotter rechnen. Die ARMv9-Architektur erinnert an AMDs Bulldozer.

Artikel von veröffentlicht am
Überblick zum Cortex-A510
Überblick zum Cortex-A510 (Bild: ARM)

ARM hat den Cortex-A510 alias Klein (sic!) vorgestellt, den ersten neuen Little-Core seit dem nunmehr vier Jahre alten Cortex-A55. Der Cortex-A510 ist als sparsamer ARMv9-Kern mit reiner 64-Bit-Unterstützung (AArch64) ausgelegt: Er soll eine 35 Prozent höhere Integer- und eine um 50 Prozent gestiegene Float- sowie die dreifache Machine-Learning-Performance aufweisen, oder 20 Prozent effizienter als der Vorgänger sein.

Stellenmarkt
  1. Trainee (m/w/d)
    VOLTARIS GmbH, Maxdorf
  2. IT-Architektin (m/w/d)
    Techniker Krankenkasse, Hamburg
Detailsuche

Wie groß der Geschwindigkeitszuwachs im Vergleich zum Cortex-A55 ausfällt, wird noch klarer, wenn man den Cortex-A510 mit einem älteren Big-Core vergleicht: Den Cortex-A73 von 2016 soll der neue Little-Kern in etwa einholen, genauer im Rahmen von 10 Prozent bei der Leistung pro Takt (IPC) und in etwa 15 Prozent bei der erreichbaren Frequenz.

Interessant ist, dass es sich beim Cortex-A510 wie schon beim Cortex-A55 um ein sogenanntes In-Order-Design handelt. Solche sind selten geworden, die meisten heutigen Microarchitekturen, egal ob ARM oder x86, basieren auf Out-of-Order (OoO). Die haben den Vorteil, dass Instruktionen nicht stumpf nach der Reihenfolge des Programms abgearbeitet werden, sondern umsortiert werden - das ist schneller, kostet aber auch mehr Energie.

AMDs Bulldozer lässt grüßen

Für den Cortex-A510 hat ARM eine neue μArch auf Basis der ARMv9-Technik entwickelt, künftig soll es auf dieser Basis auch zügiger neue Little-Cores geben. Der Hersteller spricht von einem Merged- oder Cluster-Ansatz, denn ähnlich wie bei AMDs Bulldozer-Technik teilen sich zwei Kerne bestimmte Ressourcen.

  • Der Cortex-A510 soll schneller als der Cortex-A73 sein. (Bild: ARM)
  • Es handelt sich um ein ARMv9-Design. (Bild: ARM)
  • Zwei Integer-Kerne teilen sich die Gleitkomma-Einheit und den L2-Cache. (Bild: ARM)
  • Vier Cores bilden daher zwei Cluster. (Bild: ARM)
  • Frontend und Integer des Cortex-A510 (Bild: ARM)
  • Load/Store und L1/L2-Caches des Cortex-A510 (Bild: ARM)
  • Details zur Gleitkomma-Einheit des Cortex-A510  (Bild: ARM)
  • Referenz-Floorplan und Takt/Spannungskurve des Cortex-A510 (Bild: ARM)
  • Performance des Cortex-A510 verglichen mit dem Cortex-A55 (Bild: ARM)
  • Leistung und Effizienz des Cortex-A510 im Überblick (Bild: ARM)
  • Die DSU verbindet Cortex-A510 mit Cortex-A710 und Cortex-X2. (Bild: ARM)
  • Der L3-Cache der DSU ist doppelt so groß und hat mehr Bandbreite. (Bild: ARM)
  • Statt einer Crossbar wird ein doppelter Ringbus verwendet. (Bild: ARM)
  • Der hat weniger Leckströme, was den Core-Cluster sparsamer macht. (Bild: ARM)
  • Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)
  • Diese verbinden die einzelnen IPs und verbessern deren Kommunikation. (Bild: ARM)
  • Der Corelink CI-700 integriert einen System Level Cache. (Bild: ARM)
  • Den nutzen alle IP-Blöcke, was DDR-Bandbreite und Energie spart. (Bild: ARM)
  • Der Corelink NI-700 verknüpft CPU, GPU und NPU. (Bild: ARM)
  • Überblick eines ARMv9-Clusters (Bild: ARM)
  • Technische Neuerung von ARMv9 (Bild: ARM)
Der Cortex-A510 soll schneller als der Cortex-A73 sein. (Bild: ARM)

Jeder Cortex-A510 hat allerdings sein eigenes Frontend sowie L1-Caches und erledigt Integer-Berechnungen autark. Den L2-Puffer und die Gleitkommaeinheit nutzen beide Kerne, wobei ARM zufolge ein feingranularer Scheduler den Overhead bei unter einem Prozent halten soll. Der Vorteil dieses Cluster-Designs ist laut Hersteller der geringe Platzbedarf, da bei den Little-Cores der Fokus ohnehin stärker auf Integer als auf Float liege. SMT wie einst bei Intels In-Order-Atoms war keine Option, da dieses zwar wenig Fläche bei hoher Performance bringe, aber wenig effizient sei. Auf Wunsch kann ein Kern des Cortex-A510 auch alle Ressourcen in seinem Cluster nutzen.

Die eigentlichen Architekturverbesserungen im Vergleich zum Cortex-A55 fallen umfangreich aus: Im Frontend werden drei statt zwei Befehle decodiert, die verbesserte Sprungvorhersage stammt aus dem Cortex-X-Programm. In jedem Kern gibt es drei statt zwei Integer-ALUs und die beiden L/S-Einheiten wurden flexibler gestaltet: Eine davon kann Load und Store parallel, statt nur Load oder Store auszuführen. Der L1D soll die vierfache Bandbreite, der L2 die doppelte aufweisen.

Samsung Galaxy S21 5G, Android Smartphone ohne Vertrag, Triple-Kamera, Infinity-O Display, 128 GB Speicher, leistungsstarker Akku, Phantom Gray

Die Little-Cores übernehmen mehr Aufgaben

Unterm Strich spricht ARM bei gleicher Fertigung, also ISO, von einer 10 Prozent höheren Geschwindigkeit bei gleicher Leistungsaufnahme oder 20 Prozent weniger Energiebedarf bei identischer Performance. Mit mehr Strom und mehr Frequenz sollen bei SpecINT_2006 die eingangs genannten +35 Prozent drin sein. Bei der Gleitkomma-Einheit verbaut ARM zwei 128-Bit-Pipelines für Neon- und SVE2-Befehle (Scalable Vector Extension), was ebenfalls eine Verdopplung gegenüber dem Cortex-A55 darstellt. Die Float-Leistung in SpecFP_2006 soll um 50 Prozent ansteigen.

Aufgrund der deutlich höheren Geschwindigkeit im Vergleich zum Cortex-A55 sollen auf dem Cortex-A510 mehr Workloads laufen können, die bisher nicht von den Little- sondern von den Big-Cores berechnet wurden. Dadurch wird ein SoC im Betrieb sparsamer und die Akkulaufzeit des Smartphones steigt.

  • Der Cortex-A510 soll schneller als der Cortex-A73 sein. (Bild: ARM)
  • Es handelt sich um ein ARMv9-Design. (Bild: ARM)
  • Zwei Integer-Kerne teilen sich die Gleitkomma-Einheit und den L2-Cache. (Bild: ARM)
  • Vier Cores bilden daher zwei Cluster. (Bild: ARM)
  • Frontend und Integer des Cortex-A510 (Bild: ARM)
  • Load/Store und L1/L2-Caches des Cortex-A510 (Bild: ARM)
  • Details zur Gleitkomma-Einheit des Cortex-A510  (Bild: ARM)
  • Referenz-Floorplan und Takt/Spannungskurve des Cortex-A510 (Bild: ARM)
  • Performance des Cortex-A510 verglichen mit dem Cortex-A55 (Bild: ARM)
  • Leistung und Effizienz des Cortex-A510 im Überblick (Bild: ARM)
  • Die DSU verbindet Cortex-A510 mit Cortex-A710 und Cortex-X2. (Bild: ARM)
  • Der L3-Cache der DSU ist doppelt so groß und hat mehr Bandbreite. (Bild: ARM)
  • Statt einer Crossbar wird ein doppelter Ringbus verwendet. (Bild: ARM)
  • Der hat weniger Leckströme, was den Core-Cluster sparsamer macht. (Bild: ARM)
  • Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)
  • Diese verbinden die einzelnen IPs und verbessern deren Kommunikation. (Bild: ARM)
  • Der Corelink CI-700 integriert einen System Level Cache. (Bild: ARM)
  • Den nutzen alle IP-Blöcke, was DDR-Bandbreite und Energie spart. (Bild: ARM)
  • Der Corelink NI-700 verknüpft CPU, GPU und NPU. (Bild: ARM)
  • Überblick eines ARMv9-Clusters (Bild: ARM)
  • Technische Neuerung von ARMv9 (Bild: ARM)
Die DSU verbindet Cortex-A510 mit Cortex-A710 und Cortex-X2. (Bild: ARM)

Der Cortex-A510 ist dafür ausgelegt, mit dem neuen Cortex-X2 und dem ebenfalls neuen Cortex-A710 kombiniert zu werden. Hierzu wird die DSU-110 (DynamIQ Shared Unit) verwendet, die für ARMv9 entworfen wurde: Der L3-Cache fällt mit bis zu 16 MByte doppelt so groß aus und hat die fünffache Bandbreite dank eines doppelten bidirektionalen Ringbus statt der bisherigen Crossbar. Im Betrieb soll die DSU-110 sparsamer sein, da weniger Leckströme auftreten und der L3-Cache mehrere Power-Modi nutzt.

Um den CPU-Cluster an die restlichen IP-Blöcke wie die neue Mali-G710-Grafikeinheit anzubinden, hat ARM überdies den Corelink CI-700 (kohärenter Interconnect) und den Corelink NI-700 (Network on Chip, NoC) entwickelt. Damit einher geht der System Level Cache (SLC), auf den alle IP-Blöcke zugreifen können: Er erhöht die Performance und die Effizienz. Theoretisch ist bis zu einem 4x3 Mesh mit 32 MByte möglich, typische Smartphone-SoCs aber sollen ein 2x2 Mesh mit 8 MByte aufweisen.

Erste Systems-on-a-Chip mit ARMv9-Kernen und verbesserter Fertigung wie N5P von TSMC oder 5LPP von Samsung Foundry erwarten wir noch 2021.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Ubisoft
Avatar statt Assassin's Creed

E3 2021 Als wichtigste Neuheit hat Ubisoft ein Spiel auf Basis von Avatar vorgestellt - und Assassin's Creed muss mit Valhalla in die Verlängerung.

Ubisoft: Avatar statt Assassin's Creed
Artikel
  1. Fifa, Battlefield und Co.: Der EA-Hack startete mit Cookies für 10 US-Dollar
    Fifa, Battlefield und Co.
    Der EA-Hack startete mit Cookies für 10 US-Dollar

    Die Hacking-Gruppe erklärt dem Magazin Motherboard Schritt für Schritt, wie der Hack auf EA gelang. Die primäre Fehlerquelle: der Mensch.

  2. Extraction: Rainbow Six und der Kampf gegen Außerirdische
    Extraction
    Rainbow Six und der Kampf gegen Außerirdische

    E3 2021 Es ist ein ungewöhnlicher Ableger für Siege: Ubisoft hat Rainbow Six Extraction vorgestellt, das auf den Kampf gegen KI-Aliens setzt.

  3. Onlinetickets: 17-Jähriger betrügt Bahn um 270.000 Euro
    Onlinetickets
    17-Jähriger betrügt Bahn um 270.000 Euro

    Mit illegal erworbenen Onlinetickets soll ein 17-Jähriger die Bahn um 270.000 Euro geprellt haben. Entdeckt wurde er nur durch Zufall.

Dwalinn 26. Mai 2021 / Themenstart

Bei Wikipedia hat man eine schöne Liste mit ein paar alten Supercomputer. waren es 99...

Kommentieren


Folgen Sie uns
       


Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Alternate (u. a. MSI Optix 27" WQHD/165 Hz 315,99€ und Fractal Design Vector RS Blackout Dark TG 116,89€) • Corsair Hydro H80i V2 RGB 73,50€ • Apple iPad 10.2 389€ • Razer Book 13 1.158,13€ • Fractal Design Define S2 Black 99,90€ • Intel i9-11900 379€ • EPOS Sennheiser GSP 600 149€ [Werbung]
    •  /