Cortex-A710: Ausbalancierter ARMv9-Standardkern

Die beste Mischung aus drei Metriken: Der Cortex-A710 mit ARMv9-Architektur soll kompakt, flott und effizient zugleich sein.

Artikel von veröffentlicht am
Überblick zum Cortex-A710
Überblick zum Cortex-A710 (Bild: ARM)

ARM hat den Cortex-A710 alias Matterhorn vorgestellt, den ersten Big-Core mit ARMv9-Architektur. Während der parallel angekündigte Cortex-X2 (Prime-Core) den Fokus auf Geschwindigkeit legt und der ebenfalls neue Cortex-A510 (Little-Cores) auf Effizienz sowie Platzbedarf optimiert ist, soll der Cortex-A710 alle Punkte abdecken.

Stellenmarkt
  1. Experte / Inhouse Consultant Cyber Security Product Governance (m/w/d)
    DRÄXLMAIER Group, Vilsbiburg bei Landshut
  2. Softwarearchitektin / Softwarearchitekt (w/m/d)
    Karlsruher Institut für Technologie (KIT) Campus Nord, Eggenstein-Leopoldshafen
Detailsuche

In der Branche wird hier von den PPA-Metriken gesprochen: Performance, Power, Area. Der Cortex-A710 soll bei gleicher Leistungsaufnahme rund 10 Prozent flotter sein als der Cortex-A78 und die doppelte Machine-Learning-Geschwindigkeit aufweisen - oder aber 30 Prozent sparsamer bei identischer Geschwindigkeit sein.

Das Frontend weist hierzu eine verbesserte Sprungeinheit auf, wichtige Puffer wie der Branch Target Buffer (BTB) und der Global History Buffer (GHB) können doppelt so viele Daten vorhalten. Bei der Größe des Macro-Op- und des L1-Instruktionen-Caches gab es keine Veränderungen, der L1-TLB (Translation Lookaside Buffer) jedoch wuchs um 50 Prozent auf 48 Einträge an.

Schlankere Pipeline und bessere DSU-Nutzung

Aus dem Macro-Op-Puffer kommen nur noch fünf statt sechs bereits decodierte und darin gespeicherte Instruktionen, auch die um eine Stufe auf zehn gekürzte Pipeline schiebt via Dispatch fünf statt sechs Macro-Ops weiter. Bei der Anzahl der Integer- und der Gleitkomma-Einheiten gab es offenbar ebenso wenige Änderungen wie bei den Load/Store-Werken oder dem L1-Daten-Cache; einzig die SVE2 (Scalable Vector Extension) mit BF16-Unterstützung wurde von ARM genannt.

  • Der Cortex-A710 soll schneller und effizienter als der Cortex-A78 sein. (Bild: ARM)
  • Überblick der Verbesserungen des Cortex-A710 (Bild: ARM)
  • Frontend des Cortex-A710 (Bild: ARM)
  • OoO-Core des Cortex-A710 (Bild: ARM)
  • Weniger DSU/RAM-Zugriffe sparen Energie. (Bild: ARM)
  • Referenz-Floorplan und Takt/Spannungskurve des Cortex-A710 (Bild: ARM)
  • Die DSU verbindet Cortex-A710 mit Cortex-X2 und Cortex-A510. (Bild: ARM)
  • Der L3-Cache der DSU ist doppelt so groß und hat mehr Bandbreite. (Bild: ARM)
  • Statt einer Crossbar wird ein doppelter Ringbus verwendet. (Bild: ARM)
  • Der hat weniger Leckströme, was den Core-Cluster sparsamer macht. (Bild: ARM)
  • Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)
  • Diese verbinden die einzelnen IPs und verbessern deren Kommunikation. (Bild: ARM)
  • Der Corelink CI-700 integriert einen System Level Cache. (Bild: ARM)
  • Den nutzen alle IP-Blöcke, was DDR-Bandbreite und Energie spart. (Bild: ARM)
  • Der Corelink NI-700 verknüpft CPU, GPU und NPU. (Bild: ARM)
  • Überblick eines ARMv9-Clusters (Bild: ARM)
  • Technische Neuerung von ARMv9 (Bild: ARM)
Überblick der Verbesserungen des Cortex-A710 (Bild: ARM)
Golem Akademie
  1. Jira für Anwender: virtueller Ein-Tages-Workshop
    4. Februar 2022, virtuell
  2. Data Engineering mit Apache Spark: virtueller Zwei-Tage-Workshop
    25.–26. April 2022, Virtuell
Weitere IT-Trainings

Der Cortex-A710 ist dafür ausgelegt, mit dem Cortex-X2 und dem Cortex-A510 kombiniert zu werden. Hierzu wird die DSU-110 (DynamIQ Shared Unit) verwendet, die für ARMv9 entworfen wurde: Der L3-Cache fällt mit bis zu 16 MByte doppelt so groß aus und hat die fünffache Bandbreite dank eines doppelten bidirektionalen Ringbus statt der bisherigen Crossbar. Im Betrieb soll die DSU-110 sparsamer sein, da weniger Leckströme auftreten und der L3-Cache mehrere Power-Modi nutzt.

Ein Teil der besseren Performance und gerade der Effizienz des Cortex-A710 rührt ARM zufolge daher, dass dieser CPU-Kern weniger häufig Daten von der DSU und viel weniger Informationen aus dem RAM anfordern muss als der Cortex-A78. Unterm Strich ist der Cortex-A710 etwas flotter und vor allem sparsamer als sein Vorgänger, zumindest wenn Partner den Betriebspunkt des Kerns entsprechend wählen.

Samsung Galaxy S21 5G, Android Smartphone ohne Vertrag, Triple-Kamera, Infinity-O Display, 128 GB Speicher, leistungsstarker Akku, Phantom Gray

Corelink-Verknüpfung zu GPU und NPU

Um den CPU-Cluster an die restlichen IP-Blöcke wie die neue Mali-G710-Grafikeinheit anzubinden, hat ARM überdies den Corelink CI-700 (kohärenter Interconnect) und den Corelink NI-700 (Network on Chip, NoC) entwickelt. Damit einher geht der System Level Cache (SLC), auf den alle IP-Blöcke zugreifen können: Er erhöht die Performance und die Effizienz. Theoretisch ist bis zu einem 4x3 Mesh mit 32 MByte möglich, typische Smartphone-SoCs aber sollen ein 2x2 Mesh mit 8 MByte aufweisen.

  • Der Cortex-A710 soll schneller und effizienter als der Cortex-A78 sein. (Bild: ARM)
  • Überblick der Verbesserungen des Cortex-A710 (Bild: ARM)
  • Frontend des Cortex-A710 (Bild: ARM)
  • OoO-Core des Cortex-A710 (Bild: ARM)
  • Weniger DSU/RAM-Zugriffe sparen Energie. (Bild: ARM)
  • Referenz-Floorplan und Takt/Spannungskurve des Cortex-A710 (Bild: ARM)
  • Die DSU verbindet Cortex-A710 mit Cortex-X2 und Cortex-A510. (Bild: ARM)
  • Der L3-Cache der DSU ist doppelt so groß und hat mehr Bandbreite. (Bild: ARM)
  • Statt einer Crossbar wird ein doppelter Ringbus verwendet. (Bild: ARM)
  • Der hat weniger Leckströme, was den Core-Cluster sparsamer macht. (Bild: ARM)
  • Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)
  • Diese verbinden die einzelnen IPs und verbessern deren Kommunikation. (Bild: ARM)
  • Der Corelink CI-700 integriert einen System Level Cache. (Bild: ARM)
  • Den nutzen alle IP-Blöcke, was DDR-Bandbreite und Energie spart. (Bild: ARM)
  • Der Corelink NI-700 verknüpft CPU, GPU und NPU. (Bild: ARM)
  • Überblick eines ARMv9-Clusters (Bild: ARM)
  • Technische Neuerung von ARMv9 (Bild: ARM)
Jedes ARMv9-SoC hat einen kohärenten Interconnect und ein Network-on-Chip. (Bild: ARM)

Erste Systems-on-a-Chip mit ARMv9-Kernen und verbesserter Fertigung wie N5P von TSMC oder 5LPP von Samsung Foundry erwarten wir noch 2021.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Fernwartung
Der Kundenansturm, der Teamviewer nicht gut getan hat

Wie schätzt man die weitere Geschäftsentwicklung ein, wenn die Kunden in der Pandemie plötzlich Panikkäufe machen? Das gelang bei Teamviewer nicht.
Ein Bericht von Achim Sawall

Fernwartung: Der Kundenansturm, der Teamviewer nicht gut getan hat
Artikel
  1. Pluton in Windows 11: Lenovo will Microsofts Sicherheitschip nicht aktivieren
    Pluton in Windows 11
    Lenovo will Microsofts Sicherheitschip nicht aktivieren

    Die neuen Windows-11-Laptops kommen mit dem Chip Pluton. Lenovo will diesen aber noch nicht selbst aktivieren.

  2. Netzneutralität: Google und Meta verteidigen sich gegen Telekom-Vorwürfe
    Netzneutralität
    Google und Meta verteidigen sich gegen Telekom-Vorwürfe

    Die beiden großen Internetkonzerne Google und Meta verweisen im Gespräch mit Golem.de auf ihren Beitrag zur weltweiten Infrastruktur wie Seekabel und Connectivity.

  3. Probefahrt mit BMW-Roller CE 04: Beam me up, BMW
    Probefahrt mit BMW-Roller CE 04
    Beam me up, BMW

    Mit futuristischem Design und elektrischem Antrieb hat BMW ein völlig neues Fahrzeug für den urbanen Bereich entwickelt.
    Ein Bericht von Peter Ilg

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • RTX 3070 989€ • The A500 Mini Retro-Konsole mit 25 Amiga-Spielen vorbestellbar 189,90€ • RX 6800 16GB 1.129€ • Intel Core i9 3.7 459,50€ Ghz • WD Black 1TB inkl. Kühlkörper PS5-kompatibel 189,99€ • Switch: 3 für 2 Aktion • RX 6700 12GB 869€ • MindStar (u.a. 1TB SSD 69€) [Werbung]
    •  /