• IT-Karriere:
  • Services:

Cortex-A78 & Cortex-X1: ARM entwirft extremen CPU-Kern

30 Prozent schneller und 50 Prozent größer: ARMs Cortex-X1 ist eine Spezialversion des ebenfalls neuen Cortex-A78.

Artikel von veröffentlicht am
Der Cortex-X1 ist eine Spezialversion des Cortex-A78.
Der Cortex-X1 ist eine Spezialversion des Cortex-A78. (Bild: ARM)

ARM hat auf dem alljährlichen Client Tech Day den Cortex-A78 und den Cortex-X1 präsentiert, zwei CPU-Kerne mit Smartphone-Chips. Der Cortex-A78 (Hercules) folgt auf den Cortex-A77 (Deimos), wohingegen der Cortex-X1 (Hera) ein für drastisch höhere Performance modifiziertes Design auf Basis des Cortex-A78 darstellt.

Stellenmarkt
  1. Universität Potsdam, Potsdam
  2. Rundfunk Berlin-Brandenburg (rbb), Berlin

Der Cortex-A78, benannt nach dem griechischen Held, stellt eine auf Energieeffizienz optimierte Weiterentwicklung des Cortex-A77 dar: ARM verspricht bei gleicher Fertigung und gleichem Takt eine um 7 Prozent höhere Performance bei 5 Prozent weniger Energie, zudem ist der Cortex-A78 auch 5 Prozent kompakter. Wird die 5-nm- statt der 7-nm-Fertigung miteinbezogen, soll der Cortex-A78 bei einem Watt rund 20 Prozent flotter sein. Beeindruckend: Bei gleicher Geschwindigkeit halbiert sich im besten Fall die Leistungsaufnahme, laut ARM ist ein Drittel aber eher typisch.

Zu den größten Änderungen gehören der von 64 KByte auf 32 KByte halbierte L1-Daten- und Instruktionen-Cache, der L2-Puffer wurde von 1 MByte auf 512 KByte halbiert. Partner können jedoch auf Wunsch auch die doppelte Menge verbauen, wenngleich auf Kosten einer größeren Fläche. Das Frontend des Cortex-A78 weist eine verbesserte Sprungvorhersage auf und bei L1-Cache-Misses sollen schneller wieder Daten zugeführt werden. Zudem wurde die Bandbreite um Befehle zu laden erhöht.

  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zu Cortex-A78 und zu Cortex-X1 (Bild: ARM)
Präsentation zum Cortex-A78 (Bild: ARM)

Der Out-of-Order-Kern hat eine Integer-Multiplizier-Einheit erhalten, womit sich die Bandbreite verdoppelt. Der Reorder-Buffer fasst weiterhin 160 Einträge und das OoO-Window fällt gar kleiner aus, dafür wurde der Instruktionen-Scheduler überarbeitet und es werden mehr Befehle verschmolzen um Leistung sowie Effizienz zu steigern. Im Backend gibt eine dritte Adressgenerierungseinheit (AGU), ergo erhöht sich Bandbreite hier um 50 Prozent. Die Store-Bandbreite wurde auf 32 Byte pro Takt verdoppelt, der L2-TLB arbeitet ebenfalls mit verdoppelter Bandbreite und erhielt einige kleinere Optimierungen.

Cortex-X1 als High-Performance-Option

Partner wie Qualcomm nutzen seit Jahren das Build-on-ARM-Cortex-Programm, bei welchem der jeweilige Kunde anfrage, ob beispielsweise der L2-Cache eines Kerns verdoppelt oder das OoO-Fenster vergrößert wird. Mit dem Cortex-X-Custom-Programm ändert sich das: Hier sagen Partner, wie hoch der Geschwindigskeitszuwachs zum Basismodell, in diesem Jahr also der Cortex-A78, ausfallen soll und ARM integriert Änderungen um dieses Ziel zu erreichen. Der Fokus beim Cortex-X-Custom-Programm liegt primär auf der Performance, die Effizienz ist zweitrangig.

Für den Cortex-X1, benannt nach Zeus' Frau und Schwester Hera, gibt ARM an, dass er gleich 22 Prozent mehr Integer/Float-Leistung und gar die doppelte Machine-Learning-Geschwindigkeit eines Cortex-A78 erreichen soll. Allerdings fällt ein Kern auch um satte 50 Prozent größer aus, was im Endeffekt auch teurere Chips bedeutet. Um die Performance zu erhöhen, verpasste ARM dem Cortex-X1 den doppelten L2- und L3-Cache, also 1 MByte sowie 8 MByte, und verdoppelte deren Bandbreite durch doppelt so vieler Speicherbänke.

Der Kern selbst kann 5 statt 4 Befehle aus dem L1-Instruktionen-Cache holen, aus dem Micro-Op-Cache gleich 8 statt 6; der L0-Puffer fasst 3.072 statt 1.532 Einträge. Der Scheduler schleust mit ein Drittel mehr dekodierte Instruktionen ins Backend, das OoO-Fenster hat 224 statt 160 Einträge. Der L0-TLB hat mit 96 statt 68 Einträgen derer 50 Prozent mehr, der L2-TLB hat 2.048 Einträge - zwei Drittel mehr - und das Load/Store-Fenster ist ein Drittel größer.

  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-A78 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zum Cortex-X1 (Bild: ARM)
  • Präsentation zu Cortex-A78 und zu Cortex-X1 (Bild: ARM)
Präsentation zum Cortex-X1 (Bild: ARM)

Vor allem aber hat ARM die Anzahl der 128-Bit-Neon-Gleitkomma-Pipelines von zwei auf vier verdoppelt, was der Grund für die zweifache Machine-Learning-Geschwindigkeit ist. Vergleichen zum Cortex-A78 soll der Cortex-X1 deutlich schneller sein: Integer und Float steigen laut Spec2006 um je 22 Prozent, bei Stream erhöht sich die Bandbreite um 13 Prozent und der Javascript-Benchmark Octane wird um 11 Prozent beschleunigt.

Auch der Cortex-X1 eignet sich dazu, als vierter Kern in einem Cluster mit drei Cortex-A78 eingesetzt zu werden. Verglichen zu vier Cortex-A77 steigt die Leistung um bis zu 30 Prozent, allerdings bei 15 Prozent mehr Fläche. Vier Cortex-A78 schaffen ein Plus von bis 20 Prozent, belegen aber 5 Prozent weniger Platz als vier Cortex-A77. Erste SoC-Designs mit Cortex-A78 und Cortex-X1 erwartet ARM in den nächsten Monaten, beide sollen bis zu 3 GHz per 5-nm-Verfahren erreichen.

Der Autor meint dazu:

Ich bin sehr gespannt, welche Partner den Cortex-X1 wo einsetzen werden. Der Cortex-A78 wird freilich der typische Kern für allerhand schnelle Smartphone-Chips werden, der Cortex-X1 jedoch dürfte nur in einigen wenigen SoCs auftauchen. Ich könnte mir einen davon gut als Prime-Core eines Snapdragon 875 vorstellen oder zwei und mehr solcher Kerne in einem neuen Snapdragon für Windows 10 on ARM. Seitens Samsung wurde der Einsatz des Cortex-X1 bereits bestätigt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)
  2. täglich neue Deals bei Alternate.de

wurstdings 27. Mai 2020 / Themenstart

Wenn man viele ARM-Geräte kontrolliert, kann man DDOS fahren und Firmen um riesige Summen...

pica 27. Mai 2020 / Themenstart

Interessant dabei ist, dass zwei stereotypische CISC ISAs * VAX * 68K einen...

pica 27. Mai 2020 / Themenstart

Die letzten in Deutschland entwickelten µC Architekturen, die ich kenne sind * TriCore...

pica 27. Mai 2020 / Themenstart

Somit sollte dies in einem 65W TDP Budget locker machbar sein ;-)

derdiedas 27. Mai 2020 / Themenstart

Na ja ARM gibt ja nur die Vorlage, die Hersteller können dann daraus ja ihre eigenen CPUs...

Kommentieren


Folgen Sie uns
       


    •  /