• IT-Karriere:
  • Services:

Erstmals ein µOp-Cache

Ganz neu ist der Macro-Op-Puffer, welcher 1.500 bereits dekodierte Instruktionen aufnimmt. Laut ARM ist diese Menge nahe am Sweet Spot aus Platzbedarf und Performance, generell soll der Mop-Cache etwa die Hälfte der Fläche eines 64 KByte großen L1-Caches belegen. Anders als ein komplexerer Trace-Cache wie bei Intels Netburst ist er zwar einfacher zu implementieren, jedoch alles andere als trivial. Intel führte einen µOp-Cache bereits Anfang 2011 mit Sandy Bridge ein, primär um im Frontend wertvolle Energie zu sparen. Bei einem RISC-Kern wie dem Cortex-A77 nimmt dieses weniger Leistung auf, weshalb ARM den Mop-Cache mehr für die Geschwindigkeit eingebaut hat.

Stellenmarkt
  1. Star Cooperation GmbH, Böblingen
  2. Hays AG, Nordrhein-Westfalen

Er kann sechs Mops pro Takt erhalten und verkürzt bei einem falschen Sprung die Latenz im besten Fall auf zehn Taktzyklen. In 85 Prozent der Fälle müssen Instruktionen nicht neu dekodiert werden, sondern können vom Mop-Cache direkt über die Reorder/Dispatch-Stufe an das Backend mit den Ausführungseinheiten geleitet werden. Zum Vergleich: Intel nannte für x86-Instruktionen eine Trefferquote von 80 Prozent für den µOp-Cache von Sandy Bridge, womit die Hitrate nahe an dem liegt, was ARM angibt.

  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
Präsentation zum Cortex-A77 (Bild: ARM)

Die Decode-Stufe schafft nun sechs statt vier Instruktionen und das Out-of-Order-Fenster wächst um ein Viertel auf 160 Einträge. So steigt die Instruction-level Parallelism (ILP), was für mehr Durchsatz vom Frontend zum Backend hin sorgt. ARM spricht hier wie viele andere Hersteller von 'feeding the beast', denn auch die Dispatch-Stufe fällt mit zehn statt acht Micro-Ops pro Takt breiter aus als bisher. Designs wie Samungs M3-Core nutzten allerdings schon 2018 einen Decoder für sechs Instruktionen und einen Dispatcher für sechs Micro-Ops. Die ARM-Kerne von Apple sind noch weiter ausgelegt, die Vortex-Cores des A12 dekodieren sieben Befehle und haben gleich 13 Ausführungseinheiten.

ARMs Cortex-A77 hingegen weist acht auf, was allerdings deutlich mehr sind als die sechs Ausführungseinheiten zuvor: Eine davon ist eine vierte ALU für einfache Integer-Berechnungen, sie ergänzt die beiden anderen simplen ALUs und die eine für komplexere Aufgaben wie Divisionen oder schnellere Multiplikationen. Damit die Balance stimmt, hat ARM neben der ALU eine zweite Branch-Unit hinzufügt. Die Store-Pipelines haben nun eigene Ports statt mit den AGUs geteilte für eine bessere Auslastung und ein größeres Puffer-Fenster.

Interessant ist noch, dass ARM eine zweite Pipeline für AES-Verschlüsselung integriert hat. Da Android hiervon Gebrauch macht, erwartet der Hersteller eine teils bessere gefühlte Geschwindigkeit, vor allem aber eine höhere Effizienz und somit tendenziell mehr Akkulaufzeit. Bei der generellen Performance fällt auf, dass die Floating-Point- stärker gestiegen ist als die Integer-Leistung, obgleich die 128 Bit breiten Neon-Gleitkomma-Einheiten nicht überarbeitet wurden. ARM zufolge liegt das am deutlich besseren Data-Prefetching.

Erste Systems-on-a-Chip mit dem Cortex-A77 erwarten wir noch 2019: Huawei dürfte das Design für den Kirin 985 verwenden, der sich wohl bei TSMC in der Fertigung im N7+ (7 nm EUV) genannten Node befindet und zur Ifa im September angekündigt werden soll. Dieser nutzt extrem ultra-violette Strahlung für einige Schichten des SoC. Auch Qualcomm könnte zumindest einen modifizierten Cortex-A77 als Basis für die Kryo-Kerne eines kommenden Snapdragon-Chips verwenden, eine Vorstellung im Dezember wäre typisch.

Offenlegung: Golem.de hat auf Einladung von ARM hin am Tech Day in London teilgenommen, die Reisekosten wurden gänzlich von ARM übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben seitens Dritter.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Cortex-A77: ARM-Kern hat 20 Prozent mehr Leistung pro Takt
  1.  
  2. 1
  3. 2


Anzeige
Spiele-Angebote
  1. 64,99€
  2. 3,43€
  3. (u. a. This War of Mine für 4,75€, Children of Morta für 11,99€, Frostpunk für 9,99€, Beat...

Folgen Sie uns
       


Battery Day: Wie Tesla die Akkukosten halbieren will
Battery Day
Wie Tesla die Akkukosten halbieren will

Größer, billiger und vor allem viel viel mehr. Tesla konzentriert sich besonders auf bessere und schnellere Akku-Herstellung.
Ein Bericht von Frank Wunderlich-Pfeiffer

  1. Elektromobilität Tesla will zehn Prozent an LGs Akkusparte übernehmen
  2. Drei Motoren Tesla Model S Plaid kommt in 2 Sekunden auf 100 km/h
  3. Grünheide Tesla und Gigafactory-Kritiker treffen aufeinander

Amazon: Der Echo wird kugelig
Amazon
Der Echo wird kugelig

Zäsur bei Amazon: Alle neuen Echo-Lautsprecher haben ein komplett neues Design erhalten.

  1. Echo Auto im Test Tolle Sprachsteuerung und neue Alexa-Funktionen
  2. Echo Auto Amazon bringt Alexa für 60 Euro ins Auto

Computer: Gebrauchsanleitung des Zuse Z4 gefunden
Computer
Gebrauchsanleitung des Zuse Z4 gefunden

Die Anleitung für den Zuse Z4 galt lange als verschollen, bis sie an einer ehemaligen Wirkungsstätte des Supercomputers der 40er und 50er Jahre entdeckt worden ist.


      •  /