Abo
  • IT-Karriere:

Erstmals ein µOp-Cache

Ganz neu ist der Macro-Op-Puffer, welcher 1.500 bereits dekodierte Instruktionen aufnimmt. Laut ARM ist diese Menge nahe am Sweet Spot aus Platzbedarf und Performance, generell soll der Mop-Cache etwa die Hälfte der Fläche eines 64 KByte großen L1-Caches belegen. Anders als ein komplexerer Trace-Cache wie bei Intels Netburst ist er zwar einfacher zu implementieren, jedoch alles andere als trivial. Intel führte einen µOp-Cache bereits Anfang 2011 mit Sandy Bridge ein, primär um im Frontend wertvolle Energie zu sparen. Bei einem RISC-Kern wie dem Cortex-A77 nimmt dieses weniger Leistung auf, weshalb ARM den Mop-Cache mehr für die Geschwindigkeit eingebaut hat.

Stellenmarkt
  1. H&D - An HCL Technologies Company, Gifhorn
  2. ENERCON GmbH, Aurich

Er kann sechs Mops pro Takt erhalten und verkürzt bei einem falschen Sprung die Latenz im besten Fall auf zehn Taktzyklen. In 85 Prozent der Fälle müssen Instruktionen nicht neu dekodiert werden, sondern können vom Mop-Cache direkt über die Reorder/Dispatch-Stufe an das Backend mit den Ausführungseinheiten geleitet werden. Zum Vergleich: Intel nannte für x86-Instruktionen eine Trefferquote von 80 Prozent für den µOp-Cache von Sandy Bridge, womit die Hitrate nahe an dem liegt, was ARM angibt.

  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
  • Präsentation zum Cortex-A77 (Bild: ARM)
Präsentation zum Cortex-A77 (Bild: ARM)

Die Decode-Stufe schafft nun sechs statt vier Instruktionen und das Out-of-Order-Fenster wächst um ein Viertel auf 160 Einträge. So steigt die Instruction-level Parallelism (ILP), was für mehr Durchsatz vom Frontend zum Backend hin sorgt. ARM spricht hier wie viele andere Hersteller von 'feeding the beast', denn auch die Dispatch-Stufe fällt mit zehn statt acht Micro-Ops pro Takt breiter aus als bisher. Designs wie Samungs M3-Core nutzten allerdings schon 2018 einen Decoder für sechs Instruktionen und einen Dispatcher für sechs Micro-Ops. Die ARM-Kerne von Apple sind noch weiter ausgelegt, die Vortex-Cores des A12 dekodieren sieben Befehle und haben gleich 13 Ausführungseinheiten.

ARMs Cortex-A77 hingegen weist acht auf, was allerdings deutlich mehr sind als die sechs Ausführungseinheiten zuvor: Eine davon ist eine vierte ALU für einfache Integer-Berechnungen, sie ergänzt die beiden anderen simplen ALUs und die eine für komplexere Aufgaben wie Divisionen oder schnellere Multiplikationen. Damit die Balance stimmt, hat ARM neben der ALU eine zweite Branch-Unit hinzufügt. Die Store-Pipelines haben nun eigene Ports statt mit den AGUs geteilte für eine bessere Auslastung und ein größeres Puffer-Fenster.

Interessant ist noch, dass ARM eine zweite Pipeline für AES-Verschlüsselung integriert hat. Da Android hiervon Gebrauch macht, erwartet der Hersteller eine teils bessere gefühlte Geschwindigkeit, vor allem aber eine höhere Effizienz und somit tendenziell mehr Akkulaufzeit. Bei der generellen Performance fällt auf, dass die Floating-Point- stärker gestiegen ist als die Integer-Leistung, obgleich die 128 Bit breiten Neon-Gleitkomma-Einheiten nicht überarbeitet wurden. ARM zufolge liegt das am deutlich besseren Data-Prefetching.

Erste Systems-on-a-Chip mit dem Cortex-A77 erwarten wir noch 2019: Huawei dürfte das Design für den Kirin 985 verwenden, der sich wohl bei TSMC in der Fertigung im N7+ genannten Node befindet und zur Ifa im September angekündigt werden soll. Dieser nutzt extrem ultra-violette Strahlung für einige Schichten des SoC. Auch Qualcomm könnte zumindest einen modifizierten Cortex-A77 als Basis für die Kryo-Kerne eines kommenden Snapdragon-Chips verwenden, eine Vorstellung im Dezember wäre typisch.

Offenlegung: Golem.de hat auf Einladung von ARM hin am Tech Day in London teilgenommen, die Reisekosten wurden gänzlich von ARM übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben seitens Dritter.

 Cortex-A77: ARM-Kern hat 20 Prozent mehr Leistung pro Takt
  1.  
  2. 1
  3. 2


Anzeige
Top-Angebote
  1. ab 149,00€
  2. 24,99€ (Bestpreis!)
  3. (u. a. Grafikkarten, SSds, Ram-Module reduziert)
  4. (u. a. Asus Geforce RTX 2080 ROG STRIX Gaming für 809,00€)

Folgen Sie uns
       


Pixel 3a und 3a XL - Test

Das Pixel 3a und das PIxel 3a XL sind Googles neue Mittelklasse-Smartphones. Beide haben die gleiche Kamera wie das Pixel 3.

Pixel 3a und 3a XL - Test Video aufrufen
Timex Data Link im Retro-Test: Bill Gates' Astronauten-Smartwatch
Timex Data Link im Retro-Test
Bill Gates' Astronauten-Smartwatch

Mit der Data Link haben Timex und Microsoft bereits vor 25 Jahren die erste richtige Smartwatch vorgestellt. Sie hat es sogar bis in den Weltraum geschafft. Das Highlight ist die drahtlose Datenübertragung per flackerndem Röhrenmonitor - was wir natürlich ausprobieren mussten.
Ein Test von Tobias Költzsch

  1. Smart Watch Swatch fordert wegen kopierter Zifferblätter von Samsung Geld
  2. Wearable EU warnt vor deutscher Kinder-Smartwatch
  3. Sportuhr Fossil stellt Smartwatch mit Snapdragon 3100 vor

Ada und Spark: Mehr Sicherheit durch bessere Programmiersprachen
Ada und Spark
Mehr Sicherheit durch bessere Programmiersprachen

Viele Sicherheitslücken in Software sind auf Programmierfehler zurückzuführen. Diese Fehler lassen sich aber vermeiden - und zwar unter anderem durch die Wahl einer guten Programmiersprache. Ada und Spark gehören dazu, leider sind sie immer noch wenig bekannt.
Von Johannes Kanig

  1. Das andere How-to Deutsch lernen für Programmierer
  2. Programmiersprachen, Pakete, IDEs So steigen Entwickler in Machine Learning ein

WD Blue SN500 ausprobiert: Die flotte günstige Blaue
WD Blue SN500 ausprobiert
Die flotte günstige Blaue

Mit der WD Blue SN500 bietet Western Digital eine spannende NVMe-SSD an: Das M.2-Kärtchen basiert auf einem selbst entwickelten Controller und eigenem Flash-Speicher. Das Resultat ist ein schnelles, vor allem aber günstiges Modell als bessere Alternative zu Sata-SSDs.
Von Marc Sauter

  1. WD Black SN750 ausprobiert Direkt hinter Samsungs SSDs
  2. WD Black SN750 Leicht optimierte NVMe-SSD mit 2 TByte
  3. Ultrastar DC ME200 Western Digital baut PCIe-Arbeitsspeicher mit 4 TByte

    •  /