Bei den Prime-Kernen decodiert das Frontend pro Takt neun Befehle, einen mehr als der Vorgänger und AMDs Zen-5-Kerne (g+) sowie Panther Lakes Cougar-Cove-P-Cores. Am ähnlichsten erscheinen uns die Darkmont-E-Cores des kommenden Intel-Prozessors, deren Frontend ebenfalls neun Befehle pro Takt decodieren kann. Die erreicht es nicht immer, allerdings kann x86-Code, da es sich um eine CISC-Architektur (Complex Instruction Set Computer) handelt, eine höhere Code-Dichte erreichen.
Die Sprungvorhersage (g+) übernehmen gleich drei Strukturen. Ohne Verzögerung arbeitet der Branch Target Buffer (BTB). Die Prediktoren für bedingte und indirekte Sprünge brauchen jeweils zwei Takte für eine Vorhersage und führen zu einer Verzögerung von einem Takt. Auch ein Return Stack für Rücksprungadressen ist vorhanden, allerdings erfahren wir keine Details zum Aufbau und Fassungsvermögen dieser Einheiten. Ein falsch vorhergesagter Sprung bedeutet eine Verzögerung von 13 Takten, wie beim Vorgänger.
Allein anhand des Frontends lässt sich kaum ein Leistungsvergleich ziehen, zumal hier noch andere Komponenten eine Rolle spielen: etwa der mit 192 kByte auffällig große, sechsfach assoziative Befehls-Cache (L1i), aus dem das Frontend pro Takt 16 Befehle (64 Byte) lesen kann – doppelt so viele wie der Vorgänger. Der Translation-Lookaside Buffer (TLB) für Adressübersetzungen ist zweistufig, Stufe zwei wird für Befehle und Daten geteilt genutzt. Der L1i TLB hat 256 Einträge und ist achtfach assoziativ, der L1d TLB ist mit 224 Einträgen und siebenfacher Assoziativität etwas kleiner.
Der L2 TLB fasst 8.192 Einträge, ist achtfach assoziativ, hier dauert ein Zugriff allerdings zwei Takte, während es bei den L1-TLBs ein Takt ist. Wird eine Adressübersetzung nicht in einem der TLBs gefunden, übernimmt der Table Walker, der bis zu 16 Übersetzungen gleichzeitig bearbeiten kann. Zwischenschritte werden gecached, da die Adressübersetzung mit einer Granularität von 4 oder 64 kByte arbeitet. Größere Seiten können entsprechend mehrere Übersetzungsvorgänge erfordern.
Bild 1/36: Der ganz große Blick auf die Snapdragon X2 Elite: bis zu 18 Kerne, davon 12 im Maximalausbau (Bild: Qualcomm)
Bild 2/36: Das Prime-Cluster im Überblick (Bild: Qualcomm)
Bild 3/36: Das Frontend bekommt einen zusätzlichen Decoder und eine breitere Anbindung an den L2-Cache. (Bild: Qualcomm)
Bild 4/36: Bei den Out-of-Order-Ressourcen hat sich nichts groß geändert. (Bild: Qualcomm)
Bild 5/36: Auch die Integer-Einheit sieht, zumindest in dieser groben Darstellung, aus wie beim Vorgänger. (Bild: Qualcomm)
Bild 6/36: Das Gleiche gilt für die Vektoreinheit. (Bild: Qualcomm)
Bild 7/36: Die L1-Caches sind ebenfalls mit 64 Byte an den L2 angebunden. (Bild: Qualcomm)
Bild 8/36: Die Memory Management Unit im Detail. (Bild: Qualcomm)
Bild 9/36: Der L2-Cache ist mit 16 MByte großzügig dimensioniert, dafür fällt der LLC recht klein aus. (Bild: Qualcomm)
Bild 10/36: Die Matrixeinheit rechnet extrem parallel. (Bild: Qualcomm)
Bild 11/36: Eine Reihe von Maßnahmen soll Hackern das Leben schwer machen. (Bild: Qualcomm)
Bild 12/36: Im Vergleich zum Vorgänger gibt es ein deutliches Plus bei Leistung und Effizienz. (Bild: Qualcomm)
Bild 13/36: Das Performance-Cluster ist eine schwächer dimensionierte Variante des Prime-Clusters. (Bild: Qualcomm)
Bild 14/36: Die Modifikationen sollen die Performance-Kerne besonders effizient machen. (Bild: Qualcomm)
Bild 15/36: Nicht jedes KI-Modell profitiert von hoher Matrixrechenleistung. Deshalb setzt Qualcomm weiter auf hohe Vektorleistung. (Bild: Qualcomm)
Bild 16/36: Die Skalareinheiten steuern die gesamte KI-Berechnung. (Bild: Qualcomm)
Bild 17/36: Die NPU bekommt mehr Speicherbandbreite und kann auf den gesamten virtuellen Adressraum zugreifen. (Bild: Qualcomm)
Bild 18/36: Die Optimierungen führen zu deutlich höherem Durchsatz. (Bild: Qualcomm)
Bild 19/36: Daten bekommt die NPU nun wesentlich schneller. (Bild: Qualcomm)
Bild 20/36: Die Vektoreinheiten unterstützen zusätzliche Datenformate... (Bild: Qualcomm)
Bild 22/36: Die Matrixeinheit kann auch mit 2-Bit-Datentypen rechnen. (Bild: Qualcomm)
Bild 23/36: Hier fällt das Leistungsplus moderater aus als bei den anderen Einheiten. (Bild: Qualcomm)
Bild 24/36: An der Effizienzsteigerung hat auch der Umstieg auf einen 3-nm-Prozess seinen Anteil. (Bild: Qualcomm)
Bild 25/36: Qualcomms NPU ist in Benchmarks deutlich schneller als die Konkurrenz. (Bild: Qualcomm)
Bild 26/36: Auf konkrete Modelle übertragen, könnten die Ergebnisse aber anders aussehen. (Bild: Qualcomm)
Bild 27/36: Auch bei der Effizienz hat Qualcomm die Nase vorn - uns wundert nur, dass Apples M4 hier fehlt. (Bild: Qualcomm)
Bild 28/36: Alle Funktionseinheiten des Snapdragon X2 Elite im Überblick. (Bild: Qualcomm)
Bild 29/36: Der Guardian kann Geräte remote sperren, braucht aber Cloudzugriff. (Bild: Qualcomm)
Bild 30/36: Das Always-on-Subsystem ist die zentrale steuernde Instanz des SoC. (Bild: Qualcomm)
Bild 31/36: Durch den Sensing Hub fließen alle Sensordaten und können auch im Stand-by verarbeitet werden. (Bild: Qualcomm)
Bild 32/36: Für hochwertige Webcam-Bilder ist ein Bildsignalprozessor integriert. (Bild: Qualcomm)
Bild 33/36: Die Video Processing Unit unterstützt eine Reihe von Video-Codecs. (Bild: Qualcomm)
Bild 34/36: Bis zu vier 4K-Bildschirme finden mit hoher Bildrate Anschluss. (Bild: Qualcomm)
Bild 35/36: Qualcomm sieht für die Snapdragon X2 Elite ein eigenes Spannungswandlerkonzept vor. (Bild: Qualcomm)
Bild 36/36: Die Snapdragon X2 Elite haben vier Boost-Stufen: In Abhängigkeit von der Anzahl rechnender Kerne sinkt der maximal zulässige Takt. Den unterstützen alle Kerne. (Bild: Qualcomm)
Integer- und Vektoreinheit können viel umsortieren
Die neun Befehle aus dem Frontend ziehen sich bei den Oryon-Kernen durch das gesamte Design: Es sind ebenso viele Einheiten für Register Renaming vorhanden (Abbildung auf physische Register für Out-of-Order-Execution, g+ ). Zudem können neun Befehle pro Takt abgeschlossen werden (Retire).
Manche andere Architekturen nutzen weniger Einheiten, da das Frontend nicht immer die maximale Anzahl an Mikrooperationen liefert. Es spielt eine Rolle, in wie viele Mikrooperationen Befehle im Mittel übersetzt werden, bei den Oryon-Kernen wird aus den meisten ARM-Befehlen eine Mikrooperation. Allerdings ist auch weniger möglich, da das Frontend manche Mikrooperationen zu einer kombinieren kann (μOp Fusion).
Ebenfalls nicht alltäglich ist, dass Integer- und Vektoreinheit ungefähr gleich viele physische Register zur Verfügung stehen. Genau können wir das nicht sagen, da Qualcomm lediglich von jeweils über 400 spricht. Den Integer-Einheiten stehen damit deutlich mehr Register zur Verfügung als bei Zen 5 mit 240, während bei den Vektorregistern nur die Zahl höher ist – ein Zen-5-Kern verfügt über 384 physische Register, die mit 512 Bit viermal so breit sind wie bei Oryon.
Die vier Vektoreinheiten unterstützen alle Fused-Multiply-Accumulate (FMA), Divisionen hingegen nur eine. Neben den IEEE-754-Datentypen (FP16, FP32 und FP64) wird BF16 unterstützt. Von den Integer-Einheiten unterstützen lediglich zwei FMA und eine Divisionen. Der Kern erlaubt maximal 192 ausstehende Lese- und 56 Schreibbefehle.
Großes Out-of-Order-Fenster
Für jede Ausführungseinheit steht eine Reservation Station zur Verfügung, die für die Integer-Einheiten jeweils 20, für die Vektoreinheiten sogar 48 Befehle fassen. Das dürfte zwei Gründe haben: Während die Integer-ALU fast alle Operationen in einem Takt abarbeitet (Multiplikationen brauchen drei, für Divisionen nennt Qualcomm keinen Wert), dürften die Vektoreinheiten für die Gleitkomma- und kryptographischen Operationen länger brauchen. Zudem arbeiten sie mit 128-Bit-Werten, die Integer-Einheiten mit 64 Bit. Entsprechend könnten Vektoroperationen länger auf Daten warten.
Den Reorder Buffer, der die umsortierten Befehle wieder in die Programmreihenfolge bringt, teilen sich Integer- und Vektoreinheit. Er fasst über 650 Mikrooperationen, beim Vorgänger hatte er laut Chips and Cheese 680 Einträge. Auch hier dürfte sich nichts geändert haben, da Qualcomm auch beim Snapdragon X Elite von 650+ Einträgen sprach.
Zu den Reservation Stations für Vektor- und Integer-Einheiten kommen vier für Speicherzugriffe, pro Takt sind je zwei 128-Bit-Lese- und -Schreiboperationen möglich. In Qualcomms Präsentation ist allerdings von 14+ Reservation Stations zu lesen – welche uns das Unternehmen verschweigt, ist nicht klar. Eventuell ist damit auch gemeint, dass die Architektur noch breiter skaliert werden könnte.
Abgesichert gegen Angriffe
Bevor wir zu den geteilt genutzten Einheiten der Kern-Cluster kommen, schauen wir uns noch die Sicherheitsmechanismen an: Die Oryon-Kerne sollen gegen alle bekannten Seitenkanalangriffe der vergangenen Jahre immun sein. Neben ARMs Trustzone sind eine Reihe von Sicherheitsmaßnahmen implementiert: Spekulationsbarrieren sollen verhindern, dass die spekulative Code-Ausführung in Bereiche kommt, die sie nicht erreichen sollte, Pointer Authentication und Brach IDs sicherstellen, dass Code die vorgesehenen Pfade nimmt. Memory Tagging soll beim Erkennen von Speicherzugriffsfehlern helfen.
Bild 1/36: Der ganz große Blick auf die Snapdragon X2 Elite: bis zu 18 Kerne, davon 12 im Maximalausbau (Bild: Qualcomm)
Bild 2/36: Das Prime-Cluster im Überblick (Bild: Qualcomm)
Bild 3/36: Das Frontend bekommt einen zusätzlichen Decoder und eine breitere Anbindung an den L2-Cache. (Bild: Qualcomm)
Bild 4/36: Bei den Out-of-Order-Ressourcen hat sich nichts groß geändert. (Bild: Qualcomm)
Bild 5/36: Auch die Integer-Einheit sieht, zumindest in dieser groben Darstellung, aus wie beim Vorgänger. (Bild: Qualcomm)
Bild 6/36: Das Gleiche gilt für die Vektoreinheit. (Bild: Qualcomm)
Bild 7/36: Die L1-Caches sind ebenfalls mit 64 Byte an den L2 angebunden. (Bild: Qualcomm)
Bild 8/36: Die Memory Management Unit im Detail. (Bild: Qualcomm)
Bild 9/36: Der L2-Cache ist mit 16 MByte großzügig dimensioniert, dafür fällt der LLC recht klein aus. (Bild: Qualcomm)
Bild 10/36: Die Matrixeinheit rechnet extrem parallel. (Bild: Qualcomm)
Bild 11/36: Eine Reihe von Maßnahmen soll Hackern das Leben schwer machen. (Bild: Qualcomm)
Bild 12/36: Im Vergleich zum Vorgänger gibt es ein deutliches Plus bei Leistung und Effizienz. (Bild: Qualcomm)
Bild 13/36: Das Performance-Cluster ist eine schwächer dimensionierte Variante des Prime-Clusters. (Bild: Qualcomm)
Bild 14/36: Die Modifikationen sollen die Performance-Kerne besonders effizient machen. (Bild: Qualcomm)
Bild 15/36: Nicht jedes KI-Modell profitiert von hoher Matrixrechenleistung. Deshalb setzt Qualcomm weiter auf hohe Vektorleistung. (Bild: Qualcomm)
Bild 16/36: Die Skalareinheiten steuern die gesamte KI-Berechnung. (Bild: Qualcomm)
Bild 17/36: Die NPU bekommt mehr Speicherbandbreite und kann auf den gesamten virtuellen Adressraum zugreifen. (Bild: Qualcomm)
Bild 18/36: Die Optimierungen führen zu deutlich höherem Durchsatz. (Bild: Qualcomm)
Bild 19/36: Daten bekommt die NPU nun wesentlich schneller. (Bild: Qualcomm)
Bild 20/36: Die Vektoreinheiten unterstützen zusätzliche Datenformate... (Bild: Qualcomm)
Bild 22/36: Die Matrixeinheit kann auch mit 2-Bit-Datentypen rechnen. (Bild: Qualcomm)
Bild 23/36: Hier fällt das Leistungsplus moderater aus als bei den anderen Einheiten. (Bild: Qualcomm)
Bild 24/36: An der Effizienzsteigerung hat auch der Umstieg auf einen 3-nm-Prozess seinen Anteil. (Bild: Qualcomm)
Bild 25/36: Qualcomms NPU ist in Benchmarks deutlich schneller als die Konkurrenz. (Bild: Qualcomm)
Bild 26/36: Auf konkrete Modelle übertragen, könnten die Ergebnisse aber anders aussehen. (Bild: Qualcomm)
Bild 27/36: Auch bei der Effizienz hat Qualcomm die Nase vorn - uns wundert nur, dass Apples M4 hier fehlt. (Bild: Qualcomm)
Bild 28/36: Alle Funktionseinheiten des Snapdragon X2 Elite im Überblick. (Bild: Qualcomm)
Bild 29/36: Der Guardian kann Geräte remote sperren, braucht aber Cloudzugriff. (Bild: Qualcomm)
Bild 30/36: Das Always-on-Subsystem ist die zentrale steuernde Instanz des SoC. (Bild: Qualcomm)
Bild 31/36: Durch den Sensing Hub fließen alle Sensordaten und können auch im Stand-by verarbeitet werden. (Bild: Qualcomm)
Bild 32/36: Für hochwertige Webcam-Bilder ist ein Bildsignalprozessor integriert. (Bild: Qualcomm)
Bild 33/36: Die Video Processing Unit unterstützt eine Reihe von Video-Codecs. (Bild: Qualcomm)
Bild 34/36: Bis zu vier 4K-Bildschirme finden mit hoher Bildrate Anschluss. (Bild: Qualcomm)
Bild 35/36: Qualcomm sieht für die Snapdragon X2 Elite ein eigenes Spannungswandlerkonzept vor. (Bild: Qualcomm)
Bild 36/36: Die Snapdragon X2 Elite haben vier Boost-Stufen: In Abhängigkeit von der Anzahl rechnender Kerne sinkt der maximal zulässige Takt. Den unterstützen alle Kerne. (Bild: Qualcomm)
Die Hardware für Sprungvorhersagen verschleiert zudem ihre Funktion mittels kryptographischer Blockchiffren, was Seitenkanalangriffe zumindest deutlich erschweren soll. Für qualitativ hochwertige Zufallszahlen soll zudem ein Hardware-Zufallszahlengenerator sorgen, den sich die Kerne eines Clusters teilen. Und damit sind wir bereits bei der geteilten Hardware.