Laut Arm ist das Design immer auch eine Folge des Herstellungsprozesses. Größere L1D-Caches, ein größeres Out-of-Order-Window und weitere Verbesserungen am Frontend der 10-Wide-Architektur sind nur dann realistisch, wenn Transistor-Schaltzeiten und andere Aspekte so gut sind, dass diese Vergrößerungen nicht in niedrigeren Taktfrequenzen und damit einhergehendem Leistungsverlust resultieren.
Arm Lumex ist damit klar auf TSMCs N3P-Node ausgelegt. Angaben wie die höhere Taktfrequenz von 4,1 GHz für den C1-Ultra sowie die bessere Effizienz in verschiedenen Anwendungsbereichen beziehen sich jeweils darauf. Im Gespräch gab Arm aber auch an, dass es in Kooperation mit Partnern durchaus möglich sei, Lumex-Chips in anderen 3-nm-Nodes, etwa bei Intel oder Samsung zu produzieren.
Bild 1/16: Mit Lumex bringt Arm IPC-Verbesserungen im zweistelligen Prozentbereich, höhere GPU-Performance und SME2-Unterstützung im CPU-Cluster auf den Markt. (Bild: Arm)
Bild 2/16: Neben CPU und GPU wurden auch die System-Interconnects neu entwickelt. (Bild: Arm)
Bild 3/16: Statt Anwendungen auf NPUs und GPUs auslagern zu müssen, können diese mit SME2 oft ebenso schnell auf der CPU laufen. (Bild: Arm)
Bild 4/16: Der neue C1-Premium-Kern soll günstigere Chips mit sehr hoher Leistung ermöglichen. (Bild: Arm)
Bild 5/16: Auch abseits von KI-Workloads sind Lumex-Kerne messbar schneller als ihre jeweiligen Vorgänger. (Bild: Arm)
Bild 6/16: Die Interconnect-Architektur wurde komplett überarbeitet. (Bild: Arm)
Bild 7/16: Die Vorteile sind vielfältig, besonders Latenz und Akkulaufzeit profitieren stark vom neuen Konzept. (Bild: Arm)
Bild 8/16: Die statischen Zugriffszeiten sinken stark. (Bild: Arm)
Bild 9/16: Auch auf die Leistungsaufnahme der Interconnects hat die neue Architektur größere Auswirkungen. (Bild: Arm)
Bild 10/16: Die Architektur ist zudem platzsparender, was mehr Fläche für CPU- und GPU-Kerne übrig lässt oder aber den Flächenbedarf insgesamt reduziert. (Bild: Arm)
Bild 11/16: Mit aktueller 3-nm-Fertigung sind 4,1 GHz für den C1-Ultra möglich. (Bild: Arm)
Bild 12/16: Software- und Compilerunterstützung sind umfangreich, so dass neue Features bereits zum Launch von einer großen Zahl an Anwendungen genutzt werden können. (Bild: Arm)
Bild 13/16: Das gilt auch für SME2, das ebenfalls bereits zum Launch der ersten Geräte von Betriebssystemen und Software genutzt werden soll. (Bild: Arm)
Bild 14/16: Arms Referenzdesign nutzt nur noch zwei CPU-Kerne, den C1-Ultra und C1-Pro. Dazu kommt sehr schneller LPDDR5X-Speicher. (Bild: Arm)
Bild 15/16: Leistungssteigerungen sind damit auch in alltäglichen Anwendungen wie Webbrowsing oder beim Start von Apps zu erwarten. (Bild: Arm)
Bild 16/16: Die neue GPU bietet bessere Leistung in langen Spielessessions sowie deutlich mehr Raytracing-Performance. (Bild: Arm)
Auch die Konfiguration bleibt laut Arm flexibel. CPU-Cluster können aus einer Mischung aller vier Lumex-C1-Kerne bestehen, wobei Produkte mit C1-Ultra und C1-Pro im selben Chip nicht sehr wahrscheinlich sind. Möglich wäre dies aber. Pro CPU-Cluster können zwei SME2-Einheiten verbaut werden, Arms Referenzdesign beinhaltet nur eine SME2-Einheit, auch die Leistungsangaben zu Lumex beziehen sich auf nur eine Einheit.
SME2 ist auch abseits von KI nützlich
Die im Jahr 2021 von Arm eingeführten Scalable-Matrix-Extentions (SME) hatten bisher in Mobilprozessoren praktisch keine Relevanz. Das darauf basierende Superset SME2 hat es hingegen sogar schon in bekannte Produkte geschafft, denn Apple unterstützt SME2 unter anderem in seiner M4-Prozessorserie. Da einige Tests im Geekbench 6 auch Matrixberechnungen beinhalten, ist es wenig verwunderlich, dass Apple in diesem Benchmark seitdem besonders gut abschneidet.
Bild 1/16: Mit Lumex bringt Arm IPC-Verbesserungen im zweistelligen Prozentbereich, höhere GPU-Performance und SME2-Unterstützung im CPU-Cluster auf den Markt. (Bild: Arm)
Bild 2/16: Neben CPU und GPU wurden auch die System-Interconnects neu entwickelt. (Bild: Arm)
Bild 3/16: Statt Anwendungen auf NPUs und GPUs auslagern zu müssen, können diese mit SME2 oft ebenso schnell auf der CPU laufen. (Bild: Arm)
Bild 4/16: Der neue C1-Premium-Kern soll günstigere Chips mit sehr hoher Leistung ermöglichen. (Bild: Arm)
Bild 5/16: Auch abseits von KI-Workloads sind Lumex-Kerne messbar schneller als ihre jeweiligen Vorgänger. (Bild: Arm)
Bild 6/16: Die Interconnect-Architektur wurde komplett überarbeitet. (Bild: Arm)
Bild 7/16: Die Vorteile sind vielfältig, besonders Latenz und Akkulaufzeit profitieren stark vom neuen Konzept. (Bild: Arm)
Bild 8/16: Die statischen Zugriffszeiten sinken stark. (Bild: Arm)
Bild 9/16: Auch auf die Leistungsaufnahme der Interconnects hat die neue Architektur größere Auswirkungen. (Bild: Arm)
Bild 10/16: Die Architektur ist zudem platzsparender, was mehr Fläche für CPU- und GPU-Kerne übrig lässt oder aber den Flächenbedarf insgesamt reduziert. (Bild: Arm)
Bild 11/16: Mit aktueller 3-nm-Fertigung sind 4,1 GHz für den C1-Ultra möglich. (Bild: Arm)
Bild 12/16: Software- und Compilerunterstützung sind umfangreich, so dass neue Features bereits zum Launch von einer großen Zahl an Anwendungen genutzt werden können. (Bild: Arm)
Bild 13/16: Das gilt auch für SME2, das ebenfalls bereits zum Launch der ersten Geräte von Betriebssystemen und Software genutzt werden soll. (Bild: Arm)
Bild 14/16: Arms Referenzdesign nutzt nur noch zwei CPU-Kerne, den C1-Ultra und C1-Pro. Dazu kommt sehr schneller LPDDR5X-Speicher. (Bild: Arm)
Bild 15/16: Leistungssteigerungen sind damit auch in alltäglichen Anwendungen wie Webbrowsing oder beim Start von Apps zu erwarten. (Bild: Arm)
Bild 16/16: Die neue GPU bietet bessere Leistung in langen Spielessessions sowie deutlich mehr Raytracing-Performance. (Bild: Arm)
Es ist damit durchaus möglich, dass die nächste Generation der Arm-basierten Smartphone-SoCs die Lücke zu Apple dank der ebenfalls vorhandenen SME2-Unterstützung wieder schließen kann. CPU-Cluster mit Arm Lumex C1 Ultra oder C1 Premium beinhalten immer eine SME2-Einheit. Nur bei C1 Pro und C1 Nano ist diese optional; Arm geht jedoch davon aus, dass nur einige besonders kompakte Designs, etwa für günstige Smartwatches, darauf verzichten werden.
Bessere Dauerleistung der GPU
Bei der Mali-G1-GPU verbesserte Arm vor allem die Raytracing-Leistung erheblich, sie soll doppelt so hoch wie beim Vorgängermodell sein. Dabei bezieht sich Arm im Vergleich jeweils auf Konfigurationen mit der gleichen Anzahl an GPU-Kernen. Insgesamt soll die Leistung der Mali G1 in Benchmarks 20 Prozent besser als beim Vorgängermodell Immortalis sein, pro Frame soll die neue GPU 9 Prozent weniger Energie benötigen.
Die genaue Bezeichnung hängt von der Anzahl der Kerne ab. Eine Mali G1-Pro hat bis zu fünf Kerne, die Mali G1-Premium bis zu neun Kerne und ab zehn Kernen wird daraus eine Mali G1-Ultra. Auf die Fragen der anwesenden Journalisten, ob man im kommenden Jahr mit einer Mali G2 im gleichen Schema rechnen könne, reagierten die Arm-Ingenieure mit einem verständnisvollen Lächeln. Festlegen wollte man sich jedoch noch nicht.