Zum Hauptinhalt Zur Navigation

ARM Client-CSS 2024: ARM geht bei neuem Referenzdesign KI-Sonderweg

ARM schafft es erneut, zweistellige Leistungs- und Effizienzgewinne zu erzielen. Bei der KI geht der Hersteller einen Sonderweg.
/ Martin Böckmann , Tobias Költzsch
3 Kommentare News folgen (öffnet im neuen Fenster)
ARM könnte im Jahr 2024 wichtiger denn je werden, denn Qualcomm und Microsoft treiben die Architektur auch im PC-Markt voran. (Bild: Arm)
ARM könnte im Jahr 2024 wichtiger denn je werden, denn Qualcomm und Microsoft treiben die Architektur auch im PC-Markt voran. Bild: Arm

Auch bei ARM ist zum alljährlichen Architektur-Update die KI los. Anders als bei Herstellern von Desktop-CPUs sind NPUs oder Beschleuniger dabei jedoch kein Thema. Stattdessen sollen Leistungs- und Effizienzgewinne im mittleren zweistelligen Prozentbereich durch die CPU-Kerne gemeinsam mit neuen Softwarebibliotheken erzielt werden. Die Immortalis-925-GPU soll zum Erscheinungstermin erneut die schnellste Smartphone-GPU sein.

Hardwareseitig werden die Referenzdesigns voll auf 3-nm-Fertigungsprozesse ausgelegt. Sowohl Samsungs GAA-Transistoren als auch TSMCs Finfet-Technologie werden unterstützt. Kunden haben also die freie Wahl, bei welchem Auftragsfertiger der Chip hergestellt werden soll. Durch die Co-Optimierungsarbeit, die erstmals auch fertige CSS-Designs mit CPU-Kernen und GPU beinhaltet, verringert ARM die TTM (Time to Market); erste Client-CSS-2024-Chips sollen noch im Jahr 2024 in Smartphones ausgeliefert werden.

Der schnellste CPU-Kern bekommt einen neuen Namen: Cortex-X925 heißt ARMs neuer Performance-Core, der auf hohe Single-Thread-Leistung ausgelegt ist. Der L2-Cache ist nun bis zu 3 Mbyte groß, zudem wurden die Decoder und Vektoreinheiten verbessert. Das soll für eine Mehrleistung von 36 Prozent gegenüber einem nicht genauer benannten Premium-Android-Smartphone aus dem Jahr 2023 sorgen – also wohl dem Cortex-X4. Die KI-Performance steigt gar um 50 Prozent beim Durchsatz (TOPS) und 41 Prozent bei der Zeit bis zum ersten KI-Token nach einer Anfrage, was die gefühlte Reaktionszeit spürbar beschleunigen soll.

Effizienzgewinne auch durch bessere Fertigungsprozesse

Während beim großen X-Kern die Performance bei gleichem Energiebedarf im Vordergrund steht, zählt bei den mittleren und kleinen CPU-Kernen vor allem die Leistungsaufnahme bei gleicher Rechenleistung. Die Cortex-A725-Kerne sollen gegenüber dem A720 aus dem Jahr 2023 35 Prozent effizienter arbeiten. Den Cortex-A520 hat ARM hingegen nicht verändert, er soll durch die verbesserte Fertigung in 3-nm-Nodes effizienter werden.

Die Immortalis-G925-GPU ist erneut skalierbar ausgelegt und soll in gleicher Konfiguration bis zu 52 Prozent höhere Raytracing-Performance liefern. Reguläre Grafik-Aufgaben sollen im Schnitt 37 Prozent schneller laufen, KI- und ML-Berechnungen mit den wichtigsten Modellen um 34 Prozent schneller fertig sein. Gleichzeitig ist die Effizienz in gemischten Lastszenarien wie dem Spiel Fortnite laut ARM 30 Prozent besser gegenüber der Immortalis G720.

ARM steckt viel Aufwand in Softwareoptimierung

Einen nicht unerheblichen Teil der Effizienz- und Geschwindigkeitsgewinne besonders bei Android-Betriebssystemen erzielt ARM durch Verbesserungen im Software-Bereich. So soll die Performance von Webbrowsern um 23 Prozent verbessert worden sein, die Änderungen haben sowohl Chrome als auch einige chinesische OEMs für jeweils eigene Browser übernommen. Zusammen mit 30 Prozent Mehrleistung des Cortex-X925 können Browseranwendungen dadurch bis zu 53 Prozent schneller laufen.

Android-Dynamic-Performance-Framework soll die Bildrate um 35 Prozent steigern und pro Frame bis zu 25 Prozent Energie einsparen. Auch die Youtube-Wiedergabe soll durch bessere Lastverteilung auf die CPU-Kerne 10 Prozent weniger Energie benötigen als beim CSS-2023. Bei Verwendung des neuen AV1-Codecs sollen Softwareverbesserungen den Energieverbrauch bei der Wiedergabe zwischen 20 und 40 Prozent senken.

KI läuft überwiegend auf CPUs

Während sich die Welt für CPU und GPU-Hersteller derzeit nur noch um KI-Performance und NPUs zu drehen scheint, sieht ARM das für Mobilgeräte grundsätzlich anders. Eine ARM-NPU, die Kunden lizenzieren können, gibt es nicht. Grund dafür ist unter anderem, dass alle großen Hersteller bereits eine eigene NPU vorgestellt haben und diese weiterentwickeln. Häufig werden aber gar keine speziellen Beschleuniger verwendet, sondern die KI läuft direkt auf der CPU.

Das soll bei rund 70 Prozent aller KI und ML-Anwendungen der Fall sein und sich aufgrund der guten Eignung von ARMv9.2-CPUs für Inferenz auch nicht ändern. ARM hat daher die Softwarebibliothek Kleidi vorgestellt, die in Kleidi AI und Kleidi CV (Computer Vision) unterteilt ist. Die Unterscheidung macht ARM, weil längst nicht alle Kameras und Bildfunktionen auch KI-Features nutzen.

Statt Pytorch, Tensorflow oder Llama-3 für spezifische ARM-Architekturen jeweils getrennt anzupassen, sollen Entwickler zukünftig einfach für Kleidi entwickeln. Die optimierten Kleidi-Kernels sorgen dann im Hintergrund dafür, dass die jeweilige Architektur optimal genutzt wird. Das soll nicht nur bei ARMv9.2, sondern auch mit älteren und zukünftigen Versionen funktionieren, Anwendungen müssten daher nicht erneut angepasst werden.


Relevante Themen