Zum Hauptinhalt Zur Navigation Zur Suche

Neue Adreno-X2: Qualcomms überarbeitete GPU schlägt AMD und Intel

Die Snapdragon X2 Elite sollen bei Spielen überzeugen, auch wenn sie nicht nativ laufen. Die ungewöhnliche neue GPU rechnet so schnell wie eine RTX 2070.
/ Johannes Hiltscher
6 Kommentare News folgen (öffnet im neuen Fenster)
Wir konnten bereits auf Notebooks mit Snapdragon X2 Elite spielen. (Bild: Johannes Hiltscher/Golem.de)
Wir konnten bereits auf Notebooks mit Snapdragon X2 Elite spielen. Bild: Johannes Hiltscher/Golem.de

Die Entscheidung für einen Mobilprozessor steht und fällt für viele Menschen mit dessen Leistung in Spielen. Die nächste Generation an Mobilprozessoren verspricht hier Beachtliches im kleinen Leistungsbudget und Qualcomms Snapdragon X2 Elite ist da keine Ausnahme. Dabei startet der ARM-Prozessor mit einem Nachteil: Native ARM-Spiele gibt es für die Windows-Plattform kaum.

Mit Binärübersetzung lässt sich die Befehlssatzbarriere zwar überwinden, problemlos funktioniert dennoch nicht jedes Spiel. Daher arbeitet bei Qualcomm ein Team, das nicht nur eigene Demos entwickelt, sondern auch Studios bei der Anpassung ihrer Titel unterstützt. Das Ergebnis: Zum Start des Snapdragon X2 Eilte sollen 90 Prozent der meistgespielten Titel auf den neuen Prozessoren laufen.

Das größte Problem bei der Kompatibilität sind nach Aussage von Qualcomm Kopierschutz- und Anti-Cheat-Mechanismen: Die nutzen üblicherweise Komponenten, die im Betriebssystemkern (Kernel) laufen. Sie müssen daher für Windows on ARM angepasst werden. Das sollen mittlerweile alle großen Entwickler solcher Mechanismen getan haben.

Dank leistungsfähiger GPU sollen die neuen Snapdragon die Konkurrenz von AMD und Intel in vielen Spielen schlagen. Bei einer Lab Tour konnten wir in San Diego einige Spiele auf Referenz-Notebooks testen, und das in nerdigem Ambiente: Qualcomms Game Developer arbeiten in einem Büro, das einem Star-Trek-Raumschiff nachempfunden ist – wir fragen uns nur, wie das Alien dort hin gekommen ist.

Ist die GPU am Limit, stört Binärübersetzung nicht

Hier erfahren wir auch Details zur Binärübersetzung: Der Leistungsverlust hierdurch soll in der Regel kaum spürbar sein. Übersetzt wird der x86-Code nur einmal, das Ergebnis wird gecached. Soweit vorhanden, werden native ARM-Bibliotheken (DLLs) verwendet, wodurch etwa die Grafikschnittstellen DirectX und Vulkan ohne Leistungsverlust ausgeführt werden.

Bei Spielen, die allein durch die Leistung der der GPU begrenzt sind, kann sie ihre Fähigkeiten voll ausspielen. Der Leistungsverlust durch die Binärübersetzung fällt dann nicht negativ ins Gewicht. Und die Leistung kann sich sehen lassen: Cyberpunk 2077 etwa läuft ohne KI-Upscaling oder Frame Generation flüssig in 1080p mit mittleren Details. Diese Einstellungen hat Qualcomm für alle Benchmarks gewählt. Daneben konnten wir mit Alien auch ein Spiel testen, das für ARM portiert wurde.

Hier haben sich die Qualcomm-Entwickler eine Lösung überlegt, mit der sich die ARM- und x86-Varianten als ein Paket ausliefern lassen. Ein Mikro-Loader erkennt zunächst die Plattform und startet dann das passende, native Programm. Das ist für Spieler und Plattformen bequem: Sie müssen nicht die passende Variante des Spiels für ihr System aussuchen, auf Plattformen wie Steam tauchen Spiele mit x86- und ARM-Unterstützung nur einmal auf. Im Vergleich zu Texturen und Modelldateien fallen die zusätzlichen Programmdateien kaum ins Gewicht.

Deutlich mehr Leistung als aktuelle AMD- und Intel-iGPUs

Die Unterschiede zwischen X2 Elite (X2E-88-100) und der Extreme-Variante (X2E-96-100) sind, obwohl Letzterer über 50 Prozent mehr Speicherbandbreite verfügt und höher taktet, bei den meisten Titeln erstaunlich gering. Umso markanter ist der Leistungszuwachs im Vergleich zum Vorgänger: Einige Titel sehen eine Steigerung der Bildrate um rund 50 Prozent, andere sogar eine Vervielfachung. Dabei ist die Adreno-GPU nicht einmal besonders leistungshungrig: Maximal 15 Watt soll sie in der größten Konfiguration aufnehmen.

In den meisten Spielen, für die Benchmark-Ergebnisse gezeigt wurden, sieht Qualcomm seine neue Adreno-GPU im X2E-96-100 deutlich vor AMDs Ryzen AI 9 HX370 und Intels aktuellem Spitzenmodell im Core Ultra 9 288V. An den Ryzen AI Max+ HX395 kommt sie aber nicht heran, und Intel hat für Panther Lake bereits eine deutlich leistungsfähigere iGPU angekündigt. 2026 wird also ein spannendes Jahr, was Notebook-SoCs angeht.

Möglich werden die Leistungssprünge im Vergleich zum Vorgänger nicht durch Treiberoptimierungen, sondern durch eine komplett überarbeitete Adreno-X2-GPU. Sie unterstützt das aktuelle Shader Model 6.8 von DirectX Ultimate 12.2 und Vulkan 1.4. Neben Raytracing sind Mesh Shading, Variable Rate Shading sowie Sampler Feedback nutzbar. Auch auf den Aufbau ging Qualcomm genauer ein.

Leistung einer RTX 2070 mit 15 Watt

Um die GPU-Leistung einfach skalieren zu können, sind die Recheneinheiten in Slices organisiert. Jedes Slice verfügt über 512 FP32- und doppelt so viele FP16-Recheneinheiten (kurz ALUs für Arithmetic Logic Units), letztere sind insbesondere für KI interessant. Berechnungen mit doppelter Genauigkeit (FP64) unterstützt die GPU nicht nativ, hier sind allerdings auch andere GPUs schwach aufgestellt: Nvidias Consumer-GPUs etwa implementieren auf 32 FP32-Recheneinheiten nur eine für FP64.

Die integrierte Grafik des X2E-96-100 kommt damit auf eine Rohleistung von rund 7,6 Tflops bei FP32 FMA (Fused Multiply Add) – das ist etwa das Niveau einer RTX 2070(öffnet im neuen Fenster), allerdings bei einer maximalen Leistungsaufnahme von 15 Watt. Der X2E-88-100 rechnet mit rund 7 Tflops auf dem Niveau einer GTX 1070, der X2E-80-100 kommt mit drei Slices noch auf 5,2 Tflops und liegt damit etwa auf dem Niveau einer Radeon RX 5500XT(öffnet im neuen Fenster). In Spielen fallen die Unterschiede, zumindest in den gezeigten Benchmarks, deutlich geringer aus, als die reinen Zahlen vermuten lassen.

Dank einer Reihe von Neuerungen und Optimierungen soll die X2-Elite-GPU diese Rechenleistung besser abrufen können als der Vorgänger: Qualcomm verspricht eine um 125 Prozent gesteigerte Leistung pro Watt und eine um bis zu 70 Prozent höhere Leistung bei gleicher Leistungsaufnahme. Da die neue Adreno-GPU mehr Energie aufnehmen darf – vorausgesetzt, das Design des jeweiligen Geräts lässt das zu -, liegt die Spitzenleistung im Vergleich zum Vorgänger noch einmal höher.

Halbierte Warps für bessere Leistung

Wie die Konkurrenz setzt auch Qualcomm auf das Konzept Single Instruction Multiple Threads (g+), wobei 64 FP32-ALUs zu einer Gruppe (Qualcomm nennt sie wie Nvidia Warp) zusammengefasst sind und denselben Befehl ausführen.

Die Warp-Größe haben die Adreno-Entwickler halbiert, was sich in der Mikroarchitektur niederschlägt: Die zwei Shader-Prozessoren (SP) der Slices sind noch einmal in zwei Mikro-SPs unterteilt. Die wiederum führen parallel je zwei Warps aus, die sie in jedem Takt mit jeweils einer Anweisung eines Programmfragments (Work Group) versorgen können. Anders als bei klassischen CPUs können SIMT-GPUs schnell zwischen Work Groups umschalten, um Latenzen zu überdecken.

Jedem Mikro-SP steht nicht nur ein eigener lokaler Puffer zur Verfügung, sondern auch ein 128 KByte großer Registersatz. Damit stehen pro Warp 32.768 32-Bit-Register zur Verfügung – unter Einbeziehung der unterschiedlichen Warp-Größe pro Thread ebenso viele wie bei Nvidia. Der lokale Speicher unterstützt nun Broadcasts, kann also einen Wert an alle ALUs eines Warps senden. Neu sind ebenfalls Shuffle-Operationen, die Registerinhalte etwa für Reduktionsoperationen zwischen verschiedenen ALUs austauschen können. Zudem wird nun auch der Datentyp Brain Float 16 (BF16) unterstützt.

Für Grafikberechnungen werden die Recheneinheiten von jeweils einem Render Frontend pro Slice versorgt, beim Vorgänger gab es eines für alle SPs. Jedes Frontend kann pro Takt ein Dreieck in die Render Pipeline schicken. An deren Ende erzeugen zwei Backends pro Slice jeweils acht Pixel oder 16 MSAA-Fragmente (Subpixel) pro Takt. Die maximale theoretische Füllrate liegt damit bei 118,4 GPixel/s – etwa das Niveau einer RTX 2080 Ti. Trotz der vielen Gemeinsamkeiten macht Qualcomm allerdings auch einiges anders als AMD, Intel und Nvidia.

Weniger KI-Fokus, ungewöhnliche Architektur

Anders als bei der Konkurrenz sind in der Adreno-X2 keine Matrix-Einheiten integriert, den Großteil der KI-Rechenleistung liefert die NPU. Das spart Chipfläche, die Qualcomm lieber in Vektorrecheneinheiten sowie SRAM investiert hat. Auch die Raytracing-Kerne sind bewusst simpler gehalten als etwa bei Nvidia. Schließlich ist der Anspruch, mit der iGPU solide Gaming-Performance zu liefern, nicht aber, mit den besten dedizierten GPUs zu konkurrieren.

Bei den Raytracing-Kernen verfolgen Qualcomms GPU-Entwickler einen pragmatischen Ansatz der evolutionären Entwicklung: Für die erste Version hatten sie Hardwareunterstützung für die als am aufwendigsten erkannten Operationen, Schnitttests mit Bounding Boxes und Dreiecken implementiert. Von diesen Schnitttests schafft die RTU pro Takt acht und vier.

In der Praxis zeigte sich dann, dass das Durchlaufen der Hierarchie an Bounding Boxes in Software recht aufwendig ist. Also hat man dies beim Snapdragon X2 Eilte mit der Tree Traversal Unit (TTU) in die Ray Tracing Units verlagert.

Eine Besonderheit der Adreno-X2-GPU ist ihr integrierter SRAM. Über den verfügen in Form von Caches zwar auch andere Architekturen, das Konzept von Qualcomm ist aber anders. In den SRAM der Adreno X2 können etwa Grafiken gerendert oder Z-Buffer für die Sichtbarkeitsprüfung abgelegt werden. Der Vorteil: Deutlich geringere Latenz und weniger Zugriffe auf den DRAM des Systems, wenn etwa fertig gerenderte Grafiken noch nachbearbeitet werden.

Schneller Speicher hilft auch beim Rechnen

Ein weiterer Effekt: Weniger Zugriffe auf den externen DRAM bedeuten zugleich eine geringere Leistungsaufnahme. Zudem ist der integrierte Speicher mit einer extrem hohen Bandbreite von bis zu 4 TByte/s (1 TByte/s pro Slice) angebunden – ideal auch etwa als Cache für Gewichtsparameter von KI-Modellen.

Pro GPU-Slice gibt es 5,25 MByte SRAM, im Vollausbau mit vier Slices bringt die Adreno-X2-GPU also 21 MByte mit. Wird auf der GPU gerechnet, kann der Speicher auch als schneller lokaler Speicher genutzt werden – zusätzlich zum 2 MByte großen L2-Cache. Von dem großen und schnellen Speicher profitieren auch Anwendungen, welche die GPU als Beschleuniger nutzen. Neben OpenCL 3.0 will Qualcomm ab 2026 Sycl (g+) als Programierschnittstelle unterstützen. Hier soll der Adreno High Performance Memory (AHPM) als lokaler Speicher nutzbar sein.

Wir sind bereits auf einen Vergleich von Adreno X2 mit den kommenden iGPUs von AMD und Intel gespannt. Dass die CPU-Hersteller diesen mittlerweile eine deutlich größere Bedeutung zumessen, sehen wir positiv. Zu hoffen bleibt nur, dass Qualcomm die beachtliche theoretische Leistung auch in vielen Spielen in reale Frameraten umsetzen kann.

Offenlegung: Golem.de hat auf Einladung von Qualcomm an der Präsentation in San Diego teilgenommen. Die Reisekosten wurden zur Gänze von Qualcomm übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben Dritter; diese Offenlegung dient der Transparenz.


Relevante Themen