Zum Hauptinhalt Zur Navigation

Leistung einer RTX 2070 mit 15 Watt

Um die GPU-Leistung einfach skalieren zu können, sind die Recheneinheiten in Slices organisiert. Jedes Slice verfügt über 512 FP32- und doppelt so viele FP16-Recheneinheiten (kurz ALUs für Arithmetic Logic Units), letztere sind insbesondere für KI interessant. Berechnungen mit doppelter Genauigkeit (FP64) unterstützt die GPU nicht nativ, hier sind allerdings auch andere GPUs schwach aufgestellt: Nvidias Consumer-GPUs etwa implementieren auf 32 FP32-Recheneinheiten nur eine für FP64.

Die integrierte Grafik des X2E-96-100 kommt damit auf eine Rohleistung von rund 7,6 Tflops bei FP32 FMA (Fused Multiply Add) – das ist etwa das Niveau einer RTX 2070(öffnet im neuen Fenster) , allerdings bei einer maximalen Leistungsaufnahme von 15 Watt. Der X2E-88-100 rechnet mit rund 7 Tflops auf dem Niveau einer GTX 1070, der X2E-80-100 kommt mit drei Slices noch auf 5,2 Tflops und liegt damit etwa auf dem Niveau einer Radeon RX 5500XT(öffnet im neuen Fenster) . In Spielen fallen die Unterschiede, zumindest in den gezeigten Benchmarks, deutlich geringer aus, als die reinen Zahlen vermuten lassen.

Dank einer Reihe von Neuerungen und Optimierungen soll die X2-Elite-GPU diese Rechenleistung besser abrufen können als der Vorgänger: Qualcomm verspricht eine um 125 Prozent gesteigerte Leistung pro Watt und eine um bis zu 70 Prozent höhere Leistung bei gleicher Leistungsaufnahme. Da die neue Adreno-GPU mehr Energie aufnehmen darf – vorausgesetzt, das Design des jeweiligen Geräts lässt das zu -, liegt die Spitzenleistung im Vergleich zum Vorgänger noch einmal höher.

Halbierte Warps für bessere Leistung

Wie die Konkurrenz setzt auch Qualcomm auf das Konzept Single Instruction Multiple Threads (g+) , wobei 64 FP32-ALUs zu einer Gruppe (Qualcomm nennt sie wie Nvidia Warp) zusammengefasst sind und denselben Befehl ausführen.

Die Warp-Größe haben die Adreno-Entwickler halbiert, was sich in der Mikroarchitektur niederschlägt: Die zwei Shader-Prozessoren (SP) der Slices sind noch einmal in zwei Mikro-SPs unterteilt. Die wiederum führen parallel je zwei Warps aus, die sie in jedem Takt mit jeweils einer Anweisung eines Programmfragments (Work Group) versorgen können. Anders als bei klassischen CPUs können SIMT-GPUs schnell zwischen Work Groups umschalten, um Latenzen zu überdecken.

Jedem Mikro-SP steht nicht nur ein eigener lokaler Puffer zur Verfügung, sondern auch ein 128 KByte großer Registersatz. Damit stehen pro Warp 32.768 32-Bit-Register zur Verfügung – unter Einbeziehung der unterschiedlichen Warp-Größe pro Thread ebenso viele wie bei Nvidia. Der lokale Speicher unterstützt nun Broadcasts, kann also einen Wert an alle ALUs eines Warps senden. Neu sind ebenfalls Shuffle-Operationen, die Registerinhalte etwa für Reduktionsoperationen zwischen verschiedenen ALUs austauschen können. Zudem wird nun auch der Datentyp Brain Float 16 (BF16) unterstützt.

Für Grafikberechnungen werden die Recheneinheiten von jeweils einem Render Frontend pro Slice versorgt, beim Vorgänger gab es eines für alle SPs. Jedes Frontend kann pro Takt ein Dreieck in die Render Pipeline schicken. An deren Ende erzeugen zwei Backends pro Slice jeweils acht Pixel oder 16 MSAA-Fragmente (Subpixel) pro Takt. Die maximale theoretische Füllrate liegt damit bei 118,4 GPixel/s – etwa das Niveau einer RTX 2080 Ti. Trotz der vielen Gemeinsamkeiten macht Qualcomm allerdings auch einiges anders als AMD, Intel und Nvidia.


Relevante Themen