Zum Hauptinhalt Zur Navigation

Linux geht kaputt – und das ist nicht Intels Schuld

Für unseren Linux-Test verwendeten wir die Preview-Version von Ubuntu 26.04 mit Kernel 6.19 RC 3. Rein praktisch hatten wir dabei wenig Freude: Das primäre Display des Laptops stand auf dem Kopf, rotieren ließ es sich nicht, da das zu einem Absturz führte. Das zweite Display funktionierte ebenso wenig wie der Bluetooth-Modus der Tastatur.

Das liegt allerdings nicht in Intels Verantwortung: Treiber und Firmware für GPU, NPU sowie das Integrated Sensor Hub (ISH) veröffentlichte der CPU-Hersteller teilweise bereits vor Monaten. Deren Installation funktionierte reibungslos und ist auf Intels Homepage dokumentiert(öffnet im neuen Fenster) .

Das ISH können Laptophersteller selbst anpassen, erforderlich sind dann passende Treiber. Die veröffentlichte bislang nur Dell(öffnet im neuen Fenster) , bei Asus erwarten wir das nicht. Das Zenbook ist damit nur eingeschränkt nutzbar – für Linux-Anwender gilt weiterhin: Augen auf beim Laptopkauf.

Die Ergebnisse der Benchmarks entschädigen für den enttäuschenden ersten Eindruck. Unter Linux legten wir neben Gleitkomma- und KI-Leistung den Fokus auf Programmierung. Alle Tests liefen im Netzbetrieb, wir haben die Leistungsaufnahme am Netzteil gemessen. Dort sehen wir, dass Asus den Core Ultra X9 388H mit einer Base Power von 45 W und einer Boost Power von 80 W betreibt, das Notebook nimmt jedoch auch bei längeren Benchmarks manchmal 65 bis 70 W auf.

P-Cores bei Gleitkommaberechnungen effizienter

Den High-Performance Linpack (HPL) testeten wir manuell, um die Gleitkommarechenleistung von P- und E-Cores zu erfassen. Erstere kommen bei Parallelisierung mit OpenMP auf 209,6 GFlops, letztere auf 178,6 GFlops. Die Leistungsaufnahme ist mit 54 W und 52,5 W in der Spitze annähernd gleich. Ohne Einschränkung der rechnenden Kerne kommt der Prozessor auf 270 GFlops, die Leistungsaufnahme liegt dann zwischen 65 und 70 W.

Zum Vergleich: Ein einzelner P-Core kommt auf 63,8 Gflops, alle vier Kerne zusammen liegen somit rund 22 Prozent unter der rechnerischen Leistung. Das ist damit zu erklären, dass nur ein einzelner Kern auf den Maximaltakt von 5,1 GHz boosten darf, der All-Core-Boost liegt rechnerisch bei 4,2 GHz.

Der höhere Boost-Takt geht mit einer relativ höheren Leistungsaufnahme einher: Pro Kern ist die Differenz zur Leistungsaufnahme ohne Last bei maximalem Boost-Takt um fast 60 Prozent höher. Das ist nur ein qualitativer Wert, da ohne Last auch der Speichertakt abgesenkt werden dürfte.

Bei KI bremst der Speicher

Zudem untersuchten wir die KI-Leistung von CPU und GPU. Dafür nutzten wir den eingebauten Benchmark von llama.cpp sowie ein eigenes Python-Programm. Bei llama.cpp verwendeten wir die Backends BLAS (CPU) und Sycl (GPU), das Python-Programm nutzt Intels Umgebung Openvino. Die macht sich deutlicher bemerkbar als erwartet: Die Anzahl generierter Tokens steigt mit Microsofts Phi 14B (8-Bit-quantisiert) um mehr als das Doppelte. Mit 7,85 und 6,74 Tokens pro Sekunde (tps) erfolgt die Ausgabe dennoch behäbig.

Ein deutlicher Unterschied zwischen CPU und GPU – deren KI-Rechenleistung gibt Intel mit 10 und 120 TOPS an – ist bei der Verarbeitung von Anfrage-Tokens zu sehen: Dort kommt die GPU bei Phi 4 auf 190,9 tps, die CPU auf 21,6 tps. Einen Unterschied in der Generierungsleistung sehen wir bei kleineren Modellen wie Llama 3.2 3B oder Llama 2 7B. Dort erreicht die GPU die doppelte und zweieinhalbfache Leistung.

Anhand der Leistungsaufnahme wird deutlich, dass bei der Token-Generierung die Speicherbandbreite der limitierende Faktor ist. Bei Ausführung auf der CPU erreicht die Leistungsaufnahme lediglich rund 42 W, die GPU liegt mit rund 47 W etwas darüber. Bei der Verarbeitung der Eingabe-Tokens während der rechenintensiven Prefill-Phase nutzen beide ihr Leistungsbudget voll aus. Das ist für die GPU niedriger als für die CPU-Kerne, wir messen in der Spitze 67 und 86 W.

AMD hat wieder echte x86-Konkurrenz

Die restlichen Benchmarks haben wir mit der Phoronix Test Suite(öffnet im neuen Fenster) (PTS) erhoben. Sofern nicht anders angegeben, stammen die Vergleichswerte von Open Benchmarking(öffnet im neuen Fenster) .

Den Linux-Kernel 6.15 mit allen Modulen (allmodconfig) kompiliert der Core Ultra X9 388H im Mittel in rund 1427 Sekunden. Damit ist er rund acht Prozent langsamer als ein Ryzen AI Max 390 von AMD mit zwölf vollwertigen Zen5-Kernen. Bei Blender sind die Ryzen AI Max Pro aufgrund vollwertigem AVX512 in allen Kernen für die Intel-CPU nicht zu schlagen. Der AI Max+ 395 rendert teilweise in weniger als der Hälfte der Zeit, die der X9 388H braucht. Den eher vergleichbaren Zwölfkerner Ryzen AI 9 HX 370 lässt die Intel-CPU hinter sich. Bei beiden Vergleichen gilt: Je komplexer die Szene, desto deutlicher der Abstand.

In anwendungsorientierten Benchmarks ändert sich das Bild: Im Sqlite Speedtest liegen AI Max+ 395 und X9 388H gleichauf, im Python-Benchmark Pybench liegt der X9 388H mit einem Mittelwert über alle Tests von 409 ms vor anderen Mobil-CPUs. Apples M4 Pro ist mit 440 ms bei großer Spannbreite noch am nächsten dran.

Etwas differenzierter ist Pyperformance. Hier sehen die meisten Teiltests den X9 388H allerdings vor dem AI Max+ 395, wenn auch oft nur ein wenig. Auch bei Node.js V8 Web Tooling schafft es der X9 388H knapp vor den AI Max+ 395. Der Grafik-Benchmark vkmark (Vulkan-Schnittstelle) sieht Intels integrierte Xe3-GPU Arc B390 knapp 20 Prozent vor der Radeon 890M in AMDs Ryzen AI 9 HX 370.

Fassen wir zusammen.


Relevante Themen