AMD FX-CPU im Test: Fast acht Kerne und auch fast schneller

Mit rund einem halben Jahr Verspätung liefert AMD jetzt die ersten Prozessoren mit der Architektur Bulldozer für Desktop-PCs aus. Bulldozer ist eine vollständige Neuentwicklung, die anders als die "accelerated processing units" ( APU ) anderer aktueller AMD-CPUs nicht über eine integrierte Grafikeinheit verfügt.
Schon das Namenskürzel "FX", das der Modellnummer der neuen Desktop-CPUs voransteht, weckt Erwartungshaltungen: AMD verwendete es zu Zeiten des Athlon für die schnellsten Prozessoren einer Serie. Diese waren, wie die späteren Black Editions, mit offenen Multiplikatoren auch für Übertakter gedacht.
Die Hoffnung, wieder einmal einen der schnellsten Prozessoren stellen zu können, schürte auch AMD selbst: Zu Beginn von Intels IDF gab das Unternehmen bekannt, mit einem Bulldozer bei über 8,4 GHz die weltweit höchste Taktfrequenz erreicht zu haben. Diese Prozessoren, Codename Zambezi, will das Unternehmen nun ausliefern. Zu Beginn soll es vier Modelle geben, entgegen den zuvor kolportierten Preisen wurde das Modell FX-6100 um zehn US-Dollar auf 165 US-Dollar im Preis gesenkt.
























Erst wenige Tage vor dem Fall der Sperrfrist schickte AMD einen einzelnen FX-8150, das Spitzenmodell, zum Test. Dieses Vorgehen ist bei Neuvorstellungen von Prozessoren sehr ungewöhnlich, Tests dieser Produkte dauern in der Regel Wochen.
Auch für die Kunden dürften die FX-CPUs, wie bei neuen Hardwarekomponenten inzwischen üblich, zu Beginn auch dünn gesät sein. AMD versprach zwar, weltweit seien zehntausende der Prozessoren bereits ausgeliefert – von Golem.de befragte Händler konnten das aber noch nicht bestätigen.
Neue Architektur mit Modulen statt Kernen
Die Architektur eines Bulldozer ist in jeder Hinsicht ungewöhnlich. AMD teilt die Funktionseinheiten des Prozessors nicht mehr strikt nach Kernen auf, sondern auf ganz andere Weise. Im Zentrum jeder x86-CPU stehen die Rechenwerke für Integer-Befehle, die einzigen Instruktionen, welche die ersten Intel-CPUs verarbeiten konnten. Je zwei dieser Integer-Einheiten fasst AMD zu einem sogenannten "Modul" zusammen. Gegenüber dem Betriebssystem melden sich die Integer-Einheiten wie ein herkömmlicher Kern – die größten Bulldozer verhalten sich also wie eine Achtkern-CPU, die es bisher für Desktop-PCs nicht gab.
Gemessen an anderen Prozessoren sind die Bulldozer aber keine Octo-Cores. Pro Modul gibt es nur einen Scheduler für Gleitkommaberechnungen, der die Arbeit auf zwei entsprechende Einheiten verteilt – sie bilden gemeinsam die FPU. Diese kann zwar 128 Bit breite Befehle und Daten verarbeiten, ist jedoch in zwei 128-Bit-Teilen ausgeführt. Daher gibt es pro Modul effektiv nur eine 256-Bit-Einheit.
























Zudem existiert für Integer-, FPU- und SSE-Einheiten pro Modul nur ein gemeinsamer Funktionsblock für das Laden und Decodieren von Befehlen (Fetch/Decode). Dieser wird von einem zweistufigen Verzweigungspuffer (BTB) unterstützt, der noch vor dem Befehlscache sitzt. Erst danach kommen vier Befehlsdecoder zum Einsatz. Je einer steuert die Integer-Kerne an, die beiden anderen arbeiten auf zwei 128-Bit-Einheiten der FPU.
Dieses auch als " shared frontend " bezeichnete Konstrukt soll die Arbeit selbsttätig auf die eigentlichen Rechenwerke verteilen. Damit das noch effizienter wird, ist der L1-Cache für Befehle mit 64 KByte pro Modul doppelt so groß wie bei Intels Sandy Bridge – da der Cache aber zwei Integer-Einheiten versorgen muss, relativiert sich dieser Vorteil. Anders als bei Intels Sandy Bridge kann sich das Frontend aber nicht schlafen legen, wenn gerechnet wird – nur das gesamte Modul kann sich abschalten, wenn keines der Rechenwerke etwas zu tun hat.
Obwohl AMD möglichst viele Funktionseinheiten in einer Bulldozer-CPU doppelt verwendet, ist das Die des in 32 Nanometern Strukturbreite gefertigten Prozessors mit 315 Quadratmillimetern recht groß. Zum Vergleich: Intel braucht für die vier Kerne von Sandy Bridge bei gleicher Strukturbreite nur 225 Quadratmillimeter – und zwar inklusive eines Grafikkerns.
Das liegt auch an den anderen recht großen Caches von Bulldozer: Je 2 MByte L2-Cache besitzt ein Module, alle Einheiten teilen sich 8 MByte L3-Cache. Dieser ist in manchen Folien von AMDs Präsentationen falsch beschriftet: Dort sind 2 MByte L3-Cache verzeichnet, es sind aber 8 MByte. Insgesamt kommt Bulldozer so auf 16 MByte L2- und L3-Cache, was schon auf seine ursprüngliche Konzeption als Server-CPU hindeutet.
AVX, FMADD – und ein besserer Turbo
Mit einem neuen Prozessordesign gibt es meist auch Erweiterungen des Befehlssatzes. Bei Bulldozer sind es Befehle der Advanced Vector Extensions (AVX) sowie Befehle für Verschlüsselung per AES und das "fused multiply add", oft auch als FMA abgekürzt.
FMA ist vor allem bei 3D-Modellen oder Matrizenoperationen hilfreich, weil sich damit die Ergebnisse von verschiedenen Multiplikationen in einem Rutsch addieren lassen. Das ist bisher eine Domäne von GPUs, die CPU-Hersteller holen jedoch auf: Auch Intel plant FMA für künftige Prozessoren.
AMDs Bulldozer unterstützt FMA schon jetzt, wie jede Erweiterung von Befehlssätzen hat das jedoch einen Haken: Die Software muss die Funktion auch nutzen. Vom bloßen Vorhandensein von FMA im Prozessor läuft kein Programm schneller, es sei denn, es wurde neu kompiliert. Damit aber auch das klappt, müssen die Compiler FMA-Konstruktionen aber erst einmal erkennen – AMD will mit den Herstellern der Entwicklungswerkzeuge zusammenarbeiten.
























Sofort haben die Anwender aber etwas vom überarbeiteten Turbo-Core der Bulldozer. Die automatische Erhöhung des Taktes arbeitet nun weitgehend so, wie der Turbo-Boost von Intel das schon seit dem Ende 2008 vorgestellten Nehalem beherrscht.
Der Basistakt des Topmodells FX-8150 beträgt 3,6 GHz. Diese Frequenz können alle vier Integer-Einheiten dauerhaft halten. Wenn sie auch nur kleine Pausen einlegen, sind es 3,9 GHz, ist nur ein Integer-Kern belastet, kann dieser mit 4,2 GHz arbeiten. Um genau zu überprüfen, bei welcher Last auf wie vielen Kernen welcher Takt erreichbar ist, war der Testzeitraum zu kurz. Es deutete sich aber an, dass wie bei Intels Core-i-CPUs auch in viele Threads aufgeteilte Programme wie Cinebench R10 und R11.5 stets mit mehr als dem Basistakt arbeiten. Laut AMD können zwei Module (vier Integer-Kerne) mit 4,2 GHz laufen und alle Module mit 3,9 GHz.
Eine Besonderheit zeigte sich noch in einer neuen Bios-Version des von AMD empfohlenen Mainboards Crosshair V von Asus: Ist dort die Option "HPC" (das Kürzel für Supercomputer) aktiviert, läuft der Bulldozer auch unter hoher Last stets eine Turbo-Stufe von 100 MHz schneller. Ob er das auch auf Dauer mit Luftkühlung aushält, ist noch nicht abzusehen.
Womöglich will sich AMD diese Funktion auch für besondere Kühlungen vorbehalten, denn: Das Unternehmen bietet auch eine eigene, betriebsbereite Wasserkühlung an. Sie liegt den ersten FX-CPUs, die in einer bunten Blechschachtel verkauft werden, aber nicht bei. Diese müssen mit einem herkömmlichen Kühler mit Heatpipes auskommen.
Testsysteme und die Windows-Bremse
Wir testen den FX-8150 unter Windows 7 in der 64-Bit-Version auf dem von AMD gestellten Crosshair V. Die synthetischen Tests von Golem.de sind mit früheren Tests vergleichbar, die Spielebenchmarks nur mit den aktuellen von PC Games Hardware. Zu beachten ist dabei die Leistungsaufnahme, die durch Grafikkarte GTX 480 bei allen Systemen in die Höhe getrieben wird. Die Werte sind jedoch innerhalb dieser Tests vergleichbar.
Bei allen Messungen zeigte sich ein Problem mit Multi-Threading, das Windows 7 auf dem Bulldozer besonders stark hervorruft: Das Betriebssystem verteilt weiterhin die Threads neu auf die Kerne, während sie laufen. Das wirkt unter anderem durch ungültige Caches stark bremsend.
Bei Bulldozer ist das besonders schlimm, wenn die Threads von einem Modul zu einem anderen wechseln müssen und dann die L2-Caches – die nur pro Modul organisiert sind und von zwei Integer-Einheiten geteilt werden müssen – falsche Inhalte haben. Unter Windows Vista war schon Intel von diesem willkürlichen Thread-Scheduler betroffen, was Hyperthreading ausbremste . Daher gibt es in Windows 7 die Funktion des SMT Parking .
Dabei werden beispielsweise bei einem Quad-Core mit Hyperthreading zuerst im Muster Core 0, 2, 4, 6 die physischen Cores belastet. Erst wenn diese nicht mehr ausreichen, kommen die Hyperthreading-Cores 1, 3, 5, 7 zum Einsatz. Bei Bulldozer hat das den gegenteiligen Effekt, da in einem Modul – das sich den L2-Cache teilt, die Cores 0 und 1, 2 und 3 und so fort zusammengefasst sind. Zudem bremst der Thread-Wechsel den Turbo, sinnvoll wäre es, nur so wenige Module wie möglich zu belasten.
























AMD ist sich des Problems bewusst und verweist darauf, dass der Thread Scheduler von Windows 8 darauf Rücksicht nehmen soll, was sich aber nicht mehr überprüfen ließ. Ob es auch für Windows 7 einen neuen Thread Scheduler geben wird, ist noch offen. Spezielle Prozessortreiber – mit denen es hier nicht getan wäre – hat AMD zusammen mit Microsoft schon früher entwickelt. Nach Angaben des Chipherstellers kann ein eigener Bulldozer-Scheduler zwischen 2 und 10 Prozent mehr Leistung bringen.
Synthetische Benchmarks
Schon im Cinebench R10, für den es viele Vergleichswerte von älteren CPUs gibt, zeigt sich das Dilemma des Bulldozers: Takt für Takt sind seine Kerne langsamer als die des Phenom II. Daher sind seine acht Integer-Einheiten und vier FPUs kaum schneller als die je vier Rechenwerke des Vorgängers.
























Das gleiche Bild gibt auch der CPU-Test des 3DMark-Vantage wieder, hier ist zwar der FX-8150 gut 12 Prozent schneller als ein Phenom II X6 1090T, aber auch das rechtfertigt seinen Aufpreis nicht. Den von AMD in eigenen Benchmarks als Gegner anvisierten Core i7-2600K verfehlt der Bulldozer bei weitem.
Noch drastischer ist das Bild beim Single-Thread-Test mit SuperPi: Hier ist der FX-8150 sogar langsamer als der Phenom II. Die Rechenleistung seiner einzelnen Kerne liegt unter der der älteren Architektur.
Benchmarks mit Spielen
Mit gut in Threads aufgeteilten Spielen kommen die FX-CPUs besser zurecht als mit synthetischen Benchmarks. So kann der Bulldozer mit aktivierter Turbo bei Anno 1404 sogar einen Core i7-870 überholen, für die aktuellen Core-i-2000 (Sandy Bridge) reicht seine Leistung aber auch hier nicht aus.
























Bei Bad Company 2 reicht der FX-8150 schon an die älteren Core i7 heran, die Sandy Bridges sind immer noch schneller, aber immerhin in Reichweite. Beim von Intel häufig vorgeführten Star Craft 2 sieht das ganz anders aus: Schon ein Core i5-760 schlägt alle AMD-CPUs.
Bei diesem Spiel sind die Sandy-Bridge-CPUs mit ihren vier Kernen und verbessertem Turbo auch schneller als der Sechskerner Core i7-990X – das zeigt, was die Optimierung eines Programms auf eine bestimmte Architektur bringen kann.
Weitere Benchmarks mit anderen Spielen finden sich im Test des FX-8150 von PC Games Hardware(öffnet im neuen Fenster) , mit der wir den Test gemeinsam durchgeführt haben.
Leistungsaufnahme
War die Sparsamkeit auch bei Desktop-CPUs früher eine Domäne von AMD, so liegt der Vorteil schon seit dem Core 2 Duo aus dem Jahr 2006 bei Intel. Seitdem wird dieser Abstand immer größer.
Durch das sehr große Die kann AMD mit dem Bulldozer trotz 32-Nanometer-Fertigung daran nichts ändern. In die Ergebnisse fließt zwar die GTX 480, die auch ohne Last rund 50 Watt aufnimmt, überproportional ein, diese Grafikkarte steckt jedoch in allen Testsystemen.
























Insgesamt ist der FX-8150 ohne Last auf dem Windows-Desktop geringfügig sparsamer als ein Phenom II X6 1100T, Intels Core-i-2000-CPUs liegen aber 10 Watt darunter. Bei hoher Last mit Cinebench R11.5 ist ein sonst gleich bestückter Rechner mit Core i7-2600K sogar ganze 61 Watt sparsamer als ein PC mit FX-8150 – und das bei wesentlich höherer Rechenleistung. Alle Werte beziehen sich auf den gesamten PC, nicht die CPU alleine.
Kein Fazit
Durch den für eine vollständig neue CPU-Architektur viel zu kurzen Testzeitraum und die Multithreading-Probleme unter Windows 7 ist es verfrüht, ein endgültiges Urteil über den FX zu fällen. Der Ersteindruck ist dennoch eindeutig: Im gegenwärtigen Zustand von Prozessor, Mainboard, Bios und Windows lohnt sich ein FX nur für die wenigsten.
























Die acht Integer-Einheiten können ihre Stärken nur dann ausspielen, wenn hochoptimierte Software zum Einsatz kommt. Bei gleichem Takt sind die Kerne langsamer als die eines Phenom II – zudem stehen nur vier FPUs und SSE-Einheiten zur Verfügung.
Das weiß auch AMD und bat die Tester kurz vor dem Fall der Sperrfrist, nicht nur den Blick auf ältere Software zu richten – schließlich sei Bulldozer eine "auf die Zukunft ausgerichtete Architektur" . Das stimmt bisher vor allem für Funktionen wie FMA, von der aber bestehende Programme nicht ohne Neukompilierung profitieren. Auch das verbesserte Turbo-Core lässt auf noch höhere Takte bei der nächsten Generation von FX-CPUs hoffen.
AMD-Anwender erhalten mit einem Phenom II X6 für viel weniger Geld solide Leistung, die auch mit Windows 7 beim Nutzer ankommt. Wer die Plattform wechseln will oder ein Intel-System aufrüsten möchte, ist mit den Sandy-Bridge-CPUs im gleichen Preisrahmen gut beraten. Die haben dann zwar nur vier Kerne, deren Leistung pro Takt aber weit höher liegt als bei Bulldozer.
Offenbar hat AMD die Bulldozer-Architektur allein mit Blick auf den Supercomputermarkt entwickelt, denn dort wird die Software genau auf die Prozessoren zugeschnitten. Zudem sind mehr Integer-Einheiten in Softwareumgebungen mit nur wenigen parallelen Anwendungen leichter zu nutzen. Dafür spricht auch, dass die ersten Bulldozer nur an HPC-Hersteller wie Cray geliefert werden.
Was die Architektur also wirklich taugt, wird sich wohl erst Mitte November zeigen, wenn die nächste Top-500-Liste der Supercomputer erstellt wird. Und für das erste Quartal 2012 wird unbestätigten Angaben zufolge schon die nächste FX-Generation erwartet.
All das erinnert an den Start des unausgereiften ersten Phenom – aus dem wurde zwar mit dem Phenom II auch noch ein gutes Produkt. Fraglich ist aber, ob sich AMD so etwas finanziell noch einmal erlauben kann.



