Test: Radeon HD 2900XT mit DirectX 10 und Energie-Rekord

Es war eine mehr als schwere Geburt. Bereits kurz nach der Übernahme von ATI durch AMD sollte der unter dem Codenamen "R600" entwickelte Grafikprozessor von ATI zunächst im November 2006 auf den Markt kommen. Seitdem verschob AMD nach Aussagen von Grafikkartenherstellern den Termin von Monat zu Monat und nannte niemals konkrete Gründe. Als letzter fester Termin wurde den direkten Kunden die letzte Januar-Woche 2007 genannt, Mitte Februar wurde die Presse dann kurzfristig zu einer Vorstellung des Produkts erst ein- und dann wieder ausgeladen. Man wolle mit einer Neuausrichtung des Chips "einen breiteren Markt ansprechen" , teilte AMD offiziell mit .
Wie diese Neuausrichtung aussieht, stellte sich schließlich Ende April 2007 auf der nachgeholten Presseveranstaltung in Tunis heraus: AMD hat sich – vorerst – völlig bewusst aus dem Rennen um die "schnellste Grafikkarte der Welt" verabschiedet und die erste Ausgabe des R600 preislich direkt gegen den GeForce 8800 GTS gesetzt – und nicht gegen das GTX- oder gar Ultra-Modell des Konkurrenten Nvidia.
Auf den Markt bringt AMD nämlich vorerst nur das Modell "Radeon HD 2900 XT", das Kürzel "XTX" für die schnellsten ATI-Karten bleibt bis auf weiteres unbelegt. Dennoch kursieren im Internet schon erste Bilder einer vermeintlichen XTX – wie das endgültige Produkt jedoch aussieht, ist noch unbekannt. Auch die bisherigen Gerüchte um eine mögliche Flüssigkühlung des XT-Modells haben sich nicht bewahrheitet.
320 Recheneinheiten
Allen Karten gemein ist die R600-Architektur, die erstmals bei AMD DirectX-10 unterstützt. Und anders als bei Nvidias Markteinführung der G80-Architektur stehen bereits zum Marktstart nach bisherigem Stand funktionsfähige DirectX-10-Treiber für Vista zur Verfügung. Voraussetzung für DirectX-10 ist auf Hardware-Seite ein Grafikchip mit "Unified Shaders". Die Trennung zwischen Pixel- und Vertex-Shadern entfällt, die Recheneinheiten der GPU sind nun frei programmierbar und können verschiedenste Aufgaben erfüllen.
Wie man bei so viel Flexibilität eine effiziente Architektur baut, ist ein noch nicht allgemeingültig gelöstes Problem. Selbst Intel zieht sich mit seinem P35-Chipsatz hier aus der Affäre und bietet DX-10-Funktionen im integrierten Grafikkern gar nicht erst an. Nvidia dagegen hatte sich mit der G80-Architektur dafür entschieden, die Shader-Einheiten doppelt so schnell wie den Rest der GPU zu takten. Dafür wurde die Zahl der Shader auf 128 Einheiten begrenzt, um den Strombedarf im Zaum zu halten.
Dennoch sind die insgesamt 320 Einheiten sehr komplex ausgelegt und auf eine konstante Fütterung angewiesen – die Netburst-Architektur von Intel lässt grüßen. Dafür ist den SPUs ein Dispatch-Prozessor vorgeschaltet, den man mit dem Thread-Scheduler eines Betriebssystems vergleichen kann. Der Dispatcher im R600 verteilt die Threads auf die SPUs und kann Threads auch vorübergehend stilllegen, um Latenzen des Speichers oder das Warten auf andere Threads zu kaschieren. Beim verteilten Rechnen in einer Unified-Architektur steht beispielsweise oft noch nicht fest, ob ein bereits texturiertes Polygon überhaupt dargestellt werden muss oder ob die Lichtquelle – etwa durch eine Reflexion – es nicht beleuchtet. Solche Abhängigkeiten muss der Dispatcher berücksichtigen.
Laut AMDs Berechungen beträgt die theoretische Rechenleistung einer 2900 XT bei Multiply-Add-Schleifen 475 Gigaflops pro Sekunde. Zumindest für Streaming-Anwendungen kommt man so mit zwei Karten im CrossFire-Betrieb schon heute auf 1 Teraflops.
Erste multiskalare GPU-Architektur
Bei einer so feinen Verteilung der Aufgaben kommt es jedoch auch innerhalb der SPUs zu Verzweigungen, den gefürchteten "Branches". Das trifft eine Render-Pipeline fatal, auch deshalb hat AMD große Caches vorgesehen, deren einzelne Größe aber noch nicht bekannt ist. Jeder SPU-Gruppe ist deshalb eine "Branch Execution Unit" vorangestellt, die vor der Ausführung – und nicht, wenn es bereits zu spät ist – die Verzweigungen abfangen kann. Die SPUs können also ungehindert rechnen, weil sie eine Verzweigung, und damit ungültige Berechnungen, gar nicht erst erreichen.
Insgesamt sind die SPUs fünffach multiskalar ausgelegt, können also im Extremfall fünf der bei 3D häufigsten Muliply-Add-Befehle gleichzeitig bearbeiten. Nvidia hat sich bei der G80-Architektur für eine skalare Architektur entschieden – was im Endeffekt besser ist, werden bei beiden noch jungen DX-10-Designs erst die Spiele zeigen, die DirectX-10 vollständig nutzen.
In einem Punkt geht die R600-Architektur sogar über die Anforderungen von DX-10 hinaus: Der "Tesselator" ist unbestätigten Angaben zufolge erst mit Dirext-X 10.1 Pflicht. Eine Tesselation von 3D-Objekten kann die vorhandenen Dreiecke weiter unterteilen, um weniger harte Kanten oder in Spielen zu sehende "eckige" Figuren darzustellen. Das hilft vor allem beim Heranzoomen von Objekten, für die nicht zusätzliche Daten gespeichert werden müssen: Die Tesselation erfolgt vollständig in der GPU. Die Funktion erinnert ein wenig an das bereits mit dem Radeon 8500 (R200) eingeführte "TruForm", das jedoch nur von sehr wenigen Spielen wie "Serious Sam: The Second Encounter" unterstützt wurde. Ein Standard wurde das Verfahren aber nie, mit dem neuen Tesselator hat AMD hier bessere Chancen, so die Funktion wirklich von einem kommenden DirectX gefordert wird.
Bei der Speicherarchitektur hat AMD den bereits bei der x1000-Serie bewährten Ringbus mit ingesamt 512 Bit Breite übernommen. Neben den verschiedenen I/O-Pfaden für die GPU wie für Texturen, 3D-Daten und Befehle ist auch das PCI-Express-Interface als eine der Ausfahrten dieses Kreisverkehrs ausgeführt. Da schon die Referenzkarte mit 16 Speicherbausteinen à 32 MByte und damit 512 MByte ausgestattet ist, fällt es AMD leicht, hier durch 64-MByte-Chips eine mögliche 1-GByte-Karte anzubieten – ein weiterer Hinweis auf ein kommendes XTX-Modell. Bisher ist der 2900 XT mit GDDR-3-Speicher bestückt, was gegenüber dem GDDR-4 der 1950 XTX einen kleinen Rückschritt darstellt. Die 2600-Karten sollen jedoch auch mit GDDR-4 erscheinen.
Ein Novum für eine Grafikkarte ist die beim R600 eingebaute Sound-Logik, die ihren Mehrkanalton aber nur per HDMI über einen Adapter für die DVI-Anschlüsse ausgibt. Laut Microsofts Vorschriften für das Vista-Premium-Logo, die den HDCP-Spezifikationen folgen, darf der Ton nie vom Rest des Streams eines HD-Videos getrennt werden. Folglich hat die neue AMD-Karte keinen weiteren Ausgang für Ton außer dem HDMI-Anschluss. Zusammen mit dem neuen "Universal Video Decoder" (UVD) soll ein R600 HD-Titel von Blu-rays und HD-DVDs nahezu ohne Hilfe der CPU dekodieren können. Diese Ausstattung brachte auch den Namenszusatz der "HD 2000" genannten Serie an Grafikchips mit sich.
Referenz-Design unter der Lupe
Das erste Produkt mit der R600-Architektur soll ab sofort erhältlich sein. Kurz vor der Markteinführung stellte AMD Golem.de eine Referenzkarte vom Typ HD 2900 XT samt einem Beta-Treiber sowohl für Windows XP wie Vista zur Verfügung.
Schon die Konstruktion der Karte weist auf eine enorme Leistungsaufnahme hin: Der Kühlkörper besteht aus massivem Kupfer mit 2 Heatpipes, das Board hält dieses Gewicht und den nötigen Anpressdruck nur durch einen Kunststoffrahmen aus. Weiter versteift wird die Karte durch ein Kühlblech für die Speicherchips auf der Rückseite.
Für den Test wurden die serienmäßig übertakteten MSI-Karten von 610/1000 auf 575/900 MHz (GTX) und von 575/850 auf 500/800 MHz (GTS) und somit die von Nvidia empfohlenen Frequenzen heruntergetaktet. Soweit nicht anders genannt, wurden alle Spieletests mit den maximal möglichen Details und Filtereinstellungen des Titels bei der gebräuchlichsten Auflösung von 1.280 x 1.024 Pixeln durchgeführt. Alle Spiele liefen, mit Ausnahme von Call of Juarez, unter einem aktuell gepatchten Windows XP ohne Hintergrunddienste. Unter Vista wurden Dienste wie die Datei-Indizierung abgeschaltet.
Tests mit DirectX-9-Anwendungen
Der synthetische Test des 3DMark06 stellt sowohl den XP- als auch den Vista-Treibern für die 2900 XT ein gutes Zeugnis aus. Über 10.000 Punkte sind beim Standardtest erreichbar, die Füllrate bei Multi-Texturierung fällt mit knapp 12.000 Einheiten gegenüber den fast 18.000 Zählern einer GTX jedoch deutlich zurück.
Hier hätte man vom vermeintlich effektiven Ringbus mehr erwarten dürfen. Zumindest beim 3DMark kann AMD die Shader-Einheiten offenbar gut auslasten, ergeben sich doch über 5.000 Punkte bei den HDR-3.0-Tests.
Auch beim Shader-lastigen Spiel "F.E.A.R." ist die 2900 XT mit im Mittel 83 Bildern pro Sekunde, die nie unter 40 FPS fallen, selbst bei 4x-Anti-Aliasing und 8x-Anisotropie noch genauso schnell wie eine GeForce 8800 GTS. Eine Nvidia-GTX zieht jedoch mit 114 FPS davon.
Deutlich zurück liegt der R600 schon bei "Far Cry" mit gleicher Auflösung und identischen Filtereinstellungen. Auch hier sind sehr flüssige 83 FPS erreichbar, schon eine GTS kommt aber auf 128 Bilder pro Sekunde, der GTX ist mit 137 FPS noch einen Tick schneller. Zu beachten ist jedoch, dass die je nach Grafikkarte und Treiberversion mit diesem Spiel oft für Bildfehler anfälligen HDR-Funktionen hier nicht eingeschaltet waren.
Dass hier noch ein paar Fehler im Beta-Treiber lauern, zeigte sich auch beim Test mit "Company of Heroes" in der US-Version 1.50. Hier lag bei ersten Tests die 2900 XT mit maximalen Details noch deutlich zurück und erreichte nur 88 FPS, eine GTS 100 Bilder pro Sekunde und die GTX unschlagbare 134 FPS. Sobald man bei der AMD-Karte jedoch das Anti-Aliasing abschaltete, was das detaillierte Strategiespiel schlechter aussehen lässt, kam der R600 auf ganze 278 FPS, reduzierte man mit Kantenglättung die Shader-Qualität auf "Low", ergaben sich 187 FPS. Diese mehrfach reproduzierbaren Werte deuten auf Probleme beim Anti-Aliasing und der Behandlung der ausgefeilten Shader dieses Titels hin.
Direct-X-10 und Leistungsaufnahme
Für den Test der DirectX-10-Funktionen stellte AMD eine Vorabversion eines Benchmarks auf Basis des Spiels "Call of Juarez" zur Verfügung, der in einigen Wochen in einer endgültigen Version von Techland auch öffentlich zugänglich sein sollte. Zwar empfahl Nvidia, diese Version nicht für Vergleiche zu verwenden, als kleinen Ausblick auf das kommende DX-10-Duell mit echten Spielen geben wir unsere Messwerte dennoch unter Vorbehalt wieder. Auf den Nvidia-Karten wollte der Test bei eingeschaltetem Anti-Aliasing nicht starten, so dass die Werte auch für den R600 ohne die Filterung ermittelt wurden.
AMD hätte den Test wohl kaum empfohlen, wenn die 2900 XT nicht mit durchschnittlich 33,1 Bildern pro Sekunde deutlich gewinnen würde. Nicht einmal der GTX kommt bei 29,7 FPS hier heran, und der GTS liegt mit 24,5 FPS deutlich zurück. Beim Betrachten des Kamerafluges durch ein weitläufiges Level des Western-Shooters fiel zudem auf, dass die Nvidia-Karten sichtbar immer wieder ins Stocken kamen, flüssig wollte die Sequenz nicht ablaufen – auf der 2900 XT dagegen schon. Abzuwarten bleibt, wie sich die endgültige Version des Tests und ein möglicher DX-10-Patch für das vollständige Spiel hier verhalten werden – oder ob Nvidia hier mit seinen noch sehr jungen DX-10-Treibern noch Verbesserungsmöglichkeiten sieht.

Im negativen Sinne vorne liegt die 2900 XT bei den Messungen der Leistungsaufnahme, die wir mit einer Schleife des Tests "Firefly Forrest" aus 3DMark06 bei vierfacher Filterung für Texturen und Kanten durchgeführt haben. Zu beachten ist dabei, dass es sich um primärseitige Messungen an der Steckdose handelt, also die Leistungsaufnahme des gesamten Rechners wiedergegeben wird. Die Unterschiede der einzelnen Karten kommen jedoch deutlich zum Tragen.
So liegt das Testsystem mit der neuen AMD-Karte in der nicht nur kurzfristig erreichten Spitze bei ganzen 308 Watt, sogar eine GTX kommt nur auf 280 Watt, und die GTS zeigt sich mit 237 Watt vergleichsweise sparsam. Dass die R600-Architektur an sich deutlich zuviel Leistung aufnimmt, zeigt auch eine Messung bei ruhendem XP-Desktop ohne Festplattenaktivität: 161 Watt zieht der Rechner mit der 2900 XT, 147 Watt mit einer GTS und 154 Watt mit einer GTX.
Fazit
AMD geht mit der HD 2900 XT sowohl technisch als auch in puncto Marketing ein großes Risiko ein. Klar ist, dass erst mit dem breiten Erscheinen von Direct-X-10-Spielen das letzte Wort über die bessere Architektur gesprochen werden kann – und ob der multiskalare R600 gegen den G80 dann besser punkten kann. Nach der Papierform und synthetischen Tests hat die R600-Architektur jedenfalls noch einiges Potenzial, das durch unfertig wirkende Treiber brachzuliegen scheint. Mit einem schnellen Wechsel auf 65 Nanometer, das dann auch für die High-End-Karten mehr Takt ermöglichen könnte, kann vielleicht auch der bisher indiskutable Stromverbrauch gemildert werden.
Bei dieser zwiespältigen Positionierung versucht AMD, durch die bisher nicht dagewesene Ausstattung zu überzeugen. Neben der CPU-Entlastung bei HD-Filmen, dem HDMI-Ausgang samt eigener Sound-Logik auf der Karte ist wieder einmal ein Spiele-Bundle von Valve mit dabei. AMD empfiehlt den Grafikkartenherstellern samt finanzieller Beteiligung, die Titel "Team Fortress 2", "Half-Life 2: Episode 2" und "Portal" als Download-Gutschein für die Online-Plattform "Steam" anzubieten. Nach bisherigem Stand wollen aber nicht alle Kartenhersteller davon Gebrauch machen, da die Titel noch nicht fertig gestellt sind.



