Maxwell-Grafikkarte: Nvidia korrigiert die Spezifikationen der Geforce GTX 970

Die Geforce GTX 970 spricht ihre 4 GByte ungewöhnlich an, die letzten 512 MByte sind sehr langsam. Mehrere im GM204-Chip deaktivierte Funktionseinheiten drosseln die Leistung der Maxwell-Grafikkarte, wie Nvidia unter Druck der Öffentlichkeit bekannt geben musste.

Artikel veröffentlicht am ,
Stilisierte Geforce GTX 970
Stilisierte Geforce GTX 970 (Bild: Nvidia)

Nvidia hat bestätigt, dass die Geforce GTX 970 über eine andere Videospeicher-Verwaltung verfügt als die Geforce GTX 980. Dies geht jedoch nicht aus den bisher veröffentlichten Spezifikationen hervor. Auf dem Papier sollten beide Grafikkarten über ein identisches Speichersystem verfügen.

Stellenmarkt
  1. Information Security Officer / Spezialist (m/w/d) für den Bereich Datenschutz und Informationssicherheit
    MEYER WERFT GmbH & Co. KG, Papenburg
  2. Fachinformatiker / Informatiker (m/w/d)
    Dr. Hobein (Nachf.) GmbH, med. Hautpflege / EUBOS, Meckenheim bei Bonn
Detailsuche

Mehrere Nutzer haben festgestellt, dass eine unregelmäßige Frametime für Ruckler verantwortlich ist, oder gar die Bildrate in Spielen einbricht, wenn zwischen 3,5 und 4 GByte des Videospeichers der Geforce GTX 970 belegt sind. Bei der GTX 980 tritt dieses Problem nicht auf, auch das hat Nvidia bestätigt.

Der Hersteller begründet die Ruckler mit der geringeren Anzahl an Shader-Blöcken und deren Anbindung an das Videospeichersystem über eine leistungsschwächere Crossbar, benennt aber keine Details. Theoretisch verfügen Geforce GTX 980 und GTX 970 beide über ein 256-Bit-Interface mit 4 GByte GDDR5-Speicher mit 3,5 GHz. Diese werden von 2 MByte L2-Cache gepuffert, dahinter sind 64 Raster-Endstufen (ROP) geschaltet.

Nun leidet die Geforce GTX 970 unter zwei Problemen: Messwerte zeigen, dass die Pixelfüllrate nicht 64, sondern 52 Raster-Endstufen entspricht. Da Nvidia angibt, die geringere Anzahl an Shader-Blöcken sei schuld, liegt die Vermutung nahe, dass bei der Maxwell-Architektur die Pixelfüllrate nicht durch die ROP-, sondern die Shader-Einheiten begrenzt wird, ähnlich wie bei Fermi.

Golem Akademie
  1. IT-Fachseminare der Golem Akademie
    Live-Workshops zu Schlüsselqualifikationen
  2. 1:1-Videocoaching mit Golem Shifoo
    Berufliche Herausforderungen meistern
  3. Online-Sprachkurse mit Golem & Gymglish
    Kurze Lektionen, die funktionieren
Weitere IT-Trainings

Jedem der 16 Shader-Blöcke des Maxwell-Chips GM204 sind vier Raster-Endstufen zugeordnet, die wahrscheinlich wie bei Fermi und Kepler per 128-Bit-Bus mit den Shader-Blöcken verbunden sind. Bei nur 13 statt 16 Blöcken werden die ROPs in ihrer Leistung limitiert - die entspricht dann besagten 52 Raster-Endstufen. Die zusätzlichen 12 vorhandenen ROPs machen sich nur bemerkbar, wenn hohe Kantenglättungsmodi aktiviert sind, etwa 8x MSAA.

Die verglichen mit der Geforce GTX 980 geringere Pixelfüllrate der Geforce GTX 970 äußert sich jedoch schlicht in weniger Bildern pro Sekunde. Dies gilt vor allem bei älteren, nicht allzu Shader-lastigen Spielen oder in hohen Auflösungen wie Ultra-HD, bei Supersampling oder bei Downsampling.

  • Frametimes einer GTX 980 @ GTX 970 und einer echten GTX 970. Weniger Millisekunden und gleichmäßigere Zeiten sind besser! (Bild: PCGH)
  • Speichersystem der Geforce GTX 970 mit teildeaktiviertem L2-Cache (Bild: Nvidia)
  • Blockdiagramm des GM204-Chips im Vollausbau (Bild: Nvidia)
Speichersystem der Geforce GTX 970 mit teildeaktiviertem L2-Cache (Bild: Nvidia)

Die reduzierte Pixelfüllrate erklärt nicht, warum die Geforce GTX 970 erst dann deutliche Ruckler zeigen soll, wenn mehr als 3,5 der 4 GByte Videospeicher verwendet werden. Auf der Grafikkarte sind acht Speicherchips verbaut, jeder davon hängt an einem 32-Bit-Interface. Zwei davon schaltet Nvidia zusammen, das macht vier 64-Bit-Controller und somit theoretisch ein 256-Bit-Speicherinterface bei der Geforce GTX 970 und der Geforce GTX 980.

Beide Karten sollen 2 MByte L2-Cache bieten, je 512 KByte sind einem 64-Bit-Controller vorgelagert, also vermutlich 256 KByte pro GDDR5-Speicherbaustein. Während Programme 2 MByte bei der GTX 980 auslesen, sind es bei der GTX 970 in den uns bekannten OpenCL- und Cuda-Anwendungen nur 1.792 KByte.

Einer der acht 512-MByte-Speicherbausteine würde damit keinen L2-Cache besitzen, der die Zugriffe auf den GDDR5 abfedert - was die Ursache für die Ruckler und die geringen Bildraten sein könnte. Einige Nutzer spekulieren gar, es sei eine 32-Bit-Partition deaktiviert, was ein 224-Bit-Interface ergebe und durch Messungen der Datentransferrate belegt sei.

Nvidia hat den Videospeicher der Geforce GTX 970 nach eigener Aussage in einen 3,5- und einen 0,5-GByte-Block unterteilt. Der Treiber versucht, möglichst nicht die 512-MByte-Partition zu füllen, eventuell weil er so programmiert ist, diesen Block mangels L2-Cache oder aufgrund der wie auch immer beschnittenen Crossbar nur im Notfall anzusprechen.

Nvidias Benchmarks zufolge ist der Leistungseinbruch bei einer Geforce GTX 980 und einer GTX 970 nahezu identisch, wenn über 3,5 GByte Videospeicher belegt sind. Gerade eine unregelmäßige Frametime äußert sich aber nicht in einer niedrigeren durchschnittlichen Bildrate, sondern vor allem in dem von vielen Nutzern beschriebenen Ruckeln.

Sollte der L2-Cache der GTX 970 beschnitten sein, sind effektiv nur 3,5 GByte nutzbar, obwohl die Karte mit 4 GByte Videospeicher beworben wird. Wir werden versuchen, das Problem in den kommenden Tagen einzugrenzen.

Nachtrag vom 26. Januar 2015, 20:02 Uhr

Nvidia hat die bisherigen Spezifikationen der Geforce GTX 970 für falsch erklärt und Monate nach der Veröffentlichung korrigiert. Es soll eine Fehlkommunikation zwischen den Ingenieuren und der technischen Presseabteilung gegeben haben, erklärte Nvidias Chef-Architekt für die Maxwell-Grafikkarten-Modelle, Jonah Alben.

Wie von Golem.de richtig vermutet, hat Nvidia bei der Geforce GTX 970 den L2-Cache eines GDDR5-Controllers deaktiviert, also ein Achtel des schnellen Zwischenpuffers. Statt 2.048 stehen der Grafikkarte nur 1.792 KByte zur Verfügung. Somit müssen sich zwei 32-Bit-Controller eine 256-KByte-L2-Partition teilen, was die Geschwindigkeit teils deutlich reduziert.

  • Frametimes einer GTX 980 @ GTX 970 und einer echten GTX 970. Weniger Millisekunden und gleichmäßigere Zeiten sind besser! (Bild: PCGH)
  • Speichersystem der Geforce GTX 970 mit teildeaktiviertem L2-Cache (Bild: Nvidia)
  • Blockdiagramm des GM204-Chips im Vollausbau (Bild: Nvidia)
Frametimes einer GTX 980 @ GTX 970 und einer echten GTX 970. Weniger Millisekunden und gleichmäßigere Zeiten sind besser! (Bild: PCGH)

Obendrein sind zwei der 16 ROP-Partitionen abgeschaltet, statt 64 sind somit 56 Raster-Endstufen vorhanden. In der Praxis wird deren Durchsatz aber von 13 statt 16 Shader-Blöcke limitiert, die effektive Pixelfüllrate entspricht wie von uns dargelegt, nur 52 ROPs.

Unterm Strich bedeutet dies Folgendes: Werden die erste 3.584 MByte Videospeicher angesprochen, geschieht dies mit 196 GByte pro Sekunde. Der 512-MByte-Block ohne L2-Cache hingegen liefert zusätzliche 28 GByte pro Sekunde, was laut Nvidia im einstelligen Prozentbereich bremst und uns an die Geforce GTX 660 Ti erinnert. Die Geforce GTX 980 hingegen kann immer auf 224 GByte pro Sekunde zurückgreifen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Geforce GTX 980Geforce GTX 970 (bisher)Geforce GTX 970 (neu)
GPCs444
SMMs161313
ALUs2.0481.6641.664
TMUs128104104
ROPs646456
L2-Cache2.048 KByte2.048 KByte1.792 KByte
Speicherinterface256 Bit256 Bit224 + 32 Bit
Speichertakt3,5 GHz GDDR53,5 GHz GDDR53,5 GHz GDDR5
Speichermenge4.096 MByte4.096 MByte3.584 + 512 MByte
Datentransfer-Rate224 GByte/s224 GByte/s196 + 28 GByte/s
Korrigierte Spezifikationen der Geforce GTX 970


Aktuell auf der Startseite von Golem.de
Loongson 3A5000
Chinesische Quadcore-CPU mit eigenem Befehlssatz

50 Prozent schneller als der Vorgänger-Chip und dabei sparsamer: Der 3A5000 mit LoongArch-Technik stellt einen wichtigen Umbruch dar.

Loongson 3A5000: Chinesische Quadcore-CPU mit eigenem Befehlssatz
Artikel
  1. Elon Musk: Tesla Model S bekommt ausschließlich Knight-Rider-Lenkrad
    Elon Musk
    Tesla Model S bekommt ausschließlich Knight-Rider-Lenkrad

    Elon Musk hat klargestellt, dass es für das Model S und das Model X kein normales Lenkrad mehr geben wird. Das D-förmige Lenkrad ist Pflicht.

  2. Probefahrt mit EQS: Mercedes schüttelt Tesla ab, aber nicht die Klimakrise
    Probefahrt mit EQS
    Mercedes schüttelt Tesla ab, aber nicht die Klimakrise

    Der neue EQS von Mercedes-Benz widerlegt die Argumente vieler Elektroauto-Gegner. Auch die Komforttüren gefallen uns.
    Ein Bericht von Friedhelm Greis

  3. Förderprogramm: Bund will Fachkräfte für Akkuindustrie ausbilden lassen
    Förderprogramm
    Bund will Fachkräfte für Akkuindustrie ausbilden lassen

    Die Aus- und Weiterbildung für Fachleute im Bereich Akkuproduktion und -entwicklung wird mit 40 Millionen Euro aus der Staatskasse gefördert.

Anonymer Nutzer 03. Feb 2015

Das Problem scheint weit schlimmer zu sein: Siehe http://bit.ly/1ECAXJd "Bris Vorontsov...

a user 29. Jan 2015

nein sind sie eben nicht! das einzige was meistens minimal ist, ist die änderung an der...

Clown 28. Jan 2015

Nö, auch dann nicht. Außer, Du bist bei AMD angestellt und sogar für PR zuständig...

neocron 28. Jan 2015

nur einen dvi 1.3 haben die dinger nicht ... und demnach muessen die 5k umstaendlicher...

neocron 28. Jan 2015

das bezweifle ich mal ganz stark :D ich bezweifle, dass du eine andere Kaufentscheidung...



  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • 30% Rabatt auf Amazon Warehouse • ASUS TUF VG279QM 280 Hz 306,22€ • Fractal Design Meshify C Mini 69,90€ • Acer Nitro XF243Y 165Hz OC ab 169€ • Samsung C24RG54FQR 125€ • EA-Promo bei Gamesplanet • Alternate (u. a. Fractal Design Define S2 106,89€) • Roccat Horde Aimo 49€ [Werbung]
    •  /