Test: AMDs Radeon 4850 und 4870 - Nvidia unter Druck
800 Shader-Einheiten - oder?
Dem Wettrüsten der Grafikarchitekturen kann sich auch AMD mit dem ganz auf Preis/Leistung getrimmten RV770 nicht ganz entziehen. Während Nvidia für seinen GT-200 eine theoretische Rechenleistung von 933 Gigaflops angibt, protzt AMD gleich mit 1 Teraflops beziehungsweise 1,2 Teraflops für 4850 und 4870. Beide Chiphersteller beziehen sich dabei auf Multiply-Add-Schleifen bei einfacher Genauigkeit. AMD zieht gleich noch den Vergleich mit dem ersten Teraflops-Supercomputer "ASCI Red", der 1996 fast 10.000 Pentium-Pro-CPUs brauchte - seine Teraflops aber nicht nur bei zwei Instruktionen erreichte.
Dennoch ist die Rechenleistung moderner GPUs beeindruckend, etwas frech ist nur, dass AMD in seinen Präsentationen vom "Terascale Computing" spricht. Erzkonkurrent Intel hatte durch seinen damaligen CTO Pat Gelsinger schon Anfang 2004 auf dem IDF die "Era of Tera" ausgerufen.

Blockdiagramm RV770
Um auf solche Zahlen zu kommen, hat AMD gegenüber den 320 Rechenwerken des R600 ganze 800 Shader-Einheiten in den RV770 gepackt. Sie heißen schon seit dem R600 auch "Stream Processing Units", im Folgenden kurz SPUs. In Nvidias GT-200 stecken "nur" 240 SPUs. AMDs Design ist jedoch grundlegend anders. Je fünf SPUs bilden eine MIMD-Einheit für "multiple instruction, multiple data". Das ergibt dann noch 160 MIMD-Kerne, die so eher mit den 240 SPUs des GT-200 vergleichbar sind. Die 800 Kerne arbeiten nur selten völlig unabhängig voneinander.

10 SIMD-Einheiten
Weiter können aber auch noch 80 der SPUs bei AMD zu 10 SIMD-Kernen zusammengefasst werden, die also dieselben Befehle auf einen fortlaufenden Datenstrom anwenden können, "single instruction multiple data". Im MIMD-Betrieb arbeitet eine SPU der 5er-Blöcke als Akkumulator, wie in einem herkömmlichen Prozessor. Die restlichen vier Kerne rechnen und erreichen dann bei doppelter Genauigkeit laut AMD noch 240 Gigaflops.

Architekturvergleich R600 und RV770
Jeder der 10 SIMD-Kerne aus je 80 SPUs hat Zugriff auf eigene 16 KByte Cache, die man bei einer CPU als L1-Cache bezeichnen könnte. Dazu kommt außerhalb der Rechenwerke noch ein gemeinsamer Befehlscache von 16 KByte. Wiederum getrennt für die 10 SIMD-Blöcke gibt es einen L1-Cache für die Texturen, ebenfalls 16 KByte groß. Der L2-Cache für Texturen ist in vier 16-KByte-Blöcke geteilt, über einen Crossbar hat jede SIMD-Struktur Zugriff auf den gesamten L2-Cache und mithin 64 KByte. Erst danach sind die vier Speichercontroller zu finden.






Grobfug, wer informiert ist gewinnt: http://techreport.com/articles.x/15293/1 --> nach...
*fap*fap*fap*
Und siehe da, die Herrlichkeit des Nvidia Gottes offenbarte sich mir und sprach:" Du...
ich denke im folgenden Test sind gute Vergleichsmöglichkeiten vorhanden, auch wenn die...
Eigentlich ging es vorhin darum, dass eine 4870 schneller oder gleich schnell wie eine...
Kommentieren