RDNA2: To Infinity and Beyond!
Während der Navi 10 noch als Midrange-Chip designt worden war, war Navi 21 von Beginn an für Größeres bestimmt: Beide GPUs lässt AMD beim Auftragsfertiger TSMC produzieren, es kommt jeweils das N7P-Verfahren mit klassischer Immersionslithografie (DUV) zum Einsatz. Mit 519 mm² und 26,8 Milliarden Transistoren weist der Navi 21 mehr als die doppelte Die-Fläche und gut die 2,5-fache Menge an Schaltelementen auf (251 mm² bei 10,3 Milliarden).
Die überproportional gestiegene Menge an Transistoren lässt sich vergleichsweise leicht erklären: So hat AMD zwar die Menge der Shader Engines, der Compute Units, der ALUs und der Textureinheiten ebenso verdoppelt wie die Anzahl der verbesserten Raster-Endstufen (ROPs), es aber nicht dabei belassen. Auch die GPU-Frequenz steigt von rund 1,9 GHz auf fast 2,3 GHz und die einzelnen Blöcke wurden in ihrem Funktionsumfang erweitert.
Anstatt jedoch das GDDR6-Speicherinterface von 256 Bit auf 512 Bit zu verdoppeln, hat sich AMD für eine ungewöhnliche Lösung entschieden. Vorab sei gesagt, dass ein 512-Bit-Interface nicht neu wäre, denn das gab es schon bei der Radeon R9 290X. Der Platzbedarf im Chip ist allerdings enorm und das Routing auf der Platine äußerst aufwendig. Nvidia nutzt daher 384 Bit mit extrem schnellem GDDR6X-Speicher bei den Geforce-Karten und teurem HBM2(E)-Stacked-Memory bei den HPC-Beschleunigern.
Navi 24 | Navi 23 | Navi 22 | Navi 21 | |
---|---|---|---|---|
Codename | Beige Goby | Dimgrey Cavefish | Navy Flounder | Sienna Cichlid |
Fertigung | N6 (TSMC) | N7P (TSMC) | N7P (TSMC) | N7P (TSMC) |
Die-Size | 107 mm² | 237 mm² | 336 mm² | 519 mm² |
Transistoren | 5,4 Mrd | 11,06 Mrd | 17,2 Mrd | 26,8 Mrd |
Shader Engines | 1 | 2 | 2 | 4 |
Compute Units | 16 | 32 | 40 | 80 |
ALUs | 1.024 | 2.048 | 2.560 | 5.120 |
Textureinheiten | 64 | 128 | 160 | 320 |
Ray Accelerator | 16 | 32 | 40 | 80 |
L2-Cache | 1 MByte | 2 MByte | 3 MByte | 4 MByte |
Interface | 64 Bit | 128 Bit | 192 Bit | 256 Bit |
Speicher | GDDR6 | GDDR6 | GDDR6 | GDDR6 |
Infinity Cache | 16 MByte (256 Bit) | 32 MByte (512 Bit) | 96 MByte (768 Bit) | 128 MByte (1.024 Bit) |
ROPs | 32 | 64 | 64 | 128 |
PCIe | Gen4 x4 | Gen4 x8 | Gen4 x16 | Gen4 x16 |
Grundsätzlich wird eine hohe Transfer-Rate benötigt, damit die GPU die notwendigen Daten zur Verarbeitung möglichst schnell geliefert bekommt. Es lohnt sich daher, Informationen lokal vorzuhalten - Microsoft hatte beim SoC der Xbox 360 ein paar MByte an eDRAM verbaut und Intel nutzte einst eDRAM als L4 (Crystalwell). Noch besser ist SRAM, weshalb der Chip der Xbox One davon 32 MByte aufweist und Nvidia beim GA100-Chip für Supercomputer gleich 48 MByte L2-Cache integriert. AMD führt dieses Prinzip fort, wenngleich eine Stufe weiter oben in der Puffer-Hierarchie.
Passend zum Fabric, das alle Funktionsblöcke im Navi 21 verknüpft, wird der GPU-nahe Speicher als Infinity Cache bezeichnet. Während das 256-Bit-Interface zwar 16 GByte GDDR6 anbindet, überträgt es nur 512 GByte/s. Der Infinity Cache hingegen besteht aus 128 MByte SRAM und liefert in der Spitze bis zu 2 TByte! Möglich wird das durch ein 1.024 Bit breites Interface und Speicherzellen, die wie das Infinity Fabric takten. Der Clou: Wird Bandbreite gebraucht, steigt die Frequenz auf bis zu 1,94 GHz - muss die GPU ran, drosselt der Infinity Cache bis hinab zu 1,4 GHz und gibt so Energie frei.
Neben der reinen Bandbreite ist SRAM zudem DRAM bei der Latenz überlegen, vereinfacht ausgedrückt erfolgen Zugriffe im besten Fall etwa doppelt so flott. Weil der Infinity Cache alleine aber nicht ausreicht und auch Daten im GDDR6-Speicher liegen, soll laut AMD die durchschnittliche Latenz bei Navi 21 um ein Drittel kürzer sein als bei Navi 10. Hinzu kommt, dass GDDR6 vergleichsweise viel Energie aufnimmt - der Infinity Cache ist weitaus sparsamer, die Effizienz des Speichersubsystems steigt also drastisch an.
Ein gewollter Nebeneffekt des Puffers stellt überdies der positive Performance-Einfluss bei Raytracing dar, denn der Infinity Cache spielt hier eine entscheidende Rolle. Als eine der wichtigsten Neuerungen verfügt die RDNA2-Architektur von Navi 21 über sogenannte Ray Accelerators, also Hardware, um Raytracing-Berechnungen schneller zu erledigen. In jeder Compute Unit (CU) sitzt einer davon als Teil der vierfach ausgelegten Textureinheit (Quad-TMU), so wie sich bei Nvidia in jedem Shader Multiprocessor (SM) ein RT-Core befindet. Technisch unterscheiden sich beide Ansätze deutlich.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Radeon RX 6800 (XT) im Test: Die Rückkehr der Radeon-Ritter | RDNA2: Ray Accelerator & DX12 |
Kuriosität wäre eien gute Voraussetzung für einen ausführlichen Technik Artikel ^^ Für...
Das ist schlicht AMDs eigene Bezeichnung für Resizable BAR Support, denn immerhin muss...
Bringt dir halt nur gar nix, wenn die Software die man braucht kein ROCm unterstüzt. Was...
Werd erwachsen.