RDNA2: To Infinity and Beyond!

Während der Navi 10 noch als Midrange-Chip designt worden war, war Navi 21 von Beginn an für Größeres bestimmt: Beide GPUs lässt AMD beim Auftragsfertiger TSMC produzieren, es kommt jeweils das N7P-Verfahren mit klassischer Immersionslithografie (DUV) zum Einsatz. Mit 519 mm² und 26,8 Milliarden Transistoren weist der Navi 21 mehr als die doppelte Die-Fläche und gut die 2,5-fache Menge an Schaltelementen auf (251 mm² bei 10,3 Milliarden).

Stellenmarkt
  1. Business Intelligence Developer (m/w/d)
    Christian Funk Holding GmbH & Co. KG, Offenburg
  2. Senior Projektleiter (d/m/w) im Bereich IT-Digitalisierung
    NÜRNBERGER Versicherung, Nürnberg
Detailsuche

Die überproportional gestiegene Menge an Transistoren lässt sich vergleichsweise leicht erklären: So hat AMD zwar die Menge der Shader Engines, der Compute Units, der ALUs und der Textureinheiten ebenso verdoppelt wie die Anzahl der verbesserten Raster-Endstufen (ROPs), es aber nicht dabei belassen. Auch die GPU-Frequenz steigt von rund 1,9 GHz auf fast 2,3 GHz und die einzelnen Blöcke wurden in ihrem Funktionsumfang erweitert.

Anstatt jedoch das GDDR6-Speicherinterface von 256 Bit auf 512 Bit zu verdoppeln, hat sich AMD für eine ungewöhnliche Lösung entschieden. Vorab sei gesagt, dass ein 512-Bit-Interface nicht neu wäre, denn das gab es schon bei der Radeon R9 290X. Der Platzbedarf im Chip ist allerdings enorm und das Routing auf der Platine äußerst aufwendig. Nvidia nutzt daher 384 Bit mit extrem schnellem GDDR6X-Speicher bei den Geforce-Karten und teurem HBM2(E)-Stacked-Memory bei den HPC-Beschleunigern.

  • Navi 21 im Überblick (Bild: AMD)
  • Navi 21 im Überblick (Bild: AMD)
  • Navi 21 im Überblick (Bild: AMD)
  • RDNA2 taktet höher als RDNA1. (Bild: AMD)
  • Ungeachtet dessen steigt die Effizienz. (Bild: AMD)
  • Statt 384 Bit gibt es den Infinity Cache. (Bild: AMD)
  • Der liefert eine weitaus höhere Bandbreite als GDDR6 ... (Bild: AMD)
  • ... bei einer durchschnittlich niedrigeren Latenz. (Bild: AMD)
  • Der Infinity Cache taktet dynamisch zugunsten der Effizienz. (Bild: AMD)
  • Auch die anderes Caches wurden überarbeitet, etwa der L2. (Bild: AMD)
  • Jede Compute Unit umfasst einen Ray Accelerator zur Schnittpunktprüfung. (Bild: AMD)
  • Navi 21 unterstützt DirectX 12 Ultimate. (Bild: AMD)
  • Formate wie INT8 sind für Super Resolution wichtig. (Bild: AMD)
Navi 21 im Überblick (Bild: AMD)
Navi 24Navi 23Navi 22Navi 21
CodenameBeige GobyDimgrey CavefishNavy FlounderSienna Cichlid
FertigungN6 (TSMC)N7P (TSMC)N7P (TSMC)N7P (TSMC)
Die-Size 107 mm²237 mm²336 mm²519 mm²
Transistoren5,4 Mrd11,06 Mrd17,2 Mrd26,8 Mrd
Shader Engines1224
Compute Units16324080
ALUs1.0242.0482.5605.120
Textureinheiten64128160320
Ray Accelerator16324080
L2-Cache1 MByte2 MByte3 MByte4 MByte
Interface64 Bit128 Bit192 Bit 256 Bit
SpeicherGDDR6GDDR6GDDR6GDDR6
Infinity Cache16 MByte (256 Bit)32 MByte (512 Bit)96 MByte (768 Bit)128 MByte (1.024 Bit)
ROPs326464128
PCIeGen4 x4Gen4 x8Gen4 x16Gen4 x16
Spezifikationen der Navi-2x-GPUs von AMD

Grundsätzlich wird eine hohe Transfer-Rate benötigt, damit die GPU die notwendigen Daten zur Verarbeitung möglichst schnell geliefert bekommt. Es lohnt sich daher, Informationen lokal vorzuhalten - Microsoft hatte beim SoC der Xbox 360 ein paar MByte an eDRAM verbaut und Intel nutzte einst eDRAM als L4 (Crystalwell). Noch besser ist SRAM, weshalb der Chip der Xbox One davon 32 MByte aufweist und Nvidia beim GA100-Chip für Supercomputer gleich 48 MByte L2-Cache integriert. AMD führt dieses Prinzip fort, wenngleich eine Stufe weiter oben in der Puffer-Hierarchie.

Golem Akademie
  1. Cloud Competence Center: Strategien, Roadmap, Governance: virtueller Ein-Tages-Workshop
    26.07.2022, Virtuell
  2. Entwicklung mit Unity auf der Microsoft HoloLens 2 Plattform: virtueller Zwei-Tage-Workshop
    07./08.06.2022, Virtuell
Weitere IT-Trainings

Passend zum Fabric, das alle Funktionsblöcke im Navi 21 verknüpft, wird der GPU-nahe Speicher als Infinity Cache bezeichnet. Während das 256-Bit-Interface zwar 16 GByte GDDR6 anbindet, überträgt es nur 512 GByte/s. Der Infinity Cache hingegen besteht aus 128 MByte SRAM und liefert in der Spitze bis zu 2 TByte! Möglich wird das durch ein 1.024 Bit breites Interface und Speicherzellen, die wie das Infinity Fabric takten. Der Clou: Wird Bandbreite gebraucht, steigt die Frequenz auf bis zu 1,94 GHz - muss die GPU ran, drosselt der Infinity Cache bis hinab zu 1,4 GHz und gibt so Energie frei.

AMD Radeon RX 6800 (XT)
  • Navi 21 im Überblick (Bild: AMD)
  • Navi 21 im Überblick (Bild: AMD)
  • Navi 21 im Überblick (Bild: AMD)
  • RDNA2 taktet höher als RDNA1. (Bild: AMD)
  • Ungeachtet dessen steigt die Effizienz. (Bild: AMD)
  • Statt 384 Bit gibt es den Infinity Cache. (Bild: AMD)
  • Der liefert eine weitaus höhere Bandbreite als GDDR6 ... (Bild: AMD)
  • ... bei einer durchschnittlich niedrigeren Latenz. (Bild: AMD)
  • Der Infinity Cache taktet dynamisch zugunsten der Effizienz. (Bild: AMD)
  • Auch die anderes Caches wurden überarbeitet, etwa der L2. (Bild: AMD)
  • Jede Compute Unit umfasst einen Ray Accelerator zur Schnittpunktprüfung. (Bild: AMD)
  • Navi 21 unterstützt DirectX 12 Ultimate. (Bild: AMD)
  • Formate wie INT8 sind für Super Resolution wichtig. (Bild: AMD)
Statt 384 Bit gibt es den Infinity Cache. (Bild: AMD)

Neben der reinen Bandbreite ist SRAM zudem DRAM bei der Latenz überlegen, vereinfacht ausgedrückt erfolgen Zugriffe im besten Fall etwa doppelt so flott. Weil der Infinity Cache alleine aber nicht ausreicht und auch Daten im GDDR6-Speicher liegen, soll laut AMD die durchschnittliche Latenz bei Navi 21 um ein Drittel kürzer sein als bei Navi 10. Hinzu kommt, dass GDDR6 vergleichsweise viel Energie aufnimmt - der Infinity Cache ist weitaus sparsamer, die Effizienz des Speichersubsystems steigt also drastisch an.

Ein gewollter Nebeneffekt des Puffers stellt überdies der positive Performance-Einfluss bei Raytracing dar, denn der Infinity Cache spielt hier eine entscheidende Rolle. Als eine der wichtigsten Neuerungen verfügt die RDNA2-Architektur von Navi 21 über sogenannte Ray Accelerators, also Hardware, um Raytracing-Berechnungen schneller zu erledigen. In jeder Compute Unit (CU) sitzt einer davon als Teil der vierfach ausgelegten Textureinheit (Quad-TMU), so wie sich bei Nvidia in jedem Shader Multiprocessor (SM) ein RT-Core befindet. Technisch unterscheiden sich beide Ansätze deutlich.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Radeon RX 6800 (XT) im Test: Die Rückkehr der Radeon-RitterRDNA2: Ray Accelerator & DX12 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


yumiko 23. Nov 2020

Kuriosität wäre eien gute Voraussetzung für einen ausführlichen Technik Artikel ^^ Für...

ms (Golem.de) 20. Nov 2020

Das ist schlicht AMDs eigene Bezeichnung für Resizable BAR Support, denn immerhin muss...

TomsonThomson 20. Nov 2020

Bringt dir halt nur gar nix, wenn die Software die man braucht kein ROCm unterstüzt. Was...

elknipso 19. Nov 2020

Werd erwachsen.



Aktuell auf der Startseite von Golem.de
Telemetrie
Voyager 1 weiß wohl nicht, wo sie ist

Seit 1977 befindet sich die Raumsonde Voyager 1 auf ihrer Reise durchs All. Die neusten Daten scheinen einen falschen Standort anzuzeigen.

Telemetrie: Voyager 1 weiß wohl nicht, wo sie ist
Artikel
  1. Übernahme: Broadcom verhandelt Kauf von VMware
    Übernahme
    Broadcom verhandelt Kauf von VMware

    Eine Übernahme von VMware hätte mindestens ein Volumen von 40 Milliarden US-Dollar. Dell will die Beteiligung verkaufen.

  2. Kubernetes-Kontrollcenter: Mit YTT-Templates Kubernetes-Cluster besser verwalten
    Kubernetes-Kontrollcenter
    Mit YTT-Templates Kubernetes-Cluster besser verwalten

    Wir zeigen, wie man mit zentraler und automatisierter YAML-Generierung Hunderte Microservices spielend verwalten kann.
    Eine Anleitung von Jochen R. Meyer

  3. Halbleiterfertigung: Joe Biden bekommt erste 3-nm-Chips gezeigt
    Halbleiterfertigung
    Joe Biden bekommt erste 3-nm-Chips gezeigt

    Bei einem Amtsbesuch in Südkorea hat US-Präsident Joe Biden auch eine Fab von Samsung Foundry besucht und die neue 3-nm-Technik gelobt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MindStar (u. a. AMD Ryzen 9 5950X 488€, MSI RTX 3090 Gaming X Trio 1.799€) • Cyber Week: Jetzt alle Deals freigeschaltet • LG OLED TV 77" 62% günstiger: 1.749€ • Bis zu 35% auf MSI • Alternate (u. a. AKRacing Core EX SE Gaming-Stuhl 169€) [Werbung]
    •  /