• IT-Karriere:
  • Services:

Ampere-Architektur erklärt (2)

Jeder SM integriert erneut einen RT-Core, welcher Raytracing beschleunigt. Diese fest verdrahtete Schaltung dient dem Durchqueren der zuvor von den ALUs erstellten Beschleunigungstruktur (BVH Traversal) und der Schnittpunktprüfung mit Polygonen (Triangle Intersection), sofern vorhanden.

Stellenmarkt
  1. Dusyma Kindergartenbedarf GmbH, Schorndorf bei Stuttgart
  2. Securiton GmbH IPS Intelligent Video Analytics, München

Für Ampere hat Nvidia die Hardware für Letztere verdoppelt - was Spielen zugute kommt - und eine Funktion integriert, die bei einer sich bewegenden oder verformenden Geometrie deren Position interpoliert. Das ist wichtig für Bewegungsunschärfe (Motion Blur) bei Offline-Rendering wie Blender.

Die Anzahl der Tensor-Cores je SM hat Nvidia von acht auf vier halbiert, dafür aber deren Durchsatz für Matrix-Multiplikationen verdoppelt. Statt 4x4x4- werden 8x4x4-Matrizen mit FP16 verrechnet, weshalb die Geschwindigkeit pro SM identisch ist. Hinzu kommt Sparsity für eine vierfache Performance pro Tensor-Core: Dabei werden die Gewichte in neuronalen Netzen ausgedünnt, indem alle Einträge, die aus Nullen bestehen, bei der Speicherung und Ausführen entfallen. Die Tensor-Cores beherrschen kein FP64, dafür jedoch das BF16- und das TF32-Format wie schon der GA100.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)

Ampere kann Grafik- und RT- oder Compute/Tensor- und RT-Berechnungen parallel durchführen, auch zwei Compute-Worksloads sind möglich. Spiele müssen dafür angepasst werden, unsere Benchmarks mit Wolfenstein Youngblood etwa nutzen diese Funktion, um den Rekonstruktionsfilter DLSS 2.0 als Compute/Tensor-Operation für den vorherigen Frame zu berechnen, während gleichzeitig schon Grafik und Raytracing für den nächsten Frame laufen.

GA102/GA104 weisen denselben Video-Encoder (NVENC) wie Turing auf, beim Decoding wird jedoch der aktuelle AV1-Codec unterstützt. Damit die Hardware-Beschleunigung klappt, braucht es die AV1 Video Extension für Windows 10 und Chrome v85. Dann ist 8K30-Material problemlos abspielbar, die Decode-Last liegt laut Taskmanager bei gut 50 Prozent und es werden keine Frames ausgelassen.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
8K30-Decode von AV1 (Screenshot: Golem.de)
ZOTAC Gaming GeForce RTX 3080 Trinity

Bereit für Next-Gen-Spiele

Nachdem AMD schon bei den Radeon RX 5000 die PCIe-Gen4-Schnittstelle eingeführt hatte, zieht Nvidia bei den Geforce RTX 3000 nach. Sofern der Videospeicher ausreicht, macht sich die doppelte Transferrate verglichen zu PCIe Gen3 allerdings nicht bemerkbar. Der Vollständigkeit halber sei an dieser Stelle noch erwähnt, dass Ampere wie Turing das Direc3D Feature Level 12_2 und somit DirectX 12 Ultime unterstützen.

Mit Blick auf die Next-Gen-Konsolen wichtig ist RTX I/O für DirectStorage unter Windows 10, womit bespielsweise Texturdaten komprimiert von der SSD direkt im Grafikspeicher landen, ohne von der CPU erst entpackt werden zu müssen.

Von der Software her beherrscht Ampere wie Turing auch Nvidia Broadcast für weich gezeichnete Hintergründe, ein Auto-Framing für Kopfbewegungen und eine Nebengeräusch-Unterdrückung in Videocalls. Hinzu kommt das schon ab Maxwell v2 unterstützte Nvidia Reflex, ein SDK um die Systemlatenz in Spielen zu reduzieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Ampere-Architektur erklärt (1)Bei Raster-Grafik unschlagbar 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Anzeige
Top-Angebote
  1. (u. a. Close Combat - Gateway to Caen für 7,77€, Ace Combat 7: Skies Unknown Deluxe Edition für...
  2. 499,99€ (Release 10.11.)
  3. 299,99€ (Release 10.11.)
  4. (u. a. Apacer DIMM 16 GB DDR4-3200 Kit für 57,90€, JBL Tuner XL Radio für 129,90€, Deepcool...

Clown 21. Sep 2020 / Themenstart

Hast Du da ein Beispiel? Wenn ich Videospeicher allokiere, dann mach ich das auf der...

yumiko 21. Sep 2020 / Themenstart

Der Takt der 3090 ist nicht höher, eher etwas niedriger. Der Stromverbraucht ist 10...

Clown 21. Sep 2020 / Themenstart

Gegeben Du hast ein durchschnittliches System ohne ein Dutzend Laufwerke, drölfzig LED...

Typhlosion 18. Sep 2020 / Themenstart

+ <3

JohnWickzer 18. Sep 2020 / Themenstart

Für mich wirds im Januar ein Ryzen9 Zen3 12Core mit 570 Board, 32GB 3600 DDR4 und...

Kommentieren


Folgen Sie uns
       


    •  /