Ampere-Architektur erklärt (2)
Jeder SM integriert erneut einen RT-Core, welcher Raytracing beschleunigt. Diese fest verdrahtete Schaltung dient dem Durchqueren der zuvor von den ALUs erstellten Beschleunigungstruktur (BVH Traversal) und der Schnittpunktprüfung mit Polygonen (Triangle Intersection), sofern vorhanden.
Für Ampere hat Nvidia die Hardware für Letztere verdoppelt - was Spielen zugute kommt - und eine Funktion integriert, die bei einer sich bewegenden oder verformenden Geometrie deren Position interpoliert. Das ist wichtig für Bewegungsunschärfe (Motion Blur) bei Offline-Rendering wie Blender.
Die Anzahl der Tensor-Cores je SM hat Nvidia von acht auf vier halbiert, dafür aber deren Durchsatz für Matrix-Multiplikationen verdoppelt. Statt 4x4x4- werden 8x4x4-Matrizen mit FP16 verrechnet, weshalb die Geschwindigkeit pro SM identisch ist. Hinzu kommt Sparsity für eine vierfache Performance pro Tensor-Core: Dabei werden die Gewichte in neuronalen Netzen ausgedünnt, indem alle Einträge, die aus Nullen bestehen, bei der Speicherung und Ausführen entfallen. Die Tensor-Cores beherrschen kein FP64, dafür jedoch das BF16- und das TF32-Format wie schon der GA100.
Ampere kann Grafik- und RT- oder Compute/Tensor- und RT-Berechnungen parallel durchführen, auch zwei Compute-Worksloads sind möglich. Spiele müssen dafür angepasst werden, unsere Benchmarks mit Wolfenstein Youngblood etwa nutzen diese Funktion, um den Rekonstruktionsfilter DLSS 2.0 als Compute/Tensor-Operation für den vorherigen Frame zu berechnen, während gleichzeitig schon Grafik und Raytracing für den nächsten Frame laufen.
GA102/GA104 weisen denselben Video-Encoder (NVENC) wie Turing auf, beim Decoding wird jedoch der aktuelle AV1-Codec unterstützt. Damit die Hardware-Beschleunigung klappt, braucht es die AV1 Video Extension für Windows 10 und Chrome v85. Dann ist 8K30-Material problemlos abspielbar, die Decode-Last liegt laut Taskmanager bei gut 50 Prozent und es werden keine Frames ausgelassen.
Bereit für Next-Gen-Spiele
Nachdem AMD schon bei den Radeon RX 5000 die PCIe-Gen4-Schnittstelle eingeführt hatte, zieht Nvidia bei den Geforce RTX 3000 nach. Sofern der Videospeicher ausreicht, macht sich die doppelte Transferrate verglichen zu PCIe Gen3 allerdings nicht bemerkbar. Der Vollständigkeit halber sei an dieser Stelle noch erwähnt, dass Ampere wie Turing das Direc3D Feature Level 12_2 und somit DirectX 12 Ultime unterstützen.
Mit Blick auf die Next-Gen-Konsolen wichtig ist RTX I/O für DirectStorage unter Windows 10, womit bespielsweise Texturdaten komprimiert von der SSD direkt im Grafikspeicher landen, ohne von der CPU erst entpackt werden zu müssen.
Von der Software her beherrscht Ampere wie Turing auch Nvidia Broadcast für weich gezeichnete Hintergründe, ein Auto-Framing für Kopfbewegungen und eine Nebengeräusch-Unterdrückung in Videocalls. Hinzu kommt das schon ab Maxwell v2 unterstützte Nvidia Reflex, ein SDK um die Systemlatenz in Spielen zu reduzieren.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Ampere-Architektur erklärt (1) | Bei Raster-Grafik unschlagbar |
Siehe hier ;-) https://www.golem.de/news/geforce-rtx-3090-im-test-titan-power-mit-geforce...
Die Doku spricht von allokiertem Speicher, nicht von tatsächlich genutzen Speicher...
Gegeben Du hast ein durchschnittliches System ohne ein Dutzend Laufwerke, drölfzig LED...
+ <3
Für mich wirds im Januar ein Ryzen9 Zen3 12Core mit 570 Board, 32GB 3600 DDR4 und...