Ampere-Architektur erklärt (2)

Jeder SM integriert erneut einen RT-Core, welcher Raytracing beschleunigt. Diese fest verdrahtete Schaltung dient dem Durchqueren der zuvor von den ALUs erstellten Beschleunigungstruktur (BVH Traversal) und der Schnittpunktprüfung mit Polygonen (Triangle Intersection), sofern vorhanden.

Stellenmarkt
  1. Central Demand Planner (m/w/d)
    Melitta Gruppe, Minden
  2. Doktorandin / Doktorand für (Bio)-Informatik oder verwandte Fächer (KI/»Data Science«)
    Universitätsklinikum Frankfurt, Frankfurt am Main
Detailsuche

Für Ampere hat Nvidia die Hardware für Letztere verdoppelt - was Spielen zugute kommt - und eine Funktion integriert, die bei einer sich bewegenden oder verformenden Geometrie deren Position interpoliert. Das ist wichtig für Bewegungsunschärfe (Motion Blur) bei Offline-Rendering wie Blender.

Die Anzahl der Tensor-Cores je SM hat Nvidia von acht auf vier halbiert, dafür aber deren Durchsatz für Matrix-Multiplikationen verdoppelt. Statt 4x4x4- werden 8x4x4-Matrizen mit FP16 verrechnet, weshalb die Geschwindigkeit pro SM identisch ist. Hinzu kommt Sparsity für eine vierfache Performance pro Tensor-Core: Dabei werden die Gewichte in neuronalen Netzen ausgedünnt, indem alle Einträge, die aus Nullen bestehen, bei der Speicherung und Ausführen entfallen. Die Tensor-Cores beherrschen kein FP64, dafür jedoch das BF16- und das TF32-Format wie schon der GA100.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)

Ampere kann Grafik- und RT- oder Compute/Tensor- und RT-Berechnungen parallel durchführen, auch zwei Compute-Worksloads sind möglich. Spiele müssen dafür angepasst werden, unsere Benchmarks mit Wolfenstein Youngblood etwa nutzen diese Funktion, um den Rekonstruktionsfilter DLSS 2.0 als Compute/Tensor-Operation für den vorherigen Frame zu berechnen, während gleichzeitig schon Grafik und Raytracing für den nächsten Frame laufen.

Golem Akademie
  1. Ansible Fundamentals: Systemdeployment & -management: virtueller Drei-Tage-Workshop
    6.–8. Dezember 2021, Virtuell
  2. Terraform mit AWS: virtueller Zwei-Tage-Workshop
    14.–15. Dezember 2021, Virtuell
Weitere IT-Trainings

GA102/GA104 weisen denselben Video-Encoder (NVENC) wie Turing auf, beim Decoding wird jedoch der aktuelle AV1-Codec unterstützt. Damit die Hardware-Beschleunigung klappt, braucht es die AV1 Video Extension für Windows 10 und Chrome v85. Dann ist 8K30-Material problemlos abspielbar, die Decode-Last liegt laut Taskmanager bei gut 50 Prozent und es werden keine Frames ausgelassen - selbst 8K60 klappt.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
8K30-Decode von AV1 (Screenshot: Golem.de)
ZOTAC Gaming GeForce RTX 3080 Trinity

Bereit für Next-Gen-Spiele

Nachdem AMD schon bei den Radeon RX 5000 die PCIe-Gen4-Schnittstelle eingeführt hatte, zieht Nvidia bei den Geforce RTX 3000 nach. Sofern der Videospeicher ausreicht, macht sich die doppelte Transferrate verglichen zu PCIe Gen3 allerdings nicht bemerkbar. Der Vollständigkeit halber sei an dieser Stelle noch erwähnt, dass Ampere wie Turing das Direc3D Feature Level 12_2 und somit DirectX 12 Ultime unterstützen.

Mit Blick auf die Next-Gen-Konsolen wichtig ist RTX I/O für DirectStorage unter Windows 10, womit bespielsweise Texturdaten komprimiert von der SSD direkt im Grafikspeicher landen, ohne von der CPU erst entpackt werden zu müssen.

Von der Software her beherrscht Ampere wie Turing auch Nvidia Broadcast für weich gezeichnete Hintergründe, ein Auto-Framing für Kopfbewegungen und eine Nebengeräusch-Unterdrückung in Videocalls. Hinzu kommt das schon ab Maxwell v2 unterstützte Nvidia Reflex, ein SDK um die Systemlatenz in Spielen zu reduzieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Ampere-Architektur erklärt (1)Bei Raster-Grafik unschlagbar 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


ms (Golem.de) 27. Sep 2020

Siehe hier ;-) https://www.golem.de/news/geforce-rtx-3090-im-test-titan-power-mit-geforce...

Clown 25. Sep 2020

Die Doku spricht von allokiertem Speicher, nicht von tatsächlich genutzen Speicher...

Clown 21. Sep 2020

Gegeben Du hast ein durchschnittliches System ohne ein Dutzend Laufwerke, drölfzig LED...

Typhlosion 18. Sep 2020

+ <3

JohnWickzer 18. Sep 2020

Für mich wirds im Januar ein Ryzen9 Zen3 12Core mit 570 Board, 32GB 3600 DDR4 und...



Aktuell auf der Startseite von Golem.de
Cloud-Ausfall
Eine AWS-Region als Single Point of Failure

Ein stundenlanger Ausfall der AWS-Cloud legte zentrale Dienste und sogar Amazon selbst teilweise lahm. Das zeigt die Grenzen der Cloud-Versprechen.
Ein Bericht von Sebastian Grüner

Cloud-Ausfall: Eine AWS-Region als Single Point of Failure
Artikel
  1. Ampelkoalition: Das Verkehrsministerium wird zum Digitalministerium
    Ampelkoalition
    Das Verkehrsministerium wird zum Digitalministerium

    Aus dem geplanten Ministerium für Verkehr und Digitales wird ein Ministerium für Digitales und Verkehr. Minister Wissing erhält zusätzliche Kompetenzen.

  2. Bundesnetzagentur: 30 Messungen an drei unterschiedlichen Kalendertagen
    Bundesnetzagentur
    30 Messungen an drei unterschiedlichen Kalendertagen

    Die Bundesnetzagentur hat festgelegt, wann der Netzbetreiber/Provider den Vertrag nicht erfüllt. Es muss viel gemessen werden.

  3. Euro NCAP: Renault Zoe mit katastrophalem Crash-Ergebnis
    Euro NCAP
    Renault Zoe mit katastrophalem Crash-Ergebnis

    Mit dem Renault Zoe sollte man keinen Unfall bauen. Im Euro-NCAP-Crashtest erhielt das Elektroauto null Sterne.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Acer-Monitore zu Bestpreisen (u. a. 27" FHD 165Hz OC 199€) • Kingston PCIe-SSD 1TB 69,90€ & 2TB 174,90€ • Samsung Smartphones & Watches günstiger • Saturn: Xiaomi Redmi Note 9 Pro 128GB 199€ • Alternate (u. a. Razer Opus Headset 69,99€) • Release: Halo Infinite 68,99€ [Werbung]
    •  /