• IT-Karriere:
  • Services:

Ampere-Architektur erklärt (2)

Jeder SM integriert erneut einen RT-Core, welcher Raytracing beschleunigt. Diese fest verdrahtete Schaltung dient dem Durchqueren der zuvor von den ALUs erstellten Beschleunigungstruktur (BVH Traversal) und der Schnittpunktprüfung mit Polygonen (Triangle Intersection), sofern vorhanden.

Stellenmarkt
  1. THD - Technische Hochschule Deggendorf, Deggendorf
  2. Sanner GmbH, Bensheim bei Darmstadt

Für Ampere hat Nvidia die Hardware für Letztere verdoppelt - was Spielen zugute kommt - und eine Funktion integriert, die bei einer sich bewegenden oder verformenden Geometrie deren Position interpoliert. Das ist wichtig für Bewegungsunschärfe (Motion Blur) bei Offline-Rendering wie Blender.

Die Anzahl der Tensor-Cores je SM hat Nvidia von acht auf vier halbiert, dafür aber deren Durchsatz für Matrix-Multiplikationen verdoppelt. Statt 4x4x4- werden 8x4x4-Matrizen mit FP16 verrechnet, weshalb die Geschwindigkeit pro SM identisch ist. Hinzu kommt Sparsity für eine vierfache Performance pro Tensor-Core: Dabei werden die Gewichte in neuronalen Netzen ausgedünnt, indem alle Einträge, die aus Nullen bestehen, bei der Speicherung und Ausführen entfallen. Die Tensor-Cores beherrschen kein FP64, dafür jedoch das BF16- und das TF32-Format wie schon der GA100.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)

Ampere kann Grafik- und RT- oder Compute/Tensor- und RT-Berechnungen parallel durchführen, auch zwei Compute-Worksloads sind möglich. Spiele müssen dafür angepasst werden, unsere Benchmarks mit Wolfenstein Youngblood etwa nutzen diese Funktion, um den Rekonstruktionsfilter DLSS 2.0 als Compute/Tensor-Operation für den vorherigen Frame zu berechnen, während gleichzeitig schon Grafik und Raytracing für den nächsten Frame laufen.

GA102/GA104 weisen denselben Video-Encoder (NVENC) wie Turing auf, beim Decoding wird jedoch der aktuelle AV1-Codec unterstützt. Damit die Hardware-Beschleunigung klappt, braucht es die AV1 Video Extension für Windows 10 und Chrome v85. Dann ist 8K30-Material problemlos abspielbar, die Decode-Last liegt laut Taskmanager bei gut 50 Prozent und es werden keine Frames ausgelassen.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
8K30-Decode von AV1 (Screenshot: Golem.de)
ZOTAC Gaming GeForce RTX 3080 Trinity

Bereit für Next-Gen-Spiele

Nachdem AMD schon bei den Radeon RX 5000 die PCIe-Gen4-Schnittstelle eingeführt hatte, zieht Nvidia bei den Geforce RTX 3000 nach. Sofern der Videospeicher ausreicht, macht sich die doppelte Transferrate verglichen zu PCIe Gen3 allerdings nicht bemerkbar. Der Vollständigkeit halber sei an dieser Stelle noch erwähnt, dass Ampere wie Turing das Direc3D Feature Level 12_2 und somit DirectX 12 Ultime unterstützen.

Mit Blick auf die Next-Gen-Konsolen wichtig ist RTX I/O für DirectStorage unter Windows 10, womit bespielsweise Texturdaten komprimiert von der SSD direkt im Grafikspeicher landen, ohne von der CPU erst entpackt werden zu müssen.

Von der Software her beherrscht Ampere wie Turing auch Nvidia Broadcast für weich gezeichnete Hintergründe, ein Auto-Framing für Kopfbewegungen und eine Nebengeräusch-Unterdrückung in Videocalls. Hinzu kommt das schon ab Maxwell v2 unterstützte Nvidia Reflex, ein SDK um die Systemlatenz in Spielen zu reduzieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Ampere-Architektur erklärt (1)Bei Raster-Grafik unschlagbar 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Anzeige
Spiele-Angebote
  1. 8,99€
  2. 3,39€

ms (Golem.de) 27. Sep 2020

Siehe hier ;-) https://www.golem.de/news/geforce-rtx-3090-im-test-titan-power-mit-geforce...

Clown 25. Sep 2020

Die Doku spricht von allokiertem Speicher, nicht von tatsächlich genutzen Speicher...

Clown 21. Sep 2020

Gegeben Du hast ein durchschnittliches System ohne ein Dutzend Laufwerke, drölfzig LED...

Typhlosion 18. Sep 2020

+ <3

JohnWickzer 18. Sep 2020

Für mich wirds im Januar ein Ryzen9 Zen3 12Core mit 570 Board, 32GB 3600 DDR4 und...


Folgen Sie uns
       


Polestar 2 Probe gefahren

Wir sind mit dem Polestar 2 eine längere Strecke gefahren und waren von dem Elektroauto von Volvo angetan.

Polestar 2 Probe gefahren Video aufrufen
Programm für IT-Jobeinstieg: Hoffen auf den Klebeeffekt
Programm für IT-Jobeinstieg
Hoffen auf den Klebeeffekt

Aktuell ist der Jobeinstieg für junge Ingenieure und Informatiker schwer. Um ihnen zu helfen, hat das Land Baden-Württemberg eine interessante Idee: Es macht sich selbst zur Zeitarbeitsfirma.
Ein Bericht von Peter Ilg

  1. Arbeitszeit Das Sechs-Stunden-Experiment bei Sipgate
  2. Neuorientierung im IT-Job Endlich mal machen!
  3. IT-Unternehmen Die richtige Software für ein Projekt finden

Weclapp-CTO Ertan Özdil: Wir dürfen nicht in Schönheit und Perfektion untergehen!
Weclapp-CTO Ertan Özdil
"Wir dürfen nicht in Schönheit und Perfektion untergehen!"

Der CTO von Weclapp träumt von smarter Software, die menschliches Eingreifen in der nächsten ERP-Generation reduziert. Deutschen Perfektionismus hält Ertan Özdil aber für gefährlich.
Ein Interview von Maja Hoock


    Fiat 500 als E-Auto im Test: Kleinstwagen mit großem Potenzial
    Fiat 500 als E-Auto im Test
    Kleinstwagen mit großem Potenzial

    Fiat hat einen neuen 500er entwickelt. Der Kleine fährt elektrisch - und zwar richtig gut.
    Ein Test von Peter Ilg

    1. Vierradlenkung Elektrischer GMC Hummer SUV fährt im Krabbengang seitwärts
    2. MG Cyberster MG B Roadster mit Lasergürtel und Union Jack
    3. Elektroauto E-Auto-Prämie übersteigt in 2021 schon Vorjahressumme

      •  /