Abo
  • Services:

Grafikkarten: Das kann Nvidias Turing-Architektur

Zwei Jahre nach Pascal folgt Turing: Die GPU-Architektur führt Tensor-Cores und RT-Kerne für Spieler ein. Die Geforce RTX haben mächtige Shader-Einheiten, große Caches sowie GDDR6-Videospeicher für Raytracing, für Deep-Learning-Kantenglättung und für mehr Leistung.

Ein Bericht von veröffentlicht am
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing!
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing! (Bild: Martin Wolf/Golem.de)

Zu Lebzeiten wurde Alan Turing alles anderes als gehuldigt - im Gegenteil: Obwohl der britische Mathematiker maßgeblich an der Entschlüsslung der Enigma der Nazis beteiligt und einer der Wegbereiter moderner Kryptographie war, ließ ihn die damalige Regierung wegen seiner Homosexualität chemisch kastrieren. Es dauerte viele Jahrzehnte, bis die Queen ihn für seine herausragenden Leistungen posthum würdigte und offiziell rehabilitierte.

Inhalt:
  1. Grafikkarten: Das kann Nvidias Turing-Architektur
  2. Spezialeinheiten für AI und RT

64 Jahre nach seinem Tod lebt Turing als Codename für Nvidias neue Grafikchip-Generation weiter, der Hersteller spricht bei den Geforce RTX vom größten Technologieschritt seit dem legendären G80 der Geforce 8800 GTX. Wir erläutern in diesem Artikel die technischen Details der Turing-Architektur, ihre Besonderheiten und die darauf basierenden Chips namens TU102 und TU104 sowie TU106. Uns liegen zwar Messwerte der Geforce RTX vor, wir dürfen vorerst aber nur das wiedergeben, was Nvidia auf dem Editor's Day und in einem Whitepaper zur Verfügung gestellt hat.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Turing folgt auf Pascal. (Bild: Nvidia)

Turing ist als Geforce RTX und Quadro RTX für Spieler- und Workstation-Karten gedacht, für das HPC-Segment (High Performance Computing) gibt es mit der Tesla V100 und der Volta-Architektur eigene Beschleuniger. Allerdings erinnert Turing in vielen Bereichen stark an Volta, die Unterschiede zur bisherigen Pascal-Technik sind auf den ersten Blick offensichtlich: Zwar weisen die GPUs eine gesteigerte Leistung für konventionelle Workloads wie Gaming und Rendering auf, Nvidia hat aber Teile der Chips zur Beschleunigung von Raytracing und Deep Learning (Inferencing) reserviert.

Weil die 7-nm-Fertigung noch nicht bereit für große Dies ist, lässt Nvidia die TU-Grafikchips beim Auftragsfertiger TSMC im 12FFN-Verfahren herstellen. Dahinter verbirgt sich kein 12-nm-Node, sondern optimierte 16-nm-Technik, denn FFN steht für FinFet Nvidia. Der TU102-Chip weist mit 754 mm² sehr viel Fläche aus, Gleiches gilt für den TU104 mit 545 mm² und den TU106 mit 445 mm². Die Vorgänger sind mit 471 mm² (GP102), 314 mm² (GP104) und 200 mm² (GP106) viel kompakter. Mehr noch: Der TU106 ist fast so groß wie der GP102 und damit nach bisherigen Maßstäben schon Highend statt Mittelklasse.

TU102TU104TU106
Die-Size754 mm²545 mm²445 mm²
Transistoren18,6 Milliarden13,6 Milliarden10,8 Milliarden
GPCs663
Polymorph362418
SMs724836
ALUs4.6083.0722.304
TMUs288192144
RT-Cores724836
Tensor-Cores576 384288
L2-Cache6 MByte4 MByte4 MByte
Speicher-Interface384 Bit256 Bit256 Bit
ROPs966464
NV-Linkja (2x)ja (1x)nein
Turing-GPUs von Nvidia
Stellenmarkt
  1. soft-nrg Development GmbH', Dornach
  2. BWI GmbH, München, Meckenheim, Hilden

Ein Blick auf den Aufbau der einzelnen Chips zeigt, dass der TU106 einen halben TU102 darstellt, jedoch nicht mit 192- sondern mit 256-Bit-Interface. Das dürfte auch erklären, warum der TU106 nur 100 mm² kleiner als der TU104 ist, da die zusätzlichen Shader-Einheiten verglichen mit dem GDDR6-Interface wenig Platz einnehmen. Jede Turing-GPU setzt sich klassisch aus mehreren Graphics Processing Clusters (GPCs) mit den Raster-Engines zusammen, in denen wiederum die Texture Processing Cluster (TPCs) mit den Polymorph-Engines für Tesselation und darin die Streaming Multiprocessors (SMs) samt den ALUs sowie den neuen Tensor- und RT-Cores stecken. Interessant ist, dass der TU104 sechs statt vier GPCs hat, was ihn stärker vom TU106 absetzt.

Alle Turing-Chips nutzten GDDR6- statt GDDR5(X)-Videospeicher, womit bei gleicher Busbreite durch höhere Taktraten die Datentransfer-Rate deutlich steigt. Überdies hat Nvidia laut eigener Angabe die verlustfreie Kompression noch weiter verbessert, womit die effektive Bandbreite um 15 bis 30 Prozent besser ausfallen soll. Der L2-Cache der neuen GPUs ist doppelt so groß, die Chips können also mehr Daten lokal vorhalten, und dem Hersteller zufolge auch viel schneller. Beim L1-Cache jedes SMs äußert sich Nvidia genauer: Dieser hat eine geringere Miss-Rate, weist die doppelte Bandbreite auf und sichert latenzärmer 96+96 KByte statt 24+24+96 KByte pro L/S-Einheit; hinzu kommt ein L0-Cache für Instruktionen. Die kombinierte Register-File-Größe bei Turing beläuft sich auf 256 KByte wie bei Pascal, pro SM gibt es aber nur 64 ALUs statt 128 ALUs.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)

Das kennen wir von Volta respektive dem GV100-Chip der Titan V, von diesem erbt die Turing-Architektur auch die verdoppelten Warp-Scheduler pro SM und die parallelen Datenpfade für FP32- und INT32-Ausführung für die nun dediziert vorhandenen INT32-Einheiten. Nvidia spricht von durchschnittlich 36 INT- bei 100 FP-Operationen, die bei typischem Spiele-Code auftreten, weshalb dieser deutlich beschleunigt werde. Alles in allem sollen die verbesserten Caches und Ausführungseinheiten die Leistung pro Streaming Multiprocessor um satte 50 Prozent steigern, gemessen hat das Nvidia unter anderem mit Deus Ex Mankind Divided und Rise of the Tomb Raider. FP64 beherrscht Turing auch, aber nur im 1:32-Geschwindigkeit statt mit 1:2 wie Volta.

Die Streaming Multiprocessors beherrschen neue Shading-Methoden für höhere Bildraten in Spielen, sie müssen von den Entwicklern aber explizit in den jeweiligen Titel eingebaut werden, was jedoch laut Nvidia zügig klappen soll.

Spezialeinheiten für AI und RT 
  1. 1
  2. 2
  3.  


Anzeige
Hardware-Angebote
  1. bei Alternate bestellen
  2. und Assassins Creed Odyssey, Strange Brigade und Star Control Origins kostenlos dazu erhalten

Tuxgamer12 19. Sep 2018 / Themenstart

Nvidia wird ja wohl kaum die krassen Firmengeheimnisse ausplaudern. Nur um das hier...

ms (Golem.de) 18. Sep 2018 / Themenstart

Per NV-Link V2 halt, aber brauchst Software Support.

neocron 17. Sep 2018 / Themenstart

1. war genau das auch nicht bestandteil dieser Diskussion hier, daher muss es daran auch...

nixidee 17. Sep 2018 / Themenstart

Das ist eine reine Consumerkarte, du sollst damit zocken. Mit deiner 780 wirst du kein...

bombinho 17. Sep 2018 / Themenstart

Raytracing selbst orientiert sich ja am Teilchencharakter von Licht. Die naechste Stufe...

Kommentieren


Folgen Sie uns
       


Shadow of the Tomb Raider - Golem.de live Teil 2

In Teil 2 des Livestreams zu Shadow of the Tomb Raider finden wir lustige Grafikfehler und der Chat trinkt zu viel Bier, kann Michael aber trotzdem bei einigen Rätseln helfen.

Shadow of the Tomb Raider - Golem.de live Teil 2 Video aufrufen
Gigabit: 5G-Planungen gehen völlig an den Nutzern vorbei
Gigabit
5G-Planungen gehen völlig an den Nutzern vorbei

Fast täglich hören wir Erklärungen aus der Telekommunikationsbranche, was 5G erfüllen müsse und warum sonst das Ende der Welt drohe. Wir haben die Konzerngruppen nach Interessenlage kartografiert.
Ein IMHO von Achim Sawall

  1. Fixed Wireless Access Nokia bringt mehrere 100 MBit/s mit LTE ins Festnetz
  2. Funklöcher Telekom bietet freiwillig hohe 5G-Netzabdeckung an
  3. 5G Telekom hat ihr Mobilfunknetz mit Glasfaser versorgt

Probefahrt mit Tesla Model 3: Wie auf Schienen übers Golden Gate
Probefahrt mit Tesla Model 3
Wie auf Schienen übers Golden Gate

Die Produktion des Tesla Model 3 für den europäischen Markt wird gerade vorbereitet. Golem.de hat einen Tag in und um San Francisco getestet, was Käufer von dem Elektroauto erwarten können.
Ein Erfahrungsbericht von Friedhelm Greis

  1. 1.000 Autos pro Tag Tesla baut das hunderttausendste Model 3
  2. Goodwood Festival of Speed Tesla bringt Model 3 erstmals offiziell nach Europa
  3. Elektroauto Produktionsziel des Tesla Model 3 erreicht

Apple Watch im Test: Auch ohne EKG die beste Smartwatch
Apple Watch im Test
Auch ohne EKG die beste Smartwatch

Apples vierte Watch verändert das Display-Design leicht - zum Wohle des Nutzers. Die Uhr bietet immer noch mit die beste Smartwatch-Erfahrung, auch wenn eine der neuen Funktionen in Deutschland noch nicht funktioniert.
Ein Test von Tobias Költzsch

  1. Skydio R1 Apple Watch zur Drohnensteuerung verwendet
  2. Smartwatch Apple Watch Series 4 mit EKG und Sturzerkennung
  3. Smartwatch Apple Watch Series 4 nur mit sechs Modellen

    •  /