Abo
  • Services:

Grafikkarten: Das kann Nvidias Turing-Architektur

Zwei Jahre nach Pascal folgt Turing: Die GPU-Architektur führt Tensor-Cores und RT-Kerne für Spieler ein. Die Geforce RTX haben mächtige Shader-Einheiten, große Caches sowie GDDR6-Videospeicher für Raytracing, für Deep-Learning-Kantenglättung und für mehr Leistung.

Ein Bericht von veröffentlicht am
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing!
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing! (Bild: Martin Wolf/Golem.de)

Zu Lebzeiten wurde Alan Turing alles anderes als gehuldigt - im Gegenteil: Obwohl der britische Mathematiker maßgeblich an der Entschlüsslung der Enigma der Nazis beteiligt und einer der Wegbereiter moderner Kryptographie war, ließ ihn die damalige Regierung wegen seiner Homosexualität chemisch kastrieren. Es dauerte viele Jahrzehnte, bis die Queen ihn für seine herausragenden Leistungen posthum würdigte und offiziell rehabilitierte.

Inhalt:
  1. Grafikkarten: Das kann Nvidias Turing-Architektur
  2. Spezialeinheiten für AI und RT

64 Jahre nach seinem Tod lebt Turing als Codename für Nvidias neue Grafikchip-Generation weiter, der Hersteller spricht bei den Geforce RTX vom größten Technologieschritt seit dem legendären G80 der Geforce 8800 GTX. Wir erläutern in diesem Artikel die technischen Details der Turing-Architektur, ihre Besonderheiten und die darauf basierenden Chips namens TU102 und TU104 sowie TU106. Uns liegen zwar Messwerte der Geforce RTX vor, wir dürfen vorerst aber nur das wiedergeben, was Nvidia auf dem Editor's Day und in einem Whitepaper zur Verfügung gestellt hat.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Turing folgt auf Pascal. (Bild: Nvidia)

Turing ist als Geforce RTX und Quadro RTX für Spieler- und Workstation-Karten gedacht, für das HPC-Segment (High Performance Computing) gibt es mit der Tesla V100 und der Volta-Architektur eigene Beschleuniger. Allerdings erinnert Turing in vielen Bereichen stark an Volta, die Unterschiede zur bisherigen Pascal-Technik sind auf den ersten Blick offensichtlich: Zwar weisen die GPUs eine gesteigerte Leistung für konventionelle Workloads wie Gaming und Rendering auf, Nvidia hat aber Teile der Chips zur Beschleunigung von Raytracing und Deep Learning (Inferencing) reserviert.

Weil die 7-nm-Fertigung noch nicht bereit für große Dies ist, lässt Nvidia die TU-Grafikchips beim Auftragsfertiger TSMC im 12FFN-Verfahren herstellen. Dahinter verbirgt sich kein 12-nm-Node, sondern optimierte 16-nm-Technik, denn FFN steht für FinFet Nvidia. Der TU102-Chip weist mit 754 mm² sehr viel Fläche aus, Gleiches gilt für den TU104 mit 545 mm² und den TU106 mit 445 mm². Die Vorgänger sind mit 471 mm² (GP102), 314 mm² (GP104) und 200 mm² (GP106) viel kompakter. Mehr noch: Der TU106 ist fast so groß wie der GP102 und damit nach bisherigen Maßstäben schon Highend statt Mittelklasse.

TU102TU104TU106
Die-Size754 mm²545 mm²445 mm²
Transistoren18,6 Milliarden13,6 Milliarden10,8 Milliarden
GPCs663
Polymorph362418
SMs724836
ALUs4.6083.0722.304
TMUs288192144
RT-Cores724836
Tensor-Cores576 384288
L2-Cache6 MByte4 MByte4 MByte
Speicher-Interface384 Bit256 Bit256 Bit
ROPs966464
NV-Linkja (2x)ja (1x)nein
Turing-GPUs von Nvidia
Stellenmarkt
  1. Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO, Stuttgart, Esslingen
  2. eco Verband der Internetwirtschaft e.V., Köln

Ein Blick auf den Aufbau der einzelnen Chips zeigt, dass der TU106 einen halben TU102 darstellt, jedoch nicht mit 192- sondern mit 256-Bit-Interface. Das dürfte auch erklären, warum der TU106 nur 100 mm² kleiner als der TU104 ist, da die zusätzlichen Shader-Einheiten verglichen mit dem GDDR6-Interface wenig Platz einnehmen. Jede Turing-GPU setzt sich klassisch aus mehreren Graphics Processing Clusters (GPCs) mit den Raster-Engines zusammen, in denen wiederum die Texture Processing Cluster (TPCs) mit den Polymorph-Engines für Tesselation und darin die Streaming Multiprocessors (SMs) samt den ALUs sowie den neuen Tensor- und RT-Cores stecken. Interessant ist, dass der TU104 sechs statt vier GPCs hat, was ihn stärker vom TU106 absetzt.

Alle Turing-Chips nutzten GDDR6- statt GDDR5(X)-Videospeicher, womit bei gleicher Busbreite durch höhere Taktraten die Datentransfer-Rate deutlich steigt. Überdies hat Nvidia laut eigener Angabe die verlustfreie Kompression noch weiter verbessert, womit die effektive Bandbreite um 15 bis 30 Prozent besser ausfallen soll. Der L2-Cache der neuen GPUs ist doppelt so groß, die Chips können also mehr Daten lokal vorhalten, und dem Hersteller zufolge auch viel schneller. Beim L1-Cache jedes SMs äußert sich Nvidia genauer: Dieser hat eine geringere Miss-Rate, weist die doppelte Bandbreite auf und sichert latenzärmer 96+96 KByte statt 24+24+96 KByte pro L/S-Einheit; hinzu kommt ein L0-Cache für Instruktionen. Die kombinierte Register-File-Größe bei Turing beläuft sich auf 256 KByte wie bei Pascal, pro SM gibt es aber nur 64 ALUs statt 128 ALUs.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)

Das kennen wir von Volta respektive dem GV100-Chip der Titan V, von diesem erbt die Turing-Architektur auch die verdoppelten Warp-Scheduler pro SM und die parallelen Datenpfade für FP32- und INT32-Ausführung für die nun dediziert vorhandenen INT32-Einheiten. Nvidia spricht von durchschnittlich 36 INT- bei 100 FP-Operationen, die bei typischem Spiele-Code auftreten, weshalb dieser deutlich beschleunigt werde. Alles in allem sollen die verbesserten Caches und Ausführungseinheiten die Leistung pro Streaming Multiprocessor um satte 50 Prozent steigern, gemessen hat das Nvidia unter anderem mit Deus Ex Mankind Divided und Rise of the Tomb Raider. FP64 beherrscht Turing auch, aber nur im 1:32-Geschwindigkeit statt mit 1:2 wie Volta.

Die Streaming Multiprocessors beherrschen neue Shading-Methoden für höhere Bildraten in Spielen, sie müssen von den Entwicklern aber explizit in den jeweiligen Titel eingebaut werden, was jedoch laut Nvidia zügig klappen soll.

Spezialeinheiten für AI und RT 
  1. 1
  2. 2
  3.  


Anzeige
Spiele-Angebote
  1. 26,95€
  2. 9,95€
  3. 24,99€
  4. 2,99€

Tuxgamer12 19. Sep 2018

Nvidia wird ja wohl kaum die krassen Firmengeheimnisse ausplaudern. Nur um das hier...

ms (Golem.de) 18. Sep 2018

Per NV-Link V2 halt, aber brauchst Software Support.

neocron 17. Sep 2018

1. war genau das auch nicht bestandteil dieser Diskussion hier, daher muss es daran auch...

nixidee 17. Sep 2018

Das ist eine reine Consumerkarte, du sollst damit zocken. Mit deiner 780 wirst du kein...

bombinho 17. Sep 2018

Raytracing selbst orientiert sich ja am Teilchencharakter von Licht. Die naechste Stufe...


Folgen Sie uns
       


Fallout 76 - Fazit

Fallout 76 ist in vielerlei Hinsicht nicht wie seine Vorgänger. Warum, erklären wir im Test-Video.

Fallout 76 - Fazit Video aufrufen
Apple Mac Mini (Late 2018) im Test: Tolles teures Teil - aber für wen?
Apple Mac Mini (Late 2018) im Test
Tolles teures Teil - aber für wen?

Der Mac Mini ist ein gutes Gerät, wenngleich der Preis für die Einstiegsvariante von Apple arg hoch angesetzt wurde und mehr Speicher(platz) viel Geld kostet. Für 4K-Videoschnitt eignet sich der Mac Mini nur selten und generell fragen wir uns, wer ihn kaufen soll.
Ein Test von Marc Sauter

  1. Apple Mac Mini wird grau und schnell
  2. Neue Produkte Apple will Mac Mini und Macbook Air neu auflegen

IT: Frauen, die programmieren und Bier trinken
IT
Frauen, die programmieren und Bier trinken

Fest angestellte Informatiker sind oft froh, nach Feierabend nicht schon wieder in ein Get-together zu müssen. Doch was ist, wenn man kein Team hat und sich selbst Programmieren beibringt? Women Who Code veranstaltet Programmierabende für Frauen, denen es so geht. Golem.de war dort.
Von Maja Hoock

  1. Job-Porträt Die Cobol Cowboys auf wichtiger Mission
  2. Software-Entwickler CDU will Online-Weiterbildung à la Netflix
  3. Job-Porträt Cyber-Detektiv "Ich musste als Ermittler über 1.000 Onanie-Videos schauen"

Need for Speed 3 Hot Pursuit (1998): El Nino, Polizeifunk und Lichtgewitter in Rot-Blau
Need for Speed 3 Hot Pursuit (1998)
El Nino, Polizeifunk und Lichtgewitter in Rot-Blau

Golem retro_ Electronic Arts ist berühmt und berüchtigt für jährliche Updates und Neuveröffentlichungen. Was der Publisher aber 1998 für digitale Raser auffuhr, ist in puncto Dramatik bei Verfolgungsjagden bis heute unerreicht.
Von Michael Wieczorek

  1. Playstation Classic im Test Sony schlampt, aber Rettung naht

    •  /