Abo
  • IT-Karriere:

Grafikkarten: Das kann Nvidias Turing-Architektur

Zwei Jahre nach Pascal folgt Turing: Die GPU-Architektur führt Tensor-Cores und RT-Kerne für Spieler ein. Die Geforce RTX haben mächtige Shader-Einheiten, große Caches sowie GDDR6-Videospeicher für Raytracing, für Deep-Learning-Kantenglättung und für mehr Leistung.

Ein Bericht von veröffentlicht am
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing!
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing! (Bild: Martin Wolf/Golem.de)

Zu Lebzeiten wurde Alan Turing alles anderes als gehuldigt - im Gegenteil: Obwohl der britische Mathematiker maßgeblich an der Entschlüsslung der Enigma der Nazis beteiligt und einer der Wegbereiter moderner Kryptographie war, ließ ihn die damalige Regierung wegen seiner Homosexualität chemisch kastrieren. Es dauerte viele Jahrzehnte, bis die Queen ihn für seine herausragenden Leistungen posthum würdigte und offiziell rehabilitierte.

Inhalt:
  1. Grafikkarten: Das kann Nvidias Turing-Architektur
  2. Spezialeinheiten für AI und RT

64 Jahre nach seinem Tod lebt Turing als Codename für Nvidias neue Grafikchip-Generation weiter, der Hersteller spricht bei den Geforce RTX vom größten Technologieschritt seit dem legendären G80 der Geforce 8800 GTX. Wir erläutern in diesem Artikel die technischen Details der Turing-Architektur, ihre Besonderheiten und die darauf basierenden Chips namens TU102 und TU104 sowie TU106. Uns liegen zwar Messwerte der Geforce RTX vor, wir dürfen vorerst aber nur das wiedergeben, was Nvidia auf dem Editor's Day und in einem Whitepaper zur Verfügung gestellt hat.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Turing folgt auf Pascal. (Bild: Nvidia)

Turing ist als Geforce RTX und Quadro RTX für Spieler- und Workstation-Karten gedacht, für das HPC-Segment (High Performance Computing) gibt es mit der Tesla V100 und der Volta-Architektur eigene Beschleuniger. Allerdings erinnert Turing in vielen Bereichen stark an Volta, die Unterschiede zur bisherigen Pascal-Technik sind auf den ersten Blick offensichtlich: Zwar weisen die GPUs eine gesteigerte Leistung für konventionelle Workloads wie Gaming und Rendering auf, Nvidia hat aber Teile der Chips zur Beschleunigung von Raytracing und Deep Learning (Inferencing) reserviert.

Weil die 7-nm-Fertigung noch nicht bereit für große Dies ist, lässt Nvidia die TU-Grafikchips beim Auftragsfertiger TSMC im 12FFN-Verfahren herstellen. Dahinter verbirgt sich kein 12-nm-Node, sondern optimierte 16-nm-Technik, denn FFN steht für FinFet Nvidia. Der TU102-Chip weist mit 754 mm² sehr viel Fläche aus, Gleiches gilt für den TU104 mit 545 mm² und den TU106 mit 445 mm². Die Vorgänger sind mit 471 mm² (GP102), 314 mm² (GP104) und 200 mm² (GP106) viel kompakter. Mehr noch: Der TU106 ist fast so groß wie der GP102 und damit nach bisherigen Maßstäben schon Highend statt Mittelklasse.

TU102TU104TU106TU116TU117
Die-Size754 mm²545 mm²445 mm²284 mm²200 mm²
Transistoren18,6 Milliarden13,6 Milliarden10,8 Milliarden6,6 Milliarden4,7 Milliarden
GPCs / TPCs / SMs6 / 36 / 726 / 24 / 483 / 18 / 363 / 12 / 242 / 8 / 16
Shader-ALUs4.6083.0722.3041.5361.024
TMUs2881921449664
RT-Cores724836keinekeine
Tensor-Cores576 384288keinekeine
L2-Cache6 MByte4 MByte4 MByte1,5 MByte1 MByte
Speicher-Interface384 Bit256 Bit256 Bit192 Bit128 Bit
ROPs9664644836
Turing-GPUs von Nvidia
Stellenmarkt
  1. Universal Music GmbH, Berlin
  2. arxes-tolina GmbH, Berlin

Ein Blick auf den Aufbau der einzelnen Chips zeigt, dass der TU106 einen halben TU102 darstellt, jedoch nicht mit 192- sondern mit 256-Bit-Interface. Das dürfte auch erklären, warum der TU106 nur 100 mm² kleiner als der TU104 ist, da die zusätzlichen Shader-Einheiten verglichen mit dem GDDR6-Interface wenig Platz einnehmen. Jede Turing-GPU setzt sich klassisch aus mehreren Graphics Processing Clusters (GPCs) mit den Raster-Engines zusammen, in denen wiederum die Texture Processing Cluster (TPCs) mit den Polymorph-Engines für Tesselation und darin die Streaming Multiprocessors (SMs) samt den ALUs sowie den neuen Tensor- und RT-Cores stecken. Interessant ist, dass der TU104 sechs statt vier GPCs hat, was ihn stärker vom TU106 absetzt.

Alle Turing-Chips nutzten GDDR6- statt GDDR5(X)-Videospeicher, womit bei gleicher Busbreite durch höhere Taktraten die Datentransfer-Rate deutlich steigt. Überdies hat Nvidia laut eigener Angabe die verlustfreie Kompression noch weiter verbessert, womit die effektive Bandbreite um 15 bis 30 Prozent besser ausfallen soll. Der L2-Cache der neuen GPUs ist doppelt so groß, die Chips können also mehr Daten lokal vorhalten, und dem Hersteller zufolge auch viel schneller. Beim L1-Cache jedes SMs äußert sich Nvidia genauer: Dieser hat eine geringere Miss-Rate, weist die doppelte Bandbreite auf und sichert latenzärmer 96+96 KByte statt 24+24+96 KByte pro L/S-Einheit; hinzu kommt ein L0-Cache für Instruktionen. Die kombinierte Register-File-Größe bei Turing beläuft sich auf 256 KByte wie bei Pascal, pro SM gibt es aber nur 64 ALUs statt 128 ALUs.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)

Das kennen wir von Volta respektive dem GV100-Chip der Titan V, von diesem erbt die Turing-Architektur auch die verdoppelten Warp-Scheduler pro SM und die parallelen Datenpfade für FP32- und INT32-Ausführung für die nun dediziert vorhandenen INT32-Einheiten. Nvidia spricht von durchschnittlich 36 INT- bei 100 FP-Operationen, die bei typischem Spiele-Code auftreten, weshalb dieser deutlich beschleunigt werde. Alles in allem sollen die verbesserten Caches und Ausführungseinheiten die Leistung pro Streaming Multiprocessor um satte 50 Prozent steigern, gemessen hat das Nvidia unter anderem mit Deus Ex Mankind Divided und Rise of the Tomb Raider. FP64 beherrscht Turing auch, aber nur im 1:32-Geschwindigkeit statt mit 1:2 wie Volta.

Die Streaming Multiprocessors beherrschen neue Shading-Methoden für höhere Bildraten in Spielen, sie müssen von den Entwicklern aber explizit in den jeweiligen Titel eingebaut werden, was jedoch laut Nvidia zügig klappen soll.

Spezialeinheiten für AI und RT 
  1. 1
  2. 2
  3.  


Anzeige
Spiele-Angebote
  1. 137,70€
  2. 51,95€
  3. 34,99€

Tuxgamer12 19. Sep 2018

Nvidia wird ja wohl kaum die krassen Firmengeheimnisse ausplaudern. Nur um das hier...

ms (Golem.de) 18. Sep 2018

Per NV-Link V2 halt, aber brauchst Software Support.

neocron 17. Sep 2018

1. war genau das auch nicht bestandteil dieser Diskussion hier, daher muss es daran auch...

Anonymer Nutzer 17. Sep 2018

Das ist eine reine Consumerkarte, du sollst damit zocken. Mit deiner 780 wirst du kein...

bombinho 17. Sep 2018

Raytracing selbst orientiert sich ja am Teilchencharakter von Licht. Die naechste Stufe...


Folgen Sie uns
       


Xiaomi Mi 9T Pro - Fazit

Das Mi 9T Pro von Xiaomi ist eines der ersten Smartphones, das der chinesische Hersteller offiziell in Deutschland anbietet. Im Test überzeugt das Gerät durch sehr gute Hardware zu einem verhältnismäßig geringen Preis.

Xiaomi Mi 9T Pro - Fazit Video aufrufen
Ryzen 7 3800X im Test: Der schluckt zu viel
Ryzen 7 3800X im Test
"Der schluckt zu viel"

Minimal mehr Takt, vor allem aber ein höheres Power-Budget für gestiegene Frequenzen unter Last: Das war unsere Vorstellung vor dem Test des Ryzen 7 3800X. Doch die Achtkern-CPU überrascht negativ, weil AMD es beim günstigeren 3700X bereits ziemlich gut meinte.
Ein Test von Marc Sauter

  1. Agesa 1003abba Microcode-Update taktet Ryzen 3000 um 50 MHz höher
  2. Agesa 1003abb Viele ältere Platinen erhalten aktuelles UEFI für Ryzen 3000
  3. Ryzen 5 3400G und Ryzen 3 3200G im Test Picasso passt

Recruiting: Wenn das eigene Wachstum zur Herausforderung wird
Recruiting
Wenn das eigene Wachstum zur Herausforderung wird

Gerade im IT-Bereich können Unternehmen sehr schnell wachsen. Dabei können der Fachkräftemangel und das schnelle Onboarding von neuen Mitarbeitern zum Problem werden. Wir haben uns bei kleinen Startups und Großkonzernen umgehört, wie sie in so einer Situation mit den Herausforderungen umgehen.
Von Robert Meyer

  1. Recruiting Alle Einstellungsprozesse sind fehlerhaft
  2. LoL Was ein E-Sport-Trainer können muss
  3. IT-Arbeit Was fürs Auge

Party like it's 1999: Die 510 letzten Tage von Sega
Party like it's 1999
Die 510 letzten Tage von Sega

Golem retro_ Am 9.9.1999 kam in den USA mit der Sega Dreamcast die letzte Spielkonsole der 90er Jahre auf den Markt. Es sollte auch die letzte Spielkonsole von Sega werden. Aber das wusste zu diesem Zeitpunkt noch niemand.
Von Martin Wolf


      •  /