Abo
  • Services:

Grafikkarten: Das kann Nvidias Turing-Architektur

Zwei Jahre nach Pascal folgt Turing: Die GPU-Architektur führt Tensor-Cores und RT-Kerne für Spieler ein. Die Geforce RTX haben mächtige Shader-Einheiten, große Caches sowie GDDR6-Videospeicher für Raytracing, für Deep-Learning-Kantenglättung und für mehr Leistung.

Ein Bericht von veröffentlicht am
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing!
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing! (Bild: Martin Wolf/Golem.de)

Zu Lebzeiten wurde Alan Turing alles anderes als gehuldigt - im Gegenteil: Obwohl der britische Mathematiker maßgeblich an der Entschlüsslung der Enigma der Nazis beteiligt und einer der Wegbereiter moderner Kryptographie war, ließ ihn die damalige Regierung wegen seiner Homosexualität chemisch kastrieren. Es dauerte viele Jahrzehnte, bis die Queen ihn für seine herausragenden Leistungen posthum würdigte und offiziell rehabilitierte.

Inhalt:
  1. Grafikkarten: Das kann Nvidias Turing-Architektur
  2. Spezialeinheiten für AI und RT

64 Jahre nach seinem Tod lebt Turing als Codename für Nvidias neue Grafikchip-Generation weiter, der Hersteller spricht bei den Geforce RTX vom größten Technologieschritt seit dem legendären G80 der Geforce 8800 GTX. Wir erläutern in diesem Artikel die technischen Details der Turing-Architektur, ihre Besonderheiten und die darauf basierenden Chips namens TU102 und TU104 sowie TU106. Uns liegen zwar Messwerte der Geforce RTX vor, wir dürfen vorerst aber nur das wiedergeben, was Nvidia auf dem Editor's Day und in einem Whitepaper zur Verfügung gestellt hat.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Turing folgt auf Pascal. (Bild: Nvidia)

Turing ist als Geforce RTX und Quadro RTX für Spieler- und Workstation-Karten gedacht, für das HPC-Segment (High Performance Computing) gibt es mit der Tesla V100 und der Volta-Architektur eigene Beschleuniger. Allerdings erinnert Turing in vielen Bereichen stark an Volta, die Unterschiede zur bisherigen Pascal-Technik sind auf den ersten Blick offensichtlich: Zwar weisen die GPUs eine gesteigerte Leistung für konventionelle Workloads wie Gaming und Rendering auf, Nvidia hat aber Teile der Chips zur Beschleunigung von Raytracing und Deep Learning (Inferencing) reserviert.

Weil die 7-nm-Fertigung noch nicht bereit für große Dies ist, lässt Nvidia die TU-Grafikchips beim Auftragsfertiger TSMC im 12FFN-Verfahren herstellen. Dahinter verbirgt sich kein 12-nm-Node, sondern optimierte 16-nm-Technik, denn FFN steht für FinFet Nvidia. Der TU102-Chip weist mit 754 mm² sehr viel Fläche aus, Gleiches gilt für den TU104 mit 545 mm² und den TU106 mit 445 mm². Die Vorgänger sind mit 471 mm² (GP102), 314 mm² (GP104) und 200 mm² (GP106) viel kompakter. Mehr noch: Der TU106 ist fast so groß wie der GP102 und damit nach bisherigen Maßstäben schon Highend statt Mittelklasse.

TU102TU104TU106TU116
Die-Size754 mm²545 mm²445 mm²284 mm²
Transistoren18,6 Milliarden13,6 Milliarden10,8 Milliarden6,6 Milliarden
GPCs6633
Polymorph36241812
SMs72483624
ALUs4.6083.0722.3041.536
TMUs28819214496
RT-Cores724836keine
Tensor-Cores576 384288keine
L2-Cache6 MByte4 MByte4 MByte3 MByte
Speicher-Interface384 Bit256 Bit256 Bit192 Bit
ROPs96646464
NV-Linkja (2x)ja (1x)neinnein
Turing-GPUs von Nvidia
Stellenmarkt
  1. über duerenhoff GmbH, Raum Norderstedt
  2. Bosch Gruppe, Wernau (Neckar)

Ein Blick auf den Aufbau der einzelnen Chips zeigt, dass der TU106 einen halben TU102 darstellt, jedoch nicht mit 192- sondern mit 256-Bit-Interface. Das dürfte auch erklären, warum der TU106 nur 100 mm² kleiner als der TU104 ist, da die zusätzlichen Shader-Einheiten verglichen mit dem GDDR6-Interface wenig Platz einnehmen. Jede Turing-GPU setzt sich klassisch aus mehreren Graphics Processing Clusters (GPCs) mit den Raster-Engines zusammen, in denen wiederum die Texture Processing Cluster (TPCs) mit den Polymorph-Engines für Tesselation und darin die Streaming Multiprocessors (SMs) samt den ALUs sowie den neuen Tensor- und RT-Cores stecken. Interessant ist, dass der TU104 sechs statt vier GPCs hat, was ihn stärker vom TU106 absetzt.

Alle Turing-Chips nutzten GDDR6- statt GDDR5(X)-Videospeicher, womit bei gleicher Busbreite durch höhere Taktraten die Datentransfer-Rate deutlich steigt. Überdies hat Nvidia laut eigener Angabe die verlustfreie Kompression noch weiter verbessert, womit die effektive Bandbreite um 15 bis 30 Prozent besser ausfallen soll. Der L2-Cache der neuen GPUs ist doppelt so groß, die Chips können also mehr Daten lokal vorhalten, und dem Hersteller zufolge auch viel schneller. Beim L1-Cache jedes SMs äußert sich Nvidia genauer: Dieser hat eine geringere Miss-Rate, weist die doppelte Bandbreite auf und sichert latenzärmer 96+96 KByte statt 24+24+96 KByte pro L/S-Einheit; hinzu kommt ein L0-Cache für Instruktionen. Die kombinierte Register-File-Größe bei Turing beläuft sich auf 256 KByte wie bei Pascal, pro SM gibt es aber nur 64 ALUs statt 128 ALUs.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)

Das kennen wir von Volta respektive dem GV100-Chip der Titan V, von diesem erbt die Turing-Architektur auch die verdoppelten Warp-Scheduler pro SM und die parallelen Datenpfade für FP32- und INT32-Ausführung für die nun dediziert vorhandenen INT32-Einheiten. Nvidia spricht von durchschnittlich 36 INT- bei 100 FP-Operationen, die bei typischem Spiele-Code auftreten, weshalb dieser deutlich beschleunigt werde. Alles in allem sollen die verbesserten Caches und Ausführungseinheiten die Leistung pro Streaming Multiprocessor um satte 50 Prozent steigern, gemessen hat das Nvidia unter anderem mit Deus Ex Mankind Divided und Rise of the Tomb Raider. FP64 beherrscht Turing auch, aber nur im 1:32-Geschwindigkeit statt mit 1:2 wie Volta.

Die Streaming Multiprocessors beherrschen neue Shading-Methoden für höhere Bildraten in Spielen, sie müssen von den Entwicklern aber explizit in den jeweiligen Titel eingebaut werden, was jedoch laut Nvidia zügig klappen soll.

Spezialeinheiten für AI und RT 
  1. 1
  2. 2
  3.  


Anzeige
Top-Angebote
  1. (Filme und Musik - über 80.000 Artikel)
  2. (u. a. Mainboards, CPUs, Speicher, Grafikkarten, Gehäuse)
  3. 111,00€
  4. mit Gutscheincode PLAYTOWIN (max. 50€ Rabatt) - z. B. ASUS ROG Strix GeForce RTX 2070 Advanced...

Tuxgamer12 19. Sep 2018

Nvidia wird ja wohl kaum die krassen Firmengeheimnisse ausplaudern. Nur um das hier...

ms (Golem.de) 18. Sep 2018

Per NV-Link V2 halt, aber brauchst Software Support.

neocron 17. Sep 2018

1. war genau das auch nicht bestandteil dieser Diskussion hier, daher muss es daran auch...

nixidee 17. Sep 2018

Das ist eine reine Consumerkarte, du sollst damit zocken. Mit deiner 780 wirst du kein...

bombinho 17. Sep 2018

Raytracing selbst orientiert sich ja am Teilchencharakter von Licht. Die naechste Stufe...


Folgen Sie uns
       


LG 5K2K (34WK95U) Ultrawide - Fazit

Der aktuelle Ultrawide von LG hat eine beeindruckend hohe Auflösung und eignet sich wunderbar für Streamer oder die Videobearbeitung.

LG 5K2K (34WK95U) Ultrawide - Fazit Video aufrufen
Raspberry Pi: Spieglein, Spieglein, werde smart!
Raspberry Pi
Spieglein, Spieglein, werde smart!

Ein Spiegel, ein ausrangierter Monitor und ein Raspberry Pi sind die grundlegenden Bauteile, mit denen man sich selbst einen Smart Mirror basteln kann. Je nach Interesse können dort dann das Wetter, Fahrpläne, Nachrichten oder auch stimmungsvolle Bilder angezeigt werden.
Eine Anleitung von Christopher Bichl

  1. IoT mit LoRa und Raspberry Pi Die DNA des Internet der Dinge
  2. Bewegungssensor auswerten Mit Wackeln programmieren lernen
  3. Raspberry Pi Cam Babycam mit wenig Aufwand selbst bauen

Elektromobilität: Der Umweltbonus ist gescheitert
Elektromobilität
Der Umweltbonus ist gescheitert

Trotz eines spürbaren Anstiegs zum Jahresbeginn kann man den Umweltbonus als gescheitert bezeichnen. Bislang wurden weniger als 100.000 Elektroautos gefördert. Wenn der Bonus Ende Juni ausläuft, sind noch immer einige Millionen Euro vorhanden. Die Fraktion der Grünen will stattdessen Anreize über die Kfz-Steuer schaffen.
Eine Analyse von Dirk Kunde

  1. Elektromobilität Nikola Motors kündigt E-Lkw ohne Brennstoffzelle an
  2. SPNV Ceské dráhy will akkubetriebene Elektrotriebzüge testen
  3. Volkswagen Electrify America nutzt Tesla-Powerpacks zur Deckung von Spitzen

Mac Mini mit eGPU im Test: Externe Grafik macht den Mini zum Pro
Mac Mini mit eGPU im Test
Externe Grafik macht den Mini zum Pro

Der Mac Mini mit Hexacore-CPU eignet sich zwar gut für Xcode. Wer eine GPU-Beschleunigung braucht, muss aber zum iMac (Pro) greifen - oder eine externe Grafikkarte anschließen. Per eGPU ausgerüstet wird der Mac Mini viel schneller und auch preislich kann sich das lohnen.
Ein Test von Marc Sauter

  1. Apple Mac Mini (Late 2018) im Test Tolles teures Teil - aber für wen?
  2. Apple Mac Mini wird grau und schnell
  3. Neue Produkte Apple will Mac Mini und Macbook Air neu auflegen

    •  /