Abo
  • IT-Karriere:

Grafikkarten: Das kann Nvidias Turing-Architektur

Zwei Jahre nach Pascal folgt Turing: Die GPU-Architektur führt Tensor-Cores und RT-Kerne für Spieler ein. Die Geforce RTX haben mächtige Shader-Einheiten, große Caches sowie GDDR6-Videospeicher für Raytracing, für Deep-Learning-Kantenglättung und für mehr Leistung.

Ein Bericht von veröffentlicht am
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing!
Eine Geforce RTX 2080 mit Realtime-Reallife-Raytracing! (Bild: Martin Wolf/Golem.de)

Zu Lebzeiten wurde Alan Turing alles anderes als gehuldigt - im Gegenteil: Obwohl der britische Mathematiker maßgeblich an der Entschlüsslung der Enigma der Nazis beteiligt und einer der Wegbereiter moderner Kryptographie war, ließ ihn die damalige Regierung wegen seiner Homosexualität chemisch kastrieren. Es dauerte viele Jahrzehnte, bis die Queen ihn für seine herausragenden Leistungen posthum würdigte und offiziell rehabilitierte.

Inhalt:
  1. Grafikkarten: Das kann Nvidias Turing-Architektur
  2. Spezialeinheiten für AI und RT

64 Jahre nach seinem Tod lebt Turing als Codename für Nvidias neue Grafikchip-Generation weiter, der Hersteller spricht bei den Geforce RTX vom größten Technologieschritt seit dem legendären G80 der Geforce 8800 GTX. Wir erläutern in diesem Artikel die technischen Details der Turing-Architektur, ihre Besonderheiten und die darauf basierenden Chips namens TU102 und TU104 sowie TU106. Uns liegen zwar Messwerte der Geforce RTX vor, wir dürfen vorerst aber nur das wiedergeben, was Nvidia auf dem Editor's Day und in einem Whitepaper zur Verfügung gestellt hat.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Turing folgt auf Pascal. (Bild: Nvidia)

Turing ist als Geforce RTX und Quadro RTX für Spieler- und Workstation-Karten gedacht, für das HPC-Segment (High Performance Computing) gibt es mit der Tesla V100 und der Volta-Architektur eigene Beschleuniger. Allerdings erinnert Turing in vielen Bereichen stark an Volta, die Unterschiede zur bisherigen Pascal-Technik sind auf den ersten Blick offensichtlich: Zwar weisen die GPUs eine gesteigerte Leistung für konventionelle Workloads wie Gaming und Rendering auf, Nvidia hat aber Teile der Chips zur Beschleunigung von Raytracing und Deep Learning (Inferencing) reserviert.

Weil die 7-nm-Fertigung noch nicht bereit für große Dies ist, lässt Nvidia die TU-Grafikchips beim Auftragsfertiger TSMC im 12FFN-Verfahren herstellen. Dahinter verbirgt sich kein 12-nm-Node, sondern optimierte 16-nm-Technik, denn FFN steht für FinFet Nvidia. Der TU102-Chip weist mit 754 mm² sehr viel Fläche aus, Gleiches gilt für den TU104 mit 545 mm² und den TU106 mit 445 mm². Die Vorgänger sind mit 471 mm² (GP102), 314 mm² (GP104) und 200 mm² (GP106) viel kompakter. Mehr noch: Der TU106 ist fast so groß wie der GP102 und damit nach bisherigen Maßstäben schon Highend statt Mittelklasse.

TU102TU104TU106TU116TU117
Die-Size754 mm²545 mm²445 mm²284 mm²200 mm²
Transistoren18,6 Milliarden13,6 Milliarden10,8 Milliarden6,6 Milliarden4,7 Milliarden
GPCs / TPCs / SMs6 / 36 / 726 / 24 / 483 / 18 / 363 / 12 / 242 / 8 / 16
Shader-ALUs4.6083.0722.3041.5361.024
TMUs2881921449664
RT-Cores724836keinekeine
Tensor-Cores576 384288keinekeine
L2-Cache6 MByte4 MByte4 MByte1,5 MByte1 MByte
Speicher-Interface384 Bit256 Bit256 Bit192 Bit128 Bit
ROPs9664644836
Turing-GPUs von Nvidia
Stellenmarkt
  1. AKDB, München, Regensburg
  2. Deutsche Forschungsgemeinschaft e.V., Bonn

Ein Blick auf den Aufbau der einzelnen Chips zeigt, dass der TU106 einen halben TU102 darstellt, jedoch nicht mit 192- sondern mit 256-Bit-Interface. Das dürfte auch erklären, warum der TU106 nur 100 mm² kleiner als der TU104 ist, da die zusätzlichen Shader-Einheiten verglichen mit dem GDDR6-Interface wenig Platz einnehmen. Jede Turing-GPU setzt sich klassisch aus mehreren Graphics Processing Clusters (GPCs) mit den Raster-Engines zusammen, in denen wiederum die Texture Processing Cluster (TPCs) mit den Polymorph-Engines für Tesselation und darin die Streaming Multiprocessors (SMs) samt den ALUs sowie den neuen Tensor- und RT-Cores stecken. Interessant ist, dass der TU104 sechs statt vier GPCs hat, was ihn stärker vom TU106 absetzt.

Alle Turing-Chips nutzten GDDR6- statt GDDR5(X)-Videospeicher, womit bei gleicher Busbreite durch höhere Taktraten die Datentransfer-Rate deutlich steigt. Überdies hat Nvidia laut eigener Angabe die verlustfreie Kompression noch weiter verbessert, womit die effektive Bandbreite um 15 bis 30 Prozent besser ausfallen soll. Der L2-Cache der neuen GPUs ist doppelt so groß, die Chips können also mehr Daten lokal vorhalten, und dem Hersteller zufolge auch viel schneller. Beim L1-Cache jedes SMs äußert sich Nvidia genauer: Dieser hat eine geringere Miss-Rate, weist die doppelte Bandbreite auf und sichert latenzärmer 96+96 KByte statt 24+24+96 KByte pro L/S-Einheit; hinzu kommt ein L0-Cache für Instruktionen. Die kombinierte Register-File-Größe bei Turing beläuft sich auf 256 KByte wie bei Pascal, pro SM gibt es aber nur 64 ALUs statt 128 ALUs.

  • Turing folgt auf Pascal. (Bild: Nvidia)
  • Der TU102 fällt mit 754 mm² riesig aus. (Bild: Nvidia)
  • Dedizierte INT32-Einheiten sollen die Leistung verbessern. (Bild: Nvidia)
  • Turing hat größere und schnellere Caches. (Bild: Nvidia)
  • Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)
  • Neben GDDR6 mit hohem Takt gibt es eine verbesserte Kompression. (Bild: Nvidia)
  • Der GDDR6 läuft mit 7 GHz oder 14 GBit/s. (Bild: Nvidia)
  • In jedem SM sitzen ein RT-Core und acht Tensor-Cores. (Bild: Nvidia)
  • Turing beschleunigt das Bounding Volume Hierachy für Raytracing. (Bild: Nvidia)
  • Die regulären Shader sind auch bei Raytracing involviert. (Bild: Nvidia)
  • Der neue Mesh Shader soll mehr Geometrie ermöglichen. (Bild: Nvidia)
  • Die Pipeline wird um zwei neue Shader erweitert. (Bild: Nvidia)
  • Turing kann bestimmte Bildbereiche mit einer geringeren Shading-Rate berechnen. (Bild: Nvidia)
  • Bei manchen Flächen muss nicht jeder Pixel neue, eigene Farbwerte erhalten. (Bild: Nvidia)
  • Die Geforce RTX haben HDMI, Displayport und Virtual Link. (Bild: Nvidia)
  • Besagte USB-C-Buchse ist für kommende VR-Headsets gedacht. (Bild: Nvidia)
  • Der NVENC kann H.265 in 8K mit 30 fps encodieren. (Bild: Nvidia)
  • DLSS nutzt Inferencing per Tensor-Cores. (Bild: Nvidia)
  • DLSS ist Upscaling, DLSS 2x ist eine Verbesserung der Bildqualität. (Bild: Nvidia)
  • TU102 und TU014 unterstützen NV-Link für SLI zweier Karten. (Bild: Nvidia)
Die Shader-Einheiten sollen sehr viel flotter rechnen. (Bild: Nvidia)

Das kennen wir von Volta respektive dem GV100-Chip der Titan V, von diesem erbt die Turing-Architektur auch die verdoppelten Warp-Scheduler pro SM und die parallelen Datenpfade für FP32- und INT32-Ausführung für die nun dediziert vorhandenen INT32-Einheiten. Nvidia spricht von durchschnittlich 36 INT- bei 100 FP-Operationen, die bei typischem Spiele-Code auftreten, weshalb dieser deutlich beschleunigt werde. Alles in allem sollen die verbesserten Caches und Ausführungseinheiten die Leistung pro Streaming Multiprocessor um satte 50 Prozent steigern, gemessen hat das Nvidia unter anderem mit Deus Ex Mankind Divided und Rise of the Tomb Raider. FP64 beherrscht Turing auch, aber nur im 1:32-Geschwindigkeit statt mit 1:2 wie Volta.

Die Streaming Multiprocessors beherrschen neue Shading-Methoden für höhere Bildraten in Spielen, sie müssen von den Entwicklern aber explizit in den jeweiligen Titel eingebaut werden, was jedoch laut Nvidia zügig klappen soll.

Spezialeinheiten für AI und RT 
  1. 1
  2. 2
  3.  


Anzeige
Spiele-Angebote
  1. 3,99€ statt 19,99€
  2. (-87%) 4,99€
  3. 0,49€
  4. 3,99€

Tuxgamer12 19. Sep 2018

Nvidia wird ja wohl kaum die krassen Firmengeheimnisse ausplaudern. Nur um das hier...

ms (Golem.de) 18. Sep 2018

Per NV-Link V2 halt, aber brauchst Software Support.

neocron 17. Sep 2018

1. war genau das auch nicht bestandteil dieser Diskussion hier, daher muss es daran auch...

nixidee 17. Sep 2018

Das ist eine reine Consumerkarte, du sollst damit zocken. Mit deiner 780 wirst du kein...

bombinho 17. Sep 2018

Raytracing selbst orientiert sich ja am Teilchencharakter von Licht. Die naechste Stufe...


Folgen Sie uns
       


Nintendo Game Boy - ein kurzer Rückblick

Tetris, Pokémon, Super Mario - wir fassen die Geschichte des Game Boy im Video zusammen.

Nintendo Game Boy - ein kurzer Rückblick Video aufrufen
Bug Bounty Hunter: Mit Hacker 101-Tutorials zum Millionär
Bug Bounty Hunter
Mit "Hacker 101"-Tutorials zum Millionär

Santiago Lopez hat sich als Junge selbst das Hacken beigebracht und spürt Sicherheitslücken in der Software von Unternehmen auf. Gerade hat er damit seine erste Million verdient. Im Interview mit Golem.de erzählt er von seinem Alltag.
Ein Interview von Maja Hoock

  1. White Hat Hacking In unter zwei Stunden in Universitätsnetzwerke gelangen

Kontist, N26, Holvi: Neue Banking-Apps machen gute Angebote für Freelancer
Kontist, N26, Holvi
Neue Banking-Apps machen gute Angebote für Freelancer

Ein mobiles und dazu noch kostenloses Geschäftskonto für Freiberufler versprechen Startups wie Kontist, N26 oder Holvi. Doch sind die Newcomer eine Alternative zu den Freelancer-Konten der großen Filialbanken? Ja, sind sie - mit einer kleinen Einschränkung.
Von Björn König


    Recycling: Die Plastikfischer
    Recycling
    Die Plastikfischer

    Millionen Tonnen Kunststoff landen jedes Jahr im Meer. Müllschlucker, die das Material einsammeln, sind bislang wenig erfolgreich. Eine schwimmende Recycling-Fabrik, die die wichtigsten Häfen anläuft, könnte helfen, das Problem zu lösen.
    Ein Bericht von Daniel Hautmann

    1. Elektroautos Audi verbündet sich mit Partner für Akkurecycling
    2. Urban Mining Wie aus alten Platinen wieder Kupfer wird

      •  /