• IT-Karriere:
  • Services:

Ampere-Architektur erklärt (1)

Bisher lässt Nvidia bei Samsung Foundry zwei Chips - GA102 und GA104 - in einem als 8N bezeichneten Verfahren fertigen, bei welchem es sich um eine angepasste Version von 8LPP handelt. Das wiederum ist ein optimierter Ableger von 10LPP, also 10 nm mit klassischer Immersionslithografie. Für den GA100-Chip der Tesla A100 hingegen setzt Nvidia auf TSMCs 7N, eine modifizierte Variante von N7 mit höherer Transistordichte.

Stellenmarkt
  1. Drägerwerk AG & Co. KGaA, Lübeck
  2. Information und Technik Nordrhein-Westfalen (IT.NRW), Hagen, Düsseldorf, Köln

Die Geforce RTX 3090/3080 nutzen den GA102-Chip, die Geforce RTX 3070 den GA104. In allen drei Fällen wird kein Vollausbau der jeweiligen GPU verwendet, sondern eine beschnittene Version zugunsten einer höheren Ausbeute (Yield). Zumindest den GA102 mit allen aktivierten Einheiten erwarten wir für eine Quadro RTX, diese dürfte dann 48 GByte statt 24 GByte Videospeicher aufweisen.

Wie üblich setzen sich auch GA102/GA104 aus multiplen GPCs (Graphics Processor Clusters) zusammen, welche wiederum die TPCs (Texture Processing Clusters) und diese dann die SMs (Shader Multiprocessors) integrieren. Bis einschließlich Turing waren die ROP-Partionen (Raster-Endstufen) an das Speicherinterface gekoppelt, bei Ampere an die GPCs.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
GA102 im Vollausbau (Bild: Nvidia)
GA102GA104
FertigungSamsung 8N Samsung 8N
Die-Size 628 mm²392 mm²
Transistoren28 Milliarden17 Milliarden
GPCs / TPCs / SMs7 / 42 / 846 / 24 / 48
Shader-ALUs (FP32)10.7526.144
Textureinheiten336192
RT-Cores v28448
Tensor-Cores v3336192
L2-Cache6 MByte4 MByte
Speicher-Interface384 Bit256 Bit
ROPs11296
Spezifikationen der Ampere-GPUs von Nvidia
TU102TU104TU106TU116TU117
FertigungTSMC 12FFNTSMC 12FFNTSMC 12FFNTSMC 12FFNTSMC 12FFN
Die-Size754 mm² 545 mm²445 mm²284 mm²200 mm²
Transistoren18,6 Milliarden13,6 Milliarden10,8 Milliarden6,6 Milliarden4,7 Milliarden
GPCs / TPCs / SMs6 / 36 / 726 / 24 / 483 / 18 / 363 / 12 / 242 / 8 / 16
Shader-ALUs (FP32)4.6083.0722.3041.5361.024
Textureinheiten2881921449664
RT-Cores v1724836//////
Tensor-Cores v2576 384288//////
L2-Cache6 MByte4 MByte4 MByte1,5 MByte1 MByte
Speicher-Interface384 Bit256 Bit256 Bit192 Bit128 Bit
ROPs9664644836
Spezifikationen der Turing-GPUs von Nvidia

Steigt von TU102 auf GA102 die ROP-Menge um 17 Prozent, sind es von TU104 auf GA104 enorme 50 Prozent. Weil die Scan-Conversion zwischen Frontend und Backend wegfällt, soll sich der effektive Durchsatz weiter erhöhen. ROPs sind wichtig für eine hohe Pixelfüllrate und schnelle Multisample-Kantenglättung, wobei Letztere in Spielen immer seltener eingesetzt wird. Änderungen bei der verlustfreien Speicherkompression gab es übrigens nicht.

Als weitere wichtige Neuerung hat Nvidia die SMs umgebaut, welche die eigentlichen Recheneinheiten (ALUs) enthalten. Deren dynamisch aufteilbare L1-Cache fällt mit 128 KByte statt 96 KByte größer aus und weist die doppelte Bandbreite auf (64 Byte statt 32 Byte pro Takt), damit mehr Daten lokal vorgehalten werden können. Die zusätzlichen 32 KByte des L1 rühren aus der Verdopplung des Puffers für Texturinformationen her.

ZOTAC Gaming GeForce RTX 3080 Trinity

Die FP32-Leistung steigt drastisch

Bei Pascal gab primär Shader-ALUs, die entweder eine FP32- oder INT32-Operation pro Takt ausführen konnten, bei Turing wurden diese für einen FP32- und einen INT32-Befehl pro Takt vereint. Ampere hat zwei Datenpfade: Der eine führt eine FP32- und eine INT32-Operation pro Takt aus, der andere zwei FP32-Befehle pro Takt.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)

Das bedeutet allerdings nicht, dass Ampere generell die doppelte FP32-Geschwindigkeit aufweist. Sobald eine Integer-Operation ansteht, sinkt die Leistung pro SM auf Turing-Niveau. Laut Nvidia liegt das Verhältnis bei bisherigen Spielen etwa bei 3:1 für FP32 und INT32. GP102/104 weisen einige wenige FP64-Kerne für doppelte Genauigkeit auf, sie arbeiten im langsamen 1:64-Verhältnis zu FP32.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Geforce RTX 3080 im Test: Doppelte Leistung zum gleichen PreisAmpere-Architektur erklärt (2) 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)

Clown 21. Sep 2020 / Themenstart

Hast Du da ein Beispiel? Wenn ich Videospeicher allokiere, dann mach ich das auf der...

yumiko 21. Sep 2020 / Themenstart

Der Takt der 3090 ist nicht höher, eher etwas niedriger. Der Stromverbraucht ist 10...

Clown 21. Sep 2020 / Themenstart

Gegeben Du hast ein durchschnittliches System ohne ein Dutzend Laufwerke, drölfzig LED...

Typhlosion 18. Sep 2020 / Themenstart

+ <3

JohnWickzer 18. Sep 2020 / Themenstart

Für mich wirds im Januar ein Ryzen9 Zen3 12Core mit 570 Board, 32GB 3600 DDR4 und...

Kommentieren


Folgen Sie uns
       


    •  /