• IT-Karriere:
  • Services:

Ampere-Architektur erklärt (1)

Bisher lässt Nvidia bei Samsung Foundry zwei Chips - GA102 und GA104 - in einem als 8N bezeichneten Verfahren fertigen, bei welchem es sich um eine angepasste Version von 8LPP handelt. Das wiederum ist ein optimierter Ableger von 10LPP, also 10 nm mit klassischer Immersionslithografie. Für den GA100-Chip der Tesla A100 hingegen setzt Nvidia auf TSMCs 7N, eine modifizierte Variante von N7 mit höherer Transistordichte.

Stellenmarkt
  1. GRAPHISOFT Deutschland GmbH, Nürnberg,München
  2. Meibes System-Technik GmbH, Gerichshain

Die Geforce RTX 3090/3080 nutzen den GA102-Chip, die Geforce RTX 3070 den GA104. In allen drei Fällen wird kein Vollausbau der jeweiligen GPU verwendet, sondern eine beschnittene Version zugunsten einer höheren Ausbeute (Yield). Zumindest den GA102 mit allen aktivierten Einheiten erwarten wir für eine Quadro RTX, diese dürfte dann 48 GByte statt 24 GByte Videospeicher aufweisen.

Wie üblich setzen sich auch GA102/GA104 aus multiplen GPCs (Graphics Processor Clusters) zusammen, welche wiederum die TPCs (Texture Processing Clusters) und diese dann die SMs (Shader Multiprocessors) integrieren. Bis einschließlich Turing waren die ROP-Partionen (Raster-Endstufen) an das Speicherinterface gekoppelt, bei Ampere an die GPCs.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
GA102 im Vollausbau (Bild: Nvidia)
GA102GA104GA106
FertigungSamsung 8N Samsung 8N Samsung 8N
Die-Size 628 mm²392 mm²276 mm²
Transistoren28,3 Milliarden17,4 Milliarden 12,0 Milliarden
GPCs / TPCs / SMs7 / 42 / 846 / 24 / 483 / 15 / 30
Shader-ALUs (FP32)10.7526.1443.840
Textureinheiten336192120
RT-Cores v2844830
Tensor-Cores v3336192120
L2-Cache6.144 KByte4.096 KByte2.304 KByte
Interface384 Bit256 Bit192 Bit
SpeicherGDDR6(X)GDDR6GDDR6
ROPs1129648
Spezifikationen der Ampere-GPUs von Nvidia
TU102TU104TU106TU116TU117
FertigungTSMC 12FFNTSMC 12FFNTSMC 12FFNTSMC 12FFNTSMC 12FFN
Die-Size754 mm² 545 mm²445 mm²284 mm²200 mm²
Transistoren18,6 Milliarden13,6 Milliarden10,8 Milliarden6,6 Milliarden4,7 Milliarden
GPCs / TPCs / SMs6 / 36 / 726 / 24 / 483 / 18 / 363 / 12 / 242 / 8 / 16
Shader-ALUs (FP32)4.6083.0722.3041.5361.024
Textureinheiten2881921449664
RT-Cores v1724836//////
Tensor-Cores v2576 384288//////
L2-Cache6 MByte4 MByte4 MByte1,5 MByte1 MByte
Speicher-Interface384 Bit256 Bit256 Bit192 Bit128 Bit
ROPs9664644836
Spezifikationen der Turing-GPUs von Nvidia

Steigt von TU102 auf GA102 die ROP-Menge um 17 Prozent, sind es von TU104 auf GA104 enorme 50 Prozent. Weil die Scan-Conversion zwischen Frontend und Backend wegfällt, soll sich der effektive Durchsatz weiter erhöhen. ROPs sind wichtig für eine hohe Pixelfüllrate und schnelle Multisample-Kantenglättung, wobei Letztere in Spielen immer seltener eingesetzt wird. Änderungen bei der verlustfreien Speicherkompression gab es übrigens nicht.

Als weitere wichtige Neuerung hat Nvidia die SMs umgebaut, welche die eigentlichen Recheneinheiten (ALUs) enthalten. Deren dynamisch aufteilbare L1-Cache fällt mit 128 KByte statt 96 KByte größer aus und weist die doppelte Bandbreite auf (64 Byte statt 32 Byte pro Takt), damit mehr Daten lokal vorgehalten werden können. Die zusätzlichen 32 KByte des L1 rühren aus der Verdopplung des Puffers für Texturinformationen her.

ZOTAC Gaming GeForce RTX 3080 Trinity

Die FP32-Leistung steigt drastisch

Bei Pascal gab primär Shader-ALUs, die entweder eine FP32- oder INT32-Operation pro Takt ausführen konnten, bei Turing wurden diese für einen FP32- und einen INT32-Befehl pro Takt vereint. Ampere hat zwei Datenpfade: Der eine führt eine FP32- und eine INT32-Operation pro Takt aus, der andere zwei FP32-Befehle pro Takt.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)

Das bedeutet allerdings nicht, dass Ampere generell die doppelte FP32-Geschwindigkeit aufweist. Sobald eine Integer-Operation ansteht, sinkt die Leistung pro SM auf Turing-Niveau. Laut Nvidia liegt das Verhältnis bei bisherigen Spielen etwa bei 3:1 für FP32 und INT32. GP102/104 weisen einige wenige FP64-Kerne für doppelte Genauigkeit auf, sie arbeiten im langsamen 1:64-Verhältnis zu FP32.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Geforce RTX 3080 im Test: Doppelte Leistung zum gleichen PreisAmpere-Architektur erklärt (2) 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Anzeige
Hardware-Angebote
  1. (u. a. Ryzen 5 5600X 358,03€)
  2. (u. a. Ryzen 7 5800X für 469€)

ms (Golem.de) 27. Sep 2020

Siehe hier ;-) https://www.golem.de/news/geforce-rtx-3090-im-test-titan-power-mit-geforce...

Clown 25. Sep 2020

Die Doku spricht von allokiertem Speicher, nicht von tatsächlich genutzen Speicher...

Clown 21. Sep 2020

Gegeben Du hast ein durchschnittliches System ohne ein Dutzend Laufwerke, drölfzig LED...

Typhlosion 18. Sep 2020

+ <3

JohnWickzer 18. Sep 2020

Für mich wirds im Januar ein Ryzen9 Zen3 12Core mit 570 Board, 32GB 3600 DDR4 und...


Folgen Sie uns
       


Peloton - Fazit

Im Video stellt Golem.de-Redakteur Peter Steinlechner das Bike+ von Peloton vor. Mit dem Spinning-Rad können Sportler fast schon ein eigenes Fitnessstudio in ihrer Wohnung einrichten.

Peloton - Fazit Video aufrufen
Programm für IT-Jobeinstieg: Hoffen auf den Klebeeffekt
Programm für IT-Jobeinstieg
Hoffen auf den Klebeeffekt

Aktuell ist der Jobeinstieg für junge Ingenieure und Informatiker schwer. Um ihnen zu helfen, hat das Land Baden-Württemberg eine interessante Idee: Es macht sich selbst zur Zeitarbeitsfirma.
Ein Bericht von Peter Ilg

  1. Arbeitszeit Das Sechs-Stunden-Experiment bei Sipgate
  2. Neuorientierung im IT-Job Endlich mal machen!
  3. IT-Unternehmen Die richtige Software für ein Projekt finden

Weclapp-CTO Ertan Özdil: Wir dürfen nicht in Schönheit und Perfektion untergehen!
Weclapp-CTO Ertan Özdil
"Wir dürfen nicht in Schönheit und Perfektion untergehen!"

Der CTO von Weclapp träumt von smarter Software, die menschliches Eingreifen in der nächsten ERP-Generation reduziert. Deutschen Perfektionismus hält Ertan Özdil aber für gefährlich.
Ein Interview von Maja Hoock


    Fiat 500 als E-Auto im Test: Kleinstwagen mit großem Potenzial
    Fiat 500 als E-Auto im Test
    Kleinstwagen mit großem Potenzial

    Fiat hat einen neuen 500er entwickelt. Der Kleine fährt elektrisch - und zwar richtig gut.
    Ein Test von Peter Ilg

    1. Vierradlenkung Elektrischer GMC Hummer SUV fährt im Krabbengang seitwärts
    2. MG Cyberster MG B Roadster mit Lasergürtel und Union Jack
    3. Elektroauto E-Auto-Prämie übersteigt in 2021 schon Vorjahressumme

      •  /