Ampere-Architektur erklärt (1)

Bisher lässt Nvidia bei Samsung Foundry zwei Chips - GA102 und GA104 - in einem als 8N bezeichneten Verfahren fertigen, bei welchem es sich um eine angepasste Version von 8LPP handelt. Das wiederum ist ein optimierter Ableger von 10LPP, also 10 nm mit klassischer Immersionslithografie. Für den GA100-Chip der Tesla A100 hingegen setzt Nvidia auf TSMCs 7N, eine modifizierte Variante von N7 mit höherer Transistordichte.

Stellenmarkt
  1. Project Engineer for optimization and digitalization (m/w/d)
    Fresenius Medical Care, Schweinfurt
  2. Technical Consultant (m/w/d)
    GK Software SE, verschiedene Standorte
Detailsuche

Die Geforce RTX 3090/3080 nutzen den GA102-Chip, die Geforce RTX 3070 den GA104. In allen drei Fällen wird kein Vollausbau der jeweiligen GPU verwendet, sondern eine beschnittene Version zugunsten einer höheren Ausbeute (Yield). Zumindest den GA102 mit allen aktivierten Einheiten erwarten wir für eine Quadro RTX, diese dürfte dann 48 GByte statt 24 GByte Videospeicher aufweisen.

Wie üblich setzen sich auch GA102/GA104 aus multiplen GPCs (Graphics Processor Clusters) zusammen, welche wiederum die TPCs (Texture Processing Clusters) und diese dann die SMs (Shader Multiprocessors) integrieren. Bis einschließlich Turing waren die ROP-Partionen (Raster-Endstufen) an das Speicherinterface gekoppelt, bei Ampere an die GPCs.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
GA102 im Vollausbau (Bild: Nvidia)
GA102GA104GA106
FertigungSamsung 8N Samsung 8N Samsung 8N
Die-Size 628 mm²392 mm²276 mm²
Transistoren28,3 Mrd17,4 Mrd12,0 Mrd
GPCs / TPCs / SMs7 / 42 / 846 / 24 / 483 / 15 / 30
Shader-ALUs (FP32)10.7526.1443.840
Textureinheiten336192120
RT-Cores v2844830
Tensor-Cores v3336192120
L2-Cache6.144 KByte4.096 KByte2.304 KByte
Interface384 Bit256 Bit192 Bit
SpeicherGDDR6(X)GDDR6GDDR6
ROPs1129648
Spezifikationen der Ampere-GPUs von Nvidia
TU102TU104TU106TU116TU117
FertigungTSMC 12FFNTSMC 12FFNTSMC 12FFNTSMC 12FFNTSMC 12FFN
Die-Size754 mm² 545 mm²445 mm²284 mm²200 mm²
Transistoren18,6 Milliarden13,6 Milliarden10,8 Milliarden6,6 Milliarden4,7 Milliarden
GPCs / TPCs / SMs6 / 36 / 726 / 24 / 483 / 18 / 363 / 12 / 242 / 8 / 16
Shader-ALUs (FP32)4.6083.0722.3041.5361.024
Textureinheiten2881921449664
RT-Cores v1724836//////
Tensor-Cores v2576 384288//////
L2-Cache6 MByte4 MByte4 MByte1,5 MByte1 MByte
Speicher-Interface384 Bit256 Bit256 Bit192 Bit128 Bit
ROPs9664644836
Spezifikationen der Turing-GPUs von Nvidia

Steigt von TU102 auf GA102 die ROP-Menge um 17 Prozent, sind es von TU104 auf GA104 enorme 50 Prozent. Weil die Scan-Conversion zwischen Frontend und Backend wegfällt, soll sich der effektive Durchsatz weiter erhöhen. ROPs sind wichtig für eine hohe Pixelfüllrate und schnelle Multisample-Kantenglättung, wobei Letztere in Spielen immer seltener eingesetzt wird. Änderungen bei der verlustfreien Speicherkompression gab es übrigens nicht.

Golem Akademie
  1. ITIL 4® Foundation: virtueller Zwei-Tage-Workshop
    16.–17. Dezember 2021, virtuell
  2. Netzwerktechnik Kompaktkurs: virtueller Fünf-Tage-Workshop
    6.–10. Dezember 2021, virtuell
Weitere IT-Trainings

Als weitere wichtige Neuerung hat Nvidia die SMs umgebaut, welche die eigentlichen Recheneinheiten (ALUs) enthalten. Deren dynamisch aufteilbare L1-Cache fällt mit 128 KByte statt 96 KByte größer aus und weist die doppelte Bandbreite auf (64 Byte statt 32 Byte pro Takt), damit mehr Daten lokal vorgehalten werden können. Die zusätzlichen 32 KByte des L1 rühren aus der Verdopplung des Puffers für Texturinformationen her.

ZOTAC Gaming GeForce RTX 3080 Trinity

Die FP32-Leistung steigt drastisch

Bei Pascal gab primär Shader-ALUs, die entweder eine FP32- oder INT32-Operation pro Takt ausführen konnten, bei Turing wurden diese für einen FP32- und einen INT32-Befehl pro Takt vereint. Ampere hat zwei Datenpfade: Der eine führt eine FP32- und eine INT32-Operation pro Takt aus, der andere zwei FP32-Befehle pro Takt.

  • GA102 im Vollausbau (Bild: Nvidia)
  • Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)
  • In den RT-Cores läuft die Schnittpunktprüfung doppelt so schnell ab. (Bild: Nvidia)
  • Ausgedünnte neuronale Netze verdoppelt die Tensor-Performance. (Bild: Nvidia)
  • Trotz nur halb so vielen Tensor-Cores ist Ampere schneller als Turing. (Bild: Nvidia)
  • Das parallele Ausführen von Grafik, Raytracing und Compute steigert die Leistung. (Bild: Nvidia)
  • 8K30-Decode von AV1 (Screenshot: Golem.de)
  • RTX I/O für DirectStorage lädt komprimierte Texturen direkt von der SSD in die Grafikkarte. (Bild: Nvidia)
Die Shader können nun 2x FP32 oder 1x FP32 + 1x INT32. (Bild: Nvidia)

Das bedeutet allerdings nicht, dass Ampere generell die doppelte FP32-Geschwindigkeit aufweist. Sobald eine Integer-Operation ansteht, sinkt die Leistung pro SM auf Turing-Niveau. Laut Nvidia liegt das Verhältnis bei bisherigen Spielen etwa bei 3:1 für FP32 und INT32. GP102/104 weisen einige wenige FP64-Kerne für doppelte Genauigkeit auf, sie arbeiten im langsamen 1:64-Verhältnis zu FP32.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Geforce RTX 3080 im Test: Doppelte Leistung zum gleichen PreisAmpere-Architektur erklärt (2) 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


ms (Golem.de) 27. Sep 2020

Siehe hier ;-) https://www.golem.de/news/geforce-rtx-3090-im-test-titan-power-mit-geforce...

Clown 25. Sep 2020

Die Doku spricht von allokiertem Speicher, nicht von tatsächlich genutzen Speicher...

Clown 21. Sep 2020

Gegeben Du hast ein durchschnittliches System ohne ein Dutzend Laufwerke, drölfzig LED...

Typhlosion 18. Sep 2020

+ <3

JohnWickzer 18. Sep 2020

Für mich wirds im Januar ein Ryzen9 Zen3 12Core mit 570 Board, 32GB 3600 DDR4 und...



Aktuell auf der Startseite von Golem.de
Cloud-Ausfall
Eine AWS-Region als Single Point of Failure

Ein stundenlanger Ausfall der AWS-Cloud legte zentrale Dienste und sogar Amazon selbst teilweise lahm. Das zeigt die Grenzen der Cloud-Versprechen.
Ein Bericht von Sebastian Grüner

Cloud-Ausfall: Eine AWS-Region als Single Point of Failure
Artikel
  1. Ampelkoalition: Das Verkehrsministerium wird zum Digitalministerium
    Ampelkoalition
    Das Verkehrsministerium wird zum Digitalministerium

    Aus dem geplanten Ministerium für Verkehr und Digitales wird ein Ministerium für Digitales und Verkehr. Minister Wissing erhält zusätzliche Kompetenzen.

  2. Bundesnetzagentur: 30 Messungen an drei unterschiedlichen Kalendertagen
    Bundesnetzagentur
    30 Messungen an drei unterschiedlichen Kalendertagen

    Die Bundesnetzagentur hat festgelegt, wann der Netzbetreiber/Provider den Vertrag nicht erfüllt. Es muss viel gemessen werden.

  3. Euro NCAP: Renault Zoe mit katastrophalem Crash-Ergebnis
    Euro NCAP
    Renault Zoe mit katastrophalem Crash-Ergebnis

    Mit dem Renault Zoe sollte man keinen Unfall bauen. Im Euro-NCAP-Crashtest erhielt das Elektroauto null Sterne.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Acer-Monitore zu Bestpreisen (u. a. 27" FHD 165Hz OC 199€) • Kingston PCIe-SSD 1TB 69,90€ & 2TB 174,90€ • Samsung Smartphones & Watches günstiger • Saturn: Xiaomi Redmi Note 9 Pro 128GB 199€ • Alternate (u. a. Razer Opus Headset 69,99€) • Release: Halo Infinite 68,99€ [Werbung]
    •  /