Grafikchip: AMD zeigt Vega 10 und erläutert Architektur

AMD hat auf dem Tech Summit im kalifornischen Sonoma erste eigene Informationen zur kommenden Vega-Grafikarchitektur und dem darauf basierenden Vega-10-Grafikchip bekanntgegeben. Eigene deshalb, weil Golem.de-Leser die Neuerung teils schon kennen, denn Sony verwendet in der Playstation 4 Pro eine GPU, die viele Ideen der Vega-Generation beinhaltet. Vor Ort zeigte AMD zwar keine Consumer-Produkte auf Basis eines Vega-Grafikchips, stellte aber ein Prototypsystem mit Doom aus und kündigte den Deep-Learning-Beschleuniger Radeon Instinct MI25 an.

Fünf Jahre lang will AMD an der Vega-Architektur gearbeitet haben, die Technologie soll verglichen mit Polaris über 200 Neuerungen umfassen. Allerdings konkretisierte der Hersteller nicht, was alles aufaddiert wurde. Ungeachtet dessen ist klar, dass AMD zumindest mit dem Vega-10-Chip wieder Marktsegmente anvisiert, die in den vergangenen Jahren vernachlässigt wurden oder durch Vega überhaupt erst erschlossen werden sollen. Als Zeitraum für die Veröffentlichung wurde das erste Halbjahr 2017 genannt.
Laut AMD etwas unter 500 Quadratmillimeter groß
Da AMDs Grafikchef Raja Koduri den Vega-10-Chip bereitwillig für Fotos hochhielt, können wir eine grobe Aussage zur Größe treffen: Die im 14LPP-Verfahren gefertigte GPU dürfte 500 bis 550 mm² aufweisen [ Update : AMDs Raja Koduri sagte uns, Vega 10 sei etwas kleiner als 500 mm²]. Damit ist der Grafikchip voluminöser als der Polaris 10 einer Radeon RX 480 (232 mm²), der GP104 einer Geforce GTX 1080 (314 mm²) und der GP102 einer Titan X (471 mm²), aber kompakter als der monströse GP100 einer Tesla P100 (610 mm²). Die werden übrigens alle mit 14LPP-Technik oder 16FF+ gefertigt, sind also vom Prozess-Node her direkt vergleichbar.













Die Fläche des Vega 10 können wir übrigens nur deshalb einigermaßen abschätzen, weil der Chip nach dem Fiji der Fury X der zweite von AMD mit High Bandwidth Memory ist. Konkret verwendet AMD zwei HBM2-Stacks, die jeweils per 1.024 Bit breitem Interface angebunden sind und mit 2 GHz takten. Das ergibt eine Datentransferrate von 512 GByte pro Sekunde, also so viel wie bei der Fury X mit vier HBM1-Stacks mit jeweils 1 GHz. AMD spricht beim Vega 10 von einem High Bandwidth Cache (HBC), da die Speicherarchitektur laut Hersteller massiv von bisherigen Implementierungen abweicht.













Mit im Chip sitzt ein Speichercontroller, der High Bandwidth Cache Controller (HBCC) heißt. Er verwaltet den HBM2 und soll laut AMD bis zu 512 TByte als virtuellen Adressraum (49 Bit) nutzen, um weitaus mehr Daten als bisher üblich verarbeiten zu können – per Paging in etwa dem RAM oder einer SSD. Als Beispiel diente eine Demo in Radeon ProRender(öffnet im neuen Fenster) , einem Path Tracer(öffnet im neuen Fenster) . Die gezeigte Szene in einem Haus soll 200 GByte verwenden und würde dank des High Bandwidth Cache Controllers mit höherer Bildrate dargestellt als ohne. Denkbar sei es laut AMD, den HBM als exklusiven oder inklusiven Cache zu nutzen und zusätzlich Flash-Speicher oder Storage Class Memory einzubinden, was auf eine weitere Radeon Pro SSG hinweisen könnte.
All die Daten im HBM2 bringen aber nichts, wenn der Vega-10-Chip sie nicht effizient verarbeitet. Daher hat AMD vorne wie hinten Verbesserungen implementiert, etwa bei der wichtigen Geometriestufe.
Front- wie Backend aufgemöbelt
Laut AMD erreicht die Vega-Architektur mehr als den doppelten Geometriedurchsatz von Polaris. Das ist erstaunlich, da hier schon der neue Primitive Discard Accelerator genutzt wird, der verdeckte Dreiecke verwirft, die kleiner als ein Pixel sind, und so die Berechnung beschleunigt. AMD gibt an, dass Vega wie auch Fiji ( Fury X ) über vier Geometry-Engines verfügen, aber pro Takt elf statt vier Polygone durchschleusen kann. Der Geometriedurchsatz wird ergo theoretisch mehr als verdoppelt.













Bei Vega existiert im Frontend ein Workgroup-Distributor, der feinkörnig die Geometry-, die Compute- und die Pixel-Engines ansteuern soll. Er kann die für Tessellation notwendigen Patches über mehrere Compute Units hinweg berechnen, was in Szenen mit vielen kleinen Objekten einen drastischen Geschwindigkeitsschub bei der Geometrie-Berechnung bedeutet. Neu ist obendrein eine Pipeline-Stufe für sogenannte Primitive Shader, bei denen Vertex- und Geometry-Shader über eine API-Erweiterung zusammengefasst werden.
Als weitere Neuerung nennt AMD die NCUs, die Next Generation Compute Units. Darunter versteht der Hersteller die Ausführungsblöcke, welche unter anderem die Shader-Rechenkerne enthalten. Die sollen deutlich höher taktbar sein als bei Polaris und beherrschen mehr Durchsatz bei halber (FP16) sowie einem Viertel Genauigkeit (INT8), was beides für Inferencing relevant ist. Pro Takt und Compute Unit, die eventuell 128 statt 64 ALUs umfasst, schafft Vega somit 512 INT8-OPS, 256 FP16-FLOPS und 128 FP32-FLOPS. Die Leistung bei der für wissenschaftliche Berechnungen wichtigen doppelten Genauigkeit (FP64) ist konfigurierbar, das SP:DP-Verhältnis nannte AMD nicht.
Neue ROPs für moderne Engines
Obendrein kommt ein sogenannter Draw Stream Binning Rasterizer, der die Daten in Kacheln (Tiles) zerlegt, die in einem Cache (Binn) lokal gespeichert werden. Das soll schneller und effizienter sein als bisher, da so Bandbreite gespart wird. Auch Nvidia verwendet seit Maxwell einen Tiled-Cache- statt einen Immediate-Renderer. Die überarbeiten, nun den L2-Caches statt dem Speichercontroller untergeordneten Raster-Endstufen (ROPs) im Backend beschleunigen laut AMD vor allem Spiele mit Deferred Rendering. Zwar arbeiten einige Studios und Engines mit Forward+ Shading, was je nach Anzahl der Lichtquellen oder der Art der Kantenglättung bessere Resultate erzielt. Deferred Rendering ist aber weitaus verbreiteter. Alle Bestandteile von Vega 10 werden durch das neue Infinity Fabric verknüpft, im Falle der GPU in einer Art Mesh-Struktur.
Die theoretische Rechenleistung von Vega 10 beträgt mindestens 12,5 Teraflops bei einfacher Genauigkeit, denn die erreicht schon die Radeon Instinct MI25 . Da der Chip vermutlich über 4.096 Shader-Einheiten verfügt, würde das einem Takt von 1,525 GHz entsprechen. Consumer-Karten dürften erfahrungsgemäß schneller sein.













Auf einem Vega-10-System mit einem frühen Prototyp (übrigens in einem völlig zugeklebten Gehäuse) lief wie eingangs erwähnt Doom mit Ultra-Details unter Vulkan in 3.840 x 2.160 Pixeln. Wir haben die erweiterte Performance-Anzeige eingeschaltet und uns die Details angeschaut: Die Karte erreicht knapp 70 fps, das entspricht etwas weniger als dem Doppelten einer Radeon RX 480 und wäre flotter als eine übertaktete Geforce GTX 1080. Wie schnell finale Karten mit Vega 10 werden, lässt sich dadurch zwar nicht sagen – aber zumindest grob einordnen. Bis zum Release dürften etwa die Treiber noch diverse Optimierungen erhalten und die Karte mehr Frischluft erhalten als im Demo-Aufbau, was höhere Taktraten erlauben sollte.
Zumindest der Prototyp nutzte 8 GByte Videospeicher, das Endprodukt soll 16 und 32 GByte verwenden. Zusammen mit der Rohleistung und den vielen Verbesserungen könnte Vega 10 damit in Schlagdistanz von Nvidias Oberklassemodellen im Consumer- wie Profisegment kommen.
Hinweis: Golem.de hat auf Einladung von AMD den Tech Summit im Dezember 2016 im kalifornischen Sonoma besucht.



