Architektur erklärt: Intel spricht wenig bis viel über Skylake

Weiter geht's Stück für Stück: Im Test des Core i7-6700K beklagten wir uns darüber, einen Chip auf dem Tisch liegen zu haben, über den wir abseits grober Spezifikationen offiziell nichts wissen. Auf der Entwicklerkonferenz IDF 2015 hat Intel in den letzten Tagen häppchenweise Details zur Architektur bekanntgegeben, verzichtet aber konsequent darauf, manch technische Feinheit zu benennen. Wir finden das wie gehabt schade, da Skylake eine höchst interessante Architektur ist und Intel in den letzten Jahren durchaus bereit war, der Presse beispielsweise das CPU-Backend zu zeigen.
Die neuen Prozessoren fertigt Intel ähnlich wie bisherige Generationen mit vier unterschiedlichen Masken, bei denen die Anzahl der CPU-Kerne und die Ausführungseinheiten der integrierten Grafikeinheit voneinander abweichen. Je nach Modell ist zudem ein Embedded-DRAM-Baustein angefügt, der wie bei Broadwell-C als zusätzliche und unabhängige Cache-Stufe dient. Je nach Modell und TDP-Klasse sind zwei oder vier CPU-Kerne verbaut, abhängig vom späteren Einsatzzweck ist zusätzlich bei einigen Chips Intels Hyperthreading aktiviert. Die Grafikeinheiten kategorisiert der Hersteller wie gehabt in die GT2- und GT3e-Klasse, neu ist eine GT4e-Stufe. Das e-Suffix kennzeichnet den EDRAM (offenbar 64 MByte für GT3e und 128 MByte für GT4e).






















Laut Julius Mandelblat, Senior Principle Engineer, hat Intels Architektur-Gruppe aus Haifa über vier Jahre an der Skylake-Architektur gearbeitet. Im Lauf der Entwicklungszeit änderte sich das Ziel deutlich, da mit Tablets und Ultrabooks die Technik sehr viel stärker auf niedrige Leistungsaufnahme und eine hohe Effizienz optimiert werden musste. So lautet seit der gefloppten Netburst-Architektur die Maxime, für jedes Prozent mehr an Geschwindigkeit muss die Leistung pro Watt mindestens um zwei Prozent ansteigen.
Im Fall der Skylake-Technik reicht die Skalierung vorerst von 4,5 Watt für die neuen Core M in Detachables bis hin zu 91 Watt für die K-Modelle für Übertakter und Spieler. 2017 folgen zudem die Skylake-EP und Skylake-EX genannten Chips ohne integrierte Grafikeinheit und dafür mit bis zu 28 CPU-Kernen für Server. Solche Xeon-Prozessoren sind zumeist auf bis zu 150 Watt klassifiziert und stellen damit die Obergrenze der Skalierung dar. Eventuell wird Intel im Rahmen der Vorstellung der Purley-Plattform mehr Architekturdetails nennen. Denn beispielsweise die Befehlssatzerweiterung AVX-512 fehlt bei den bisherigen Skylake-Chips schlicht.






















Auch wenn Intel nicht durchweg ins Detail gegangen ist: Die Änderungen und Neuerungen an der Architektur sind sehr vielfältig und in ihrer Fülle durchaus ein wenig erschlagend. Wir haben sie daher auf den nächsten Seiten in CPU-Kerne, Grafikeinheit und Effizienzverbesserungen unterteilt – wenngleich es viele Überschneidungen zwischen den einzelnen Chipteilen gibt.
Überarbeitete Caches treffen dickere Buffer
Ein erster Blick auf den von Intel zur Verfügung gestellten Die-Shot zeigt eines sehr schön: Selbst ohne Kennwerte wie Transistoranzahl und Chipfläche wird klar, dass Intel die Anordnung der CPU-Kerne umgestellt hat. Statt bis zu vier nebeneinander zu setzen, befindet sich der L3-Cache zwischen zwei Kern-Pärchen und diese sind weitaus größer als bisher. Die Caches selbst fassen jedoch weiterhin die gleiche Menge an Daten, eine Vergrößerung würde unverhältnismäßig viele zusätzliche Transistoren kosten.
Beginnen wir jedoch vorne bei den einzelnen Bestandteilen eines CPU-Kerns: Die Sprungvorhersage im Frontend verfügt über mehr Einträge und soll genauer arbeiten, die Prefetch-Stufe Daten flotter in die Caches schieben. Am Micro-Operationen-Cache (µOPs) hat Intel offenbar nichts geändert, er dürfte weiterhin 1.500 Einträge fassen. Buffer wie das Out-of-Order-Fenster sichern hingegen weitaus mehr Daten, womit die dahinter gelagerten Funktionseinheiten entweder schneller und mehr davon parallel gefüttert oder schlicht früher abgeschaltet werden können. Das spart Energie und verringert die Temperatur, was wiederum einen höheren und längeren Turbo-Takt unter Last ermöglicht.






















Was Intel bisher nicht verraten hat, ist der genaue Aufbau der Ausführungseinheiten. Der Scheduler oder auch Reservation Station, welcher die einzelnen Dispatch-Ports mit ihren Gleitkomma- (FP) und Integer-Rechenwerken sowie die Lade- und Speichereinheiten ansteuert, kann zwar mehr Einträge aufnehmen und verteilen, damit Hyperthreading schneller arbeitet (kein Reverse HT!). In der Tat liegt ein Skylake-Chip wie der Core i7-6700K bei vielen Threads pro Takt weiter vor Haswell, als wenn nur ein Thread abgearbeitet wird.
Unklar bleibt aber vorerst, ob Intel beispielsweise die Anzahl der an den Scheduler angeschlossenen Ports und die daran hängenden Ausführungseinheiten erhöht hat. Bei Haswell erweiterte der Hersteller die Ports von sechs auf acht und verbaute unter anderem eine weitere Integer-ALU. Eine Präsentation mit Angaben zur Port-Anzahl von Skylake haben wir zwar gefunden, aber auch dort lässt sich Intel nicht in die Karten schauen und spricht lapidar von mehr als drei statt konkret acht oder mehr zu benennen.






















Julius Mandelblat zufolge stecken in jedem Skylake-Kern mehr Ausführungseinheiten, deren Latenzen zudem verglichen mit Haswell verringert worden sein sollen. Eine interessante Verbesserung ist eine dedizierte Power-Gate-Funktion für die AVX2-Einheiten: Die meisten Anwendungen nutzen diese entweder exzessiv (weshalb Intel hier den Takt reduziert ) oder gar nicht. In letzterem Fall werden sie von der Stromversorgung getrennt (Power Gating), damit keine Leckströme die Leistungsaufnahme des Chips erhöhen.
Die L1-Daten- und Instruktionen-Caches sichern je 32 KByte, der L2-Cache pro Kern speichert 1.024 KByte. Seine Assoziativität wurde aus Stromspargründen von acht auf vier halbiert, kompensiert wird das aber durch Verbesserungen an anderer Stelle – dazu gleich mehr. Der L3-Cache, gerne von Intel unsinnigerweise als LLC (Last-Level-Cache) bezeichnet, ist je nach Chip physikalisch vier oder acht MByte groß und wird von allen Kernen gemeinsam verwendet. Unsere Messungen zeigen, dass die L1-Caches von Skylake verglichen mit Haswell pro Takt nicht schneller wurden, sehr wohl aber die zweite und dritte Cache-Stufe.






















Da deren Geschwindigkeit an die CPU-Frequenz gekoppelt ist, muss die teils verdoppelte Bandbreite woanders herkommen. Intel gibt an, den Fabric-Durchsatz zwischen dem L2- und dem L3-Cache um den Faktor zwei gesteigert zu haben. Sollte ein Cache Miss auftreten – die erwünschten Daten werden also nicht im durchsuchten Puffer gefunden – kann Skylake deutlich flotter weiterarbeiten. Gleiches gilt für einen Page Miss in einigen nicht näher benannten TLBs (Translation Lookaside Buffer), vermutlich für die des L1 und L2.
All die vergrößerten Buffer und beschleunigten Cache-Funktionen füttern bei Skylake also mehr Ausführungseinheiten schneller mit Daten. Somit lastet Intel die CPU-Kerne besser aus und steigert die Geschwindigkeit pro Takt messbar. Wir erwarten in den kommenden Monaten detaillierte Informationen.
Deutlich offener gestaltete Intel die Datenlage zur Grafikeinheit, hielt sich aber auch hier in einigen Teilbereichen etwas zurück.
Drei statt zwei Grafik-Slices mit mehr Tricks
Die im Prozessor integrierte Grafikeinheit bekam ebenfalls eine überarbeitete Architektur spendiert, Intel nennt diese Gen9. Prinzipiell handelt es sich um leicht verbesserte und stärker in die Breite skalierte Gen8-Technik, wie sie Intel mit der Haswell-Generation einführte. Auch der grundlegende Aufbau ähnelt dem Vorgänger: Basis aller Ausbaustufen der Grafikeinheit bildet eine Common Slice, die Intel nun Unslice nennt. Darin stecken die Funktionseinheiten für die Multimedia-Wiedergabe wie H.265-codierte Videos, der Tessellator für mehr Polygone in Spielen und die Geometrie-Einheit.
Besagte Fixed-Functions für Multimedia haben nun eine eigene Spannungs- und Taktdomäne, arbeiten also unabhängig von der restlichen Common Slice. Zudem hat Intel eine verlustfreie Farbkompression für Render Targets integriert, die Daten maximal auf die Hälfte verkleinern kann. Das spart in späteren Verarbeitungsschritten Energie und verbessert die Auslastung der Speichertransfer-Rate, welche der DDR3- oder DDR4-Arbeitsspeicher zur Verfügung stellt. Intel nennt einen Leistungszuwachs von bis zu elf Prozent durch die Kompression, gemessen in diversen Spielen.






















An die Common Slice sind eine (GT2-Grafikeinheit), zwei (GT3e) oder drei (GT4e) sogenannte Sub Slices angeschlossen. Die können nun einzeln getaktet und bei Nichtnutzung komplett vom Strom getrennt werden, was durch das Verhindern von Leckströmen Energie spart, wenn beispielsweise nur ein Video wiedergegeben wird. In jeder Sub Slice stecken wie gehabt 24 Executions Units, so nennt Intel die Shader-Rechenwerke, drei Textur-Sampler und die Raster-Endstufen. Letztere schaffen nun durchweg acht Pixel pro Taktschritt, weswegen sie ein Drittel schneller bis doppelt so flott arbeiten sollen.
Um besonders effizient und feinkörnig die Leistung steuern zu können, sind bei Skylake erstmals mehrere Executions Units in einer Sub Slice abschaltbar – mit den Textureinheiten soll das aber nicht klappen. Die Executions Units unterstützen eine schnellere Berechnung bei 16-Bit-Genauigkeit (Half Precision), was für Grafikschnittstellen wie OpenGL ES wichtig ist – Android etwa nutzt diese. In jeder Sub Slice puffern die Ausführungseinheiten Daten in einem nun 768 statt 576 KByte großen L3-Cache. Falls nötig, können alle Puffer (bei GT3 und GT4) erstmals zusammengeschaltet werden.






















Weitere Optimierungen sind eine Pre-Empting-Fähigkeit, mit der Threads während ihrer Ausführung gestoppt und später fortgesetzt werden können. Die Schreibrate in den Last-Level-Cache, den sich die Grafikeinheit mit den CPU-Kernen teilt, wurde drastisch verbessert und die Anzahl der Einträge in den Warteschlangen des Last-Level-Cache und der GPU-eigenen dritten Cache-Stufe stark erhöht. Dadurch muss die Grafikeinheit seltener Daten anfordern, was die effektive Bandbreite steigert und Raum für andere Operationen lässt, die über den Ringbus in den Last-Level-Cache laufen.
Besserer EDRAM, HEVC-Codec, 4K und D3D12_1
Eine spannende Neuerung gibt es außerdem beim Embedded-DRAM: Dieser kleine Speicher wird bei Chips mit der GT3e- mit 48 (Iris Graphics) und der GT4e-Grafikeinheit mit 72 Executions Units (Iris Pro Graphics) verwendet. Das e-Suffix impliziert, wie eingangs erwähnt, den zusätzlichen Puffer, der aber nicht mehr als schnöder L4-Cache dient. An der Geschwindigkeit (1,6 GHz) ändert sich nichts, neben einer 128- gibt es nun aber auch eine 64-MByte-Version. Erstmals ist der EDRAM zudem als kohärenter Side-Memory ausgelegt, CPU-Kerne und Grafikeinheit können Daten unsichtbar für das Betriebssystem puffern.






















Die einzige Ausnahme ist der Intel-Grafiktreiber: Er kann beispielsweise für die Videowiedergabe notwendige Daten in den EDRAM statt in den Arbeitsspeicher packen und so Energie sparen. Zu diesem Zweck ist der EDRAM-Controller in den System Agent neben die Display-Engine gewandert. Das verringert die Zugriffslatenzen und verringert somit die Leistungsaufnahme.
Wie schon die Gen8-Architekur in Broadwell, unterstützt die Gen9-Technik eine Media Buffer Optimization für Videos: Bei 24-fps-Inhalten drosselt das Display die Frequenz von 60 auf 48 Hz und jeder zweite Frame wird doppelt dargestellt. Die neue Grafikeinheit, genauer die Multimedia-Hardware-Einheiten, encodiert und decodiert 8-Bit-HEVC-Videos (H.265). Für 10 Bit ist eine Shader-Unterstützung notwendig. Für den VP9-Codec, wie ihn Google meist verwendet, müssen ebenfalls die Executions Units mithelfen. Zudem ist Quicksync schneller, Videos werden also zügiger transkodiert und Bildverbesserungen wie eine Rauschunterdrückung in Hardware bei verringerter Leistungsaufnahme durchgeführt.






















Die Bildausgabe erfolgt via Embedded-Displayport 1.3 oder extern via Displayport 1.2, hier sind bis zu 4.096 x 2.304 Pixel bei 60 Hz und 24 Bit Farbtiefe oder bis zu 3.840 x 2.160 Bildpunkte bei 60 Hz und 30 Bit Farbtiefe möglich. Alternativ kann ein Monitor per HDMI 1.4 angeschlossen werden, die Ultra-HD-Auflösung klappt dann aber nur mit 24 Hz. Die Mainboard- oder Notebook-Hersteller können jedoch einen aktiven DP-1.2-auf-HDMI-2.0-Adapter verbauen, um 4K oder Ultra-HD mit 60 Hz anzubieten.
Zu guter Letzt noch ein paar Worte zu DirectX 12: Offiziell nennt Intel Feature Level 12_1, die Fähigkeiten gehen aber darüber hinaus. Konkret soll die Gen9-Architektur optionale Features mit höheren Tiers unterstützen und das sogar vollständiger(öffnet im neuen Fenster) als alle Grafikkarten von AMD und Nvidia; Intel bestätigte das vor Ort. Der Hersteller hatte etwa mit Pixel Sync, was nichts anderes ist als Rasterizer Ordered Views, schon mit der Grafikeinheit der Haswell-Architektur einen Teil der notwendigen Vorarbeit geleistet.
Nur Windows 10 beherrscht Speed Shifting
Mit Skylake bricht Intel mit einem seit sehr vielen Jahren gültigen Grundsatz: Das Advanced Configuration and Power Interface (ACPI) und damit das Betriebssystem bestimmt, ob der Prozessor mit vollem Takt läuft oder mit niedrigeren Frequenzen. Der Chip selbst konnte bisher einzig den Turbo oberhalb der Nominalfrequenz selbst festlegen, weshalb hier deutlich schnellere Taktwechsel möglich sind. Unter Windows 10 übergibt das Betriebssystem nun fast vollständig die Kontrolle an den Prozessor, Intel nennt diese Skylake-exklusive Technologie Speed Shift.






















In jedem halbwegs aktuellen Intel-Chip steckt eine PCU (Power Control Unit), die nahezu in Echtzeit die anliegenden Spannungen, die Taktraten, die Leckströme, die Temperatur und weitere Parameter prüft und, falls erforderlich, anpasst. Windows 10 gibt die PCU eine Energy Performance Preference vor, anhand der die Steuerungseinheit selbstständig die Frequenzen der CPU-Kerne regeln darf. Der Vorteil ist einleuchtend: Die Power Control Unit soll laut Intel in der Lage sein, in einer statt in 30 Millisekunden umzuschalten, wodurch die Geschwindigkeit und die Leistungsaufnahme des Prozessors viel feiner gesteuert werden.
Welche Frequenzen der Chip als maximalen Turbo und als garantierte Basisfrequenz unter Last anlegen darf, bestimmt bei den Mobile-Modellen der Notebook-Hersteller. Intel überlässt es wie gehabt den OEMs, eine Thermal Design Power samt Taktraten und ein Temperaturlimit festzulegen. Innerhalb dieses Spektrums gibt es für jeden Chip eine Frequenz, welche die höchste Effizienz aufweist – bei Skylake liegt diese Intel zufolge bei etwa 1 bis 1,5 GHz. Weniger Takt ist nicht zielführend, da eine gewisse Mindestspannung anliegen muss und diese Leckströme verursacht. Umgekehrt verhindert Speed Shift hohe Frequenzen, wenn die Grafikeinheit limitiert ist oder ein Video läuft.
Spezielle Algorithmen sollen solche Situationen erkennen und den Chip entsprechend drosseln oder besser gleich daran hindern, unnötig Energie durch steigende Taktraten ohne Leistungsgewinn zu verbrauchen. Unterm Strich verringert Speed Shift also den Strombedarf des Prozessors, senkt dessen Temperatur, verlängert die Akkulaufzeit und kann dennoch innerhalb kürzester Zeit aus dem Schlafzustand den Turbo anwerfen, wenn ein Programm es erfordert. Intel spricht von bis zu 20 Prozent mehr Geschwindigkeit und bis zu 20 Prozent eingesparter Energie, bei realer Nutzung statt in Benchmarks sollen die Unterschiede durch Speed Shift noch einmal besser ausfallen.






















Für besonders sparsame Chips wie die Core M hat sich Intel zudem Duty Cycling ausgedacht: Diese Prozessoren sind in einem solch niedrigen TDP-Bereich (um die 5 Watt) angesiedelt, dass die Frequenz mit der höchsten Effizienz bei längerer Laufzeit die Kühllösung überfordert. Folgerichtig taktet Intel die Chips für einige Sekunden mit der Idealfrequenz, stoppt die Berechnung, schickt die CPU-Kerne kurz in den Schlafzustand, um sie abzukühlen und lässt sie dann weiterrechnen. Dieses Auf und Ab soll im Mittel die Leistung und zugleich die Akkulaufzeit erhöhen.
Um generell Energie einzusparen, hat Intel eine Menge zusätzliche Transistoren in allen Skylake-Chips implementiert: Nahezu alle Bestandteile können von der Spannungsversorgung abgekoppelt werden, was Leckströme und damit eine sehr geringe, jedoch konstante Leistungsaufnahme verhindert. Im Detail sind das einzelne CPU-Kerne, die Grafikeinheit und deren Sub Slices, der Ringbus, der Last-Level-Cache und der System Agent. In diesem steckt erstmals ein integrierter Bildprozessor (ISP) für bis zu vier Kameras und Bildsensoren mit bis zu 13 Megapixeln. Außerhalb des eigentlichen Chips hat Intel zudem die einst als tolle Neuerung gelobten Fully Integrated Voltage Regulators (FIVR) vom Package zurück aufs Mainboard verbannt. Insbesondere bei den Core M klappte die Implementierung nicht wie gedacht, weswegen Intel bei den Haswell-Modellen einen Bypass legt, um die FIVRs zugunsten von traditionellen Spannungsreglern auf der Hauptplatine zu ersetzen.
Fazit
Intel hat bei Skylake wie erwartet die Mikro-Architektur an vielen Ecken und Enden verbessert, insbesondere mit Blick auf mobile Geräte wie Detachables und Ultrabooks. Die CPU-Kerne und die Grafikeinheit sind schneller, effizienter und verfügen über mehr Funktionen – ohne Windows 10 kann Skylake sein Potenzial aber nicht voll ausspielen. Zudem hat sich Intel bisher nicht zu den tiefgehenden Änderungen an der Kern-Technik geäußert, weswegen die Architekturbesprechung keinesfalls zuende ist.



