Intel-CPU: EDRAM mit 102 GByte/s bei 1 Watt und effiziente Grafikkerne

Aller guten Dinge sind fünf, zumindest bei Intels Haswell-Prozessoren. Der Hersteller fertigt eine Handvoll unterschiedlicher Chipversionen, um den Markt vom Tablet über Ultra- und Notebooks bis hin zu Spiele-PCs sowie Servern zu beliefern. Je nach Ausbaustufe sind zwei oder vier CPU-Kerne und eine von zwei Grafikeinheiten vorhanden, zudem koppelt Intel die GPU zum Teil mit Embedded-DRAM oder dem Platform Controller Hub (PCH) auf einem Träger. Der Trick hierbei nennt sich OPIO, also On-Package I/O.








Auf der International Solid State Circuits Conference ( ISSCC(öffnet im neuen Fenster) ) ging Intel ins Detail und erklärte die Technik dieses speziellen Busses: Der OPIO überbrückt auf dem Träger die 1,5 mm Abstand zwischen dem eigentlichen Prozessor und dem EDRAM oder dem PCH. Das Embedded Dynamic Random Access Memory setzt sich aus acht je 16 MByte großen Speicherblöcken zusammen, die insgesamt 128 MByte EDRAM sind über das On-Package I/O per 1.024-Bit-Bus an den Prozessor angeschlossen und takten mit 1,6 GHz.
Das ergibt eine Datentransferrate von 102 GByte pro Sekunde, dies ist ähnlich wie bei einer Radeon R7 260X mit GDDDR5-Speicher. Besonders eindrucksvoll ist hierbei, dass das OPIO diese Transferrate bei nur 1,07 Watt erreicht – das ist weniger, als die meisten GDDDR5-Bausteine unter Last benötigten.
Intel kombiniert den 77 mm² großen EDRAM nur mit vier Haswell-Kernen und der GT3e genannten Grafikeinheit mit 40 Ausführungseinheit. Das "e" weist auf den Embedded-RAM hin, der Codename für diese Chipvariante lautet "Crystalwell". Der zusätzliche Speicher dient als L4-Cache für die CPU wie die GPU und erhöht die Leistung laut Intel um bis zu 75 Prozent.
Eine Handvoll Haswell-Kerne
Die kleinste Haswell-Version mit zwei Kernen und GT2-Grafik (20 Ausführungseinheiten) misst 130 mm² und verfügt über 0,96 Milliarden Transistoren, mit GT3-Grafik vergrößert sich die Die-Size auf 181 mm² und die Anzahl der Schaltungen auf 1,3 Milliarden. Vier statt zwei Kerne samt GT2 belegen mit 177 mm² gar weniger Fläche – kommen aber auf 1,4 Milliarden Transistoren. Hintergrund ist der auf CPUs optimierte Fertigungsprozess, Intel erreicht bei den Grafikeinheiten längst nicht dieselbe Packdichte.








Für Tablets und Ultrabooks hat Intel bei Haswell zwei MCM-Versionen (Multi Chip Module) entwickelt, diese kombinieren den Prozessor mit dem PCH auf einem Träger. Als Verbindung dient wie beim EDRAM der On-Package I/O, jedoch nur mit einer Datentransferrate von 4 GByte pro Sekunde bei einer Leistungsaufnahme von 32 Milliwatt.
Für die Zukunft wäre theoretisch auch denkbar, dass Intel ähnlich wie bei Clarkdale die GPU als eigenes Die per OPIO ankoppelt.
Stromsparmodi von C7 bis C10
Bei der Vorstellung der Haswell-Architektur benannte Intel als kleinsten Stromsparmodus den neuen C7-State , die Prozessoren bieten aber auch Modi bis hinab zum C10. Während im C7 der System Agent inklusive Speichercontroller deaktiviert ist, schaltet der C8 auch die Verbindung zum PCH ab und verringert die eingehende Spannung auf 1,2 Volt – Standard sind 1,8 Volt. Im C9-State verringern die integrierten Spannungsregler (FIVR) des Chips die VCCin auf 0 Volt, im C10-State erhalten die Fully Integrated Voltage Regulators zusätzlich spezielle Optimierungen.








In Zuständen wie Instant Go sind bis auf die Power Control Unit alle Chipbestandteile nahezu vollständig deaktiviert, der komplette Prozessor soll nur noch 18 Milliwatt an elektrischer Energie aufnehmen. Die PCU alleine ist so komplex wie eine 486-CPU und weckt den Haswell-Prozessor innerhalb von wenigen Millisekunden auf.
Effizient durch Near Threshold Voltage
Die integrierten Spannungsregler haben noch weitere Vorteile: Sie ermöglichen eine höhere und schneller anliegende Spannung für die Grafikeinheit, die hierdurch höher takten kann – die Effizienz ist zwar besser als mit externen Reglern, aber immer noch nicht ideal. Intel hat daher anhand eines Protoypchips mit Haswell-Technik und nur einer Ausführungseinheit (Execution Unit) Forschungen mit sogenannter Near Threshold Voltage durchgeführt.
Jeder Transistor benötigt eine Mindestspannung, damit er schaltet und das Graphics Register File (GRF) muss eine gewisse Spannung erhalten, damit es Daten speichern kann. Ein zusätzlich zu beachtender Effekt bei schaltenden Transistoren ist ein Spannungsabfall (vDrop), welcher jedoch einkalkuliert wird und die Effizienz steigert.








Intels Forschungen am Rande der unteren Spannungsgrenze kombinieren spezielle Schlafmodi mit gleichbleibenden Zuständen (State-Retentive Sleep) für das GRF mit einem Retention-Flop, welches die Umschaltzeiten zwischen verschiedenen Spannungen und Taktraten durch das Wegfallen von Verzögerungen minimiert, da keine Zustände zwischengespeichert werden müssen.
Im Vergleich zu Clock Gating, also dem selektiven Auslassen von Taktsignalen, soll diese Technik durch massiv verringerte Leckströme die Leistungsaufnahme im Leerlauf auf ein Achtel senken. Bei geringen Frequenzen und Teillast erhöht sich die Effizienz um 40 Prozent bei der Rechenleistung pro Watt – Intel nennt 100 MHz bei einer Spannung von 380 Millivolt. Unter Volllast ändert sich weder an der Geschwindigkeit noch an der Effizienz des Testchips etwas, hier taktet er mit 800 MHz bei 700 Millivolt.