Stromsparen von Anfang an
Wie Intel-Ingenieure immer wieder hinter vorgehaltener Hand angeben, hat sich an den eigentlichen Cores seit dem Core 2 Duo (Merom/Conroe) nicht viel getan. Deren effektive Architektur zur Befehlsverarbeitung hat sich so gut bewährt, dass grundlegende Änderungen nicht notwendig waren. Mit Sandy Bridge hat sich Intel aber bei den Cores vor allem einen wesentlichen Kniff einfallen lassen, um noch mehr Rechenleistung bei weniger Leistungsaufnahme zu erzielen.
Schon seit dem Pentium decodieren Intels Prozessoren die x86-Befehle in die sogenannten Micro-Ops. Durch Analyse von Programmen hatte man herausgefunden, welche x86-Instruktionen und welche Kombinationen davon besonders häufig vorkommen und die meistgenutzten in besonders kurze Micro-Ops übersetzt. Die Ausführungseinheiten sind von ALU bis FPU und SIMD-Einheiten auf diese Minibefehle optimiert.
Der Decoder, der die x86-Befehle in Micro-Ops umsetzt, hatte dabei aber stets zu tun, was ihn zu einem Hot Spot auf dem Die machte - er benötigt ständig Strom. Nur wenn die nachgeordneten Stufen und vor allem die bis zum Pentium 4 sehr langen Pipelines ständig mit den Ops gefüttert werden, kann die CPU schnell arbeiten.
Die vier Decoder von Sandy Bridge speichern ihre Übersetzungen nun aber in einem Cache, der rund 1.500 der Micro-Ops fassen kann. Bei den meisten Anwendungen soll dieser, auch als L0-Cache zu verstehende Speicher 80 Prozent aller demnächst gebrauchten Ops enthalten können. Während das der Fall ist, wird vom L1-Cache - er ist trotz des Namens dem L0-Cache vorgeschaltet - bis zu den Decodern ein Großteil des Frontends abgeschaltet.
Zusammen mit der Verzweigungsvorhersage (Branch Predictor) kann der Micro-Op-Cache vom Rest des Frontends unabhängig arbeiten und die Ausführungseinheiten mit Arbeit versorgen. Der Predictor kann dabei die Länge der einzelnen Verzweigungen erkennen und auch im Op-Cache selbst Speicher anfordern - der Rest des Frontends muss dabei nicht mithelfen und kann abgeschaltet bleiben.
Dazu kommen im weiteren Weg von Befehlen durch den Prozessor noch viele kleine Puffer und ein "Physical Register File" (PRF). Es dient vor allem für die 256 Bit breiten Daten der "Advanced Vector Extension" (AVX).
Diese Befehlssatzerweiterung, die dem mit Nehalem eingeführten SSE 4.2 folgt, soll unter idealen Bedingungen den Floating-Point-Durchsatz gegenüber Nehalem verdoppeln können - dafür braucht sie aber hochoptimierten Code. Wie bei allen neuen x86-Erweiterungen in der Vergangenheit dürfte es Jahre dauern, bis die Programme auf die neuen Datenstrukturen angepasst sind.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Welcher Core i kann was? | Ringbus für Cores, Speicher, Grafik, PCI-Express |
Hmmm, also Menschen kaufen sich in der Regel einen neuen Rechner, wenn sie a) erstmals...
Wenn ich mir die derzeitige Intel-Grafik anschaue, kann das noch lange dauern. nur wer...
Nein danke, Intel.... Auch wenn das sicher nicht so heiß gegessen wird wie gekocht - die...
beschneidungen, tpm - chips, intel - prozessoren, otternasen, zaunköniglebern...