Zum Hauptinhalt Zur Navigation

Nehalem-Details, auf SSE folgt AVX, 6-Kerner auf einem Die

Neue Daten zu Dunnington-CPU und Nehalem-Architektur bestätigt. In einer kurzfristig angesetzten Telefonkonferenz hat Intel einen Einblick in seinen Prozessor-Fahrplan bis in das Jahr 2010 gegeben. Noch 2008 kommt der erste Hexa-Core-Prozessor "Dunnington" auf den Markt, er bietet erstmals bei Intel mehr als zwei Kerne auf einem Die. Im gleichen Jahr soll auch der Core-Nachfolger Nehalem starten, der ein neuartiges Cache-Design aufweist. Und in der übernächsten CPU-Architektur wird SSE durch das 256 Bit breite AVX erweitert.
/ Nico Ernst
60 Kommentare News folgen (öffnet im neuen Fenster)

Was Intel nun unter der Leitung von Stephen Smith, dem Vize der Digital Enterprise Group, an technischen Details zu kommenden Prozessoren verraten hat, nimmt auf der CPU-Seite nahezu alles vorweg, was für das in der übernächsten Woche in Schanghai startende IDF erwartet worden war. Mit seinen Präsentationen bestätigte Intel bis auf die konkreten Nehalem-Benchmarks auch alle Angaben, die durch einen Vortrag von Sun bereits bekanntgeworden waren.

So soll als Upgrade der Xeon-Plattform " Caneland " mit ihrer CPU " Tigerton " (Xeon-Serie 7300) noch in der zweiten Hälfte des Jahres 2008 der bisher nur "Dunnington" genannte erste 6-Kerner erscheinen. Der Prozessor basiert auf der Penryn-Architektur und wird in 45 Nanometern Strukturbreite gefertigt. Erstmals hat Intel hier nicht mehrere Dies in einem Chipgehäuse, sondern die 6 Kerne auf einem Die untergebracht. Wie das Foto des Chips zeigt, sind dabei jedoch 3 Doppelkerne in einem Bereich zusammengefasst.

Dass jeder der Kerne nur 3 MByte L2-Cache besitzt, wie Sun bereits verraten hatte , verschwieg Intel jedoch - bestätigte aber, dass die Cores sich 16 MByte L3-Cache teilen können. Durch diesen riesigen Zwischenspeicher steigt die Zahl der Transistoren für das gesamte Dunnington-Die auf 1,9 Milliarden. In diesen Dimensionen bewegten sich bisher nur die Itaniums.

Da Dunnington sockelkompatibel zu bisherigen Xeon-Servern bleiben muss, geht die größte Neuerung der Intel-CPUs in den letzten Jahren an ihm vorbei: Einen integrierten Speicher-Controller bietet erst die Nehalem-Architektur , deren Marktstart ebenfalls noch für 2008 geplant ist . Vor allem zu deren Speicherbehandlung und den Caches gab Intel nun neue Details bekannt.

Ein Nehalem-Die soll 2 bis 8 Kerne beherbergen, für den Start sind unbestätigten Informationen zufolge aber nur 2 und 4 Cores vorgesehen. Jeder dieser Kerne enthält je 32 KByte L1-Cache für Daten und Befehle. Dazu kommt ein für Intel-Verhältnisse recht kleiner L2-Cache von 256 KByte je Kern. Von den Xeons haben die Nehalems, die auch als Desktop- und Notebook-CPUs gedacht sind, dafür einen L3-Cache geerbt, der bei einem Quad-Core-Prozessor 8 MByte groß ist. Da müssen sich die Anzeigengestalter von PC-Herstellern wohl etwas Neues einfallen lassen, denn mit den "12 MByte L2-Cache" wie bei den aktuellen Penryn-Quad-Cores lässt sich nun nicht mehr werben.

Intel nennt den L3-Cache auch "Last Level Cache", wohl um das von AMD mit seinen Phenoms und Barcelonas besetzte "L3" auf dem Die zu vermeiden. Den L3-Cache eines Nehalem können sich alle Kerne teilen, dabei soll ein neuer Algorithmus allzu häufiges Lauschen am Speicherbus ("snooping") vermeiden. Zur genauen Organisation des L3-Caches und dessen Bandbreite hat Intel jedoch noch nichts verraten - außer, dass die Daten der L1-Caches auch im L3-gespeichert werden können und damit ebenso im L2 gespiegelt werden. Das soll den Austausch von Informationen zwischen den Kernen beschleunigen.

Weiterhin steht nun fest, wie das Speichersystem von Nehalem arbeiten wird. Jeder Nehalem-Prozessor verfügt über drei Speicher-Controller für DDR3, wobei effektive Frequenzen von 800, 1.066 und 1.333 MHz für die DIMMs unterstützt werden. Pro Speicherkanal kann der Controller 3 DIMMs ansteuern. Bei Zwei-Sockel-Systemen muss man sich so an neue Speichermengen gewöhnen, mit 2-GByte-Modulen wären so 36 GByte möglich.

Durch die insgesamt 6 Speicherkanäle eines Doppel-Sockel-Nehalems will Intel die vierfache Bandbreite gegenüber dem bisherigen Konzept mit FSB1600 erreichen. Vor allem für kleinere Server, aber auch einen möglichen Nachfolger der Skull-Trail-Plattform wäre das ein großer Fortschritt.

Neben Cache und Speicher hat Intel auch an der Bearbeitung der Programme im Prozessor Erweiterungen vorgenommen. Zwar ist Nehalem wie schon die Core-Architektur 4fach multiskalar, kann also 4 Befehle pro Takt ausführen. Dazu kommen nun aber noch 2 Threads je Kern - "HyperThreading" nennt Intel diese Fähigkeit aber inzwischen nicht mehr. Kräftig erweitert wurde die Zahl der dekodierten Micro-Ops, die gleichzeitig in der CPU gehalten werden können: Nehalem hat 128 dieser Befehle "in flight", die Core-Architektur kommt auf 96, und beim letzten Pentium-4-Design Prescott waren es 126. Dazu kommen noch eine nun zweistufige Sprungvorhersage (branch prediction) sowie ein ebenfalls in zwei Ebenen ausgeführter "translation lookaside buffer" (TLB).

Die grundlegende Nehalem-Architektur soll bei Intel wie schon das Core-Design (samt seiner Erweiterung Penryn ) wieder mindestens zwei Jahre halten. Erstmals spricht Intel hier aber von modularen "Building Blocks", zu denen auch Grafikfunktionen in der CPU gehören. Noch ist aber nicht klar Immerhin verriet Intels Chef der Digital Enterprise Group, Pat Gelsinger, während Intels Telefonkonferenz zu den neuen Architekturen noch, dass Larrabee einen gemeinsamen Befehlssatz für Integer- und Gleitkomma-Arithmetik bekommen wird. Er wird von einer "Vector Processing Unit" (VPU) ausgeführt. Damit stehen die bisher inoffiziell als 16 In-Order-Kerne gehandelten Rechenwerke des Larrabee nun in einem anderen Licht da. Womöglich verwendet Intel sie nur als Front-End, um mit einfachem x86-Code die VPUs zu füttern.

Obwohl Larrabee noch vor der Nehalem folgenden Architektur erscheinen soll, gab Intel zu deren erstem Prozessor, der 32-Nanometer-CPU "Sandy Bridge", schon einmal bekannt, dass eine kräftige Erweiterung der SIMD-Funktionen geplant ist. Die Datentypen können nun statt 128 ganze 256 Bit breit sein, zudem kann ein Befehl auf drei Operanden wirken. Das soll weniger Register-Zugriffe nach sich ziehen und insgesamt die Gleitkomma-Leistung verdoppeln. Ganz Ähnliches hatte AMD mit seinem Befehlssatz SSE5 für die Bulldozer-Kerne bereits im Sommer 2007 angekündigt .

Folglich nennt Intel seine neuen SIMD-Einheiten nun "Advanced Vector Extension" (AVX) und nicht mehr SSE. Da beide Unternehmen aber ein Patentaustausch-Abkommen aufrechterhalten, das ihnen auch die Verwendung der Befehlssätze des Konkurrenten erlaubt, darf noch gehofft werden, dass die SIMD-Erweiterungen irgendwann wieder zusammenfinden. Seit den Zeiten von "3DNow!" gegen das erste SSE waren die AMD- und Intel-Prozessoren in diesem Punkt stets voll befehlskompatibel.


Relevante Themen