AMDs K10: CPU-Design für Server, Desktops, Notebooks
Dreistufige Cache-Architektur des Barecelona-Cores vorgestellt. Bereits zum dritten Mal rief Guiseppe Amato, technischer Direktor bei AMD, die Presse in ein Münchner Hotel, um Neuigkeiten zu AMDs inzwischen "K10" genannten Prozessor-Design mit vier Kernen zu verraten. Diesmal wurde klar, wo AMD die versprochene bis zu 40 Prozent höhere Leistung herausholen will: Der integrierte Speichercontroller arbeitet mit einem cleveren dreistufigen Cache-Design.
Seit über einem Jahr gibt AMD Stück für Stück Details zum am besten unter dem Codenamen "Barcelona" bekannten Prozessor-Design bekannt. Zuerst hieß die neue Architektur "K8L", in Anlehnung an das bisher gültige "K8". Dabei ist Barcelona, wie AMD jetzt erstmals öffentlich bestätigte, nur der Codename des Quad-Core-Opterons für Server. Ihm stehen noch 2007 die Varianten mit zwei oder vier Kernen "Stars" und "Cities" für Desktop-Rechner und "Hawk" sowie 2008 dann "Griffin" für Notebooks zur Seite. Die neuen mobilen Prozessoren bleiben aber, wie auch bei Intel, bei zwei und nicht vier Kernen – mehr ist, bedingt durch den Stromverbrauch der Kerne, nicht machbar.
Alle diese Prozessoren, die derzeit nur mit ihren Codenamen von AMD bezeichnet werden, basieren auf der K10-Architektur. Im Wortsinne Dreh- und Angelpunkt ist der in der Mitte des Dies angebrachte Speichercontroller, der für DDR-2-Speicher bis effektiv 667 MHz Geschwindigkeit ausgelegt ist. Er verfügt über einen 32 Byte großen Prefetch-Puffer, der bei der Anforderung von Daten und Instruktionen aktiv wird. Der Controller hat direkten Zugriff auf die 128 KByte großen L1-Caches (je 64 KByte für Befehle und Daten) der Cores sowie auf den für beide Datentypen geeigneten und 512 KByte großen L2-Cache der Kerne. Alle vier Kerne eines Barcelona-Dies haben gemeinsamen Zugriff auf einen 2 MByte großen L3-Cache.
Wenn einer der Cores Informationen anfordert, können diese an vier Orten liegen: in einem der L1-Caches eines anderen Cores, wie es bei Multi-Threading-Anwendungen häufig vorkommt, in einem der L2-Caches, im L3-Cache oder letztendlich im Hauptspeicher. Der Speichercontroller kann die Daten von jedem Ort direkt abholen und in seinen Puffer laden – beispielsweise auch von einem L1-Cache eines anderen Cores – und sie dann durch L3- und L2-Cache in den L1-Cache eines Kerns schieben. Um die kleinen Speicherbereiche der Caches effizient zu nutzen, werden die betroffenen Cache-Lines nur für ungültig erklärt, wenn kein anderer Kern mehr darauf zugreift.
Im Server-Umfeld und auch bei der Quad-FX-Plattform mit Dual-Core-Duett waren die per schnellen HyperTransport angebundenen Sockel schon ein Vorteil der AMD-Prozessoren. Auch der K10 profitiert davon: AMD hat beim K10 weiterhin drei HyperTransport-Links vorgesehen, dazu kommen noch zwei Speicherkanäle, die 72 Bit breit sind und flexibel konfiguriert werden können. Für Blade-Server etwa, wo chronisch Platznot herrscht, kann man sie zu einem 144-Bit-Bus zusammenfassen und die volle Bandbreite mit einem Speicherkanal nutzen.
Alle diese insgesamt fünf Ports vor dem L3-Cache (siehe nebenstehendes Blockschaltbild) werden über einen eigenen Crossbar-Switch verwaltet, der die Verbindungen direkt schalten kann – beispielsweise, um die von einem Kern geänderten Daten aus dem L3-Cache direkt in den Speicher zu schreiben. Der Crossbar ist auch bereits auf kommende – und noch nicht einmal mit Codenamen angekündigte – 8-Core-Prozessoren vorbereitet. AMD hat sich diesen Crossbar mit 100 Patenten schützen lassen – wovon vielleicht später auch Intel profitieren kann, haben die beiden Unternehmen doch ein seit Jahren bestehendes Patentaustausch-Abkommen.
Neben der Vorstellung der Speicherarchtitektur des K10 ließ sich Guiseppe Amato nicht weiter zu neuen Ausführungseinheiten des Designs aus. Er wiederholte lediglich die bekannten Daten zu den 128 Bit breiten SSE-Einheiten, die vom Speicher bis zur Ausführung auf einem ebenso breiten Bus reisen können. Bei besonders gleitkommalastigen Berechnungen will AMD so 80 Prozent mehr Leistung gegenüber bisherigen Opterons bei gleichem Takt erreichen – konkrete Benchmarks zum K10 legte Amato aber nicht vor, sondern bekräftigte nur die von AMD bereits genannten 40 Prozent mehr Tempo, die K10 im Schnitt über alle Anwendungen erreichen soll.
Da, wie bereits berichtet, zumindest die Opterons mit vier Kernen nur die auch bisher üblichen 68, 95 und 120 Watt elektrischer Leistung aufnehmen sollen, hat sich AMD für das bereits bekannte Konzept der Abschaltung ganzer Kerne und eine weiter Verfeinerung der Variation aus Takt und Spannung entschieden. Dafür sind jedoch neue Mainboards mit zwei Versorgungsspannungen ("split power planes") nötig – auf dem Desktop heißt der passende Sockel dann "AM2+". Da AMD von Privatanwendern wegen angeblich zu schneller Sockelwechsel (939 und 940 lebten immerhin drei Jahre) oft gescholten wird, passen die neuen K10-Prozessoren für den Desktop aber auch in den bisherigen AM2-Sockel. Sie nehmen dort laut Guiseppe Amato aber rund 10 Prozent mehr elektrischer Leistung auf, sind dann also nicht so sparsam, wie sie im AM2+ sein könnten.
Experimentierfreudige Anwender können die neuen Stromsparfunktionen aber auch zweckentfremden. Über Änderungen im BIOS – was AMD dann aber den Mainboard-Herstellern überlässt und nicht ausdrücklich empfiehlt – kann ein Kern bei Single-Thread-Anwendungen auch deutlich über den nominalen Takt getrieben werden, wenn die anderen Kerne gerade abgeschaltet wurden. Wie hoch diese automatische Übertaktung über dem Nennwert liegen kann, ist noch nicht bekannt.
Guiseppe Amato entschuldigte sich ausdrücklich, auch beim dritten Barcelona-Termin noch kein konkretes Erscheinungsdatum für die neuen Prozessoren nennen zu können – somit bleibt weiterhin nur "Mitte 2007" als Startzeitraum für die sämtlich in 65 Nanometern Strukturbreite gefertigten CPUs. Dafür versteckte sich auf Amatos Folien auch ein Bild des fertigen K10 mit einem recht großen Die – das aber im Vergleich mit den daneben zu sehenden beiden Dual-Core-Dies eines Xeon wieder gar nicht so riesig wirkt. Und einen neuen Codenamen hatte Guiseppe Amato auch zu bieten. Dass es sich beim für 2008 erwarteten "Shanghai" aber, wie die Gerüchtequellen des Internets verraten, um den Achtkerner in 45 Nanometern handelt, wollte der AMD-Manager nicht bestätigen.