AMD-Architekturen: Jaguar und Steamroller mit mehr Leistung pro Takt

In seinem Vortrag auf der Hotchips haben AMDs Technikchef Mark Papermaster und Chipdesigner John Rupley vor allem die "instructions per cycle" , IPC, in den Vordergrund gestellt. Immer wieder betonten sie, AMDs für das Jahr 2013 geplante Architekturen Jaguar und Steamroller würden mehr Befehle pro Takt bewältigen können. Das bedeutet auch, dass die Leistung bei Single-Threaded-Anwendungen wieder steigt.
Vor allem in diesem Bereich war AMD in den vergangenen Jahren gegenüber Intel weiter ins Hintertreffen geraten, die Architektur Bulldozer der FX-Prozessoren war sogar bei gleichem Takt meist langsamer als der direkte Vorgänger K10 des Phenom II.
10 Prozent schneller bei gleichem Takt
Das soll sich nun wieder ändern, und zwar sowohl beim für Tablets und günstige Notebooks vorgesehenen Jaguar als auch bei Steamroller, der für schnelle Notebooks und Mittelklasse-Desktops vorgesehen ist. Dazu hat AMD die vorherigen Architekturen, Bobcat und Bulldozer , in vielen kleinen Punkten erweitert. Insgesamt verspricht sich das Unternehmen für beide Designs davon rund 10 Prozent mehr Rechenleistung pro Takt bei gleichbleibender Leistungsaufnahme.














Bei Jaguar, der Bobcat nachfolgt, sollen dafür vor allem eine feste Teilungseinheit (Hardware Divider) und eine Optimierung der Out-of-Order-Verarbeitung sorgen. Der Divider wurde von den Trinity-APUs übernommen. Für die Abarbeitung von Befehlen in anderer als der eingegebenen Reihenfolge wurden unter anderem ein neuer Prefetcher und ein Loop-Puffer für den Befehlscache (IC) eingebaut. Der Puffer soll auch beim Stromsparen helfen.
Sowohl mehr Rechenleistung als auch geringere Leistungsaufnahme soll der neue Shared Cache bringen – bisher waren die L2-Caches für die Kerne getrennt gestaltet. Nun können sie Daten direkt austauschen, aber sich dennoch einzeln abschalten. Unverändert ist die Größe von 512 KByte Datencache je Kern. Diese Konstruktion ist ungewöhnlich, weil der Schaltungsaufwand für die Schnittstelle zwischen Caches gegenüber einem üblichen Shared Cache zusätzlich anfällt.
Diese und weitere Verbesserungen bringen die Größe eines einzelnen Jaguar-Cores ohne Frontend und Cache auf 3,1 Quadratmillimeter. Eigentlich hätte man ihn noch kleiner erwarten können, denn er wird in 28-Nanometer-Technik hergestellt. Ein Bobcat-Kern mit 40-Nanometer-Fertigung kommt schon auf 4,9 Quadratmillimeter.
Steamroller mit neuem Frontend
Zu Steamroller nannte AMD weniger Details, sie zeigen aber auch schon, dass die Probleme von Bulldozer behoben werden sollen: "Füttert die Kerne schneller" , ist eine Folie von Mark Papermaster überschrieben. Auch dafür soll es einen neuen Prefetcher geben, vor allem aber einen eigenen Befehlsdecoder für jede Integereinheit. Die Fetch-Stufe des Frontends soll dabei 30 Prozent weniger Fehlzugriffe (cache misses) bei Befehlen erreichen.














Auch bei der im Weg der Befehle durch einen Prozessor logisch nächsten Stufe gibt es für Steamroller Verbesserungen. Der Scheduler soll beim Verteilen der Lasten auf die Pipelines 5 bis 10 Prozent effizienter arbeiten, was wiederum von der schnelleren Zuführung von Befehlen im Frontend profitiert.
Schnellere FPU für Steamroller
Am Bulldozer-Konzept der Module mit zwei Integer-Kernen , die sich eine FPU teilen, hält AMD aber auch mit Steamroller fest. Die FPU soll schneller werden, dabei blieb Mark Papermaster aber recht vage. Nur von einer "Anpassung an die Trends bei Anwendungen" war die Rede. Gemeint sein dürfte die schon bekannte Unterstützung von SSE 4.1 und AVX , die auch Jaguar mitbringt.
In welche Prozessoren die neuen Architekturen einziehen, hatte AMD bereits in seiner letzten Roadmap bekanntgegeben. Für Tablets mit bis zu zwei Kernen auf Basis von Jaguar heißt der Chip Temash, bei einfachen Net- und Notebooks mit bis zu vier Cores Kabini. Steamroller wird bei Desktop-PCs der Mitteklasse mit bis zu vier Kernen Kaveri heißen, und einen GCN-Grafikkern mitbringen. Er ist damit der Nachfolger der Desktop-Trinitys.
Kaveri ist ebenfalls, aber wohl mit geringerer Leistungsaufnahme, für schnelle Notebooks vorgesehen, dafür gibt es keinen eigenen Codenamen. Die endgültigen Produktbezeichnungen und Taktfrequenzen behält AMD noch für sich.



