Clearwater Forest: Intel stapelt 288 CPU-Kerne auf den Cache auf EMIBs
Lange war zusätzlich aufgestapelter 3D-Cache AMDs Geheimrezept für – je nach Anwendung – teils beeindruckende Leistungssteigerungen. Mit Clearwater Forest, der nächsten Xeon-Generation mit auf Effizienz optimierten Kernen (E-Cores), zieht Intel nach. Die Pläne waren bereits eine Weile bekannt , Intels Ansatz hat aber eine Besonderheit. Bei der diesjährigen Konferenz Hot Chips stellte der Hersteller Details zum Nachfolger von Sierra Forest vor.
Dieser soll wie sein Vorgänger Sierra Forest als Xeon 6900E bis zu 288 Kerne in einen Sockel bringen – allerdings mit deutlich mehr Leistung, wenn auch weiter ohne Hyperthreading. Möglich machen das der Intel-18A-Prozess und im wahrsten Sinne des Wortes auf eine neue Ebene gehobenes Advanced Packaging. Denn die Prozessoren bestehen aus drei übereinander gestapelten Schichten Silizium.
Ganz oben sitzen CPU-Chiplets mit je 24 Prozessorkernen und 24 MByte L2-Cache, sie werden mit Intel 18A gefertigt. Auffällig ist, dass sie im Vergleich zu den Xeons der sechsten Generation sehr klein sind – so kann Intel mit dem noch jungen Fertigungsprozess eine höhere Ausbeute (Yield) an funktionsfähigen Dies erreichen. Vier davon können mittels Direct Copper-to-Copper Bonding, das Intel Foveros Direct nennt, auf ein Base Chiplet montiert werden.
Alle jüngsten Fertigungsprozesse vereint
Dieses wird im Intel-3-Prozess gefertigt, der aktuell für die Compute Dies für Granite Rapids genutzt wird. Im Base Chiplet liegt der L3 als Last Level Cache (LLC). Der wächst dadurch im Vergleich zum Vorgänger mit maximal 108 MByte pro 144 Kerne deutlich: Jedes Base Chiplet enthält 192 MByte.
Anders als bei AMDs 3D-V-Cache sind diese Chiplets aber keine reine Speichererweiterung. Sie verbinden auch die Cluster aus vier Kernen und einem geteilten L2-Cache in den CPU Chiplets und enthalten vier DDR5-Speichercontroller. Diese unterstützen bis zu 8.000 MT/s – wohlgemerkt ohne MCR ( Multiplexer Combined Ranks ). Hinzu kommen zwei mit Intel 7 gefertigte I/O-Chiplets.
Diese veränderte Intel gegenüber Sierra Forest nicht. Sie bringen insgesamt 96 PCIe-5.0-Lanes, von denen 64 CXL unterstützen, sowie 144 kohärente UPI-Lanes (Ultra Path Interconnect) mit. Über Letztere können zwei Prozessoren verbunden werden – und kommen so auf 576 Kerne pro Mainboard. Auch verschiedene Beschleuniger integriert Intel hier wieder. Verbunden werden I/O- und Base Chiplets über Embedded Multi-Die Interconnect Bridges (EMIB). Diese in die Platine eingelassenen Chiplets stellen lediglich elektrische Verbindungen mit extrem geringem Kontaktabstand her.
Mehr Varianten möglich
Der Aufbau des neuen Package gleicht eher der aktuellen P-Core-Variante Granite Rapids: Hier verbaut Intel bei den 6900P-Modellen drei CPU Chiplets . Die Ähnlichkeit endet hier nicht – Clearwater Forest ist zur Plattform der aktuellen Xeon 6900 kompatibel.
Der neue Aufbau ermöglicht Intel im Vergleich zu Sierra Forest deutlich mehr Flexibilität bei der Ausgestaltung des Produktportfolios. Dessen riesige CPU-Dies mit 144 Kernen machten kleinere Varianten für den Hersteller eher unattraktiv. Neben der in der Präsentation gezeigten Variante mit drei Base Chiplets dürfte auch mit kleineren Varianten zu rechnen sein.
Aber nicht nur äußerlich ändert Clearwater Forest einiges.
Die Kerne werden deutlich leistungsfähiger
Auch die Prozessorkerne hat Intel stark überarbeitet, es handelt sich um die bereits von Lunar Lake und Arrow Lake bekannten Skymont-Kerne. Für Clearwater Forest werden sie allerdings nicht mehr bei TSMC gefertigt. In den Kernen arbeiten parallel drei Befehlsdecoder – beim Vorgänger waren es zwei – von denen jeder pro Takt bis zu drei Anweisungen verarbeiten kann.
Um das sinnvoll nutzen zu können, sind auch die Kapazitäten für Out-of-Order-Ausführung (g+) deutlich gewachsen: Die Rename-Einheit kann acht Anweisungen Arbeitsregister zuweisen und sie so zur Ausführung bringen. Hier sind die Skymont-Kerne gleichauf mit AMDs Zen 5 (g+) . Abschließen (Retire) kann jeder Kern 16 Befehle pro Takt – doppelt so viele wie Zen 5.
Gegenüber dem Vorgänger ist das ein Plus von 60 Prozent (Rename) und 100 Prozent (Retire), auch das Out-of-Order-Window – die Anzahl an Befehlen, die maximal auf Parameter und damit ihre Ausführung warten dürfen – ist mit 416 ausstehenden Befehlen um 60 Prozent größer als beim Vorgänger. Dass Clearwater Forest mehr Befehle pro Takt zur Ausführung bringen kann, schlägt sich auch in allen anderen Bereichen nieder.
Im Mittel 50 Prozent mehr Hardware
Beim Speicher-Interface legt Clearwater Forest ebenfalls zu: Mit drei Load-Einheiten kommt eine hinzu, die Anzahl der Store-Einheiten wird auf vier verdoppelt. Die Anzahl der Jump Ports für die Ausführung von Sprüngen steigt von zwei auf drei. Die Aufteilung der Skalar-ALUs (Arithmetic Logic Units) bleibt gleich – nur die Hälfte beherrscht Multiplikation und Division – es gibt allerdings doppelt so viele wie bei Sierra Forest.
Bei den Vektoreinheiten hat sich ebenfalls einiges getan: Hiervon sind nun vier vorhanden, zwei mit vollem Funktionsumfang (inklusive Gleitkommadivision, AES und SHA). Die beiden anderen beherrschen lediglich FMA (Fused Multiply-Add) sowie Addition und Integer-Operationen. Weiter werden nur 128-Bit-SIMD-Befehle unterstützt.
Die untere Cache-Hierarchie bleibt gleich
Ein paar Aspekte hat Intel jedoch auch unverändert gelassen. Das betrifft hauptsächliche die Caches: Der L1I für Befehle ist unverändert 64 kByte groß, der L1D für Daten bleibt bei 32 kByte.
Auch sind weiterhin vier Kerne zu einem Cluster kombiniert und teilen sich einen unverändert 4 MByte großen L2-Cache. Allerdings erlaubt Skymont mit 128 doppelt so viele ausstehende L2-Misses, bei denen Daten aus dem L3-Cache oder Hauptspeicher geholt werden müssen, wie Sierra Forest. Jeder Kern soll mit einer Latenz von 17 Takten und einer Bandbreite von 200 GByte/s auf den Cache zugreifen können, der mit einer recht niedrig erscheinenden Bandbreite von 35 GByte/s in das Network-on-Chip (NoC) eingebunden sein soll. Allerdings ist auf der entsprechenden Folie angemerkt, dass es sich hier um Abschätzungen handelt.
Ein interessantes Feature versteckt sich quasi in einer Fußnote: Clearwater Forest unterstützt einen Lockstep-Modus. Dabei arbeiten zwei Kerne dasselbe Programm ab und vergleichen ihre Ergebnisse, um Fehler erkennen zu können. Neu ist es dennoch nicht – bereits Sierra Forest unterstützt diesen Sicherheitsmechanismus(öffnet im neuen Fenster) .
- Anzeige Hier geht es zu Intel-Prozessoren bei Alternate Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.