Granite Rapids & Sierra Forest: Das bringen Intels neue Xeon
Die Anforderungen an Prozessoren für Rechenzentren werden immer diverser: Hyperscaler wollen möglichst viele Rechenkerne pro Chip , Hochleistungsrechner hingegen brauchen möglichst hohe Leistung pro Kern.
Dieses große Spektrum ist mit monolithischen Prozessoren nicht mehr effizient abzudecken, Chiplets eignen sich dafür viel besser. Intel wird daher künftig bei den Xeon massiv auf Chiplets setzen, um mit wenig Aufwand viele Anwendungsfälle abzudecken. Wie das funktioniert, erläuterte der Hersteller in Vorträgen bei der diesjährigen Hot Chips.
Dabei geht Intel allerdings einen anderen Weg als Konkurrent AMD, einer der Pioniere der Chiplet-Designs: Anders als bei den Epyc-CPUs werden Intels Compute-Dies direkt miteinander verbunden, statt den Umweg über einen Ein-/Ausgabebaustein (I/O-Die) zu nehmen.
Dafür wird das Netzwerk, das die einzelnen Blöcke mit Rechenkernen verbindet, aus dem Chiplet herausgeführt. So lassen sich auf einem Package bis zu drei Compute Dies zu einem großen 2D-Gitter verbinden. Bei Granite Rapids tauschen die einzelnen Dies Daten mit einer Bandbreite von über einem TByte/s aus. Mit drei Compute-Dies und E-Cores sind bis zu 144 Kerne pro Sockel möglich. Auf die Architektur der E-Cores gehen wir noch genauer ein.
Der Cache ist verteilt
Auch beim I/O-Die geht Intel eigene Wege: Anders als bei AMD enthält es keine Speichercontroller, die sind Teil der Compute-Dies. Der L3-Cache ist zudem anders als bei AMD kein großer Block. Er ist in kleinen Einheiten über die Compute-Dies verteilt, jeder Block mit Rechenkernen enthält auch 3 MByte (E-Cores) oder 4 MByte (P-Cores) des Last Level Cache (LLC). Auch die Caching and Home Agents (CHAs) für die Kohärenzmechanismen finden sich entsprechend hier.
In den I/O-Dies befinden sich neben den seriellen Transceivern die bereits mit Sapphire Rapids eingeführten Beschleuniger (g+) , die allerdings mit einer Übertragungsrate von 64 Byte pro Takt doppelt so breit angebunden sind.
Die Transceiver verbaut Intel in zwei Varianten: Während die normalen I/O-Blöcke auf PCIe 5.0 und CXL beschränkt sind, lassen sich die von Intel Universal IO genannten Blöcke auch für UPI (Ultra Path Interconnect) nutzen. Damit können bis zu acht Sockel verbunden werden, pro Universal-IO-Block stehen 24 Lanes zur Verfügung, für PCIe und CXL sind aber nur 16 nutzbar.
Auch Bifurcation ist implementiert, die 16 Links eines Blocks können hälftig auf PCIe und CXL aufgeteilt werden. Das Power Management verteilt Intel über alle Chiplets: Jedes enthält einen eigenen Block für die Steuerung der Leistung, der Manager im I/O-Die koordiniert, die Compute-Dies können aber eigenständig agieren.
Massive Bandbreite, komplexeres Package
Die direkte Verbindung der Networks on Chip (NoCs) der einzelnen Compute-Dies ist technisch aufwendiger zu realisieren als AMDs Infinity Fabric. Intel verwendet hierfür weiterhin spezielle Schnittstellenchips (EMIBs, für Embedded Multi Die Interconnect Bridge ). Sie werden in die Platine eingelassen.
Im Rahmen der Vorstellung fiel auch ein Begriff, der uns bislang eher von TSMC geläufig war: DTCO. Die Abkürzung steht für Design-Technology Co-Optimization und besagt, dass für unterschiedliche Anforderungen verschiedene Fertigungstechnologien genutzt werden. So sollen die Compute-Dies mit Intels 3-nm-Prozess (Intel 3) gefertigt werden, um eine hohe Transistordichte zu erreichen, die I/O-Dies hingegen mit Intel 7 (g+) , um sie kostengünstiger zu produzieren. Diesen Weg geht auch AMD, dessen I/O-Dies ebenfalls mit älteren Prozessen gefertigt werden.
Sehen wir uns einmal die Compute-Dies genauer an – sie sind ebenso modular wie die Packages.
Konfigurierbare Chips, überarbeitete Kerne
Der modulare Ansatz setzt sich auch im Inneren der Compute-Dies fort: Sie bestehen aus Tiles, deren Anzahl und Anordnung konfigurierbar ist. So kann Intel leicht unterschiedliche Dies zur weiteren Differenzierung der Prozessoren herstellen. Neben Anzahl und Typ der Blöcke für Prozessorkerne ist auch die Anzahl der Speicher-Controller variabel: Intel plant Dies mit vier oder sechs Controllern, pro Sockel sind bis zu 12 Controller möglich.
Bei den Prozessor-Tiles zeigt sich der erste Unterschied zwischen P- und E-Cores: Während Erstere allein in einem Tile sitzen, kommen Letztere in Zweier- oder Vierergruppen. Entsprechend teilen sich die E-Cores den L2-Cache, jeder Gruppe stehen bis zu 4 MByte zur Verfügung, jeder P-Core kann 2 MByte nutzen. Teile des Caches lassen sich mittels Cache Isolation für einzelne E-Cores reservieren, um eine verlässlichere Leistung zu garantieren. Zudem soll Core Isolation dafür sorgen, dass die Ressourcen des Rechenkerns beiden darauf laufenden Hyperthreads gleichmäßig zur Verfügung stehen.
Die Mikroarchitektur der E-Cores hat Intel weiter verbessert, um sie effizienter zu machen und mehr davon pro Sockel zu integrieren. Jeder Kern enthält zwei Out-of-Order-Befehlsdecoder, die je drei Befehle pro Takt zur Ausführung bringen können. Das sei effizienter als ein einzelner Decoder für sechs Befehle, erklärte der Hersteller. Ausgeführt werden die Befehle über 17 Execution Ports. Neben AVX-512 fehlt den E-Cores die Matrix-Einheit, die Vektoreinheit soll aber zumindest eine gute Basisleistung liefern, besonders mit Blick auf KI-Inferencing. Sie unterstützt Int8 und FP16-Datentypen.
P-Cores werden noch leistungsfähiger
Bei den P-Cores hat Intel die Kerne von Sapphire Rapids weiterentwickelt. Sie bekommen einen mit 64 KByte doppelt so großen L1i-Cache für Programmcode, die Gleitkommaoperationen hat Intel beschleunigt, sie brauchen nur noch drei Takte. Da KI in allen Bereichen immer wichtiger wird, hat Intel zudem die Matrix-Erweiterung (AMX) für die hier oft genutzten 16-Bit-Gleitkommatypen erweitert.
Ein überarbeiteter Prefetcher für Daten sowie eine verbesserte Sprungvorhersage sollen die Auslastung der Recheneinheiten verbessern, falsch vorhergesagte Sprünge zudem weniger gravierende Leistungseinbußen bedeuten. Damit die schnelleren Kerne nicht durch den Speicher gebremst werden, wird Intel erstmals sogenannten MCR-Speicher (Multiplexer Combined Ranks) unterstützen. Der kombiniert zwei Speichermodule über einen speziellen Schnittstellenchip und ermöglicht höhere Datentransferraten, die Module sollen wie normale Registered DIMMs funktionieren. Granite Rapids soll mit MCR-DIMMs bis zu 8.800 Megatransfers pro Sekunde (MT/s) erreichen.
Interessant ist auch die Möglichkeit, den Arbeitsspeicher des Systems über CXL zu erweitern. Den können die kommenden Xeon in verschiedenen Modi ansprechen: Entweder kümmern sich Anwender selbst darum, welche Bereiche im RAM oder im CXL-Speicher liegen, oder sie überlassen die Entscheidung dem Prozessor. Das nennt Intel Flat Memory Mode, er funktioniert ähnlich wie ein Cache. Oft genutzte Cache-Lines hält der Prozessor im lokalen RAM vor, seltener genutzte wandern in den CXL-Speicher. Auf diesen zuzugreifen, bedeutet eine ähnliche Latenz wie der Zugriff auf den Speicher eines anderen Prozessorsockels. Für die Software ist das vollkommen transparent.
Anders als bei den E-Cores teilte Intel noch nicht mit, wie viele P-Cores pro Compute-Die möglich sind, auch zur Größe der Core Tiles äußerte sich Intel noch nicht. Unklar ist auch, ob und wie sich die Cores innerhalb eines Chiplets mischen lassen. Die Granite-Rapids-CPUs kommen erst einige Zeit nach Sierra Forest auf den Markt, Letztere sind für das erste Halbjahr 2024 angekündigt.
Eines zeigten Intels Vorträge bei der Hot Chips deutlich: Das Unternehmen will zurück an die Spitze in den Rechenzentren – und das in allen Bereichen. Die kommenden Xeon-Plattformen machen dafür einen vielversprechenden Eindruck. Wir sind gespannt, wie weit Intel die Modularität treibt.
- Anzeige Hier geht es zu Intel-Prozessoren bei Alternate Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



