Sapphire Rapids: Intels neue Xeon-CPUs setzen auf schnellen HBM2-Speicher

Intel hat die als 4th Gen Xeon Scalable(öffnet im neuen Fenster) bezeichneten Prozessoren heute offiziell zum Verkauf freigegeben. Mehr als zwölf Revisionen hat es gebraucht, bis sie fertig waren. Damit verbunden waren auch einige Verspätungen, was mutmaßlich an der aufwendigen Tile-Architektur und an Änderungswünschen der Kunden lag.
Während der Entwicklung arbeitete Intel bei den Xeon-Prozessoren eng mit den großen Kunden zusammen. Moderne Serverprozessoren müssen in Cloud-Umgebungen mit riesigen Datenmengen umgehen können. Intel legt den Fokus mehr auf die Performance in solchen Anwendungen statt auf die Rechenleistung in Standard-Benchmarks. Nicht ganz unpassend dazu liegt Konkurrent AMD in diesem Punkt auch seit einigen Jahren vorne.
Die neuen Xeon-Prozessoren gibt es in drei unterschiedlichen Ausführungen. Der kleinere Chip wird MCC-Die genannt (Medium Core Count) und kommt mit bis zu 32 Kernen. Das größere Modell nennt Intel XCC (Extreme Core Count). In der Variante ohne HBM kann dieser bis zu 60 Kerne haben, der Xeon Max mit bis zu 64 GByte HBM2e hat bis zu 56 aktive Kerne. Die Konfigurationen sind zahlreich, insgesamt 52 Varianten gibt es zum Launch.
Im Kern ist es Alder-Lake
Die CPU-Kerne sind die aus Alder-Lake bekannten Golden-Cove-Kerne, allerdings mit auf zwei Megabyte vergrößertem L2-Cache und entsprechenden Anpassungen für den Betrieb in Intels Tile-Architektur mit Mesh-Interconnect. Weitere neue Schnittstellen sind PCIe Gen 5 mit insgesamt 80 Lanes, CXL 1.1 für den HPC-Bereich und DDR5-4400 (2DPC) bis 4800 (1DPC). Für Multi-Sockel-Systeme kommt UPI 2.0 mit 16 GT/s und bis zu vier Lanes zum Einsatz.
















Die Beschleuniger für KI-Anwendungen, Verschlüsselungsalgorithmen und schnelle Datenverarbeitung im Netzwerk sind für Intel essenziell. Für Datenbank- und KI-Anwendungen soll der HBM2e der Xeon Max eine bis zu 3,7-fache Leistung gegenüber der letzten Generation bringen. Vorher gab es HBM-Speicher nur auf GPUs, wie der älteren AMD Radeon RX Vega 64 und wenigen dedizierten Beschleunigern.
Starke Zusammenarbeit mit Integratoren und Kunden
Die Liste die Launch-Partner ist lang. Unter den Kunden befinden sich große Cloud-Provider wie Amazon AWS, Cloudera und Microsoft Azure. Aber auch Netzwerkanbieter wie Ericsson nutzen Xeon-Prozessoren für ihre RAN-Produkte (Radio Access Network). Mit Nvidia, IBM und dem Low Alamos National Laboratory sind außerdem Partner dabei, die neben Cloud-Infrastruktur auch Supercomputer bauen oder betreiben.
Dell und Supermicro sind unter anderem als Systemintegratoren an der Einführung maßgeblich beteiligt. Außerdem sind bereits bei der Validierung Betriebssystem- und Softwareunternehmen involviert, damit die jeweiligen Softwarelösungen am Ende mit den Prozessoren und neuen Komponenten wie Beschleunigern kompatibel sind.
DLCs für Prozessoren
Mit Intel On-Demand stellt Intel ein neues Bezahlmodell für die Serverprozessoren vor, bei denen einige Funktionen der Prozessoren per Lizenz freigeschaltet werden. Dies kann bereits beim Kauf der Systeme der Fall sein oder später durch die Vertriebspartner hinzugekauft werden. Laut Intel sollen die Kunden den Wunsch geäußert haben, für die tatsächliche Nutzung von Komponenten zu zahlen, statt das komplette Produkte unabhängig vom Bedarf zahlen zu müssen.
















Unter dem neuen Modell verfügbare Komponenten sind aktuell der Dynamic Load Balancer, Intel Data Streaming Accelerator, In-Memory Analytics Accelerator, Intel Quick Assist und Software Guard Extensions. Aktiviert werden die Features über eine dazugehörige Software von Intel, welche die Funktionen per API auf dem Prozessor freischaltet - entweder dauerhaft (Activation Model) oder auf die tatsächliche Nutzungszeit begrenzt (Consumption Model). Golem.de thematisierte dieses Modell in der Vergangenheit bereits .
Integrierte Beschleuniger für Verschlüsselung und KI
Statt allein auf externe Beschleuniger zu setzen, sind häufig genutzte Funktionen bereits in Form von Hardwarebeschleunigern integriert. Intel AMX beschleunigt KI-Anwendungen wie Spracherkennung, Bilderkennung und Datenanalyse. Kleine und mittelgroße Modelle sollen damit direkt auf der CPU in hoher Geschwindigkeit ausgeführt und angepasst werden können.
Die Beschleuniger im Detail
Quick Assist und Data Streaming Accelerator sind für die Verarbeitung von großen Datenmengen nützlich. Kopiervorgänge zwischen Netzwerkspeichern, CPU-Cache, Arbeitsspeicher und externen Beschleunigern über PCIe oder CXL sollen so möglichst wenig Performance von den CPU-Kernen selbst brauchen. Außerdem wird die Ver- und Entschlüsselung sowie Komprimierung von Daten übernommen.
Der Dynamic Load Balancer soll die Lastverteilung optimieren. So sollen insbesondere I/O-Flaschenhälse vermieden werden, indem die Datenströme auf weniger ausgelastete Kerne verteilt werden. Für Datenbanken soll der In-Memory Analytics Accelerator die Anzahl der möglichen Abfragen pro Sekunde erhöhen. Wie der Name bereits erkennen lässt, profitieren davon In-Memory-Datenbanken wie Clickhouse, RocksDB und SAP Hana.
Crypto Acceleration und Speed Select
AVX-512-Vektorinstruktionen sind weiterhin dabei. Sie kommen unter anderem im Bereich von Wissenschaftssimulationen, CFD, Finanzanalyse sowie bei 3D-Modellanalyse zum Einsatz. Mit 5G-Providern zusammen hat Intel außerdem mit AVX-512 for vRAN an der Beschleunigung von Netzwerkoperationen per AVX-512 gearbeitet.
















Die Kommunikation zwischen Netzwerkadapter und CPU sowie die SSL-Verschlüsselung wurden weiter optimiert. Intel nennt dies Crypto Acceleration und Data Direct I/O-Technology. Mit Speed Select können Kunden außerdem die Basisgeschwindigkeit der CPU-Kerne anpassen. So können auch bei hoher Last auf Kundenwunsch einige CPU-Kerne weiter mit hoher Taktfrequenz laufen, während andere dafür entsprechend langsamer laufen. Anwendungen mit hoher Priorität können dann den schnellen Kernen zugewiesen werden.
Software Guard Extensions (SGX), Trusted Domain Extension (TDX) und Control-Flow Enforcement (CET) sollen die Datensicherheit in Cloud-Umgebungen gewährleisten. SGX isoliert Daten im Arbeitsspeicher von anderen Anwendungen, so dass diese nicht darauf zugreifen können. TDX bietet Isolation für Virtuelle Maschinen (VMs). CET soll ROP-Angriffe verhindern, die durch Softwarelösungen allein bisher nicht zu verhindern waren.



