Original-URL des Artikels: https://www.golem.de/news/cascade-lake-ap-sp-das-koennen-intels-xeon-cpus-mit-56-kernen-1904-140382.html    Veröffentlicht: 02.04.2019 19:00    Kurz-URL: https://glm.io/140382

Cascade Lake AP/SP

Das können Intels Xeon-CPUs mit 56 Kernen

Während AMD seine Epyc-Chips mit 64 Cores erst im Sommer 2019 veröffentlichen wird, legt Intel mit den Cascade Lake mit 56 Kernen vor: Die haben mehr Bandbreite, neue Instruktionen für doppelt so schnelle KI-Berechnungen und können persistenten Speicher ansprechen.

Knapp zwei Jahre ist es her, seit Intel die erste Generation der Xeon Scalable Processors veröffentlicht hat - intern Skylake SP genannt. Seit Herbst 2018 erhalten enge Partner bereits die Nachfolge-CPUs, heute ist der offizielle Start für die zweite Generation. Deren Codename lautet Cascade Lake, wobei Intel die SP-Variante (Scalable Performance) mit bis zu 28 Kernen und die AP-Modelle (Advanced Performance) mit bis zu 56 Kernen unterscheidet.

Wie bei den Skylake SP gibt es auch bei den Cascade Lake AP/SP mehrere Leistungsklassen - Platinum, Gold, Silver, Bronze - und neuerdings mit den 9200 noch eine zusätzliche Stufe, welche aber nicht mit einem Edelmetall wie Titanium gekennzeichnet ist. Und um das umfangreiche Portfolio ein bisschen unübersichtlicher zu machen, haben diverse Prozessoren noch ein Suffix wie ein L für besonders viel Speicher von bis zu 4,5 Terabyte pro Sockel oder ein Y für die neue Speed-Select-Technik. Verwirrend: Das Y zeigt im Ultrabook-Segment an, dass die Chips nur 5 Watt statt 15 Watt an thermischer Verlustleistung aufweisen.

Technisch ähneln die Cascade Lake AP/SP den Skylake SP stark, denn Intel fertigt sie weiterhin in einem 14-nm-Verfahren und alle Xeon SP v2 basieren auf einer von drei Varianten: Die Low Core Count (LCC) hat 10 Kerne, die HCC (High Core Count) weist 18 auf und die Extreme Core Count (XCC) nutzt 28. Zu Die-Size oder Transistoranzahl wollte sich Intel wie üblich nicht äußern. Der Hersteller sagte aber, dass die Hardware-Härtung gegen Meltdown/Spectre und der neue VNNI-Befehlssatz die Chipgröße nicht nennenswert verändert haben. Somit bleibt offen, ob beides bereits bei den Skylake SP im Die steckte und schlicht nicht aktiviert wurde oder ob Intel eine weitere Revision aufgelegt hat.

Die 2017 eingeführten Neuerungen von Skylake SP behält Cascade Lake AP/SP bei: Darunter fallen die AVX-512-Pipelines für mehr Leistung, das überarbeitete Cache-System samt Mesh statt Ringbus für die Kernkommunikation, die UPIs (Ultra Path Interconnects), um zwei oder mehr Sockel LGA 3647 zu verschalten, und das sechskanalige Speicherinterface. Das unterstützt nun bis zu DDR4-2933 statt DDR4-2666 (ein Speichermodul pro Kanal, 1DPC) und eine höhere Kapazität von bis zu 2 TByte statt 1,5 TByte bei den M-Varianten. Hinzu kommt bei den L-Modellen der Support für 4,5 TByte per Optane DC Persistent Memory, einen nicht flüchtigen Speicher. Die Skylake SP können damit offiziell nicht umgehen.

Intel hat die Cascade Lake AP/SP laut eigener Aussage in Hardware gegen Meltdown und Spectre gehärtet, wenngleich einige Varianten weiterhin nur per Microcode-Update sowie Firmware und Software angegangen werden müssen. Konkret nennt der Hersteller bei den Hardware-Härtungen die Varianten V2 (Branch Target Injection), V3 (Rogue Data Cache Load), V3a (Rogue System Register Read), V4 (Speculative Store Bypass) und somit auch L1TF (L1 Terminal Fault) welche mit Cascade Lake angegangen wurden. Generell seien die Mitigationen eher breiter denn spezifisch, andernfalls wäre der Aufwand zu hoch.

Wie sehr sich diese auf welche Workloads auswirken, variiert: Limitiert die Rechenleistung und finden Berechnungen im User-Space statt, fällt der Geschwindigskeitszuwachs mit 3 bis 8 Prozent eher gering aus. Mit dem FIO-Storage-Benchmark auf einem CPU-Kern bei 100 Prozent Last und kleinen 4-KByte-Dateien hingegen sind es gleich 38 Prozent, was signifikant ist. Interessant ist, dass Intel zufolge für manche Hardware-Mitigationen kein Check-Bit existiert, um die Auswirkungen dediziert zu testen. Daher präsentierte der Hersteller notgedrungen nur einen Vergleich zu den bisherigen Firmware/Software-Ansätzen bei den Skylake SP.

Deep Learning Boost für 56 Kerne

Mit den Skylake SP hatte Intel den AVX-512-Befehlssatz eingeführt, die Cascade Lake AP/SP unterstützen die VNNI (Vector Neural Network Instructions) - das Marketing nennt diese Deep Learning Boost. Konrekt beinhalten die VNNI mit VPDPBUSD/S für INT8 und VPDPWSSD/S für INT16 vier neue Instruktionen für AVX-512. Diese heben die Geschwindigkeit mit dem INT8-Format auf 128 Operationen pro Takt und Kern drastisch an, da die beiden Pipelines noch einen Zyklus statt drei benötigen. Die Matrix-Multiplikationen verringern überdies die Last auf die Caches (weniger Misses) und das Speicher-Subsystem (geringere Bandbreite nötig), allerdings liegt die Leistungsaufnahme auf dem Niveau von (langsameren) FP32-Berechnungen.

Relevant ist der Deep Learning Boost primär für das Inferencing bei künstlicher Intelligenz, denn das vorher notwendige Training der neuronalen Netze erfolgt üblicherweise mit Gleitkomma- statt mit ganzzahligen Formaten. Die Präzision der Matrix-Multiplikationen durch akkumuliertes INT32 reicht für viele Modelle aus, weshalb beispielsweise auch Nvidia mit den Tensor-Cores im GV100-Chip der Tesla V100 und bei den Turing-TU10x-GPUs eine vergleichbare Idee umgesetzt hat. Folgerichtig hat Intel auch Beschleuniger von Nvidia als Vergleich herangezogen, die Tesla T4 und die Tesla V100. Die Leistung in Benchmarks wie Resnet-50 liegt bei Dual-Sockel-Plattformen mit 96 Kernen oder gleich vollen 112 Cores zwar höher, dafür sind solche System sehr viel teurer als selbst mehrere Tesla T4/V100.

Intel argumentiert, dass einige Partner gerne breiter aufgestellt seien, wenngleich dies selbstredend nicht für spezialisierte Unternehmen gelte. Nvidias Tesla T4 etwa wird von Alibaba, Amazon, Baidu und Google für Inferencing eingesetzt - für Knoten für Endkunden oder aber für eigene Zwecke. Personalisierte Werbung ist ein typisches Szenario, da mit künstlicher Intelligenz die Empfehlungen besser werden. In einigen Fällen spielt jedoch die Latenz eine deutlich größere Rolle als der Durchsatz oder genauer gesagt, wichtig ist der Durchsatz innerhalb eines bestimmten Millisekunden-Budgets. Hier kann der Transfer der Daten zu den GPU-Beschleunigern zum Problem werden, weshalb dann CPUs bevorzugt werden. An dieser Stelle sei noch erwähnt, dass Intel in den vergangenen Monaten neben VNNI in Hardware vor allem die Software optimiert hat - ohne solche Verbesserungen bringt die schnellste CPU/GPU wenig.

Während die Cascade Lake Scalable Performance (CSL-SP) bis zu 28 Kerne und sechs Speicherkanäle aufweisen, sind es bei den Cascade Lake Advanced Performance (CLX-AP) bis zu 56 Cores und zwölf Channels. Um das zu erreichen, kombiniert Intel wenig überraschend zwei Dies auf einem Träger - dergleichen wird als MCP (Multi Chip Package) bezeichnet. Die beiden Prozessoren kommunizieren intern über einen UPI und extern über drei UPIs und werden auf der riesigen BGA-5903-Fassung verlötet; unter dem Heatspreader hingegen befindet sich Wärmeleitpaste. Intel bietet die CLX-AP einzig als fertige Platine mit zwei Sockeln an, Partner können aber die Kühlung und Firmware anpassen. Alternativ gibt es mit dem S9200WK ein komplettes System in drei Ausführungen mit Luftkühlung (350 Watt pro CPU) oder mit Wasserkühlung (400 Watt je Package).

Um der Software klar zu machen, dass ein Cascade Lake Advanced Performance verwendet wird, hat Intel das ECX-Register um einige Bits und das 1Fh-Blatt der CPUID um den Hinweis auf die kombinierten Dies erweitert. Von Vorteil sind die CLX-AP in Umgebungen, bei denen eine sehr hohe Leistungsdichte gefragt ist und wenn die Kosten pro Sockel eine Rolle spielen. Allerdings hat sich Intel noch nicht zu den Preisen geäußert, wenngleich die in den Listen stehenden für große Partner ohnehin kaum Relevanz haben.

Für die Cascade Lake generell hat Intel sich zwei Neuerungen ausgedacht: Die Ressource Director Technology (RDT) kann nun per Memory Bandwidth Allocation höher priorisierte Anwendungen mit mehr Bandbreite versorgen, was besonders bei Latenz-kritischen Workloads hilfreich ist. Mit einem Y- oder einem N-Suffix gekennzeichnete Prozessoren unterstützen die Speed Select Technology (SST), bei dem Nutzer vor dem Booten ein Profil festlegen: Der Xeon Platinum 8260Y etwa kann per SST-BF (Base Frequency) mit 24 Kernen und 2,4 GHz als garantiertem Basistakt laufen oder aber mit 20C bei 2,5 GHz oder mit 18C bei 2,7 GHz. Alternativ können einzelne Kerne per SST-CP (Clock Priority) mehr Takt haben während solche mit niedriger priorisierten Jobs gedrosselt werden.

AMDs Rome mit 64 Cores kommt

Mit bis zu 56 Kernen bei den CLX-AP, teils zusätzlichen Cores bei mehr Takt und schnellerem DDR4-Speicher bei den CLS-SP und Neuerungen wie Migitationen gegen Meltdown/Specre plus VNNI, hatte Intel allerhand Benchmarks parat - verglichen zu eigenen Vorgängern, aber auch zu AMDs Prozessoren. Generell steigt mit den Xeon SP v2 die Leistung im Durchschnitt an, selbiges gilt für die Geschwindigkeit pro Euro, da Intel die Preise für die einzelnen (Edel)metall-Klassen weitestgehend beibehält.

Die Xeon Silver 4200 sollen rund 30 Prozent schneller werden, bei den Gold 5200/6200 sind es laut Intel ein Drittel und bei den Platinum 8200 immerhin noch knapp 6 Prozent - da waren Kerne und Takt aber schon bei den Platinum 8100 ziemlich ausgereizt. Bei den Leistungszuwächsen haben wir den Deep Learning Boost ausgeklammert, hier steigt die Geschwindigkeit durch VNNI plus Cores und Frequenz um mehr als das Doppelte. Reale Workloads skalieren abhängig von den Daten teils schlechter als der Linpack-Benchmark, den Intel unter anderem für Messungen herangezogen hat.

Vor Ort ließ es sich Intel nicht nehmen, eine aktuelle AMD-Plattform gegen die CLS-SP und die CLX-AP zu stellen: Eine Dual-Sockel-Plattform mit insgesamt zwei Epyc 7601 (32C mit 2,2 GHz bis 3,2 GHz) musste sich gegen zwei Xeon Platinum 8280 (28C mit 2,7 GHz bis 4 GHz) und gegen zwei Xeon Platinum 9282 (56C mit 2,6 GHz bis 3,8 GHz) beweisen: Bei der Datentransfer-Rate per Stream Triad ordnen sich die Epyc mit ihren acht Speicherkanälen wenig überraschend zwischen den Xeon mit sechs und zwölf Channels ein. Die Floating-Point- und die Integer-Leistung im Spec-Benchmark ist bei den Xeon Platinum 8280 etwas höher als bei den Epyc 7601, da diese kein AVX-512 unterstützen. Davon abgesehen benötigen die Xeon ein bisschen mehr Energie und kosten weitaus mehr.

So mancher Partner hat zudem durchblicken lassen, mit dem Kauf der Xeon SP noch zu warten: Im Sommer 2019 erscheint mit Rome die zweite Epyc-Generation. Verglichen mit den aktuellen Naples-Modellen alias Epyc 7000 erhöht AMD die Anzahl der CPU-Kerne von 32 auf 64, außerdem steigt die Leistung pro Takt, die Chips laufen mit flotteren Frequenzen und haben mehr Bandbreite durch schnelleren DDR4-Speicher. Folgerichtig griff Intel einen von AMD öffentlich gezeigten Benchmark von NAMD auf: Ein Vorserienmuster eines 7-nm-Rome-Epyc schafft dort 9,86 ns pro Tag und ein CLX-AP mit nur 48 Kernen statt der vollen 56 kommt bereits auf höhere 10,65 ns pro Tag. Es gilt abzuwarten, inwieweit AMD mit finalen CPUs nachlegen kann - Luft nach oben dürfte noch sein.

Offenlegung: Golem.de hat auf Einladung von Intel hin am Server Workshop in Portland teilgenommen, die Reisekosten wurden gänzlich von Intel übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben seitens Dritter.  (ms)


Verwandte Artikel:
Optane DC Persistent Memory: So funktioniert Intels nicht-flüchtiger Speicher   
(03.04.2019, https://glm.io/140384 )
Xeon Platinum 8284: Intels 240-Watt-CPU kostet 15.000 US-Dollar   
(17.07.2019, https://glm.io/142603 )
Kaufberatung (2020): Die richtige CPU und Grafikkarte   
(08.01.2020, https://glm.io/145780 )
Skylake-SP: Intels Xeon kosten bis zu 13.000 US-Dollar   
(13.07.2017, https://glm.io/128892 )
Linux-Geräte: Purism verkauft Server und erhöht Smartphone-Preis   
(18.12.2019, https://glm.io/145619 )

© 1997–2020 Golem.de, https://www.golem.de/