Zum Hauptinhalt Zur Navigation Zur Suche

Xeon Platinum im Test: Intels Top-Prozessoren sind abgehängt

Intels Server-CPUs können aktuell nicht mithalten. Das zeigt unser Test des Xeon Platinum 8380, der auch die Herausforderungen zweier Prozessoren aufzeigt.
/ Johannes Hiltscher
12 Kommentare undefined News folgen (öffnet im neuen Fenster)
Hat man nicht alle Tage in den Händen: Hardware für über 20.000 Euro. (Bild: Martin Wolf/Golem.de)
Hat man nicht alle Tage in den Händen: Hardware für über 20.000 Euro. Bild: Martin Wolf/Golem.de

Was kostet so viel wie ein Kleinwagen, passt in ein 19-Zoll-Rack und macht ordentlich Krach? Die Antwort: ein Doppelprozessorsystem mit Xeon Platinum 8380, aktuell Intels Prozessor mit den meisten Kernen. Wir haben uns angeschaut, was zweimal 40 Kerne mit insgesamt 160 Threads so können – und ob sie der Konkurrenz von AMD gewachsen sind.

Der unter dem Namen Ice Lake entwickelte Prozessor ist zwar schon eineinhalb Jahre alt, allerdings immer noch Intels Top-Modell: Der Nachfolger Sapphire Rapids verspätet sich und soll erst Anfang 2023 auf den Markt kommen. Dafür bietet der Hersteller beim 8380 alles auf: Der 10-nm-Prozessor unterstützt Intels Erweiterungen für Deep Learning, AVX-512 sowie den persistenten Optane-Speicher – dessen Entwicklung allerdings eingestellt wurde . Zum Testen stellte Intel uns ein System mit zwei Höheneinheiten aus der M50CYP-Serie(öffnet im neuen Fenster) zur Verfügung.

Typisch für die Leistungsklasse verfügt jeder der beiden Prozessoren in unserem Testsystem über acht DDR4-3200-Speicherkanäle. Jeder Kanal ist mit einem Speicherriegel bestückt, insgesamt 512 GByte. Auch auf den Fehlerschutz ECC wird nicht verzichtet. Erweiterungskarten und NVMe-Speicher bindet jeder Prozessor über 64 PCIe-4.0-Lanes an. Die Thermal Design Power (TDP) gibt Intel mit 270 Watt an, wie bei Desktop-Prozessoren kann sie allerdings kurzzeitig überschritten werden.

Nicht alle Kerne sind gleich

Ein interessantes Detail findet sich in Intels Prozessordatenbank(öffnet im neuen Fenster) : Der Hersteller unterteilt die 40 Rechenkerne in zwei Gruppen, High und Low Priority Cores. Sie unterscheiden sich beim Basistakt: Während die 16 High Priority Cores mit 2,4 GHz takten, sind es bei ihren Geschwistern mit niedriger Priorität 200 MHz weniger. Trotzdem gibt Intel den Basistakt des gesamten Prozessors mit dem Mittelwert, also 2,3 GHz an. Bei den Benchmarks ist zumindest anhand der vom Betriebssystem mitgeteilten Taktraten kein Unterschied zwischen den einzelnen Kernen zu erkennen.

Verwendet haben wir wieder Phoronix Test Suite(öffnet im neuen Fenster) (PTS), zum Einsatz kamen die Benchmarks, mit denen wir bereits den Ampere Altra Q80 testeten. Neben klassischen Web-Anwendungen lassen wir den Prozessor folgende Anwendungen aus dem Bereich des wissenschaftlichen Rechnens abarbeiten:

  • BRL-CAD: ein Konstruktionsprogramm; der Test basiert auf Raytracing.
  • Gromacs: simuliert biochemische Abläufe, etwa in Proteinen, mittels Molekulardynamik.
  • OpenFOAM: berechnet Probleme der Kontinuumsmechanik, beispielsweise Strömungsmechanik.
  • Quantum Espresso: simuliert quantenchemische Vorgänge zur Materialanalyse.
  • WRF: eine numerische Wettersimulation, genutzt etwa vom Department of Energy in den USA

Als Betriebssystem verwendeten wir wieder Debian Unstable, die relevanten Softwareversionen zeigt die folgende Tabelle.

Software Version
Linux Kernel 5.19.0-2
GCC 12.2.0
OpenJDK 11.0.16
OpenMPI 4.1.4
Blender 3.2.2
7zip 22.01

Sehen wir uns nun an, was unser Kleinwagen für den Schreibtisch kann, beginnend mit den Web-Benchmarks.

Apache und Probleme mit zwei Prozessoren

Betrachten wir zuerst den Apache-Benchmark. Bei ihm fiel uns bereits beim Test des Ampere Altra Q80 Sonderbares auf: Dual-Socket-Systeme schnitten bei Open Benchmarking unerwartet schlecht ab. Unsere Vermutung: Nicht die Systeme sind schlecht, der Benchmark erfasst sie lediglich nicht gut.

Der Hintergrund ist, dass die PTS das Programm Bombardier verwendet, das eine feste Anzahl Anfragen gleichzeitig an den Webserver stellt. Dabei können gleich mehrere Dinge schieflaufen: Der Scheduler des Betriebssystems, der die einzelnen Programm-Threads auf die Prozessorkerne verteilt, könnte sie ungünstig zwischen den beiden CPUs hin und her schieben. Auch könnte die Verbindung zwischen beiden Prozessoren zum Flaschenhals werden, dann müssten aber andere Benchmarks ähnlich schlecht laufen.

Neben dem PTS-Test probierten wir daher manuell Konfigurationen, bei denen der Webserver und die Benchmark-Anwendung mittels taskset -c fest einem Prozessor (P0 oder P1) zugewiesen werden. Wie im Diagramm unten erkennbar, wirkt sich das beträchtlich auf die Leistung aus: Lassen wir dem Scheduler freie Hand bei der Prozessorwahl, bewältigt Apache lediglich knapp ein Drittel der Anfragen, die mit Zuweisung von Server und Lastgenerator an jeweils einem eigenen Prozessor erreicht werden.

Anwendung Funktion Version
Apache Web-Server 2.4.48
Apache Cassandra verteilte NoSQL-Datenbank 4.0
Apache HBase nicht-relationale, verteilte Datenbank 2.4.48
PostgreSQL relationale Datenbank 14.0
RocksDB nicht-relationale Datenbank 7.0.1

Der in dieser Konfiguration erreichte Wert bildet ungefähr die Leistungsfähigkeit eines einzelnen Prozessors ab. Das ist auch daran erkennbar, dass die Leistung nicht wesentlich höher ist, als wenn Bombardier und Apache gemeinsam auf einem Prozessor laufen (P0). Alle Konfigurationen, in denen der Scheduler Threads zwischen den beiden Prozessoren verschieben kann, laufen deutlich schlechter. Insbesondere, wenn Apache nicht fest auf einem Prozessor ausgeführt wird, sackt die Leistung deutlich ab.

Die seltsame Mathematik vieler Prozessoren

Am Apache-Benchmark wird deutlich: Bei Prozessoren ist eins plus eins nicht zwei. Bei vielen Anwendungen skaliert die Gesamtleistung nicht linear mit der Anzahl genutzter Prozessoren. Der Grund dafür heißt Numa, die Abkürzung steht für Non-Uniform Memory Access(öffnet im neuen Fenster) . In Mehrprozessorsystemen ist es üblich, dass alle Prozessoren und die darauf ausgeführten Anwendungen Zugriff auf den gesamten Speicher des Systems haben.

Wie lange der Zugriff auf eine bestimmte Stelle im Speicher dauert, hängt allerdings davon ab, an welchem Prozessor das entsprechende Speichermodul hängt. Wird eine Anwendung von Prozessor 0 ausgeführt und will auf ein Speichermodul zugreifen, das am Controller von Prozessor 1 hängt, muss die Anfrage zuerst von Prozessor 0 zum Nachbarn geschickt werden. Das führt zu größerer Latenz, die Wahrscheinlichkeit, dass die Anwendung auf Daten warten muss, steigt – es wird mehr gewartet und weniger gerechnet.

Das Problem tritt immer auf, wenn Daten ausgetauscht werden müssen, auch bei der Synchronisation von Threads(öffnet im neuen Fenster) einer Anwendung, die auf unterschiedlichen Prozessoren ausgeführt werden. Unser Test zeigt, dass in diesem Fall Apache das Hauptproblem ist: Lassen wir den Serverprozess httpd auf beiden Prozessoren laufen, Bombardier hingegen nur auf einem, bricht die Leistung sehr deutlich ein. Die Lösung könnte sein, auf jedem Prozessor eine Apache-Instanz laufen zu lassen und Anfragen durch Load-Balancing zu verteilen. Mit dem Benchmark konnten wir diesen Ansatz leider nicht erfolgreich überprüfen. Die einfache Rechnung – mehr Prozessoren gleich mehr Leistung – geht also nicht immer auf.

Allerdings setzt sich der Xeon Platinum 8380 im Apache-Benchmark deutlich von der Epyc-Konkurrenz ab, der obere Balken im Diagramm zeigt das Benchmark-Ergebnis eines Prozessors. Damit ist Apache eine der wenigen Ausnahmen, das ergeben bereits die Datenbank-Benchmarks.

Bei den Datenbanken dominieren die Epycs

Denn bei den Datenbanken zeigt sich ein anderes Bild: Dort dominieren die Epycs, lediglich wenige Tests sehen das Xeon-System vorn. Steigen wir gleich mit dem kuriosesten Ergebnis ein: Bei PostgreSQL sind die Ergebnisse der Lese-Schreib-Benchmarks unglaublich schlecht – so schlecht, dass hier ein Problem vorliegen muss, das wir allerdings nicht eingrenzen konnten. Auffällig ist aber, dass die Benchmark-Anwendung pgbench sehr wenig Last erzeugt.

Wird nur gelesen, erhalten wir realistischere Ergebnisse, der Xeon Platinum 8380 kämpft mit dem Epyc 7773X um die Führung, bei 100 gleichzeitigen Anfragen liegt der Xeon vorn, bei 250 der Epyc. Hier sind die Doppelprozessorsysteme ebenfalls im Nachteil, auch wenn er in diesem Fall bei AMD ausgeprägter ist.

Bei der nicht-relationalen Datenbank Apache HBase scheinen die beiden Xeons im nur lesenden Betrieb sogar ihren kleineren Geschwistern zu unterliegen. Ein Blick auf die Systemauslastung legt allerdings einen anderen Schluss nahe: Das Testsystem ist mit 128 parallelen Anfragen schlicht unterfordert. Diese Vermutung untermauert ein weiterer Test mit 256 zeitgleichen Anfragen: Hier bewältigen die zwei Xeons 437.497 Anfragen pro Sekunde, ganze 25 Prozent mehr.

Manchmal heißt schlechte Leistung: Unterforderung

Das Gleiche dürfte allerdings für die direkte Konkurrenz, zwei Epyc 7742, gelten. Selbst wenn nicht, wäre der Vorsprung der Xeons hauchdünn. Leider fehlen für das Szenario mit 256 parallelen Anfragen Vergleichsdaten, daher verzichten wir auf ein Diagramm. Anders sieht die Situation beim Increment-Test aus, der auch Daten schreibt: Dort liegt das Xeon-System mit mehr als 50 Prozent Vorsprung deutlich vor den beiden Epycs. Allerdings zeigt sich wieder ein vertrautes Bild: Wird der Test auf einen Prozessor beschränkt, macht die Leistung noch einmal einen leichten Sprung – auch hier wirkt sich die Interaktion der beiden Prozessoren also negativ auf die Leistung aus.

Bei Facebooks RocksDB sind die beiden Xeons gegen die Epycs abgeschlagen, zudem büßt das System deutlich Leistung ein, wenn Daten zwischen beiden Prozessoren ausgetauscht werden müssen. Das ist immer der Fall, wenn gleichzeitig Daten gelesen und geschrieben werden; AMDs Epycs schaffen das allerdings besser.

Bei der NoSQL-Datenbank Apache Cassandra können die Xeons noch einmal auftrumpfen: In zwei von vier Tests lassen sie die Epycs hinter sich, immer dann, wenn gleichzeitig geschrieben und gelesen wird. Wird nur gelesen oder geschrieben, fallen sie hinter die AMD-Konkurrenz zurück; beim Lesen nur leicht, beim Schreiben hingegen deutlich.

Beim wissenschaftlichen Rechnen waren Intels Xeon in der Vergangenheit unschlagbar – vorausgesetzt, die Vektorerweiterungen (AVX) kamen zum Einsatz. Sehen wir uns an, wie Intels aktueller Spitzenprozessor sich schlägt.

HPC und Workstation: Wer gewinnt in der ehemaligen Intel-Domäne?

Bis vor wenigen Jahren führte an Intel kein Weg vorbei, wenn es um wissenschaftliches Rechnen ging: Mit der AVX-Erweiterung setzte das Unternehmen auf massive Gleitkomma-Rechenleistung, besonders bei den Xeons, denen die mit 512 Bit größten Recheneinheiten noch immer exklusiv vorbehalten sind. AMD hat in den vergangenen Jahren allerdings aufgeholt und den zusätzlichen Vorteil von mehr als 50 Prozent mehr Kernen in seinen Top-CPUs.

Schauen wir also, wer das Duell in der ehemaligen Intel-Domäne gewinnt. Alle Anwendungen, mit denen wir testeten, sind wieder unten als Tabelle aufgeführt.

Bei der Wettersimulation WRF zeigen unsere zwei Xeons eine solide Leistung – mehr aber auch nicht. Gegen AMDs Epyc 7543 kann sich der Xeon Platinum 8380 behaupten, der höhere Takt des Epyc scheint die geringere Kernanzahl zu kompensieren. Allerdings kostet einer der Xeon-Prozessoren bereits mehr als beide Epycs des Vergleichssystems zusammen. Gegen die 64-Kern-Epycs haben die Xeons jedoch deutlich das Nachsehen.

Anwendung Funktion Version
BRL-CAD Konstruktion (Computer Aided Design) 7.32.6
GROMACS Molekulardynamik 2022.1
OpenFOAM Kontinuumsmechanik 10.8.4
Quantum Espresso Elektronenstrukturberechnungen 7.0
WRF numerische Wettervorhersage 4.2.2

Ordentliche Leistung beim wissenschaftlichen Rechnen

Interessant ist das Ergebnis der Kontinuumsmechanik-Simulation OpenFOAM – weniger aufgrund des Ergebnisses der beiden Xeons. Bei der Aerodynamiksimulation eines Autos mit mittlerer Gittergröße liegen sie deutlich hinter einem System mit zwei Epycs. Allerdings finden sich bei Open Benchmarking Daten des Epyc 7773X mit 3D V-Cache, die beim Test des Altra Q80 noch nicht vorlagen. Sie untermauern unsere Vermutung, dass die Anwendung von großen Caches profitiert. Zwei Epyc 7773X sind ein Drittel schneller als zwei Epyc 7763, die sogar etwas höher takten.

Weniger eindeutig ist die Situation beim Konstruktionsprogramm BRL-CAD: Dort scheint es die Kombination aus Speicherbandbreite und Takt zu sein, die hohe Leistung verspricht. Der Epyc 7773X profitiert zumindest kaum von seinem riesigen L3-Cache. Unser Xeon-System bleibt aber hinter allen Doppelprozessorsystemen mit AMD-CPU zurück.

Die Molekulardynamik-Simulation Gromacs bewältigt das Xeon-System ordentlich, es bleibt aber dennoch hinter den gleich positionierten Epycs 7773X und 7763 zurück. Die Ergebnisse von Quantum Espresso dienen lediglich dem Vergleich mit Amperes Altra Q80. Der verwendete Test erfasst die Leistung vieler Kerne schlecht (danke für den Hinweis aus dem Forum), ist aber als einziger in PTS integriert. Hier arbeiten wir aktuell noch an einem eigenen Test.

Auch im Bereich HPC muss Intel seine ehemalige Führung also an AMD abgeben. Neben den Web- und HPC-Tests musste das teure Xeon-System auch einige der Tests absolvieren, die zu unserem Standardparcours zählen.

Gemischtes Bild bei Blender, 7zip und Kompilieren

Zum Abschluss sehen wir uns noch einige für Server eher unübliche Benchmarks an. Sie erlauben uns, die Leistung des Prozessors mit im Alltag gängigeren Consumer-CPUs zu vergleichen. Neben dem Test mit Blender und 7zip haben wir die Xeon die Kreiszahl Pi berechnen lassen. Außerdem mussten sie noch den Linux-Kernel übersetzen, was eine Einschätzung ihrer Leistung als Build-System erlaubt.

Tatsächlich kann das Xeon-Doppel sich bei Blender recht deutlich von AMDs für Workstations gedachten Threadrippern absetzen. Deutlich wird das anhand der Classroom-Szene, hier sind die Xeons über 40 Prozent schneller als der Threadripper 5995WX. Der BMW27-Benchmark hingegen scheint einfach nicht komplex genug zu sein, der Abstand ist hier mit knapp 30 Prozent deutlich kleiner.

Beim Packen und Entpacken mit 7zip ist das Bild gemischt: Während die Xeons Daten 50 Prozent schneller packen als der Threadripper 5995WX, sind sie beim Entpacken 10 Prozent langsamer. Beides ist nicht verwunderlich, der Threadripper hat nur 16 Kerne weniger, taktet höher und verfügt mit 256 MByte über deutlich mehr L3-Cache.

Ein ähnliches Bild zeigt sich bei y-Cruncher: Auch hier liegen die zwei Xeons nur knapp vor dem Threadripper 5995WX – trotz AVX-512, das der Threadripper noch nicht beherrscht. Höherer Takt und größerer Cache scheinen das aber zu kompensieren.

Den Kernel baut AMD schneller

Geht es um das Übersetzen von Programmcode, unterliegen die Xeons der Konkurrenz von AMD deutlich: Die beiden Spitzenmodelle Epyc 7773X und 7763 sind bereits fast so schnell wie das Xeon-System, wohlgemerkt mit nur einem Prozessor. Kommt ein zweiter Sockel dazu, sinkt die benötigte Zeit, um den Kernel mit allen Modulen zu übersetzen, um über 40 Prozent.

Sicherheitshalber haben wir auch hier noch einmal mit nur einem Prozessor nachgemessen: Die Leistung lässt deutlich nach – mehr gibt Intels Spitzenmodell einfach nicht her. Allerdings dürfte der gemessene Wert von 399 Sekunden zum Kompilieren des Kernels etwas hinter den Möglichkeiten zurückbleiben. PTS startet nämlich den Prozess mit 160 Jobs, so dass der Prozessor überausgelastet ist und Compiler-Instanzen um die Kerne konkurrieren, was zu mehr Verdrängungen führt.

Kommen wir damit zum Fazit.

Fazit

Die ernüchternden Ergebnisse des Xeon Platinum 8380 führen deutlich vor Augen, warum Intel aktuell mit dem Geschäftsbereich Data Center keinen Gewinn macht : Das Unternehmen hat schlicht keine konkurrenzfähigen Prozessoren im Angebot. AMDs Epycs hängen die Xeons mit mehr Kernen, größerem Cache und konkurrenzfähiger Architektur ab und sind sogar noch günstiger.

Den Xeon Platinum 8380 listet Intel aktuell mit über 9.300 US-Dollar, AMD verlangt für das aktuelle Spitzenmodell Epyc 7773X 500 US-Dollar weniger. Ohne 3D V-Cache werden, in Form des Epyc 7763, gar fast 1.500 US-Dollar weniger fällig. Die Erwartungen an den Nachfolger Sapphire Rapids sind also hoch, zumal der dann bereits gegen AMDs Genoa-Epycs mit Zen-4-Architektur und bis zu 96 Kernen antreten wird.

Die Genoa-Epycs sollen noch 2022 auf den Markt kommen, also sogar einige Monate vor Sapphire Rapids. Damit schwindet auch der einzige, wenn auch in erster Linie für den HPC-Bereich relevante Vorteil der Xeons: AVX-512 ist dann kein Alleinstellungsmerkmal mehr, da AMDs Zen-4-Architektur die Befehlssatzerweiterung Vektoroperationen mit 512 Bit ebenfalls unterstützt .

Eine gute Architektur genügt nicht

Zu Intels Ehrenrettung sei allerdings gesagt, dass der Xeon Platinum 8380 sich in vielen Bereichen trotz weniger Kernen wacker schlägt. Intels Problem ist nicht die Prozessorarchitektur, sondern, wie seit Jahren, die Fertigungstechnik. Hier hängt Intel hinterher, zudem sind die Ice-Lake-Xeons noch immer riesige Silizium-Monolithen. Das macht sie schwieriger zu fertigen, was sich wiederum im Preis niederschlägt.

AMD zeigt mit seinen Zen-Prozessoren seit fünf Jahren, wie gut Chiplet-Designs funktionieren – Intel springt erst mit den kommenden Sapphire Rapids auf diesen Zug auf. Intel hat sich selbst in eine Ecke manövriert, aus der das Unternehmen schwer wieder herauskommen wird.

Natürlich lassen sich für Intels Prozessoren im Server- und HPC-Bereich auch Argumente finden. Die gute Linux-Unterstützung etwa oder der Compiler, der noch einmal einen eigenen Test verdient. Die reine Leistung gehört allerdings (aktuell) nicht dazu.


Relevante Themen