• IT-Karriere:
  • Services:

Deep Learning Boost für 56 Kerne

Mit den Skylake SP hatte Intel den AVX-512-Befehlssatz eingeführt, die Cascade Lake AP/SP unterstützen die VNNI (Vector Neural Network Instructions) - das Marketing nennt diese Deep Learning Boost. Konrekt beinhalten die VNNI mit VPDPBUSD/S für INT8 und VPDPWSSD/S für INT16 vier neue Instruktionen für AVX-512. Diese heben die Geschwindigkeit mit dem INT8-Format auf 128 Operationen pro Takt und Kern drastisch an, da die beiden Pipelines noch einen Zyklus statt drei benötigen. Die Matrix-Multiplikationen verringern überdies die Last auf die Caches (weniger Misses) und das Speicher-Subsystem (geringere Bandbreite nötig), allerdings liegt die Leistungsaufnahme auf dem Niveau von (langsameren) FP32-Berechnungen.

Stellenmarkt
  1. Schaeffler Technologies AG & Co. KG, Herzogenaurach
  2. THD - Technische Hochschule Deggendorf, Freyung

Relevant ist der Deep Learning Boost primär für das Inferencing bei künstlicher Intelligenz, denn das vorher notwendige Training der neuronalen Netze erfolgt üblicherweise mit Gleitkomma- statt mit ganzzahligen Formaten. Die Präzision der Matrix-Multiplikationen durch akkumuliertes INT32 reicht für viele Modelle aus, weshalb beispielsweise auch Nvidia mit den Tensor-Cores im GV100-Chip der Tesla V100 und bei den Turing-TU10x-GPUs eine vergleichbare Idee umgesetzt hat. Folgerichtig hat Intel auch Beschleuniger von Nvidia als Vergleich herangezogen, die Tesla T4 und die Tesla V100. Die Leistung in Benchmarks wie Resnet-50 liegt bei Dual-Sockel-Plattformen mit 96 Kernen oder gleich vollen 112 Cores zwar höher, dafür sind solche System sehr viel teurer als selbst mehrere Tesla T4/V100.

  • CLX-AP und CLS-SP im Überblick (Bild: Intel)
  • Preise aller Modelle außer der Off-Roadmap-SKUs (Bild: Intel)
  • Cascade Lake im Überblick (Bild: Intel)
  • CLX-AP und CLS-SP im Vergleich (Bild: Intel)
  • Cascade Lake weist Hardware-Migitationen gegen Meltdown/Spectre auf. (Bild: Intel)
  • Wie stark die Leistung steigt, hängt sehr vom Workload ab. (Bild: Intel)
  • Bisher war AVX-512 eher auf Gleitkomma-Berechnungen ausgelegt. (Bild: Intel)
  • Die VNNI-Instruktionen steigern den Durchsatz der INT8- und INT16-Formate. (Bild: Intel)
  • INT8 per VNNI erhöht die Leistung signifikant. (Bild: Intel)
  • Der Befehl verringert zu FP32 die Cache-Misses ... (Bild: Intel)
  • ... und benötigte Daten brauchen weniger Bandbreite. (Bild: Intel)
  • Vorteile von VNNI in unterschiedlichen Frameworks (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • Zwei 48-Kern-CPUs schaffen die Geschwindigkeit einer (!) günstigeren Tesla T4. (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP alias Xeon Platinum 9200 (Bild: Intel)
  • Im Package sitzen zwei Dies, es wird zudem verlötet statt gesockelt. (Bild: Intel)
  • Die CLX-AP werden als Systeme verkauft. (Bild: Intel)
  • Varianten mit 400 Watt pro CPU sind wassergekühlt. (Bild: Intel)
  • Per Bandbreiten-Zuteilung steigt die Leistung priorisierter Workloads. (Bild: Intel)
  • Speed Select kann Jobs mit mehr Takt versorgen ... (Bild: Intel)
  • ... oder den Basistakt bei weniger Kernen anheben. (Bild: Intel)
  • Die Y-Modelle und die N-Chips beherrschen Speed Select. (Bild: Intel)
  • CLX-AP mit 48 Kernen gegen Vorserien-Epyc mit 64 Kernen (Bild: Golem.de)
  • Leistungszuwachs der Xeon SP v2 zu den Vorgängern (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP und CLS-AP gegen AMDs Epyc mit 32C (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP soll die Epyc 7000 durchweg schlagen. (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
Bisher war AVX-512 eher auf Gleitkomma-Berechnungen ausgelegt. (Bild: Intel)

Intel argumentiert, dass einige Partner gerne breiter aufgestellt seien, wenngleich dies selbstredend nicht für spezialisierte Unternehmen gelte. Nvidias Tesla T4 etwa wird von Alibaba, Amazon, Baidu und Google für Inferencing eingesetzt - für Knoten für Endkunden oder aber für eigene Zwecke. Personalisierte Werbung ist ein typisches Szenario, da mit künstlicher Intelligenz die Empfehlungen besser werden. In einigen Fällen spielt jedoch die Latenz eine deutlich größere Rolle als der Durchsatz oder genauer gesagt, wichtig ist der Durchsatz innerhalb eines bestimmten Millisekunden-Budgets. Hier kann der Transfer der Daten zu den GPU-Beschleunigern zum Problem werden, weshalb dann CPUs bevorzugt werden. An dieser Stelle sei noch erwähnt, dass Intel in den vergangenen Monaten neben VNNI in Hardware vor allem die Software optimiert hat - ohne solche Verbesserungen bringt die schnellste CPU/GPU wenig.

  • CLX-AP und CLS-SP im Überblick (Bild: Intel)
  • Preise aller Modelle außer der Off-Roadmap-SKUs (Bild: Intel)
  • Cascade Lake im Überblick (Bild: Intel)
  • CLX-AP und CLS-SP im Vergleich (Bild: Intel)
  • Cascade Lake weist Hardware-Migitationen gegen Meltdown/Spectre auf. (Bild: Intel)
  • Wie stark die Leistung steigt, hängt sehr vom Workload ab. (Bild: Intel)
  • Bisher war AVX-512 eher auf Gleitkomma-Berechnungen ausgelegt. (Bild: Intel)
  • Die VNNI-Instruktionen steigern den Durchsatz der INT8- und INT16-Formate. (Bild: Intel)
  • INT8 per VNNI erhöht die Leistung signifikant. (Bild: Intel)
  • Der Befehl verringert zu FP32 die Cache-Misses ... (Bild: Intel)
  • ... und benötigte Daten brauchen weniger Bandbreite. (Bild: Intel)
  • Vorteile von VNNI in unterschiedlichen Frameworks (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • Zwei 48-Kern-CPUs schaffen die Geschwindigkeit einer (!) günstigeren Tesla T4. (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP alias Xeon Platinum 9200 (Bild: Intel)
  • Im Package sitzen zwei Dies, es wird zudem verlötet statt gesockelt. (Bild: Intel)
  • Die CLX-AP werden als Systeme verkauft. (Bild: Intel)
  • Varianten mit 400 Watt pro CPU sind wassergekühlt. (Bild: Intel)
  • Per Bandbreiten-Zuteilung steigt die Leistung priorisierter Workloads. (Bild: Intel)
  • Speed Select kann Jobs mit mehr Takt versorgen ... (Bild: Intel)
  • ... oder den Basistakt bei weniger Kernen anheben. (Bild: Intel)
  • Die Y-Modelle und die N-Chips beherrschen Speed Select. (Bild: Intel)
  • CLX-AP mit 48 Kernen gegen Vorserien-Epyc mit 64 Kernen (Bild: Golem.de)
  • Leistungszuwachs der Xeon SP v2 zu den Vorgängern (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP und CLS-AP gegen AMDs Epyc mit 32C (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP soll die Epyc 7000 durchweg schlagen. (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
CLX-AP alias Xeon Platinum 9200 (Bild: Intel)

Während die Cascade Lake Scalable Performance (CSL-SP) bis zu 28 Kerne und sechs Speicherkanäle aufweisen, sind es bei den Cascade Lake Advanced Performance (CLX-AP) bis zu 56 Cores und zwölf Channels. Um das zu erreichen, kombiniert Intel wenig überraschend zwei Dies auf einem Träger - dergleichen wird als MCP (Multi Chip Package) bezeichnet. Die beiden Prozessoren kommunizieren intern über einen UPI und extern über drei UPIs und werden auf der riesigen BGA-5903-Fassung verlötet; unter dem Heatspreader hingegen befindet sich Wärmeleitpaste. Intel bietet die CLX-AP einzig als fertige Platine mit zwei Sockeln an, Partner können aber die Kühlung und Firmware anpassen. Alternativ gibt es mit dem S9200WK ein komplettes System in drei Ausführungen mit Luftkühlung (350 Watt pro CPU) oder mit Wasserkühlung (400 Watt je Package).

Um der Software klar zu machen, dass ein Cascade Lake Advanced Performance verwendet wird, hat Intel das ECX-Register um einige Bits und das 1Fh-Blatt der CPUID um den Hinweis auf die kombinierten Dies erweitert. Von Vorteil sind die CLX-AP in Umgebungen, bei denen eine sehr hohe Leistungsdichte gefragt ist und wenn die Kosten pro Sockel eine Rolle spielen. Allerdings hat sich Intel noch nicht zu den Preisen geäußert, wenngleich die in den Listen stehenden für große Partner ohnehin kaum Relevanz haben.

  • CLX-AP und CLS-SP im Überblick (Bild: Intel)
  • Preise aller Modelle außer der Off-Roadmap-SKUs (Bild: Intel)
  • Cascade Lake im Überblick (Bild: Intel)
  • CLX-AP und CLS-SP im Vergleich (Bild: Intel)
  • Cascade Lake weist Hardware-Migitationen gegen Meltdown/Spectre auf. (Bild: Intel)
  • Wie stark die Leistung steigt, hängt sehr vom Workload ab. (Bild: Intel)
  • Bisher war AVX-512 eher auf Gleitkomma-Berechnungen ausgelegt. (Bild: Intel)
  • Die VNNI-Instruktionen steigern den Durchsatz der INT8- und INT16-Formate. (Bild: Intel)
  • INT8 per VNNI erhöht die Leistung signifikant. (Bild: Intel)
  • Der Befehl verringert zu FP32 die Cache-Misses ... (Bild: Intel)
  • ... und benötigte Daten brauchen weniger Bandbreite. (Bild: Intel)
  • Vorteile von VNNI in unterschiedlichen Frameworks (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • Zwei 48-Kern-CPUs schaffen die Geschwindigkeit einer (!) günstigeren Tesla T4. (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP alias Xeon Platinum 9200 (Bild: Intel)
  • Im Package sitzen zwei Dies, es wird zudem verlötet statt gesockelt. (Bild: Intel)
  • Die CLX-AP werden als Systeme verkauft. (Bild: Intel)
  • Varianten mit 400 Watt pro CPU sind wassergekühlt. (Bild: Intel)
  • Per Bandbreiten-Zuteilung steigt die Leistung priorisierter Workloads. (Bild: Intel)
  • Speed Select kann Jobs mit mehr Takt versorgen ... (Bild: Intel)
  • ... oder den Basistakt bei weniger Kernen anheben. (Bild: Intel)
  • Die Y-Modelle und die N-Chips beherrschen Speed Select. (Bild: Intel)
  • CLX-AP mit 48 Kernen gegen Vorserien-Epyc mit 64 Kernen (Bild: Golem.de)
  • Leistungszuwachs der Xeon SP v2 zu den Vorgängern (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP und CLS-AP gegen AMDs Epyc mit 32C (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
  • CLX-AP soll die Epyc 7000 durchweg schlagen. (Bild: Intel)
  • Appendix zum vorhergehenden Benchmark (Bild: Intel)
Speed Select kann Jobs mit mehr Takt versorgen ... (Bild: Intel)

Für die Cascade Lake generell hat Intel sich zwei Neuerungen ausgedacht: Die Ressource Director Technology (RDT) kann nun per Memory Bandwidth Allocation höher priorisierte Anwendungen mit mehr Bandbreite versorgen, was besonders bei Latenz-kritischen Workloads hilfreich ist. Mit einem Y- oder einem N-Suffix gekennzeichnete Prozessoren unterstützen die Speed Select Technology (SST), bei dem Nutzer vor dem Booten ein Profil festlegen: Der Xeon Platinum 8260Y etwa kann per SST-BF (Base Frequency) mit 24 Kernen und 2,4 GHz als garantiertem Basistakt laufen oder aber mit 20C bei 2,5 GHz oder mit 18C bei 2,7 GHz. Alternativ können einzelne Kerne per SST-CP (Clock Priority) mehr Takt haben während solche mit niedriger priorisierten Jobs gedrosselt werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Cascade Lake AP/SP: Das können Intels Xeon-CPUs mit 56 KernenAMDs Rome mit 64 Cores kommt 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


Anzeige
Mobile-Angebote
  1. 689€ (mit Rabattcode "PRIMA10" - Bestpreis!)
  2. 274,49€ (mit Rabattcode "PFIFFIGER" - Bestpreis!)
  3. 304€ (Bestpreis!)
  4. 328€ (mit Rabattcode "YDENUEDR6CZQWFQM" - Bestpreis!)

derdiedas 11. Apr 2019

Was ich festgestellt habe ist das EPYC CPUs die Leistung homogener und zuverlässiger...

das_mav 04. Apr 2019

Interessante Interpretation.

freddx12 03. Apr 2019

Musste lachen. Danke :D

Nigcra 03. Apr 2019

hast du meinen Beitrag überhaupt gelesen? VMware ist nicht das Problem. Es geht um das...

werpu 03. Apr 2019

Was ich damit meine, AMD bietet zum gleichen Zeitpunkt 64 Kerne bei viel weniger...


Folgen Sie uns
       


SSD vs. HDD: Die Zeit der Festplatte im Netzwerkspeicher läuft ab
SSD vs. HDD
Die Zeit der Festplatte im Netzwerkspeicher läuft ab

SSDs in NAS-Systemen sind lautlos, energieeffizient und schneller: Golem.de untersucht, ob es eine neue Referenz für Netzwerkspeicher gibt.
Ein Praxistest von Oliver Nickel

  1. Firecuda 120 Seagate bringt 4-TByte-SSD für Spieler

CalyxOS im Test: Ein komfortables Android mit einer Extraportion Privacy
CalyxOS im Test
Ein komfortables Android mit einer Extraportion Privacy

Ein mobiles System, das sich für Einsteiger und Profis gleichermaßen eignet und zudem Privatsphäre und Komfort verbindet? Ja, das geht - und zwar mit CalyxOS.
Ein Test von Moritz Tremmel

  1. Alternatives Android im Test /e/ will Google ersetzen

Yakuza und Dirt 5 angespielt: Xbox Series X mit Rotlicht und Rennstrecke
Yakuza und Dirt 5 angespielt
Xbox Series X mit Rotlicht und Rennstrecke

Abenteuer im Rotlichtviertel von Yakuza und Motorsport in Dirt 5: Golem.de konnte zwei Starttitel der Xbox Series X ausprobieren.
Von Peter Steinlechner

  1. Next-Gen GUI der PS5 mit höherer Auflösung als Xbox Series X/S
  2. Xbox Series X Zwei Wochen mit Next-Gen auf dem Schreibtisch
  3. Next-Gen PS5 und neue Xbox wollen Spieleklassiker aufhübschen

    •  /