• IT-Karriere:
  • Services:

Doppelte FMA-Pipelines

Ausgehend vom bekannten Skylake-S-Kern mit seinen größeren und schnelleren Puffern sowie flotterem Speed Shift plus einer höheren Bandbreite zwischen den Funktionseinheiten hat Intel zwei wortwörtliche Erweiterungen vorgenommen: AVX-512-Integration und eine andere Cache-Topologie, was beides in Teilbereichen miteinander einhergeht, sich aber nicht zwingend bedingt. Einiges, etwa die nun 32 Register, ist aber notwendig.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Shot des XCC-Dies (Bild: Intel)
Stellenmarkt
  1. Deutsche Rentenversicherung Bund, Berlin
  2. Atlas Copco IAS GmbH, Bretten

In jedem Core befindet sich ein Scheduler, der über acht Ports die Befehle an die dort angeschlossen Rechen- sowie Lade- und Speichereinheiten weitergibt. Am Port 0 und am Port 1 hängen wie gehabt je eine FMA-Pipeline für AVX2-Vektorberechnungen, sie können aber zu einer AVX-512-Einheit zusammengeschaltet werden. Das ist laut Intel zwar ein bisschen effizienter als zwei einzelne AVX2-Pipelines, jedoch nicht schneller. Erst mit der neuen FMA-Einheit an Port 5 erreicht Skylake-SP den doppelten Durchsatz von 64 und 32 Flops pro Takt bei einfacher (FP32) und doppelter (FP64) Genauigkeit.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)

Die zweite FMA-Pipeline für AVX-512 gibt es nur bei den Xeon Platinum und Gold, sie erfordert angepasste Taktraten. Vektorisierter AVX-Code erhöht die Leistungsaufnahme drastisch, weshalb Intel bei jeder CPU abseits der regulären Basis- und Turbo-Frequenzen auch niedrigere Stufen für AVX(2)- und noch niedrigere für AVX-512-Berechnungen aufweist. Allerdings teilte Intel trotz Nachfrage nicht mit, wie diese bei den einzelnen Modellen ausfallen. Einzig beim Xeon Platinum 8180 - dem schnellsten Chip - sprach der Hersteller von 3,1 (SSE) über 2,8 (AVX) und 2,5 (AVX2) bis hinab zu 2,1 (AVX-512) GHz Boost.

AVX-512 bei Skylake-SP umfasst fünf der elf verfügbaren Instruktionen, darunter das Foundation-Set (AVX-512-F). Das unterstützen alle Prozessoren, die mit der Befehlssatzerweiterung umgehen können. Exklusiv für die Xeon sind AVX-512-BW, AVX-512-DQ und AVX-512-VL, hinzu kommt AVX-512-CD wie bei Xeon Phi Knights Landig. Ungeachtet der geringeren Taktraten steigert AVX-512 die Rechenleistung und die Effizienz, zumindest wenn der Code oder die Anwendung davon profitiert. Das ist allerdings längst nicht bei allen Workloads der Fall, wie Intel mit eigenen Messwerten aufzeigte.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)

Beispielsweise erhöht sich die Leistung bei Monte Carlo im Finanzsektor drastisch - hier wird mit doppelter Genauigkeit gerechnet. Anders sieht es bei der Wettervorhersage aus, da dort die Bandbreite der limitierende Faktor ist und somit AVX-512 wenig bringt. Im Cloud-Bereich spielen die Instruktionen kaum eine Rolle, dafür bei Training sowie Inference von Deep Learning (FP32) und beim Stitching von 360-Grad-Videos. Neben AVX-512 beschleunigen die Skylake-SP auch Integer wie INT8, was bei Matrixen-Multiplikationen hilft.

Für AVX-512 musste Intel die Struktur der Zwischenpuffer überarbeiten, hinzu kommt ein neuer Interconnect - die Ringbusse haben ausgedient.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Xeon Skylake-SP: Das können Intels 28-Kern-CPUs mit AVX-512Neuer Cache im Mesh 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7.  


Anzeige
Top-Angebote
  1. 285,71€ (Bestpreis!)
  2. (u. a. Surface Go ab 379,00€, Surface Pro 7 ab 764,00€, Surface Laptop 2 ab 999,00€)
  3. 21,00€ (Standard)/35,00€ (Gold)/42,00€ (Ultimate)
  4. 24,00€ (Ultimate)/12,00€ (Standard)/20,00€ (Gold)

Sharra 17. Jul 2017

Du warst noch nie in einem Raum, dessen Klimakonzept vom Hausmeister auf der Serviette...

bluedroid 14. Jul 2017

Dann guck Dir mal den Power7 MCM von IBM an: https://www.heise.de/newsticker/meldung/IBM...

Quantium40 13. Jul 2017

Mir fällt da spontan eigentlich nur der SuperMUC in München ein, der mit einer Hei...

plutoniumsulfat 13. Jul 2017

Ach sorry, es war bloß eine Anspielung. Natürlich hat das Relevanz.

colon 12. Jul 2017

Andersherum. Die i7 sind beschnitten Xeons.


Folgen Sie uns
       


Smartphone-Kameravergleich 2019

Der Herbst ist Oberklasse-Smartphone-Zeit, und wir haben uns im Test die Kameras der aktuellen Geräte angeschaut. Im Vergleich zeigt sich, dass die Spitzengruppe bei der Bildqualität weiter zusammengerückt ist, es aber immer noch Geräte gibt, die sich durch bestimmte Funktionen hervortun.

Smartphone-Kameravergleich 2019 Video aufrufen
Lovot im Hands-on: Knuddeliger geht ein Roboter kaum
Lovot im Hands-on
Knuddeliger geht ein Roboter kaum

CES 2020 Lovot ist ein Kofferwort aus Love und Robot: Der knuffige japanische Roboter soll positive Emotionen auslösen - und tut das auch. Selten haben wir so oft "Ohhhhhhh!" gehört.
Ein Hands on von Tobias Költzsch

  1. Orcam Hear Die Audiobrille für Hörgeschädigte
  2. Schräges von der CES 2020 Die Connected-Kartoffel
  3. Viola angeschaut Cherry präsentiert preiswerten mechanischen Switch

Kaufberatung (2020): Die richtige CPU und Grafikkarte
Kaufberatung (2020)
Die richtige CPU und Grafikkarte

Grafikkarten und Prozessoren wurden 2019 deutlich besser, denn AMD ist komplett auf 7-nm-Technik umgestiegen. Intel hat zwar 10-nm-Chips marktreif, die Leistung stagniert aber und auch Nvidia verkauft nur 12-nm-Designs. Wir beraten bei Komponenten und geben einen Ausblick.
Von Marc Sauter

  1. SSDs Intel arbeitet an 144-Schicht-Speicher und 5-Bit-Zellen
  2. Schnittstelle PCIe Gen6 verdoppelt erneut Datenrate

Kailh-Box-Switches im Test: Besser und lauter geht ein klickender Switch kaum
Kailh-Box-Switches im Test
Besser und lauter geht ein klickender Switch kaum

Wer klickende Tastatur-Switches mag, wird die dunkelblauen Kailh-Box-Schalter lieben: Eine eingebaute Stahlfeder sorgt für zwei satte Klicks pro Anschlag. Im Test merken unsere Finger aber schnell den hohen taktilen Widerstand.
Ein Test von Tobias Költzsch

  1. Keychron K6 Kompakte drahtlose Tastatur mit austauschbaren Switches
  2. Charachorder Schneller tippen als die Tastatur erlaubt
  3. Brydge+ iPad-Tastatur mit Multi-Touch-Trackpad

    •  /