Abo
  • Services:

Doppelte FMA-Pipelines

Ausgehend vom bekannten Skylake-S-Kern mit seinen größeren und schnelleren Puffern sowie flotterem Speed Shift plus einer höheren Bandbreite zwischen den Funktionseinheiten hat Intel zwei wortwörtliche Erweiterungen vorgenommen: AVX-512-Integration und eine andere Cache-Topologie, was beides in Teilbereichen miteinander einhergeht, sich aber nicht zwingend bedingt. Einiges, etwa die nun 32 Register, ist aber notwendig.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Shot des XCC-Dies (Bild: Intel)
Stellenmarkt
  1. Beckhoff Automation GmbH & Co. KG, Verl
  2. Bosch Gruppe, Grasbrunn

In jedem Core befindet sich ein Scheduler, der über acht Ports die Befehle an die dort angeschlossen Rechen- sowie Lade- und Speichereinheiten weitergibt. Am Port 0 und am Port 1 hängen wie gehabt je eine FMA-Pipeline für AVX2-Vektorberechnungen, sie können aber zu einer AVX-512-Einheit zusammengeschaltet werden. Das ist laut Intel zwar ein bisschen effizienter als zwei einzelne AVX2-Pipelines, jedoch nicht schneller. Erst mit der neuen FMA-Einheit an Port 5 erreicht Skylake-SP den doppelten Durchsatz von 64 und 32 Flops pro Takt bei einfacher (FP32) und doppelter (FP64) Genauigkeit.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)

Die zweite FMA-Pipeline für AVX-512 gibt es nur bei den Xeon Platinum und Gold, sie erfordert angepasste Taktraten. Vektorisierter AVX-Code erhöht die Leistungsaufnahme drastisch, weshalb Intel bei jeder CPU abseits der regulären Basis- und Turbo-Frequenzen auch niedrigere Stufen für AVX(2)- und noch niedrigere für AVX-512-Berechnungen aufweist. Allerdings teilte Intel trotz Nachfrage nicht mit, wie diese bei den einzelnen Modellen ausfallen. Einzig beim Xeon Platinum 8180 - dem schnellsten Chip - sprach der Hersteller von 3,1 (SSE) über 2,8 (AVX) und 2,5 (AVX2) bis hinab zu 2,1 (AVX-512) GHz Boost.

AVX-512 bei Skylake-SP umfasst fünf der elf verfügbaren Instruktionen, darunter das Foundation-Set (AVX-512-F). Das unterstützen alle Prozessoren, die mit der Befehlssatzerweiterung umgehen können. Exklusiv für die Xeon sind AVX-512-BW, AVX-512-DQ und AVX-512-VL, hinzu kommt AVX-512-CD wie bei Xeon Phi Knights Landig. Ungeachtet der geringeren Taktraten steigert AVX-512 die Rechenleistung und die Effizienz, zumindest wenn der Code oder die Anwendung davon profitiert. Das ist allerdings längst nicht bei allen Workloads der Fall, wie Intel mit eigenen Messwerten aufzeigte.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)

Beispielsweise erhöht sich die Leistung bei Monte Carlo im Finanzsektor drastisch - hier wird mit doppelter Genauigkeit gerechnet. Anders sieht es bei der Wettervorhersage aus, da dort die Bandbreite der limitierende Faktor ist und somit AVX-512 wenig bringt. Im Cloud-Bereich spielen die Instruktionen kaum eine Rolle, dafür bei Training sowie Inference von Deep Learning (FP32) und beim Stitching von 360-Grad-Videos. Neben AVX-512 beschleunigen die Skylake-SP auch Integer wie INT8, was bei Matrixen-Multiplikationen hilft.

Für AVX-512 musste Intel die Struktur der Zwischenpuffer überarbeiten, hinzu kommt ein neuer Interconnect - die Ringbusse haben ausgedient.

 Xeon Skylake-SP: Das können Intels 28-Kern-CPUs mit AVX-512Neuer Cache im Mesh 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7.  


Anzeige
Top-Angebote
  1. 55€ + 1,99€ Versand
  2. 55€ + 1,99€ Versand
  3. (aktuell u. a. QPAD DX-5 Maus 9,99€, NZXT Kraken X62 AM4 ready, Wasserkühlung 139,90€)
  4. 5€ inkl. FSK-18-Versand

Sharra 17. Jul 2017

Du warst noch nie in einem Raum, dessen Klimakonzept vom Hausmeister auf der Serviette...

bluedroid 14. Jul 2017

Dann guck Dir mal den Power7 MCM von IBM an: https://www.heise.de/newsticker/meldung/IBM...

Quantium40 13. Jul 2017

Mir fällt da spontan eigentlich nur der SuperMUC in München ein, der mit einer Hei...

plutoniumsulfat 13. Jul 2017

Ach sorry, es war bloß eine Anspielung. Natürlich hat das Relevanz.

colon 12. Jul 2017

Andersherum. Die i7 sind beschnitten Xeons.


Folgen Sie uns
       


Smartes Feuerzeug Slighter angesehen (CES 2019)

Das smarte Feuerzeug Slighter gibt Rauchern nicht immer Feuer.

Smartes Feuerzeug Slighter angesehen (CES 2019) Video aufrufen
Nubia Red Magic Mars im Hands On: Gaming-Smartphone mit Top-Ausstattung für 390 Euro
Nubia Red Magic Mars im Hands On
Gaming-Smartphone mit Top-Ausstattung für 390 Euro

CES 2019 Mit dem Red Magic Mars bringt Nubia ein interessantes und vor allem verhältnismäßig preiswertes Gaming-Smartphone nach Deutschland. Es hat einen Leistungsmodus und Schulter-Sensortasten, die beim Zocken helfen können.
Ein Hands on von Tobias Költzsch

  1. Hypersense-Prototypen ausprobiert Razers Rumpel-Peripherie sorgt für Immersion
  2. ATH-ANC900BT Audio Technica zeigt neuen ANC-Kopfhörer
  3. Smart Clock Lenovo setzt bei Echo-Spot-Variante auf Google Assistant

Geforce RTX 2060 im Test: Gute Karte zum gutem Preis mit Speicher-Aber
Geforce RTX 2060 im Test
Gute Karte zum gutem Preis mit Speicher-Aber

Mit der Geforce RTX 2060 hat Nvidia die bisher günstigste Grafikkarte mit Turing-Architektur veröffentlicht. Für 370 Euro erhalten Spieler genug Leistung für 1080p oder 1440p und sogar für Raytracing, bei vollen Schatten- oder Textur-Details wird es aber in seltenen Fällen ruckelig.
Ein Test von Marc Sauter

  1. Geforce RTX 2060 Founder's Edition kostet 370 Euro
  2. Turing-Architektur Nvidia stellt schnelle Geforce RTX für Notebooks vor
  3. Turing-Grafikkarte Nvidia plant Geforce RTX 2060

Slighter im Hands on: Wenn das Feuerzeug smarter als der Raucher ist
Slighter im Hands on
Wenn das Feuerzeug smarter als der Raucher ist

CES 2019 Mit Slighter könnte ausgerechnet ein Feuerzeug Rauchern beim Aufhören helfen: Ausgehend von den Rauchgewohnheiten erstellt es einen Plan - und gibt nur zu ganz bestimmten Zeiten eine Flamme.
Ein Hands on von Tobias Költzsch

  1. Smart Tab Lenovo zeigt Mischung aus Android-Tablet und Echo Show
  2. Royole Flexpai im Hands on Display top, Software flop
  3. Alienware Area 51m angesehen Aufrüstbares Gaming-Notebook mit frischem Design

    •  /