Abo
  • IT-Karriere:

Neuer Cache im Mesh

So wurde die Bandbreite des L1-Daten-Caches für Load und Store auf 128 und 64 Byte pro Takt verdoppelt, damit die beiden FMA-Pipelines flott genug gefüttert werden. Der Puffer fasst weiterhin 32 KByte pro Kern, gleiches gilt für den L1-Instruktionen-Cache. Die L2-Stufe aber fasst 1.024 statt 256 KByte an Daten und damit auch die vierfache Menge von Broadwell-EP. Die zusätzlichen 768 KByte befinden sich jedoch nicht im Core, sondern sind extern angebunden, weshalb es zwei zusätzliche Taktzyklen benötigt, um sie anzusprechen.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
Stellenmarkt
  1. Alfred Kärcher SE & Co. KG, Winnenden bei Stuttgart
  2. STRABAG BRVZ GMBH & CO.KG, Stuttgart

Obendrein ändert sich die Topologie der Puffer: Der L2-Cache bleibt inklusiv, hält also alle Daten des L1 vor. Die Informationen des L2 liegen jedoch nicht mehr im L3 wie bisher, sondern die dritte Stufe arbeitet nicht inklusiv. Dort befinden sich nur noch Lines, die aus dem L2-Puffer verdrängt wurden, weshalb Intel von einem Victim-Cache spricht. Er fasst bis zu 1,375 MByte statt bis zu 2,5 MByte pro Kern und langsamer als bisher - bei der Bandbreite wie bei den Zugriffen. Der L2 läuft mit Core-, der L3 mit Mesh-Takt.

Intel sieht im Data-Center-Segment große Vorteile für die neue Puffer-Struktur, da durch laut Hersteller 35 Prozent weniger Cache Misses pro Instruktion die Leistung steigen soll. Der L3 ist zudem relevant für die Kommunikation der Kerne untereinander, weswegen Intel die bisher verwendeten Ringbusse angeschafft hat. Angefangen mit acht Cores und einem Ring bei Nehalem-EX von 2010 bis hin zu 24 Kernen und vier Bussen bei Broadwell-EP/EX im Jahr 2016 ist der Interconnect bei Skylake-SP einem bidirektionalen Mesh gewichen. Bei Broadwell-EP/EX war es schon im Gespräch, wurde aber nicht umgesetzt.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)

Statt bei jedem Ring-Stop die Latenz zu erhöhen, verbindet das neue Gitter alle Kerne mit den I/O-Bereichen wie dem Speichercontroller und den Inter-Sockel-Verbindungen im Chip. Das Mesh arbeitet mit 32 Byte pro Takt und sorgt durch hohe Bandbreite und geringe Latenz für eine schnelle Kommunikation, was wichtig für die Leistung ist und tendenziell die Effizienz verbessert. Das Mesh hat eine von den Cores unabhängige Takt-Domäne, Intel zufolge seien bei einem Xeon Platinum 8180 zwischen 1,8 bis 2,4 GHz typisch.

Wie viele Takte ein Hop von einem L3-Block zum nächsten oder zu einem der IMC, einem der PCIe-Roots oder einem der Inter-Socket-Links braucht, hängt davon ab, wie dieser verschaltet ist. Beim XCC-Die mit 28 Kernen, zwei IMCs und drei UPI-Ports sind es beispielsweise 14 Cycles vom Kern unten links zum PCIe-Controller oben rechts (1-3-1-3-1 horizontal plus 1-1-1-1-1 vertikal). Das Mesh ermöglicht einen Sub-NUMA-Cluster, was stark dem Cluster-on-Die von Broadwell-EP/EX ähnelt. Es teilt den Chip in zwei eigenständige Prozessoren - für ein bisschen mehr Leistung bei entsprechender Software.

Abseits von AVX-512, der Caches und dem Mesh hat Intel auch das Speicherinterface und die Sockel-Kommunikation verbreitert.

 Doppelte FMA-PipelinesDDR4, PCIe, UPI & VROC 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7.  


Anzeige
Top-Angebote
  1. (u. a. Samsung U32J590UQU UHD-Monitor + Xbox One S 1 TB Bundle mit The Division 2 oder Minecraft...
  2. (u. a. WD Elements Desktop 4 TB für 82,99€)
  3. mit Rabatt auf Monitore, SSDs, Gehäuse und mehr
  4. (u. a. The Legend of Zelda, Super Smash Bros. Ultimate)

Sharra 17. Jul 2017

Du warst noch nie in einem Raum, dessen Klimakonzept vom Hausmeister auf der Serviette...

bluedroid 14. Jul 2017

Dann guck Dir mal den Power7 MCM von IBM an: https://www.heise.de/newsticker/meldung/IBM...

Quantium40 13. Jul 2017

Mir fällt da spontan eigentlich nur der SuperMUC in München ein, der mit einer Hei...

plutoniumsulfat 13. Jul 2017

Ach sorry, es war bloß eine Anspielung. Natürlich hat das Relevanz.

colon 12. Jul 2017

Andersherum. Die i7 sind beschnitten Xeons.


Folgen Sie uns
       


Bethesda: Ich habe TES Blades für 5,50 Euro durchgespielt
Bethesda
Ich habe TES Blades für 5,50 Euro durchgespielt

Rund sechs Wochen lang hatte ich täglich viele spaßige und auch einige frustrierende Erlebnisse in Tamriel: Mittlerweile habe ich den Hexenkönig in TES Blades besiegt - ohne dafür teuer bezahlen zu müssen.
Ein Bericht von Marc Sauter

  1. Bethesda TES Blades ist für alle verfügbar
  2. TES Blades im Test Tolles Tamriel trollt
  3. Bethesda TES Blades startet in den Early Access

Motorola One Vision im Hands on: Smartphone mit 48-Megapixel-Kamera für 300 Euro
Motorola One Vision im Hands on
Smartphone mit 48-Megapixel-Kamera für 300 Euro

Motorola bringt ein weiteres Android-One-Smartphone auf den Markt. Die Neuvorstellung verwendet viel Samsung-Technik und hat ein sehr schmales Display. Die technischen Daten sind für diese Preisklasse vielversprechend.
Ein Hands on von Ingo Pakalski

  1. Moto G7 Power Lenovos neues Motorola-Smartphone hat einen großen Akku
  2. Smartphones Lenovo leakt neue Moto-G7-Serie

Oneplus 7 Pro im Hands on: Neue Konkurrenz für die Smartphone-Oberklasse
Oneplus 7 Pro im Hands on
Neue Konkurrenz für die Smartphone-Oberklasse

Parallel zum Oneplus 7 hat das chinesische Unternehmen Oneplus auch das besser ausgestattete Oneplus 7 Pro vorgestellt. Das Smartphone ist mit seiner Kamera mit drei Objektiven für alle Fotosituationen gewappnet und hat eine ausfahrbare Frontkamera - das hat aber seinen Preis.
Ein Hands on von Ingo Pakalski

  1. Oneplus 7 Der Nachfolger des Oneplus 6t kostet 560 Euro
  2. Android 9 Oneplus startet Pie-Beta für Oneplus 3 und 3T
  3. MWC 2019 Oneplus will Prototyp eines 5G-Smartphones zeigen

    •  /