Abo
  • Services:
Anzeige
Xeon SP
Xeon SP (Bild: Marc Sauter/Golem.de)

Neuer Cache im Mesh

So wurde die Bandbreite des L1-Daten-Caches für Load und Store auf 128 und 64 Byte pro Takt verdoppelt, damit die beiden FMA-Pipelines flott genug gefüttert werden. Der Puffer fasst weiterhin 32 KByte pro Kern, gleiches gilt für den L1-Instruktionen-Cache. Die L2-Stufe aber fasst 1.024 statt 256 KByte an Daten und damit auch die vierfache Menge von Broadwell-EP. Die zusätzlichen 768 KByte befinden sich jedoch nicht im Core, sondern sind extern angebunden, weshalb es zwei zusätzliche Taktzyklen benötigt, um sie anzusprechen.

Anzeige
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)

Obendrein ändert sich die Topologie der Puffer: Der L2-Cache bleibt inklusiv, hält also alle Daten des L1 vor. Die Informationen des L2 liegen jedoch nicht mehr im L3 wie bisher, sondern die dritte Stufe arbeitet nicht inklusiv. Dort befinden sich nur noch Lines, die aus dem L2-Puffer verdrängt wurden, weshalb Intel von einem Victim-Cache spricht. Er fasst bis zu 1,375 MByte statt bis zu 2,5 MByte pro Kern und langsamer als bisher - bei der Bandbreite wie bei den Zugriffen. Der L2 läuft mit Core-, der L3 mit Mesh-Takt.

Intel sieht im Data-Center-Segment große Vorteile für die neue Puffer-Struktur, da durch laut Hersteller 35 Prozent weniger Cache Misses pro Instruktion die Leistung steigen soll. Der L3 ist zudem relevant für die Kommunikation der Kerne untereinander, weswegen Intel die bisher verwendeten Ringbusse angeschafft hat. Angefangen mit acht Cores und einem Ring bei Nehalem-EX von 2010 bis hin zu 24 Kernen und vier Bussen bei Broadwell-EP/EX im Jahr 2016 ist der Interconnect bei Skylake-SP einem bidirektionalen Mesh gewichen. Bei Broadwell-EP/EX war es schon im Gespräch, wurde aber nicht umgesetzt.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)

Statt bei jedem Ring-Stop die Latenz zu erhöhen, verbindet das neue Gitter alle Kerne mit den I/O-Bereichen wie dem Speichercontroller und den Inter-Sockel-Verbindungen im Chip. Das Mesh arbeitet mit 32 Byte pro Takt und sorgt durch hohe Bandbreite und geringe Latenz für eine schnelle Kommunikation, was wichtig für die Leistung ist und tendenziell die Effizienz verbessert. Das Mesh hat eine von den Cores unabhängige Takt-Domäne, Intel zufolge seien bei einem Xeon Platinum 8180 zwischen 1,8 bis 2,4 GHz typisch.

Wie viele Takte ein Hop von einem L3-Block zum nächsten oder zu einem der IMC, einem der PCIe-Roots oder einem der Inter-Socket-Links braucht, hängt davon ab, wie dieser verschaltet ist. Beim XCC-Die mit 28 Kernen, zwei IMCs und drei UPI-Ports sind es beispielsweise 14 Cycles vom Kern unten links zum PCIe-Controller oben rechts (1-3-1-3-1 horizontal plus 1-1-1-1-1 vertikal). Das Mesh ermöglicht einen Sub-NUMA-Cluster, was stark dem Cluster-on-Die von Broadwell-EP/EX ähnelt. Es teilt den Chip in zwei eigenständige Prozessoren - für ein bisschen mehr Leistung bei entsprechender Software.

Abseits von AVX-512, der Caches und dem Mesh hat Intel auch das Speicherinterface und die Sockel-Kommunikation verbreitert.

 Doppelte FMA-PipelinesDDR4, PCIe, UPI & VROC 

eye home zur Startseite
Sharra 17. Jul 2017

Du warst noch nie in einem Raum, dessen Klimakonzept vom Hausmeister auf der Serviette...

Themenstart

bluedroid 14. Jul 2017

Dann guck Dir mal den Power7 MCM von IBM an: https://www.heise.de/newsticker/meldung/IBM...

Themenstart

Quantium40 13. Jul 2017

Mir fällt da spontan eigentlich nur der SuperMUC in München ein, der mit einer Hei...

Themenstart

plutoniumsulfat 13. Jul 2017

Ach sorry, es war bloß eine Anspielung. Natürlich hat das Relevanz.

Themenstart

colon 12. Jul 2017

Andersherum. Die i7 sind beschnitten Xeons.

Themenstart

Kommentieren



Anzeige

Stellenmarkt
  1. Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM), Bonn
  2. DMG MORI AKTIENGESELLSCHAFT, Bielefeld
  3. Daimler AG, Stuttgart
  4. MBDA Deutschland, Schrobenhausen


Anzeige
Hardware-Angebote
  1. 355,81€
  2. auf Kameras und Objektive
  3. ab 799,90€

Folgen Sie uns
       


  1. Die Woche im Video

    Strittige Standards, entzweite Bitcoins, eine Riesenkonsole

  2. Bundesverkehrsministerium

    Dobrindt finanziert weitere Projekte zum autonomen Fahren

  3. Mobile

    Razer soll Smartphone für Gamer planen

  4. Snail Games

    Dark and Light stürmt Steam

  5. IETF

    Netzwerker wollen Quic-Pakete tracken

  6. Surface Diagnostic Toolkit

    Surface-Tool kommt in den Windows Store

  7. Bürgermeister

    Telekom und Unitymedia verweigern Open-Access-FTTH

  8. Layton's Mystery Journey im Test

    Katrielle, fast ganz der Papa

  9. Kabel und DSL

    Vodafone gewinnt 100.000 neue Festnetzkunden

  10. New Technologies Group

    Intel macht Wearables-Sparte dicht



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Neuer A8 vorgestellt: Audis Staupilot steckt noch im Zulassungsstau
Neuer A8 vorgestellt
Audis Staupilot steckt noch im Zulassungsstau
  1. Autonomes Fahren Continental will beim Kartendienst Here einsteigen
  2. Verbrenner Porsche denkt über Dieselausstieg nach
  3. Autonomes Fahren Audi lässt Kunden selbstfahrenden A7 testen

Anker Powercore+ 26800 PD im Test: Die Powerbank für (fast) alles
Anker Powercore+ 26800 PD im Test
Die Powerbank für (fast) alles
  1. SW271 Benq bringt HDR-Display mit 10-Bit-Panel
  2. Toshiba Teures Thunderbolt-3-Dock mit VGA-Anschluss
  3. Anker Powercore+ 26800 PD Akkupack liefert Strom per Power Delivery über USB Typ C

Matebook X im Test: Huaweis erstes Ultrabook glänzt
Matebook X im Test
Huaweis erstes Ultrabook glänzt
  1. Huawei Neue Rack- und Bladeserver für Azure Stack vorgestellt
  2. Matebook X Huaweis erstes Notebook im Handel erhältlich
  3. Y6 (2017) und Y7 Huawei bringt zwei neue Einsteiger-Smartphones ab 180 Euro

  1. Re: 18¤ für ein mobiles Mädchenspiel?

    forenuser | 10:42

  2. Re: Darf man Einbrecher platt machen?

    Der Held vom... | 10:39

  3. Re: Peinlich

    Johnny Cache | 10:38

  4. Re: "mehr Rätsel als in bisherigen Teilen"

    Cohaagen | 10:36

  5. Dummes Argument von Unitymidia.

    format | 10:35


  1. 09:02

  2. 16:55

  3. 16:33

  4. 16:10

  5. 15:56

  6. 15:21

  7. 14:10

  8. 14:00


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel