Neuer Cache im Mesh

So wurde die Bandbreite des L1-Daten-Caches für Load und Store auf 128 und 64 Byte pro Takt verdoppelt, damit die beiden FMA-Pipelines flott genug gefüttert werden. Der Puffer fasst weiterhin 32 KByte pro Kern, gleiches gilt für den L1-Instruktionen-Cache. Die L2-Stufe aber fasst 1.024 statt 256 KByte an Daten und damit auch die vierfache Menge von Broadwell-EP. Die zusätzlichen 768 KByte befinden sich jedoch nicht im Core, sondern sind extern angebunden, weshalb es zwei zusätzliche Taktzyklen benötigt, um sie anzusprechen.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
Stellenmarkt
  1. Technical Consultant Digitalisierung SAP (d/m/w)
    INTENSE AG, Köln
  2. IT Systemadministrator/-in / Fachinformatiker/-in Systemintegration (w/m/d)
    HIT Holzindustrie Torgau GmbH & Co. KG, Torgau
Detailsuche

Obendrein ändert sich die Topologie der Puffer: Der L2-Cache bleibt inklusiv, hält also alle Daten des L1 vor. Die Informationen des L2 liegen jedoch nicht mehr im L3 wie bisher, sondern die dritte Stufe arbeitet nicht inklusiv. Dort befinden sich nur noch Lines, die aus dem L2-Puffer verdrängt wurden, weshalb Intel von einem Victim-Cache spricht. Er fasst bis zu 1,375 MByte statt bis zu 2,5 MByte pro Kern und langsamer als bisher - bei der Bandbreite wie bei den Zugriffen. Der L2 läuft mit Core-, der L3 mit Mesh-Takt.

Intel sieht im Data-Center-Segment große Vorteile für die neue Puffer-Struktur, da durch laut Hersteller 35 Prozent weniger Cache Misses pro Instruktion die Leistung steigen soll. Der L3 ist zudem relevant für die Kommunikation der Kerne untereinander, weswegen Intel die bisher verwendeten Ringbusse angeschafft hat. Angefangen mit acht Cores und einem Ring bei Nehalem-EX von 2010 bis hin zu 24 Kernen und vier Bussen bei Broadwell-EP/EX im Jahr 2016 ist der Interconnect bei Skylake-SP einem bidirektionalen Mesh gewichen. Bei Broadwell-EP/EX war es schon im Gespräch, wurde aber nicht umgesetzt.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)

Statt bei jedem Ring-Stop die Latenz zu erhöhen, verbindet das neue Gitter alle Kerne mit den I/O-Bereichen wie dem Speichercontroller und den Inter-Sockel-Verbindungen im Chip. Das Mesh arbeitet mit 32 Byte pro Takt und sorgt durch hohe Bandbreite und geringe Latenz für eine schnelle Kommunikation, was wichtig für die Leistung ist und tendenziell die Effizienz verbessert. Das Mesh hat eine von den Cores unabhängige Takt-Domäne, Intel zufolge seien bei einem Xeon Platinum 8180 zwischen 1,8 bis 2,4 GHz typisch.

Golem Akademie
  1. CEH Certified Ethical Hacker v11: virtueller Fünf-Tage-Workshop
    30.05.-03.06.2022, Virtuell
  2. Azure und AWS Cloudnutzung absichern: virtueller Zwei-Tage-Workshop
    19./20.05.2022, virtuell
Weitere IT-Trainings

Wie viele Takte ein Hop von einem L3-Block zum nächsten oder zu einem der IMC, einem der PCIe-Roots oder einem der Inter-Socket-Links braucht, hängt davon ab, wie dieser verschaltet ist. Beim XCC-Die mit 28 Kernen, zwei IMCs und drei UPI-Ports sind es beispielsweise 14 Cycles vom Kern unten links zum PCIe-Controller oben rechts (1-3-1-3-1 horizontal plus 1-1-1-1-1 vertikal). Das Mesh ermöglicht einen Sub-NUMA-Cluster, was stark dem Cluster-on-Die von Broadwell-EP/EX ähnelt. Es teilt den Chip in zwei eigenständige Prozessoren - für ein bisschen mehr Leistung bei entsprechender Software.

Abseits von AVX-512, der Caches und dem Mesh hat Intel auch das Speicherinterface und die Sockel-Kommunikation verbreitert.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Doppelte FMA-PipelinesDDR4, PCIe, UPI & VROC 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7.  


Sharra 17. Jul 2017

Du warst noch nie in einem Raum, dessen Klimakonzept vom Hausmeister auf der Serviette...

bluedroid 14. Jul 2017

Dann guck Dir mal den Power7 MCM von IBM an: https://www.heise.de/newsticker/meldung/IBM...

Quantium40 13. Jul 2017

Mir fällt da spontan eigentlich nur der SuperMUC in München ein, der mit einer Hei...

plutoniumsulfat 13. Jul 2017

Ach sorry, es war bloß eine Anspielung. Natürlich hat das Relevanz.



Aktuell auf der Startseite von Golem.de
Kitty Lixo
Nach Sex mit Mitarbeitern Instagram-Account zurückerhalten

Laut einer Sexdarstellerin muss man nur die richtigen Leute bei Facebook sehr intim kennen, um seinen Instagram-Account immer wieder zurückzubekommen.

Kitty Lixo: Nach Sex mit Mitarbeitern Instagram-Account zurückerhalten
Artikel
  1. Ebay-Kleinanzeigen: Im Chat mit den Phishing-Betrügern
    Ebay-Kleinanzeigen
    Im Chat mit den Phishing-Betrügern

    Wenn man bestimmte Anzeigen in Kleinanzeigenportalen aufgibt, hat man sofort einen Betrüger an der Backe. Die Polizei kann kaum etwas dagegen tun.
    Ein Bericht von Friedhelm Greis

  2. Autos: Mercedes' Luxuskurs könnte das Aus für A- und B-Klasse sein
    Autos
    Mercedes' Luxuskurs könnte das Aus für A- und B-Klasse sein

    Mercedes definiert sich neu als Luxuskonzern. Das könnte auch das Ende für die Einsteiger-Modelle bedeuten, weil mit diesen kaum Geld zu verdienen ist.

  3. Ericsson und Telia Norway: Fast 4 GBit/s in 26-GHz-Netz erreicht
    Ericsson und Telia Norway
    Fast 4 GBit/s in 26-GHz-Netz erreicht

    26-GHz-Netz-Antennen erreichen in Norwegen Höchstwerte bei der Datenübertragung. Die 5G-Ausrüstung kommt von Ericsson.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Cyber Week: Bis zu 87€ Rabatt auf SSDs • PNY RTX 3080 12GB günstig wie nie: 974€ • Razer Basilisk V3 Gaming-Maus 44,99€ • PS5-Controller + Samsung SSD 1TB 176,58€ • MindStar (u. a. MSI RTX 3090 24GB Suprim X 1.790€) • Gigabyte Waterforce Mainboard günstig wie nie: 464,29€ [Werbung]
    •  /