• IT-Karriere:
  • Services:

Neuer Cache im Mesh

So wurde die Bandbreite des L1-Daten-Caches für Load und Store auf 128 und 64 Byte pro Takt verdoppelt, damit die beiden FMA-Pipelines flott genug gefüttert werden. Der Puffer fasst weiterhin 32 KByte pro Kern, gleiches gilt für den L1-Instruktionen-Cache. Die L2-Stufe aber fasst 1.024 statt 256 KByte an Daten und damit auch die vierfache Menge von Broadwell-EP. Die zusätzlichen 768 KByte befinden sich jedoch nicht im Core, sondern sind extern angebunden, weshalb es zwei zusätzliche Taktzyklen benötigt, um sie anzusprechen.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
Stellenmarkt
  1. Netze BW GmbH, Karlsruhe
  2. Deutsche Rentenversicherung Bund, Berlin

Obendrein ändert sich die Topologie der Puffer: Der L2-Cache bleibt inklusiv, hält also alle Daten des L1 vor. Die Informationen des L2 liegen jedoch nicht mehr im L3 wie bisher, sondern die dritte Stufe arbeitet nicht inklusiv. Dort befinden sich nur noch Lines, die aus dem L2-Puffer verdrängt wurden, weshalb Intel von einem Victim-Cache spricht. Er fasst bis zu 1,375 MByte statt bis zu 2,5 MByte pro Kern und langsamer als bisher - bei der Bandbreite wie bei den Zugriffen. Der L2 läuft mit Core-, der L3 mit Mesh-Takt.

Intel sieht im Data-Center-Segment große Vorteile für die neue Puffer-Struktur, da durch laut Hersteller 35 Prozent weniger Cache Misses pro Instruktion die Leistung steigen soll. Der L3 ist zudem relevant für die Kommunikation der Kerne untereinander, weswegen Intel die bisher verwendeten Ringbusse angeschafft hat. Angefangen mit acht Cores und einem Ring bei Nehalem-EX von 2010 bis hin zu 24 Kernen und vier Bussen bei Broadwell-EP/EX im Jahr 2016 ist der Interconnect bei Skylake-SP einem bidirektionalen Mesh gewichen. Bei Broadwell-EP/EX war es schon im Gespräch, wurde aber nicht umgesetzt.

  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • Xeon SP ohne Fabric (Foto: Marc Sauter/Golem.de)
  • 4-Sockel-System mit Xeon SP (Foto: Marc Sauter/Golem.de)
  • Die Modellpalette (Bild: Intel)
  • Aufschlüsselung der Bezeichnungen (Bild: Intel)
  • Die Xeon SP sind in vier Familien eingeteilt. (Bild: Intel)
  • Shot des XCC-Dies (Bild: Intel)
  • Shot des HCC-Dies (Bild: Intel)
  • Die Purley-Plattform ist für Skylake-SP und für Cascade Lake gedacht. (Bild: Intel)
  • Wie gehabt werden bis zu acht Sockel unterstützt. (Bild: Intel)
  • Skylake-SP weist zwei AVX-512-Pipes und zusätzlichen L2-Cache auf. (Bild: Intel)
  • Mit starker AVX-512-Nutzung sinkt der Takt. (Bild: Intel)
  • Dennoch steigen Leistung und Effizienz. (Bild: Intel)
  • Mit AVX-512 wird Training ... (Bild: Intel)
  • ... und Inference beschleunigt. (Bild: Intel)
  • Der L2-Cache wird größer, der L3-Puffer ist nicht mehr inklusiv. (Bild: Intel)
  • Die Latenzen steigen offiziell kaum. (Bild: Intel)
  • Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)
  • Die Xeon SP weisen sechs DDR4-Kanäle auf. (Bild: Intel)
  • Einzelne Sockel sind per UPI verbunden. (Bild: Intel)
  • Überblick zum XCC-Die (Bild: Intel)
  • HCC- und LCC-Die (Bild: Intel)
  • Naples? Laut Intel nur vier zusammengepappte Desktop-Chips. (Bild: Intel)
  • AMDs Epyc unterstützt kein AVX-512. (Bild: Intel)
  • Skylake-SP soll bessere Latenzen aufweisen. (Bild: Intel)
  • Insgesamt hat Naples mehr DDR4-Bandbreite und PCIe-Gen3-Lanes. (Bild: Intel)
  • Zwei Xeon SP soll rund 65 Prozent schneller sein als zwei Xeon E5 v4. (Bild: Intel)
  • Vier Xeon SP seien etwa 50 Prozent flotter als vier Xeon E7 v4. (Bild: Intel)
Skylake-SP nutzt ein Mesh statt Ringbusse. (Bild: Intel)

Statt bei jedem Ring-Stop die Latenz zu erhöhen, verbindet das neue Gitter alle Kerne mit den I/O-Bereichen wie dem Speichercontroller und den Inter-Sockel-Verbindungen im Chip. Das Mesh arbeitet mit 32 Byte pro Takt und sorgt durch hohe Bandbreite und geringe Latenz für eine schnelle Kommunikation, was wichtig für die Leistung ist und tendenziell die Effizienz verbessert. Das Mesh hat eine von den Cores unabhängige Takt-Domäne, Intel zufolge seien bei einem Xeon Platinum 8180 zwischen 1,8 bis 2,4 GHz typisch.

Wie viele Takte ein Hop von einem L3-Block zum nächsten oder zu einem der IMC, einem der PCIe-Roots oder einem der Inter-Socket-Links braucht, hängt davon ab, wie dieser verschaltet ist. Beim XCC-Die mit 28 Kernen, zwei IMCs und drei UPI-Ports sind es beispielsweise 14 Cycles vom Kern unten links zum PCIe-Controller oben rechts (1-3-1-3-1 horizontal plus 1-1-1-1-1 vertikal). Das Mesh ermöglicht einen Sub-NUMA-Cluster, was stark dem Cluster-on-Die von Broadwell-EP/EX ähnelt. Es teilt den Chip in zwei eigenständige Prozessoren - für ein bisschen mehr Leistung bei entsprechender Software.

Abseits von AVX-512, der Caches und dem Mesh hat Intel auch das Speicherinterface und die Sockel-Kommunikation verbreitert.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Doppelte FMA-PipelinesDDR4, PCIe, UPI & VROC 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7.  


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)
  2. (u. a. 860 Evo 500 GB SSD für 74,00€, Portable T5 500 GB SSD 86,00€, Evo Select microSDXC 128...

Sharra 17. Jul 2017

Du warst noch nie in einem Raum, dessen Klimakonzept vom Hausmeister auf der Serviette...

bluedroid 14. Jul 2017

Dann guck Dir mal den Power7 MCM von IBM an: https://www.heise.de/newsticker/meldung/IBM...

Quantium40 13. Jul 2017

Mir fällt da spontan eigentlich nur der SuperMUC in München ein, der mit einer Hei...

plutoniumsulfat 13. Jul 2017

Ach sorry, es war bloß eine Anspielung. Natürlich hat das Relevanz.

colon 12. Jul 2017

Andersherum. Die i7 sind beschnitten Xeons.


Folgen Sie uns
       


Minikonsolen im Vergleich - Golem retro

Retro-Faktor, Steuerung, Emulationsqualität: Wir haben sieben Minikonsolen miteinander verglichen.

Minikonsolen im Vergleich - Golem retro Video aufrufen
Data Scientist: Ein Mann, der mit Daten Leben retten will
Data Scientist
Ein Mann, der mit Daten Leben retten will

Senfgelbes Linoleum im Büro und weniger Geld als in der freien Wirtschaft - egal, der Data Scientist Danilo Schmidt liebt seinen Job an der Charité. Mit Ärzten entwickelt er Lösungen für Patienten. Die größten Probleme dabei: Medizinersprech und Datenschutz.
Ein Porträt von Maja Hoock

  1. Computerlinguistik "Bordstein Sie Ihre Erwartung!"
  2. OpenAI Roboterarm löst Zauberwürfel einhändig
  3. Faceapp Russische App liegt im Trend und entfacht Datenschutzdebatte

Energiegewinnung: Zu wenig Magma-Nachschub für die Geothermie
Energiegewinnung
Zu wenig Magma-Nachschub für die Geothermie

Bei Diskussionen über Geothermie klingt es oft so, als könnten vulkanisch aktive Gegenden wie Island den Rest der Welt mit Energie versorgen. Aber ein Blick auf die Zahlen zeigt, dass dieser Eindruck täuscht.
Von Frank Wunderlich-Pfeiffer

  1. E-Truck Nikola Tre wird in Ulm gebaut
  2. Wasserstoff Thyssen-Krupp will Stahlproduktion klimaneutral machen
  3. Energiewende Sonnen vermietet Solaranlagen und Elektroautos

Frauen in der Technik: Von wegen keine Vorbilder!
Frauen in der Technik
Von wegen keine Vorbilder!

Technik, also auch Computertechnik, war schon immer ein männlich dominiertes Feld. Das heißt aber nicht, dass es in der Geschichte keine bedeutenden Programmiererinnen gab. Besonders das Militär zeigte reges Interesse an den Fähigkeiten von Frauen.
Von Valerie Lux

  1. Arbeit Warum anderswo mehr Frauen IT-Berufe ergreifen
  2. Arbeit Was IT-Recruiting von der Bundesliga lernen kann
  3. Arbeit Wer ein Helfersyndrom hat, ist im IT-Support richtig

    •  /