AVX-512 für mehr FLOPS
Bei der Broadwell-Generation ist die Technik der Midrange- und der Highend-Plattform identisch: Abseits der Anzahl der Kerne, der Speicherkanäle und der PCIe-Lanes gibt es keine nennenswerten Unterschiede. Ab Skylake-X ist das anders, denn dort separiert Intel stärker zwischen Client und Server, um den jeweiligen Anforderungen an die CPUs besser gerecht zu werden. Daher basiert die Architektur der neuen HEDT-Chips auf den kommenden Xeon-Modellen, intern als Skylake-SP (Scalable Processor) bezeichnet.
Grundsätzlich enthält die Architektur all die Änderungen, die auch der Client-Core (Skylake-S) verglichen mit Broadwell aufweist. Darunter fallen größere Puffer, eine höhere Bandbreite zwischen den Funktionseinheiten und Speed Shift - Letzteres hilft, den Prozessor flotter zwischen einzelnen Taktstufen wechseln zu lassen. Auf das stärkere Frontend folgt der Scheduler mit seinen seit Haswell acht Ports, an ihm hängen neue Rechenwerke. Die sind wichtig für AVX-512, die dritte Generation der Avanced Vector Extensions.
Mit AVX-512 verdoppelt sich die Leistung bei Gleitkommaberechnungen mit einfacher (FP32) und doppelter (FP64) Genauigkeit, zudem steigt die Geschwindigkeit bei vielen Integer-Operationen drastisch. Für AVX-512 werden zwei Ports, genauer die dort angeschlossenen 256-Bit-Vector-Einheiten für FMA, zusammengeschaltet. Das alleine ist aber noch nicht schneller als das bisherige AVX2, weshalb Intel offenbar eine weitere 512-Bit-FMA-Pipeline benötigt. So gelingt dann der doppelten Durchsatz, der sich mit Sisoft Sandra aufzeigen lässt.
AVX-512 bei Skylake-SP umfasst fünf der elf verfügbaren Funktionen, darunter das Foundation-Set. Das unterstützen alle Prozessoren, die mit der Befehlssatzerweiterung umgehen können - etwa Xeon Phi Knights Landing. Für semiprofessionelle Software ist AVX-512 bisher nicht relevant, mittelfristig dürfte es in Encodern oder Renderern verwendet werden. Wie schon bei AVX2 gibt es auch für AVX-512 einen eigenen (noch niedrigeren) Taktmultiplikator, da die Leistungsaufnahme ansonsten exorbitant hoch ausfällt.
Um die Einheiten mit ausreichend Daten füttern zu können, verwendet Intel 32 - also doppelt so viele - Register und ein umgebautes Cache-System.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Core i9-7900X im Test: Intels 10-Kern-Brechstange | Ein Mesh statt ein Ringbus |
@gucky ist nicht geköpft, läuft nur undervoltet mit standardtakt. meinen ohren gehts...
Ist es aber, weil es verdächtig danach klingt, als wenn ein ziemlich beleidigter Fanboy...
An den Intel Manycore Xeons und I7 der letzten Jahre erkennt man ja sehr gut, wie mit...
Ich will damit sagen das man nicht Überbezahlt sein kann wenn man von Spenden lebt da die...