Kleinere Verbesserung an den x86-Kernen, aber FMA und AVX2
Es ist ein offenes Geheimnis, dass Intel seit dem von Grund auf neu entwickelten, ersten Core-i-Prozessor, Codename Nehalem, an den CPU-Kernen kaum Verbesserungen vorgenommen hat. Die höchste Leistung pro Takt (IPC) hat das Unternehmen im Vergleich zu AMD schon länger, nur bei der Grafik galt es noch viel aufzuholen.
Dennoch haben es sich die Entwickler zum Ziel gesetzt, die IPC-Leistung bei jeder Generation um rund 10 bis 15 Prozent - je nach Anwendung - in die Höhe zu schrauben. Vor allem beim Vergleich über zwei Tocks hinweg ergibt das etwas deutlichere Leistungssteigerungen. So ist in der Theorie bei gleichem Takt ein Core-i-4000 (Haswell) 20 bis 30 Prozent schneller als ein Core-i-2000 (Sandy Bridge). Die alte Faustregel, alle zwei Jahre seinen Rechner aufzurüsten, gilt also immer noch.
Die größte Neuerung der Kerne von Haswell steckt in der Befehlssatzerweiterung "Advanced Vector Extensions 2" (AVX2) und der Unterstützung von "fused multiply add" (FMA). Bei letzterem können die Ergebnisse von Multiplikationen in einem Rutsch addiert werden, was vor allem bei 3D-Modellen oder Matrizenoperationen hilfreich ist. AVX2 ist eine Weiterentwicklung der SIMD-Verarbeitung, die bei Intel SSE heißt. Gegenüber 128 Bit breiten Daten wie bei Nehalem können Sandy Bridge, Ivy Bridge und nun auch Haswell mit 256 Bit breiten Vektoren umgehen. Die Neuerung bei Haswell: die AVX-Einheiten sind doppelt so schnell geworden.
Statt 16 Rechenoperationen pro Takt wie noch bei Sandy Bridge kann Haswell 32 Flops ausführen, jedenfalls bei einfacher Genauigkeit. Ist Double-Precision gefragt, sind es 16 statt 8 Flops. Auf dem Papier ergibt sich so bei gleichem Takt die doppelte Leistung bei AVX-Befehlen, aber: Wie bei allen Befehlssatzerweiterungen müssen Programme das unterstützen. Dies könnte in diesem Fall aber schneller passieren als bei früheren Erweiterungen wie MMX und SSE, da auch AMD seit den Bulldozer-Kernen AVX anbietet.
Damit FMA und AVX2 ihre höhere Leistung in den Rechenwerken erreichen, hat Intel vor allem durch Änderungen am Frontend die Bandbreite innerhalb des Prozessors erhöht. Die Bandbreite für das Laden und Speichern (Load/Store) ist gegenüber Ivy Bridge 64 bzw. 32 Byte pro Takt verdoppelt worden, Gleiches gilt für den L2-Cache, der nun mit 64 Byte statt vorher 32 Byte pro Takt vom L1-Cache angesprochen werden kann.
Eine weitere Erweiterung, die Befehle schneller ans Ziel kommen lässt, ist die Erhöhung der Dispatch-Ports von sechs auf acht. Die beiden neuen Zugänge zu den Ausführungseinheiten kümmern sich dabei um eine ALU-Einheit und die Sprungvorhersage (Port 6) und um das Speichern (Port 7). Die restliche Zuordnung ist einem Bild in der Galerie zu diesem Artikel zu entnehmen.
Damit die höhere Bandbreite bei den schon seit vielen Generationen asynchron arbeitenden Prozessoren quer über das Die aufrechterhalten werden kann, haben die Entwickler zusätzlich die Größe der Buffer erhöht. So können beispielsweise mit Haswell 192 Befehle im Out-of-Order-Verfahren umsortiert werden, sie werden abseits von den Caches in einem Buffer gespeichert. Bei Sandy Bridge waren es nur 168 Befehle.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Schnellste Grafik vor allem für Notebooks | Integrierter Spannungswandler und neue Anforderungen an Netzteile |
Dann lach du mal sinnfrei rum. Ist mir total schnuppe. Eine "aktuelle NVIDIA oder AMD...
ich hoffe durch diesen marketing bullshit werden alle glauben haswell ist das absolute...
3dcenter.org . Die haben eine Zusammenfassung von fast 20 Haswell Reviews ausgewertet!
Und ich als Linuxer freu mich über die brauchbare Spielegrafik mit Open Source Treiber...