Anzeige
Kaveri ist nicht nur ein APU-Codename, sondern vor allem ein indischer Fluss.
Kaveri ist nicht nur ein APU-Codename, sondern vor allem ein indischer Fluss. (Bild: Tobias Költzsch/Golem.de)

Sehr gut bei Compute, gestiegene Leistung pro Takt plus HSA

Die beiden CPU-Module nutzen die neue Steamroller-Architektur, die den Modulansatz etwas aufweicht: Bei der Bulldozer- und der Piledriver-Technik mussten sich die beiden Integer- und die einzelne Gleitkommaeinheit pro Modul einen Dekoder teilen. Dieser befindet sich im Frontend und bereitet die Daten für die Rechenwerke vor - ist er zu langsam, "verhungern" die ALUs. Daher hat AMD bei Steamroller zwei Dekoder verbaut, pro Takt sollen diese 30 Prozent mehr Daten durchschleusen. Es ist daher anzunehmen, dass die neuen Dekoder schwächer sind als der alte - gemeinsam aber stärker.

  • Die Kaveri-Modelle sind etwas teurer als ihre Vorgänger, als Konkurrenz sieht AMD Intels i5-Prozessoren. (Bild: AMD)
  • Llano von 2011 ist die erste HSA-Generation, spezielle Busse verbinden CPU und GPU. (Bild: AMD)
  • Trinity (2012) und Richland (2013) verfeinern das Konzept, beispielsweise durch eine gemeinsame Northbridge. (Bild: AMD)
  • Kaveri bringt erstmals einen kohärenten Speicher. (Bild: AMD)
  • HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)
  • Die-Shot von Kaveri (Bild: AMD)
  • Die APUs bieten bis zu acht CUs und zwei Module, nach AMDs Rechnung sind dies zwölf Compute Cores. (Bild: AMD)
  • Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)
  • Verbesserungen an den Caches und Schedulern erhöhen die Leistung weiter, pro Takt rechnet Steamroller etwa 10 Prozent schneller als Piledriver. (Bild: AMD)
  • Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)
  • Kaveri bietet bis zu acht Compute Units. Eine jede bietet 64 ALUs und 4 TMUs, zudem Caches und eine ACE. (Bild: AMD)
  • Zudem verfügt die GPU über zwei Raster-Endstufen, einen Tessellator und den Rasterizer. (Bild: AMD)
  • Jede Asynchronous Compute Engine bietet acht Queues, daher ist Kaveri bei Compute-Berechnungen besonders flott. (Bild: AMD)
  • Die GCN-Technik zeigt gegenüber der VLIW-Architektur eine deutlich bessere anisotrope Filterung, dies ist wichtig für Spiele. (Bild: AMD)
  • Trueaudio ermöglicht eindrucksvollen Raumklang auf Stereo-Headsets, aufgrund von drei dedizierten DSPs wird die CPU kaum belastet. (Bild: AMD)
  • Video Code Engine (VCE) .... (Bild: AMD)
  • ... und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.  (Bild: AMD)
  • HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)
Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)

Zudem hat AMD den L1-Daten-Cache deutlich optimiert, da dieser aufgrund seiner geringen Größe von nur 16 KByte besonders effektiv und effizient arbeiten muss. Weitere Verbesserungen hat der Hersteller an der den Dekodern vorgelagerten Fetch-Stufe vorgenommen, auch die Scheduler für die Integer-Einheiten und der von diesen gemeinsam genutzte L2-Cache sollen nun besser arbeiten. AMD gibt daher für Steamroller eine im Vergleich zu Piledriver im Durchschnitt um 10 Prozent höhere Leistung pro Takt (Instructions per Clock - kurz IPC) an, bei einigen Integer-Berechnungen soll Steamroller bis zu 20 Prozent schneller rechnen.

Anzeige

Unsere Messungen mit einer Kaveri- und einer Richland-APU bei 2,0 GHz CPU- und 1,6 GHz NB-Takt sowie DDR3-1866-Speicher zeigen hingegen, dass Steamroller zu weit mehr fähig ist: Liegen die beiden Frequenzen nahe beieinander, bremst der NB-Takt die eigentlichen Recheneinheiten nicht aus und in Cache-intensiven Anwendungen legt die neue Architektur teils drastisch an Leistung zu. Mit hohem CPU-Takt verpufft dies aber.

Piledriver (Richland)Steamroller (Kaveri)Differenz
3DMark Fire Strike (Physics Score)1.644 Punkte2.172 Punkte+32 %
7-Zip x64 (3GB per LZMA2 packen)760 Sekunden715 Sekunden+6 %
Cinebench R11.5 x64 (X-CPU)1,66 Punkte1,90 Punkte+15 %
Cinebench R15 (X-CPU)150 Punkte168 Punkte+12 %
Luxmark x64 (Room)123 KSamples/sec126 KSamples/sec+2 %
Truecrypt (AES-Twofish-Serpent, 1GB)62 MB/sec91 MB/sec+47 %
x264 HD (Pass #2)3,5 fps4,9 fps+40 %
IPC-Messungen bei 2,0 GHz Core / 1,6 GHz Uncore / 2x DDR3-1866

Weiterhin hat AMD Kaveri mit drei DSP-Kernen für Trueaudio ausgestattet, diese kleinen Zusatzkerne berechnen hochwertigen Raumklang, ohne damit die CPU-Module zu belasten. Spiele wie Star Citizen und Thief unterstützen diese Technik, bisher ist aber kein Titel mit Trueaudio-Support im Handel erhältlich. Ein kleiner Cortex-A5-Kern in jeder Kaveri-APU ermöglicht Trustzone. Diese bietet eine sichere, vom eigentlichen Betriebssystem entkoppelte Umgebung - beispielsweise für Onlinebanking.

Großer Sprung durch den Graphics Core Next

Eine weitere wichtige Änderung bei Kaveri ist der Wechsel der GPU-Architektur vom VLIW-Design der Cayman-Grafikkarten (HD 69x0) auf die GCN-Technik, den Graphics Core Next mit DirectX-11.2-Unterstützung. AMD setzt erfreulicherweise nicht auf die ursprüngliche GCN-Version, sondern auf die verbesserte, wie sie auch in den aktuellen R-Modellen wie der 290X steckt: Die bis zu acht Compute Units, also Blöcke bestehend aus 64 Rechen- und 4 Textureinheiten sowie 2 angekoppelten Rasterend-Stufen, bieten je 8 Asynchronous Compute Engines (ACE), die wiederum 8 Compute- oder Grafikbefehle entgegennehmen. Insbesondere die Compute-Leistung steigt daher bei Kaveri im Vergleich zu Richland deutlich.

  • Die Kaveri-Modelle sind etwas teurer als ihre Vorgänger, als Konkurrenz sieht AMD Intels i5-Prozessoren. (Bild: AMD)
  • Llano von 2011 ist die erste HSA-Generation, spezielle Busse verbinden CPU und GPU. (Bild: AMD)
  • Trinity (2012) und Richland (2013) verfeinern das Konzept, beispielsweise durch eine gemeinsame Northbridge. (Bild: AMD)
  • Kaveri bringt erstmals einen kohärenten Speicher. (Bild: AMD)
  • HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)
  • Die-Shot von Kaveri (Bild: AMD)
  • Die APUs bieten bis zu acht CUs und zwei Module, nach AMDs Rechnung sind dies zwölf Compute Cores. (Bild: AMD)
  • Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)
  • Verbesserungen an den Caches und Schedulern erhöhen die Leistung weiter, pro Takt rechnet Steamroller etwa 10 Prozent schneller als Piledriver. (Bild: AMD)
  • Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)
  • Kaveri bietet bis zu acht Compute Units. Eine jede bietet 64 ALUs und 4 TMUs, zudem Caches und eine ACE. (Bild: AMD)
  • Zudem verfügt die GPU über zwei Raster-Endstufen, einen Tessellator und den Rasterizer. (Bild: AMD)
  • Jede Asynchronous Compute Engine bietet acht Queues, daher ist Kaveri bei Compute-Berechnungen besonders flott. (Bild: AMD)
  • Die GCN-Technik zeigt gegenüber der VLIW-Architektur eine deutlich bessere anisotrope Filterung, dies ist wichtig für Spiele. (Bild: AMD)
  • Trueaudio ermöglicht eindrucksvollen Raumklang auf Stereo-Headsets, aufgrund von drei dedizierten DSPs wird die CPU kaum belastet. (Bild: AMD)
  • Video Code Engine (VCE) .... (Bild: AMD)
  • ... und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.  (Bild: AMD)
  • HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)
Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)

Die GPU unterstützt wie alle GCN-Varianten das Mantle-API, AMD verspricht eine um bis zu 45 Prozent höhere Bildrate in Battlefield 4 als mit der D3D11-Schnittstelle, in der extrem CPU-lastigen Starswarm-Techdemo von Oxide Games sollen sich die Bilder pro Sekunde gar verdreifachen - beides konnte Golem.de mangels Verfügbarkeit nicht überprüfen. Ebenfalls seit GCN hat AMD die anisotrope Filterung verbessert: Diese flimmert deutlich weniger als bei VLIW-GPUs, die Bildqualität mit aktiver AF ist sichtlich besser, da Texturen viel ruhiger sind. Davon profitieren Renn- und Rollenspiele ebenso wie Shooter.

Neben den eigentlichen Compute Units bietet die Kaveri-Grafikeinheit mehrere Fixed-Function-Einheiten: Die Video Code Engine (VCE) und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.

  • Die Kaveri-Modelle sind etwas teurer als ihre Vorgänger, als Konkurrenz sieht AMD Intels i5-Prozessoren. (Bild: AMD)
  • Llano von 2011 ist die erste HSA-Generation, spezielle Busse verbinden CPU und GPU. (Bild: AMD)
  • Trinity (2012) und Richland (2013) verfeinern das Konzept, beispielsweise durch eine gemeinsame Northbridge. (Bild: AMD)
  • Kaveri bringt erstmals einen kohärenten Speicher. (Bild: AMD)
  • HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)
  • Die-Shot von Kaveri (Bild: AMD)
  • Die APUs bieten bis zu acht CUs und zwei Module, nach AMDs Rechnung sind dies zwölf Compute Cores. (Bild: AMD)
  • Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)
  • Verbesserungen an den Caches und Schedulern erhöhen die Leistung weiter, pro Takt rechnet Steamroller etwa 10 Prozent schneller als Piledriver. (Bild: AMD)
  • Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)
  • Kaveri bietet bis zu acht Compute Units. Eine jede bietet 64 ALUs und 4 TMUs, zudem Caches und eine ACE. (Bild: AMD)
  • Zudem verfügt die GPU über zwei Raster-Endstufen, einen Tessellator und den Rasterizer. (Bild: AMD)
  • Jede Asynchronous Compute Engine bietet acht Queues, daher ist Kaveri bei Compute-Berechnungen besonders flott. (Bild: AMD)
  • Die GCN-Technik zeigt gegenüber der VLIW-Architektur eine deutlich bessere anisotrope Filterung, dies ist wichtig für Spiele. (Bild: AMD)
  • Trueaudio ermöglicht eindrucksvollen Raumklang auf Stereo-Headsets, aufgrund von drei dedizierten DSPs wird die CPU kaum belastet. (Bild: AMD)
  • Video Code Engine (VCE) .... (Bild: AMD)
  • ... und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.  (Bild: AMD)
  • HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)
HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)

Gemeinsam statt einsam

Die größte Neuerung von Kaveri aber ist die vollständige Unterstützung der HSA (Heterogenous System Architecture): Die CPU und die GPU greifen per HUMA (Heterogenous Uniform Memory Architecture) auf einen gemeinsamen Speicherbereich zu, HQ (Heterogeneous Queuing) beschreibt die Zusammenarbeit der beiden Chipbestandteile. Dank HSA unterstützt Kaveri als erster Prozessor den neuen OpenCL-2.0-Standard, zudem beschleunigt der Chip laut AMD durch die Heterogenous System Architecture auch ältere OpenCL-Versionen. Als Anwendungen mit HSA-Unterstützung konnte der Hersteller den JPEG Decoder, Libre Office und Corels After Shot (der "Local Contrast Filter" wird beschleunigt) zur Verfügung stellen, womit die Möglichkeiten der neuen Architektur weitgehend ungenutzt bleiben.

  • Die Kaveri-Modelle sind etwas teurer als ihre Vorgänger, als Konkurrenz sieht AMD Intels i5-Prozessoren. (Bild: AMD)
  • Llano von 2011 ist die erste HSA-Generation, spezielle Busse verbinden CPU und GPU. (Bild: AMD)
  • Trinity (2012) und Richland (2013) verfeinern das Konzept, beispielsweise durch eine gemeinsame Northbridge. (Bild: AMD)
  • Kaveri bringt erstmals einen kohärenten Speicher. (Bild: AMD)
  • HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)
  • Die-Shot von Kaveri (Bild: AMD)
  • Die APUs bieten bis zu acht CUs und zwei Module, nach AMDs Rechnung sind dies zwölf Compute Cores. (Bild: AMD)
  • Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)
  • Verbesserungen an den Caches und Schedulern erhöhen die Leistung weiter, pro Takt rechnet Steamroller etwa 10 Prozent schneller als Piledriver. (Bild: AMD)
  • Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)
  • Kaveri bietet bis zu acht Compute Units. Eine jede bietet 64 ALUs und 4 TMUs, zudem Caches und eine ACE. (Bild: AMD)
  • Zudem verfügt die GPU über zwei Raster-Endstufen, einen Tessellator und den Rasterizer. (Bild: AMD)
  • Jede Asynchronous Compute Engine bietet acht Queues, daher ist Kaveri bei Compute-Berechnungen besonders flott. (Bild: AMD)
  • Die GCN-Technik zeigt gegenüber der VLIW-Architektur eine deutlich bessere anisotrope Filterung, dies ist wichtig für Spiele. (Bild: AMD)
  • Trueaudio ermöglicht eindrucksvollen Raumklang auf Stereo-Headsets, aufgrund von drei dedizierten DSPs wird die CPU kaum belastet. (Bild: AMD)
  • Video Code Engine (VCE) .... (Bild: AMD)
  • ... und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.  (Bild: AMD)
  • HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)
HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)

AMD hat in einer Beta-Version von Libre Office die Berechnung von Aktienwerten als Demo eingebaut: Calc berechnet hierbei die Kurse und misst, wie lange eine Aktualisierung des Graphen benötigt. Rein auf der CPU dauert dies auf dem A8-6500T quälend lange 5,4 Sekunden - Kaveri benötigt nur 2,6 Sekunden. Mit OpenCL verkürzt sich die Berechnung etwas, mit HSA jedoch aktualisiert der A8-7600 den Graph in rund einer halben Sekunde.

Aktienkurs-Aktualierung per Libre OfficeA8-6500T (Richland)A8-7600 45W (Kaveri)
Berechnung in Software5,4 Sekunden2,6 Sekunden
Berechnung per OpenCL4,4 Sekunden2,2 Sekunden
Berechnung per HSANicht möglich0,6 Sekunden
HSA-Benchmarks (Kaveri und Richland)
 Technische Spezifikationen und PlattformTestsystem und Testverfahren 

eye home zur Startseite
Malocher 29. Jan 2014

Deinen E-350 solltest Du auch nicht mit Kaveri vergleichen, sondern mit Kabini, welcher...

MonMonthma 19. Jan 2014

A10 7850K 512 GCN Cores XBOX ONE 768 GCN Cores PS4 1152 GCN Cores Ein bisschen brauchen...

nicoledos 19. Jan 2014

Das blöde nur, bei den kleinen APUs. Diese werden gerne stark beschnitten. So würde mir...

dabbes 18. Jan 2014

Vergisss "zukunftsträchtiger". Was brauchste? Was willste Ausgeben? Dann guck was du...

ms (Golem.de) 16. Jan 2014

Was für einen Xeon? Die für LGA 2011 haben keine iGPU im Die, bei denen für LGA 1150 ist...

Kommentieren



Anzeige

  1. Frontend Developer (m/w)
    anwalt.de services AG, Nürnberg
  2. Client Services Software Support (m/w)
    State Street Bank International GmbH, Frankfurt
  3. Junior Quality Manager (m/w) IT
    Concardis GmbH, Eschborn
  4. Systemingenieur/in
    Robert Bosch GmbH, Leonberg

Detailsuche



Anzeige
Top-Angebote
  1. NEU: Blu-rays zum Sonderpreis
  2. NEU: 6 Blu-rays für 30 EUR
    (u. a. Der Hobbit, Der Herr der Ringe, Departed, Conjuring, Gran Torino)
  3. NEU: Angebote der Woche bei notebooksbilliger.de

Weitere Angebote


Folgen Sie uns
       


  1. Darknet-Handel

    Nutzerdaten von Telekom-Kunden werden verkauft

  2. HTML5 Video

    Chrome-Bug hebelt Web-DRM aus

  3. Langer Marsch

    Chinas neue Raumfahrt

  4. Sicherheitslücke

    Lenovo warnt schon wieder vor vorinstallierter Software

  5. Telefónica

    Nutzer im E-Plus-Netz surfen bald langsamer

  6. Download

    Netflix-Offline soll wohl noch dieses Jahr kommen

  7. Neue Windows Server

    Nano bedeutet viel mehr als nur klein

  8. B150M Mortar Arctic

    MSI bringt weißes und günstiges Mainboard

  9. Homeland Security

    Frage nach Facebook-Konto bei Einreise in die USA geplant

  10. Weltraumteleskop

    Nasa verlängert Hubble-Mission



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Smart City: Der Bürger gestaltet mit
Smart City
Der Bürger gestaltet mit
  1. Vernetztes Fahren Bosch will (fast) alle Parkplatzprobleme lösen

Vorratsdatenspeicherung: Vorgaben übertreffen laut Eco "schlimmste Befürchtungen"
Vorratsdatenspeicherung
Vorgaben übertreffen laut Eco "schlimmste Befürchtungen"
  1. Vorratsdatenspeicherung Alarm im VDS-Tresor
  2. Neue Snowden-Dokumente NSA lobte Deutschlands "wesentliche" Hilfe im Irak-Krieg
  3. Klage Verwaltungsgericht soll Vorratsdatenspeicherung stoppen

Rust: Ist die neue Programmiersprache besser?
Rust
Ist die neue Programmiersprache besser?
  1. Oracle-Anwältin nach Niederlage "Google hat die GPL getötet"
  2. Java-Rechtsstreit Oracle verliert gegen Google
  3. Oracle vs. Google Wie man Geschworene am besten verwirrt

  1. Re: Guter Artikel, aber...

    Lala Satalin... | 14:55

  2. Re: Verständnisproblem

    M.P. | 14:55

  3. Re: Die Content-Industrie sollte aufhorchen!

    Hasenbauer | 14:54

  4. Re: Was, nur 200Mbit??

    neocron | 14:53

  5. Re: Altes Plugin-Version erst einmal sichern

    Lala Satalin... | 14:51


  1. 14:47

  2. 14:29

  3. 14:02

  4. 13:40

  5. 12:45

  6. 12:29

  7. 12:05

  8. 12:02


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel