Abo
  • Services:
Anzeige
Kaveri ist nicht nur ein APU-Codename, sondern vor allem ein indischer Fluss.
Kaveri ist nicht nur ein APU-Codename, sondern vor allem ein indischer Fluss. (Bild: Tobias Költzsch/Golem.de)

Sehr gut bei Compute, gestiegene Leistung pro Takt plus HSA

Die beiden CPU-Module nutzen die neue Steamroller-Architektur, die den Modulansatz etwas aufweicht: Bei der Bulldozer- und der Piledriver-Technik mussten sich die beiden Integer- und die einzelne Gleitkommaeinheit pro Modul einen Dekoder teilen. Dieser befindet sich im Frontend und bereitet die Daten für die Rechenwerke vor - ist er zu langsam, "verhungern" die ALUs. Daher hat AMD bei Steamroller zwei Dekoder verbaut, pro Takt sollen diese 30 Prozent mehr Daten durchschleusen. Es ist daher anzunehmen, dass die neuen Dekoder schwächer sind als der alte - gemeinsam aber stärker.

  • Die Kaveri-Modelle sind etwas teurer als ihre Vorgänger, als Konkurrenz sieht AMD Intels i5-Prozessoren. (Bild: AMD)
  • Llano von 2011 ist die erste HSA-Generation, spezielle Busse verbinden CPU und GPU. (Bild: AMD)
  • Trinity (2012) und Richland (2013) verfeinern das Konzept, beispielsweise durch eine gemeinsame Northbridge. (Bild: AMD)
  • Kaveri bringt erstmals einen kohärenten Speicher. (Bild: AMD)
  • HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)
  • Die-Shot von Kaveri (Bild: AMD)
  • Die APUs bieten bis zu acht CUs und zwei Module, nach AMDs Rechnung sind dies zwölf Compute Cores. (Bild: AMD)
  • Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)
  • Verbesserungen an den Caches und Schedulern erhöhen die Leistung weiter, pro Takt rechnet Steamroller etwa 10 Prozent schneller als Piledriver. (Bild: AMD)
  • Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)
  • Kaveri bietet bis zu acht Compute Units. Eine jede bietet 64 ALUs und 4 TMUs, zudem Caches und eine ACE. (Bild: AMD)
  • Zudem verfügt die GPU über zwei Raster-Endstufen, einen Tessellator und den Rasterizer. (Bild: AMD)
  • Jede Asynchronous Compute Engine bietet acht Queues, daher ist Kaveri bei Compute-Berechnungen besonders flott. (Bild: AMD)
  • Die GCN-Technik zeigt gegenüber der VLIW-Architektur eine deutlich bessere anisotrope Filterung, dies ist wichtig für Spiele. (Bild: AMD)
  • Trueaudio ermöglicht eindrucksvollen Raumklang auf Stereo-Headsets, aufgrund von drei dedizierten DSPs wird die CPU kaum belastet. (Bild: AMD)
  • Video Code Engine (VCE) .... (Bild: AMD)
  • ... und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.  (Bild: AMD)
  • HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)
Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)

Zudem hat AMD den L1-Daten-Cache deutlich optimiert, da dieser aufgrund seiner geringen Größe von nur 16 KByte besonders effektiv und effizient arbeiten muss. Weitere Verbesserungen hat der Hersteller an der den Dekodern vorgelagerten Fetch-Stufe vorgenommen, auch die Scheduler für die Integer-Einheiten und der von diesen gemeinsam genutzte L2-Cache sollen nun besser arbeiten. AMD gibt daher für Steamroller eine im Vergleich zu Piledriver im Durchschnitt um 10 Prozent höhere Leistung pro Takt (Instructions per Clock - kurz IPC) an, bei einigen Integer-Berechnungen soll Steamroller bis zu 20 Prozent schneller rechnen.

Anzeige

Unsere Messungen mit einer Kaveri- und einer Richland-APU bei 2,0 GHz CPU- und 1,6 GHz NB-Takt sowie DDR3-1866-Speicher zeigen hingegen, dass Steamroller zu weit mehr fähig ist: Liegen die beiden Frequenzen nahe beieinander, bremst der NB-Takt die eigentlichen Recheneinheiten nicht aus und in Cache-intensiven Anwendungen legt die neue Architektur teils drastisch an Leistung zu. Mit hohem CPU-Takt verpufft dies aber.

Piledriver (Richland)Steamroller (Kaveri)Differenz
3DMark Fire Strike (Physics Score)1.644 Punkte2.172 Punkte+32 %
7-Zip x64 (3GB per LZMA2 packen)760 Sekunden715 Sekunden+6 %
Cinebench R11.5 x64 (X-CPU)1,66 Punkte1,90 Punkte+15 %
Cinebench R15 (X-CPU)150 Punkte168 Punkte+12 %
Luxmark x64 (Room)123 KSamples/sec126 KSamples/sec+2 %
Truecrypt (AES-Twofish-Serpent, 1GB)62 MB/sec91 MB/sec+47 %
x264 HD (Pass #2)3,5 fps4,9 fps+40 %
IPC-Messungen bei 2,0 GHz Core / 1,6 GHz Uncore / 2x DDR3-1866

Weiterhin hat AMD Kaveri mit drei DSP-Kernen für Trueaudio ausgestattet, diese kleinen Zusatzkerne berechnen hochwertigen Raumklang, ohne damit die CPU-Module zu belasten. Spiele wie Star Citizen und Thief unterstützen diese Technik, bisher ist aber kein Titel mit Trueaudio-Support im Handel erhältlich. Ein kleiner Cortex-A5-Kern in jeder Kaveri-APU ermöglicht Trustzone. Diese bietet eine sichere, vom eigentlichen Betriebssystem entkoppelte Umgebung - beispielsweise für Onlinebanking.

Großer Sprung durch den Graphics Core Next

Eine weitere wichtige Änderung bei Kaveri ist der Wechsel der GPU-Architektur vom VLIW-Design der Cayman-Grafikkarten (HD 69x0) auf die GCN-Technik, den Graphics Core Next mit DirectX-11.2-Unterstützung. AMD setzt erfreulicherweise nicht auf die ursprüngliche GCN-Version, sondern auf die verbesserte, wie sie auch in den aktuellen R-Modellen wie der 290X steckt: Die bis zu acht Compute Units, also Blöcke bestehend aus 64 Rechen- und 4 Textureinheiten sowie 2 angekoppelten Rasterend-Stufen, bieten je 8 Asynchronous Compute Engines (ACE), die wiederum 8 Compute- oder Grafikbefehle entgegennehmen. Insbesondere die Compute-Leistung steigt daher bei Kaveri im Vergleich zu Richland deutlich.

  • Die Kaveri-Modelle sind etwas teurer als ihre Vorgänger, als Konkurrenz sieht AMD Intels i5-Prozessoren. (Bild: AMD)
  • Llano von 2011 ist die erste HSA-Generation, spezielle Busse verbinden CPU und GPU. (Bild: AMD)
  • Trinity (2012) und Richland (2013) verfeinern das Konzept, beispielsweise durch eine gemeinsame Northbridge. (Bild: AMD)
  • Kaveri bringt erstmals einen kohärenten Speicher. (Bild: AMD)
  • HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)
  • Die-Shot von Kaveri (Bild: AMD)
  • Die APUs bieten bis zu acht CUs und zwei Module, nach AMDs Rechnung sind dies zwölf Compute Cores. (Bild: AMD)
  • Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)
  • Verbesserungen an den Caches und Schedulern erhöhen die Leistung weiter, pro Takt rechnet Steamroller etwa 10 Prozent schneller als Piledriver. (Bild: AMD)
  • Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)
  • Kaveri bietet bis zu acht Compute Units. Eine jede bietet 64 ALUs und 4 TMUs, zudem Caches und eine ACE. (Bild: AMD)
  • Zudem verfügt die GPU über zwei Raster-Endstufen, einen Tessellator und den Rasterizer. (Bild: AMD)
  • Jede Asynchronous Compute Engine bietet acht Queues, daher ist Kaveri bei Compute-Berechnungen besonders flott. (Bild: AMD)
  • Die GCN-Technik zeigt gegenüber der VLIW-Architektur eine deutlich bessere anisotrope Filterung, dies ist wichtig für Spiele. (Bild: AMD)
  • Trueaudio ermöglicht eindrucksvollen Raumklang auf Stereo-Headsets, aufgrund von drei dedizierten DSPs wird die CPU kaum belastet. (Bild: AMD)
  • Video Code Engine (VCE) .... (Bild: AMD)
  • ... und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.  (Bild: AMD)
  • HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)
Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)

Die GPU unterstützt wie alle GCN-Varianten das Mantle-API, AMD verspricht eine um bis zu 45 Prozent höhere Bildrate in Battlefield 4 als mit der D3D11-Schnittstelle, in der extrem CPU-lastigen Starswarm-Techdemo von Oxide Games sollen sich die Bilder pro Sekunde gar verdreifachen - beides konnte Golem.de mangels Verfügbarkeit nicht überprüfen. Ebenfalls seit GCN hat AMD die anisotrope Filterung verbessert: Diese flimmert deutlich weniger als bei VLIW-GPUs, die Bildqualität mit aktiver AF ist sichtlich besser, da Texturen viel ruhiger sind. Davon profitieren Renn- und Rollenspiele ebenso wie Shooter.

Neben den eigentlichen Compute Units bietet die Kaveri-Grafikeinheit mehrere Fixed-Function-Einheiten: Die Video Code Engine (VCE) und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.

  • Die Kaveri-Modelle sind etwas teurer als ihre Vorgänger, als Konkurrenz sieht AMD Intels i5-Prozessoren. (Bild: AMD)
  • Llano von 2011 ist die erste HSA-Generation, spezielle Busse verbinden CPU und GPU. (Bild: AMD)
  • Trinity (2012) und Richland (2013) verfeinern das Konzept, beispielsweise durch eine gemeinsame Northbridge. (Bild: AMD)
  • Kaveri bringt erstmals einen kohärenten Speicher. (Bild: AMD)
  • HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)
  • Die-Shot von Kaveri (Bild: AMD)
  • Die APUs bieten bis zu acht CUs und zwei Module, nach AMDs Rechnung sind dies zwölf Compute Cores. (Bild: AMD)
  • Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)
  • Verbesserungen an den Caches und Schedulern erhöhen die Leistung weiter, pro Takt rechnet Steamroller etwa 10 Prozent schneller als Piledriver. (Bild: AMD)
  • Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)
  • Kaveri bietet bis zu acht Compute Units. Eine jede bietet 64 ALUs und 4 TMUs, zudem Caches und eine ACE. (Bild: AMD)
  • Zudem verfügt die GPU über zwei Raster-Endstufen, einen Tessellator und den Rasterizer. (Bild: AMD)
  • Jede Asynchronous Compute Engine bietet acht Queues, daher ist Kaveri bei Compute-Berechnungen besonders flott. (Bild: AMD)
  • Die GCN-Technik zeigt gegenüber der VLIW-Architektur eine deutlich bessere anisotrope Filterung, dies ist wichtig für Spiele. (Bild: AMD)
  • Trueaudio ermöglicht eindrucksvollen Raumklang auf Stereo-Headsets, aufgrund von drei dedizierten DSPs wird die CPU kaum belastet. (Bild: AMD)
  • Video Code Engine (VCE) .... (Bild: AMD)
  • ... und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.  (Bild: AMD)
  • HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)
HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)

Gemeinsam statt einsam

Die größte Neuerung von Kaveri aber ist die vollständige Unterstützung der HSA (Heterogenous System Architecture): Die CPU und die GPU greifen per HUMA (Heterogenous Uniform Memory Architecture) auf einen gemeinsamen Speicherbereich zu, HQ (Heterogeneous Queuing) beschreibt die Zusammenarbeit der beiden Chipbestandteile. Dank HSA unterstützt Kaveri als erster Prozessor den neuen OpenCL-2.0-Standard, zudem beschleunigt der Chip laut AMD durch die Heterogenous System Architecture auch ältere OpenCL-Versionen. Als Anwendungen mit HSA-Unterstützung konnte der Hersteller den JPEG Decoder, Libre Office und Corels After Shot (der "Local Contrast Filter" wird beschleunigt) zur Verfügung stellen, womit die Möglichkeiten der neuen Architektur weitgehend ungenutzt bleiben.

  • Die Kaveri-Modelle sind etwas teurer als ihre Vorgänger, als Konkurrenz sieht AMD Intels i5-Prozessoren. (Bild: AMD)
  • Llano von 2011 ist die erste HSA-Generation, spezielle Busse verbinden CPU und GPU. (Bild: AMD)
  • Trinity (2012) und Richland (2013) verfeinern das Konzept, beispielsweise durch eine gemeinsame Northbridge. (Bild: AMD)
  • Kaveri bringt erstmals einen kohärenten Speicher. (Bild: AMD)
  • HUMA sowie HQ ermöglichen den gleichzeitigen Zugriff von CPU und GPU auf den gemeinsamen Speicherbereich. (Bild: AMD)
  • Die-Shot von Kaveri (Bild: AMD)
  • Die APUs bieten bis zu acht CUs und zwei Module, nach AMDs Rechnung sind dies zwölf Compute Cores. (Bild: AMD)
  • Die Steamroller-Architektur weicht das Modulkonzept auf, zwei statt einem Decoder "füttern" die Recheneinheiten. (Bild: AMD)
  • Verbesserungen an den Caches und Schedulern erhöhen die Leistung weiter, pro Takt rechnet Steamroller etwa 10 Prozent schneller als Piledriver. (Bild: AMD)
  • Knapp die Hälfte der Die-Fläche ist für die GPU und deren Spezialeinheiten reserviert. (Bild: AMD)
  • Kaveri bietet bis zu acht Compute Units. Eine jede bietet 64 ALUs und 4 TMUs, zudem Caches und eine ACE. (Bild: AMD)
  • Zudem verfügt die GPU über zwei Raster-Endstufen, einen Tessellator und den Rasterizer. (Bild: AMD)
  • Jede Asynchronous Compute Engine bietet acht Queues, daher ist Kaveri bei Compute-Berechnungen besonders flott. (Bild: AMD)
  • Die GCN-Technik zeigt gegenüber der VLIW-Architektur eine deutlich bessere anisotrope Filterung, dies ist wichtig für Spiele. (Bild: AMD)
  • Trueaudio ermöglicht eindrucksvollen Raumklang auf Stereo-Headsets, aufgrund von drei dedizierten DSPs wird die CPU kaum belastet. (Bild: AMD)
  • Video Code Engine (VCE) .... (Bild: AMD)
  • ... und der Unified Video Decoder (UVD) verbessern die Umwandlung respektive die Beschleunigung von x264-Videomaterial sowie weiteren Codecs wie VC-1, MPEG-2 und MVC.  (Bild: AMD)
  • HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)
HSA beschleunigt Calc-Berechnungen in Libre Office drastisch. (Bild: Marc Sauter/Golem.de)

AMD hat in einer Beta-Version von Libre Office die Berechnung von Aktienwerten als Demo eingebaut: Calc berechnet hierbei die Kurse und misst, wie lange eine Aktualisierung des Graphen benötigt. Rein auf der CPU dauert dies auf dem A8-6500T quälend lange 5,4 Sekunden - Kaveri benötigt nur 2,6 Sekunden. Mit OpenCL verkürzt sich die Berechnung etwas, mit HSA jedoch aktualisiert der A8-7600 den Graph in rund einer halben Sekunde.

Aktienkurs-Aktualierung per Libre OfficeA8-6500T (Richland)A8-7600 45W (Kaveri)
Berechnung in Software5,4 Sekunden2,6 Sekunden
Berechnung per OpenCL4,4 Sekunden2,2 Sekunden
Berechnung per HSANicht möglich0,6 Sekunden
HSA-Benchmarks (Kaveri und Richland)
 Technische Spezifikationen und PlattformTestsystem und Testverfahren 

eye home zur Startseite
Malocher 29. Jan 2014

Deinen E-350 solltest Du auch nicht mit Kaveri vergleichen, sondern mit Kabini, welcher...

MonMonthma 19. Jan 2014

A10 7850K 512 GCN Cores XBOX ONE 768 GCN Cores PS4 1152 GCN Cores Ein bisschen brauchen...

nicoledos 19. Jan 2014

Das blöde nur, bei den kleinen APUs. Diese werden gerne stark beschnitten. So würde mir...

dabbes 18. Jan 2014

Vergisss "zukunftsträchtiger". Was brauchste? Was willste Ausgeben? Dann guck was du...

ms (Golem.de) 16. Jan 2014

Was für einen Xeon? Die für LGA 2011 haben keine iGPU im Die, bei denen für LGA 1150 ist...



Anzeige

Stellenmarkt
  1. Robert Bosch GmbH, Crailsheim
  2. MBtech Group GmbH & Co. KGaA, Sindelfingen, Stuttgart, Neu-Ulm, Ulm
  3. ALDI SÜD, Mülheim an der Ruhr
  4. Daimler AG, Leinfelden-Echterdingen


Anzeige
Hardware-Angebote
  1. ab 219,90€
  2. 699,00€

Folgen Sie uns
       


  1. Gigabit-Breitband

    Google Fiber soll Alphabet zu teuer sein

  2. Google-Steuer

    EU-Kommission plädiert für europäisches Leistungsschutzrecht

  3. Code-Gründer Thomas Bachem

    "Wir wollen weg vom Frontalunterricht"

  4. Pegasus

    Ausgeklügelte Spyware attackiert gezielt iPhones

  5. Fenix Chronos

    Garmins neue Sport-Smartwatch kostet ab 1.000 Euro

  6. C-94

    Cratoni baut vernetzten Fahrradhelm mit Crash-Sensor

  7. Hybridluftschiff

    Airlander 10 streifte Überlandleitung

  8. Smartphones

    Apple will Diebe mit iPhone-Technik überführen

  9. 3D-Flash

    Intel veröffentlicht gleich sechs neue SSD-Reihen

  10. Galaxy Tab S

    Samsung verteilt Update auf Android 6.0



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
­Cybersyn: Chiles Traum von der computergesteuerten Planwirtschaft
­Cybersyn
Chiles Traum von der computergesteuerten Planwirtschaft
  1. Princeton Piton Open-Source-Chip soll System mit 200.000 Kernen ermöglichen
  2. Programmiersprache Go 1.7 läuft schneller und auf IBM-Mainframes
  3. Adecco IBM will Helpdesk-Geschäft in Erfurt und Leipzig loswerden

Thinkpad X1 Carbon 2013 vs 2016: Drei Jahre, zwei Ultrabooks, eine Erkenntnis
Thinkpad X1 Carbon 2013 vs 2016
Drei Jahre, zwei Ultrabooks, eine Erkenntnis
  1. Huawei Matebook im Test Guter Laptop-Ersatz mit zu starker Konkurrenz
  2. iPad Pro Case Razer zeigt flache mechanische Switches
  3. Thinkpwn Lenovo warnt vor mysteriöser Bios-Schwachstelle

Asus PG248Q im Test: 180 Hertz erkannt, 180 Hertz gebannt
Asus PG248Q im Test
180 Hertz erkannt, 180 Hertz gebannt
  1. Raspberry Pi 3 Booten über USB oder per Ethernet
  2. Autonomes Fahren Mercedes stoppt Werbespot wegen überzogener Versprechen
  3. Radeon RX 480 Dank DX12 und Vulkan reicht auch eine Mittelklasse-CPU

  1. Re: Perfekt auf den Punkt gebracht

    der_wahre_hannes | 13:56

  2. Re: warum nicht gleich Akku leihen ?

    Ibob | 13:56

  3. Re: Weitere Alternative: BBM

    ibsi | 13:56

  4. Re: Q.E.D.

    SkynetworX | 13:56

  5. Re: Verstehe ich nicht

    Avarion | 13:55


  1. 12:57

  2. 12:30

  3. 12:01

  4. 11:57

  5. 10:40

  6. 10:20

  7. 09:55

  8. 09:38


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel