CUDA, Directcompute, Open CL: Möglichkeiten und Grenzen von GPU-Computing

CUDA, Directcompute, Open CL

Möglichkeiten und Grenzen von GPU-Computing

GTC

Am Vortag von Nvidias GPU Technology Conference (GTC) gaben Entwickler von Khronos, Microsoft und Nvidia einen Überblick über die Einsatzgebiete von GPUs für allgemeine Berechnungen. Der Konsens: GPUs sind schnell, aber nur, wenn man sie richtig programmiert.

Anzeige

CUDA, Directcompute und Open CL - gleich drei Programmierschnittstellen gibt es, um auf Nvidia-GPUs Rechenaufgaben durchzuführen. Welche die beste ist, wagten auch die Entwickler in den Einführungsvorträgen der GTC nicht zu behaupten. An verschiedenen Beispielen zeigten sie jedoch, dass auch längst gelöste Probleme wie die Fourier-Transformation (FFT) oder Matrizenreduktion auf GPUs besonderer Behandlung bedürfen.

Die höhere Parallelität einer GPU im Vergleich mit einer CPU wirkt sich nur dann positiv aus, wenn der Chip ständig viel zu tun hat. Dafür gilt es vor allem, mit dem immer knappen Hauptspeicher - was in diesem Fall das auf der Karte verfügbare RAM ist - und dessen Bandbreite sorgfältig umzugehen. Ein weiterer Eckpfeiler: Threads dürfen sich nicht gegenseitig behindern.

  • Directcompute realisiert Nvidia per CUDA
  • Lens Flares in 3DMark11 per Directcompute
  • Ein Foto aus der Realität, ...
  • ... das nahe an der Simulation ist.
  •  
  • Sieben Schritte zur Matrizenreduktion mit immer höherem Durchsatz
  • Gezieltes Schreiben spart Bandbreite
  • Von einer Gruppe von Threads bis zum einzelnen Rechenwerk
Ein Foto aus der Realität, ...

So zeigte Nvidia, dass sich für die parallele Matrizenreduktion Beschleunigungen bis zum Dreißigfachen erreichen lassen. Das gilt aber nur, wenn sich Verzweigungen (Branches) weitgehend vermeiden lassen, die Speicherzugriffe aneinander ausgerichtet und verschachtelt sind (interleaving) und in einem Thread mehrere Objekte behandelt werden. Das ist ein Unterschied zum Füttern von Threads auf x86-CPUs. Diese Chips kommen mit Abhängigkeiten von Aufgaben untereinander wesentlich besser zurecht.

Da der Speicher immer knapp ist, müssen manchmal Zwischenschritte eingeschoben werden, auch bei grafikorientierten Routinen. Da die Tessellation von DirectX-11 nur 64 Detailstufen vorsieht, empfahl Nvidia für die Darstellung von Bergen eine weitere Unterteilung per fraktaler Selbstähnlichkeit. Das kann dann, auch innerhalb einer Grafikanwendung, ein Directcompute-Shader erledigen. Dafür ist jedoch ein Kontextwechsel nötig, was wieder Rechenzeit kostet.

Statt einer einzelnen Spiegelung wie durch das Objektiv des Betrachters lassen sich so auch viel Flares an mehreren Lichtquellen erzeugen. Ein weiteres Beispiel führte Microsoft an. Die Linsenreflexionen (lens flares), die in Spielen den von Filmen gewohnten Eindruck des gewollten fotografischen Fehlers vermitteln sollen, lassen sich auch über eine Fourier-Transformation erzielen.

Ohne ein exponentielles Ansteigen der Rechenzeit geht das aber nur, wenn 3D-Modell und Compute-Shader zusammenarbeiten. Wie schon bei der Tessellation lassen sich solche Effekte also nicht nachträglich auf bestehende Programme anwenden, sie müssen von Anfang an einkalkuliert werden.


irata_ 21. Sep 2010

"Vorhersagbares Zeitverhalten" hab ich auch auf klassischen 8-Bittern (C64, Atari...

AnotherGuy 21. Sep 2010

Natürlich sind all solche persönlichen Empfindungen letztlich Geschmackssache, es gibt...

DaHonk 21. Sep 2010

Sowas wie MW2 mit seinen verkauften 15+ Millionen Kopien ist schwer zu toppen. Das...

Kommentieren



Anzeige

  1. IT-Administrator/MS Dynamics NAV Systembetreuer (m/w)
    EMK Münzen & Edelmetalle, Erftstadt
  2. Teamleiter Web Development (m/w) Schwerpunkt Enterprise Applications & moderne Web Frameworks - Front- & Backend
    GIGATRONIK Stuttgart GmbH, Stuttgart
  3. Datenbankentwickler (m/w)
    über Jobware Personalberatung, Braunschweig
  4. Teamleiter SAP BI/BO (m/w)
    SCHOTT AG, Mainz

 

Detailsuche


Top-Angebote
  1. NUR NOCH HEUTE: 2 Blu-rays für 15 EUR
    (u. a. Captain Phillips, White House Down, Elysium, 2 Guns, The Amazing Spider-Man 1+2)
  2. NUR BIS DIENSTAG 09:00 UHR: Saturn Online Only Offers
    (alle Angebote versandkostenfrei u. solange der Vorrat reicht, u. a. Der Hobbit Trilogie (Steel...
  3. NUR NOCH HEUTE: Marvel-Filme, Disney-Klassiker und mehr auf Blu-ray reduziert
    (u. a. Planes 1+2 Dopelpack 9,97€, Toy Story 1,2 u. 3 je 9,97€, Thor The Dark Kingdom 9,99€)

 

Weitere Angebote


Folgen Sie uns
       


  1. Berlin E-Prix

    Motoren, die nach Star Wars klingen

  2. Licht

    Indoor-Navigationssystem führt zu Sonderangeboten im Supermarkt

  3. Handmade

    Amazon bereitet Marktplatz für Handgefertigtes vor

  4. BND-Skandal

    EU-Kommissar Oettinger testet Kryptohandy

  5. BND-Affäre

    Keine Frage der Ehre

  6. Sensor ausgetrickst

    So klaut man eine Apple Watch

  7. CD Projekt Red

    The Witcher 3 hat Speicherproblem auf Xbox One

  8. Microsoft

    OneClip soll eine Cloud-Zwischenablage werden

  9. VR-Headset

    Klage gegen Oculus-Rift-Erfinder Palmer Luckey

  10. Salesforce

    55 Milliarden US-Dollar von Microsoft waren zu wenig



Haben wir etwas übersehen?

E-Mail an news@golem.de



Apps für Googles Cardboard: Her mit der Pappe!
Apps für Googles Cardboard
Her mit der Pappe!
  1. Game of Thrones Auf der Mauer weht ein eisiger Wind
  2. VR im Journalismus So nah, dass es fast wehtut
  3. Deep angespielt "Atme tief ein und tauche durch die virtuelle Welt"

SSD HyperX Predator im Test: Kingstons Mischung ist gelungen
SSD HyperX Predator im Test
Kingstons Mischung ist gelungen
  1. Z-Drive 6300 Neue SSD bietet bis zu 6,4 TByte Speicherplatz
  2. Crucial BX100 und MX200 im Test Mehr SSD pro Euro gibt's derzeit nicht
  3. Plextor M6e Black Edition im Kurztest Auch eine günstige SSD kann teuer erkauft sein

Parrot Bebop im Test: Die Einstiegsdrohne
Parrot Bebop im Test
Die Einstiegsdrohne
  1. Hycopter Wasserstoffdrohne soll vier Stunden fliegen
  2. Drohne Der Origami-Copter aus der Schweiz
  3. Filmindustrie James Cameron unterstützt Drohnenwettbewerb

  1. Re: Dann lieber Rolex

    Tzven | 23:12

  2. Re: Rückbesinnung auf alte Stärken

    Clouds | 23:09

  3. Re: Recherchiert Golem vor der Veröffentlichung...

    Baron Münchhausen. | 23:04

  4. "Handy hat ja gar keine Wählscheibe!"

    Das Original | 22:51

  5. Re: Verschlüsselung

    Seitan-Sushi-Fan | 22:47


  1. 21:43

  2. 14:05

  3. 12:45

  4. 10:53

  5. 09:00

  6. 15:05

  7. 14:35

  8. 14:14


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel