CUDA, Directcompute, Open CL

Möglichkeiten und Grenzen von GPU-Computing

GTC

Am Vortag von Nvidias GPU Technology Conference (GTC) gaben Entwickler von Khronos, Microsoft und Nvidia einen Überblick über die Einsatzgebiete von GPUs für allgemeine Berechnungen. Der Konsens: GPUs sind schnell, aber nur, wenn man sie richtig programmiert.

Anzeige

CUDA, Directcompute und Open CL - gleich drei Programmierschnittstellen gibt es, um auf Nvidia-GPUs Rechenaufgaben durchzuführen. Welche die beste ist, wagten auch die Entwickler in den Einführungsvorträgen der GTC nicht zu behaupten. An verschiedenen Beispielen zeigten sie jedoch, dass auch längst gelöste Probleme wie die Fourier-Transformation (FFT) oder Matrizenreduktion auf GPUs besonderer Behandlung bedürfen.

Die höhere Parallelität einer GPU im Vergleich mit einer CPU wirkt sich nur dann positiv aus, wenn der Chip ständig viel zu tun hat. Dafür gilt es vor allem, mit dem immer knappen Hauptspeicher - was in diesem Fall das auf der Karte verfügbare RAM ist - und dessen Bandbreite sorgfältig umzugehen. Ein weiterer Eckpfeiler: Threads dürfen sich nicht gegenseitig behindern.

So zeigte Nvidia, dass sich für die parallele Matrizenreduktion Beschleunigungen bis zum Dreißigfachen erreichen lassen. Das gilt aber nur, wenn sich Verzweigungen (Branches) weitgehend vermeiden lassen, die Speicherzugriffe aneinander ausgerichtet und verschachtelt sind (interleaving) und in einem Thread mehrere Objekte behandelt werden. Das ist ein Unterschied zum Füttern von Threads auf x86-CPUs. Diese Chips kommen mit Abhängigkeiten von Aufgaben untereinander wesentlich besser zurecht.

Da der Speicher immer knapp ist, müssen manchmal Zwischenschritte eingeschoben werden, auch bei grafikorientierten Routinen. Da die Tessellation von DirectX-11 nur 64 Detailstufen vorsieht, empfahl Nvidia für die Darstellung von Bergen eine weitere Unterteilung per fraktaler Selbstähnlichkeit. Das kann dann, auch innerhalb einer Grafikanwendung, ein Directcompute-Shader erledigen. Dafür ist jedoch ein Kontextwechsel nötig, was wieder Rechenzeit kostet.

Statt einer einzelnen Spiegelung wie durch das Objektiv des Betrachters lassen sich so auch viel Flares an mehreren Lichtquellen erzeugen. Ein weiteres Beispiel führte Microsoft an. Die Linsenreflexionen (lens flares), die in Spielen den von Filmen gewohnten Eindruck des gewollten fotografischen Fehlers vermitteln sollen, lassen sich auch über eine Fourier-Transformation erzielen.

Ohne ein exponentielles Ansteigen der Rechenzeit geht das aber nur, wenn 3D-Modell und Compute-Shader zusammenarbeiten. Wie schon bei der Tessellation lassen sich solche Effekte also nicht nachträglich auf bestehende Programme anwenden, sie müssen von Anfang an einkalkuliert werden.


irata_ 21. Sep 2010

"Vorhersagbares Zeitverhalten" hab ich auch auf klassischen 8-Bittern (C64, Atari...

AnotherGuy 21. Sep 2010

Natürlich sind all solche persönlichen Empfindungen letztlich Geschmackssache, es gibt...

DaHonk 21. Sep 2010

Sowas wie MW2 mit seinen verkauften 15+ Millionen Kopien ist schwer zu toppen. Das...

Kommentieren




Anzeige
  1. Webentwickler (m/w)
    Global Group Dialog Solutions AG, Idstein
  2. IT-Systemadministrator/in IT System Analyst (m/w)
    DE-STA-CO, Oberursel bei Frankfurt
  3. (Junior) IT Berater (m/w) Java / Datenbank-Entwicklung
    cimt ag, Düsseldorf
  4. IT-Projektmanager (m/w) Automobil-Handel
    ADP Dealer Services Deutschland GmbH, Stuttgart

 

Detailsuche


Folgen Sie uns
       


  1. Video

    Yahoo gibt Angebot für Hulu ab

  2. Google X

    Google baut mobiles Internet in Afrika und Südostasien

  3. Xbox One

    Handel muss Gebrauchtspiele de-registrieren

  4. Lenovo

    "Wir können uns jede Übernahme leisten"

  5. Bundesdatenschützer

    Jobcenter sollen nicht bei Facebook recherchieren

  6. Navigation

    Google Maps erhält Routenplanung per Fahrrad

  7. Test Call of Juarez Gunslinger

    Hör-Spiel im Wilden Westen

  8. Fonic All-Net Flat

    Telefon-, SMS- und Datenflatrate für 25 Euro

  9. Drosselung

    Die Mär vom teuren Traffic oder wie viel kostet ein GByte?

  10. Telekom

    Bundestagspetition gegen Drosselung erreicht 50.000



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Need for Speed Rivals: Verfolgungsjagden zwischen Cops und Rasern
Need for Speed Rivals
Verfolgungsjagden zwischen Cops und Rasern

Eine offene Spielumgebung, sehr schnelle Autos und spannende Verfolgungsjagden kündigt EA für Need for Speed Rivals an. Das Rennspiel auf Basis der Frostbite-3-Engine erscheint auch für die Next-Gen-Konsole.


Surface Pro im Test: Microsofts Tablet überzeugt als Notebook
Surface Pro im Test
Microsofts Tablet überzeugt als Notebook

Ein bisschen dicker, ein bisschen schwerer und dafür viel schneller: Das ist Microsofts Surface Pro im Vergleich zum Surface RT. Wir haben das Windows-8-Gerät auf seine Stärken hin untersucht und stellen fest, dass auch Microsoft Probleme mit einem kleinen Full-HD-Display hat.

  1. Microsoft Verkauf des Surface Pro startet am 31. Mai
  2. XPS 10 und Surface Deutliche Preissenkungen bei Windows-RT-Tablets
  3. Neue Firmware Update macht das Surface RT lauter

Hacks for Sale: Chinesische Hacker werben offen auf IT-Messen
Hacks for Sale
Chinesische Hacker werben offen auf IT-Messen

Ein guter Hacker verdient in China 100.000 US-Dollar im Jahr. Die Fertigkeit, in fremde Systeme einzudringen, wird auf IT-Sicherheitsmessen ganz offen beworben und an Universitäten gelehrt.

  1. Yahoo Japan Daten von 22 Millionen Nutzern kompromittiert
  2. Security Gefährliche Lücke im Linux-Kernel
  3. Polizei Apple hat Warteliste für Umgehung der iPhone-Verschlüsselung

Zum Artikel