Abo
  • Services:

CUDA, Directcompute, Open CL

Möglichkeiten und Grenzen von GPU-Computing

GTC

Am Vortag von Nvidias GPU Technology Conference (GTC) gaben Entwickler von Khronos, Microsoft und Nvidia einen Überblick über die Einsatzgebiete von GPUs für allgemeine Berechnungen. Der Konsens: GPUs sind schnell, aber nur, wenn man sie richtig programmiert.

Artikel veröffentlicht am ,
CUDA, Directcompute, Open CL: Möglichkeiten und Grenzen von GPU-Computing

CUDA, Directcompute und Open CL - gleich drei Programmierschnittstellen gibt es, um auf Nvidia-GPUs Rechenaufgaben durchzuführen. Welche die beste ist, wagten auch die Entwickler in den Einführungsvorträgen der GTC nicht zu behaupten. An verschiedenen Beispielen zeigten sie jedoch, dass auch längst gelöste Probleme wie die Fourier-Transformation (FFT) oder Matrizenreduktion auf GPUs besonderer Behandlung bedürfen.

Stellenmarkt
  1. Sellwerk GmbH & Co. KG, Nürnberg
  2. KODAK Alaris Germany GmbH über Tauster GmbH, Stuttgart

Die höhere Parallelität einer GPU im Vergleich mit einer CPU wirkt sich nur dann positiv aus, wenn der Chip ständig viel zu tun hat. Dafür gilt es vor allem, mit dem immer knappen Hauptspeicher - was in diesem Fall das auf der Karte verfügbare RAM ist - und dessen Bandbreite sorgfältig umzugehen. Ein weiterer Eckpfeiler: Threads dürfen sich nicht gegenseitig behindern.

  • Directcompute realisiert Nvidia per CUDA
  • Lens Flares in 3DMark11 per Directcompute
  • Ein Foto aus der Realität, ...
  • ... das nahe an der Simulation ist.
  •  
  • Sieben Schritte zur Matrizenreduktion mit immer höherem Durchsatz
  • Gezieltes Schreiben spart Bandbreite
  • Von einer Gruppe von Threads bis zum einzelnen Rechenwerk
Ein Foto aus der Realität, ...

So zeigte Nvidia, dass sich für die parallele Matrizenreduktion Beschleunigungen bis zum Dreißigfachen erreichen lassen. Das gilt aber nur, wenn sich Verzweigungen (Branches) weitgehend vermeiden lassen, die Speicherzugriffe aneinander ausgerichtet und verschachtelt sind (interleaving) und in einem Thread mehrere Objekte behandelt werden. Das ist ein Unterschied zum Füttern von Threads auf x86-CPUs. Diese Chips kommen mit Abhängigkeiten von Aufgaben untereinander wesentlich besser zurecht.

Da der Speicher immer knapp ist, müssen manchmal Zwischenschritte eingeschoben werden, auch bei grafikorientierten Routinen. Da die Tessellation von DirectX-11 nur 64 Detailstufen vorsieht, empfahl Nvidia für die Darstellung von Bergen eine weitere Unterteilung per fraktaler Selbstähnlichkeit. Das kann dann, auch innerhalb einer Grafikanwendung, ein Directcompute-Shader erledigen. Dafür ist jedoch ein Kontextwechsel nötig, was wieder Rechenzeit kostet.

Statt einer einzelnen Spiegelung wie durch das Objektiv des Betrachters lassen sich so auch viel Flares an mehreren Lichtquellen erzeugen. Ein weiteres Beispiel führte Microsoft an. Die Linsenreflexionen (lens flares), die in Spielen den von Filmen gewohnten Eindruck des gewollten fotografischen Fehlers vermitteln sollen, lassen sich auch über eine Fourier-Transformation erzielen.

Ohne ein exponentielles Ansteigen der Rechenzeit geht das aber nur, wenn 3D-Modell und Compute-Shader zusammenarbeiten. Wie schon bei der Tessellation lassen sich solche Effekte also nicht nachträglich auf bestehende Programme anwenden, sie müssen von Anfang an einkalkuliert werden.



Anzeige
Top-Angebote
  1. (u. a. MSI Optix 23,6-Zoll-FHD-Monitor mit 144 Hz für 222€ statt ca. 317€ im Vergleich und...
  2. 16,89€ inkl. Versand (Vergleichspreis 24,02€)
  3. (u. a. Vengeance LPX DDR4-3200 16 GB CL16-18-18-36 für 159,99€ statt ca. 195€ im...
  4. (u. a. Overwatch GOTY für 22,29€ und South Park - Der Stab der Wahrheit für 1,99€)

irata_ 21. Sep 2010

"Vorhersagbares Zeitverhalten" hab ich auch auf klassischen 8-Bittern (C64, Atari...

AnotherGuy 21. Sep 2010

Natürlich sind all solche persönlichen Empfindungen letztlich Geschmackssache, es gibt...

DaHonk 21. Sep 2010

Sowas wie MW2 mit seinen verkauften 15+ Millionen Kopien ist schwer zu toppen. Das...


Folgen Sie uns
       


Gemini PDA - Test

Ein PDA im Jahr 2018? Im Test sind wir nicht restlos überzeugt - was vor allem an der Gerätegattung selber liegt.

Gemini PDA - Test Video aufrufen
Hacker: Was ist eigentlich ein Exploit?
Hacker
Was ist eigentlich ein Exploit?

In Hollywoodfilmen haben Hacker mit Sturmmasken ein ganzes Arsenal von Zero-Day-Exploits, und auch sonst scheinen die kleinen Programme mehr und mehr als zentraler Begriff der IT-Sicherheit verstanden zu werden. Der Hacker Thomas Dullien hingegen versucht sich an einem theoretischen Modell eines Exploits.
Von Hauke Gierow

  1. IoT Foscam beseitigt Exploit-Kette in Kameras
  2. Project Capillary Google verschlüsselt Pushbenachrichtigungen Ende-zu-Ende
  3. My Heritage DNA-Dienst bestätigt Datenleck von 92 Millionen Accounts

IT-Jobs: Fünf neue Mitarbeiter in fünf Wochen?
IT-Jobs
Fünf neue Mitarbeiter in fünf Wochen?

Startups müssen oft kurzfristig viele Stellen besetzen. Wir waren bei dem Berliner Unternehmen Next Big Thing dabei, als es auf einen Schlag Bewerber für fünf Jobs suchte.
Ein Bericht von Juliane Gringer

  1. Frauen in IT-Berufen Programmierte Klischees
  2. Bitkom Research Höherer Frauenanteil in der deutschen IT-Branche
  3. Recruiting IT-Experten brauchen harte Fakten

Volocopter 2X: Das Flugtaxi, das noch nicht abheben darf
Volocopter 2X
Das Flugtaxi, das noch nicht abheben darf

Cebit 2018 Der Volocopter ist fertig - bleibt in Hannover aber noch am Boden. Im zweisitzigen Fluggerät stecken jede Menge Ideen, die autonomes Fliegen als Ergänzung zu anderen Nahverkehrsmitteln möglich machen soll. Golem.de hat Platz genommen und mit den Entwicklern gesprochen.
Von Nico Ernst

  1. Ingolstadt Flugtaxis sollen in Deutschland erprobt werden
  2. Urban Air Mobility Airbus gründet neuen Geschäftsbereich für Lufttaxis
  3. Cityairbus Mit Siemens soll das Lufttaxi abheben

    •  /