Big Accelerator Memory: GPU liest und schreibt direkt auf SSDs

Mit Big Accelerator Memory kommunizieren Nvidias A100-Rechenbeschleuniger mit SSDs. Die GPU kann rechnen, statt zu synchronisieren.

Artikel veröffentlicht am , Johannes Hiltscher
Ein A100-Modul von Nvidia
Ein A100-Modul von Nvidia (Bild: Nvidia)

Aus Supercomputern sind GPUs nicht mehr wegzudenken. Ihre Berechnungen werden allerdings vom Prozessor koordiniert, die Grafikkarte dient lediglich als Rechenbeschleuniger. Die deutlich höhere Rechenleistung auszureizen, erweist sich jedoch oft als schwierig.

Stellenmarkt
  1. IT Consultant Microsoft (m/w/d)
    ORBIT Gesellschaft für Applikations- und Informationssysteme mbH, Bonn
  2. Workday Security Administrator (München oder Remote) (m/w/d)
    Hays AG, München, remote
Detailsuche

GPU und CPU müssen sich synchronisieren, damit Letztere Eingabedaten bereitstellt und dafür sorgt, dass die Ergebnisse auf einer Festplatte gesichert werden. Während dieser Zeit ist die GPU oft zum Nichtstun verdammt. Nvidia will dieses Problem lösen.

Techniken wie die Einbeziehung von PCIe-Hardware in die Speicherverwaltung (mittels IOMMU) oder DMA zwischen PCIe-Geräten haben die entstehenden Latenzzeiten bisher schon deutlich reduziert. Allerdings lösen sie nicht das grundlegende Problem: Die GPU ist auf die CPU angewiesen, um auf Festplatten zuzugreifen. Dies geht Big Accelerator Memory (BaM) (PDF) an, eine Entwicklung mehrerer Universitäten in Kooperation mit IBM und Nvidia.

Das Framework lässt die GPU selbst eine NVMe Command Queue (CQ) verwalten, um einer SSD Lese- und Schreibkommandos zu übermitteln. Hierzu wird der Adressbereich der SSD für die GPU sichtbar gemacht, so kann diese Transaktionen auslösen.

Golem Karrierewelt
  1. C++ Programmierung Basics: virtueller Fünf-Tage-Workshop
    20.-24.06.2022, virtuell
  2. Entwicklung mit Unity auf der Microsoft HoloLens 2 Plattform: virtueller Zwei-Tage-Workshop
    07./08.06.2022, Virtuell
Weitere IT-Trainings

Über PCIe kann zudem die DMA-Einheit der SSD auf den Speicher der GPU zugreifen, üblicherweise wäre der Arbeitsspeicher das Ziel. Die Grundlage bildet Nvidias GPUDirect. Ein spezieller Linux-Treiber blendet die genutzten Dateien in den Adressraum der GPU ein.

Das ist kein Directstorage!

Das Besondere: Die GPU übernimmt selbst die Verwaltung der in ihrem Speicher vorhandenen Dateibestandteile. Das unterscheidet BaM von Directstorage, welches lediglich Verarbeitungsschritte wie die Dekompression von Texturen in der GPU statt der CPU vornimmt.

Die Übertragung der Dateien muss allerdings noch immer die CPU anstoßen. BaM hingegen macht die GPU hier unabhängig. Der Vorteil: CPU und GPU müssen sich viel seltener synchronisieren, die entstehenden Wartezeiten entfallen.

  • Bereitstellung von Speicher durch CPU (links) im Vergleich zu BaM (rechts): höherer Aufwand für Synchronisation.
Bereitstellung von Speicher durch CPU (links) im Vergleich zu BaM (rechts): höherer Aufwand für Synchronisation.
Samsung 980 PRO 1 TB PCIe 4.0 (bis zu 7.000 MB/s) NVMe M.2 (2280) Internes Solid State Drive (SSD) (MZ-V8P1T0BW)

Bislang lädt eine Anwendung meist die zu verarbeitenden Daten in den Speicher der GPU und startet dann deren Abarbeitung. Anschließend wartet sie, bis die Verarbeitung abgeschlossen ist, und kopiert die Ergebnisse zurück. Dies zeigt das Bild oben auf der linken Seite.

Besonders ineffizient ist das bei kurzer Rechenzeit pro Datenblock oder wenn nur wenige Bytes aus einem Block benötigt werden. Mit BaM kann die auf der GPU ausgeführte Anwendung feingranular benötigte Daten laden.

Das Paper zu BaM zeigt, dass der Ansatz die Leistung von Anwendungen im Bereich von etwa 30 bis zu 70 Prozent steigern kann. Bei manchen Aufgaben waren sogar Steigerungen um fast den Faktor fünf möglich. Zum Einsatz kamen neben Intels Optane auch Samsungs DC 1735 und 980 Pro.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Trollversteher 16. Mär 2022

Das reicht aber nicht, lies mal das verlinkte Paper. Nein, eben nicht, auch wenn die...



Aktuell auf der Startseite von Golem.de
Optibike
E-Bike mit 480 km Reichweite kostet 17.000 Euro

Das E-Bike Optibike R22 Everest setzt mit seinen zwei Akkus auf Reichweite.

Optibike: E-Bike mit 480 km Reichweite kostet 17.000 Euro
Artikel
  1. Krypto-Kriminalität: Behörden fahnden nach Onecoin-Betrügerin
    Krypto-Kriminalität
    Behörden fahnden nach Onecoin-Betrügerin

    Deutsche und internationale Behörden suchen nach den Hintermännern und -frauen von Onecoin. Der Schaden durch Betrug mit der vermeintlichen Kryptowährung geht in die Milliarden.

  2. Hassrede: Bayern will soziale Netzwerke bestrafen
    Hassrede
    Bayern will soziale Netzwerke bestrafen

    Der bayrische Justizminister fordert, bei der Verbreitung von Hassrede auch die Betreiber von sozialen Medien stärker zur Verantwortung zu ziehen.

  3. Prehistoric Planet: Danke, Apple, für so grandiose Dinosaurier!
    Prehistoric Planet
    Danke, Apple, für so grandiose Dinosaurier!

    Musik von Hans Zimmer, dazu David Attenborough als Sprecher: Apples Prehistoric Planet hat einen Kindheitstraum zum Leben erweckt.
    Ein IMHO von Marc Sauter

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Samsung 870 QVO 1 TB 79€ • Prime Video: Filme leihen für 0,99€ • Alternate (u. a. Recaro Rae Essential 429€) • Gigabyte RTX 3080 12 GB ab 1.024€ • Mindstar (u. a. AMD Ryzen 5 5600 179€, Palit RTX 3070 GamingPro 669€) • SanDisk Ultra microSDXC 256 GB ab 14,99€ • Sackboy 19,99€ [Werbung]
    •  /