Big Accelerator Memory: GPU liest und schreibt direkt auf SSDs

Mit Big Accelerator Memory kommunizieren Nvidias A100-Rechenbeschleuniger mit SSDs. Die GPU kann rechnen, statt zu synchronisieren.

Artikel veröffentlicht am , Johannes Hiltscher
Ein A100-Modul von Nvidia
Ein A100-Modul von Nvidia (Bild: Nvidia)

Aus Supercomputern sind GPUs nicht mehr wegzudenken. Ihre Berechnungen werden allerdings vom Prozessor koordiniert, die Grafikkarte dient lediglich als Rechenbeschleuniger. Die deutlich höhere Rechenleistung auszureizen, erweist sich jedoch oft als schwierig.

GPU und CPU müssen sich synchronisieren, damit Letztere Eingabedaten bereitstellt und dafür sorgt, dass die Ergebnisse auf einer Festplatte gesichert werden. Während dieser Zeit ist die GPU oft zum Nichtstun verdammt. Nvidia will dieses Problem lösen.

Techniken wie die Einbeziehung von PCIe-Hardware in die Speicherverwaltung (mittels IOMMU) oder DMA zwischen PCIe-Geräten haben die entstehenden Latenzzeiten bisher schon deutlich reduziert. Allerdings lösen sie nicht das grundlegende Problem: Die GPU ist auf die CPU angewiesen, um auf Festplatten zuzugreifen. Dies geht Big Accelerator Memory (BaM) (PDF) an, eine Entwicklung mehrerer Universitäten in Kooperation mit IBM und Nvidia.

Das Framework lässt die GPU selbst eine NVMe Command Queue (CQ) verwalten, um einer SSD Lese- und Schreibkommandos zu übermitteln. Hierzu wird der Adressbereich der SSD für die GPU sichtbar gemacht, so kann diese Transaktionen auslösen.

Über PCIe kann zudem die DMA-Einheit der SSD auf den Speicher der GPU zugreifen, üblicherweise wäre der Arbeitsspeicher das Ziel. Die Grundlage bildet Nvidias GPUDirect. Ein spezieller Linux-Treiber blendet die genutzten Dateien in den Adressraum der GPU ein.

Das ist kein Directstorage!

Das Besondere: Die GPU übernimmt selbst die Verwaltung der in ihrem Speicher vorhandenen Dateibestandteile. Das unterscheidet BaM von Directstorage, welches lediglich Verarbeitungsschritte wie die Dekompression von Texturen in der GPU statt der CPU vornimmt.

Die Übertragung der Dateien muss allerdings noch immer die CPU anstoßen. BaM hingegen macht die GPU hier unabhängig. Der Vorteil: CPU und GPU müssen sich viel seltener synchronisieren, die entstehenden Wartezeiten entfallen.

  • Bereitstellung von Speicher durch CPU (links) im Vergleich zu BaM (rechts): höherer Aufwand für Synchronisation.
Bereitstellung von Speicher durch CPU (links) im Vergleich zu BaM (rechts): höherer Aufwand für Synchronisation.

Bislang lädt eine Anwendung meist die zu verarbeitenden Daten in den Speicher der GPU und startet dann deren Abarbeitung. Anschließend wartet sie, bis die Verarbeitung abgeschlossen ist, und kopiert die Ergebnisse zurück. Dies zeigt das Bild oben auf der linken Seite.

Besonders ineffizient ist das bei kurzer Rechenzeit pro Datenblock oder wenn nur wenige Bytes aus einem Block benötigt werden. Mit BaM kann die auf der GPU ausgeführte Anwendung feingranular benötigte Daten laden.

Das Paper zu BaM zeigt, dass der Ansatz die Leistung von Anwendungen im Bereich von etwa 30 bis zu 70 Prozent steigern kann. Bei manchen Aufgaben waren sogar Steigerungen um fast den Faktor fünf möglich. Zum Einsatz kamen neben Intels Optane auch Samsungs DC 1735 und 980 Pro.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Apple
Vision Pro zwischen Finger-Tracking-Lob und Gewicht-Kritik

Sehr gutes Bild, nahezu perfekte Bedienung aber ein bisschen zu schwer: Die ersten Hands-ons von Apple Vision Pro sind insgesamt positiv.
Ein Bericht von Peter Steinlechner

Apple: Vision Pro zwischen Finger-Tracking-Lob und Gewicht-Kritik
Artikel
  1. Zen 4c Bergamo: So schrumpft AMD die Epyc-Kerne um fast die Hälfte
    Zen 4c Bergamo
    So schrumpft AMD die Epyc-Kerne um fast die Hälfte

    Bis zu 128 Kerne stellt AMD gegen ARM-Server-Prozessoren und Intels E-Cores. Kompromisse und neue Technik machen die kleineren Kerne möglich.

  2. WD Black C50: Western Digital bietet Speicherkarten für Xbox Series X/S an
    WD Black C50
    Western Digital bietet Speicherkarten für Xbox Series X/S an

    Mehr als zwei Jahre nach dem Start der Xbox Series X/S/S bietet Western Digital eigene Speicherkarten an. Noch ist kein Preisdruck zu sehen.

  3. Diablo 4 im Test: Blizzards Meisterwerk definiert das Genre neu
    Diablo 4 im Test
    Blizzards Meisterwerk definiert das Genre neu

    Unsere Hoffnungen bewahrheiten sich: Diablo 4 ist der beste Teil der exzellenten Spieleserie, an der sich auch Konkurrenten messen müssen.
    Ein Test von Oliver Nickel

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • PS5-Spiele & Zubehör bis -75% • Samsung 990 Pro 1TB (PS5) 94€ • AirPods 2 125€ • Crucial SSD 1TB 41,99€ • Thrustmaster T300 RS 299,99€ • Bis 50 % auf Gaming-Produkte bei NBB • PS5 inkl. Spiel 549€ • MSI RTX 4070 Ti 999€ • MindStar: AMD Ryzen 7 5800X3D 285€, RX 7900 XTX 989€ [Werbung]
    •  /