HPC Cluster: Samsung baut GPU-Cluster mit intelligentem Speicher

Samsung hat kürzlich 96 Grafikkarten mit AMD MI100-GPUs und PIM-Speicher(öffnet im neuen Fenster) zu einem Cluster kombiniert(öffnet im neuen Fenster) , was das System zum ersten seiner Art macht. Process-in-Memory-RAM (PIM) ist Speicher, der einen Teil der Berechnungen direkt im Speicher ausführen kann, statt die Daten dafür der GPU selbst zur Verfügung stellen zu müssen. So soll die Performance für KI-Training um bis zu zweieinhalb Mal schneller werden.
Dadurch, dass Daten nicht für einfache Aufgaben zur GPU übertragen werden müssen, stehen mehr Speicherbandbreite und GPU-Kapazität für die eigentlichen Rechenaufgaben zur Verfügung. Bei gleicher Rechenleistung wird außerdem die Leistungsaufnahme stark reduziert, da die große und stromhungrige GPU nicht mehr für einfache Berechnungen arbeiten muss, die nun der Speicher selbst durchführen kann.
Samsung entwickelt bereits seit einigen Jahren an PIM-Speichern. Der südkoreanische Technologiekonzern stellte über die Zeit diverse Implementationen vor, darunter DDR5 , LPDDR5X, GDDR6 und den auf der AMD MI100 zum Einsatz kommenden HMB2. Dabei gibt Samsung an, bei etwa 1,8-facher Performance und um 70 Prozent verringerten Zugriffszeiten die Leistungsaufnahme um 42,6 Prozent senken zu können, wobei die Radeon MI100-GPUs im oben genannten Cluster diese Zahlen mittlerweile sogar übertreffen.
PIM-Speicher lässt sich einfach integrieren
PIM benötigt keine besonderen Modifikationen von Hard- und Software, was dessen Einsatz vereinfacht. Samsung ist nicht der einzige Speicherhersteller, der an PIM-Technologie arbeitet. Auch SK Hynix stellte bereits PIM-Module vor(öffnet im neuen Fenster) . Dabei handelt es sich um GDDR6-AiM-Chips (Accelerator in Memory). Der Hersteller gibt 16-fache AI-Performance und um 80 Prozent verringerte Leistungsaufnahme an, wobei sich diese Angaben ohne ein genaues Szenario nicht weiter einordnen lassen.
Für KI-Training erscheint PIM als eine der kommenden Schlüsseltechnologien, um mit den immer aufwändigeren Modellen effektiv zu arbeiten. Aktuell werden von vielen Herstellern sowohl GPUs als auch dedizierte Beschleuniger verwendet, die zum Teil auf HBM2-Speicher setzen, da Speicherdurchsatz für diese Art von Berechnungen häufig ein limitierender Faktor ist. PIM würde hier nicht nur weitere Performance ermöglichen, sondern einen Teil der Berechnungen auf günstigeren Beschleunigern beispielsweise mit GDDR6-Speicher überhaupt erst sinnvoll ermöglichen.