HBM-PIM: Stapelspeicher erhält integrierte AI-Engines

Bei Samsungs HBM-PIM werden die Speicherbänke um Recheneinheiten erweitert, was Performance und Effizienz drastisch steigern soll.

Artikel veröffentlicht am ,
HBM-PIM
HBM-PIM (Bild: Samsung)

Samsung hat den HBM-PIM angekündigt, eine spezielle Variante des bekannten HBM2-Stapelspeichers, die um einen AI-Beschleuniger erweitert wurde. Die Abkürzung steht folgerichtig für High Bandwidth Memory with Processing in Memory, was das Prinzip gut beschreibt.

Stellenmarkt
  1. Softwareentwickler C#, VB.Net (m/w/d) für unsere CNC-Schleifmaschinen
    Schütte Schleiftechnik GmbH, Köln
  2. Kundenberater / Projektkoordinator (m/w/d) für IT-Projekte - Sozialwesen
    Anstalt für Kommunale Datenverarbeitung in Bayern (AKDB), verschiedene Standorte
Detailsuche

Basis des HBM-PIM ist der ältere HBM2 alias Aquabolt, den Samsung entsprechend angepasst hat: Ein solcher Stack umfasst eigentlich acht 8-GBit-Dies an DRAM, was 8 GByte ergibt. Samsung aber nutzt vier 8-GBit-Dies und vier 4-GBit-Dies, wobei Letztere pro zwei Speicherbänken eine PCU (Programmable Computing Unit) aufweisen. Die laufen mit 300 MHz für 1,2 Teraflops mit FP16-Präzision.

Diese sollen sich für AI-Workloads wie Computer Vision und Objektklassifizierung eignen, weshalb sich verglichen mit regulären Von-Neumann-Lösungen die Performance verdoppeln (2,1x) und die Energieeffizienz um 71 Prozent steigen soll. Ohne PIM müssten die zu berechnenden Daten erst vom HBM2 zum Host-Chip wie einem ASIC oder einer GPU und wieder zurück transportiert werden, was entsprechend Zeit und Strom benötigt. Für PIM seien überdies keine Software-Anpassungen notwendig.

  • HBM-PIM (Bild: Samsung)
  • HBM-PIM (Bild: Samsung)
  • HBM-PIM (Bild: Samsung)
  • HBM-PIM (Bild: Samsung)
HBM-PIM (Bild: Samsung)

Als Szenarien für HBM-PIM sieht Samsung unter anderem Datacenter, HPC-Systeme (High Performance Computing) und AI-Anwendungen im Mobile-Segment vor. Bisher lässt sich HBM2 einzig mit Host-Prozessoren verbinden, auch bei HBM-PIM ist ein solcher Chip notwendig.

Golem Karrierewelt
  1. Entwicklung mit Unity auf der Microsoft HoloLens 2 Plattform: virtueller Zwei-Tage-Workshop
    10./11.10.2022, Virtuell
  2. Adobe Premiere Pro Grundkurs: virtueller Zwei-Tage-Workshop
    27./28.10.2022, Virtuell
Weitere IT-Trainings

Denkbar wäre daher beispielsweise ein Beschleuniger für AI-Inferencing, welcher neben der selbstgestellten Rechenleistung zusätzlich HBM-PIM verwendet. Solche Co-Prozessoren könnten für latenzkritische Workloads eingesetzt werden, die vergleichsweise wenig Performance erfordern.

Momentaner Stand bei High Bandwidth Memory ist HBM2E: Samsung und SK Hynix bieten Stacks mit 16 GByte Kapazität an, die Geschwindigkeit liegt bei 3,2 GBit/s respektive 3,6 GBit/s. Nvidia verwendet HBM2E für den A100-Beschleuniger mit 80 GByte Speicher.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
e.Go Life getestet
Abgesang auf ein schwer erfüllbares Versprechen

Der e.Go Life aus Aachen sollte Elektromobilität erschwinglich machen. Doch nach 1.500 ausgelieferten Exemplaren ist nun Schluss. Was nachvollziehbar ist.
Ein Bericht von Friedhelm Greis

e.Go Life getestet: Abgesang auf ein schwer erfüllbares Versprechen
Artikel
  1. Unbound: Neues Need for Speed verbindet Gaspedal mit Graffiti
    Unbound
    Neues Need for Speed verbindet Gaspedal mit Graffiti

    Veröffentlichung im Dezember 2022 nur für PC und die neuen Konsolen: Electronic Arts hat ein sehr buntes Need for Speed vorgestellt.

  2. Google: Pixel 7 und 7 Pro kosten so viel wie die Vorgänger
    Google
    Pixel 7 und 7 Pro kosten so viel wie die Vorgänger

    Googles Pixel-7-Smartphones kommen mit neuem Tensor-Chip, ansonsten ist die Hardware vertraut. Neuigkeiten gibt es bei der Software.

  3. Lochstreifenleser selbst gebaut: Lochstreifen für das 21. Jahrhundert
    Lochstreifenleser selbst gebaut
    Lochstreifen für das 21. Jahrhundert

    Früher wurden Daten auf Lochstreifen gespeichert - lesen kann man sie heute nicht mehr so leicht. Es sei denn, man verwendet Jürgen Müllers Lesegerät auf Arduino-Basis.
    Von Tobias Költzsch

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 jetzt bestellbar • MindStar (Gigabyte RTX 3090 Ti 1.099€, RTX 3070 539€) • Alternate (Team Group DDR4/DDR5-RAM u. SSD) • Günstig wie nie: MSI Curved 27" WQHD 165Hz 289€, Philips LED TV 55" Ambilight 549€, Inno3D RTX 3090 Ti 1.199€ • 3 Spiele für 49€ [Werbung]
    •  /