Rechnender Speicher

Speziell KI-Anwendungen haben ein ziemliches Effizienzproblem: Neuronale Netze wie Megatron haben Hunderte Milliarden Parameter - noch größere KIs sind lediglich eine Frage der Zeit. Selbst wenn lediglich ein Byte pro Parameter genutzt wird (beispielsweise Int8), sind das Hunderte GByte - und die müssen regelmäßig vom Speicher in die Prozessoren.

Stellenmarkt
  1. IT-Administrator (w/m/d) mit Schwerpunkt MS 365 / Azure
    XENON Automatisierungstechnik GmbH, Dresden
  2. Mitarbeiter (m/w/d) IT-Support
    Otto Krahn Group GmbH, Hamburg
Detailsuche

Dort werden sie allerdings nur für wenige Rechenoperationen gebraucht. Das bedeutet nicht nur Latenz durch den Speicherzugriff, sondern benötigt auch viel Energie. Im RAM-Chip werden die Daten aus dem Speicher-Array in einen Puffer gelesen und dann über das Mainboard (oder einen Interposer) zum Prozessor übertragen. Dort werden sie mehrfach gepuffert, bis sie am Ende in einem Register landen und die Berechnung stattfindet. Deren Ergebnis muss dann wieder auf demselben Weg zurück.

Eine mögliche Lösung für dieses Effizienzdesaster heißt Compute in Memory (CIM, nicht zu verwechseln mit In-Memory Computing bei Datenbanken). Dabei wird der Speicher selbst zum Rechner, was elektrische Leistung spart, da nur die Ergebnisse den Speicher verlassen. Zudem dauern die Berechnungen durch den direkten Zugriff auf das Speicher-Array weniger lang.

Die Idee gibt es schon länger, aber ...

Neu ist die Idee nicht, eines der bekanntesten Projekte, der Intelligent RAM (IRAM) der Universität Berkeley, begann 1998 (geleitet wurde es von David Patterson, einem der Väter des RISC-Designs). Durchsetzen konnte sich das Konzept bislang nicht, die Nische war vielleicht zu klein. Für neuronale Netze könnte es aber eine neue Chance bekommen.

  • Mit Mikro-Federkontakten sind günstige 3D-Chips mit sehr vielen Kontakten und verschiedensten Dies denkbar. (Bild: Georgia Institute of Technology)
  • So rechnet ReRAM: Die einzelnen, mit einstellbaren Widerständen realisierten Speicherzellen nehmen die Gewichtskoeffizienten eines Neurons auf, die Digital-Analog-Wandler (DACs) geben die Aktivierungen ein. Die Spalten summieren die einzelnen Ströme, ein Analog-Digital-Wandler (ADC) erzeugt eine digitale Ausgabe. (Bild: University of Michigan)
  • Im ReRAM-Test-Chip sind vier CIM-Blöcke mit zugehörigem DRAM implementiert. Bei den CIM-Modulen nehmen DACs und ADCs viel Platz ein. (Bild: University of Michigan)
  • Aufbau eines Waferscale-Interposers (Bild: University of California)
  • Mit Waferscale-Integration hat die UCLA eine riesige GPU realisiert. Dafür musste das Design der Spannungsversorgung (VRMs, Voltage Regulator Modules) angepasst werden. (Bild: University of California
So rechnet ReRAM: Die einzelnen, mit einstellbaren Widerständen realisierten Speicherzellen nehmen die Gewichtskoeffizienten eines Neurons auf, die Digital-Analog-Wandler (DACs) geben die Aktivierungen ein. Die Spalten summieren die einzelnen Ströme, ein Analog-Digital-Wandler (ADC) erzeugt eine digitale Ausgabe. (Bild: University of Michigan)
Golem Karrierewelt
  1. Green IT: Praxisratgeber zur nachhaltigen IT-Nutzung (virtueller Ein-Tages-Workshop)
    26.10.2022, virtuell
  2. Cloud Competence Center: Strategien, Roadmap, Governance: virtueller Ein-Tages-Workshop
    06.10.2022, Virtuell
Weitere IT-Trainings

Anstatt wie bei IRAM eine CPU in den Speicherchip zu integrieren, wird dieser selbst zu einem Rechner - und zwar einem Analogrechner. Möglich macht dies Resistiver RAM, bei dem die Speicherzellen keine elektrische Ladung, sondern einen Widerstand speichern. Dabei sind sogar verschiedene Werte einstellbar. In den Widerständen liegt das Geheimnis des Analogcomputers: Wird eine Spannung angelegt, ist der Strom der Quotient aus Spannung und Widerstand - also eine Division. Werden mehrere Widerstände parallel geschaltet, addieren sich die Ströme.

Diese beiden Operationen reichen für ein neuronales Netz, zumindest beim Inferencing: In jedem Neuron werden Eingangswerte mit einem Gewicht multipliziert (die Umkehrung der Division) und die Ergebnisse summiert. Justin Correll stellte beim VLSI Symposium eine Implementierung der University of Michigan vor. Sie setzt sich zwar von älteren, ebenfalls ReRAM-basierten Veröffentlichungen durch höhere Auflösung bei Gewichtung und Eingabewerten sowie eine größere Zahl an Gewichtskoeffizienten deutlich ab. Bei der Effizienz bleibt sie allerdings mit den erreichten 20,7 TOPS/W (20,7 Billionen Rechenoperationen pro Watt) weit hinter den 2.900 TOPS/W eines 2020 vorgestellten SRAM-basierten Chips zurück.

Luft nach oben ist auch bei der Größe: Der experimentelle Speicher kann lediglich 64 Neuronen mit je 256 4-Bit-Gewichtskoeffizienten aufnehmen. Für Megatron muss er also oft beschrieben werden, ist aber auch nicht als Ersatz zum normalen DRAM gedacht. Vielmehr existiert der ReRAM als Recheneinheit parallel zum normalen DRAM. Im zusammen mit Applied Materials gefertigten Test-Chip belegt ein CIM-Block mit 8 KByte Kapazität, etwa ein Drittel der Fläche eines 256-KByte-DRAMs. Ein Grund dafür sind die benötigten Digital-Analog- und Analog-Digital-Wandler, die als Schnittstelle zwischen dem analogen CIM-Modul und einem digitalen Prozessor dienen.

  • Mit Mikro-Federkontakten sind günstige 3D-Chips mit sehr vielen Kontakten und verschiedensten Dies denkbar. (Bild: Georgia Institute of Technology)
  • So rechnet ReRAM: Die einzelnen, mit einstellbaren Widerständen realisierten Speicherzellen nehmen die Gewichtskoeffizienten eines Neurons auf, die Digital-Analog-Wandler (DACs) geben die Aktivierungen ein. Die Spalten summieren die einzelnen Ströme, ein Analog-Digital-Wandler (ADC) erzeugt eine digitale Ausgabe. (Bild: University of Michigan)
  • Im ReRAM-Test-Chip sind vier CIM-Blöcke mit zugehörigem DRAM implementiert. Bei den CIM-Modulen nehmen DACs und ADCs viel Platz ein. (Bild: University of Michigan)
  • Aufbau eines Waferscale-Interposers (Bild: University of California)
  • Mit Waferscale-Integration hat die UCLA eine riesige GPU realisiert. Dafür musste das Design der Spannungsversorgung (VRMs, Voltage Regulator Modules) angepasst werden. (Bild: University of California
Im ReRAM-Test-Chip sind vier CIM-Blöcke mit zugehörigem DRAM implementiert. Bei den CIM-Modulen nehmen DACs und ADCs viel Platz ein. (Bild: University of Michigan)

Und wann kommt das alles?

Beim zuletzt vorgestellten CIM ist noch nicht absehbar, dass er in Produkten landet. Das Interesse an solchen und anderen Analogcomputern hat aber mit der steigenden Bedeutung von KI wieder zugenommen. Hier sind sie speziell in mobilen, batteriebetriebenen Geräten einem klassischen Prozessor bezüglich Effizienz überlegen.

Beim Packaging hingegen gibt es beträchtliche Bewegung: Der Trend geht eindeutig zu mehr Dies pro Package. Zudem werden - wie bei Frankensteins Monster - vermehrt unterschiedliche Halbleiter kombiniert. Die stärkere Integration kommt dabei sowohl bei Hochleistungschips wie GPUs als auch bei auf Effizienz optimierten wie Smartphone-SoCs zum Einsatz. TSMC beispielsweise hat eine neue Fabrik für immer komplexere Packaging-Methoden gebaut. Damit wachsen die Möglichkeiten von Chipdesignern. An Ideen, das zeigte das VLSI Symposium, mangelt es nicht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Wafer-Scale Integration
  1.  
  2. 1
  3. 2
  4. 3


Aktuell auf der Startseite von Golem.de
Garmin Edge Explore 2 im Test
Fahrradnavigation als verkehrsberuhigtes Abenteuer

Tour mit wenig Autos gesucht? Das Fahrrad-Navigationsgerät Garmin Edge Explore 2 kann uns das verschaffen - mit teils unerwarteten Folgen.
Ein Test von Peter Steinlechner

Garmin Edge Explore 2 im Test: Fahrradnavigation als verkehrsberuhigtes Abenteuer
Artikel
  1. Eichrechtsverstoß: Tesla betreibt gut 1.800 Supercharger in Deutschland illegal
    Eichrechtsverstoß
    Tesla betreibt gut 1.800 Supercharger in Deutschland illegal

    Teslas Supercharger in Deutschland sind wie viele andere Ladesäulen nicht gesetzeskonform. Der Staat lässt die Anbieter gewähren.

  2. THQ Nordic: Alone in the Dark bietet neuen Horror
    THQ Nordic
    Alone in the Dark bietet neuen Horror

    Rund 30 Jahre nach dem ersten Alone in the Dark soll es frischen Grusel im Herrenhaus Derceto Manor geben - und altbekannte Hauptfiguren.

  3. Quartalsbericht: Huawei steigert den Umsatz trotz US-Sanktionen wieder
    Quartalsbericht
    Huawei steigert den Umsatz trotz US-Sanktionen wieder

    Besonders im Bereich Cloud erzielt Huawei wieder Zuwächse.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: Palit RTX 3080 Ti 1.099€, Samsung SSD 2TB m. Kühlkörper (PS5) 219,99€, Samsung Neo QLED TV (2022) 50" 1.139€, AVM Fritz-Box • Asus: Bis 840€ Cashback • MindStar (MSI RTX 3090 Ti 1.299€, AMD Ryzen 7 5800X 288€) • Microsoft Controller (Xbox&PC) 48,99€ [Werbung]
    •  /