Rechnender Speicher

Speziell KI-Anwendungen haben ein ziemliches Effizienzproblem: Neuronale Netze wie Megatron haben Hunderte Milliarden Parameter - noch größere KIs sind lediglich eine Frage der Zeit. Selbst wenn lediglich ein Byte pro Parameter genutzt wird (beispielsweise Int8), sind das Hunderte GByte - und die müssen regelmäßig vom Speicher in die Prozessoren.

Dort werden sie allerdings nur für wenige Rechenoperationen gebraucht. Das bedeutet nicht nur Latenz durch den Speicherzugriff, sondern benötigt auch viel Energie. Im RAM-Chip werden die Daten aus dem Speicher-Array in einen Puffer gelesen und dann über das Mainboard (oder einen Interposer) zum Prozessor übertragen. Dort werden sie mehrfach gepuffert, bis sie am Ende in einem Register landen und die Berechnung stattfindet. Deren Ergebnis muss dann wieder auf demselben Weg zurück.

Eine mögliche Lösung für dieses Effizienzdesaster heißt Compute in Memory (CIM, nicht zu verwechseln mit In-Memory Computing bei Datenbanken). Dabei wird der Speicher selbst zum Rechner, was elektrische Leistung spart, da nur die Ergebnisse den Speicher verlassen. Zudem dauern die Berechnungen durch den direkten Zugriff auf das Speicher-Array weniger lang.

Die Idee gibt es schon länger, aber ...

Neu ist die Idee nicht, eines der bekanntesten Projekte, der Intelligent RAM (IRAM) der Universität Berkeley, begann 1998 (geleitet wurde es von David Patterson, einem der Väter des RISC-Designs). Durchsetzen konnte sich das Konzept bislang nicht, die Nische war vielleicht zu klein. Für neuronale Netze könnte es aber eine neue Chance bekommen.

  • Mit Mikro-Federkontakten sind günstige 3D-Chips mit sehr vielen Kontakten und verschiedensten Dies denkbar. (Bild: Georgia Institute of Technology)
  • So rechnet ReRAM: Die einzelnen, mit einstellbaren Widerständen realisierten Speicherzellen nehmen die Gewichtskoeffizienten eines Neurons auf, die Digital-Analog-Wandler (DACs) geben die Aktivierungen ein. Die Spalten summieren die einzelnen Ströme, ein Analog-Digital-Wandler (ADC) erzeugt eine digitale Ausgabe. (Bild: University of Michigan)
  • Im ReRAM-Test-Chip sind vier CIM-Blöcke mit zugehörigem DRAM implementiert. Bei den CIM-Modulen nehmen DACs und ADCs viel Platz ein. (Bild: University of Michigan)
  • Aufbau eines Waferscale-Interposers (Bild: University of California)
  • Mit Waferscale-Integration hat die UCLA eine riesige GPU realisiert. Dafür musste das Design der Spannungsversorgung (VRMs, Voltage Regulator Modules) angepasst werden. (Bild: University of California
So rechnet ReRAM: Die einzelnen, mit einstellbaren Widerständen realisierten Speicherzellen nehmen die Gewichtskoeffizienten eines Neurons auf, die Digital-Analog-Wandler (DACs) geben die Aktivierungen ein. Die Spalten summieren die einzelnen Ströme, ein Analog-Digital-Wandler (ADC) erzeugt eine digitale Ausgabe. (Bild: University of Michigan)

Anstatt wie bei IRAM eine CPU in den Speicherchip zu integrieren, wird dieser selbst zu einem Rechner - und zwar einem Analogrechner. Möglich macht dies Resistiver RAM, bei dem die Speicherzellen keine elektrische Ladung, sondern einen Widerstand speichern. Dabei sind sogar verschiedene Werte einstellbar. In den Widerständen liegt das Geheimnis des Analogcomputers: Wird eine Spannung angelegt, ist der Strom der Quotient aus Spannung und Widerstand - also eine Division. Werden mehrere Widerstände parallel geschaltet, addieren sich die Ströme.

Diese beiden Operationen reichen für ein neuronales Netz, zumindest beim Inferencing: In jedem Neuron werden Eingangswerte mit einem Gewicht multipliziert (die Umkehrung der Division) und die Ergebnisse summiert. Justin Correll stellte beim VLSI Symposium eine Implementierung der University of Michigan vor. Sie setzt sich zwar von älteren, ebenfalls ReRAM-basierten Veröffentlichungen durch höhere Auflösung bei Gewichtung und Eingabewerten sowie eine größere Zahl an Gewichtskoeffizienten deutlich ab. Bei der Effizienz bleibt sie allerdings mit den erreichten 20,7 TOPS/W (20,7 Billionen Rechenoperationen pro Watt) weit hinter den 2.900 TOPS/W eines 2020 vorgestellten SRAM-basierten Chips zurück.

Luft nach oben ist auch bei der Größe: Der experimentelle Speicher kann lediglich 64 Neuronen mit je 256 4-Bit-Gewichtskoeffizienten aufnehmen. Für Megatron muss er also oft beschrieben werden, ist aber auch nicht als Ersatz zum normalen DRAM gedacht. Vielmehr existiert der ReRAM als Recheneinheit parallel zum normalen DRAM. Im zusammen mit Applied Materials gefertigten Test-Chip belegt ein CIM-Block mit 8 KByte Kapazität, etwa ein Drittel der Fläche eines 256-KByte-DRAMs. Ein Grund dafür sind die benötigten Digital-Analog- und Analog-Digital-Wandler, die als Schnittstelle zwischen dem analogen CIM-Modul und einem digitalen Prozessor dienen.

  • Mit Mikro-Federkontakten sind günstige 3D-Chips mit sehr vielen Kontakten und verschiedensten Dies denkbar. (Bild: Georgia Institute of Technology)
  • So rechnet ReRAM: Die einzelnen, mit einstellbaren Widerständen realisierten Speicherzellen nehmen die Gewichtskoeffizienten eines Neurons auf, die Digital-Analog-Wandler (DACs) geben die Aktivierungen ein. Die Spalten summieren die einzelnen Ströme, ein Analog-Digital-Wandler (ADC) erzeugt eine digitale Ausgabe. (Bild: University of Michigan)
  • Im ReRAM-Test-Chip sind vier CIM-Blöcke mit zugehörigem DRAM implementiert. Bei den CIM-Modulen nehmen DACs und ADCs viel Platz ein. (Bild: University of Michigan)
  • Aufbau eines Waferscale-Interposers (Bild: University of California)
  • Mit Waferscale-Integration hat die UCLA eine riesige GPU realisiert. Dafür musste das Design der Spannungsversorgung (VRMs, Voltage Regulator Modules) angepasst werden. (Bild: University of California
Im ReRAM-Test-Chip sind vier CIM-Blöcke mit zugehörigem DRAM implementiert. Bei den CIM-Modulen nehmen DACs und ADCs viel Platz ein. (Bild: University of Michigan)

Und wann kommt das alles?

Beim zuletzt vorgestellten CIM ist noch nicht absehbar, dass er in Produkten landet. Das Interesse an solchen und anderen Analogcomputern hat aber mit der steigenden Bedeutung von KI wieder zugenommen. Hier sind sie speziell in mobilen, batteriebetriebenen Geräten einem klassischen Prozessor bezüglich Effizienz überlegen.

Beim Packaging hingegen gibt es beträchtliche Bewegung: Der Trend geht eindeutig zu mehr Dies pro Package. Zudem werden - wie bei Frankensteins Monster - vermehrt unterschiedliche Halbleiter kombiniert. Die stärkere Integration kommt dabei sowohl bei Hochleistungschips wie GPUs als auch bei auf Effizienz optimierten wie Smartphone-SoCs zum Einsatz. TSMC beispielsweise hat eine neue Fabrik für immer komplexere Packaging-Methoden gebaut. Damit wachsen die Möglichkeiten von Chipdesignern. An Ideen, das zeigte das VLSI Symposium, mangelt es nicht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Wafer-Scale Integration
  1.  
  2. 1
  3. 2
  4. 3


Aktuell auf der Startseite von Golem.de
Forschung
Erstes Röntgenbild von einem einzelnen Atom

Bisher war die Röntgenemission eines einzelnen Atoms zu schwach, um es auf einer Röntgenaufnahme abzulichten. Mit einer neuen Technik geht das jetzt.

Forschung: Erstes Röntgenbild von einem einzelnen Atom
Artikel
  1. US Air Force: KI-Drohne bringt in Gedankenexperiment Befehlshaber um
    US Air Force  
    KI-Drohne bringt in Gedankenexperiment Befehlshaber um

    Die US Air Force und der verantwortliche Offizier stellen klar, dass es sich nur um ein Gedankenspiel handelt - und keinen echten Test.

  2. Streaming: Verbraucherschützer warnen vor Netflix-Phishing
    Streaming
    Verbraucherschützer warnen vor Netflix-Phishing

    Phishing-Nachrichten im Namen von Netflix sind nichts Neues - in der aktuellen Verwirrung rund um das Kontensharing könnten sie aber einfacher verfangen.

  3. Forschung oder Ölbohrung?: China gräbt ein zehn Kilometer tiefes Loch
    Forschung oder Ölbohrung?
    China gräbt ein zehn Kilometer tiefes Loch

    Die Bohrung im Westen Chinas soll dazu dienen, mehr über das Innere des Planeten herauszufinden - oder doch dazu, um nach Öl zu suchen?

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Tiefstpreise: AMD Ryzen 9 7900X3D 534€, KFA2 RTX 3060 Ti 329,99€, Kingston Fury SSD 2TB (PS5-komp.) 129,91€ • Sony Days of Play: PS5-Spiele & Zubehör bis -70% • Roccat PC-Zubehör bis -50% • AVM Modems & Repeater bis -36% • Sony Deals Week [Werbung]
    •  /