Rechnender Speicher
Speziell KI-Anwendungen haben ein ziemliches Effizienzproblem: Neuronale Netze wie Megatron haben Hunderte Milliarden Parameter - noch größere KIs sind lediglich eine Frage der Zeit. Selbst wenn lediglich ein Byte pro Parameter genutzt wird (beispielsweise Int8), sind das Hunderte GByte - und die müssen regelmäßig vom Speicher in die Prozessoren.
Dort werden sie allerdings nur für wenige Rechenoperationen gebraucht. Das bedeutet nicht nur Latenz durch den Speicherzugriff, sondern benötigt auch viel Energie. Im RAM-Chip werden die Daten aus dem Speicher-Array in einen Puffer gelesen und dann über das Mainboard (oder einen Interposer) zum Prozessor übertragen. Dort werden sie mehrfach gepuffert, bis sie am Ende in einem Register landen und die Berechnung stattfindet. Deren Ergebnis muss dann wieder auf demselben Weg zurück.
Eine mögliche Lösung für dieses Effizienzdesaster heißt Compute in Memory (CIM, nicht zu verwechseln mit In-Memory Computing bei Datenbanken). Dabei wird der Speicher selbst zum Rechner, was elektrische Leistung spart, da nur die Ergebnisse den Speicher verlassen. Zudem dauern die Berechnungen durch den direkten Zugriff auf das Speicher-Array weniger lang.
Die Idee gibt es schon länger, aber ...
Neu ist die Idee nicht, eines der bekanntesten Projekte, der Intelligent RAM (IRAM) der Universität Berkeley, begann 1998 (geleitet wurde es von David Patterson, einem der Väter des RISC-Designs). Durchsetzen konnte sich das Konzept bislang nicht, die Nische war vielleicht zu klein. Für neuronale Netze könnte es aber eine neue Chance bekommen.
Anstatt wie bei IRAM eine CPU in den Speicherchip zu integrieren, wird dieser selbst zu einem Rechner - und zwar einem Analogrechner. Möglich macht dies Resistiver RAM, bei dem die Speicherzellen keine elektrische Ladung, sondern einen Widerstand speichern. Dabei sind sogar verschiedene Werte einstellbar. In den Widerständen liegt das Geheimnis des Analogcomputers: Wird eine Spannung angelegt, ist der Strom der Quotient aus Spannung und Widerstand - also eine Division. Werden mehrere Widerstände parallel geschaltet, addieren sich die Ströme.
Diese beiden Operationen reichen für ein neuronales Netz, zumindest beim Inferencing: In jedem Neuron werden Eingangswerte mit einem Gewicht multipliziert (die Umkehrung der Division) und die Ergebnisse summiert. Justin Correll stellte beim VLSI Symposium eine Implementierung der University of Michigan vor. Sie setzt sich zwar von älteren, ebenfalls ReRAM-basierten Veröffentlichungen durch höhere Auflösung bei Gewichtung und Eingabewerten sowie eine größere Zahl an Gewichtskoeffizienten deutlich ab. Bei der Effizienz bleibt sie allerdings mit den erreichten 20,7 TOPS/W (20,7 Billionen Rechenoperationen pro Watt) weit hinter den 2.900 TOPS/W eines 2020 vorgestellten SRAM-basierten Chips zurück.
Luft nach oben ist auch bei der Größe: Der experimentelle Speicher kann lediglich 64 Neuronen mit je 256 4-Bit-Gewichtskoeffizienten aufnehmen. Für Megatron muss er also oft beschrieben werden, ist aber auch nicht als Ersatz zum normalen DRAM gedacht. Vielmehr existiert der ReRAM als Recheneinheit parallel zum normalen DRAM. Im zusammen mit Applied Materials gefertigten Test-Chip belegt ein CIM-Block mit 8 KByte Kapazität, etwa ein Drittel der Fläche eines 256-KByte-DRAMs. Ein Grund dafür sind die benötigten Digital-Analog- und Analog-Digital-Wandler, die als Schnittstelle zwischen dem analogen CIM-Modul und einem digitalen Prozessor dienen.
Und wann kommt das alles?
Beim zuletzt vorgestellten CIM ist noch nicht absehbar, dass er in Produkten landet. Das Interesse an solchen und anderen Analogcomputern hat aber mit der steigenden Bedeutung von KI wieder zugenommen. Hier sind sie speziell in mobilen, batteriebetriebenen Geräten einem klassischen Prozessor bezüglich Effizienz überlegen.
Beim Packaging hingegen gibt es beträchtliche Bewegung: Der Trend geht eindeutig zu mehr Dies pro Package. Zudem werden - wie bei Frankensteins Monster - vermehrt unterschiedliche Halbleiter kombiniert. Die stärkere Integration kommt dabei sowohl bei Hochleistungschips wie GPUs als auch bei auf Effizienz optimierten wie Smartphone-SoCs zum Einsatz. TSMC beispielsweise hat eine neue Fabrik für immer komplexere Packaging-Methoden gebaut. Damit wachsen die Möglichkeiten von Chipdesignern. An Ideen, das zeigte das VLSI Symposium, mangelt es nicht.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Wafer-Scale Integration |
Damit da nicht noch mehr Hoffnungen geweckt werden, haben wir das etwas konkreter gemacht ;)