Zum Hauptinhalt Zur Navigation

Phasenwechselspeicher: Analoger KI-Chip transkribiert effizienter und schneller

Rechnender Speicher soll Digitalcomputer bei KI schlagen – dank analoger Berechnungen. Bei IBM arbeiten mehrere Forschungsteams daran.
/ Johannes Hiltscher
6 Kommentare News folgen (öffnet im neuen Fenster)
So sieht der gefertigte KI-Chip aus. (Bild: IBM Research)
So sieht der gefertigte KI-Chip aus. Bild: IBM Research

KI-Berechnungen verschieben kontinuierlich Daten zwischen Prozessor und Speicher. Der Grund: Selbst kleine Modelle haben Millionen Gewichtskoeffizienten, welche die Verbindungsstärke zwischen den Neuronen beschreiben. Das sprengt jeden Cache, warum also nicht den Speicher rechnen lassen? Diesen Ansatz verfolgen bei IBM(öffnet im neuen Fenster) mehrere Forschungsgruppen, eine davon veröffentlichte im Magazin Nature(öffnet im neuen Fenster) zu einem KI-Beschleuniger, der ein Modell mit 45 Millionen Gewichtsparametern verarbeitete.

Der Beschleunigerchip basiert, wie der kürzlich gezeigte Chip einer anderen Gruppe, auf Phasenwechselspeicher (Phase Change Memory, PCM). Allerdings verfolgten beide Gruppen unterschiedliche Ziele. Der jetzt in Nature beschriebene Chip enthält ausschließlich PCM-Speicher und ein leistungsfähiges Verbindungsnetzwerk. So passen in einen der Chips bis zu 17,8 Millionen Gewichte, verteilt auf 34 einzelne Blöcke (Tiles).

Jeder Block enthält ein MBit an PCM-Speicher, pro Gewichtskoeffizienz werden zwei oder vier Bits verwendet – letzteres erhöht die Genauigkeit. Mehrere Blöcke teilen sich Ein- und Ausgabe (input und output landing pad, ILP und OLP). Hier findet sich jeweils SRAM-Speicher und Digital-Analog- oder Analog-Digital-Umsetzer. Über ILPs und OLPs kommuniziert der Chip mit der Außenwelt, das kann ein normaler Prozessor sein – oder ein weiterer KI-Chip. Als Datenformat werden vorzeichenlose 8-Bit-Ganzzahlen verwendet (Uint8).

Große Modelle brauchen viele Chips

Um größere Netze abzubilden, lassen sich mehrere der Beschleunigerchips verbinden. Das nutzten die Forscher, um ein Modell aus dem Benchmark Mlperf zur Transkription abzubilden. Ein Chip schafft lediglich ein kleineres Modell, das zwölf Stichwörter erkennen kann. Trainiert wurden beide Modelle klassisch mit GPUs, für das komplexe Modell verwendeten sie den Datensatz Librispeech.

Das Inferencing läuft dann auf fünf der Beschleunigerchips und soll fast die Genauigkeit einer Softwarelösung erreichen. Abhängig von der Fehleranfälligkeit wurde entschieden, ob zwei oder vier Bit pro Gewicht verwendet werden. Ein wenig Hilfe braucht der Chip allerdings noch von einem Digitalcomputer. Die abschließende Netzwerkschicht implementierten die Forscher mit 32-Bit-Gewichten, was die Fehlerrate deutlich reduziert.

Die genaue Verarbeitungszeit für einen Testdatensatz sowie die erreichbare Effizienz schätzten die Forscher daher ab. Als Basis dafür gingen sie von einem 14-nm-Prozess aus, in dem auch der Speicher gefertigt wurde. Fazit der Forscher: Ihr Beschleuniger würde 12,8 TOPS/W schaffen und wäre schneller fertig als das beste bei Mlperf gelistete System.

Einstellbarer Speicher als Analogrechner

PCM-Speicher nutzt Material, das einen amorphen und einen kristallinen Zustand besitzt, deren elektrische Widerstände sich unterscheiden. Umschalten lassen sich die Zustände durch gezieltes Erhitzen und Abkühlen, weshalb jede Speicherzelle ein Heizelement enthält. Auch Mischzustände sind möglich, weshalb der Speicher mehrere Bits kodieren kann.

Die Widerstände der einzelnen Speicherzellen werden zum Rechnen genutzt: Digital-Analog-Wandler legen an die Zellen eine Spannung an, die Ausgaben mehrerer Zellen (hier 1024 oder 2048, entsprechend 512 Gewichten) werden in einem Kondensator summiert. Der wird wieder über einen Analog-Digital-Wandler ausgewertet. Gegenüber einem Digitalrechner hat ein Analogrechner allerdings einen Nachteil: Die Widerstände der Speicherzellen lassen sich nicht exakt einstellen, zudem unterscheiden sich die einzelnen Chips aufgrund von Variationen bei der Herstellung leicht. Das macht den Analog-Chip etwas fehleranfälliger als einen Digitalrechner.


Relevante Themen