Phasenwechselspeicher: Analoger KI-Chip transkribiert effizienter und schneller
KI-Berechnungen verschieben kontinuierlich Daten zwischen Prozessor und Speicher. Der Grund: Selbst kleine Modelle haben Millionen Gewichtskoeffizienten, welche die Verbindungsstärke zwischen den Neuronen beschreiben. Das sprengt jeden Cache, warum also nicht den Speicher rechnen lassen? Diesen Ansatz verfolgen bei IBM(öffnet im neuen Fenster) mehrere Forschungsgruppen, eine davon veröffentlichte im Magazin Nature(öffnet im neuen Fenster) zu einem KI-Beschleuniger, der ein Modell mit 45 Millionen Gewichtsparametern verarbeitete.
Der Beschleunigerchip basiert, wie der kürzlich gezeigte Chip einer anderen Gruppe, auf Phasenwechselspeicher (Phase Change Memory, PCM). Allerdings verfolgten beide Gruppen unterschiedliche Ziele. Der jetzt in Nature beschriebene Chip enthält ausschließlich PCM-Speicher und ein leistungsfähiges Verbindungsnetzwerk. So passen in einen der Chips bis zu 17,8 Millionen Gewichte, verteilt auf 34 einzelne Blöcke (Tiles).
Jeder Block enthält ein MBit an PCM-Speicher, pro Gewichtskoeffizienz werden zwei oder vier Bits verwendet – letzteres erhöht die Genauigkeit. Mehrere Blöcke teilen sich Ein- und Ausgabe (input und output landing pad, ILP und OLP). Hier findet sich jeweils SRAM-Speicher und Digital-Analog- oder Analog-Digital-Umsetzer. Über ILPs und OLPs kommuniziert der Chip mit der Außenwelt, das kann ein normaler Prozessor sein – oder ein weiterer KI-Chip. Als Datenformat werden vorzeichenlose 8-Bit-Ganzzahlen verwendet (Uint8).
Große Modelle brauchen viele Chips
Um größere Netze abzubilden, lassen sich mehrere der Beschleunigerchips verbinden. Das nutzten die Forscher, um ein Modell aus dem Benchmark Mlperf zur Transkription abzubilden. Ein Chip schafft lediglich ein kleineres Modell, das zwölf Stichwörter erkennen kann. Trainiert wurden beide Modelle klassisch mit GPUs, für das komplexe Modell verwendeten sie den Datensatz Librispeech.
Das Inferencing läuft dann auf fünf der Beschleunigerchips und soll fast die Genauigkeit einer Softwarelösung erreichen. Abhängig von der Fehleranfälligkeit wurde entschieden, ob zwei oder vier Bit pro Gewicht verwendet werden. Ein wenig Hilfe braucht der Chip allerdings noch von einem Digitalcomputer. Die abschließende Netzwerkschicht implementierten die Forscher mit 32-Bit-Gewichten, was die Fehlerrate deutlich reduziert.
Die genaue Verarbeitungszeit für einen Testdatensatz sowie die erreichbare Effizienz schätzten die Forscher daher ab. Als Basis dafür gingen sie von einem 14-nm-Prozess aus, in dem auch der Speicher gefertigt wurde. Fazit der Forscher: Ihr Beschleuniger würde 12,8 TOPS/W schaffen und wäre schneller fertig als das beste bei Mlperf gelistete System.
Einstellbarer Speicher als Analogrechner
PCM-Speicher nutzt Material, das einen amorphen und einen kristallinen Zustand besitzt, deren elektrische Widerstände sich unterscheiden. Umschalten lassen sich die Zustände durch gezieltes Erhitzen und Abkühlen, weshalb jede Speicherzelle ein Heizelement enthält. Auch Mischzustände sind möglich, weshalb der Speicher mehrere Bits kodieren kann.
Die Widerstände der einzelnen Speicherzellen werden zum Rechnen genutzt: Digital-Analog-Wandler legen an die Zellen eine Spannung an, die Ausgaben mehrerer Zellen (hier 1024 oder 2048, entsprechend 512 Gewichten) werden in einem Kondensator summiert. Der wird wieder über einen Analog-Digital-Wandler ausgewertet. Gegenüber einem Digitalrechner hat ein Analogrechner allerdings einen Nachteil: Die Widerstände der Speicherzellen lassen sich nicht exakt einstellen, zudem unterscheiden sich die einzelnen Chips aufgrund von Variationen bei der Herstellung leicht. Das macht den Analog-Chip etwas fehleranfälliger als einen Digitalrechner.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



