Zum Hauptinhalt Zur Navigation

IBM Hermes: Analogchip greift nach der KI-Inferenz-Krone

Grafikkarten rechnen zwar schnell, aber ineffizient. Analogchips mit Phasenwechselspeicher sind sparsamer, IBM kommt einem echten Produkt näher.
/ Johannes Hiltscher
2 Kommentare News folgen (öffnet im neuen Fenster)
Eine gerenderte Version des Hermes-Chips (Bild: IBM)
Eine gerenderte Version des Hermes-Chips Bild: IBM

Moderne KI-Modelle wie ChatGPT haben Milliarden Parameter und laufen auf Tausenden Rechengrafikkarten(öffnet im neuen Fenster) (GPUs). Die benötigen jede Menge Energie, weshalb Forscher seit Längerem nach effizienteren Alternativen suchen. IBMs europäische Forschungsabteilung im schweizerischen Rüschlikon kommt der Alternative zur GPU einen Schritt näher: Im Fachmagazin Nature Electronics(öffnet im neuen Fenster) präsentieren die Forscher einen Chip namens Hermes ( Preprint bei Arxiv(öffnet im neuen Fenster) ).

Hermes basiert auf dem Konzept des rechnenden Speichers (Computational Memory). Bei den digitalen GPUs müssen die Gewichte der Eingänge jedes Neurons aus dem Speicher geladen werden, um dann mit den Aktivierungswerten multipliziert zu werden. Beim rechnenden Speicher hingegen erfolgt die Berechnung direkt im Speicher, ein Großteil der Kommunikation entfällt. Die braucht nicht nur viel Energie, sie kann die hochgezüchteten GPUs zudem stark ausbremsen. Da pro Wert nur wenige Berechnungen erfolgen, können große KI-Modelle die Rechenleistung der GPUs selten ausnutzen.

Ein Problem des rechnenden Speichers ist allerdings die Genauigkeit: Fertigungstoleranzen können zu fehlerhaften Berechnungen führen, während digitale Chips immer korrekt rechnen. Hermes soll hier mit 92,81 Prozent korrekten Zuordnungen im Datensatz Cifar-10 frühere Implementierungen übertreffen. Mit 4 Millionen Gewichtskoeffizienten soll der Chip zudem deutlich komplexere Modelle ohne Neuprogrammierung ermöglichen. Die Effizienz geben die Forscher mit bis zu 9,76 TOPS/W an, Nvidias H100 käme bei dünn besetzen Matrizen auf maximal 5,71 TOPS/W.

Gespeicherter Widerstand als Analogrechner

Der vielversprechendste Ansatz für rechnenden Speicher ist sogenannter Phasenwechselspeicher (Phase Change Memory, PCM). Er kann auf unterschiedliche Widerstandswerte programmiert werden, pro 8-Bit-Gewichtswert nutzt IBM vier Speicherzellen.

Die Berechnungen erfolgen analog, indem die Aktivierungswerte als pulsweitenmoduliertes Signal angelegt werden. Das Signal erzeugen Digital-Analog-Wandler. Jeweils 256 Eingänge führen auf eine gemeinsame Leseleitung, welche die Einzelspannungen summiert. Jede Leseleitung lädt einen Kondensator, dessen Spannung am Ende von einem Analog-Digital-Wandler ausgewertet und in einen Digitalwert gewandelt wird.

Neu ist die Idee nicht , auch IBM arbeitet bereits seit Jahren daran. Hermes ist somit auch nur der aktuelle Schritt einer längeren Entwicklung. Allerdings nimmt er nicht nur vier Milliarden Aktivierungswerte auf – IBMs Forscher wollen auch noch weitere Probleme gelöst haben. So mussten die Chips bislang für jede Anwendung neu kalibriert werden, dieser Schritt soll bei Hermes überflüssig sein.

Der Analogchip braucht digitale Unterstützung

Hermes besteht aus insgesamt 64 Blöcken, jeder 1,2 x 1,16 mm groß, die jeweils 256 Neuronen mit 256 Eingängen abbilden können. Über ein Netzwerk können die Blöcke verschaltet werden, um verschiedene Schichten eines neuronalen Netzes abzubilden. Hier kommunizieren sie digital. Braucht eine Schicht mehr als 256 Neurone oder nutzt sie mehr Eingänge, muss sie auf mehrere Blöcke aufgeteilt werden. Das kann dazu führen, dass Blöcke nicht voll ausgenutzt werden – in diesem Fall sinkt die Effizienz.

Ganz ohne digitale Berechnungen kommt aber auch Hermes nicht aus. Jeder Compute Core enthält neben zwei Recheneinheiten zur Skalierung der einzelnen Ergebnisse eine weitere zur Berechnung nicht linearer Aktivierungsfunktionen. Außerdem sind in der Mitte des 12 x 12 mm großen Chips acht sogenannte Global Digital Processing Units (GDPUs) integriert. Die sind erforderlich, um alle Operationen bereitzustellen, die zur Umsetzung von Residual Neural Networks(öffnet im neuen Fenster) und Long Short-Term Memory erforderlich sind.

Bei anderen Chips erfolgte das noch extern, was mehr Kommunikation mit einem externen Prozessor erfordert und den Datendurchsatz des KI-Chips verringert. Die Forscher sehen ihren Chip als wichtigen Schritt in der Entwicklung analoger KI-Beschleuniger und erwarten, dass diese in wenigen Jahren die Genauigkeit von Softwarelösungen erreichen(öffnet im neuen Fenster) – dann könnten sie auch in Rechenzentren Einzug halten.


Relevante Themen