Zum Hauptinhalt Zur Navigation

KI Inferencing: Mit Northpole will IBM den KI-Beschleuniger neu erfinden

Fünfmal so effizient wie Nvidias H100: IBMs Northpole ist speziell für KI -Berechnungen entwickelt – inspiriert vom Gehirn.
/ Johannes Hiltscher
1 Kommentare News folgen (öffnet im neuen Fenster)
Diese PCIe-Karte mit Northpole-Chip sieht schon ziemlich serienreif aus. Die Anbindung übernimmt ein FPGA. (Bild: IBM Research)
Diese PCIe-Karte mit Northpole-Chip sieht schon ziemlich serienreif aus. Die Anbindung übernimmt ein FPGA. Bild: IBM Research

Wenn die künstliche Intelligenz vom Gehirn inspiriert ist, sollte es auch die Hardware sein, auf der sie läuft: Nach diesem Motto hat ein Forschungsteam von IBM den KI-Beschleuniger Northpole entworfen. Vorgestellt hat Dharmendra Modha, IBMs leitender Wissenschaftler für hirninspirierte Computer, den Chip bereits bei der Hot Chips 2023. Details zur Architektur blieben allerdings offen, die liefert nun eine Veröffentlichung im Magazin Science(öffnet im neuen Fenster) .

Entwickelt wurde Northpole anhand von zehn Axiomen, deren Ziel: die Unzulänglichkeiten anderer Architekturen wie GPUs und CPUs zu vermeiden. Die würden durch zu Beginn des Computerzeitalters getroffene Entscheidungen noch heute eingeschränkt. Konkret sei die Trennung zwischen Speicher und Recheneinheiten (von-Neumann-Architektur) für KI-Anwendungen überholt. Bei Northpole ist daher fast der gesamte Speicher – 224 MByte pro Chip – auf die 256 Rechenkerne verteilt. Für größere Netze lassen sich mehrere der über PCIe angebundenen Chips kombinieren.

Dabei gibt es einen großen gemeinsamen Speicher für Gewichte, Aktivierungswerte und Programmspeicher, die zwei Recheneinheiten verfügen jeweils noch über eigene Speicher. Die Gewichte und Programme zur Berechnung eines konkreten Netzes werden zu Beginn in die Speicher der einzelnen Recheneinheiten geladen. Danach werden nur noch die zu verarbeitenden Daten über einen 32 MByte großen Frame Buffer in den Chip gestreamed. Für einen Host sieht Northpole damit aus wie rechnender Speicher (Computational Memory) – an dem IBM ebenfalls arbeitet -, die Verarbeitung erfolgt aber durch klassische Recheneinheiten.

Die Hardware kann nur Inferencing

Die sind allerdings genau auf die Bedürfnisse des KI-Inferencings zugeschnitten: Sie unterstützen lediglich 8-, 4- und 2-Bit-Datentypen – laut Modha ist das vollkommen ausreichend. Die Verarbeitung erfolgt durch eine Vektor- und eine Matrixeinheit, die pro Takt 2.048 8-Bit-Berechnungen ausführt – mit 4 oder 2 Bit sind es doppelt oder viermal so viele. Die Kerne sind modular, auf dem aktuellen Chip sind sie in einem 16x16-Gitter angeordnet, auch ein Aufbau mit Chiplets ist möglich.

Die Programme kennen keine datenabhängigen Sprünge, ihr gesamter Ablauf wird von der zugehörigen Entwicklungssoftware durchgeplant. Um Wartezeiten zu überbrücken, unterstützt jeder Kern acht Threads. Denn auch wenn die Gewichtsdaten vollständig im Chip liegen, müssen sie gelegentlich von einem der anderen Kerne geholt werden. So werden replizierte Daten vermieden, was die Speichernutzung effizienter machen soll. Eine ähnliche Aufgabe erfüllt der Framebuffer: Während ein Datensatz verarbeitet wird – getestet wurde Northpole sowohl mit Algorithmen zur Bilderkennung als auch Sprachmodellen -, wird bereits der nächste geladen.

Massive Bandbreite

Die Kommunikation erfolgt bei Northpole nicht über ein Network on Chip (NoC), sondern über vier. Die haben jeweils eigene Aufgaben, ihre Breite ist daran angepasst. Zwischen benachbarten Rechenkernen können Zwischenwerte über das 512 Bit breite Teilsummen-NoC ausgetauscht werden. Die Forscher vergleichen es mit der grauen Substanz(öffnet im neuen Fenster) des Gehirns. Über das 1.024 Bit breite Modell-NoC können Gewichtskoeffizienten zwischen den Kernen ausgetauscht werden, als Analogie dient hier die weiße Substanz(öffnet im neuen Fenster) , die im Gehirn Neuronen über weite Distanzen verbindet.

Aktivierungswerte und Programme werden über je ein eigenes NoC mit 256 Bit Breite übertragen. Der Vorteil der speziellen Architektur: Sie soll nicht nur effizient sein, sondern auch noch eine sehr geringe Latenz haben. Die Veröffentlichung zeigt Daten für Resnet50, laut denen Northpole nicht nur die im KI-Bereich weit verbreiteten GPUs, sondern auch eine Reihe anderer KI-Beschleuniger deutlich schlägt.

Entwicklungsleiter Modha sieht Nothpole als die perfekte Mischung aus Hirnähnlichkeit und den Möglichkeiten der Halbleitertechnik. Der Chip bietet digitale Genauigkeit und lässt sich mit lange etablierten Techniken herstellen. Gefertigt wird der Chip mit 22 Milliarden Transistoren(öffnet im neuen Fenster) aktuell in einem 12-nm-Prozess. Die Foundry gibt IBM nicht an, es dürfte aber Globalfoundries sein, da betont wird, der Chip entstehe in den USA. Nicht nur bei der Rechenleistung, auch bei der Größe nimmt er es mit anderen KI-Beschleunigern auf: Das Die misst 25 x 31,8 mm (795 mm 2 ).

Ganz so exotisch, wie Nortpole wirken mag, ist der Chip aber nicht: Teslas Dojo und Cerebras' Wafer Scale Engine sind ähnlich aufgebaut.


Relevante Themen