IBM & KI: Mit 23 Milliarden Transistoren gegen Hopper
IBM will einen eigenen KI-Beschleuniger auf den Markt bringen. Er soll komplexere Modelle für Unternehmen und Wissenschaft ermöglichen.
Die Komplexität neuronaler Netze steigt schneller als die Rechenleistung der Chips, die sie berechnen. Mit einem speziellen KI-Prozessor will IBM die notwendige Leistung bereitstellen.
Der schlicht Artificial Intelligence Unit (AIU) getaufte Chip läuft bereits im AI Hardware Center von IBM Research, das ausschließlich KI-Prozessoren entwickelt. Das ambitionierte Ziel ist, die Berechnungsleistung bis 2029 verglichen mit 2019 um das Tausendfache zu steigern.
Erreicht werden soll dieses Ziel mit speziell an die Bedürfnisse von KI-Anwendungen angepasster Hardware. Bereits 2018 stellte IBM unter dem Namen Approximate Computing eine Prozessorarchitektur vor, die sich besonders gut für die Berechnung neuronaler Netze eignen soll.
Für KI optimiertes Rechenwerk
Dabei sind Berechnungen mit riesigen Matrizen erforderlich und genau hierauf sind KI-Beschleuniger ausgelegt. Zudem wird nicht mit klassischen Gleitkommazahlen, also 32 oder 64 Bit, gerechnet. Möglich ist das, weil bei KI-Anwendungen Rundungsfehler weniger ins Gewicht fallen als bei wissenschaftlichen Berechnungen; zudem kann ihr Einfluss durch geschickte Algorithmen verringert werden.
Der Test-Chip von IBM berechnet den Großteil der Operationen mit 16 Bit (FP16). Für Operationen wie etwa die Akkumulation der Einzelergebnisse einer Matrixmultiplikation, die größere Genauigkeit erfordern, gibt es einige 32-Bit-Recheneinheiten.
Alles ist zu einem 2D-Torus verschaltet, so dass Ergebnisse direkt zwischen den einzelnen Recheneinheiten weitergereicht werden können – ohne Umweg über Register oder andere Speicher. Hieraus hat IBM einen KI-Beschleuniger entwickelt, der in den Telum-Chip des z16 Mainframe integriert ist.
Weiterentwicklung bestehender Hardware
Die AIU wiederum basiert auf Telums KI-Beschleuniger. Insgesamt 34 der Recheneinheiten sitzen im AIU-Chip, der mit 23 Milliarden Transistoren sogar etwas komplexer ist als Telum. IBM schreibt allerdings stets von 32 KI-Einheiten im AIU, vermutlich sind zwei Reserve, um auch Chips mit defekten Einheiten verwenden zu können und so die Ausbeute zu verbessern. Gefertigt wird der AIU-Chip in einem moderneren 5-nm-Prozess, Telum entsteht in Samsungs älterer 7HPP-Fertigung.
Ob auch die AIUs bei Samsung gefertigt werden, ist aktuell noch nicht zu erfahren, auch Details zur Größe des Chips, Takt, Speicherausstattung, Leistungsaufnahme und Rechenleistung sind noch offen. Allerdings scheint die AIU dem von IBM gezeigten Floorplan nach zu urteilen einfach 34-mal Telums KI-Beschleuniger zu enthalten.
Damit lässt sich, sofern keine großen Veränderungen vorgenommen wurden, auf die Rechenleistung schließen: Sie läge mit 200 TFlops bei FP16 deutlich hinter den 1.000 TFlops, die Nvidias GH100 beim gleichen Format schaffen soll.
Im Gegensatz zu Nvidias GH100 verfügt die AIU auch nicht über besonders schnell angebundenen HBM-Speicher, auf einem von IBM veröffentlichten Bild sind normale Speicherchips zu sehen. Die könnten allerdings über 16 Speichercontroller angebunden sein.
Ob IBM mit seinem Beschleuniger gegen Nvidias Konkurrenz eine Chance hat, muss sich erst noch anhand von Benchmarks zeigen. Es ist zumindest denkbar, dass die besondere Architektur Vorteile bringt. Da die AIU deutlich einfacher und damit günstiger herzustellen ist, könnte auch der Preis ein Argument sein – der ist aber auch noch nicht bekannt. Zumindest will IBM "bald" mehr mitteilen.