Zum Hauptinhalt Zur Navigation

Telum II & Spyre: IBMs neuer Prozessor und KI-Beschleuniger für Mainframes

Hot Chips
Prozessoren für Mainframes müssen besonders robust sein, KI gewinnt auch hier an Bedeutung. IBM zeigt hierfür neue Hardware.
/ Johannes Hiltscher
3 Kommentare News folgen (öffnet im neuen Fenster)
Ein Telum-II-Package mit zwei Dies und die Spyre-Karte (Bild: IBM)
Ein Telum-II-Package mit zwei Dies und die Spyre-Karte Bild: IBM

Mainframes mögen vielen als Relikt der 1970er erscheinen, als Großrechner noch ganze Räume füllten. Heute sind auch sie auf die Größe eines Schranks geschrumpft und bleiben insbesondere im Finanzsektor das Rückgrat der digitalen Infrastruktur. IBM ist hier noch immer führend, nach eigenen Angaben laufen 70 Prozent der Finanztransaktionen über IBM-Mainframes. Damit das so bleibt, hat das Unternehmen auf der aktuell stattfindenden Konferenz Hot Chips(öffnet im neuen Fenster) mit Telum II und Spyre einen neuen Prozessor sowie einen KI-Beschleuniger vorgestellt.

Verglichen mit anderen Computern sind die Anforderungen an Mainframes extrem hoch: Sie dürfen quasi nie ausfallen und müssen eine konstante Leistung erbringen. Daraus resultieren ganz spezielle Prozessor-Designs: Telum II kommt trotz einer Fläche von 600 mm 2 auf nur acht Kerne.

Den Großteil der Fläche nehmen die zehn jeweils 36 MByte großen L2-Cache-Blöcke ein – 40 Prozent mehr als beim Vorgänger . L3- und L4-Cache sind weiterhin virtualisiert: Die L2-Caches sind jeweils einzelnen Kernen zugeordnet, können aber von anderen Kernen als L3-Cache genutzt werden.

Die Prozessorkerne hat IBM gegenüber dem Vorgänger leicht überholt, die Sprungvorhersage (g+) , das Schreiben in den Speicher sowie die Adressübersetzung wurden verbessert. Auch steigt die Anzahl der Register für die Registerumbenennung im Rahmen der Out-of-Order-Ausführung (g+) um ein Viertel auf nun 160.

Verbesserte Kerne, neue Fertigung

Die Kerne sind zudem laut IBM 20 Prozent kleiner und benötigen 15 Prozent weniger Leistung, was aber einfach am Umstieg von Samsungs 7-nm- auf 5-nm-Fertigung (5HPP) liegen dürfte. Sie takten mit 5,5 statt 5,2 GHz etwas höher, der Takt wird nicht angepasst. So ist die Leistung des Prozessors jederzeit vorhersagbar, wenn eine Lastspitze auftritt, muss nicht zunächst der Takt eines Kerns erhöht werden. Um dennoch energieeffizient zu sein, wird stattdessen die Spannung abhängig von der Prozessorlast angepasst.

Weiterhin sitzen zwei Dies auf einem gemeinsamen Package, vier davon passen in einen Einschub. Alle Kerne können den Cache im Einschub als L4 nutzen. Bis zu vier Einschübe lassen sich zu einem kohärenten System mit dann 32 Prozessor-Dies verbinden, die Verbindungen zwischen den einzelnen Einschüben sind verschlüsselt.

Die großen Änderungen finden sich an anderer Stelle.

Neue DPU und mehr KI-Leistung

Die wohl größte Neuerung ist die integrierte Data Processing Unit (DPU): Sie ist frei programmierbar, um auch nutzerspezifische Netzwerkprotokolle verarbeiten zu können. Damit soll sie die Rechenkerne entlasten, die Einbindung in die Kohärenzstruktur des Prozessors für geringere Latenz sorgen. Die DPU besteht aus 32 speziellen Mikrocontroller-Kernen in vier Clustern und verfügt über ihren eigenen L2-Cache. Der zehnte L2-Block ist nicht fest zugeordnet.

Bereits beim Vorgänger Telum hatte IBM einen KI-Beschleuniger integriert. Denn auch die Finanzbranche setzt mehr und mehr auf künstliche Intelligenz, etwa zur Erkennung von Betrug. Mit 24 TOPS, mutmaßlich mit 8-Bit-Datentypen, hat IBM die Leistung des Beschleunigers vervierfacht.

Spyre für noch mehr KI-Leistung

Falls der integrierte KI-Beschleuniger der CPUs nicht ausreicht, lässt die sich mit Spyre aufstocken. Der Chip nutzt die auch in Telum II verbauten Recheneinheiten, kommt aber auf 32 Kerne. Physisch sind 34 vorhanden, mutmaßlich zur Verbesserung der Ausbeute (Yield) sind aber stets zwei inaktiv. Spyre beerbt damit die fast identische, 2022 vorgestellte Artificial Intelligence Unit , ist mit 26 statt 23 Milliarden Transistoren aber etwas komplexer. Spyre wird, wie die AIU, in Samsungs 5LPE-Prozess gefertigt.

Interessant ist der interne Aufbau des Chips: Die Rechenkerne sind über einen gemeinsamen Ring-Bus verbunden, ihre jeweils 2 MByte großen Scratchpad-Speicher in zwei Blöcke aufgeteilt. Die hängen wiederum an einem eigenen Ring-Bus, über den auch der Zugriff auf den 128 GByte großen LPDDR5-Speicher erfolgt. Während die Rechenkerne sich mit einer bidirektionalen, 32 Byte breiten Anbindung begnügen müssen, ist der Speicher-Bus mit 128 Byte auf deutlich höheren Durchsatz ausgelegt.

Anbieten wird IBM Spyre als PCIe-5.0-x16-Karte, bei einer Leistungsaufnahme von 75 W kommt die auf über 300 TOPS, mutmaßlich bei 8-Bit Ganzzahlen (Int8). Daneben unterstützen IBMs KI-Beschleuniger auch 8- und 16-Bit Gleitkommazahlen (FP8, FP16) und Int4. Davon lassen sich bis zu 192 bei einem voll ausgebauten System anbinden. Jeweils acht sitzen als logisches Cluster in einem Einschub.

Telum II und Spyre will IBM 2025 als Aktualisierung des z16 auf den Markt bringen.


Relevante Themen