Suche

Centaur CHA im Test: Der letzte x86-Prozessor seiner Art

Weil Centaur von Intel übernommen wurde, ist der CHA-Chip nie erschienen. Ein achtkerniger Prototyp gewährt dennoch spannende Einblicke.

Ein Test von veröffentlicht am
Der Centaur CHA und ein Zentaur (Bild: Martin Wolf/Golem.de)

Manchmal steht nach einigen Dekaden am Ende nur eine Pflichtmitteilung an der Börse: "Intel zahlt 125 Millionen US-Dollar an Centaur", hieß es beim Taiwan Stock Exchange im November 2021. Damit war Centaur Technology ebenso Geschichte wie das Wesen der griechischen Mythologie. Und wie dieses eine Mischung aus Mensch und Pferd darstellt, war auch der letzte Prozessor von Centaur eine Kombination aus zwei Ansätzen.

Anzeige

Wer an die x86-Befehlssatzarchitektur denkt, hat heutzutage primär Intel und AMD im Kopf. Tatsächlich aber gab es einst viele Anbieter und Lizenznehmer, etwa Cyrix oder Transmeta - die es alle längst nicht mehr gibt. Einzig Via Technologies aus Taiwan mit dem 1999 übernommenem Centaur Technology als CPU-Team blieb als dritter Markteilnehmer erhalten, bis Intel vor einigen Monaten zugriff.

Für den von Centaur entworfenen und 2019 angekündigten CHA-Prozessor bedeutete dies, dass er nach mehreren Jahren Entwicklungszeit kurz vor der Finalisierung eingestampft wurde. Statt aber rein aus CPU-Kernen zu bestehen, hatte Centaur mit dem Ncore einen für künstliche Intelligenz gedachten Beschleuniger in den Chip integriert.

Kleiner und sparsamer als die Mitbewerber

Bisherige Designs des 1995 unter anderem von dem IBM-Fellow Glenn Henry gegründeten Teams unterscheiden sich deutlich von denen anderer x86-Anbieter: "Die Prozessoren sind zwar ISA-kompatibel, ihre Architektur ermöglicht aber signifikant kleinere und signifikant sparsamere Chips als die von AMD oder Intel", sagte Henry bei der Beschreibung der 2008 vorgestellten Isiah-Architektur (PDF). Frühere Modelle, etwa der Nano oder der Eden C4650 mit Isiah-2-Architektur, benötigen zumeist weniger als 30 Watt.

Anzeige

Der Centaur CHA mit Quadchannel-Interface (Bild: Marc Sauter/Golem.de) [1/6]

Die-Shot, Latenzen und Bandbreite des Prozessors (Bild: Marc Sauter/Golem.de) [2/6]

Neben zwei PEG- gibt es auch zwei M.2-Steckplätze. (Bild: Marc Sauter/Golem.de) [3/6]

Die Platine nutzt den Sockel LGA 2011-3, daher auch der Intel-Kühler. (Bild: Marc Sauter/Golem.de) [4/6]

Die Sata-Buchsen und die USB-Ports ... (Bild: Marc Sauter/Golem.de) [5/6]

... werden durch Zhaoxins ZX-200 gestellt. (Bild: Marc Sauter/Golem.de) [6/6]

Die Arbeiten an Isaiah (CNQ) und Isaiah 2 (CNR) samt Fertigungsprozessen von 65 nm bis zu 28 nm führten Centaur zu einer neuen Microarchitektur, der CNS. Sie bildete die Basis für acht Kerne ohne SMT: Neben 32 KByte an L1-Caches gibt es 256 KByte L2 pro Core und 16 MByte L3 für alle; ein μOp-Cache fehlt. Im Frontend werden vier statt drei Befehle pro Takt decodiert und das Backend wird über zehn statt sieben Ports angesteuert. Centaur spricht daher völlig zu Recht grob von Haswell-Niveau (Core i7-4770K).

CNS unterstützt AVX-512 und AVX-32.768

Die Anzahl und Fähigkeiten der Ausführungseinheiten gehen jedoch teils weit darüber hinaus: Die CNS-Architektur beherrscht die AVX-512-Befehlsatzerweiterung, die Intel derzeit einzig bei den Xeon-CPUs für Server unterstützt und die von AMD erst kürzlich mit den Ryzen 7000 eingeführt wurde. Centaur nutzt zwei Taktzyklen, wie AMDs Raphael auch - Intels Prozessoren hingegen schaffen AVX-512 in einem Rutsch. Ein Xeon Platinum 8380 mit 280 Watt muss dafür aber auch von 2,3 auf 1,8 GHz heruntertakten.

Der Centaur CHA mit Quadchannel-Interface (Bild: Marc Sauter/Golem.de) [1/6]

Die-Shot, Latenzen und Bandbreite des Prozessors (Bild: Marc Sauter/Golem.de) [2/6]

Neben zwei PEG- gibt es auch zwei M.2-Steckplätze. (Bild: Marc Sauter/Golem.de) [3/6]

Die Platine nutzt den Sockel LGA 2011-3, daher auch der Intel-Kühler. (Bild: Marc Sauter/Golem.de) [4/6]

Die Sata-Buchsen und die USB-Ports ... (Bild: Marc Sauter/Golem.de) [5/6]

... werden durch Zhaoxins ZX-200 gestellt. (Bild: Marc Sauter/Golem.de) [6/6]

Hinter Centaurs Ncore alias CT-AIC steckt ein Beschleuniger, der mit 20 TByte/s auf 16 MByte an SRAM-Puffer zugreifen und 4.096 Berechnungen in einem Zyklus erledigen kann, was in einer sehr kurzen Latenz für Inferencing resultiert - wichtig etwa für Sprache. Weil das Design für INT8 ausgelegt ist, spricht Centaur-Gründer Henry scherzhaft von AVX-32.768 für 6,83 Teraflops (BF16) oder 20,48 Teraops (INT8). Der Ncore ist mit den CPU-Kernen via 512-Bit-Ringbus verbunden, er soll auf 320 GByte/s kommen.

Schauen wir uns an, was sich sonst noch im Chip befindet und wie er gefertigt wird. Beides ist wichtig, um zu verstehen, warum Centaur bei den meisten Entwicklerplatinen auf ein Sockel-Design und einen Kühler von Intel setzt.

  1. Ein kompakter Prozessor auf einem riesigen Package
  1. 1
  2. 2
  3. 3
  4. 4