Zum Hauptinhalt Zur Navigation

Occamy: Europäischer Open-Source-Beschleuniger mit 432 Kernen läuft

Selbst entwickelte Chiplets mit RISC-V-Kernen , eigener Interposer und HBM-Speicher: Europäische Forscher zeigen ihren bislang leistungsfähigsten Chip.
/ Johannes Hiltscher
6 Kommentare News folgen (öffnet im neuen Fenster)
Strukturen auf einem von Globalfoundries gefertigten Wafer - hier entsteht auch Occamy. (Bild: Globalfoundries)
Strukturen auf einem von Globalfoundries gefertigten Wafer - hier entsteht auch Occamy. Bild: Globalfoundries

Occamy, so heißt ein Fabelwesen aus dem Harry-Potter-Universum(öffnet im neuen Fenster) - und ein Beschleuniger, den Forscher der ETH Zürich und der Universität Bologna im Rahmen der European Processor Initiative entwickelt haben. Bereits im Juli 2022 erfolgte der Tape-out, die Fertigung der selbst entwickelten Chiplets, der ebenfalls selbst entwickelte Interposer verließ die Produktion des Partners Globalfoundries im Oktober 2022. Auf der Konferenz Design, Automation and Test in Europe (DATE) präsentierten die Forscher in zwei Vorträgen Details ( hier abrufbar(öffnet im neuen Fenster) , via HPCwire(öffnet im neuen Fenster) ).

Occamy basiert auf der seit zehn Jahren entwickelten Plattform Pulp(öffnet im neuen Fenster) (Parallel Ultra-Low Power), dank der die Entwicklung der Chiplets nur 15 Monate dauerte. Neben 216 RISC-V-Kernen und einem Management-Kern integriert jedes Chiplet einen HBM2e-Controller, den Partner Rambus spendete. Gefertigt wurden sowohl die Chiplets als auch der Interposer, auf dem diese zusammen mit zwei 16-GByte-HBM-Modulen (High Bandwidth Memory) montiert werden, von Globalfoundries. Während die Prozessor-Chiplets mit Globalfoundries modernstem Fertigungsprozess 12LP+ entstehen wird der Interposer mit einem älteren 65-nm-Prozess gefertigt.

Interessant ist - neben den vielen Kernen - ihre Architektur: Die RISC-V-Kerne verarbeiten lediglich 32-Bit-Datentypen, die angeschlossene Gleitkommaeinheit (Floating Point Unit, FPU) arbeitet mit doppelter Genauigkeit (64 Bit). Sie ist der eigentliche Fokus des Prozessors - und verantwortlich für fast die Hälfte der Leistungsaufnahme.

Ein Number-Cruncher

Die RISC-V-Kerne sind bewusst kompakt gehalten, sie dienen hauptsächlich dazu, die FPU zu steuern. Um den Aufwand hierfür so gering wie möglich zu halten, ist ein sogenannter Repetition-Buffer integriert, der unabhängig Schleifen abarbeiten kann. Außerdem kann die FPU Daten direkt aus dem Speicher streamen, sie müssen dann nicht erst in Register geladen werden. Beides ist etwa für die Verarbeitung großer Matrizen, etwa bei KI-Anwendungen, interessant.

Im Chip bilden jeweils acht Prozessorkerne ein Modul, das an einem globalen Verbindungsnetzwerk hängt. Die Leistung des Chips ist mit 768 GFlops bei doppelter Genauigkeit (FP64) und rund 6 TFlops bei FP8 nicht spektakulär - zum Vergleich: Nvidias A100 schafft bei FP64, mit Tensor Cores, 19,7 TFlops (g+) . Allerdings taktet Occamy lediglich mit 1 GHz, jedes der rund 10,5 x 7 mm großen Chiplets benötigt 10 Watt Leistung(öffnet im neuen Fenster) , der Chip soll passiv kühlbar sein.

Das komplette Pulp-Ökosystem steht unter Open-Source-Lizenz ( Solderpad(öffnet im neuen Fenster) ) und kann auf FPGAs ausprobiert werden - auch Occamy wurde mit einem FPGA-System entwickelt. Außerdem bietet der französische Hersteller Greenwaves zwei auf Pulp aufbauende KI-Prozessoren(öffnet im neuen Fenster) an.


Relevante Themen