Zum Hauptinhalt Zur Navigation

Ubitium UB410: Hochparalleler Prozessor aus Deutschland geht in Produktion

Das deutsche Start-up Ubitium hat eine interessante Prozessor -Architektur entwickelt. Sie soll die Vorteile von CPUs, GPUs und NPUs kombinieren.
/ Johannes Hiltscher
3 Kommentare News folgen (öffnet im neuen Fenster)
GPUs sind bislang eine der wenigen erfolgreichen hochparallelen Architekturen - hier ein Vega10-Die. (Bild: Fritzchens Fritz, Flickr)
GPUs sind bislang eine der wenigen erfolgreichen hochparallelen Architekturen - hier ein Vega10-Die. Bild: Fritzchens Fritz, Flickr / CC0 1.0
Inhalt
  1. Ubitium UB410: Hochparalleler Prozessor aus Deutschland geht in Produktion
  2. Der lang gesuchte Schlüssel zum Erfolg?

Tausende einfache Prozessorkerne in einem Prozessor, die alles besser können sollen als existierende Architekturen – reflexhaft kommt der Gedanke auf: Haben wir schon oft gesehen, hat bis jetzt nie funktioniert. Doch der Ansatz des Start-ups Ubitium aus Düsseldorf verdient einen genaueren Blick. Die Design-Daten seines ersten Chips hat das im Juni 2024 gegründete Unternehmen bereits im Dezember 2025 im Rahmen des sogenannten Tape-out an Samsung übergeben, wie Ubitium nun mitteilte(öffnet im neuen Fenster) .

Im Kern besteht die Architektur, die Mitgründer und CEO Hyun Shin Cho im Interview mit Embedded.com(öffnet im neuen Fenster) beschreibt, aus einfachen 32-Bit-RISC-V-Kernen. Die verfügen über eine ALU (Arithmetic Logic Unit) sowie SRAM als Tightly Coupled Memory und beherrschen Gleitkommaarithmetik.

Jeweils 256 RISC-V-Kerne bilden als 16-x-16-Gitter ein sogenanntes Universal Processing Array (UPA), vier davon einen Kern. Der erste, als UB410 bezeichnete Chip, der in Samsungs 8-nm-Prozess gefertigt wird, enthält vier dieser Kerne und damit 4.096 RISC-V-Kerne.

Grundlegend handelt es sich um eine Datenflussarchitektur – die RISC-V-Kerne in einem UPA können untereinander über ein NoC (Network-on-Chip) kommunizieren. Durch Rekonfiguration kann das UPA zwischen drei Modi umschalten: Es kann als ein Out-of-Order-Kern (kurz OoO, Hintergrund, g+ ) auftreten, als von GPUs bekannte (g+) SIMT-Einheit (Single Instruction, Multiple Threads) oder Schleifen und SIMD-Anweisungen (Single Instruction, Multiple Data) abbilden.

Die Verteilung der Anweisungen macht den Unterschied

Erreicht wird die Flexibilität durch die Zuordnung von Anweisungen an die einzelnen RISC-V-Kerne. Im SIMT-Modus etwa bearbeitet eine Gruppe von 32 Kernen das gleiche Programm.

Im Schleifenmodus werden die einzelnen Befehle einer Schleife an je einen Kern oder eine Gruppe verteilt. Bearbeitet eine Gruppe einen Befehl, können mehrere Daten parallel verarbeitet werden – das SIMD-Konzept. Indem die Schleife auf mehrere Kerne verteilt wird, lässt sich Pipelining realisieren – jeder Befehl arbeitet mit dem Ergebnis des vorherigen. Da die Kerne direkt kommunizieren können, ist kein Umweg über den Cache erforderlich.

Der eigentliche Clou ist hingegen der OoO-Modus. Er geht eine Schwachstelle hochparalleler Prozessoren an: Vielen Programmen fehlt es an der erforderlichen Parallelität, was zu Ineffizienz führt. Ubitium löst dies, indem ebenfalls wieder eine Sequenz von Befehlen auf mehrere RISC-V-Kerne verteilt wird. Die warten nun, bis die benötigten Eingabedaten bereitgestellt werden. Exakt das Gleiche erledigen die Reservation Stations beim klassischen Tomasulo-Algorithmus.

Genau dies könnte der entscheidende Faktor sein, der bisherigen hochparallelen Architekturen zum Erfolg fehlte.


Relevante Themen