RISC-V: Freier Befehlssatz als Basis für GPU

Mit dem freien RISC-V-Befehlssatz baut ein Unternehmen 2D- und 3D-Grafikhardware. Die ist leider nicht frei und für sparsame Chips gedacht.

Artikel veröffentlicht am , Johannes Hiltscher
Aufbau des Neox 3D-Beschleunigers: Bis zu 16 Cluster (links) sind möglich, jedes enthält vier RISC-V-Kerne als Shader (rechts).
Aufbau des Neox 3D-Beschleunigers: Bis zu 16 Cluster (links) sind möglich, jedes enthält vier RISC-V-Kerne als Shader (rechts). (Bild: Think Silicon)

Seit 2009 entwickelt Think Silicon in Griechenland Grafikhardware. Auf der Embedded World 2022 in Nürnberg stellt das Unternehmen seine Produkte vor. Während die Nema-GPUs für 2D-Beschleunigung auf einem eigenen Befehlssatz aufbauen, nutzt der 3D-Beschleuniger Neox RV64GC-Kerne. Die RISC-V-Kerne sind die Basis der programmierbaren Shader, was eine einfache Anpassung an verschiedene Aufgaben ermöglicht.

Stellenmarkt
  1. Mitarbeiter (m/w/d) Helpdesk/IT-Support
    DQS GmbH Deutsche Gesellschaft zur Zertifizierung von Managementsystemen, Frankfurt am Main,Frankfurt (Oder)
  2. Digitalisierungskoordinator*- in (m/w/d)
    Bundesamt für Auswärtige Angelegenheiten, Bonn
Detailsuche

Laut Think Silicon läuft auf den Shadern ein Echtzeitbetriebssystem (Real-Time Operating System, RTOS). Es verteilt die Rechenaufgaben auf mehrere parallel arbeitende Threads. Die sollen dafür sorgen, dass die Recheneinheiten - je eine Integer-, Gleitkomma- und Vektoreinheit - stets ausgelastet sind. Zudem können Kunden eigene Befehle hinzufügen.

Neben der G-Variante (GPU) wird eine A-Variante als AI-Beschleuniger angeboten, beide bekommen Kunden als sogenannten IP-Core (für Intellectual Property). Den können Kunden in ihre SoC-Designs einbauen und in einem Prozess ihrer Wahl fertigen lassen.

Zudem können Neox und Nema konfiguriert werden, für den 3D-Beschleuniger bietet Think Silicon 4 bis 64 Shader-Kerne an. Diese sind jeweils zu viert in einem Cluster organisiert, die Cluster wiederum sind in einem 2D-Gitternetzwerk angeordnet. Das Netzwerk bindet sie mittels Axi an den Rest des SoC an.

Golem Karrierewelt
  1. C++ Programmierung Basics: virtueller Fünf-Tage-Workshop
    05.-09.09.2022, virtuell
  2. Airtable Grundlagen: virtueller Ein-Tages-Workshop
    31.08.2022, Virtuell
Weitere IT-Trainings

Jeder Shader soll bei einem Takt von 800 MHz 3,2 GFLOPS FP32-Rechenleistung liefern - rein rechnerisch werden also vier Operationen parallel durch die Vektoreinheit (Single Instruction, Multiple Data; SIMD) ausgeführt.

Leistung einer elf Jahre alten Einsteiger-GPU

Im Vollausbau mit 64 Shadern und 4.096 Threads soll Neox bei FP32-Werten theoretisch 204.8 GFLOPS erreichen - so viel wie eine Radeon HD 6450 von 2011. Mit FP16 können doppelt so viele Berechnungen ausgeführt werden. Für das angestrebte Marktsegment - Wearables und IoT-Geräte - sollte das aber reichen.

Im Gegensatz zur 2D-Nema-GPU sind bei Neox leider keine Daten zum angenommenen Fertigungsprozess und der benötigten Chipfläche bekannt. Für Nema-XL gibt Think Silicon an, dass die Version mit vier Rechenkernen in TSMCs 28HPC+-Prozess 1,4 Millionen Gatter umfasse, die 0,71 mm2 Chipfläche benötigten.

Golem ALLROUND PLUS v2

Die Angaben beziehen sich auf einen Takt von 100 MHz, theoretisch sollen mit 28HPC+ über 500 MHz möglich sein. Es ist aber denkbar, dass dann zusätzliche Pipeline-Stufen erforderlich sind, wodurch Gatterzahl und benötigte Fläche steigen. Mit dem 7HPC+-Prozess von TSMC sollen bis zu 700 MHz Taktfrequenz möglich sein.

Sind die Angaben realistisch - und Neox konkurrenzfähig?

Wenn Think Silicon bei Neox nicht ein kleines Wunder gelungen ist, lässt sich aus den Angaben zu Nema ableiten, dass eine Fertigung mit einem Prozess aus TSMCs N5-Familie notwendig ist, um die angegebenen 800 MHz zu erreichen. Da N5 verglichen mit N7 eine 1,8-fach größere Integrationsdichte erreicht, würden die vier Nema-Kerne rein rechnerisch etwa 0,4 mm2 Fläche benötigen. Ist Neox nicht wesentlich komplexer, käme der Vollausbau mit 64 Kernen auf 6,4 mm2 - realistisch ist aufgrund der Vektoreinheiten mehr.

Der Grund für die wesentlich detaillierteren Angaben bei Nema ist vermutlich, dass Think Silicon für den 2D-Beschleuniger Kunden hat. Neox hingegen konkurriert beispielsweise mit ARMs Mali-G510 - anhand des Datenblatts (PDF) käme der mit zwei Shader Cores bei 800 MHz rein rechnerisch auf bis zu 204,8 GFLOPS.

Leider sind bei Mobile-GPUs kaum Daten zur benötigten Chipfläche verfügbar. Dass aber offensichtlich ein recht komplexer CPU-Kern eine relativ kleine SIMD-Einheit bedient, könnte ein Nachteil sein. Die reine Rechenleistung allein sagt allerdings wenig über die tatsächliche Leistung aus - sie muss von der ausgeführten Software auch genutzt werden können.

Ganz neu ist die RISC-V-GPU auch nicht: Angekündigt war Neox seit 2019. Im Gegensatz zu Libre RISC, das ein komplett freies RISC-V-SoC entwerfen wollte, ist Neox aber zu einem fertigen Design geworden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


svt (Golem.de) 22. Jun 2022 / Themenstart

Das war ein Kalauer der Suchen-und-Ersetzen-Funktion. ;) Wir haben das korrigiert.

tritratrulala 22. Jun 2022 / Themenstart

Der Ansatz, möglichst wenig festverdrahtete Hardware einzusetzen und dazu viele General...

Kommentieren



Aktuell auf der Startseite von Golem.de
SFConservancy
Open-Source-Entwickler sollen Github wegen Copilot verlassen

Ähnlich wie schon vor Jahrzehnten mit Sourceforge sollen Open-Source-Projekte nun auch Github verlassen.

SFConservancy: Open-Source-Entwickler sollen Github wegen Copilot verlassen
Artikel
  1. Wärmeversorgung: Berlin baut Thermoskanne gegen Gasnotstand
    Wärmeversorgung
    Berlin baut Thermoskanne gegen Gasnotstand

    Der Versorger Vattenfall baut in Berlin einen riesigen Warmwasserspeicher, um Häuser im Winter heizen zu können. Das könnte beim möglichen Gasnotstand helfen.

  2. Wilhelm.tel: Das kann die Telekom gar nicht so schnell nachmachen
    Wilhelm.tel
    Das kann die Telekom gar nicht so schnell nachmachen

    Der streitbare Wilhelm.tel-Chef Theo Weirich hat seine Infrastruktur für die Telekom geöffnet. Damit werde das eigene FTTH-Netz aber nicht entwertet.

  3. Chrome OS Flex: Das Apple Chromebook
    Chrome OS Flex
    Das Apple Chromebook

    Ein zehn Jahre altes Notebook lässt sich mit Chrome OS Flex wieder flott machen. Wir haben Googles Betriebssystem ausprobiert und waren begeistert.
    Ein Erfahrungsbericht von Martin Wolf

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MSI RTX 3080 12GB günstig wie nie: 949€ • AMD Ryzen 7 günstig wie nie: 259€ • Der beste 2.000€-Gaming-PC • Cooler Master 34" UWQHD 144 Hz günstig wie nie: 467,85€ • Asus RX 6900 XT OC günstig wie nie: 1.049€ • Mindstar (Gigabyte RTX 3060 399€) • Galaxy Watch3 45 mm 119€ [Werbung]
    •  /