RISC-V: Freier Befehlssatz als Basis für GPU

Mit dem freien RISC-V-Befehlssatz baut ein Unternehmen 2D- und 3D-Grafikhardware. Die ist leider nicht frei und für sparsame Chips gedacht.

Artikel veröffentlicht am , Johannes Hiltscher
Aufbau des Neox 3D-Beschleunigers: Bis zu 16 Cluster (links) sind möglich, jedes enthält vier RISC-V-Kerne als Shader (rechts).
Aufbau des Neox 3D-Beschleunigers: Bis zu 16 Cluster (links) sind möglich, jedes enthält vier RISC-V-Kerne als Shader (rechts). (Bild: Think Silicon)

Seit 2009 entwickelt Think Silicon in Griechenland Grafikhardware. Auf der Embedded World 2022 in Nürnberg stellt das Unternehmen seine Produkte vor. Während die Nema-GPUs für 2D-Beschleunigung auf einem eigenen Befehlssatz aufbauen, nutzt der 3D-Beschleuniger Neox RV64GC-Kerne. Die RISC-V-Kerne sind die Basis der programmierbaren Shader, was eine einfache Anpassung an verschiedene Aufgaben ermöglicht.

Stellenmarkt
  1. Produktionscontroller (m/w/d) - Schwerpunkt ERP
    Goldbeck GmbH, Bielefeld, Hamm, Plauen, Vöhringen (bei Ulm)
  2. Software Integration and Test Engineer HPC (m/f / diverse)
    Continental AG, Wetzlar
Detailsuche

Laut Think Silicon läuft auf den Shadern ein Echtzeitbetriebssystem (Real-Time Operating System, RTOS). Es verteilt die Rechenaufgaben auf mehrere parallel arbeitende Threads. Die sollen dafür sorgen, dass die Recheneinheiten - je eine Integer-, Gleitkomma- und Vektoreinheit - stets ausgelastet sind. Zudem können Kunden eigene Befehle hinzufügen.

Neben der G-Variante (GPU) wird eine A-Variante als AI-Beschleuniger angeboten, beide bekommen Kunden als sogenannten IP-Core (für Intellectual Property). Den können Kunden in ihre SoC-Designs einbauen und in einem Prozess ihrer Wahl fertigen lassen.

Zudem können Neox und Nema konfiguriert werden, für den 3D-Beschleuniger bietet Think Silicon 4 bis 64 Shader-Kerne an. Diese sind jeweils zu viert in einem Cluster organisiert, die Cluster wiederum sind in einem 2D-Gitternetzwerk angeordnet. Das Netzwerk bindet sie mittels Axi an den Rest des SoC an.

Golem Karrierewelt
  1. Elastic Stack Fundamentals – Elasticsearch, Logstash, Kibana, Beats: virtueller Drei-Tage-Workshop
    28.-30.11.2022, Virtuell
  2. Apache Kafka Grundlagen: virtueller Zwei-Tage-Workshop
    22./23.11.2022, Virtuell
Weitere IT-Trainings

Jeder Shader soll bei einem Takt von 800 MHz 3,2 GFLOPS FP32-Rechenleistung liefern - rein rechnerisch werden also vier Operationen parallel durch die Vektoreinheit (Single Instruction, Multiple Data; SIMD) ausgeführt.

Leistung einer elf Jahre alten Einsteiger-GPU

Im Vollausbau mit 64 Shadern und 4.096 Threads soll Neox bei FP32-Werten theoretisch 204.8 GFLOPS erreichen - so viel wie eine Radeon HD 6450 von 2011. Mit FP16 können doppelt so viele Berechnungen ausgeführt werden. Für das angestrebte Marktsegment - Wearables und IoT-Geräte - sollte das aber reichen.

Im Gegensatz zur 2D-Nema-GPU sind bei Neox leider keine Daten zum angenommenen Fertigungsprozess und der benötigten Chipfläche bekannt. Für Nema-XL gibt Think Silicon an, dass die Version mit vier Rechenkernen in TSMCs 28HPC+-Prozess 1,4 Millionen Gatter umfasse, die 0,71 mm2 Chipfläche benötigten.

Golem ALLROUND PLUS v2

Die Angaben beziehen sich auf einen Takt von 100 MHz, theoretisch sollen mit 28HPC+ über 500 MHz möglich sein. Es ist aber denkbar, dass dann zusätzliche Pipeline-Stufen erforderlich sind, wodurch Gatterzahl und benötigte Fläche steigen. Mit dem 7HPC+-Prozess von TSMC sollen bis zu 700 MHz Taktfrequenz möglich sein.

Sind die Angaben realistisch - und Neox konkurrenzfähig?

Wenn Think Silicon bei Neox nicht ein kleines Wunder gelungen ist, lässt sich aus den Angaben zu Nema ableiten, dass eine Fertigung mit einem Prozess aus TSMCs N5-Familie notwendig ist, um die angegebenen 800 MHz zu erreichen. Da N5 verglichen mit N7 eine 1,8-fach größere Integrationsdichte erreicht, würden die vier Nema-Kerne rein rechnerisch etwa 0,4 mm2 Fläche benötigen. Ist Neox nicht wesentlich komplexer, käme der Vollausbau mit 64 Kernen auf 6,4 mm2 - realistisch ist aufgrund der Vektoreinheiten mehr.

Der Grund für die wesentlich detaillierteren Angaben bei Nema ist vermutlich, dass Think Silicon für den 2D-Beschleuniger Kunden hat. Neox hingegen konkurriert beispielsweise mit ARMs Mali-G510 - anhand des Datenblatts (PDF) käme der mit zwei Shader Cores bei 800 MHz rein rechnerisch auf bis zu 204,8 GFLOPS.

Leider sind bei Mobile-GPUs kaum Daten zur benötigten Chipfläche verfügbar. Dass aber offensichtlich ein recht komplexer CPU-Kern eine relativ kleine SIMD-Einheit bedient, könnte ein Nachteil sein. Die reine Rechenleistung allein sagt allerdings wenig über die tatsächliche Leistung aus - sie muss von der ausgeführten Software auch genutzt werden können.

Ganz neu ist die RISC-V-GPU auch nicht: Angekündigt war Neox seit 2019. Im Gegensatz zu Libre RISC, das ein komplett freies RISC-V-SoC entwerfen wollte, ist Neox aber zu einem fertigen Design geworden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Cloudgaming
Google Stadia scheiterte nur an sich selbst

Die Technik war nicht das Problem von Alphabets ambitioniertem Cloudgaming-Dienst. Das Problem liegt bei Google. Ein Nachruf.
Eine Analyse von Daniel Ziegener

Cloudgaming: Google Stadia scheiterte nur an sich selbst
Artikel
  1. Tiktok-Video: Witz über große Brüste kostet Apple-Manager den Job
    Tiktok-Video
    Witz über große Brüste kostet Apple-Manager den Job

    Er befummle von Berufs wegen großbrüstige Frauen, hatte ein Apple Vice President bei Tiktok gewitzelt. Das kostete ihn den Job.

  2. Copilot, Java, RISC-V, Javascript, Tor: KI macht produktiver und Rust gewinnt wichtige Unterstützer
    Copilot, Java, RISC-V, Javascript, Tor
    KI macht produktiver und Rust gewinnt wichtige Unterstützer

    Dev-Update Die Diskussion um die kommerzielle Verwertbarkeit von Open Source erreicht Akka und Apache Flink, OpenAI macht Spracherkennung, Facebook hilft Javascript-Enwicklern und Rust wird immer siegreicher.
    Von Sebastian Grüner

  3. Vantage Towers: 1&1 Mobilfunk gibt Vodafone die Schuld an spätem Start
    Vantage Towers
    1&1 Mobilfunk gibt Vodafone die Schuld an spätem Start

    Einige Wochen hat es gedauert, bis 1&1 Mobilfunk eine klare Schuldzuweisung gemacht hat. Doch Vantage Towers verteidigt seine Position im Gespräch mit Golem.de.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • LG OLED TV 2022 65" 120 Hz 1.799€ • ASRock Mainboard f. Ryzen 7000 319€ • MindStar (G.Skill DDR5-6000 32GB 299€, Mega Fastro SSD 2TB 135€) • Alternate (G.Skill DDR5-6000 32GB 219,90€) • Xbox Series S + FIFA 23 259€ • PCGH-Ratgeber-PC 3000€ Radeon Edition 2.500€ [Werbung]
    •  /