Esperanto ET-SoC-1: Interessenten können RISC-V-KI-Beschleuniger testen
Mit 1.088 rechnenden Knechten in 34 Grafschaften soll Esperantos Chip besonders effizient inferenzieren. Samsung und andere testen ihn.

Nachdem mit maschinellem Lernen (ML) ein Modell erstellt wurde, soll es beim Inferenzieren Daten auswerten. Das erfolgt mittels mathematischer Operationen und geschieht sehr oft. Daher wird es gern auf Rechenbeschleuniger ausgelagert - einen besonderen stellte das Startup Esperanto Technologies 2021 vor. Potenzielle Kunden können den ET-SoC-1 nun testen - und laut Pressemitteilung sind die ersten Tester begeistert.
Dazu zählen neben Samsungs Dienstleistungssparte Samsung SDS auch zwei Beratungsfirmen. Andere Interessierte können sich beim Unternehmen melden, um den Beschleuniger ebenfalls auszuprobieren. Ganz frei sind sie dabei allerdings nicht, sie können nur eine Auswahl an fertigen (off-the-shelf) KI-Modellen nutzen. Insgesamt klingt die Pressemitteilung, als handele es sich mehr um einige Demo-Anwendungen - neben dem Modell seien Datensatz, Datentyp, Batch-Größe und die Anzahl der rechnenden Prozessoren konfigurierbar.
Besonders an dem Chip sind weniger die verwendeten RISC-V-Kerne, sondern dass er speziell auf maschinelles Lernen zielt. Dafür integriert jeder der 1.088 Minion-Kerne (auf Deutsch: Knechte) eine von Esperanto entwickelte Vektorrecheneinheit. Sie kann parallel 16- und 32-Bit Gleitkommaberechnungen mit bis zu 256 Bit oder 128 Int8-Berechnungen ausführen. Das echte Alleinstellungsmerkmal sind allerdings die Tensorbefehle. Sie können bis zu 512 Takte mit nur einer Anweisung laufen.
Effizienter und schneller als Nvidia
Die spezielle Ausrichtung soll den Chip besonders effizient machen. Das ist wichtig, da ML-Anwender permanent inferenzieren. Entwickelt hat Esperanto den Chip für Empfehlungsmodelle, beispielsweise Youtubes Videovorschläge. Im Vergleich zu anderen Beschleunigern wie Nvidias H100 hat der ET-SoC-1 einen Vorteil: Jeder der integrierten Prozessoren kann eigenständig Befehle ausführen, bei Nvidia führt ein Warp aus 32 Recheneinheiten dieselbe Anweisung aus.
Das erhöht die Flexibilität, da beim Inferenzieren nur relativ kurz gerechnet wird. Die einzelnen Kerne sind unabhängig und müssen sich nicht synchronisieren. Beim Entwurf des Chips wurde aber auch an parallele Anwendungen gedacht. Innerhalb einer Neighborhood, die acht Minions umfasst, können diese sich effizient synchronisieren. Auch wird dann der L2-Cache, den sich die Nachbarn teilen, effizient genutzt. Vier Neighborhoods bilden ein Shire (auf Deutsch: Grafschaft), die sie an das interne Netzwerk anbindet und zusätzlichen, flexibel nutzbaren SRAM enthält.
Mit diesem Aufbau deklassiert Esperantos Prozessor nach Angaben des Unternehmens die Konkurrenz von Nvidia und Intel. Dass er vermutlich bei anderen Aufgaben schlechter abschneiden wird, stört da nicht - schließlich ist er speziell auf eine Nische mit wachsender Bedeutung ausgerichtet.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Wie Wuestenschiff schon schrieb teilen sich die Gruppen Resourcen. Die Neighbourhood...
Kommentieren