Zum Hauptinhalt Zur Navigation

MTT S4000: Moore Threads stellt neue KI-Grafikkarte vor

Ein KI -Beschleuniger, in China entwickelt und hergestellt. Dazu eine Industrie-Allianz mit großen Unternehmen wie Lenovo . In den USA dürfte das auf wenig Gegenliebe stoßen.
/ Martin Böckmann
8 Kommentare News folgen (öffnet im neuen Fenster)
Die MTT S4000 ist die schnellste komplett in China entwickelte Grafikkarte. (Bild: Moore Threads)
Die MTT S4000 ist die schnellste komplett in China entwickelte Grafikkarte. Bild: Moore Threads

Moore Threads hat die MTT S4000 vorgestellt(öffnet im neuen Fenster) , eine KI-Grafikkarte für den Einsatz in Rechenzentren. Sie folgt auf die MTT S3000(öffnet im neuen Fenster) , von der es auch einen Desktop-Ableger gibt, die MTT S80 . Einige Details bleiben offen, bei den wichtigen Punkten nannte der Hersteller aber eine beachtliche Steigerung.

Im Vergleich zur MTT S4000 steigt FP32-Performance von 15,2 auf 25 TFLOPS, INT8 ist mit 200 TOPS sogar fast viermal so schnell wie der Vorgänger mit 57,6 TOPS. Die neue GPU basiert auf der dritten Generation der MUSA-Architektur (Moore Threads Unified System Architecture). Während die MTT S2000 auf der ersten MUSA-Generation basiert, ist dies bei der S3000 unklar. Offiziell handelt es sich um die gleiche Architektur, die zweite Generation wäre damit nie in Produktion gegangen.

Zu den Spezifikationen des Chips selbst sind einige Details noch unbekannt. Das Speicherinterface ist von 256-Bit auf 384-Bit erweitert worden, womit jetzt 48 GByte GDDR6 mit einer Durchsatzrate von 768 GByte/s angebunden werden. Eine Verdoppelung auf 96 GByte wäre mit größeren GDDR6-Chips möglich. Außerdem unterstützt die Grafikkarte MT-Link 1.0, eine 240 GByte/s GPU-zu-GPU-Verbindung ähnlich zu Nvidias Nvlink.

Hohe Rechenleistung, Nvidia bleibt aber klar in Führung

Bei der Rechenleistung hat die MTT S4000 Nvidias Turing-Generation aus dem Jahr 2018 überholt. Gegen die neuere Ampere und Ada-Architektur kann sich Moore Threads aber noch nicht behaupten. Eine Nvidia RTX 6000 Ada ist mit 91 TFLOPS FP-32-Rechenleistung deutlich schneller, lässt sich aber nicht per Nvlink erweitern. Das ist Hopper-GPUs vorbehalten.

Moore Threads MTT S4000 Vergleichstabelle
Bezeichnung MTT S4000 RTX 6000 Ada MTT S3000 MTT S2000
Architektur 3. Generation MUSA Ada Lovelace 1. Generation MUSA 1. Generation MUSA
SPUs (GPU-Kerne) unbekannt 18176 (Shader) 568 (Tensor) 4096 4096
Taktrate unbekannt 2,5 GHz 1,9 GHz 1,3 GHz
FP32-Performance (TFLOPS) 25 91/182 (Tensor) 15,2 10,6
INT8 (TOPS) 200 728.5/1457 (Sparsity) 57,6 42,4
Speicherausstattung 48 GByte GDDR6 48 GByte GDDR6X 32 GB 32 GB
Speicherbus 384-Bit 384-Bit 256-Bit 256-Bit
Speicherdurchsatzrate 786 GByte/s 960 GByte/s 448 GByte/s unbekannt
Leistungsaufnahme unbekannt 300 Watt 250 Watt 150 Watt

Für China dürfte die MTT S4000 wichtig sein. Sie kann per Mtlink in MCCX-D800-GPU-Servern mit je acht Karten pro Server verbaut werden. Dazu bietet Moore Threads mit dem KUAE-Intelligent-Computing-Center Zugriff auf Cluster mit je 125 Servern und insgesamt 1.000 MTT-S4000-Grafikkarten. So große Systeme waren ohne Hardware aus dem Ausland bislang kaum möglich.

CUDA-Software soll sich leicht adaptieren lassen

Mit der Intelligent Computing and Large Model Ecological Alliance gründet Moore Threads zudem einen Verbund aus Softwareunternehmen und Systemanbietern, das in Europa bekannteste Mitglied dieser Allianz ist Lenovo. Per MUSIFY-Tool soll es den Anbietern möglich sein, auch CUDA-Software einfach für MTT-S4000-GPUs zu adaptieren.

Chinesische Kunden können mithilfe von MTT-S4000-GPUs in KUAE-Clustern nun sehr große KI-Modelle mit vertretbarem Zeitaufwand auf komplett in China entwickelter und hergestellter Hardware trainieren. Bei der Entwicklung von größeren Chips wie AMD Instinct MI300X, Nvidia H100 oder Intel Gaudi-3 liegen chinesische Unternehmen aber noch weit zurück. Sollten die Angaben des Herstellers in der Praxis haltbar sein, liegt Moore Threads bei kleineren Chips allerdings nur wenige Jahre zurück.


Relevante Themen