Zum Hauptinhalt Zur Navigation

MTIA V2: Metas KI-Beschleuniger wird erwachsen

Mit unter 100 Watt Leistungsaufnahme verwehrt sich Meta gegen den Trend zu Super-Chips. Stattdessen soll der neue Beschleuniger eine gute Balance für KI -Inferenz treffen.
/ Martin Böckmann
2 Kommentare News folgen (öffnet im neuen Fenster)
Metas zweiter Custom-Chip soll 3,6-mal schneller bei KI-Inferenzberechnungen sein. (Bild: Meta)
Metas zweiter Custom-Chip soll 3,6-mal schneller bei KI-Inferenzberechnungen sein. Bild: Meta

Meta hat den MTIA V2 (Meta Training and Inference Accelerator)(öffnet im neuen Fenster) vorgestellt. Obwohl der Facebook-Mutterkonzern einen starken Leistungssprung verspricht, soll es sich in allen wesentlichen Punkten um eine Iteration handeln. Besonders bei der Software verspricht Meta vollständige Kompatibilität bei 3,5-facher Rechenleistung, mit Sparsity soll sogar siebenfache Performance möglich sein.

Der neue Chip besteht aus 64 Kernen, die der Hersteller schlicht Prozessorelement (PE) nennt. Jedes PE hat 384 KByte Cache und kann über ein NoC (Network on Chip) mit allen anderen Elementen kommunizieren. Für die Herstellung wechselt Meta von TSMC 7-nm auf einen 5-nm-Node von TSMC.

Alle Elemente teilen sich einen 256 MByte großen SRAM-Speicher, der die Inferenzleistung besonders bei kleinen Batch-Größen steigern soll, da Zugriffe auf den bis zu 128 GByte großen LPDDR5-Arbeitsspeicher vermieden werden kann. SRAM und DRAM sind im Vergleich zum MTIA V1 doppelt so groß.

Hohe Leistungssteigerung auch durch mehr Energiebedarf

Auch die Taktfrequenz hat Meta deutlich erhöht. 1,35 GHz statt 800 MHz entsprechen einer Steigerung um 70 Prozent. Entsprechend ist auch die Leistungsaufnahme von 25 Watt auf nun 90 Watt gestiegen. Verglichen mit KI-Beschleunigern von AMD, Intel oder Nvidia sind sie aber weiterhin sehr sparsam.

Sie sollen zwar zukünftig auch häufiger für KI-Training verwendet werden, die Kernaufgabe bleibt aber Inferenz. Dazu will Meta auch weiterhin mit Nvidia und Intel zusammenarbeiten und setzt Beschleuniger beider Unternehmen in großer Stückzahl ein, aktuell vor allem Nvidia H100.

72 Chips auf 12 Platinen

Die MTIAv2 sollen in Rack-Systemen mit 72 Beschleunigern pro Rack verbaut werden und kommunizieren per PCI-Express 5.0 mit dem Hostsystem. Es besteht zudem die Möglichkeit RDMA-NICs zu verwenden, um die Systeme über ein einzelnes Rack hinaus zu skalieren. Konkrete Pläne dazu nennt Meta allerdings nicht.

Der Gesamtdurchsatz eines Racks soll im Vergleich zur ersten Generation bis zu sechsmal höher sein, bei 50 Prozent höherer Energieeffizienz. Meta gibt an, für diesen Vergleich vier verschiedene Modelle evaluiert zu haben. Neben der Hardware wurde dafür auch der gesamte Softwarestack verbessert.

Volle Softwarekompatibilität zu MTIA V1

Dabei setzt der Konzern auf breite Kompatibilität zu bestehendem Code. Pytorch 2.0 wird vollständig integriert, dazu kommen Torch-Dynamo und Torch-Inductor. Zudem soll der Triton-MTIA-Compiler in der Lage sein, in der Open-Source-Sprache geschriebenen GPU-Code auch auf MTIA mit hoher Performance auszuführen.

Die Entwicklung und Integration von MTIA V2 konnte dadurch laut Meta in kurzer Zeit schnell erfolgen. Auch zukünftig soll das Konzept beibehalten werden, um durch schnelle Iterationen auf die Bedürfnisse zugeschnittene Hardware einsetzen zu können.


Relevante Themen