MTIA: Metas Beschleuniger nutzt 128 RISC-V-Kerne
Erste Einblicke in den KI-Beschleuniger von Meta zeigen die gute Leistung und Effizienz, die mit Googles TPU mithalten kann.

Meta, der Mutterkonzern von Facebook und Instagram, hat erstmals öffentlich seine Hardware zur Beschleunigung von KI-Anwendungen vorgestellt. Der Meta Training and Inference Accelerator (MTIA) ist ein speziell designter Chip, der trotz des Namens laut der Ankündigung zunächst nur für das Inferencing gedacht ist, also das Anwenden bereits trainierter KI-Modelle.
Der ASIC entstand laut Meta bereits im Jahr 2020 und wurde auf die interne Nutzung von Pytorch und eigener KI-Modelle abgestimmt. Gefertigt wird der MTIA bei TSMC im 7-nm-Verfahren. Bei einem Takt von 800 MHz und einer TDP von nur 25 Watt soll der Chip eine Leistung von 102.4 TOPS bei INT8- und 51.2 TFLOPS bei FP16-Operationen liefern.
Der MTIA erreicht damit ungefähr die Leistung pro Chip von Googles erster TPU. Im Vergleich zu den aktuellen TPUv4 von Google ist der MTIA allerdings bei den TFLOPS/Watt ähnlich effizient.
Chip mit 128 optimierten RISC-V-Kernen
Der MTIA ist Meta zufolge strikt quadratisch aufgebaut. Grundlage bildet dabei eine Verarbeitungselement (PE) aus zwei CPU-Kernen, die auf RISC-V basieren, aber stark angepasst und optimiert wurden.
Einer der Kerne verfügt über eine Vektoreinheit, hinzu kommen Fixed Function Units für die Matrix-Multiplikation, Akkumulation, Datenverwaltung und für die Berechnung nichtlinearer Funktionen. Jedem PE stehen 128 KByte SRAM zur Verfügung.
Der Chip basiert zudem auf einem 8 x 8 großem Raster der PE. Das Raster kann vollständig oder in Abschnitte aufgeteilt für Berechnungen genutzt werden. Die PEs das Rasters sind über ein Mesh miteinander sowie mit dem geteilten Speicher (128 MByte SRAM für Daten und Instruktionen) verbunden.
Darüber hinaus stehen pro Chip 128 GByte LPDDR5 als RAM bereit. Die Architektur soll auf eine möglichst hohe Parallelität ausgelegt sein.
Zur Anbindung nach außen werden die MTIA auf Dual-M.2-Boards über eine PCIe-Gen4x8-Schnittstelle mit dem Hostrechner verbunden. Die Leistungsaufnahme soll 35 Watt nicht überschreiten.
Pro Server lassen sich so 12 MTIA nutzen, die mithilfe von PCIe-Switches auch an der Host-CPU vorbei direkt miteinander kommunizieren können. Als größtes Problem beim Hardwaredesign beschreibt das Team dabei den Flaschenhals der Bandbreite von DRAM und Interconnect.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Kommentieren