Mit Chiplets: Meta plant vier KI-Beschleuniger in zwei Jahren
Inhalt
Wie viele andere Größen der IT-Branche entwickelt auch Meta zusammen mit Broadcom eigene KI-Beschleuniger. Bislang gab es dazu eher sporadisch Informationen.
In einem Blogpost(öffnet im neuen Fenster) gibt der Konzern nun Einblick in seine Pläne. Diese beinhalten insgesamt vier Beschleuniger, die bis 2027 in Betrieb gehen sollen. Dabei plant Meta rasante Leistungssteigerungen, die auf einer kontinuierlichen Weiterentwicklung beruhen.
Den MTIA 300 nutzt Meta bereits, ohne dies groß erwähnt zu haben. Es handelt sich dabei um eine hochskalierte Version des 2024 vorgestellten MTIA V2 (der jetzt MTIA 200 genannt wird) mit vermutlich sechs HBM3e-Stacks statt LPDDR5.
Verallgemeinerung der Architektur
Der Chip ist noch primär auf Ranking & Recommendation (R&R, Bewertung und Empfehlung) ausgelegt. Hier lag lange der Schwerpunkt von Meta. R&R-Algorithmen bestimmen etwa, welche Beiträge in einem Feed vorgeschlagen werden.
Doch auch beim Facebook-Mutterkonzern gewinnt generative KI an Bedeutung. Diese Modelle laufen zwar auch auf der R&R-Hardware, profitieren aber auch etwa von kleineren Datentypen. Entsprechend stellt Meta seine Beschleuniger mittlerweile breiter auf.
Den Anfang macht MTIA 400, dessen Tests abgeschlossen sind. Er soll nun in den Meta-Rechenzentren installiert werden.
Vor diesem Hintergrund ergibt es auch Sinn, dass der Konzern Furiosa AI aus Südkorea übernehmen und damit entsprechendes Know-how einkaufen wollte. Diese Pläne zerschlugen sich allerdings.
Vernetzung mit Ethernet
Anhand der genannten Daten lässt sich ableiten, dass beim MTIA 400 weiter HBM3e genutzt wird, der Wechsel auf HBM4 steht mit dem MTIA 450 an. Hier könnte zudem ein Wechsel des Fertigungsprozesses, aktuell höchstwahrscheinlich TSMCs N3P oder N3X, auf einen 2-nm-Prozess anstehen. MTIA 450 ist für KI-Inferenz ausgelegt, also das Anwenden trainierter Modelle.
Einen wichtigen Schritt geht Meta aber bereits mit dem MTIA 400: Die Größe des Scale-up-Netzwerks, das Beschleuniger direkt verbindet, steigt von 16 auf 72 – bekannt von Nvidias aktuellen Systemen.
Hier setzt Meta, wie auch die meisten anderen Hersteller von KI-Beschleunigern, auf RoCE (Remote Direct Memory Access, RDMA, over Converged Ethernet). Dafür werden zwei Chiplets mit je sechs 800 GBit-Ethernet-Controllern sowie Offload-Engines verbaut. Letztere übernehmen Teile des Netzwerkprotokolls.
Zudem erwähnt der Blogpost Near Memory Computing. Die Funktionalität dürfte in den Speicher-Controllern integriert sein, als Anwendungsfall werden Reduktionsoperationen genannt. Dabei werden Teilergebnisse mehrerer Recheneinheiten zusammengefügt.
Diese Funktionalität ist auch in den Rechenelementen integriert. Im Speicher-Controller könnte sie es ermöglichen, dass Zwischenergebnisse nicht erst von einem Rechenelement eingesammelt werden müssen, um das Endergebnis zu berechnen. Damit ist weniger Kommunikation erforderlich.
- Anzeige Hier geht es zum Meta Quest 3 mit Asgarth's Wrath 2 bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.