30 Prozent günstiger als andere Hardware
Beim SRAM – insgesamt sind 272 MByte verbaut – handelt es sich um einen vollständig Software-verwalteten Cache. Das erlaubt es, oft benötigte Daten permanent dort abzulegen. Der zweistufige Aufbau wiederum ermöglicht das Ablegen von Zwischenergebnissen im Cluster-SRAM, bis sie von den Tiles benötigt werden. So sollen die Zugriffe auf den HBM verringert werden, der zwar mit 7 TByte/s schnell angebunden ist, aber bei weitem nicht so schnell wie der SRAM: Für den Cluster-SRAM gibt Microsoft 80 TByte/s an.
Die Trennung ist dabei weniger streng, als es zunächst den Eindruck hat: Tiles können innerhalb eines Clusters gegenseitig auf ihren SRAM zugreifen. Zur Verbesserung der Ausbeute (Yield) können defekte Tiles und SRAM-Blöcke deaktiviert werden.
Scale-up erinnert an Intels Gaudi
Wie Intels Gaudi 3 integriert auch Maia 200 Ethernet NICs direkt im Chip. Mit denen wird ein zweistufiges Scale-up-Netzwerk aufgebaut, das wiederum an Gaudi 3 erinnert. Allerdings kann Microsoft hier nach eigenen Angaben 6.144 Maia 200 vernetzen – 50 Prozent mehr als Intel. Jeder Maia 200 kommt auf eine bidirektionale Bandbreite von 2,8 TByte/s, vier sind in jedem Rack-Einschub direkt verbunden. Microsoft nutzt für die Kommunikation ein selbst entwickeltes Protokoll.
Als eines der ersten Modelle will Microsoft OpenAIs GPT 5.2 auf Maia 200 bringen. Das soll die Leistung pro Dollar bei Microsoft Foundry und 365 Copilot deutlich erhöhen. Microsoft spricht von 30 Prozent besserer Leistung pro Dollar im Vergleich zur "aktuellsten Hardware-Generation in unserer Flotte" , womit mutmaßlich Nvidias Blackwell gemeint ist. Daneben sollen die neuen Beschleuniger synthetische Daten für das Training anderer KIs generieren.
Der Beschleuniger kann allerdings auch gemietet werden, das SDK umfasst neben Pytorch, Triton-Compiler und angepassten Bibliotheken auch die Möglichkeit, mittels Low-Level-Programmierung eigene Software-Anpassungen vorzunehmen.