Zum Hauptinhalt Zur Navigation

Maia 200: Microsoft stellt leistungsfähigsten DIY-KI-Beschleuniger vor

Eigene Hardware soll KI günstiger machen. Microsoft überholt die anderen Hyperscaler mit dem neuen Maia 200.
/ Johannes Hiltscher
Kommentare News folgen (öffnet im neuen Fenster)
Ein Maia-200-Package (Bild: Microsoft)
Ein Maia-200-Package Bild: Microsoft
Inhalt
  1. Maia 200: Microsoft stellt leistungsfähigsten DIY-KI-Beschleuniger vor
  2. 30 Prozent günstiger als andere Hardware

Die großen Hyperscaler liefern sich seit geraumer Zeit ein Wettrennen um die leistungsfähigste selbst entwickelte KI-Hardware. Die enormen Preise von Nvidia und große eigene Installationen machen das attraktiv, zumal reine KI-Beschleuniger verhältnismäßig einfach aufgebaut sind. Microsoft hat sich mit Maia 200(öffnet im neuen Fenster) hier vorerst an die Spitze gesetzt.

Mit 10,1 Pflops bei FP4 (4 Bit Gleitkommadatentyp) erreicht der Nachfolger von Microsofts erstem KI-Chip Maia 100 die Hälfte der Rechenleistung von Nvidias Blackwell B100 . Bei FP8 liegt Maia 200 mit 5,07 Pflops teils deutlich vor AWS Trainium3 und knapp vor Alphabets vor fast einem Jahr vorgestellter TPU v7 alias Ironwood . Wie Letztere ist Maia 200 auf Inferenz ausgelegt, also das Verarbeiten trainierter Modelle.

Deutlich macht das die FP16-Leistung: Hier erreicht Microsofts KI-Chip mit 1,27 Pflops lediglich ein Viertel der FP8-Leistung. Gefertigt wird der Chip in TSMCs N3P-Prozess. Um die leistungsfähigen Recheneinheiten mit ausreichend Daten zu versorgen, ist der Chip mit sechs HBM3e-Stacks mit je 12 Dies (12-High) bestückt. Die kommen auf 216 GByte Gesamtkapazität – 12,5 Prozent mehr als die TPU v7 und 50 Prozent mehr als Trainium3. Allein beim Durchsatz liegt die TPU v7 dank acht Stacks leicht vorn.

Mit 140 Milliarden Transistoren ist Maia 200 rund ein Drittel komplexer als der Vorgänger, jeder Chip darf bis zu 750 W Leistung aufnehmen. Dass Microsoft Direktwasserkühlung nutzt, muss da kaum extra erwähnt werden.

Fokus auf kleine Datentypen

Der Aufbau des Beschleunigers(öffnet im neuen Fenster) ist nicht allzu überraschend: Es handelt sich um ein hierarchisches Design, das aus Clustern aufgebaut ist, die wiederum aus Tiles bestehen.

Beide Hierarchiestufen verfügen über SRAM, einen DMA-Automaten sowie einen Prozessor, der die anderen Funktionseinheiten koordiniert. In den Tiles sitzen die Recheneinheiten: Eine für Matrixoperationen optimierte Tensor-Einheit, welche lediglich die FP4/6/8 unterstützt, sowie eine Vektoreinheit für FP8/16/32 und BF16.

Dieser Aufbau trägt dem Trend zu kleineren Datentypen zur Abbildung von Gewichtsparametern Rechnung. Der Speicherbedarf sinkt hierdurch deutlich, bei oft geringem Genauigkeitsverlust. Typkonvertierungen erledigt dabei die Hardware selbst, was auch das Rechnen mit unterschiedlichen Datentypen ermöglicht (mixed precision). Die DMA-Einheiten sind zudem so ausgelegt, dass sie auch bei zwei- und dreidimensionalen Arrays mit kleinen Datentypen effizient arbeiten. Das Network-on-Chip (NoC) unterstützt Broadcasts, um aus dem HBM gelesene Daten an mehrere Cluster zu senden, sowie Quality-of-Service-Mechanismen, um Datenströme zu priorisieren.


Relevante Themen