Zum Hauptinhalt Zur Navigation Zur Suche

Instinct MI350P: AMD bringt die leistungsstärkste KI-GPU für PCIe

Als PCIe-Variante lässt sich AMDs MI350 flexibler einsetzen. Allerdings ist sie weniger leistungsfähig als das OAM-Modell.
/ Johannes Hiltscher
13 Kommentare Auf Google folgen (öffnet im neuen Fenster)
Das Rendering der MI350P zeigt deutlich den halbierten Chip. (Bild: AMD)
Das Rendering der MI350P zeigt deutlich den halbierten Chip. Bild: AMD

KI-GPUs für Rechenzentren werden bevorzugt im OAM-Format (Open Compute Platform Accelerator Module) gebaut. Das ermöglicht zusammen mit Wasserkühlung die höchste Leistungsdichte. Gleichzeitig schränkt das Format aber auch die Flexibilität ein: Es benötigt spezielle Mainboards.

PCIe hingegen ermöglicht flexibel die Aufrüstung bestehender Server. Aus diesem Grund bringt AMD mit der Instinct MI350P seine aktuelle CDNA4-Generation von KI-GPUs als PCIe-Karte auf den Markt.

Auch wenn der Name anderes vermuten lässt, handelt es sich bei der MI350P praktisch um eine halbierte MI350X(öffnet im neuen Fenster). Entsprechend sind auch nur vier HBM3e-Stacks mit einer Gesamtkapazität von 144 GByte verbaut. Mit 4-Bit-Quantisierung reicht das für bis zu 250 Milliarden Parameter. Der Cache fasst 128 MByte, die Anbindung an die Host-CPU erfolgt über 16 PCIe-Gen5-Lanes.

Die FHFL-Karte (Full Height, Full Length) darf bis zu 600 W Leistung aufnehmen, kann aber auf 450 W begrenzt werden. Es handelt sich um ein Dual-Slot-Design. Bis zu acht MI350P können pro Server installiert werden, ein Scale-up-Netzwerk für die breitbandige Vernetzung fehlt den MI350P aber. Modelle sollten idealerweise also in den Speicher einer GPU passen.

Mehr KI-Leistung gibt es für PCIe nicht

Trotz halbiertem Chip ist die MI350P die aktuell leistungsfähigste KI-GPU für den PCIe-Slot. Bei der Rechenleistung liegt sie mit 4,6 PFlops bei MXFP4 und MXFP6 in der Spitze 15 Prozent vor Nvidias RTX Pro 6000.

Größere Datentypen skalieren linear, mit 8-Bit-Typen erreicht die GPU theoretisch 2,3 PFlops, bei 16 Bit sind es noch 1,15 PFlops. Wichtiger als die maximale theoretische Rechenleistung – in der Praxis erreicht die Karte deutlich niedrigere Werte – ist allerdings die mehr als doppelt so hohe Speicherbandbreite. Dank HBM3e erreicht die MI350P bis zu 4 TByte/s, die RTX Pro 6000 kommt mit GDDR7 auf nur 1,6 TByte/s.

Die zwei integrierten VCN-Decoder (Video Core Next) unterstützen die Formate AC1, HEVC, H.264 und VC1. Auch für JPEG-Bilder sind 20 Decoder integriert, so dass die Dekompression gängiger Bild- und Videoformate die Host-CPU nicht belastet.

Einfacher Umstieg dank AMD-Software

Gedacht ist die MI350P für Unternehmen, die bei der KI-Nutzung von Cloud- auf On-Premises-Modelle umsteigen wollen. AMDs Enterprise AI Stack soll dabei den Umstieg erleichtern.

Der Hardware-Hersteller stellt aber auch für seine Programmierumgebung Rocm (g+) angepasste Varianten von Frameworks wie Pytorch bereit. Auch eine Aufteilung der GPU in bis zu vier gleichwertige Partitionen etwa zur Nutzung durch VMs ist möglich.

Angaben zu Preis und Verfügbarkeit der Instinct MI350P machte AMD bislang nicht.


Relevante Themen