KI-Beschleuniger: Intel bringt beschnittene Gaudi 3 nach China

Die US-Regierung versucht nach Kräften, die Entwicklung künstlicher Intelligenz in China auszubremsen. Doch für die Halbleiterhersteller ist der chinesische Markt so wichtig, dass sie den Handelsbeschränkungen mit speziellen Varianten ihrer Produkte begegnen. Auch Intel folgt dem Vorbild von Nvidia und wird in der Volksrepublik eine leistungsbeschränkte Variante der kürzlich vorgestellten Gaudi 3 anbieten (via The Register(öffnet im neuen Fenster) ).
Laut einem White Paper von Intel(öffnet im neuen Fenster) wird es sowohl eine OAM- als auch PCIe-Variante geben. Beide kommen mit einer Thermal Design Power (TDP) von 450 Watt. Bei der OAM-Variante bedeutet das eine Halbierung, sie wird ab Juni 2024 ausschließlich als luftgekühlte Version angeboten. Die PCIe-Variante folgt zeitgleich mit der regulären PCIe-Karte für den globalen Markt im September 2024.
Die TDP könnte sogar noch hoch angesetzt sein, da die US-Regierung eine maximale Rechenleistung von 300 TFlops (BF16/FP16) oder 600 TFlops (INT8/FP8) erlaubt. Intel muss die Variante für den chinesischen Markt entsprechend auf rund ein Sechstel ihrer Leistung beschränken, da bei Gaudi 3 die Rechenleistung mit BF16 und FP8 bei jeweils 1.835 TFlops liegt.
Abgesehen von der geringeren Rechenleistung bleibt die Ausstattung gleich. Das macht die neuen Beschleuniger interessant, denn auch wenn die Rechenleistung im Vergleich zu älteren Beschleunigern gleich bleibt, gibt es mehr Speicher mit größerer Bandbreite. Damit lassen sich größere Modelle auf einer einzelnen Karte bearbeiten, beim Training sind ebenfalls weniger Beschleuniger erforderlich. Das bedeutet weniger Kommunikation über das relativ langsame Netzwerk - was ebenfalls bei Gaudi 3 eine deutlich höhere Bandbreite hat als beim Vorgänger.
Umsetzung ist unklar
Wie auch bei Nvidias Beschleunigervarianten für den chinesischen Markt ist unklar, wie genau Intel die Leistungsreduktion erreicht. Am einfachsten wäre eine Beschränkung über die Firmware, um etwa einen niedrigeren Takt zu erzwingen. Die könnte allerdings umgangen werden, wie etwa bei Nvidias Drosselung von Kryptomining . Eine Deaktivierung von Recheneinheiten hingegen würde zusätzliche Anpassungen an den Programmierbibliotheken erfordern.



