AI200 und AI250: Qualcomm will den Markt für KI-Inferencing aufmischen

Bei KI-Beschleunigern stand lange das aufwendige Training im Fokus. Doch mit steigender Verbreitung von KI-Modellen rückt seit einiger Zeit das Inferencing, die Ausführung trainierter Modelle, in den Vordergrund. Dessen Anteil am Leistungsbedarf wächst kontinuierlich, und mit ihm der Markt für entsprechend aufgestellte Beschleuniger. Nachdem Intel im Rahmen seiner Tech Tour ankündigte, sich auf Inferencing-Beschleuniger zu konzentrieren, folgt nun Qualcomm(öffnet im neuen Fenster) .
Das Unternehmen hat zwei neue Rack-Scale-Lösungen mit den schlichten Namen AI200 und AI250 angekündigt. Die erste soll 2026 auf den Markt kommen, die zweite ein Jahr später folgen, anschließend soll es im Jahrestakt mit neuen Systemen weitergehen. Wie Nvidia und AMD setzt auch Qualcomm dabei auf große Systeme, bei denen die Skalierung gleich mit gedacht ist: Innerhalb eines Racks kommunizieren die einzelnen Beschleunigerkarten per PCIe, als Scale-out-Netz dient Ethernet.
Wenig überraschend sind die Racks für Wasserkühlung ausgelegt, jedes soll auf eine maximale Leistungsaufnahme von 160 kW kommen. Die Prozessoren sind von Qualcomms NPUs abgeleitet, mit der Serie Cloud AI 100(öffnet im neuen Fenster) bietet das Unternehmen bereits seit Jahren Inferencing-Beschleuniger an. Entsprechend existiert bereits ein Software-Stack. Auch die neuen Beschleuniger wird Qualcomm weiterhin einzeln verkaufen.
Als Alleinstellungsmerkmal hebt Qualcomm den großen Speicher hervor: Jede einzelne Beschleunigerkarte kommt mit 768 GByte LPDDR-Speicher, mutmaßlich LPDDR5X, ausreichend selbst für viele LLMs (Large Language Models) mit besonders vielen Gewichtsparametern. Damit soll eine besonders geringe Total Cost of Ownership (TCO) erreicht werden.
AI250 mit neuem Speicherkonzept
Beim AI250 will Qualcomm dann mit Near Memory Computing die Speicherbandbreite – ein Nachteil des günstigeren LPDDR-RAMs – um den Faktor zehn steigern. Leider ist der Pressemitteilung nicht zu entnehmen, was darunter zu verstehen ist.
Während In Memory Computing recht einfach zu definieren ist – hier sind in den Speicher-Dies Recheneinheiten integriert – ist Near Memory Computing unschärfer. Klar ist, dass nicht alle Berechnungen von der NPU ausgeführt werden. Um eine höhere Bandbreite zu erreichen, erscheint es am wahrscheinlichsten, dass die LPDDR-Module neben den einzelnen DRAM-Silizium-Dies einen Controller mit Rechenfunktionalität enthalten werden. Das lässt eine Kooperation mit einem Speicherhersteller und eine kundenspezifische Lösung vermuten.
Qualcomms AI200 wird 2026 gegen Nvidias Rubin CPX antreten, den das Unternehmen Anfang September vorgestellt hatte . Auch hier wird günstigerer Speicher verbaut, statt LPDDR- wird Nvidia aber GDDR7-RAM nutzen. Dessen Kapazität beträgt mit 128 GByte pro GPU zudem nur ein Sechstel dessen, was Qualcomm angekündigt hat. Die niedrigere Bandbreite pro Chip könnten Qualcomms Beschleuniger durch die schiere Masse ausgleichen. Die AI200-Racks haben damit gute Chancen, zumindest bei der Speicherausstattung die Konkurrenz alt aussehen zu lassen.
An der Börse zumindest hat Qualcomms Ankündigung bereits Freudenstürme ausgelöst: Die Qualcomm-Aktie konnte trotz der wenigen Details ein Plus von 11 Prozent verbuchen(öffnet im neuen Fenster) .



