Zum Hauptinhalt Zur Navigation

Besseres Scheduling: Alibaba braucht weniger GPUs für Cloud-KI

In der Cloud gehostete KI -Modelle bekommen teils wenige Anfragen. Mit einem eigenen Scheduler kann Alibaba sie auf 82 Prozent weniger GPUs hosten.
/ Johannes Hiltscher
Kommentare News folgen (öffnet im neuen Fenster)
Das Alibaba-Logo (Bild: Mfn, Wikimedia Commons)
Das Alibaba-Logo Bild: Mfn, Wikimedia Commons / CC-BY-SA 4.0

Clouddienstleister hosten teils Tausende verschiedene KI-Modelle, auch wenn viele davon nur angepasste Varianten populärer Ausgangsmodelle sind. Um akzeptable Antwortzeiten zu erreichen, muss diesen Modellen dennoch eine GPU zugeordnet sein, die dann oft viel Zeit im Leerlauf verbringt. Das soll ein von Alibaba entwickelter und Aegaeon getaufter Scheduler, benannt wohl nach dem häufig hundertarmig dargestellten griechischen Gott der Meeresstürme(öffnet im neuen Fenster) , ändern.

Vorgestellt haben die Entwickler den Scheduler beim 31. Symposium on Operating System Principles (SOSP25) in Südkorea. Laut ihrer Veröffentlichung(öffnet im neuen Fenster) kann Aegaeon bis zu sieben Modelle pro GPU verwalten und erreicht dabei im Vergleich zu anderen Systemen bessere Latenzen. Die Entwickler messen diese anhand der Dauer zwischen Anfrage und Ausgabe des ersten Tokens (Time to first Token, TTFT) sowie zwischen der Ausgabe von zwei Tokens (Time between Tokens, TBT).

Die Besonderheit an Aegaeon ist, dass es sich um einen sogenannten preemptiven Scheduler handelt. Dieser kann die Abarbeitung eines Modells auf einer GPU unterbrechen, um ein anderes zu bearbeiten. Zusätzlich werden die GPUs eines Servers in zwei Gruppen unterteilt: Eine bearbeitet nur die rechenaufwendige Prefill-Phase, in welcher der KV-Cache initialisiert und das erste Token generiert wird. Die zweite Gruppe übernimmt das Decoding, das kontinuierliche Tokens erzeugt.

Hier werden die Modelle häufiger unterbrochen, der Prefill-Scheduler hingegen versucht, jedes Modell möglichst lange auf der GPU zu halten. Dazu werden Anfragen gruppiert, eine maximale Gruppengröße begrenzt dabei die Wartezeit anderer Modelle.

Eigene Speicherverwaltung sorgt für Effizienz

Ein KI-Modell zu unterbrechen und seinen GPU-Speicher einem anderen Modell zur Verfügung zu stellen, klingt erst einmal nicht besonders effizient. Schließlich müssen der KV-Cache und die Modellparameter über die relativ langsame PCIe-Verbindung aus dem Hostspeicher geladen werden. Hinzu kommt der Aufwand für die erneute Initialisierung der Laufzeitumgebung.

Bei Letzterer stellten die Aegaeon-Entwickler allerdings fest, dass ein Großteil dieses Aufwands eliminiert werden kann. Der Scheduler verwaltet die benötigten Ressourcen und stellt sie bei Bedarf bereit, so dass die Laufzeitumgebung nur einmal initialisiert werden muss und von verschiedenen Modellen genutzt werden kann. Zusätzlich implementiert Aegaeon eine eigene Speicherverwaltung, um die für das Laden eines anderen Modells benötigte Zeit zu reduzieren.

Die Speicherverwaltung ermöglicht es, dass sich Berechnungen und das Laden des nächsten Modells überlappen, was die Kosten für den Wechsel von Modellen verringert – ausreichend GPU-Speicher vorausgesetzt. Hierfür sind Anpassungen im genutzten KI-Software-Stack erforderlich, die mit rund 5.700 Zeilen Python- und Cuda-Code (g+) allerdings überschaubar sein sollen.

Bereits im Einsatz

Nach Angaben der Entwickler ist Aegaeon bereits in der KI-Cloud von Alibaba im Einsatz. Insgesamt 47 verschiedene Modelle mit 1,8 bis 72 Milliarden Parametern sollen damit laufen, denen nun 213 anstatt zuvor 1.192 H20-GPUs genügen – eine Reduzierung um 82 Prozent.

Auf die gesamte Modellpalette lassen sich diese Einsparungen allerdings nicht übertragen. Hauptsächlich sporadisch genutzte Modelle profitieren, was dennoch eine effizientere Ressourcennutzung ermöglicht.

Alibaba nennt hierzu eigene Zahlen: Die populärsten 5,9 Prozent der Modelle erhalten 98,65 Prozent der Anfragen. Für die verbleibenden 1,35 Prozent der Anfragen mussten allerdings zuvor 17,7 Prozent der GPUs bereitgehalten werden. Dieses Missverhältnis verbessert Aegaeon.


Relevante Themen