Playstation: Sony baut globale Machine-Learning-Fabrik für Spielestudios
Die Entwicklung von Blockbuster-Spielen ist heute ein logistischer Kraftakt. Steigende Kosten für Grafik und Qualitätssicherung zwingen Publisher dazu, Prozesse zu automatisieren. Sony hat eine massive globale Infrastruktur hochgezogen, um Machine-Learning-Verfahren (ML) tief in den Workflow zu integrieren.
Auf der GTC 2026 gaben Erick Flores (Director of Visual Computing) und Richard Martin (Staff Engineer) seltene Einblicke in das Projekt mit dem Codenamen Lock Stock and Two Smoking Barrels – eine englische Redewendung, die ungefähr dem deutschen "mit Haut und Haaren" entspricht.
Das Ziel der Machine-Learning-Plattform ist laut Flores weniger mehr Automatisierung, sondern mehr kreative Freiheit: "Ein großer Teil der Spieleentwicklung besteht darin, den Spaß zu finden." Die Technik soll den Teams den Rücken freihalten, damit sie schneller experimentieren können.
Vor dem Start des Projekts herrschte bei Sony laut den Entwicklern viel technisches Stückwerk. Forschungsgruppen betrieben ihre eigene Hardware, oft nur einzelne GPU-Server, die unter den Schreibtischen in den Büros standen.
Rechner aufbauen und los geht's? Von wegen!
"Es gab keinen Scheduler und keine Sichtbarkeit" , erinnerte sich Flores. Forscher verbrachten mehr Zeit mit der Wartung ihrer Rechner als mit der Entwicklung von Modellen.
Die Lösung war ein zentraler, Kubernetes-basierter GPU-Cluster, der wie eine interne Cloud funktioniert. Doch der Weg dorthin war kompliziert. "Wir dachten naiv, wir könnten einfach eine große Maschine ins Rechenzentrum stellen, sie anschließen und fertig" , sagte Flores. "So funktioniert das aber nicht."
In der Praxis scheiterte es oft an Details: Machine-Learning-Container sind mit mehr als 20 Gigabyte gigantisch im Vergleich zu normalen Microservices. Wenn Hunderte Forscher gleichzeitig solche Images ziehen, bricht jedes Standardnetzwerk zusammen.
Noch schlimmer waren die Datensätze. Ein Team arbeitete mit Millionen winziger Dateien, was beim Synchronisieren zwischen Standorten die CPU-Last derart in die Höhe trieb, dass die Storage-Treiber versagten.
Spielestudios horten GPU-Rechenleistung
Das Ergebnis: Die teuren GPUs erhielten keine Input-Daten. "Plötzlich stehen die GPUs still und niemand kann arbeiten" , beschrieb Martin die Sackgasse.
Auch menschlich gab es Hürden. Da Rechenleistung knapp war, begannen Teams mit "GPU-Hoarding" . Sie starteten sinnlose Jobs, nur um ihre Zuteilung nicht zu verlieren. Sony reagierte mit einem harten Prioritätssystem: Wichtige Projekte können Ressourcen von weniger kritischen Aufgaben nun jederzeit kapern.
Trotz des Ausbaus auf Hardware-Generationen wie Nvidias Blackwell bleibt ein Problem ungelöst: "Fragt man einen Forscher, wie viele GPUs er braucht, fragt er zurück: Wie viele habt ihr?" , sagte Flores. "Die Nachfrage ist grundsätzlich immer größer als das Angebot."
- Anzeige Hier geht es zur Playstation 5 Pro bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.