Text-zu-Video: Wie Videogeneratoren die Welt sehen

Textbasierte Assistenten und Text-zu-Bild-Generatoren gewinnen in Forschung und Praxis an Bedeutung und stehen sinnbildlich für den aktuellen KI-Boom. Als naheliegendem nächsten Schritt widmen sich aktuell viele Forscher und Firmen vermehrt Text-zu-Video-Ansätzen, die mittlerweile auch als kommerzielle Software verfügbar sind. Dabei wird grundsätzlich die gleiche Technik wie für Bilderzeugung genutzt, um aus einer Textbeschreibung ein kurzes Video zu erstellen.
Zwar lassen gerade die Großen wie OpenAI sich - trotz des Namens - oft nicht in die Karten schauen, aber dank einiger weniger, die ihr Wissen noch teilen, können wir trotzdem einen groben Einblick bieten. Im Folgenden erläutern wir die Herausforderungen beim Übergang von Bildern zu Videos, geben einen Überblick über die Grundlagen der Bilderzeugung und analysieren die einzelnen Komponenten eines Text-zu-Video-Modells.