Zum Hauptinhalt Zur Navigation

Golem Plus Artikel
Text-zu-Video:
Wie Videogeneratoren die Welt sehen

Damit ein neuronales Netzwerk aus einer Textbeschreibung ein plausibles Video macht, muss es verstehen, wie unsere Welt funktioniert. Wir erklären, wie es das schafft.
/ Tim Elsner
21 Kommentare News folgen (öffnet im neuen Fenster)
Videogeneratoren sind wesentlich komplexer als GenAI für Einzelbilder. (Bild: Pixabay)
Videogeneratoren sind wesentlich komplexer als GenAI für Einzelbilder. Bild: Pixabay

Textbasierte Assistenten und Text-zu-Bild-Generatoren gewinnen in Forschung und Praxis an Bedeutung und stehen sinnbildlich für den aktuellen KI-Boom. Als naheliegendem nächsten Schritt widmen sich aktuell viele Forscher und Firmen vermehrt Text-zu-Video-Ansätzen, die mittlerweile auch als kommerzielle Software verfügbar sind. Dabei wird grundsätzlich die gleiche Technik wie für Bilderzeugung genutzt, um aus einer Textbeschreibung ein kurzes Video zu erstellen.

Zwar lassen gerade die Großen wie OpenAI sich - trotz des Namens - oft nicht in die Karten schauen, aber dank einiger weniger, die ihr Wissen noch teilen, können wir trotzdem einen groben Einblick bieten. Im Folgenden erläutern wir die Herausforderungen beim Übergang von Bildern zu Videos, geben einen Überblick über die Grundlagen der Bilderzeugung und analysieren die einzelnen Komponenten eines Text-zu-Video-Modells.

Golem Plus Artikel