KI: Nvidia erstellt Videos mit Stable-Diffusion-Idee
Das KI-Konzept hinter KI-Bildgeneratoren wie Stable Diffusion hat Nvidia nun mit neuen temporalen Ansätzen auf Videos erweitert.

Das KI-Forschungsteam von GPU-Hersteller Nvidia hat eine neue Möglichkeit zur Erzeugung von vergleichsweise hochauflösenden Videos per KI vorgestellt, die auf der Technik sogenannter Latent Diffusion Models (LDM) basiert. Der wohl bisher wichtigste und bekannteste Vertreter für LDMs ist die KI-Bilderzeugung Stable Diffusion, die für ihre beeindruckenden Resultate bekannt ist. Der Vorteil des Ansatzes ist dabei vor allem, dass die für die Video-Erzeugung benötigte Rechenleistung verringert werden kann.
Die Arbeiten von Nvidia basieren dabei direkt auf den Forschungen, die auch zu Stable Diffusion geführt haben. Einige der Wissenschaftler waren an beiden Projekten beteiligt. Die wissenschaftliche Beschreibung des Vorgehens ist einem Paper auf der Preprint-Plattform Arxiv verfügbar. Hauptfokus der Arbeiten ist dabei einerseits ähnlich wie bei Stable Diffusion die Erzeugung von Videos aus Texteingaben. Andererseits sollen mit dem Model aber auch Fahrdaten simuliert werden können.
Die Idee von LDMs ist es, das eigentliche Training der Modelle in einem komprimierten (latenten) niedrig-dimensionalen Raum umzusetzen, um Rechenleistung zu sparen. Ausgehend von einem Training auf Bilder haben die Beteiligten das Modell anschließend um eine zeitliche Dimension erweitert, die dann etwa Bewegungen abbilden soll. Hinzu kommen zeitlich abgestimmte Upsampler-Modelle, so dass diese letztlich wie Super-Resolution-Modelle agieren, nur für die erzeugten Videos.
Den Ansatz der zeitlichen Dimension nutzen die Forscher, um aus Stable Diffusion direkt ein Video-LDM zu erzeugen. Dieses soll effizient und ausdrucksstark sein und Videos mit Auflösungen von 1.280 x 2.048 Pixeln liefern. Die Qualität der von den Forschern bereitgestellten Videos erinnert dabei stark an die ersten Versuche der KI-Bildgeneratoren. Aufnahmen mit wenigen Details wie Landschaften oder das Stillleben von Weintrauben erscheinen dabei qualitativ noch am besten. Detailreichere Aufnahmen haben dabei teils offensichtliche Artefakte der Erzeugung.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Wenn ein Computer eine Bestellung auslöst, dann dauert das einen Bruchteil einer Sekunde...
Kommentieren