Lumiere: Google erzielt Durchbruch bei KI-Videos
Mit einem neuen Modell-Ansatz kann die Lumiere-KI ohne bisherige Umwege ein Video erzeugen. Das soll auch Videobearbeitung massiv vereinfachen.
Ein Forschungsteam von Google hat mit Lumiere eine KI-Technik und ein gleichnamiges Modell vorgestellt, das zur Erzeugung von Videos aus Texteingaben, Bildern oder zur einfachen Bearbeitung von Videos genutzt werden kann. Das Besondere daran ist, dass die Beteiligten dafür einen völlig neuen Ansatz gewählt haben, der "eine zentrale Herausforderung" lösen soll, wie die Beteiligten schreiben: die "Synthese von Videos, die realistische, vielfältige und kohärente Bewegungen darstellen".
Wie das Team in seiner wissenschaftlichen Beschreibung des Modells (PDF) schreibt, sind zwar Text-zu-Bild-Modelle inzwischen sehr weit fortgeschritten. Eine Videoerzeugung mit vergleichbarer Qualität bisher ist allerdings nicht möglich. Laut den Erstellern von Lumiere liegt das an der zeitlichen Dimension, die zahlreiche Probleme mit sich bringt, allen voran die fehleranfällige Modellierung natürlicher Bewegungen. Um dies zu überwinden, setzt das Team für Lumiere auf einen neuen Ansatz.
Bisher setzen Modelle zur Videoerzeugung etwa auf die Generierung von Key-Frames, die fehlende zeitliche Dimension wurde später durch eine zweite Modellschicht hinzugefügt. Eine von Nvidia im vergangenen Jahr vorgestellte Technik setzt auf eine Bilderzeugung wie in Stable Diffusion und erweitert diese um eine zeitliche Komponente. Für Lumiere soll die Technik aber die gesamte Raumzeit in der Modellarchitektur abbilden und so ein Video nicht aus einzelnen Bildern nachträglich zusammensetzen, sondern direkt in einem Durchlauf erzeugen. Das soll zu einer kohärent wirkenden Bewegung führen.
Vielfach einsetzbar
Dieser Ansatz sei in bisherigen Forschungsarbeiten übersehen worden, heißt es. Mit Lumiere sei so die Erzeugung von 80 Frames bei 16fps möglich, was der typischen Szenenlänge von 5 Sekunden in modernen Videos entspreche. Zusätzlich zum Erzeugen kurzer Videoclips aus einer als Text formulierten Eingabe sollen mit Lumiere außerdem einfache Videos aus Bildern erzeugt werden können.
Hinzu kommt die Bearbeitung bestehender Videos in einem bestimmten Stil durch einfache Texteingaben, die Animation bestimmter Bildbereiche oder das sogenannte Inpainting, bei dem Bereiche innerhalb eines Bildausschnitts komplett ersetzt werden können. So lassen sich fehlende Informationen ergänzen oder aber Elemente in einem Video austauschen. Die Forscher zeigen das etwa mit Kleidung, die ausgetauscht oder hinzugefügt werden kann.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed










... das ich dann denen einfach ein eBook rein werfe und die mir einen 2-3h Film raus...
Wenn man das so durchliest denkt man erst an 3d Modelle, die nachträglich um realistische...
Ich habs nur in der Facebook Gruppe von Münster mitbekommen. Da wurde zuerst ein...
Hahaha. Das habe ich mir auch gedacht, nach der Hochstapelei bei Gemini
Kommentieren