Zum Hauptinhalt Zur Navigation

Zero-1-to-3: Forscher erstellen 3D-Objekte aus generierten 2D-Bildern

Mit Diffusionsmodellen lassen sich überzeugende KI -Bilder generieren. Forscher nutzen nun die Modelldetails für 3D-Ansichten.
/ Sebastian Grüner
1 Kommentare News folgen (öffnet im neuen Fenster)
Jedes Bild hat eine bestimmte Perspektive. Andere Perspektiven im Raum könnte nun künftig eine KI erfinden. (Bild: Pixabay)
Jedes Bild hat eine bestimmte Perspektive. Andere Perspektiven im Raum könnte nun künftig eine KI erfinden. Bild: Pixabay

Aktuelle Bildgeneratoren wie Stable Diffusion oder auch Dall-E von OpenAI basieren auf sogenannten Diffusionsmodellen. Ein Team von Forschern der Columbia-University sowie dem Toyota Research Institute zeigt nun(öffnet im neuen Fenster) , dass ein solches Modell auch dazu dienen kann, die Perspektive eines der erzeugten Bilder und dessen Hauptobjekt beliebig im Raum zu verändern. Solch ein Vorgang wird auch als Viewpoint-Synthesis beschrieben. Letztlich können mithilfe dieser Vorgehensweise mit den Modellen auch 3D-Objekte erzeugt werden.

Ausgangspunkt ist laut Aussage der Forscher dabei ein einziges farbiges Digitalbild. Eigentlich sei das zu wenig Information, um daraus 3D-Objekte zu erzeugen und diese im Raum zu drehen. Für das Zero-1-to-3(öffnet im neuen Fenster) genannte Framework setzen die Beteiligten aber auf geometrische Informationen, die besonders große Diffusionsmodelle in ihrer Trainingsphase erlernt haben. Immerhin basieren diese auf sehr vielen Bildern, im Fall von Stable Diffusion sind es etwa 5 Milliarden Bilder. Diese beinhalten dabei oft ähnliche Objekte aus unterschiedlichen Perspektiven, was sich das Team nun zunutze macht.

In der wissenschaftlichen Arbeit dazu heißt es: "Der primäre Beitrag dieser Arbeit besteht darin, zu zeigen, dass große Diffusionsmodelle umfangreiche 3D-Anfangswahrscheinlichkeiten über die visuelle Welt gelernt haben, auch wenn sie nur auf 2D-Bildern trainiert wurden." Das Team bedient sich für seine eigenen Arbeiten dabei letztlich eines Fine Tunings des Modells, um ihm Details über Perspektiven anzulernen.

Das so erstellte Framework ermöglicht es, bei Eingabe eines 2D-Bildes dessen Perspektive zu ändern. Dabei werden, wie bei den Modellen üblich, verschiedene und vorher nicht sichtbare Details in der neuen Perspektive hinzuerfunden, worauf das Team auch explizit hinweist. Dank vieler verschiedener Perspektiven kann aus den so erzeugten Bildern dann ein 3D-Objekt als sogenanntes Neural Radiance Field (NeRF) konstruiert werden. Ähnliche Arbeiten verfolgen etwa Nvidia oder auch Epic Games auf Grundlage echter Fotos .


Relevante Themen