Zero-1-to-3: Forscher erstellen 3D-Objekte aus generierten 2D-Bildern
Mit Diffusionsmodellen lassen sich überzeugende KI-Bilder generieren. Forscher nutzen nun die Modelldetails für 3D-Ansichten.

Aktuelle Bildgeneratoren wie Stable Diffusion oder auch Dall-E von OpenAI basieren auf sogenannten Diffusionsmodellen. Ein Team von Forschern der Columbia-University sowie dem Toyota Research Institute zeigt nun, dass ein solches Modell auch dazu dienen kann, die Perspektive eines der erzeugten Bilder und dessen Hauptobjekt beliebig im Raum zu verändern. Solch ein Vorgang wird auch als Viewpoint-Synthesis beschrieben. Letztlich können mithilfe dieser Vorgehensweise mit den Modellen auch 3D-Objekte erzeugt werden.
Ausgangspunkt ist laut Aussage der Forscher dabei ein einziges farbiges Digitalbild. Eigentlich sei das zu wenig Information, um daraus 3D-Objekte zu erzeugen und diese im Raum zu drehen. Für das Zero-1-to-3 genannte Framework setzen die Beteiligten aber auf geometrische Informationen, die besonders große Diffusionsmodelle in ihrer Trainingsphase erlernt haben. Immerhin basieren diese auf sehr vielen Bildern, im Fall von Stable Diffusion sind es etwa 5 Milliarden Bilder. Diese beinhalten dabei oft ähnliche Objekte aus unterschiedlichen Perspektiven, was sich das Team nun zunutze macht.
In der wissenschaftlichen Arbeit dazu heißt es: "Der primäre Beitrag dieser Arbeit besteht darin, zu zeigen, dass große Diffusionsmodelle umfangreiche 3D-Anfangswahrscheinlichkeiten über die visuelle Welt gelernt haben, auch wenn sie nur auf 2D-Bildern trainiert wurden." Das Team bedient sich für seine eigenen Arbeiten dabei letztlich eines Fine Tunings des Modells, um ihm Details über Perspektiven anzulernen.
Das so erstellte Framework ermöglicht es, bei Eingabe eines 2D-Bildes dessen Perspektive zu ändern. Dabei werden, wie bei den Modellen üblich, verschiedene und vorher nicht sichtbare Details in der neuen Perspektive hinzuerfunden, worauf das Team auch explizit hinweist. Dank vieler verschiedener Perspektiven kann aus den so erzeugten Bildern dann ein 3D-Objekt als sogenanntes Neural Radiance Field (NeRF) konstruiert werden. Ähnliche Arbeiten verfolgen etwa Nvidia oder auch Epic Games auf Grundlage echter Fotos.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Diese Bildgeneratoren haben noch einen weiten Weg vor sich. Man sieht oft ziemlich coole...