KI: Software generiert 3D-Modelle aus 2D-Bildern

Das Forscherteam arbeitetet seit einigen Jahren an Pifu und Pifu HD. Die KI kann sowohl Fotos als auch Videos in 3D-Figuren umwandeln.

Artikel veröffentlicht am ,
Pifu generiert 3D-Modelle aus 2D-Bildern.
Pifu generiert 3D-Modelle aus 2D-Bildern. (Bild: Shunsuke Saito)

Ein Forscherteam der Univesity of Southern California und der beiden Facebook-Abteilungen Reality Labs und AI Research haben ein neuronales Netzwerk entwickelt, das aus 2D-Bildern 3D-Figuren erstellen kann. Bisher wurde die Pixel-Aligned Implicit Function HD (Pifu HD) für Menschen mit Kleidung trainiert. Das System soll akkurat neben Gesichtszügen wie Mund und Nase auch Falten und Textur von Kleidungsstücken in ein entsprechendes 3D-Modell konvertieren können.

Stellenmarkt
  1. Experte Partner & IT-Resource Management (m/w/d)
    operational services GmbH & Co. KG, Frankfurt am Main
  2. IT Senior Compliance Analyst (m/w/d)
    DLR Gesellschaft für Raumfahrtanwendungen (GfR) mbH, Oberpfaffenhofen
Detailsuche

Die überarbeitete Version Pifu HD baut auf dem im vergangenen Jahr vorgestellten Pifu auf und rendert Bilder in einer höheren 1k-Auflösung statt nur in etwa 128 x 128 Pixeln. Der Vorteil: Durch mehr Pixelinformationen können kleinere Details für ein 3D-Modell übertragen werden - etwa Falten und Fingerpositionen. Der Wissenschaftler Shunsuke Saito stellt die Arbeit und dessen Vorgänger Pifu in zwei Videos vor. Auch existiert ein wissenschaftliches Papier mit detaillierten Infos dazu.

Deep-Fashion-Datensatz als Quelle

Trainiert wird das Modell anhand von 2D-Bildern, die als Referenzpunkte gelten. Hier wurde der Deep-Fashion-Datensatz genutzt, der männliche und weibliche Fotomodelle in diversen Posen und mit verschiedenen Kleidungsstücken enthält. Ähnlich wie bei medizinischen MRT-Abbildungen werden dabei von jeder Tiefenebene Querschnitte generiert, die zum Schluss zusammengesetzt eine dreidimensionale Figur ergeben. Ein Bild-Encoder berechnet dabei zu jedem 2D-Pixel die jeweilige 3D-Koordinate Z und schätzt, ob sich diese innerhalb oder außerhalb des jeweils betrachteten Bildquerschnitts befindet. Diese Mengen nennt das Forscherteam Occupancy Fields.

Pifu HD lässt einen grobauflösenden und einen feinauflösenden Bildencoder parallel laufen. Zweiterer nutzt die vom ursprünglichen Pifu, welches ausschließlich auf einen grob auflösenden Bildencoder setzt, generierten 3D-Informationen und erstellt daraus ein eigenes 3D-Modell. Dieses ist durch die höhere Auflösung detaillierter. Die Vorgängerversion konnte zudem auch RGB-Werte von Bildern erkennen, um daraus Texturen für die 3D-Modelle zu erstellen. Pifu HD gibt derzeit noch untexturierte Modelle aus.

Golem Karrierewelt
  1. Certified Network Defender (CND): virtueller Fünf-Tage-Workshop
    17.-21.10.2022, Virtuell
  2. Apache Kafka Grundlagen: virtueller Zwei-Tage-Workshop
    22./23.11.2022, Virtuell
Weitere IT-Trainings

Beide Modelle können dabei auch Videoquellen verwenden und diese in 3D-Modelle in Echtzeit und Bild für Bild umwandeln. In einer Videodemonstration funktioniert das schon ganz gut, wenn auch einige Artefakte zu erkennen sind - vor allem an verdeckten Stellen. Deshalb kann Pifu aus mehreren Bildern derselben Referenzperson mit verschiedenen Betrachtungswinkeln ein wesentlich detaillierteres 3D-Modell generieren.

Gerade in Bewegung ist das System aber noch nicht ausgereift und zudem nicht hochauflösend genug, um produktiv eingesetzt zu werden. Der Schritt zwischen den beiden Pifu-Generationen zeigt aber, dass sich das schnell ändern kann.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Elektroauto
Hyundai Ioniq 6 soll 614 km pro Ladung fahren

Beim Ioniq 6 zeigt sich wieder einmal, dass ein niedriger Luftwiderstandsbeiwert essentiell ist.

Elektroauto: Hyundai Ioniq 6 soll 614 km pro Ladung fahren
Artikel
  1. Retro: Programmierer entwickelt Betriebssystem für den NES
    Retro
    Programmierer entwickelt Betriebssystem für den NES

    NESOS ist 48 KByte groß und bietet Nutzern die Möglichkeit, auf Nintendos NES Textdateien zu schreiben und speichern zu können.

  2. ALDI SÜD IT und der digitale Wandel im Handel
     
    ALDI SÜD IT und der digitale Wandel im Handel

    Modernste IT ist heutzutage auch im Handel allgegenwärtig. Nur wer diese Potenziale erkennt, kann langfristig wachsen und seinen Kund*innen ein einzigartiges Erlebnis bescheren. ALDI SÜD geht mit gutem Beispiel voran.
    Sponsored Post von Aldi Süd

  3. GF Technology Summit: High-Tech abseits von Nanometern
    GF Technology Summit
    High-Tech abseits von Nanometern

    Der kleinste Transistor ist nicht alles: Globalfoundries zeigt in Dresden, was vermeintlich alte Technik kann.
    Ein Bericht von Johannes Hiltscher

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MindStar (Gigabyte RTX 3090 Ti 1.099€, RTX 3070 539€) • Alternate (Team Group DDR4/DDR5-RAM u. SSD) • Günstig wie nie: MSI Curved 27" WQHD 165Hz 289€, Philips LED TV 55" Ambilight 549€, Inno3D RTX 3090 Ti 1.199€ • 3 Spiele für 49€ [Werbung]
    •  /