Neuronale Netzwerke: KI-Forscher erwecken die Mona Lisa zum Leben
In Kooperation mit Samsung stellen Forscher eine Software vor, die mit möglichst wenigen Quellbildern Gesichter auf andere Gesichter in Videoclips übertragen kann. Das funktioniert bei echten Menschen und Gemälden - und lässt etwa die Mona Lisa zu einer sprechenden Person werden.

Forscher haben ein neuronales Netzwerk vorgestellt, das Gesichter und Gesichtsbewegungen auf andere Personen in Videoclips übertragen kann. In einer Präsentation erweckte das Team so beispielsweise Leonardo da Vincis Mona Lisa zum Leben. Interessant: Das eigentlich zweidimensionale Bild wird mit der Software in verschiedenen Perspektiven gerendert. Zusätzliche Informationen erstellt das System aus eigenen Lerndaten heraus. Veröffentlicht und dokumentiert wird das Projekt auf arxiv.org (PDF) von Samsung AI Center.
Obwohl die Idee an sich nicht neu ist, wie das Einmannprojekt Deep Fakes beweist, ist der Vorteil des fertig trainierten Modells, dass mit Hilfe von möglichst wenigen Beispielbildern Ergebnisse erzeugt werden können. In der Youtube-Präsentation funktioniert das bereits bei einem einzelnen Bild, auch wenn weitere Daten - im Beispiel 16 Motive derselben Person - das Ergebnis sichtbar verbessern.
Training braucht viele Daten
Das Modell erstellt dabei ein abstraktes Modell des Gesichtes, das die für Menschen wichtigsten Elemente enthält. Dazu zählen die generelle Gesichtsform, der Mund, die Nase, die Augen und Augenbrauenbewegungen. Auf Basis dieser wenigen Daten wird eine Gesichtstextur auf ein anderes Gesicht gerendert. Das Ergebnis sieht bereits recht überzeugend aus, was besonders auf Kunstwerke wie die erwähnte Mona Lisa zutrifft. Einige Verzerrungen und Artefakte fallen dort nicht ganz so stark auf, wie es noch bei Aufnahmen von echten Personen der Fall ist.
Das Adversial Neural Network besteht aus zwei Systemen. Das eine prüft die Ergebnisse des anderen auf Authentizität und gibt eine Einschätzung und Feedback zurück. Basierend darauf passt das generierende Modell seine Parameter an, bis das Ergebnis für das prüfende System überzeugend ist. In dieser Lernphase reichen allerdings keine acht Beispielbilder aus. Stattdessen nutzen die Forscher den Videodatensatz Voxceleb2 mit 6.000 verschiedenen Sprechern, die mehr als eine Millionen Samples stellen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Zu den Warum - stell dir vor das du eine tolle Filmidee hast. Du schreibst das Drehbuch...
Sieht sehr unnatürlich aus. Man erkennt die anderen Gesichter die für die...
Für mich sieht es aus, als hätte die KI nicht so ganz die Person vom Hintergrund trennen...