Bildbearbeitung: KI-System bearbeitet KI-generierte Bilder

Bilder, die von einem System mit künstlicher Intelligenz (KI) wie Dall-E oder Stable Diffusion erzeugt wurden, erfüllen oft nicht die Vorstellungen desjenigen, der sie in Auftrag gegeben hat. Ein Team des Max-Planck-Instituts (MPI) für Informatik in Saarbrücken hat ein KI-System entwickelt, das KI-generierte Bilder bearbeitet.
DragGAN nennt das Team sein System, das die Bearbeitung der KI-generierten Bilder ermöglicht. Es sei "ein Werkzeug, das es dank einer übersichtlichen Nutzeroberfläche auch Laien ermöglicht, komplexe Bildbearbeitungen vorzunehmen" , sagte Christian Theobalt(öffnet im neuen Fenster) , geschäftsführender Direktor des Instituts.
Auf einem Bild wird die zu verändernde Stelle markiert. In einem Menü wird dann die gewünschte Veränderung ausgewählt. Mit wenigen Mausklicks kann laut MPI auch ohne Fachkenntnisse in einem Bild mithilfe der KI-Unterstützung beispielsweise die Pose, der Gesichtsausdruck, die Blickrichtung oder der Blickwinkel von einem Haustier angepasst werden.
Zwei Netzwerke arbeiten gegeneinander
Das System basiert auf sogenannten Generative Adversarial Networks, kurz GANs. Generative stehe dabei für die Fähigkeit des Systems, neue Inhalte wie Bilder zu synthetisieren, sagte Xingang Pan, der an der Entwicklung maßgeblich beteiligt war. Adversarial bedeute, dass bei dem KI-Modell zwei Netzwerke gegeneinander arbeiten: ein Generator, der Bilder erstellt, und ein Discriminator, der entscheidet, ob ein Bild echt oder vom Generator erstellt ist. Das System wird laut MPI so lange trainiert, bis der Discriminator die Bilder des Generators nicht mehr von echten unterscheiden kann.
"In unserem Fall erweist sich diese Eigenschaft von GANs als vorteilhaft, wenn in einem Bild zum Beispiel die Blickrichtung eines Hundes geändert soll. Das GAN berechnet dann im Grunde das ganze Bild neu und antizipiert, wo welches Pixel im Bild mit der neuen Blickrichtung landen muss" , erläuterte Pan. Das System berechnet dabei auch Objekte, die vor der Kopfdrehung verdeckt waren und danach sichtbar sind. Ebenso sei es möglich, die Schnauze des Hundes zu öffnen und seine Zähne darzustellen.
DragGAN wurde in erster Linie dafür entwickelt, KI-generierte Bilder zu bearbeiten. "Prinzipiell ist es auch möglich, mit DragGAN individuelle Fotos zu bearbeiten" , sagte Theobalt. "Dafür muss ein Foto jedoch erst in das Modell projiziert werden, und dabei kann es zu Abweichungen kommen." Das liege daran, dass die KI das Foto nachstelle.
Weitere Anwendungen sieht das Team bei Entwürfen etwa von Kleidern oder Autos: Das System könnte beispielsweise in einem Foto nachträglich den Zuschnitt eines Kleidungsstückes ändern oder verschiedene Design-Konfigurationen eines Fahrzeuges darstellen. DragGAN soll auf der Siggraph im August vorgestellt werden. Das Paper ist bereits als Preprint auf dem Dokumentenserver Arxiv abrufbar(öffnet im neuen Fenster) .



