Zum Hauptinhalt Zur Navigation

Microsoft: Visual ChatGPT erstellt und verändert Bilder nach Userwunsch

Microsofts Bildtool wird über einen Dialog mit Menschen gesteuert. Die Basis bilden ChatGPT und bekannte Bild-KIs wie Stable Diffusion.
/ Oliver Nickel
28 Kommentare News folgen (öffnet im neuen Fenster)
Visual ChatGPT generiert Bilder aus Dialogen mit Menschen. (Bild: Microsoft)
Visual ChatGPT generiert Bilder aus Dialogen mit Menschen. Bild: Microsoft

Ein Microsoft-Forschungsteam arbeitet an einer neuen Implementierung von ChatGPT . Visual ChatGPT (PDF)(öffnet im neuen Fenster) generiert Bilder aus Textanfragen.

Außerdem kann die Software einzelne Gegenstände in Bildern erkennen und so auf weiterführende Angaben der User reagieren. So kann etwa ein und dasselbe Bild dynamisch über mehrere Eingaben verändert werden. Das geschieht wie bei ChatGPT-Gesprächen über Dialoge zwischen den Usern und der KI.

Visual ChatGPT integriert neben dem Textgenerator dafür auch Visual-Foundation-Modelle wie Blip, Stable Difussion und Pix2Pix. Welche der Bildgeneratoren die besten für bestimmte Anforderungen sind, gibt ein Prompt Manager an. Dieser kontrolliert auch, wann ein Bildgenerator überhaupt genutzt werden soll.

Einsatzzweck noch unklar

Visual ChatGPT soll auch Parameter von Bildern als Textantwort ausgeben können. Die Frage "Welche Farbe hat die Wand in diesem Bild?" kann die KI etwa selbstständig interpretieren und eine möglichst korrekte Antwort in Satzform generieren.

Im Prinzip können so also Bilder nicht nur per Texteingabe generiert, sondern auch editiert oder teilweise beschrieben werden. Das ist ein Unterschied zu klassischen Bildgeneratoren wie Dall-E und Stable Diffusion, die immer neue Bilder aus Textparametern erstellen und vorangegangene Ausgaben höchstens als Referenz verwenden.

Das Forschungsteam stellt Visual ChatGPT in der Preview-Version auch auf Github(öffnet im neuen Fenster) zur Verfügung. Die Software benötigt allerdings viel Videospeicher – bis zu 7 GByte VRAM für einzelne Komponenten. Eine dedizierte GPU ist also empehlenswert.

Bisher ist nicht bekannt, wofür Microsoft das Tool einsetzen wird. Es ließe sich aber sicher gut in die Bing-Bildersuche oder andere Programme integrieren.


Relevante Themen