Microsoft: Visual ChatGPT erstellt und verändert Bilder nach Userwunsch
Microsofts Bildtool wird über einen Dialog mit Menschen gesteuert. Die Basis bilden ChatGPT und bekannte Bild-KIs wie Stable Diffusion.

Ein Microsoft-Forschungsteam arbeitet an einer neuen Implementierung von ChatGPT. Visual ChatGPT (PDF) generiert Bilder aus Textanfragen.
Außerdem kann die Software einzelne Gegenstände in Bildern erkennen und so auf weiterführende Angaben der User reagieren. So kann etwa ein und dasselbe Bild dynamisch über mehrere Eingaben verändert werden. Das geschieht wie bei ChatGPT-Gesprächen über Dialoge zwischen den Usern und der KI.
Visual ChatGPT integriert neben dem Textgenerator dafür auch Visual-Foundation-Modelle wie Blip, Stable Difussion und Pix2Pix. Welche der Bildgeneratoren die besten für bestimmte Anforderungen sind, gibt ein Prompt Manager an. Dieser kontrolliert auch, wann ein Bildgenerator überhaupt genutzt werden soll.
Einsatzzweck noch unklar
Visual ChatGPT soll auch Parameter von Bildern als Textantwort ausgeben können. Die Frage "Welche Farbe hat die Wand in diesem Bild?" kann die KI etwa selbstständig interpretieren und eine möglichst korrekte Antwort in Satzform generieren.
Im Prinzip können so also Bilder nicht nur per Texteingabe generiert, sondern auch editiert oder teilweise beschrieben werden. Das ist ein Unterschied zu klassischen Bildgeneratoren wie Dall-E und Stable Diffusion, die immer neue Bilder aus Textparametern erstellen und vorangegangene Ausgaben höchstens als Referenz verwenden.
Das Forschungsteam stellt Visual ChatGPT in der Preview-Version auch auf Github zur Verfügung. Die Software benötigt allerdings viel Videospeicher – bis zu 7 GByte VRAM für einzelne Komponenten. Eine dedizierte GPU ist also empehlenswert.
Bisher ist nicht bekannt, wofür Microsoft das Tool einsetzen wird. Es ließe sich aber sicher gut in die Bing-Bildersuche oder andere Programme integrieren.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
So einfach ist das alles nicht: https://www.youtube.com/watch?v=G08hY8dSrUY
Wenn das so einfach wäre, würde es ja jeder machen. Es gibt nicht umsonst den "IEEE...
Es muss nicht direkt eine ganze Szene für VR sein. Aber sich zumindest neue 3D Meshes und...
Zumindest eine Anbindung von Alexa an ChatGPT würde ich mir auch sehr wünschen. Ein Skill...
Kommentieren