Microsoft: Visual ChatGPT erstellt und verändert Bilder nach Userwunsch

Microsofts Bildtool wird über einen Dialog mit Menschen gesteuert. Die Basis bilden ChatGPT und bekannte Bild-KIs wie Stable Diffusion.

Artikel veröffentlicht am ,
Visual ChatGPT generiert Bilder aus Dialogen mit Menschen.
Visual ChatGPT generiert Bilder aus Dialogen mit Menschen. (Bild: Microsoft)

Ein Microsoft-Forschungsteam arbeitet an einer neuen Implementierung von ChatGPT. Visual ChatGPT (PDF) generiert Bilder aus Textanfragen.

Außerdem kann die Software einzelne Gegenstände in Bildern erkennen und so auf weiterführende Angaben der User reagieren. So kann etwa ein und dasselbe Bild dynamisch über mehrere Eingaben verändert werden. Das geschieht wie bei ChatGPT-Gesprächen über Dialoge zwischen den Usern und der KI.

Visual ChatGPT integriert neben dem Textgenerator dafür auch Visual-Foundation-Modelle wie Blip, Stable Difussion und Pix2Pix. Welche der Bildgeneratoren die besten für bestimmte Anforderungen sind, gibt ein Prompt Manager an. Dieser kontrolliert auch, wann ein Bildgenerator überhaupt genutzt werden soll.

Einsatzzweck noch unklar

Visual ChatGPT soll auch Parameter von Bildern als Textantwort ausgeben können. Die Frage "Welche Farbe hat die Wand in diesem Bild?" kann die KI etwa selbstständig interpretieren und eine möglichst korrekte Antwort in Satzform generieren.

Im Prinzip können so also Bilder nicht nur per Texteingabe generiert, sondern auch editiert oder teilweise beschrieben werden. Das ist ein Unterschied zu klassischen Bildgeneratoren wie Dall-E und Stable Diffusion, die immer neue Bilder aus Textparametern erstellen und vorangegangene Ausgaben höchstens als Referenz verwenden.

Das Forschungsteam stellt Visual ChatGPT in der Preview-Version auch auf Github zur Verfügung. Die Software benötigt allerdings viel Videospeicher – bis zu 7 GByte VRAM für einzelne Komponenten. Eine dedizierte GPU ist also empehlenswert.

Bisher ist nicht bekannt, wofür Microsoft das Tool einsetzen wird. Es ließe sich aber sicher gut in die Bing-Bildersuche oder andere Programme integrieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


mnementh 13. Mär 2023 / Themenstart

So einfach ist das alles nicht: https://www.youtube.com/watch?v=G08hY8dSrUY

Cerdo 13. Mär 2023 / Themenstart

Wenn das so einfach wäre, würde es ja jeder machen. Es gibt nicht umsonst den "IEEE...

sushbone 11. Mär 2023 / Themenstart

Es muss nicht direkt eine ganze Szene für VR sein. Aber sich zumindest neue 3D Meshes und...

sushbone 11. Mär 2023 / Themenstart

Zumindest eine Anbindung von Alexa an ChatGPT würde ich mir auch sehr wünschen. Ein Skill...

Kommentieren



Aktuell auf der Startseite von Golem.de
Nammo
TikTok-Strombedarf bremst Expansion von Munitionshersteller

Der norwegische Rüstungskonzern Nammo kann nicht expandieren, weil ein Tiktok-Rechenzentrum die restliche Stromkapazität der Umgebung benötigt.

Nammo: TikTok-Strombedarf bremst Expansion von Munitionshersteller
Artikel
  1. GPT-4: Funken von allgemeiner künstlicher Intelligenz
    GPT-4
    "Funken von allgemeiner künstlicher Intelligenz"

    Microsoft Research enthüllt eine umfangreiche Sammlung von Fallbeispielen, die mit dem ChatGPT-Nachfolger GPT-4 erzeugt wurden. Die Ergebnisse sind beeindruckend.
    Eine Analyse von Helmut Linde

  2. X-59: Nachfolger von Concorde ermöglicht leisen Überschallknall
    X-59
    Nachfolger von Concorde ermöglicht leisen Überschallknall

    Das raketenbetriebene X-59-Flugzeug soll noch in 2023 starten. Trotz Überschallgeschwindigkeit soll der Concorde-Nachfolger der Nasa leise fliegen.

  3. Jugendschutz: Behörden gehen verstärkt gegen Twitter-Pornografie vor
    Jugendschutz
    Behörden gehen verstärkt gegen Twitter-Pornografie vor

    Mit einem KI-Tool suchen Medienanstalten nach jugendgefährdenden Inhalten. Derzeit erhalten Betreiber ungeschützter Accounts Briefe von der Polizei.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Große Amazon Rabatt-Aktion • Monitore bis -50% • Windows Week • Logitech bis -49% • Radeon 7900 XTX 24 GB günstig wie nie • Alexa-Sale bei Amazon • Kingston Fury 16GB DDR4-3600 43,90€ • MindStar: AMD Ryzen 7 5800X3D 309€ • 3 Spiele kaufen, 2 zahlen • MM-Osterangebote [Werbung]
    •  /