OpenAI Dall-E: GPT-3-Variante wandelt Text in Bilder um

Die Software kann diverse Motive in verschiedenen Anordnungen und Renderstilen erstellen. Dazu braucht es Texteingaben.

Artikel veröffentlicht am ,
Dall-E wandelt Texte in Bilder um.
Dall-E wandelt Texte in Bilder um. (Bild: OpenAI)

Das Team von OpenAI hat eine neue Version von GPT-3 entwickelt. Das KI-System Dall-E kann Wörter und Sätze in Bilder umwandeln. Das geschieht mithilfe von 12 Milliarden Parametern, die dem System zur Verfügung stehen. Dall-E kann so etwa Tiere, geometrische Formen, Gegenstände und andere Objekte zeichnen. Auch scheint es möglich zu sein, einen bestimmten Renderstil zu definieren. Einige Beispiele zeigen etwa fotorealistische Ansätze, während andere abstrakte Pixel- und Voxelart darstellen.

Stellenmarkt
  1. Informatiker (Fachinformatiker) als Softwareentwickler (m/w/d) für C#
    Connext Communication GmbH, Paderborn
  2. Projektmitarbeiter (m/w/d) digitale Technologien und Netzwerke
    Deutsche Energie-Agentur GmbH (dena), Berlin
Detailsuche

Um Bilder zu erstellen, verwendet das KI-Programm vorgegebene Sätze. Diese beschreiben die Argumente des Bildes: etwa Objekte, deren Farbe, Aussehen und Form sowie die Positionen von Elementen zueinander. Der Satz "Eine pentagonale grüne Uhr" gibt so etwa einen fünfeckigen Wecker mit Analogziffernblatt aus. Auch komplexere Anweisungen sind möglich, etwa: "Ein Stapel aus drei Würfeln. Ein roter Würfel ist oben und liegt auf einem grünen Würfel. Der grüne Würfel ist in der Mitte und liegt auf einem blauen Würfel. Der blaue Würfel ist ganz unten."

Anhand dieser Anweisung generiert das System diverse Ergebnisse, die sich teils unterscheiden. Die Software hat also Raum zur Interpretation. So wurde etwa in einigen Beispielen ein Turm aus mehr als drei Würfeln generiert. In anderen wurde eine Pyramide aus Würfeln gestapelt. In wieder anderen Bildern ist ein komplett falsches Ergebnis zu sehen.

Die KI ist nicht perfekt

OpenAI gibt, wie schon bei GPT-3, einmal mehr auch die Fehler des Programms zu. So kann es etwa Formen und Farben erkennen, hat aber bei den Positionen von Objekten zueinander Probleme, etwa wenn ein Gegenstand hinter einem anderen generiert werden soll. Auch sind komplexere Anweisungen und zu verschachtelte Sätze ein Problem für die KI, wodurch Zusammenhänge falsch oder gar nicht erkannt werden.

Golem Akademie
  1. Apache Kafka Grundlagen: virtueller Zwei-Tage-Workshop
    21.–22. März 2022, Virtuell
  2. PowerShell Praxisworkshop: virtueller Vier-Tage-Workshop
    21.–24. Februar 2022, virtuell
Weitere IT-Trainings

Interessant ist aber, dass Dall-E diverse eigentlich nicht zusammenhängende Konzepte zu Bildern zusammenführen kann. "Eine Schnecke mit der Oberfläche einer Harfe" ergibt etwa tatsächlich eine Fotomontage aus dem Musikinstrument und dem Kriechtier. Auch kann die KI Bilder in verschiedenen Stilen parallel rendern - etwa als fotorealistisches Abbild und als Skizze zugleich.

"Dall-E ist ein simpler decoderbegrenzter Umwandler, der sowohl Text als auch Bilder in einem einzelnen Strom aus 1.280 Tokens erhält - 256 für den Text und 1.024 für das Bild", beschreibt OpenAI das Programm. Zu einem späteren Zeitpunkt will das Unternehmen eine detaillierte Abhandlung verfassen, die die Funktionsweise genauer beschreibt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Digitalisierung
500-Euro-Laptops für Lehrer "leistungsfähig und gut nutzbar"

Das Land NRW hat seine Lehrkräfte mit Dienst-Laptops ausgestattet. Doch diese äußern deutliche Kritik und verwenden wohl weiter private Geräte.

Digitalisierung: 500-Euro-Laptops für Lehrer leistungsfähig und gut nutzbar
Artikel
  1. Krypto-Währung: El Salvador nutzt Talfahrt des Bitcoin für großen Ankauf
    Krypto-Währung
    El Salvador nutzt Talfahrt des Bitcoin für großen Ankauf

    Die selbsternannte Bitcoin-Nation El Salvador hat die aktuelle Schwäche der Währung ausgenutzt und eingekauft - offenbar am Smartphone.

  2. Cloud Computing mit AWS
     
    Cloud Computing mit AWS

    Die Golem-Akademie bietet einen Kurs, in dem sich alles um die Konzeption von Web-Anwendungen für die AWS Cloud dreht.
    Sponsored Post von Golem Akademie

  3. Radeon RX 6500 XT: Diese Karte hätte es früher(TM) nie gegeben
    Radeon RX 6500 XT
    Diese Karte hätte es früher(TM) nie gegeben

    In Zeiten irrer Grafikkarten-Preise wird ein winziger Laptop- als überteuerter Gaming-Desktop-Chip verkauft. Eine ebenso perfide wie geniale Idee.
    Eine Analyse von Marc Sauter

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • RTX 3080 Ti 12GB 1.699€ • Intel i9-10900K 444,88€ • Huawei Curved Gaming-Monitor 27" 299€ • Hisense-TVs zu Bestpreisen (u. a. 55" OLED 739€) • RX 6900 1.449€ • MindStar (u.a. Intel i7-10700KF 279€) • 4 Blu-rays für 22€ • LG OLED (2021) 77 Zoll 120Hz 2.799€ [Werbung]
    •  /