• IT-Karriere:
  • Services:

OpenAI Dall-E: GPT-3-Variante wandelt Text in Bilder um

Die Software kann diverse Motive in verschiedenen Anordnungen und Renderstilen erstellen. Dazu braucht es Texteingaben.

Artikel veröffentlicht am ,
Dall-E wandelt Texte in Bilder um.
Dall-E wandelt Texte in Bilder um. (Bild: OpenAI)

Das Team von OpenAI hat eine neue Version von GPT-3 entwickelt. Das KI-System Dall-E kann Wörter und Sätze in Bilder umwandeln. Das geschieht mithilfe von 12 Milliarden Parametern, die dem System zur Verfügung stehen. Dall-E kann so etwa Tiere, geometrische Formen, Gegenstände und andere Objekte zeichnen. Auch scheint es möglich zu sein, einen bestimmten Renderstil zu definieren. Einige Beispiele zeigen etwa fotorealistische Ansätze, während andere abstrakte Pixel- und Voxelart darstellen.

Stellenmarkt
  1. Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) GmbH, Bagdad
  2. über duerenhoff GmbH, Schwalmstadt

Um Bilder zu erstellen, verwendet das KI-Programm vorgegebene Sätze. Diese beschreiben die Argumente des Bildes: etwa Objekte, deren Farbe, Aussehen und Form sowie die Positionen von Elementen zueinander. Der Satz "Eine pentagonale grüne Uhr" gibt so etwa einen fünfeckigen Wecker mit Analogziffernblatt aus. Auch komplexere Anweisungen sind möglich, etwa: "Ein Stapel aus drei Würfeln. Ein roter Würfel ist oben und liegt auf einem grünen Würfel. Der grüne Würfel ist in der Mitte und liegt auf einem blauen Würfel. Der blaue Würfel ist ganz unten."

Anhand dieser Anweisung generiert das System diverse Ergebnisse, die sich teils unterscheiden. Die Software hat also Raum zur Interpretation. So wurde etwa in einigen Beispielen ein Turm aus mehr als drei Würfeln generiert. In anderen wurde eine Pyramide aus Würfeln gestapelt. In wieder anderen Bildern ist ein komplett falsches Ergebnis zu sehen.

Die KI ist nicht perfekt

OpenAI gibt, wie schon bei GPT-3, einmal mehr auch die Fehler des Programms zu. So kann es etwa Formen und Farben erkennen, hat aber bei den Positionen von Objekten zueinander Probleme, etwa wenn ein Gegenstand hinter einem anderen generiert werden soll. Auch sind komplexere Anweisungen und zu verschachtelte Sätze ein Problem für die KI, wodurch Zusammenhänge falsch oder gar nicht erkannt werden.

Interessant ist aber, dass Dall-E diverse eigentlich nicht zusammenhängende Konzepte zu Bildern zusammenführen kann. "Eine Schnecke mit der Oberfläche einer Harfe" ergibt etwa tatsächlich eine Fotomontage aus dem Musikinstrument und dem Kriechtier. Auch kann die KI Bilder in verschiedenen Stilen parallel rendern - etwa als fotorealistisches Abbild und als Skizze zugleich.

"Dall-E ist ein simpler decoderbegrenzter Umwandler, der sowohl Text als auch Bilder in einem einzelnen Strom aus 1.280 Tokens erhält - 256 für den Text und 1.024 für das Bild", beschreibt OpenAI das Programm. Zu einem späteren Zeitpunkt will das Unternehmen eine detaillierte Abhandlung verfassen, die die Funktionsweise genauer beschreibt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)

FlashBFE 08. Jan 2021 / Themenstart

Nimmt man nur Notiz, wenn man etwas kommentiert? Klar kann man schreiben, wie toll und...

Kommentieren


Folgen Sie uns
       


Assassin's Creed Valhalla - Fazit

Im Video stellt Golem.de das Action-Rollenspiel Assassins's Creed Valhalla vor, das Spieler als Wikinger nach England schickt.

Assassin's Creed Valhalla - Fazit Video aufrufen
Star Wars und Star Trek: Was The Mandalorian besser macht als Discovery
Star Wars und Star Trek
Was The Mandalorian besser macht als Discovery

Unabhängig von der Story und davon, ob man Star Trek oder Star Wars lieber mag - nach den jüngsten Staffeln wird deutlich: Discovery kann handwerklich nicht mit The Mandalorian mithalten. Achtung, Spoiler!
Ein IMHO von Tobias Költzsch

  1. Lucasfilm Games Ubisoft entwickelt Open World mit Star Wars
  2. Krieg der Sterne Star Wars spielt unter dem Logo von Lucasfilm Games
  3. Star Wars chronologisch Über 150 Stunden Krieg der Sterne

CPU und GPU vereint: Wie die Fusion zu AMDs Zukunft wurde
CPU und GPU vereint
Wie die Fusion zu AMDs Zukunft wurde

Mit Lauchgemüse und Katzen-Kernen zu Playstation und Xbox: Wir blicken auf ein Jahrzehnt an Accelerated Processing Units (APUs) zurück.
Ein Bericht von Marc Sauter


    Surface Pro X, Surface Book: Microsoft Surface muss sich verändern
    Surface Pro X, Surface Book
    Microsoft Surface muss sich verändern

    CES 2021 Ob Laptop oder Tablet: Seit Jahren stopft Microsoft etwas bessere Prozessoren in die immer gleichen Gehäuse. Das darf nicht so weitergehen.
    Ein IMHO von Oliver Nickel

    1. Surface Microsoft setzt standardmäßig auf Hardware-Security
    2. Surface Pro 7+ Mehr Akku, LTE und 32 GByte RAM im Surface Pro
    3. Microsoft Erste Bilder zeigen Surface Laptop 4 und Surface Pro 8

      •  /