OpenAI Dall-E: GPT-3-Variante wandelt Text in Bilder um
Die Software kann diverse Motive in verschiedenen Anordnungen und Renderstilen erstellen. Dazu braucht es Texteingaben.

Das Team von OpenAI hat eine neue Version von GPT-3 entwickelt. Das KI-System Dall-E kann Wörter und Sätze in Bilder umwandeln. Das geschieht mithilfe von 12 Milliarden Parametern, die dem System zur Verfügung stehen. Dall-E kann so etwa Tiere, geometrische Formen, Gegenstände und andere Objekte zeichnen. Auch scheint es möglich zu sein, einen bestimmten Renderstil zu definieren. Einige Beispiele zeigen etwa fotorealistische Ansätze, während andere abstrakte Pixel- und Voxelart darstellen.
Um Bilder zu erstellen, verwendet das KI-Programm vorgegebene Sätze. Diese beschreiben die Argumente des Bildes: etwa Objekte, deren Farbe, Aussehen und Form sowie die Positionen von Elementen zueinander. Der Satz "Eine pentagonale grüne Uhr" gibt so etwa einen fünfeckigen Wecker mit Analogziffernblatt aus. Auch komplexere Anweisungen sind möglich, etwa: "Ein Stapel aus drei Würfeln. Ein roter Würfel ist oben und liegt auf einem grünen Würfel. Der grüne Würfel ist in der Mitte und liegt auf einem blauen Würfel. Der blaue Würfel ist ganz unten."
Anhand dieser Anweisung generiert das System diverse Ergebnisse, die sich teils unterscheiden. Die Software hat also Raum zur Interpretation. So wurde etwa in einigen Beispielen ein Turm aus mehr als drei Würfeln generiert. In anderen wurde eine Pyramide aus Würfeln gestapelt. In wieder anderen Bildern ist ein komplett falsches Ergebnis zu sehen.
Die KI ist nicht perfekt
OpenAI gibt, wie schon bei GPT-3, einmal mehr auch die Fehler des Programms zu. So kann es etwa Formen und Farben erkennen, hat aber bei den Positionen von Objekten zueinander Probleme, etwa wenn ein Gegenstand hinter einem anderen generiert werden soll. Auch sind komplexere Anweisungen und zu verschachtelte Sätze ein Problem für die KI, wodurch Zusammenhänge falsch oder gar nicht erkannt werden.
Interessant ist aber, dass Dall-E diverse eigentlich nicht zusammenhängende Konzepte zu Bildern zusammenführen kann. "Eine Schnecke mit der Oberfläche einer Harfe" ergibt etwa tatsächlich eine Fotomontage aus dem Musikinstrument und dem Kriechtier. Auch kann die KI Bilder in verschiedenen Stilen parallel rendern - etwa als fotorealistisches Abbild und als Skizze zugleich.
"Dall-E ist ein simpler decoderbegrenzter Umwandler, der sowohl Text als auch Bilder in einem einzelnen Strom aus 1.280 Tokens erhält - 256 für den Text und 1.024 für das Bild", beschreibt OpenAI das Programm. Zu einem späteren Zeitpunkt will das Unternehmen eine detaillierte Abhandlung verfassen, die die Funktionsweise genauer beschreibt.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Nimmt man nur Notiz, wenn man etwas kommentiert? Klar kann man schreiben, wie toll und...
Kommentieren