OpenAI Dall-E: GPT-3-Variante wandelt Text in Bilder um

Die Software kann diverse Motive in verschiedenen Anordnungen und Renderstilen erstellen. Dazu braucht es Texteingaben.

Artikel veröffentlicht am ,
Dall-E wandelt Texte in Bilder um.
Dall-E wandelt Texte in Bilder um. (Bild: OpenAI)

Das Team von OpenAI hat eine neue Version von GPT-3 entwickelt. Das KI-System Dall-E kann Wörter und Sätze in Bilder umwandeln. Das geschieht mithilfe von 12 Milliarden Parametern, die dem System zur Verfügung stehen. Dall-E kann so etwa Tiere, geometrische Formen, Gegenstände und andere Objekte zeichnen. Auch scheint es möglich zu sein, einen bestimmten Renderstil zu definieren. Einige Beispiele zeigen etwa fotorealistische Ansätze, während andere abstrakte Pixel- und Voxelart darstellen.

Um Bilder zu erstellen, verwendet das KI-Programm vorgegebene Sätze. Diese beschreiben die Argumente des Bildes: etwa Objekte, deren Farbe, Aussehen und Form sowie die Positionen von Elementen zueinander. Der Satz "Eine pentagonale grüne Uhr" gibt so etwa einen fünfeckigen Wecker mit Analogziffernblatt aus. Auch komplexere Anweisungen sind möglich, etwa: "Ein Stapel aus drei Würfeln. Ein roter Würfel ist oben und liegt auf einem grünen Würfel. Der grüne Würfel ist in der Mitte und liegt auf einem blauen Würfel. Der blaue Würfel ist ganz unten."

Anhand dieser Anweisung generiert das System diverse Ergebnisse, die sich teils unterscheiden. Die Software hat also Raum zur Interpretation. So wurde etwa in einigen Beispielen ein Turm aus mehr als drei Würfeln generiert. In anderen wurde eine Pyramide aus Würfeln gestapelt. In wieder anderen Bildern ist ein komplett falsches Ergebnis zu sehen.

Die KI ist nicht perfekt

OpenAI gibt, wie schon bei GPT-3, einmal mehr auch die Fehler des Programms zu. So kann es etwa Formen und Farben erkennen, hat aber bei den Positionen von Objekten zueinander Probleme, etwa wenn ein Gegenstand hinter einem anderen generiert werden soll. Auch sind komplexere Anweisungen und zu verschachtelte Sätze ein Problem für die KI, wodurch Zusammenhänge falsch oder gar nicht erkannt werden.

Interessant ist aber, dass Dall-E diverse eigentlich nicht zusammenhängende Konzepte zu Bildern zusammenführen kann. "Eine Schnecke mit der Oberfläche einer Harfe" ergibt etwa tatsächlich eine Fotomontage aus dem Musikinstrument und dem Kriechtier. Auch kann die KI Bilder in verschiedenen Stilen parallel rendern - etwa als fotorealistisches Abbild und als Skizze zugleich.

"Dall-E ist ein simpler decoderbegrenzter Umwandler, der sowohl Text als auch Bilder in einem einzelnen Strom aus 1.280 Tokens erhält - 256 für den Text und 1.024 für das Bild", beschreibt OpenAI das Programm. Zu einem späteren Zeitpunkt will das Unternehmen eine detaillierte Abhandlung verfassen, die die Funktionsweise genauer beschreibt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
CS GO mit Source 2
Das ist Valves Counter-Strike 2

Es ist offiziell: Valve stellt Counter-Strike 2 vor. Die Source-2-Engine bringt neues Gameplay und soll klassische Tickraten loswerden.

CS GO mit Source 2: Das ist Valves Counter-Strike 2
Artikel
  1. Malware extrem: USB-Sticks mit Sprengstoff-Füllung an Journalisten gesendet
    Malware extrem
    USB-Sticks mit Sprengstoff-Füllung an Journalisten gesendet

    Journalisten in Ecuador haben per Post USB-Sticks erhalten, die so präpariert waren, dass sie beim Einstecken in den Rechner explodieren.

  2. Offenbach am Main: Anwohnerparkausweis wegen zu schwerem E-Auto entzogen
    Offenbach am Main
    Anwohnerparkausweis wegen zu schwerem E-Auto entzogen

    In Offenbach am Main wurde das Gewicht seines Elektro-SUVs einem Autofahrer zum Verhängnis: Sein Bewohnerparkausweis wurde ihm deshalb entzogen.

  3. Zoom, Teams, Jitsi: Videokonferenzsysteme datenschutzkonform nutzen
    Zoom, Teams, Jitsi
    Videokonferenzsysteme datenschutzkonform nutzen

    Datenschutz für Sysadmins Gerade die beliebten US-Anbieter sind bei Datenschutzbehörden gar nicht beliebt. Wir erläutern die Anforderungen an Videokonferenzsysteme.
    Ein Bericht von Friedhelm Greis

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • MindStar: Ryzen 9 5900X 319€ • Crucial SSD 2TB (PS5) 158€ • Nur bis 24.03.: 38GB Allnet-Flat 12,99€ • Neu: Amazon Smart TVs ab 189€ • Nintendo Switch inkl. Spiel & Goodie 288€ • NBB Black Weeks: Rabatte bis 60% • PS5 + Resident Evil 4 Remake 569€ • LG OLED TV -57% [Werbung]
    •  /