Selbst einsteigen in die KI-Kunst
Noch immer sind weder Dall-E noch sein Nachfolger Dall-E 2 frei zugänglich, eine Anmeldung für die Nutzung ist jedoch per Warteliste möglich. Die bislang gezeigten Ergebnisse versprechen viel, wir konnten es jedoch trotz Nachfrage vor einigen Wochen noch nicht ausprobieren.
Ebenfalls verschlossen ist uns der Zugang zu Midjourney, das eher einen kommerziellen Ansatz verfolgt und derzeit einladungsbasiert über Discord läuft.
Bleiben die freien Alternativen. Wer nur mal schnell hineinschnuppern möchte, findet mit Dalle-mini (das nichts mit Dall E zu tun hat), ruDALL-E (was ebenfalls nichts mit Dall E zu tun hat) oder Nightcafe sowie Laionide einfache Möglichkeiten, im Browser niedrig aufgelöste Bilder zu generieren.
Die unserer Meinung nach beste Variante sind allerdings die aktuellen Versionen von Disco Diffusion, das auf dem Notebook von Catherine Crowson basiert. Sie können in der Cloud von Google Colab ausprobiert werden, funktionieren aber auch lokal auf dem eigenen Rechner.
Es empfiehlt sich in beiden Fällen, eine Anleitung zu konsultieren, der Besuch des entsprechenden Subreddits lohnt sich.
Wir haben Disco Diffusion aus dem oben verlinkten Github-Repository installiert, in dem Schritt für Schritt erklärt wird, wie man die benötigte virtuelle Linux-Maschine unter Windows 10 aufsetzt. Ganz problemlos ist die Sache trotzdem nicht, denn einige in dem Jupyter-Notebook enthaltene Links zu den erforderlichen Modellen sind veraltet. Ihre aktuelle Position ist nicht schwer herauszufinden, die Links müssen lediglich geändert werden.
Wir empfehlen den ersten Durchlauf mit den Standardeinstellungen, um weitere Fehler zu erkennen.
Der klassische Flaschenhals ist ein Mangel an Speicher bei der Nvidia-Grafikkarte. Wir konnten mit einer RTX 2070 maximal Bilder mit einer Auflösung von 512 x 512 Pixeln generieren. Eine Steigerung hat hier den exponentiellen Anstieg des VRAM-Bedarfs zur Folge.
Das ist der Grund dafür, dass viele KI-Interessierte die Colab-Notebooks nutzen. Bei denen steckt nämlich bestenfalls eine äußerst potente Profi-GPU in der virtuellen Maschine, mit einer Subskription sogar garantiert. Wir konnten mit einer RTX 3080Ti immerhin die Auflösung auf 1.280 x 768 Pixel erhöhen.
Pro Bild braucht unser Rechner ja nach Einstellung von Detailgrad und Komplexität des Prompts zwischen 90 Sekunden und 20 Minuten. Da eigentlich niemals auf Anhieb ein gutes Bild entsteht, lassen wir den Rechner wieder und wieder mit automatisch erzeugten neuen Ausgangswerten malen.
Er träumt so Hunderte oder Tausende Bilder, die wir entweder einzeln ansehen können, oder wir lassen ihn in das erste Bild hineinträumen und erstellen eine Animation. Die können wir alle paar Bilder mit neuen Themen anreichern. So kann beispielsweise ein Musikvideo entstehen.
Die größten Hürden für die Modelle waren bislang Schrift, die realistische und artfefaktfreie Darstellung von Menschen, streng geometrische Formen sowie Symmetrie. Es ist zu erwarten, dass kommende Programme wie Googles Imagen und Parti solche Probleme lösen. Auf der gestalterischen Seite wird die KI durch das Ausgangsmaterial limitiert. Die Hunderte von Millionen Bilder, die die Basis für alle Trainingsdaten bilden, sind von Menschen klassifiziert worden.
Das bedeutet, dass die Eingabe von "beautiful" als Ergänzung für einen Bilderwunsch ganz einfach den zeitgemäßen Geschmack reproduziert und in eine bestimmte Richtung generische Stile verfestigt. Die derzeitige Geschwindigkeit des Fortschritts auf dem Gebiet der Bildsynthese durch Texteingabe lässt dennoch vermuten, dass innerhalb der nächsten zwei Jahre Werkzeuge auf den Markt kommen werden, die jeglichen erdenklichen Inhalt in hoher Auflösung produzieren können.
Wie geht es weiter?
Damit stellt sich die Frage nach den gesellschaftlichen Folgen und den ethischen Implikationen. Wie bereits erwähnt sind die verwendeten Modelle nicht frei von Bias – was alle Autorinnen und Autoren der Modelle auch offensiv kommunizieren.
Die generierten Inhalte können eine derzeit noch nicht einschätzbare Menge an Problemen verursachen. Schließlich muss man irgendwann davon ausgehen, dass kein einziges Bild mehr real ist. Schon jetzt bewies der Autor Matt Bell, dass KI-generierte Urlaubsbilder überzeugend genug sind. Er mischte Dall-E-2-Schnappschüsse von Hawaii unter seine realen Fotos, ohne dass es jemandem auffiel. Für Menschen, die ihr Geld mit künstlerisch gestalteten Bildern jeglicher Art verdienen, dürften die KI-Modelle sich zu einer Existenzbedrohung entwickeln, Bilderdienste müssen mit starker Konkurrenz rechnen.
Das sind sicherlich Gründe dafür, dass OpenAI und Google sich derart verschlossen zeigen, was das Teilen ihrer Technologie betrifft. So kann die Revolution der Bilder träumender Computer zwar für den Moment aufgehalten werden – verhindern lassen wird sie sich aber nicht.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
| Kampf der Netzwerke |










ist toll. Ich habe wirklich tolle Ergebnisse damit erzielen können, eines der Bilder...
Na toll, ich habe mir das Beispiel gerade erst ausgedacht und da gibt es schon ne Firma...
+1 auf jeden Fall. Ein sehr gut geschriebener Artikel! :)
Ich möchte mich hiermit herzlich dafür bedanken, dass wir in Reaktion auf den Artikel...