Zum Hauptinhalt Zur Navigation

Deep Learning: KI krempelt die Kunst um

Wir lassen unseren Rechner träumen und zeigen, wie zurzeit mit Deep Learning bei der KI -Kunst Geschichte geschrieben wird.
/ Martin Wolf
43 Kommentare News folgen (öffnet im neuen Fenster)
"A detailed painting of an allegory of truth and lies" - Disco Diffusion (Versuch 55) (Bild: Martin Wolf / Golem.de)
"A detailed painting of an allegory of truth and lies" - Disco Diffusion (Versuch 55) Bild: Martin Wolf / Golem.de

"Ein detailliertes Gemälde von allem im Stil von Hieronymus Bosch" - diesen Auftrag geben wir unserer Kunst-KI. Wir bekommen ein Bild, auf dem sich zahlreiche unidentifizierbare Wesen in einer Landschaft tummeln. Nicht ganz zeitgenössisch ist der Vordergrund defokussiert wie auf einem Foto.

Das mag daran liegen, dass wir noch das Stichwort Unreal Engine 3 hinzugefügt haben. Interessanterweise bringt uns die Zeile: "Ein detailliertes Gemälde von nichts im Stil von Hieronymus Bosch" ein recht ähnliches Ergebnis und zeigt eine Vorliebe unseres Programmes für Kugeln. Visuell ansprechend sind beide Bilder - aber Kunst sind sie ganz sicher nicht.

Erst seit den 2020er Jahren ist die komplette Erstellung von Bildern und Videos auf Basis eines einzigen Wortes oder Satzes möglich - inklusive Anmerkungen zum gewünschten Stil. Seitdem hat sich eine Menge getan. Wenn die Entwicklung in dieser Geschwindigkeit weiter vorangeht, dann sind Stockfotos, Gebrauchsillustrationen und viele Bereiche der Bildgestaltung in wenigen Jahren durch künstliche Intelligenz ersetzbar - und die Menschen, die sie entwerfen, müssen sich nach neuen Jobs umsehen.

Wir geben hier einen kurzen Überblick über die Entwicklung zum aktuellen Stand der Technologie und zeigen ein paar Möglichkeiten, selbst eine KI zum Träumen zu bringen.

Mustererkennung als Grundlage

Künstliche Intelligenz ist in diesem Zusammenhang ein sehr ungenauer Begriff, denn es handelt sich um maschinelles Lernen(öffnet im neuen Fenster) , genauer: Deep Learning(öffnet im neuen Fenster) .

Deep Learning basiert auf Mustererkennung und einer schrittweisen Verfeinerung der Datenauswertung über viele Ebenen, die wie Neuronen im Gehirn miteinander agieren. Sie verstärken Wege zu gewünschten Ergebnissen und verwerfen unerwünschte. Aber woher weiß das System, was wir wollen und was nicht?

Hier kommen Trainingsdaten ins Spiel. Anhand aufbereiteter Datensätze, die von Menschen klassifiziert wurden, kann das Netzwerk neue Daten auf ähnliche Weise behandeln. Ein einfaches Beispiel wäre die Erkennung einer Katze auf einem Bild. Wenn dem Netzwerk genügend Daten von Bildern mit als Katzen definierten Inhalten zur Verfügung gestellt wurden, wird es anhand der Mustererkennung selbst Katzen lokalisieren.

Im Training steckt auch eines der größten Probleme aller derzeitigen Netzwerke. Während ein Kind nach dem Ansehen und Lernen des Inhaltes Katze sehr schnell jede Katze in jeder möglichen Position - zum Beispiel mit gedrehtem Kopf - identifizieren kann, würde das Netzwerk gnadenlos scheitern, wenn die Trainingsdaten keine Bilder von Katzen in Profilansicht enthielten.

Unsere KI träumt Bilder
Unsere KI träumt Bilder (02:18)

Das mag bei Katzenbildern kein Drama sein - aber eine solche Bias(öffnet im neuen Fenster) genannte Wahrnehmungsverzerrung kann gravierende Folgen haben, wenn es um KI-Entscheidungen geht, die das Leben von Menschen beeinflussen. Besonders problematisch ist dabei, dass sich aufgrund der schlechten Nachvollziehbarkeit der Ergebnisse von KI-Netzwerken sehr schwer feststellen lässt, ob ein Bias (eine Voreingenommenheit) vorliegt und woher er stammt. Deshalb ist die Vermeidung von Bias eine der wichtigsten ethischen Regeln(öffnet im neuen Fenster) bei der Entwicklung von selbstlernenden Netzwerken.

Bias und ethische Bedenken werden im Folgenden wieder eine Rolle spielen, aber zunächst werfen wir einen Blick zurück auf die ersten funktionierenden Bildgeneratoren, um die Wucht der Entwicklung der letzten Jahre zu zeigen.

Tiefe Träume mit Google

Sieben Jahre sind eine lange Zeit in der Informationstechnologie, doch in der KI-Wissenschaft ist es die Steinzeit, über die wir im Folgenden berichten.

Im Jahr 2015 veröffentlichte der bei Google angestellte Forscher Alexander Mordvintsev(öffnet im neuen Fenster) das erste Programm, das Computer zum Träumen brachte: Deep Dream(öffnet im neuen Fenster) . Dessen Grundprinzip folgen alle weiteren hier besprochenen Netzwerke.

Vereinfacht gesagt dreht Deep Dream die Bilderkennung um. Statt einfach nur Strukturen und Inhalte zu erkennen, fügt es sie an passender Stelle in ein Ausgangsbild ein. Dabei entstehen psychedelisch wirkende, bunte Werke. Mordvintsev wollte jedoch den Computer gar nicht zu künstlerischen Äußerungen bringen, sondern den oben erwähnten Bias aufdecken.

Es sollte überprüft werden, ob die Erkennung von Inhalten in Details korrekt war: Wenn das Programm beispielsweise nur Bilder von Hunden mit Halsbändern ausgab, dann waren die Trainingsdaten unsauber und das System nahm folglich an, dass ein Halsband unabdingbar zu einem Hund gehört, ebenso wie Augen.

Weil Deep Dream sehr schnell populär wurde, erweiterte sich sein Spektrum 2016 um eine erste ästhetisch sinnvolle Anwendung, den Style Transfer. Damit ließen sich beliebige Bild- und Malstile auf ein Foto anwenden. In der breiten Öffentlichkeit stießen insbesondere Apps zur Verfremdung von Selbstporträts auf Interesse .

Die ersten menschlichen Gesichter wurden 2017 generiert. Das Netzwerk CAN für künstlerische Bildgeneration erschien(öffnet im neuen Fenster) - und brachte den ersten kleinen KI-Kunst-Skandal mit sich: Das französische Kollektiv Obvious versteigerte ein mit CAN erstelltes Bild(öffnet im neuen Fenster) für fast eine halbe Million US-Dollar. Das Problem: Es hatte Code kopiert(öffnet im neuen Fenster) und nicht darauf aufmerksam gemacht.

Wichtiger war aber eine Veröffentlichung eines Teams des Grafikkartenherstellers Nvidia.

GANs und Diffusion

StyleGAN(öffnet im neuen Fenster) erzeugte ab 2018 fotorealistische menschliche Gesichter. Die erfundenen Bilder werden auf Webseiten als Models angeboten(öffnet im neuen Fenster) , nicht existierende Personen kann man sich seitdem mit einem Klick selbst generieren(öffnet im neuen Fenster) . Dass die Qualität der Gesichter und vor allem deren Umgebung noch nicht wirklich überzeugt, lässt sich leicht bei einem Vergleichsexperiment(öffnet im neuen Fenster) der Universität Washington feststellen.

StyleGAN ist trotzdem in zweierlei Hinsicht bemerkenswert. Zunächst zementierte das Projekt die Vorherrschaft der für Deep Learning und Mustererkennung prädestinierten Hardware von Nvidia, weil es konkrete Anwendungsfälle publikumswirksam darstellte. Die CUDA-Schnittstelle(öffnet im neuen Fenster) der Grafikkarten (GPU) des Herstellers ermöglicht schnelle parallele Programmabläufe, was KI-Operationen entscheidend beschleunigt. Mit OpenCL steht eine ähnliche Schnittstelle für GPUs von AMD zur Verfügung, diese ist jedoch weniger weit verbreitet.

StyleGAN ist aber auch deshalb interessant, weil sein Ansatz die folgenden Jahre der KI-Bildgeneration prägte: die Nutzung von General Adversary Networks(öffnet im neuen Fenster) .

Kampf der Netzwerke

Die Idee dazu beschrieb(öffnet im neuen Fenster) der damals nicht einmal 20 Jahre alte Ian Goodfellow(öffnet im neuen Fenster) bereits 2014. Es geht dabei darum, zwei Netzwerke gegeneinander antreten zu lassen.

Das eine bewertet die Arbeit des anderen. Der Generator erstellt Inhalte, die der Diskriminator von echten unterscheiden muss. So lernen beide über unzählige Schritte in einer Art Versteckspiel voneinander, ohne dass der Prozess von außen überwacht werden müsste.

Der vorerst letzte große Schritt zur Erschaffung beliebiger Bildinhalte ohne Vorlage oder Einschränkungen erfolgte 2021 mit CLIP(öffnet im neuen Fenster) und Dall-E(öffnet im neuen Fenster) von Open AI(öffnet im neuen Fenster) . Das von Elon Musk und Microsoft geförderte Unternehmen hatte sich zuvor schon mit Projekten wie dem Sprachmodell GPT-3 einen Namen gemacht. Open AI ist allerdings - anders als der Name vermuten lässt - nicht sonderlich freigiebig mit der selbst entwickelten Technologie. Das liegt daran, dass ein Ziel der Organisation die Erforschung der mit künstlicher Intelligenz verbundenen Gefahren ist.

Dall-E konnte erstmals Bilder auf Zuruf erstellen, lediglich eine beschreibende Texteingabe war nötig. CLIP hingegen erkennt Bildinhalte und analysiert sie. Weil Dall-E nicht frei zugänglich war, konzentrierte sich die KI-Community auf CLIP, das bei Github verfügbar(öffnet im neuen Fenster) ist.

CLIP bildet den Gegenspieler zu einem Bildgenerator, es bewertet dessen Ausgabe. Wenn die Eingabe also lautet: "Ein Stuhl aus Avocados im Stil von van Gogh" , dann beginnt der Prozess mit Rauschen. Aus dieser undefinierten Basis beginnt der Bildgenerator, Details zu erschaffen, und zeigt sie dann CLIP. Dieses bestimmt, wie nah das Bild am gewünschten Ergebnis ist, und schickt den Generator in die nächste Runde.

Zaubersprüche und Diffusion

Drei Generatoren sind derzeit verbreitet: das bereits erwähnte GAN, VAE(öffnet im neuen Fenster) , das unter anderem für sogenannte Deepfakes genutzt wird, und Diffusionsmodelle(öffnet im neuen Fenster) .

Auf letztgenannte kommen wir gleich noch zurück, aber zunächst werfen wir einen Blick auf eines der ersten frei zugänglichen Modelle für die Bildgeneration per Texteingabe: VQGAN+CLIP(öffnet im neuen Fenster) . Catherine Crowson(öffnet im neuen Fenster) machte es 2021 mit einem öffentlichen Notebook(öffnet im neuen Fenster) möglich, ohne jegliche Programmierkenntnisse Bilder zu synthetisieren. Diese Vorgehensweise, den Programmcode in eine cloudbasierte, per Browser erreichbare Oberfläche zu integrieren, ist derzeit wohl die beste Wahl für den Einstieg.

Es gibt zwar immer noch sehr viele Parameter, die nach Zaubersprüchen aussehen, aber die wichtigsten werden in einem Dokument(öffnet im neuen Fenster) erklärt. Wirklich arkan sind eher die einzugebenden Texte.

Um gute Ergebnisse zu erzielen, ist es nicht nur wichtig, den gewünschten Inhalt möglichst genau zu beschreiben, sondern auch stilistische Modifikatoren hinzuzufügen. So entstand das sogenannte Prompt-Engineering. Das Prompt, also die Beschreibung, lässt sich durch einfaches Hinzufügen von Attributen wie 3D, Painting oder Lomography ergänzen, zusätzlich können Schwerpunkte auf einzelne Bestandteile wie Meer, Wolken oder Häuser gelegt werden.

Interessant wird es, wenn sehr spezifische Kriterien angegeben werden. Populär sind beispielsweise: Unreal Engine, Hyperrealistic, Studio Ghibli oder Trending on Artstation. Gerade das letzte ist bemerkenswert, weil es darauf zurückgreift, dass die Trainingsdaten des verwendeten Modells offenbar Bilder der Plattform(öffnet im neuen Fenster) enthielten.

Kommen wir zurück zur Diffusion. Im November 2021 veröffentlichte Open AI mit Guided Diffusion(öffnet im neuen Fenster) einen Prozess(öffnet im neuen Fenster) , der durch schrittweise Entrauschung bessere und höher auflösende Ergebnisse erzielte, als es GANs je konnten. Catherine Crowson stellte umgehend ein neues Notebook(öffnet im neuen Fenster) ein, das bis dato als Grundlage für viele frei zugängliche KI-Kunst-Experimente dient.

Damit sind wir in der Jahresmitte 2022 angekommen. Mit GANs erstellte Gesichter können nicht mehr von realen unterschieden werden und mehrere Modelle für die Bildgeneration auf hohem Niveau existieren - die wir aber nicht alle benutzen können.

Selbst einsteigen in die KI-Kunst

Noch immer sind weder Dall-E noch sein Nachfolger Dall-E 2(öffnet im neuen Fenster) frei zugänglich, eine Anmeldung(öffnet im neuen Fenster) für die Nutzung ist jedoch per Warteliste möglich. Die bislang gezeigten Ergebnisse versprechen viel, wir konnten es jedoch trotz Nachfrage vor einigen Wochen noch nicht ausprobieren.

Ebenfalls verschlossen ist uns der Zugang zu Midjourney(öffnet im neuen Fenster) , das eher einen kommerziellen Ansatz verfolgt und derzeit einladungsbasiert(öffnet im neuen Fenster) über Discord läuft.

Bleiben die freien Alternativen. Wer nur mal schnell hineinschnuppern möchte, findet mit Dalle-mini(öffnet im neuen Fenster) (das nichts mit Dall E zu tun hat), ruDALL-E(öffnet im neuen Fenster) (was ebenfalls nichts mit Dall E zu tun hat) oder Nightcafe(öffnet im neuen Fenster) sowie Laionide(öffnet im neuen Fenster) einfache Möglichkeiten, im Browser niedrig aufgelöste Bilder zu generieren.

Die unserer Meinung nach beste Variante sind allerdings die aktuellen Versionen von Disco Diffusion, das auf dem Notebook von Catherine Crowson basiert. Sie können in der Cloud(öffnet im neuen Fenster) von Google Colab ausprobiert werden, funktionieren aber auch lokal(öffnet im neuen Fenster) auf dem eigenen Rechner.

Es empfiehlt sich in beiden Fällen, eine Anleitung(öffnet im neuen Fenster) zu konsultieren, der Besuch des entsprechenden Subreddits(öffnet im neuen Fenster) lohnt sich.

Wir haben Disco Diffusion aus dem oben verlinkten Github-Repository installiert, in dem Schritt für Schritt erklärt wird, wie man die benötigte virtuelle Linux-Maschine unter Windows 10 aufsetzt. Ganz problemlos ist die Sache trotzdem nicht, denn einige in dem Jupyter-Notebook enthaltene Links zu den erforderlichen Modellen sind veraltet. Ihre aktuelle Position ist nicht schwer herauszufinden(öffnet im neuen Fenster) , die Links müssen lediglich geändert werden.

Wir empfehlen den ersten Durchlauf mit den Standardeinstellungen, um weitere Fehler zu erkennen.

Unsere KI träumt Bilder
Unsere KI träumt Bilder (02:18)

Der klassische Flaschenhals ist ein Mangel an Speicher bei der Nvidia-Grafikkarte. Wir konnten mit einer RTX 2070 maximal Bilder mit einer Auflösung von 512 x 512 Pixeln generieren. Eine Steigerung hat hier den exponentiellen Anstieg des VRAM-Bedarfs zur Folge.

Das ist der Grund dafür, dass viele KI-Interessierte die Colab-Notebooks nutzen. Bei denen steckt nämlich bestenfalls eine äußerst potente Profi-GPU in der virtuellen Maschine, mit einer Subskription sogar garantiert(öffnet im neuen Fenster) . Wir konnten mit einer RTX 3080Ti immerhin die Auflösung auf 1.280 x 768 Pixel erhöhen.

Pro Bild braucht unser Rechner ja nach Einstellung von Detailgrad und Komplexität des Prompts zwischen 90 Sekunden und 20 Minuten. Da eigentlich niemals auf Anhieb ein gutes Bild entsteht, lassen wir den Rechner wieder und wieder mit automatisch erzeugten neuen Ausgangswerten malen.

Er träumt so Hunderte oder Tausende Bilder, die wir entweder einzeln ansehen können, oder wir lassen ihn in das erste Bild hineinträumen und erstellen eine Animation. Die können wir alle paar Bilder mit neuen Themen anreichern. So kann beispielsweise ein Musikvideo(öffnet im neuen Fenster) entstehen.

Die größten Hürden für die Modelle waren bislang Schrift, die realistische und artfefaktfreie Darstellung von Menschen, streng geometrische Formen sowie Symmetrie. Es ist zu erwarten, dass kommende Programme wie Googles Imagen(öffnet im neuen Fenster) und Parti(öffnet im neuen Fenster) solche Probleme lösen. Auf der gestalterischen Seite wird die KI durch das Ausgangsmaterial limitiert. Die Hunderte von Millionen Bilder, die die Basis für alle Trainingsdaten bilden, sind von Menschen klassifiziert worden.

Das bedeutet, dass die Eingabe von "beautiful" als Ergänzung für einen Bilderwunsch ganz einfach den zeitgemäßen Geschmack reproduziert und in eine bestimmte Richtung generische Stile verfestigt. Die derzeitige Geschwindigkeit des Fortschritts auf dem Gebiet der Bildsynthese durch Texteingabe lässt dennoch vermuten, dass innerhalb der nächsten zwei Jahre Werkzeuge auf den Markt kommen werden, die jeglichen erdenklichen Inhalt in hoher Auflösung produzieren können.

Wie geht es weiter?

Damit stellt sich die Frage nach den gesellschaftlichen Folgen und den ethischen Implikationen. Wie bereits erwähnt sind die verwendeten Modelle nicht frei von Bias - was alle Autorinnen und Autoren der Modelle auch offensiv kommunizieren(öffnet im neuen Fenster) .

Die generierten Inhalte können eine derzeit noch nicht einschätzbare Menge an Problemen verursachen. Schließlich muss man irgendwann davon ausgehen, dass kein einziges Bild mehr real ist. Schon jetzt bewies(öffnet im neuen Fenster) der Autor Matt Bell, dass KI-generierte Urlaubsbilder überzeugend genug sind. Er mischte Dall-E-2-Schnappschüsse von Hawaii unter seine realen Fotos, ohne dass es jemandem auffiel. Für Menschen, die ihr Geld mit künstlerisch gestalteten Bildern jeglicher Art verdienen, dürften die KI-Modelle sich zu einer Existenzbedrohung entwickeln, Bilderdienste müssen mit starker Konkurrenz rechnen.

Das sind sicherlich Gründe dafür, dass OpenAI und Google sich derart verschlossen zeigen, was das Teilen ihrer Technologie betrifft. So kann die Revolution der Bilder träumender Computer zwar für den Moment aufgehalten werden - verhindern lassen wird sie sich aber nicht.


Relevante Themen