Kampf der Netzwerke
Die Idee dazu beschrieb der damals nicht einmal 20 Jahre alte Ian Goodfellow bereits 2014. Es geht dabei darum, zwei Netzwerke gegeneinander antreten zu lassen.
Das eine bewertet die Arbeit des anderen. Der Generator erstellt Inhalte, die der Diskriminator von echten unterscheiden muss. So lernen beide über unzählige Schritte in einer Art Versteckspiel voneinander, ohne dass der Prozess von außen überwacht werden müsste.
Der vorerst letzte große Schritt zur Erschaffung beliebiger Bildinhalte ohne Vorlage oder Einschränkungen erfolgte 2021 mit CLIP und Dall-E von Open AI. Das von Elon Musk und Microsoft geförderte Unternehmen hatte sich zuvor schon mit Projekten wie dem Sprachmodell GPT-3 einen Namen gemacht. Open AI ist allerdings - anders als der Name vermuten lässt - nicht sonderlich freigiebig mit der selbst entwickelten Technologie. Das liegt daran, dass ein Ziel der Organisation die Erforschung der mit künstlicher Intelligenz verbundenen Gefahren ist.
Dall-E konnte erstmals Bilder auf Zuruf erstellen, lediglich eine beschreibende Texteingabe war nötig. CLIP hingegen erkennt Bildinhalte und analysiert sie. Weil Dall-E nicht frei zugänglich war, konzentrierte sich die KI-Community auf CLIP, das bei Github verfügbar ist.
CLIP bildet den Gegenspieler zu einem Bildgenerator, es bewertet dessen Ausgabe. Wenn die Eingabe also lautet: "Ein Stuhl aus Avocados im Stil von van Gogh", dann beginnt der Prozess mit Rauschen. Aus dieser undefinierten Basis beginnt der Bildgenerator, Details zu erschaffen, und zeigt sie dann CLIP. Dieses bestimmt, wie nah das Bild am gewünschten Ergebnis ist, und schickt den Generator in die nächste Runde.
Zaubersprüche und Diffusion
Drei Generatoren sind derzeit verbreitet: das bereits erwähnte GAN, VAE, das unter anderem für sogenannte Deepfakes genutzt wird, und Diffusionsmodelle.
Auf letztgenannte kommen wir gleich noch zurück, aber zunächst werfen wir einen Blick auf eines der ersten frei zugänglichen Modelle für die Bildgeneration per Texteingabe: VQGAN+CLIP. Catherine Crowson machte es 2021 mit einem öffentlichen Notebook möglich, ohne jegliche Programmierkenntnisse Bilder zu synthetisieren. Diese Vorgehensweise, den Programmcode in eine cloudbasierte, per Browser erreichbare Oberfläche zu integrieren, ist derzeit wohl die beste Wahl für den Einstieg.
Es gibt zwar immer noch sehr viele Parameter, die nach Zaubersprüchen aussehen, aber die wichtigsten werden in einem Dokument erklärt. Wirklich arkan sind eher die einzugebenden Texte.
Um gute Ergebnisse zu erzielen, ist es nicht nur wichtig, den gewünschten Inhalt möglichst genau zu beschreiben, sondern auch stilistische Modifikatoren hinzuzufügen. So entstand das sogenannte Prompt-Engineering. Das Prompt, also die Beschreibung, lässt sich durch einfaches Hinzufügen von Attributen wie 3D, Painting oder Lomography ergänzen, zusätzlich können Schwerpunkte auf einzelne Bestandteile wie Meer, Wolken oder Häuser gelegt werden.
Interessant wird es, wenn sehr spezifische Kriterien angegeben werden. Populär sind beispielsweise: Unreal Engine, Hyperrealistic, Studio Ghibli oder Trending on Artstation. Gerade das letzte ist bemerkenswert, weil es darauf zurückgreift, dass die Trainingsdaten des verwendeten Modells offenbar Bilder der Plattform enthielten.
Kommen wir zurück zur Diffusion. Im November 2021 veröffentlichte Open AI mit Guided Diffusion einen Prozess, der durch schrittweise Entrauschung bessere und höher auflösende Ergebnisse erzielte, als es GANs je konnten. Catherine Crowson stellte umgehend ein neues Notebook ein, das bis dato als Grundlage für viele frei zugängliche KI-Kunst-Experimente dient.
Damit sind wir in der Jahresmitte 2022 angekommen. Mit GANs erstellte Gesichter können nicht mehr von realen unterschieden werden und mehrere Modelle für die Bildgeneration auf hohem Niveau existieren - die wir aber nicht alle benutzen können.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Tiefe Träume mit Google | Selbst einsteigen in die KI-Kunst |
ist toll. Ich habe wirklich tolle Ergebnisse damit erzielen können, eines der Bilder...
Na toll, ich habe mir das Beispiel gerade erst ausgedacht und da gibt es schon ne Firma...
+1 auf jeden Fall. Ein sehr gut geschriebener Artikel! :)
Ich möchte mich hiermit herzlich dafür bedanken, dass wir in Reaktion auf den Artikel...
Kommentieren