Kampf der Netzwerke

Die Idee dazu beschrieb der damals nicht einmal 20 Jahre alte Ian Goodfellow bereits 2014. Es geht dabei darum, zwei Netzwerke gegeneinander antreten zu lassen.

Das eine bewertet die Arbeit des anderen. Der Generator erstellt Inhalte, die der Diskriminator von echten unterscheiden muss. So lernen beide über unzählige Schritte in einer Art Versteckspiel voneinander, ohne dass der Prozess von außen überwacht werden müsste.

Der vorerst letzte große Schritt zur Erschaffung beliebiger Bildinhalte ohne Vorlage oder Einschränkungen erfolgte 2021 mit CLIP und Dall-E von Open AI. Das von Elon Musk und Microsoft geförderte Unternehmen hatte sich zuvor schon mit Projekten wie dem Sprachmodell GPT-3 einen Namen gemacht. Open AI ist allerdings – anders als der Name vermuten lässt – nicht sonderlich freigiebig mit der selbst entwickelten Technologie. Das liegt daran, dass ein Ziel der Organisation die Erforschung der mit künstlicher Intelligenz verbundenen Gefahren ist.

Dall-E konnte erstmals Bilder auf Zuruf erstellen, lediglich eine beschreibende Texteingabe war nötig. CLIP hingegen erkennt Bildinhalte und analysiert sie. Weil Dall-E nicht frei zugänglich war, konzentrierte sich die KI-Community auf CLIP, das bei Github verfügbar ist.

CLIP bildet den Gegenspieler zu einem Bildgenerator, es bewertet dessen Ausgabe. Wenn die Eingabe also lautet: "Ein Stuhl aus Avocados im Stil von van Gogh", dann beginnt der Prozess mit Rauschen. Aus dieser undefinierten Basis beginnt der Bildgenerator, Details zu erschaffen, und zeigt sie dann CLIP. Dieses bestimmt, wie nah das Bild am gewünschten Ergebnis ist, und schickt den Generator in die nächste Runde.

Zaubersprüche und Diffusion

Drei Generatoren sind derzeit verbreitet: das bereits erwähnte GAN, VAE, das unter anderem für sogenannte Deepfakes genutzt wird, und Diffusionsmodelle.

Auf letztgenannte kommen wir gleich noch zurück, aber zunächst werfen wir einen Blick auf eines der ersten frei zugänglichen Modelle für die Bildgeneration per Texteingabe: VQGAN+CLIP. Catherine Crowson machte es 2021 mit einem öffentlichen Notebook möglich, ohne jegliche Programmierkenntnisse Bilder zu synthetisieren. Diese Vorgehensweise, den Programmcode in eine cloudbasierte, per Browser erreichbare Oberfläche zu integrieren, ist derzeit wohl die beste Wahl für den Einstieg.

  • Prompt: Ein detailliertes Gemälde von allem im Stil von Hieronymus Bosch (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Ein detailliertes Gemälde von nichts im Stil von Hieronymus Bosch (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Eine Kamera im Stil von Darth Vader (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Mittelalter und Dystopie im Stil des Goldenen Zeitalters der Niederlande (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Duplo (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Ein schönes Gemälde einer Sommerwiese mit einem Raumschiff am Himmel (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Ein Gemälde einer Geige im Stil des Futurismus (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Held (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Polaroid eines Traumes einer KI (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Präraffaeliten (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Ein Cartoon-Pferd, das über einen Stein springt, im Hintergrund braune Berge (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Ein Polaroid einer diversen Gruppe Menschen (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Eine Pixar-Zitrone mit Sonnenbrille am Strand (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Eine Winterlandschaft mit einem Auge am Himmel (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Eine dystopische Stadtansicht mit LEDs (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Eine Ameisenkolonie auf einem Mainboard (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Natur und Technologie (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Eine monochromatische Zeichnung von Edgar Allen Poe (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Ein Raumschiff in einem Hangar (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Eine glückliche Mumie, die in Ägypten Fahrrad fährt (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Ein realistisches Gemälde der Stadt Berlin im Stil von Greg Rutkowski und Thomas Kinkade  (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Anatomieatlas einer Roboterkatze in einem wissenschaftlichen Magazin (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
  • Prompt: Ein detaillierter Traum einer künstlichen Intelligenz von einem Golem (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)
Prompt: Eine dystopische Stadtansicht mit LEDs (Bild: Martin Wolf/Golem.de - Disco Diffusion 2022)

Es gibt zwar immer noch sehr viele Parameter, die nach Zaubersprüchen aussehen, aber die wichtigsten werden in einem Dokument erklärt. Wirklich arkan sind eher die einzugebenden Texte.

Um gute Ergebnisse zu erzielen, ist es nicht nur wichtig, den gewünschten Inhalt möglichst genau zu beschreiben, sondern auch stilistische Modifikatoren hinzuzufügen. So entstand das sogenannte Prompt-Engineering. Das Prompt, also die Beschreibung, lässt sich durch einfaches Hinzufügen von Attributen wie 3D, Painting oder Lomography ergänzen, zusätzlich können Schwerpunkte auf einzelne Bestandteile wie Meer, Wolken oder Häuser gelegt werden.

Interessant wird es, wenn sehr spezifische Kriterien angegeben werden. Populär sind beispielsweise: Unreal Engine, Hyperrealistic, Studio Ghibli oder Trending on Artstation. Gerade das letzte ist bemerkenswert, weil es darauf zurückgreift, dass die Trainingsdaten des verwendeten Modells offenbar Bilder der Plattform enthielten.

Kommen wir zurück zur Diffusion. Im November 2021 veröffentlichte Open AI mit Guided Diffusion einen Prozess, der durch schrittweise Entrauschung bessere und höher auflösende Ergebnisse erzielte, als es GANs je konnten. Catherine Crowson stellte umgehend ein neues Notebook ein, das bis dato als Grundlage für viele frei zugängliche KI-Kunst-Experimente dient.

Damit sind wir in der Jahresmitte 2022 angekommen. Mit GANs erstellte Gesichter können nicht mehr von realen unterschieden werden und mehrere Modelle für die Bildgeneration auf hohem Niveau existieren – die wir aber nicht alle benutzen können.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Tiefe Träume mit GoogleSelbst einsteigen in die KI-Kunst 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Lemo 18. Jul 2022

ist toll. Ich habe wirklich tolle Ergebnisse damit erzielen können, eines der Bilder...

FlashBFE 11. Jul 2022

Na toll, ich habe mir das Beispiel gerade erst ausgedacht und da gibt es schon ne Firma...

ruphus 11. Jul 2022

+1 auf jeden Fall. Ein sehr gut geschriebener Artikel! :)

mwo (Golem.de) 11. Jul 2022

Ich möchte mich hiermit herzlich dafür bedanken, dass wir in Reaktion auf den Artikel...



Aktuell auf der Startseite von Golem.de
Whistleblower
Ehemaliger US-Konteradmiral äußert sich zu Außerirdischen

Wieder hat sich in den USA ein ehemals hochrangiger Militär und Beamter über Kontakte mit Aliens geäußert.

Whistleblower: Ehemaliger US-Konteradmiral äußert sich zu Außerirdischen
Artikel
  1. Schadstoffnorm 7: Neue Grenzwerte für Abrieb gelten auch für E-Autos
    Schadstoffnorm 7
    Neue Grenzwerte für Abrieb gelten auch für E-Autos

    Die neue Euronorm 7 legt nicht nur Grenzwerte für Bremsen- und Reifenabrieb fest, sondern auch Mindestanforderungen für Akkus.

  2. Ramjet: General Electric testet Hyperschalltriebwerk
    Ramjet
    General Electric testet Hyperschalltriebwerk

    Das Triebwerk soll Flüge mit Mach 5 ermöglichen.

  3. Elektroautos: Mercedes und Stellantis übernehmen komplette Umweltprämie
    Elektroautos
    Mercedes und Stellantis übernehmen komplette Umweltprämie

    Nach dem abrupten Aus der staatlichen Förderung springen erste Hersteller von Elektroautos ein.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Last-Minute-Angebote bei Amazon • Avatar & The Crew Motorfest bis -50% • Xbox Series X 399€ • Cherry MX Board 3.0 S 49,95€ • Crucial MX500 2 TB 110,90€ • AVM FRITZ!Box 7590 AX + FRITZ!DECT 500 219€ [Werbung]
    •  /