Kampf der Netzwerke

Die Idee dazu beschrieb der damals nicht einmal 20 Jahre alte Ian Goodfellow bereits 2014. Es geht dabei darum, zwei Netzwerke gegeneinander antreten zu lassen.

Stellenmarkt
  1. SAP BW/BI on HANA Architekt (m/w/x)
    über duerenhoff GmbH, Pforzheim
  2. Produktmanager / Produktverantwortlicher Online-Dienste (w/m/d)
    Dataport, verschiedene Standorte
Detailsuche

Das eine bewertet die Arbeit des anderen. Der Generator erstellt Inhalte, die der Diskriminator von echten unterscheiden muss. So lernen beide über unzählige Schritte in einer Art Versteckspiel voneinander, ohne dass der Prozess von außen überwacht werden müsste.

Der vorerst letzte große Schritt zur Erschaffung beliebiger Bildinhalte ohne Vorlage oder Einschränkungen erfolgte 2021 mit CLIP und Dall-E von Open AI. Das von Elon Musk und Microsoft geförderte Unternehmen hatte sich zuvor schon mit Projekten wie dem Sprachmodell GPT-3 einen Namen gemacht. Open AI ist allerdings - anders als der Name vermuten lässt - nicht sonderlich freigiebig mit der selbst entwickelten Technologie. Das liegt daran, dass ein Ziel der Organisation die Erforschung der mit künstlicher Intelligenz verbundenen Gefahren ist.

Dall-E konnte erstmals Bilder auf Zuruf erstellen, lediglich eine beschreibende Texteingabe war nötig. CLIP hingegen erkennt Bildinhalte und analysiert sie. Weil Dall-E nicht frei zugänglich war, konzentrierte sich die KI-Community auf CLIP, das bei Github verfügbar ist.

Golem Karrierewelt
  1. Adobe Photoshop Grundkurs: virtueller Drei-Tage-Workshop
    17./18.08.2022, Virtuell
  2. Automatisierung (RPA) mit Python: virtueller Zwei-Tage-Workshop
    03./04.11.2022, Virtuell
Weitere IT-Trainings

CLIP bildet den Gegenspieler zu einem Bildgenerator, es bewertet dessen Ausgabe. Wenn die Eingabe also lautet: "Ein Stuhl aus Avocados im Stil von van Gogh", dann beginnt der Prozess mit Rauschen. Aus dieser undefinierten Basis beginnt der Bildgenerator, Details zu erschaffen, und zeigt sie dann CLIP. Dieses bestimmt, wie nah das Bild am gewünschten Ergebnis ist, und schickt den Generator in die nächste Runde.

Zaubersprüche und Diffusion

Drei Generatoren sind derzeit verbreitet: das bereits erwähnte GAN, VAE, das unter anderem für sogenannte Deepfakes genutzt wird, und Diffusionsmodelle.

Auf letztgenannte kommen wir gleich noch zurück, aber zunächst werfen wir einen Blick auf eines der ersten frei zugänglichen Modelle für die Bildgeneration per Texteingabe: VQGAN+CLIP. Catherine Crowson machte es 2021 mit einem öffentlichen Notebook möglich, ohne jegliche Programmierkenntnisse Bilder zu synthetisieren. Diese Vorgehensweise, den Programmcode in eine cloudbasierte, per Browser erreichbare Oberfläche zu integrieren, ist derzeit wohl die beste Wahl für den Einstieg.

  • Ein detailliertes Gemälde von allem im Stil von Hieronymus Bosch (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Ein detailliertes Gemälde von nichts im Stil von Hieronymus Bosch (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Eine Kamera im Stil von Darth Vader (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Mittelalter und Dystopie im Stil des Goldenen Zeitalters der Niederlande (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Duplo (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Ein schönes Gemälde einer Sommerwiese mit einem Raumschiff am Himmel (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Ein Gemälde einer Geige im Stil des Futurismus (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Held (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Polaroid eines Traumes einer KI (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Prä-Raffaeliten (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Ein Cartoon-Pferd, das über einen Stein springt, im Hintergrund braune Berge (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Ein Polaroid einer diversen Gruppe Menschen (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Eine Pixar-Zitrone mit Sonnenbrille am Strand (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Eine Winterlandschaft mit einem Auge am Himmel (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Eine dystopische Stadtansicht mit LEDs (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Eine Ameisenkolonie auf einem Mainboard (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Natur und Technologie (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Eine monochromatische Zeichnung von Edgar Allen Poe (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Ein Raumschiff in einem Hangar (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Eine glückliche Mumie, die in Ägypten Fahrrad fährt (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Ein realistisches Gemälde der Stadt Berlin im Stil von Greg Rutkowski and Thomas Kinkade  (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Anatomieatlas einer Roboterkatze in einem wissenschaftlichen Magazin (Bild: Martin Wolf / Golem.de - Disco Diffusion)
  • Ein detaillierter Traum einer künstlichen Intelligenz von einem Golem (Bild: Martin Wolf / Golem.de - Disco Diffusion)
Eine dystopische Stadtansicht mit LEDs (Bild: Martin Wolf / Golem.de - Disco Diffusion)

Es gibt zwar immer noch sehr viele Parameter, die nach Zaubersprüchen aussehen, aber die wichtigsten werden in einem Dokument erklärt. Wirklich arkan sind eher die einzugebenden Texte.

Um gute Ergebnisse zu erzielen, ist es nicht nur wichtig, den gewünschten Inhalt möglichst genau zu beschreiben, sondern auch stilistische Modifikatoren hinzuzufügen. So entstand das sogenannte Prompt-Engineering. Das Prompt, also die Beschreibung, lässt sich durch einfaches Hinzufügen von Attributen wie 3D, Painting oder Lomography ergänzen, zusätzlich können Schwerpunkte auf einzelne Bestandteile wie Meer, Wolken oder Häuser gelegt werden.

Interessant wird es, wenn sehr spezifische Kriterien angegeben werden. Populär sind beispielsweise: Unreal Engine, Hyperrealistic, Studio Ghibli oder Trending on Artstation. Gerade das letzte ist bemerkenswert, weil es darauf zurückgreift, dass die Trainingsdaten des verwendeten Modells offenbar Bilder der Plattform enthielten.

Kommen wir zurück zur Diffusion. Im November 2021 veröffentlichte Open AI mit Guided Diffusion einen Prozess, der durch schrittweise Entrauschung bessere und höher auflösende Ergebnisse erzielte, als es GANs je konnten. Catherine Crowson stellte umgehend ein neues Notebook ein, das bis dato als Grundlage für viele frei zugängliche KI-Kunst-Experimente dient.

Damit sind wir in der Jahresmitte 2022 angekommen. Mit GANs erstellte Gesichter können nicht mehr von realen unterschieden werden und mehrere Modelle für die Bildgeneration auf hohem Niveau existieren - die wir aber nicht alle benutzen können.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Tiefe Träume mit GoogleSelbst einsteigen in die KI-Kunst 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Lemo 18. Jul 2022 / Themenstart

ist toll. Ich habe wirklich tolle Ergebnisse damit erzielen können, eines der Bilder...

FlashBFE 11. Jul 2022 / Themenstart

Na toll, ich habe mir das Beispiel gerade erst ausgedacht und da gibt es schon ne Firma...

ruphus 11. Jul 2022 / Themenstart

+1 auf jeden Fall. Ein sehr gut geschriebener Artikel! :)

mwo (Golem.de) 11. Jul 2022 / Themenstart

Ich möchte mich hiermit herzlich dafür bedanken, dass wir in Reaktion auf den Artikel...

Kommentieren



Aktuell auf der Startseite von Golem.de
Google Fonts
Abmahnungen an Webseitenbetreiber mit Google-Schriftarten

Nach einer Entscheidung des Landgerichts München erhalten Webseitenbetreiber mit eingebundenen Google Fonts vermehrt Abmahnungen.

Google Fonts: Abmahnungen an Webseitenbetreiber mit Google-Schriftarten
Artikel
  1. Paw Patrol: US Space Force schickt Roboterhunde auf Patrouille
    Paw Patrol
    US Space Force schickt Roboterhunde auf Patrouille

    Die US Space Force wird einen hundeähnlichen Roboter von Ghost Robotics auf Patrouille schicken, um Personalkosten zu senken.

  2. Programmiersprache: JSON-Erfinder will Javascript in Rente schicken
    Programmiersprache
    JSON-Erfinder will Javascript in Rente schicken

    Douglas Crockford, der Erfinder des Datenformats JSON und Mitentwickler von Javascript, findet, dass die Sprache in Rente geschickt werden sollte.

  3. Windows auf dem Mac: Parallels wird merklich teurer
    Windows auf dem Mac
    Parallels wird merklich teurer

    Parallels 18 bietet eine native Unterstützung für Windows 11 und eine bessere Ressourcenzuweisung. Allerdings wird die Software teurer.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: WD SSD 1TB m. Kühlkörper (PS5) 119,90€, MSI 29,5" 200 Hz 259€, LG QNED 75" 120 Hz 1.455,89€ • MindStar (XFX RX 6950 XT 999€, Gainward RTX 3070 559€) • Gigabyte Deals • Der beste Gaming-PC für 2.000€ • Apple Week bei Media Markt • be quiet! Deals [Werbung]
    •  /