Selbst einsteigen in die KI-Kunst

Noch immer sind weder Dall-E noch sein Nachfolger Dall-E 2 frei zugänglich, eine Anmeldung für die Nutzung ist jedoch per Warteliste möglich. Die bislang gezeigten Ergebnisse versprechen viel, wir konnten es jedoch trotz Nachfrage vor einigen Wochen noch nicht ausprobieren.

Ebenfalls verschlossen ist uns der Zugang zu Midjourney, das eher einen kommerziellen Ansatz verfolgt und derzeit einladungsbasiert über Discord läuft.

Bleiben die freien Alternativen. Wer nur mal schnell hineinschnuppern möchte, findet mit Dalle-mini (das nichts mit Dall E zu tun hat), ruDALL-E (was ebenfalls nichts mit Dall E zu tun hat) oder Nightcafe sowie Laionide einfache Möglichkeiten, im Browser niedrig aufgelöste Bilder zu generieren.

Die unserer Meinung nach beste Variante sind allerdings die aktuellen Versionen von Disco Diffusion, das auf dem Notebook von Catherine Crowson basiert. Sie können in der Cloud von Google Colab ausprobiert werden, funktionieren aber auch lokal auf dem eigenen Rechner.

Es empfiehlt sich in beiden Fällen, eine Anleitung zu konsultieren, der Besuch des entsprechenden Subreddits lohnt sich.

Wir haben Disco Diffusion aus dem oben verlinkten Github-Repository installiert, in dem Schritt für Schritt erklärt wird, wie man die benötigte virtuelle Linux-Maschine unter Windows 10 aufsetzt. Ganz problemlos ist die Sache trotzdem nicht, denn einige in dem Jupyter-Notebook enthaltene Links zu den erforderlichen Modellen sind veraltet. Ihre aktuelle Position ist nicht schwer herauszufinden, die Links müssen lediglich geändert werden.

Wir empfehlen den ersten Durchlauf mit den Standardeinstellungen, um weitere Fehler zu erkennen.

Der klassische Flaschenhals ist ein Mangel an Speicher bei der Nvidia-Grafikkarte. Wir konnten mit einer RTX 2070 maximal Bilder mit einer Auflösung von 512 x 512 Pixeln generieren. Eine Steigerung hat hier den exponentiellen Anstieg des VRAM-Bedarfs zur Folge.

Das ist der Grund dafür, dass viele KI-Interessierte die Colab-Notebooks nutzen. Bei denen steckt nämlich bestenfalls eine äußerst potente Profi-GPU in der virtuellen Maschine, mit einer Subskription sogar garantiert. Wir konnten mit einer RTX 3080Ti immerhin die Auflösung auf 1.280 x 768 Pixel erhöhen.

Pro Bild braucht unser Rechner ja nach Einstellung von Detailgrad und Komplexität des Prompts zwischen 90 Sekunden und 20 Minuten. Da eigentlich niemals auf Anhieb ein gutes Bild entsteht, lassen wir den Rechner wieder und wieder mit automatisch erzeugten neuen Ausgangswerten malen.

Er träumt so Hunderte oder Tausende Bilder, die wir entweder einzeln ansehen können, oder wir lassen ihn in das erste Bild hineinträumen und erstellen eine Animation. Die können wir alle paar Bilder mit neuen Themen anreichern. So kann beispielsweise ein Musikvideo entstehen.

Die größten Hürden für die Modelle waren bislang Schrift, die realistische und artfefaktfreie Darstellung von Menschen, streng geometrische Formen sowie Symmetrie. Es ist zu erwarten, dass kommende Programme wie Googles Imagen und Parti solche Probleme lösen. Auf der gestalterischen Seite wird die KI durch das Ausgangsmaterial limitiert. Die Hunderte von Millionen Bilder, die die Basis für alle Trainingsdaten bilden, sind von Menschen klassifiziert worden.

Das bedeutet, dass die Eingabe von "beautiful" als Ergänzung für einen Bilderwunsch ganz einfach den zeitgemäßen Geschmack reproduziert und in eine bestimmte Richtung generische Stile verfestigt. Die derzeitige Geschwindigkeit des Fortschritts auf dem Gebiet der Bildsynthese durch Texteingabe lässt dennoch vermuten, dass innerhalb der nächsten zwei Jahre Werkzeuge auf den Markt kommen werden, die jeglichen erdenklichen Inhalt in hoher Auflösung produzieren können.

Wie geht es weiter?

Damit stellt sich die Frage nach den gesellschaftlichen Folgen und den ethischen Implikationen. Wie bereits erwähnt sind die verwendeten Modelle nicht frei von Bias – was alle Autorinnen und Autoren der Modelle auch offensiv kommunizieren.

Die generierten Inhalte können eine derzeit noch nicht einschätzbare Menge an Problemen verursachen. Schließlich muss man irgendwann davon ausgehen, dass kein einziges Bild mehr real ist. Schon jetzt bewies der Autor Matt Bell, dass KI-generierte Urlaubsbilder überzeugend genug sind. Er mischte Dall-E-2-Schnappschüsse von Hawaii unter seine realen Fotos, ohne dass es jemandem auffiel. Für Menschen, die ihr Geld mit künstlerisch gestalteten Bildern jeglicher Art verdienen, dürften die KI-Modelle sich zu einer Existenzbedrohung entwickeln, Bilderdienste müssen mit starker Konkurrenz rechnen.

Das sind sicherlich Gründe dafür, dass OpenAI und Google sich derart verschlossen zeigen, was das Teilen ihrer Technologie betrifft. So kann die Revolution der Bilder träumender Computer zwar für den Moment aufgehalten werden – verhindern lassen wird sie sich aber nicht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Kampf der Netzwerke
  1.  
  2. 1
  3. 2
  4. 3
  5. 4


Lemo 18. Jul 2022

ist toll. Ich habe wirklich tolle Ergebnisse damit erzielen können, eines der Bilder...

FlashBFE 11. Jul 2022

Na toll, ich habe mir das Beispiel gerade erst ausgedacht und da gibt es schon ne Firma...

ruphus 11. Jul 2022

+1 auf jeden Fall. Ein sehr gut geschriebener Artikel! :)

mwo (Golem.de) 11. Jul 2022

Ich möchte mich hiermit herzlich dafür bedanken, dass wir in Reaktion auf den Artikel...



Aktuell auf der Startseite von Golem.de
Whistleblower
Ehemaliger US-Konteradmiral äußert sich zu Außerirdischen

Wieder hat sich in den USA ein ehemals hochrangiger Militär und Beamter über Kontakte mit Aliens geäußert.

Whistleblower: Ehemaliger US-Konteradmiral äußert sich zu Außerirdischen
Artikel
  1. Schadstoffnorm 7: Neue Grenzwerte für Abrieb gelten auch für E-Autos
    Schadstoffnorm 7
    Neue Grenzwerte für Abrieb gelten auch für E-Autos

    Die neue Euronorm 7 legt nicht nur Grenzwerte für Bremsen- und Reifenabrieb fest, sondern auch Mindestanforderungen für Akkus.

  2. Ramjet: General Electric testet Hyperschalltriebwerk
    Ramjet
    General Electric testet Hyperschalltriebwerk

    Das Triebwerk soll Flüge mit Mach 5 ermöglichen.

  3. Elektroautos: Mercedes und Stellantis übernehmen komplette Umweltprämie
    Elektroautos
    Mercedes und Stellantis übernehmen komplette Umweltprämie

    Nach dem abrupten Aus der staatlichen Förderung springen erste Hersteller von Elektroautos ein.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Last-Minute-Angebote bei Amazon • Avatar & The Crew Motorfest bis -50% • Xbox Series X 399€ • Cherry MX Board 3.0 S 49,95€ • Crucial MX500 2 TB 110,90€ • AVM FRITZ!Box 7590 AX + FRITZ!DECT 500 219€ [Werbung]
    •  /