Selbst einsteigen in die KI-Kunst

Noch immer sind weder Dall-E noch sein Nachfolger Dall-E 2 frei zugänglich, eine Anmeldung für die Nutzung ist jedoch per Warteliste möglich. Die bislang gezeigten Ergebnisse versprechen viel, wir konnten es jedoch trotz Nachfrage vor einigen Wochen noch nicht ausprobieren.

Stellenmarkt
  1. SAP BW/BI on HANA Architekt (m/w/x)
    über duerenhoff GmbH, Pforzheim
  2. Produktmanager / Produktverantwortlicher Online-Dienste (w/m/d)
    Dataport, verschiedene Standorte
Detailsuche

Ebenfalls verschlossen ist uns der Zugang zu Midjourney, das eher einen kommerziellen Ansatz verfolgt und derzeit einladungsbasiert über Discord läuft.

Bleiben die freien Alternativen. Wer nur mal schnell hineinschnuppern möchte, findet mit Dalle-mini (das nichts mit Dall E zu tun hat), ruDALL-E (was ebenfalls nichts mit Dall E zu tun hat) oder Nightcafe sowie Laionide einfache Möglichkeiten, im Browser niedrig aufgelöste Bilder zu generieren.

Die unserer Meinung nach beste Variante sind allerdings die aktuellen Versionen von Disco Diffusion, das auf dem Notebook von Catherine Crowson basiert. Sie können in der Cloud von Google Colab ausprobiert werden, funktionieren aber auch lokal auf dem eigenen Rechner.

Golem Karrierewelt
  1. Jira für Anwender: virtueller Ein-Tages-Workshop
    29.09.2022, virtuell
  2. Advanced Python – Fortgeschrittene Programmierthemen: virtueller Drei-Tage-Workshop
    23.-25.01.2023, Virtuell
Weitere IT-Trainings

Es empfiehlt sich in beiden Fällen, eine Anleitung zu konsultieren, der Besuch des entsprechenden Subreddits lohnt sich.

Wir haben Disco Diffusion aus dem oben verlinkten Github-Repository installiert, in dem Schritt für Schritt erklärt wird, wie man die benötigte virtuelle Linux-Maschine unter Windows 10 aufsetzt. Ganz problemlos ist die Sache trotzdem nicht, denn einige in dem Jupyter-Notebook enthaltene Links zu den erforderlichen Modellen sind veraltet. Ihre aktuelle Position ist nicht schwer herauszufinden, die Links müssen lediglich geändert werden.

Wir empfehlen den ersten Durchlauf mit den Standardeinstellungen, um weitere Fehler zu erkennen.

Der klassische Flaschenhals ist ein Mangel an Speicher bei der Nvidia-Grafikkarte. Wir konnten mit einer RTX 2070 maximal Bilder mit einer Auflösung von 512 x 512 Pixeln generieren. Eine Steigerung hat hier den exponentiellen Anstieg des VRAM-Bedarfs zur Folge.

Das ist der Grund dafür, dass viele KI-Interessierte die Colab-Notebooks nutzen. Bei denen steckt nämlich bestenfalls eine äußerst potente Profi-GPU in der virtuellen Maschine, mit einer Subskription sogar garantiert. Wir konnten mit einer RTX 3080Ti immerhin die Auflösung auf 1.280 x 768 Pixel erhöhen.

Pro Bild braucht unser Rechner ja nach Einstellung von Detailgrad und Komplexität des Prompts zwischen 90 Sekunden und 20 Minuten. Da eigentlich niemals auf Anhieb ein gutes Bild entsteht, lassen wir den Rechner wieder und wieder mit automatisch erzeugten neuen Ausgangswerten malen.

Er träumt so Hunderte oder Tausende Bilder, die wir entweder einzeln ansehen können, oder wir lassen ihn in das erste Bild hineinträumen und erstellen eine Animation. Die können wir alle paar Bilder mit neuen Themen anreichern. So kann beispielsweise ein Musikvideo entstehen.

Die größten Hürden für die Modelle waren bislang Schrift, die realistische und artfefaktfreie Darstellung von Menschen, streng geometrische Formen sowie Symmetrie. Es ist zu erwarten, dass kommende Programme wie Googles Imagen und Parti solche Probleme lösen. Auf der gestalterischen Seite wird die KI durch das Ausgangsmaterial limitiert. Die Hunderte von Millionen Bilder, die die Basis für alle Trainingsdaten bilden, sind von Menschen klassifiziert worden.

Das bedeutet, dass die Eingabe von "beautiful" als Ergänzung für einen Bilderwunsch ganz einfach den zeitgemäßen Geschmack reproduziert und in eine bestimmte Richtung generische Stile verfestigt. Die derzeitige Geschwindigkeit des Fortschritts auf dem Gebiet der Bildsynthese durch Texteingabe lässt dennoch vermuten, dass innerhalb der nächsten zwei Jahre Werkzeuge auf den Markt kommen werden, die jeglichen erdenklichen Inhalt in hoher Auflösung produzieren können.

Wie geht es weiter?

Damit stellt sich die Frage nach den gesellschaftlichen Folgen und den ethischen Implikationen. Wie bereits erwähnt sind die verwendeten Modelle nicht frei von Bias - was alle Autorinnen und Autoren der Modelle auch offensiv kommunizieren.

Die generierten Inhalte können eine derzeit noch nicht einschätzbare Menge an Problemen verursachen. Schließlich muss man irgendwann davon ausgehen, dass kein einziges Bild mehr real ist. Schon jetzt bewies der Autor Matt Bell, dass KI-generierte Urlaubsbilder überzeugend genug sind. Er mischte Dall-E-2-Schnappschüsse von Hawaii unter seine realen Fotos, ohne dass es jemandem auffiel. Für Menschen, die ihr Geld mit künstlerisch gestalteten Bildern jeglicher Art verdienen, dürften die KI-Modelle sich zu einer Existenzbedrohung entwickeln, Bilderdienste müssen mit starker Konkurrenz rechnen.

Das sind sicherlich Gründe dafür, dass OpenAI und Google sich derart verschlossen zeigen, was das Teilen ihrer Technologie betrifft. So kann die Revolution der Bilder träumender Computer zwar für den Moment aufgehalten werden - verhindern lassen wird sie sich aber nicht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Kampf der Netzwerke
  1.  
  2. 1
  3. 2
  4. 3
  5. 4


Lemo 18. Jul 2022 / Themenstart

ist toll. Ich habe wirklich tolle Ergebnisse damit erzielen können, eines der Bilder...

FlashBFE 11. Jul 2022 / Themenstart

Na toll, ich habe mir das Beispiel gerade erst ausgedacht und da gibt es schon ne Firma...

ruphus 11. Jul 2022 / Themenstart

+1 auf jeden Fall. Ein sehr gut geschriebener Artikel! :)

mwo (Golem.de) 11. Jul 2022 / Themenstart

Ich möchte mich hiermit herzlich dafür bedanken, dass wir in Reaktion auf den Artikel...

Kommentieren



Aktuell auf der Startseite von Golem.de
Google Fonts
Abmahnungen an Webseitenbetreiber mit Google-Schriftarten

Nach einer Entscheidung des Landgerichts München erhalten Webseitenbetreiber mit eingebundenen Google Fonts vermehrt Abmahnungen.

Google Fonts: Abmahnungen an Webseitenbetreiber mit Google-Schriftarten
Artikel
  1. Paw Patrol: US Space Force schickt Roboterhunde auf Patrouille
    Paw Patrol
    US Space Force schickt Roboterhunde auf Patrouille

    Die US Space Force wird einen hundeähnlichen Roboter von Ghost Robotics auf Patrouille schicken, um Personalkosten zu senken.

  2. Programmiersprache: JSON-Erfinder will Javascript in Rente schicken
    Programmiersprache
    JSON-Erfinder will Javascript in Rente schicken

    Douglas Crockford, der Erfinder des Datenformats JSON und Mitentwickler von Javascript, findet, dass die Sprache in Rente geschickt werden sollte.

  3. Windows auf dem Mac: Parallels wird merklich teurer
    Windows auf dem Mac
    Parallels wird merklich teurer

    Parallels 18 bietet eine native Unterstützung für Windows 11 und eine bessere Ressourcenzuweisung. Allerdings wird die Software teurer.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: WD SSD 1TB m. Kühlkörper (PS5) 119,90€, MSI 29,5" 200 Hz 259€, LG QNED 75" 120 Hz 1.455,89€ • MindStar (XFX RX 6950 XT 999€, Gainward RTX 3070 559€) • Gigabyte Deals • Der beste Gaming-PC für 2.000€ • Apple Week bei Media Markt • be quiet! Deals [Werbung]
    •  /