Stable Diffusion: KI-Modell für Bilderzeugung zur Kompression nutzbar

Die interne Repräsentation von KI-Modellen kann für mehr verwendet werden als nur für den eigentlichen Zweck des Modells.

Artikel veröffentlicht am ,
Die Komprimierung von Bildern kann zahlreiche Fehler verursachen (Symboldbild).
Die Komprimierung von Bildern kann zahlreiche Fehler verursachen (Symboldbild). (Bild: Iwan Gabovitch/CC0 1.0)

Das erst vor wenigen Wochen stabil veröffentlichte KI-Modell Stable Diffusion (g+) soll eigentlich als ein Modell zur Bilderzeugung genutzt werden, bei dem Nutzer mithilfe von Texteingabe verschiedene Stile und Inhalte erhalten können. Der Entwickler Matthias Bühlmann berichtet nun aber in seinem Blog, dass einige besondere Details des Modells nach Anpassungen auch zur Kompression vorhandener Bilder genutzt werden können.

Stellenmarkt
  1. Business Intelligence Sachbearbeiterin / Sachbearbeiter - Datenanalystin / Datenanalyst (m/w/d)
    Kreis Nordfriesland, Husum
  2. Java Anwendungsentwickler (w/m/d) Backend
    ING Deutschland, Frankfurt am Main
Detailsuche

Bühlmann vergleicht dies in dem Text direkt mit der Qualität von JPEG und WebP, die weit verbreitet in Web-Anwendungen genutzt werden können. Bei vergleichbarer oder teils auch deutlich besserer optischer Qualität soll die Kompression über das Stable-Diffusion-Modell dabei aber kleinere Bilder liefern als die bekannten Algorithmen. Bühlmann selbst beschreibt die Qualität seines Ansatzes als "deutlich überlegen".

Grundlage der Arbeiten ist dabei die innere Repräsentation des Modells, das auf einem sogenannten Variational Autoencoder basiert. Wie genau dieser für ein Bild erstellt wird, hängt vom angelernten Modell ab. Aus dieser Modell-Repräsentation lässt sich anschließend wieder ein normales Bild dekodieren, wobei der Vorgang verlustbehaftet ist. Auch bei der vorgesehenen Nutzung von Stable Diffusion zur Bilderzeugung aus Text wird dieser zweite Schritt mithilfe weiterer Details des Modells verwendet.

Für die eigentliche Kompression der Bildinformation nutzt das von Bühlmann beschriebene Projekt eine Farbquantisierung der inneren Modellrepräsentation, die auf eine feste Farbpalette sowie auf Dithering setzt. Ein weiterer Teil des Modells wird anschießend zum De-Noising des Bildes verwendet. Der Entwickler weist dabei aber selbst auf Kompressionsartefakte hin, die direkt aus dieser Methode entstehen und den Bildeindruck entsprechend verschlechtern könnten. Besonders schlecht funktioniere die Methode derzeit für Gesichter und Text mit kleiner Schrift in den Bildern. Den Code teilte Bühlmann über eine kollaboratve Coding-Plattform von Google.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Superbase V
Zendures Solarstation mit 6.400 Wh kommt mit hohem Rabatt

Vor dem Verkaufsstart über die eigene Webseite verkauft Zendure seine Superbase V über Kickstarter - mit teilweise fast 50 Prozent Rabatt.

Superbase V: Zendures Solarstation mit 6.400 Wh kommt mit hohem Rabatt
Artikel
  1. Tesla Optimus: Elon Musk zeigt Roboter-Prototyp
    Tesla Optimus
    Elon Musk zeigt Roboter-Prototyp

    Roboter könnten für Tesla aus Sicht von Elon Musk bedeutender werden als Elektroautos. Der Konzern zeigte seinen ersten Roboter-Prototypen.

  2. Microsofts E-Mail: Modern Auth in Exchange macht Admins Arbeit
    Microsofts E-Mail
    Modern Auth in Exchange macht Admins Arbeit

    Ab dem 1. Oktober 2022 müssen Exchange-Clients zwingend Microsofts moderne Authentifizierung nutzen. Das bedeutet Mehrarbeit.
    Eine Analyse von Oliver Nickel

  3. Start-ups: Der Osten erfindet sich neu
    Start-ups
    Der Osten erfindet sich neu

    Start-ups spielen beim wirtschaftlichen Aufholprozess in Ostdeutschland eine zunehmende Rolle - Game Changer sind sie bisher aber nicht.
    Ein Bericht von Carolin Wilms

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MindStar (u. a. LC-Power LC-M27-QHD-240-C-K 389€) und Damn-Deals (u. a. Kingston A400 240/480 GB 17,50€/32€, NZXT Kraken X73 139€) • Alternate: Weekend Sale • Razer Strider XXL 33,90€ • JBL Live Pro+ 49€ • PCGH-Ratgeber-PC 3000 Radeon Edition 2.500€ • LG OLED65CS9LA 1.699€ [Werbung]
    •  /