Zum Hauptinhalt Zur Navigation Zur Suche

Stable Diffusion: KI-Modell für Bilderzeugung zur Kompression nutzbar

Die interne Repräsentation von KI-Modellen kann für mehr verwendet werden als nur für den eigentlichen Zweck des Modells.
/ Sebastian Grüner
4 Kommentare News folgen (öffnet im neuen Fenster)
Die Komprimierung von Bildern kann zahlreiche Fehler verursachen (Symboldbild). (Bild: Iwan Gabovitch)
Die Komprimierung von Bildern kann zahlreiche Fehler verursachen (Symboldbild). Bild: Iwan Gabovitch / CC0 1.0

Das erst vor wenigen Wochen stabil veröffentlichte KI-Modell Stable Diffusion (g+) soll eigentlich als ein Modell zur Bilderzeugung genutzt werden, bei dem Nutzer mithilfe von Texteingabe verschiedene Stile und Inhalte erhalten können. Der Entwickler Matthias Bühlmann berichtet nun aber in seinem Blog(öffnet im neuen Fenster), dass einige besondere Details des Modells nach Anpassungen auch zur Kompression vorhandener Bilder genutzt werden können.

Bühlmann vergleicht dies in dem Text direkt mit der Qualität von JPEG und WebP, die weit verbreitet in Web-Anwendungen genutzt werden können. Bei vergleichbarer oder teils auch deutlich besserer optischer Qualität soll die Kompression über das Stable-Diffusion-Modell dabei aber kleinere Bilder liefern als die bekannten Algorithmen. Bühlmann selbst beschreibt die Qualität seines Ansatzes als "deutlich überlegen".

Grundlage der Arbeiten ist dabei die innere Repräsentation des Modells, das auf einem sogenannten Variational Autoencoder basiert. Wie genau dieser für ein Bild erstellt wird, hängt vom angelernten Modell ab. Aus dieser Modell-Repräsentation lässt sich anschließend wieder ein normales Bild dekodieren, wobei der Vorgang verlustbehaftet ist. Auch bei der vorgesehenen Nutzung von Stable Diffusion zur Bilderzeugung aus Text wird dieser zweite Schritt mithilfe weiterer Details des Modells verwendet.

Für die eigentliche Kompression der Bildinformation nutzt das von Bühlmann beschriebene Projekt eine Farbquantisierung(öffnet im neuen Fenster) der inneren Modellrepräsentation, die auf eine feste Farbpalette sowie auf Dithering(öffnet im neuen Fenster) setzt. Ein weiterer Teil des Modells wird anschießend zum De-Noising des Bildes verwendet. Der Entwickler weist dabei aber selbst auf Kompressionsartefakte hin, die direkt aus dieser Methode entstehen und den Bildeindruck entsprechend verschlechtern könnten. Besonders schlecht funktioniere die Methode derzeit für Gesichter und Text mit kleiner Schrift in den Bildern. Den Code teilte Bühlmann über eine kollaboratve Coding-Plattform(öffnet im neuen Fenster) von Google.


Relevante Themen