Stable Diffusion: KI-Modell für Bilderzeugung zur Kompression nutzbar
Das erst vor wenigen Wochen stabil veröffentlichte KI-Modell Stable Diffusion (g+) soll eigentlich als ein Modell zur Bilderzeugung genutzt werden, bei dem Nutzer mithilfe von Texteingabe verschiedene Stile und Inhalte erhalten können. Der Entwickler Matthias Bühlmann berichtet nun aber in seinem Blog(öffnet im neuen Fenster), dass einige besondere Details des Modells nach Anpassungen auch zur Kompression vorhandener Bilder genutzt werden können.
Bühlmann vergleicht dies in dem Text direkt mit der Qualität von JPEG und WebP, die weit verbreitet in Web-Anwendungen genutzt werden können. Bei vergleichbarer oder teils auch deutlich besserer optischer Qualität soll die Kompression über das Stable-Diffusion-Modell dabei aber kleinere Bilder liefern als die bekannten Algorithmen. Bühlmann selbst beschreibt die Qualität seines Ansatzes als "deutlich überlegen".
Grundlage der Arbeiten ist dabei die innere Repräsentation des Modells, das auf einem sogenannten Variational Autoencoder basiert. Wie genau dieser für ein Bild erstellt wird, hängt vom angelernten Modell ab. Aus dieser Modell-Repräsentation lässt sich anschließend wieder ein normales Bild dekodieren, wobei der Vorgang verlustbehaftet ist. Auch bei der vorgesehenen Nutzung von Stable Diffusion zur Bilderzeugung aus Text wird dieser zweite Schritt mithilfe weiterer Details des Modells verwendet.
Für die eigentliche Kompression der Bildinformation nutzt das von Bühlmann beschriebene Projekt eine Farbquantisierung(öffnet im neuen Fenster) der inneren Modellrepräsentation, die auf eine feste Farbpalette sowie auf Dithering(öffnet im neuen Fenster) setzt. Ein weiterer Teil des Modells wird anschießend zum De-Noising des Bildes verwendet. Der Entwickler weist dabei aber selbst auf Kompressionsartefakte hin, die direkt aus dieser Methode entstehen und den Bildeindruck entsprechend verschlechtern könnten. Besonders schlecht funktioniere die Methode derzeit für Gesichter und Text mit kleiner Schrift in den Bildern. Den Code teilte Bühlmann über eine kollaboratve Coding-Plattform(öffnet im neuen Fenster) von Google.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



