Zum Hauptinhalt Zur Navigation

Fotografie: Neuer KI-Zoom soll 256-fache Vergrößerungen ermöglichen

Südkoreanische Forscher haben ein Verfahren entwickelt, mit dem KI realistische Zoom-Aufnahmen errechnen soll.
/ Tobias Költzsch
12 Kommentare News folgen (öffnet im neuen Fenster)
Ein Beispiel der CoZ-Engine (Bild: Bryan Sangwoo Kim/Jeongsol Kim/Jong Chul Ye/KAIST)
Ein Beispiel der CoZ-Engine Bild: Bryan Sangwoo Kim/Jeongsol Kim/Jong Chul Ye/KAIST

Forscher der südkoreanischen Universität Korea Advanced Institute of Science and Technology (KAIST) haben ein Verfahren entwickelt, mit dem sich realistische, KI-berechnete Digitalzoomaufnahmen anfertigen lassen sollen. Das CoZ genannte Verfahren (Chain of Zoom) unterteilt die Berechnung der Vergrößerung dabei in zahlreiche Zwischenschritte.

Dadurch kann das Verfahren anders als bisherige SISR-Modelle (Single Image Super Resolution) auch mit Vergrößerungsfaktoren genutzt werden, auf die das Modell eigentlich nicht trainiert ist. Die Forscher sprechen von Vergrößerungsfaktoren von 256x und höher, die noch scharfe Ergebnisse liefern sollen.

Diese entsprechen allerdings nicht der Realität, sondern wie die KI sich diese vorstellt. In Zwischenschritten werden die Ausschnitte leicht vergrößert und die darin enthaltenen Informationen verbessert; um dabei die Kohärenz aufrecht zu erhalten, werden die Bildinhalte mit einem VLM (Vision Language Model) analysiert.

RLHF für realistischere Details

Das VLM extrahiert Textprompts, die für den nächsten Vergrößerungsschritt verwendet werden. Um die dabei generierten Vergrößerungen besser an das anzupassen, was Menschen erwarten würden, verwenden die Forscher zusätzlich eine RLHF(öffnet im neuen Fenster) -Pipeline (Reinforced Learning with Human Feedback) für das Finetuning.

Die in einem Paper, das als Preprint auf Arxiv veröffentlicht wurde ( PDF(öffnet im neuen Fenster) ), veröffentlichten Beispielaufnahmen zeigen teilweise extreme Vergrößerungen, die realistisch wirken. Dabei entsprechen sie aber nicht der Wirklichkeit, stattdessen handelt es sich um Details, die die KI für wahrscheinlich und realistisch hält.

Der Vorteil des CoZ-Systems ist den Forschern zufolge, dass es mit bestehenden Backbones ohne erneutes Training verwendet werden kann. Allerdings betonen die Forscher auch, dass es aufgrund der Zwischenschritte zu Fehlerakkumulationen kommen kann. Zudem können die erzeugten Inhalte auch schlicht falsch sein und zu Desinformation führen, so die Wissenschaftler.


Relevante Themen