Zum Hauptinhalt Zur Navigation

Titok: Ein Bild braucht 40 Bytes statt 196.608

Der Tiktok -Mutterkonzern zeigt, wie neuronale Netze extreme Bildkompression ermöglichen, wenn einige Abstriche im Detail akzeptabel sind.
/ Frank Wunderlich-Pfeiffer
140 Kommentare News folgen (öffnet im neuen Fenster)
Bildkompression von 196.608 Byte auf 40 Byte (Bild: ByteDance, Yu et al.)
Bildkompression von 196.608 Byte auf 40 Byte Bild: ByteDance, Yu et al.

Die chinesische Firma Bytedance, zu der unter anderem Tiktok gehört, hat zusammen mit der Universität München eine Reihe von Transformermodellen(öffnet im neuen Fenster) zur Bilderzeugung und -kompression mit bis zu 307 Millionen Parametern entwickelt. Es heißt Titok und kann ein quadratisches Bild mit einer Länge und Breite von 256 Pixeln mit nur 32 Token weitgehend korrekt rekonstruieren. Das sind 40 Bytes von ursprünglich 196.608 Bytes. Das Modell kann dabei sowohl zur Kompression von Bilddaten als auch zur reinen Bilderzeugung eingesetzt werden und soll dabei im Vergleich zu herkömmlichen Diffusionsmodellen bis zu 410-mal schneller sein.

Die Rekonstruktion kleinerer Details eines Bildes ist mit nur 40 Bytes nicht perfekt. Das Titelbild des Papers zeigt ausgewählte Beispiele, in denen das Verfahren besonders gut funktioniert. In anderen Beispielen mit feinen geometrischen Details – wie Tonabnehmer, Steg und Saitenhalter einer E-Gitarre – ist das Ergebnis weniger überzeugend. Aber mit 128 Token oder 160 Byte lassen sich auch feinere Details in anspruchsvollen Bildern korrekt rekonstruieren.

Bilder werden nicht aufgespalten

Anders als bei Stable Diffusion oder anderen Token-basierten Verfahren zur Bilderzeugung wird das Bild von Titok im Inneren des Modells nicht in ein zweidimensionales Gitter aus verschiedenen Bildkacheln aufgespalten, sondern das Gesamtbild als latentes Bild erzeugt und verfeinert. Dadurch kann etwa die Information zu einem Stück blauem Himmel in der oberen rechten Ecke auch für die Rekonstruktion der oberen linken Ecke verwendet werden, ohne die Beschreibung des blauen Himmels wiederholen zu müssen.

Der Vergleich mit zwei kleineren Varianten von Titok, mit 22 und 86 Millionen Parametern, zeigte dabei, dass zwar alle Transformermodelle mit genug Token in der Lage sind, ein Bild zu rekonstruieren. Aber bei weniger als 128 Token sind die größeren Modelle deutlich leistungsfähiger als die kleineren Modelle, die mehr Informationen aus der Bildbeschreibung benötigen, weil sie selbst weniger Informationen zur Bildbeschreibung besitzen.

Bilder mit höherer Auflösung lassen sich noch besser komprimieren. Für Bilder einer Größe von 512 Pixeln konnten gute Resultate schon mit 64 Token erzeugt werden, wobei ein Token aber nicht mehr 10 Bit, sondern 12 Bit groß war. Für die vierfache Zahl von Pixeln wird also die 2,4-fache Menge an Daten benötigt. Jedes Token steht dabei für einen Basisvektor in einem 1.024- oder 4.096-dimensionalen Raum, der einen grundlegenden Teil der Bildbeschreibung für das neurale Netz des Transformers liefert.

Nicht genug Rechenkapazität für Videos

Die Kompression der Bilder beruht ausschließlich darauf, dass der Transformer zuvor schon mit ähnlichen Bildern trainiert wurde. Wie bei großen Sprachmodellen (LLMs) verwendet auch Titok einen zweistufigen Prozess aus Training und Feintuning des Transformers. Musikfans können also auf ein Modell zur korrekten Kompression und Erzeugung von E-Gitarren mit wenigen Tokens hoffen.

Ein Grund für deren schlechte Wiedergabe dürfte das Fehlen einer größeren Bilddatenbank und von Rechenressourcen zum Training gewesen sein, die im Paper beklagt werden. Dabei benötigte das Training des größten Modells 91 Stunden auf 64 A100-40G-Karten. Daran scheiterte auch das Trainieren von noch größeren Modellen und Modellen mit anderen Funktionen, wie der Beschreibung und Erzeugung von Videos, die für den Tiktok-Mutterkonzern sicher von großem Interesse wäre.

Das gesamte Verfahren ist durch die Datenbasis beim Training und den Informationsgehalt der Bilder begrenzt und kann keine vollkommen exakte Wiedergabe von allen Bildern leisten. Eine korrekte Wiedergabe von perfekt zufälligem Rauschen wird etwa niemals mit weniger als der vollen Datenmenge gelingen.


Relevante Themen