Zum Hauptinhalt Zur Navigation Zur Suche

KI-Bilder: ChatGPT Images lernt endlich das Buchstabieren

Text in KI-Bildern ist lange der verlässlichste Beweis für die maschinelle Herkunft gewesen. Das könnte sich gerade erledigt haben.
/ Michael Linden
5 Kommentare News folgen (öffnet im neuen Fenster)
ChatGPT erstellt Text jetzt (fast) fehlerfrei. (Bild: OpenAI)
ChatGPT erstellt Text jetzt (fast) fehlerfrei. Bild: OpenAI

OpenAI hat ChatGPT Images 2.0 veröffentlicht(öffnet im neuen Fenster), ein Bildgenerierungsmodell, das Schrift erstmals mit messbarer Genauigkeit darstellt. Was sich architektonisch dahinter verbirgt, hat das Unternehmen in einem Pressebriefing diese Woche allerdings nicht beantwortet.

Bestätigt wurde hingegen: Das Modell verfügt über sogenannte "Thinking Capabilities". Es erzeugt nicht einfach ein Bild auf Zuruf, sondern kann das Web durchsuchen, mehrere Varianten aus einem Prompt ableiten und das eigene Ergebnis vor der Ausgabe prüfen. Das kostet Zeit, macht aber komplexere Ergebnisse möglich.

Menükarten ohne Fantasiegerichte

Der Unterschied ist erkennbar. Ein Testprompt für eine Restaurantkarte(öffnet im neuen Fenster), genau die Aufgabe, an der Vorgängermodelle zuverlässig scheiterten, liefert jetzt etwas, das druckfertig wirkt, auch wenn es das Ergebnis vielleicht noch nicht ist.

Der Grund liegt in der Architektur. Klassische Diffusionsmodelle rekonstruieren Bilder aus Rauschen und behandeln Text wie jeden anderen Pixelhaufen. Autoregressive Modelle, die eher wie Sprachmodelle Schritt für Schritt arbeiten, kommen mit Schrift besser zurecht. Welchen Ansatz OpenAI verwendet, lässt das Unternehmen offen.

Layouts, Comics, nicht-lateinische Schrift

Neben Text unterstützt das Modell strukturiertere Ausgaben: Marketingmaterial in verschiedenen Formaten, mehrteilige Comic-Panels, UI-Mock-ups und informationsdichte Infografiken. Auch nicht-lateinische Schriftsysteme, darunter Japanisch, Koreanisch, Hindi und Bengalisch, sollen genauer dargestellt werden.

Einfache Bilder entstehen in Sekunden, komplexe Panels brauchen einige Minuten. Der Roll-out läuft seit Dienstag für alle ChatGPT- und Codex-Nutzer. Entwickler erhalten Zugang über die gpt-image-2-API, abgerechnet nach Ausgabequalität und Auflösung.


Relevante Themen