KI-Bildgenerator: Sicherheitskonzept von Dall-E in ChatGPT geleakt

Der seit einigen Wochen verfügbare KI-Bildgenerator Dall-E 3 von OpenAI verfügt über ein eingebautes Sicherheitskonzept, das lediglich aus einigen wenigen, aber detailliert formulierten ChatGPT-Eingabeaufforderungen besteht. Das zeigen verschiedene Experimente von KI-Forschern, über die Simon Willison in seinem Blog berichtet(öffnet im neuen Fenster) .
Der Entwickler demonstriert, dass sich die Dall-E 3 gesetzten Grenzen leaken lassen, und stellt dies selbst nach. Dabei zeigt sich zunächst das typische Problem aktueller KI-Modelle, dass auch der Bildgenerator Dall-E keine inhärenten, also antrainierten Grenzen für seine Fähigkeiten enthält, sondern diese extern vorgegeben werden müssen.
Gelingt es also etwa durch eine gezielte Prompt Injection oder Ähnliches, diese Grenzen zu umgehen, könnte auch Dall-E zu viel mehr fähig sein, als dies Nutzern bisher erlaubt ist. Den geleakten Regeln zufolge ist es Dall-E etwa verboten, Bilder von Politikern oder anderen öffentlichen Figuren zu erstellen. Das System verfügt also wohl prinzipiell über diese Kapazitäten.
Dall-E soll Urheberrechte berücksichtigen
Darüber hinaus sollen durch die Regeln auch offensichtliche Urheberrechtsverletzungen vermieden werden. So sollen nur Kunstwerke referenziert werden, die bereits über 100 Jahre alt sind. Alternativ dazu sollen die genannten Künstler nicht direkt referenziert werden, wohl aber deren Stil durch drei Adjektive imitiert werden können. Das deutet darauf hin, dass das System mit Kunstwerken trainiert wird, die noch Urheberrechtsschutz genießen.
Weitere Regeln sollen den in dem Modell vorhandenen Vorurteilen entgegenwirken und modifizieren dazu direkt Anfragen von Nutzern, so dass etwa Darstellungen von Berufen nicht auf Geschlechter oder bestimmte Ethnien beschränkt bleiben oder erzeugte Bilder nicht als anstößig wahrgenommen werden. Das Prompt Engineering, also die Ausformulierung der Grenzen für Dall-E, ist dabei laut Willison sehr weit fortgeschritten.