Zum Hauptinhalt Zur Navigation

Künstliche Intelligenz: Datensatz für KI-Training von Missbrauchsinhalten bereinigt

Nachdem der Datensatz Laion-5B wegen Missbrauchsinhalten vom Netz genommen werden musste, ist er nun in einer neuen Version veröffentlicht worden.
/ Mike Faust
8 Kommentare News folgen (öffnet im neuen Fenster)
Laion veröffentlicht eine bereinigte Version des KI-Traingsdatensatzes Laion-5B. (Bild: Laion)
Laion veröffentlicht eine bereinigte Version des KI-Traingsdatensatzes Laion-5B. Bild: Laion

In einem für das Training für Stable Diffusion verwendeten Datensatz wurden Bilder von Kindesmissbrauch (Child Sexual Abuse Material, CSAM) gefunden. Wie unter anderem Techcrunch(öffnet im neuen Fenster) berichtet, erklärte der deutsche Verein Laion in einer Mitteilung vom 30. August 2024(öffnet im neuen Fenster) , dass eine aktualisierte Version des Datensatzes mit der Bezeichnung Re-Laion-5B bereitsteht.

Dieser ist in zwei Versionen verfügbar. In Re-Laion-5B Research wurden lediglich die CSAM-Verweise entfernt; Re-Laion-5B Research-Safe wurde um weitere, nicht-jugendfreie Inhalte bereinigt.

Man habe diesen Datensatz "gründlich von bekannten Links zu mutmaßlichem Material über sexuellen Kindesmissbrauch bereinigt" . Die vorgenommenen Änderungen seien auf Basis von Empfehlungen der Internet Watch Foundation, Human Rights Watch, des Canadian Center for Child Protection und des Stanford Internet Oberservatory durchgeführt worden.

Nicht kuratiert oder aufgearbeitet

Laut Laion wurden 2.236 Einträge gefunden, die auf bekannte und mögliche CSAM-Inhalte verwiesen, was 0,000038 Prozent des gesamten Datensatzes entsprach. Der Verein schreibt hierzu: "Laion hat sich von Anfang an dazu verpflichtet, illegale Inhalte aus seinen Datensätzen zu entfernen, und hat von Anfang an entsprechende Maßnahmen ergriffen, um dies zu erreichen ."

Wichtig sei zudem, dass der Datensatz zu keiner Zeit Bilder enthalten habe, sondern lediglich Indizes mit Links und Alt-Texten. Bereits bei der Ankündigung von Laion-5B wies der Verein darauf hin, dass die Daten nicht kuratiert oder aufgearbeitet seien.

Daher könne die Nutzung "zu stark unangenehmen und verstörenden Inhalten für einen menschlichen Betrachter führen" . Über Hashwerte von bereits bekannten Darstellungen wurden entsprechende Verweise auf CSAM-Inhalte entdeckt.

Das gemeinnützige Forschungsnetzwerk Laion stellte Laion-5B Ende Dezember 2022 als bis dahin größten Datensatz zu Links von Bildern mit Textbeschreibungen zum Training von KI vor und nahm diese nach den Funden der CSAM-Inhalte im Dezember 2023 wieder vom Netz .


Relevante Themen