Zum Hauptinhalt Zur Navigation

Podcast Besser Wissen : Die Daten hinter den KI-Bildern

Podcast „Besser Wissen“ Cover
Ein kleiner deutscher Verein ist für einen Großteil der Trainingsdaten für KI-Bildgeneratoren verantwortlich - wir haben uns mit seinen Gründern im Podcast unterhalten.
/ Martin Wolf
Kommentare News folgen (öffnet im neuen Fenster)
Die KI malt inzwischen ziemlich überzeugende Bilder. (Bild: KI-generiert mit Midjourney / Golem.de)
Die KI malt inzwischen ziemlich überzeugende Bilder. Bild: KI-generiert mit Midjourney / Golem.de

Laion steht für Large-Scale Artificial Intelligence Open Network und beschreibt eine Gemeinschaft von KI-Enthusiasten , die sich zunächst online per Discord zusammenfanden und 2021 den gemeinnützigen Verein ins Leben riefen.

Seitdem haben sie eigenen Angaben zufolge unter anderem mit Laion-5B den bisher größten Datensatz von Bildern mit Textbeschreibungen zum KI-Training vorgestellt, der frei verfügbar ist. Den Angaben der Veröffentlichung nach umfasst der Datensatz 5,85 Milliarden Text-Bild-Paare. Davon sind 2,3 Milliarden in Englisch und 2,2 Milliarden in anderen Sprachen verfasst.

Zum Training von KI-Modellen sind diese Daten deshalb nützlich, weil die Systeme so Worte und Bilder verknüpfen können und lernen, welche Elemente miteinander korrelieren. Der Datensatz selbst besteht dabei nur aus Links auf die eigentlichen Bilder sowie dazugehörigen Metadaten. Diese Sammlung steht unter einer freien Creative-Commons-Lizenz, die Bilder selbst aber nicht.

Auf dem Datensatz basiert unter anderem Stable Diffusion - ein Bildgenerator, der auch lokal auf einem normalen PC laufen kann. Dabei sind die ungefilterten Text-Bild-Paare nicht aufbereitet, was laut Laion selbst "zu stark unangenehmen und verstörenden Inhalten für einen menschlichen Betrachter führen" kann. Auch deshalb empfiehlt das Team, dass Laion-5B nur zu Forschungszwecken statt im produktiven Einsatz genutzt werden sollte.

Wie die Mitglieder mit Kritik an ihrer Arbeit und dem plötzlichen öffentlichen Interesse umgehen und was die Motivation hinter den Datensammlungen ist, haben wir sie in unserem Podcast gefragt.

Mit unserem Podcast Besser Wissen informieren wir unterhaltsam über Technologie- und Wissenschaftsthemen. Wir reden mit der Golem.de-Redaktion und führen Interviews mit externen Expertinnen und Experten. Pro Folge greifen wir ein spezifisches Thema auf und beleuchten es aus verschiedenen Perspektiven. Wir veröffentlichen wöchentlich neue Folgen von Besser Wissen auf Golem.de, diese sind aber auch auf den Plattformen Spotify(öffnet im neuen Fenster) , Google Podcasts(öffnet im neuen Fenster) , Deezer(öffnet im neuen Fenster) , Apple Podcasts(öffnet im neuen Fenster) und Podigee(öffnet im neuen Fenster) zu finden; der Feed ist hier(öffnet im neuen Fenster) . Wer uns abonniert, erhält Zugriff auf die aktuelle Episode, sobald wir sie veröffentlichen.

Wir freuen uns über Feedback! Themenanregungen, Kritik und Blumensträuße nehmen wir unter podcast@golem.de entgegen.


Relevante Themen