Zum Hauptinhalt Zur Navigation Zur Suche

Fragwürdige Inhalte: Welche Websites AI-Chatbots zum Trainieren nutzen

Die Sprachmodelle von KI-Anwendungen werden mit Websites trainiert. In einer Analyse zeigt sich, dass seitens der Anbieter mehr Transparenz erforderlich ist.
/ Michael Linden
3 Kommentare News folgen (öffnet im neuen Fenster)
KI frisst Daten (Bild: Midjourney/Golem.de)
KI frisst Daten Bild: Midjourney/Golem.de

Chatbots basieren auf Sprachmodellen, die oft mit Material aus dem Internet trainiert werden. Teilweise halten die Entwickler geheim, welche Daten in ihre KI-Chatbots eingespeist werden.

Um Licht in diese Angelegenheit zu bringen, hat die Washington Post(öffnet im neuen Fenster) (Paywall) eine Untersuchung über die Websites durchgeführt, die zum Trainieren einiger englischsprachiger Sprachmodelle verwendet wurden, darunter Googles T5 und Facebooks LLaMA. Die Analyse wurde mit dem C4-Datensatz von Google durchgeführt, der die Inhalte von 15 Millionen Websites enthält.

Unternehmens-Websites dominieren die KI-Trainingsdaten

Die Untersuchung ergab, dass Websites aus Wirtschaft und Industrie die größte Kategorie (16 Prozent) bildeten, die zum Training von KI-Chatbots verwendet wurden. Zu diesen Websites gehören fool.com, das Anlageberatung anbietet, kickstarter.com und patreon.com. Die Analyse der Washington Post gibt Anlass zur Sorge, dass die KI-Chatbots die Ideen und Marketingtexte von Anbietern kopieren könnten, ohne dass diese dafür entschädigt werden.

Nachrichten- und Medien-Websites prominent vertreten

Die Kategorie Nachrichten und Medien rangiert an dritter Stelle, wobei die Hälfte der Top 10 hier Nachrichtenorganisationen wie nytimes.com, latimes.com, theguardian.com, forbes.com und huffpost.com sind. Eine Genehmigung für die Verwendung ihrer Inhalte oder eine Vergütung gab es offenbar nicht, berichtet die Washington Post.

Darüber hinaus ergab die Untersuchung, dass mehrere Quellen eher zweifelhafter Provenienz sind. So wurde auch RT.com, eine vom russischen Staat unterstützte Propagandaseite, breitbart.com, ein rechtsextremes Medium und vdare.com, eine einwanderungsfeindliche Website, genutzt.

Persönliche Blogs und soziale Netzwerke in KI-Trainingsdaten

Der Datensatz enthielt über eine halbe Million persönlicher Blogs, die 3,8 Prozent des Inhalts ausmachen. Die Blogs liegen auf Plattformen wie Wordpress, Tumblr, Blogspot und Live Journal. Auch hier gibt es fragwürdige Inhalte von Websites wie Uprooted Palestinians. Soziale Netzwerke wie Facebook und Twitter werden dem Bericht nach in der Regel nicht für KI-Trainingsdaten verwendet, da sie Scraping verbieten.

Obwohl Google die Daten vor der Einspeisung in das Sprachmodell gefiltert hat, rutschten Inhalte von rassistischen und anderen radikalen Websites hinein.

Der Bericht der Washington Post schließt mit der Forderung, dass Entwickler von Sprachmodellen unbedingt offenlegen müssten, woher sie die Daten haben, die zum Training verwendet werden.

Urheberrecht an den Trainingsdaten

In der Vergangenheit gab es schon Klagen gegenüber generativer KI wegen Verletzung von Urheberrechten. So haben die Künstler Sarah Andersen, Kelly McKernan und Karla Ortiz behauptet, dass Stable Diffusion, Midjourney und Dreamup von Deviantart Urheberrechte mit KI-Bildern verletzen und eine Klage eingereicht. Die Behauptung: die KI-Tools seien mit mehr als fünf Milliarden Bildern trainiert worden, "ohne die Zustimmung der ursprünglichen Künstler" einzuholen.

Nach einem Bericht von Reuters(öffnet im neuen Fenster) haben sich mittlerweile Deutscher Gewerkschaftsbund und Verdi an die Europäische Union gewandt und gefordert, "die unbefugte Nutzung von geschütztem Trainingsmaterial, seine intransparente Verarbeitung" und "grundlegende Fragen der Verantwortlichkeit, Haftung und Vergütung" zu klären. "Generative KI muss im Zentrum jeder sinnvollen KI-Marktregulierung stehen", heißt es in dem gemeinsamen Schreiben von Verdi und dem DGB, das Reuters vorliegt.


Relevante Themen