KI-Chatbots: Stackoverflow will Geld für KI-Trainingsdaten verlangen
Unternehmen wenden sich verstärkt gegen die Gratisnutzung ihrer Daten für das Training von KI. An Stackoverflow zeigt sich, warum.

Für das Training aktueller KI-Systeme sind extrem viele Daten notwendig, die bisher nicht nur durch Web-Scraping erlangt werden, sondern in einigen Fällen wohl auch durch einen Direktzugriff auf die Daten etwa per API. Die kollaborative Coding-Hilfeplattform Stack Overflow will das beenden und an dem KI-Training mitverdienen, wie Wired berichtet.
Stackoverflow-CEO Prashanth Chandrasekar sagte dazu: "Community-Plattformen, die die große Sprachmodelle vorantreiben, sollten unbedingt für ihre Beiträge entschädigt werden, damit Unternehmen wie wir wieder in unsere Gemeinschaften investieren können, um sie weiter zum Blühen zu bringen."
Eine ähnliche Ankündigung veröffentlichte vor wenigen Tagen bereits der Social-Media-Betreiber Reddit. Chandrasekar begrüßt im Interview mit Wired explizit den Schritt von Reddit.
Streit um Rechte an den Trainingsdaten
Hintergrund der Auseinandersetzung ist, dass zum Training der Machine-Learning-Modelle bisher häufig auch über APIs und Data-Dumps auf die Inhalte sehr großer Plattformen zugegriffen wird – meist kostenfrei. Da die Inhalte aber urheberrechtlich geschützt sind, können diese bisher nicht ohne Weiteres direkt weiterverwendet werden.
Ein kostenfreies API-Angebot dürfte sich damit nicht negativ auf die Geschäfte der Unternehmen ausgewirkt haben. Mit den Fragen und Antworten von Stackoverflow konnte letztlich nur die Plattform selbst Geld verdienen. Chandrasekar verwies dazu darauf, dass die Inhalte auf Stackoverflow nicht an das Unternehmen übertragen, sondern die Rechte bei den Autoren verbleiben würden – unter eine Creative-Commons-Lizenz.
Der aktuelle KI-Hype hat die Wahrnehmung von Daten und den Rechten daran von immer mehr Unternehmen deutlich geändert. Denn nicht nur werden die Modelle auf den kostenfrei erhältlichen Daten trainiert, die KI-Anbieter verdienen damit auch sehr viel Geld, verschaffen sich größere Marktanteile und werden etwa mit Coding-KIs zur direkten Konkurrenz von Anbietern wie Stackoverflow. Darüber hinaus will offenbar auch Stackoverflow selbst mit KI-Techniken Geld verdienen.
KI im Zwiespalt des Urheberrechts
Das Sammeln der Daten und das damit verbundene Training der Modelle ist allerdings zumindest urheberrechtlich eine Grauzone und nicht explizit verboten. In den USA könnten außerdem auch Fair-Use-Ausnahmen gelten. Juristisch geklärt ist diese Auseinandersetzung bisher noch nicht.
Im vergangenen Jahr verboten Fotoplattformen zunächst von KI erzeugte Bilder. Open-Source-Entwickler protestierten wegen der Nutzung ihrer Daten für KI gegen Github und dem Anbieter droht weiter ein Rechtsstreit. Inzwischen scheinen sich aber Lizenzmodelle für die Daten zum Training durchzusetzen. Das wollen nun offenbar auch große Anbieter wie Stackoverflow oder Reddit durchsetzen.
Der Autor meint dazu:
Es ist unternehmerisch durchaus nachvollziehbar, das CEOs wie Chandrasekar die Datensätze ihrer Unternehmen nahezu panisch umklammern. Immerhin konnten nur diese damit Geld verdienen. Mithilfe des KI-Trainings können das aber auch andere. Da erscheint es für viele Unternehmen als das Mindeste, wenigstens etwas von dem großen Kuchen abzubekommen und ihre Daten zu lizenzieren.
Das ist allerdings gefährlich, weil dahinter eine urheberrechtliche Maximalposition steht, die letztlich auch eine seit Jahrzehnten existierende Praxis wie das Web-Scraping für Suchmaschinen fundamental in Frage stellt.
Letztlich werden die Argumente heuchlerisch, wenn Chandrasekar von einer Tragik der Allmende spricht, da das mit freien Inhalten generierte Geld aus KI-Modellen nicht an die Datenersteller zurückfließt. Aber Stackoverflow oder auch Reddit haben ihre Community und Inhalteersteller bisher ebenfalls nicht oder nur sehr geringfügig direkt an ihren Einnahmen beteiligt. Das wird wohl auch mit dem Geld aus den API-Zugriffslizenzen nicht anders werden.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Ich nutze einen Adblocker, ich sehe gar keine Werbung. :)
Ist ja nicht so als würden die trainierten KI's dann perse Allgemeingut werden. Am Ende...
Hallo! Ich schreib nur damit ich auch was vom Kuchen als Contentcreator abbekomm! Meine...
FALLS das KI-Training eine hohe Serverauslastung bei Stackoverflow verusacht hat, dann...
Kommentieren