KI-Chatbots: Stackoverflow will Geld für KI-Trainingsdaten verlangen

Unternehmen wenden sich verstärkt gegen die Gratisnutzung ihrer Daten für das Training von KI. An Stackoverflow zeigt sich, warum.

Artikel veröffentlicht am ,
Stackoverflow will Geld sehen für den API-Zugriff.
Stackoverflow will Geld sehen für den API-Zugriff. (Bild: Chung Sung-Jun/Getty Images)

Für das Training aktueller KI-Systeme sind extrem viele Daten notwendig, die bisher nicht nur durch Web-Scraping erlangt werden, sondern in einigen Fällen wohl auch durch einen Direktzugriff auf die Daten etwa per API. Die kollaborative Coding-Hilfeplattform Stack Overflow will das beenden und an dem KI-Training mitverdienen, wie Wired berichtet.

Stackoverflow-CEO Prashanth Chandrasekar sagte dazu: "Community-Plattformen, die die große Sprachmodelle vorantreiben, sollten unbedingt für ihre Beiträge entschädigt werden, damit Unternehmen wie wir wieder in unsere Gemeinschaften investieren können, um sie weiter zum Blühen zu bringen."

Eine ähnliche Ankündigung veröffentlichte vor wenigen Tagen bereits der Social-Media-Betreiber Reddit. Chandrasekar begrüßt im Interview mit Wired explizit den Schritt von Reddit.

Streit um Rechte an den Trainingsdaten

Hintergrund der Auseinandersetzung ist, dass zum Training der Machine-Learning-Modelle bisher häufig auch über APIs und Data-Dumps auf die Inhalte sehr großer Plattformen zugegriffen wird – meist kostenfrei. Da die Inhalte aber urheberrechtlich geschützt sind, können diese bisher nicht ohne Weiteres direkt weiterverwendet werden.

Ein kostenfreies API-Angebot dürfte sich damit nicht negativ auf die Geschäfte der Unternehmen ausgewirkt haben. Mit den Fragen und Antworten von Stackoverflow konnte letztlich nur die Plattform selbst Geld verdienen. Chandrasekar verwies dazu darauf, dass die Inhalte auf Stackoverflow nicht an das Unternehmen übertragen, sondern die Rechte bei den Autoren verbleiben würden – unter eine Creative-Commons-Lizenz.

Der aktuelle KI-Hype hat die Wahrnehmung von Daten und den Rechten daran von immer mehr Unternehmen deutlich geändert. Denn nicht nur werden die Modelle auf den kostenfrei erhältlichen Daten trainiert, die KI-Anbieter verdienen damit auch sehr viel Geld, verschaffen sich größere Marktanteile und werden etwa mit Coding-KIs zur direkten Konkurrenz von Anbietern wie Stackoverflow. Darüber hinaus will offenbar auch Stackoverflow selbst mit KI-Techniken Geld verdienen.

KI im Zwiespalt des Urheberrechts

Das Sammeln der Daten und das damit verbundene Training der Modelle ist allerdings zumindest urheberrechtlich eine Grauzone und nicht explizit verboten. In den USA könnten außerdem auch Fair-Use-Ausnahmen gelten. Juristisch geklärt ist diese Auseinandersetzung bisher noch nicht.

Im vergangenen Jahr verboten Fotoplattformen zunächst von KI erzeugte Bilder. Open-Source-Entwickler protestierten wegen der Nutzung ihrer Daten für KI gegen Github und dem Anbieter droht weiter ein Rechtsstreit. Inzwischen scheinen sich aber Lizenzmodelle für die Daten zum Training durchzusetzen. Das wollen nun offenbar auch große Anbieter wie Stackoverflow oder Reddit durchsetzen.

Der Autor meint dazu:

Es ist unternehmerisch durchaus nachvollziehbar, das CEOs wie Chandrasekar die Datensätze ihrer Unternehmen nahezu panisch umklammern. Immerhin konnten nur diese damit Geld verdienen. Mithilfe des KI-Trainings können das aber auch andere. Da erscheint es für viele Unternehmen als das Mindeste, wenigstens etwas von dem großen Kuchen abzubekommen und ihre Daten zu lizenzieren.

Das ist allerdings gefährlich, weil dahinter eine urheberrechtliche Maximalposition steht, die letztlich auch eine seit Jahrzehnten existierende Praxis wie das Web-Scraping für Suchmaschinen fundamental in Frage stellt.

Letztlich werden die Argumente heuchlerisch, wenn Chandrasekar von einer Tragik der Allmende spricht, da das mit freien Inhalten generierte Geld aus KI-Modellen nicht an die Datenersteller zurückfließt. Aber Stackoverflow oder auch Reddit haben ihre Community und Inhalteersteller bisher ebenfalls nicht oder nur sehr geringfügig direkt an ihren Einnahmen beteiligt. Das wird wohl auch mit dem Geld aus den API-Zugriffslizenzen nicht anders werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


jothme 12. Mai 2023 / Themenstart

Ich nutze einen Adblocker, ich sehe gar keine Werbung. :)

Manhattan Julius 23. Apr 2023 / Themenstart

Ist ja nicht so als würden die trainierten KI's dann perse Allgemeingut werden. Am Ende...

peterdork 22. Apr 2023 / Themenstart

Hallo! Ich schreib nur damit ich auch was vom Kuchen als Contentcreator abbekomm! Meine...

Golg 21. Apr 2023 / Themenstart

FALLS das KI-Training eine hohe Serverauslastung bei Stackoverflow verusacht hat, dann...

Kommentieren



Aktuell auf der Startseite von Golem.de
KI-Bildgenerator
Diese Kamera generiert, statt zu fotografieren

Ein Bastler hat eine KI-Kamera ohne Objektiv gebaut. Paragraphica erzeugt Schnappschüsse mit einem Raspberry Pi und Stable Diffusion.

KI-Bildgenerator: Diese Kamera generiert, statt zu fotografieren
Artikel
  1. Seekabel: Colt bietet eine europäische Verbindung in die USA
    Seekabel
    Colt bietet eine europäische Verbindung in die USA

    Colt bringt eine neue Seekabelverbindung von Europa in die USA, die stärker in europäischer Hand ist. Statt in New York landet man in New Jersey. Doch Google und Facebook sind dabei.

  2. Magnetohydrodynamischer Antrieb: US-Militär lässt lautlosen U-Boot-Antrieb entwickeln
    Magnetohydrodynamischer Antrieb
    US-Militär lässt lautlosen U-Boot-Antrieb entwickeln

    Bislang war magnetohydrodynamischer Antrieb der Fiktion vorbehalten. Dank Fortschritten in der Akku- und Fusionstechnik soll sich das ändern.

  3. Disney und Videostreaming: Über 100 Eigenproduktionen aus Abo von Disney+ entfernt
    Disney und Videostreaming
    Über 100 Eigenproduktionen aus Abo von Disney+ entfernt

    Eigentlich wollte Disney nur etwas mehr als 50 Eigenproduktionen aus Disney+ verschwinden lassen. Nun fehlen deutlich mehr Filme und Serien.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Roccat bis -50% • AVM Modems & Repeater bis -36% • MindStar: 13 Grafikkarten im Sale • Logitech G Pro Wireless Maus 89€ • The A500 Mini 74,99€ • Logitech G213 Prodigy Tastatur 49,90€ • Crucial P5 Plus (PS5-komp.) 1TB 71,99€, 2TB 133,99€ [Werbung]
    •  /