Webmaster alarmiert: KI-Scraping-Tool lädt massenhaft Bilder aus dem Web
Img2dataset, ein von Romain Beaumont entwickeltes Tool zum Scraping von Bildern für KI, hat eine Kontroverse wegen seines Opt-out-Ansatzes ausgelöst.

Website-Betreiber behaupten, dass ihre Websites mit Traffic überschwemmt werden – der Grund sei das Tool Img2dataset, das Bilder herunterlädt und zum Trainieren generativer KI nutzbar macht.
Ein betroffener Website-Betreiber namens Terence Eden beschwerte sich in der Publikation Motherboard, dass er den Bot aktiv aussperren müsse, um zu verhindern, dass seine Websites ausgewertet werden.
Der Entwickler Romain Beaumont, der auch an Laion-5B, einem der größten Bilddatenbestände der Welt, mitarbeitet, hält es für "traurig", dass sich einige Website-Betreiber gegen das Scraping wehren, heißt es in dem Bericht. Er entwickelte das Tool Img2dataset, das Bilder aus Websites in hoher Geschwindigkeit automatisiert auslesen, komprimieren und für KI-Trainings bereitstellen kann.
Beaumont ist der Meinung, dass Websitenbetreiber in Zukunft viele Möglichkeiten haben werden, von KI zu profitieren, heißt es in dem Bericht von Motherboard. Welche Möglichkeiten sich für Websitebetreiber aufgrund der Scraping-Maßnahmen ergeben, führte er nicht aus.
Img2dataset zieht Bilder von jeder beliebigen Website, es sei denn, die Seitenbesitzer fügen spezielle Https-Header wie X-Robots-Tag: noai und X-Robots-Tag: noindex hinzu. Es handelt sich also um ein Opt-out-Verfahren. Wer nicht widerspricht, stimmt somit zu.
In Motherboard forderte Eden, dass eine Opt-in-Möglichkeit geschaffen werden sollte.
Woher hat die KI ihr Trainingsmaterial? Dies ist der kritische Punkt
Unternehmen wie Google, Facebook und OpenAI gerieten wegen ihres Einsatzes von KI und Data Scraping in die Kritik. Sie stützen sich auf große Datenmengen, die online verfügbar sind. Die Ersteller hatten jedoch niemals die Möglichkeit, sich dagegen zu entscheiden, dass ihre Inhalte als Trainingsmaterial genutzt werden.
Reddit änderte kürzlich seine API, so dass Google, OpenAI und andere Unternehmen Inhalte nicht mehr kostenlos abgreifen können. Stackoverflow tat dasselbe.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Ganz ehrlich, jetzt müssen die Web"Master" endlich mal genau das tun, was von denen schon...
Das Gegenteil ist der Fall, keine robots.txt, keine Beschränkung
Naja, die KI nutzt die Daten im Grunde ja nur für sich, sprich PRIVAT um zu lernen. Wenn...
Da ist dann die Frage, ob man einen Computer (eine KI ist sowas ja noch längst nicht...
Kommentieren