Webmaster alarmiert: KI-Scraping-Tool lädt massenhaft Bilder aus dem Web

Website-Betreiber behaupten, dass ihre Websites mit Traffic überschwemmt werden - der Grund sei das Tool Img2dataset(öffnet im neuen Fenster) , das Bilder herunterlädt und zum Trainieren generativer KI nutzbar macht.
Ein betroffener Website-Betreiber namens Terence Eden beschwerte sich in der Publikation Motherboard(öffnet im neuen Fenster) , dass er den Bot aktiv aussperren müsse, um zu verhindern, dass seine Websites ausgewertet werden.
Der Entwickler Romain Beaumont, der auch an Laion-5B, einem der größten Bilddatenbestände der Welt, mitarbeitet, hält es für "traurig" , dass sich einige Website-Betreiber gegen das Scraping wehren, heißt es in dem Bericht. Er entwickelte das Tool Img2dataset, das Bilder aus Websites in hoher Geschwindigkeit automatisiert auslesen, komprimieren und für KI-Trainings bereitstellen kann.
Beaumont ist der Meinung, dass Websitenbetreiber in Zukunft viele Möglichkeiten haben werden, von KI zu profitieren, heißt es in dem Bericht von Motherboard. Welche Möglichkeiten sich für Websitebetreiber aufgrund der Scraping-Maßnahmen ergeben, führte er nicht aus.
Img2dataset zieht Bilder von jeder beliebigen Website, es sei denn, die Seitenbesitzer fügen spezielle Https-Header wie X-Robots-Tag: noai und X-Robots-Tag: noindex hinzu. Es handelt sich also um ein Opt-out-Verfahren. Wer nicht widerspricht, stimmt somit zu.
In Motherboard forderte Eden, dass eine Opt-in-Möglichkeit geschaffen werden sollte.
Woher hat die KI ihr Trainingsmaterial? Dies ist der kritische Punkt
Unternehmen wie Google, Facebook und OpenAI gerieten wegen ihres Einsatzes von KI und Data Scraping in die Kritik . Sie stützen sich auf große Datenmengen, die online verfügbar sind. Die Ersteller hatten jedoch niemals die Möglichkeit, sich dagegen zu entscheiden, dass ihre Inhalte als Trainingsmaterial genutzt werden.
Reddit änderte kürzlich seine API(öffnet im neuen Fenster) , so dass Google, OpenAI und andere Unternehmen Inhalte nicht mehr kostenlos abgreifen können. Stackoverflow tat dasselbe.



