Webmaster alarmiert: KI-Scraping-Tool lädt massenhaft Bilder aus dem Web 

Img2dataset, ein von Romain Beaumont entwickeltes Tool zum Scraping von Bildern für KI, hat eine Kontroverse wegen seines Opt-out-Ansatzes ausgelöst.

Artikel veröffentlicht am , Michael Linden
Scraping-Tool Img2dataset
Scraping-Tool Img2dataset (Bild: img2dataset/Mockuup Studio)

Website-Betreiber behaupten, dass ihre Websites mit Traffic überschwemmt werden – der Grund sei das Tool Img2dataset, das Bilder herunterlädt und zum Trainieren generativer KI nutzbar macht.

Ein betroffener Website-Betreiber namens Terence Eden beschwerte sich in der Publikation Motherboard, dass er den Bot aktiv aussperren müsse, um zu verhindern, dass seine Websites ausgewertet werden.

Der Entwickler Romain Beaumont, der auch an Laion-5B, einem der größten Bilddatenbestände der Welt, mitarbeitet, hält es für "traurig", dass sich einige Website-Betreiber gegen das Scraping wehren, heißt es in dem Bericht. Er entwickelte das Tool Img2dataset, das Bilder aus Websites in hoher Geschwindigkeit automatisiert auslesen, komprimieren und für KI-Trainings bereitstellen kann.

Beaumont ist der Meinung, dass Websitenbetreiber in Zukunft viele Möglichkeiten haben werden, von KI zu profitieren, heißt es in dem Bericht von Motherboard. Welche Möglichkeiten sich für Websitebetreiber aufgrund der Scraping-Maßnahmen ergeben, führte er nicht aus.

Img2dataset zieht Bilder von jeder beliebigen Website, es sei denn, die Seitenbesitzer fügen spezielle Https-Header wie X-Robots-Tag: noai und X-Robots-Tag: noindex hinzu. Es handelt sich also um ein Opt-out-Verfahren. Wer nicht widerspricht, stimmt somit zu.

In Motherboard forderte Eden, dass eine Opt-in-Möglichkeit geschaffen werden sollte.

Woher hat die KI ihr Trainingsmaterial? Dies ist der kritische Punkt

Unternehmen wie Google, Facebook und OpenAI gerieten wegen ihres Einsatzes von KI und Data Scraping in die Kritik. Sie stützen sich auf große Datenmengen, die online verfügbar sind. Die Ersteller hatten jedoch niemals die Möglichkeit, sich dagegen zu entscheiden, dass ihre Inhalte als Trainingsmaterial genutzt werden.

Reddit änderte kürzlich seine API, so dass Google, OpenAI und andere Unternehmen Inhalte nicht mehr kostenlos abgreifen können. Stackoverflow tat dasselbe.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Ur50wr0ng 02. Mai 2023 / Themenstart

Ganz ehrlich, jetzt müssen die Web"Master" endlich mal genau das tun, was von denen schon...

franzropen 27. Apr 2023 / Themenstart

Das Gegenteil ist der Fall, keine robots.txt, keine Beschränkung

HorizonAI 26. Apr 2023 / Themenstart

Naja, die KI nutzt die Daten im Grunde ja nur für sich, sprich PRIVAT um zu lernen. Wenn...

Matthiasxyz 26. Apr 2023 / Themenstart

Da ist dann die Frage, ob man einen Computer (eine KI ist sowas ja noch längst nicht...

Kommentieren



Aktuell auf der Startseite von Golem.de
Grace Hopper Superchip
Nvidia zeigt den DGX GH200 AI-Supercomputer

Die Kombination aus Grace Hopper, Bluefield 3 und NVLink ergibt funktional eine riesige GPU mit der Rechenkapazität eines Supercomputers und 144 TByte Grafikspeicher.

Grace Hopper Superchip: Nvidia zeigt den DGX GH200 AI-Supercomputer
Artikel
  1. Gefangen im Zeitstrom, verloren im All: Die zehn besten Sci-Fi-Serien der 1960er
    Gefangen im Zeitstrom, verloren im All
    Die zehn besten Sci-Fi-Serien der 1960er

    Sie sind die Klassiker, auf denen das ganze Genre aufbaut: die großen Science-Fiction-Serien der 1960er. Neben Star Trek gab es hier noch viel mehr.
    Von Peter Osteried

  2. Reiner Haseloff: Ministerpräsident fordert Nullrunde bei Rundfunkbeitrag
    Reiner Haseloff
    Ministerpräsident fordert Nullrunde bei Rundfunkbeitrag

    Zwei Jahre soll der Rundfunkbeitrag eingefroren werden, die Zukunftskommission derweil Reformideen vorlegen, schlägt Sachsen-Anhalts Ministerpräsident vor.

  3. Speicherleaks vermeiden: Ressourcen- und typensicheres Programmieren in C++
    Speicherleaks vermeiden
    Ressourcen- und typensicheres Programmieren in C++

    Bei C++ liegt alles in der Hand der Entwickler - und das kann gut und schlecht sein. Richtig angewendet, ist die Sprache aber alles andere als unsicher.
    Eine Anleitung von Adam Jaskowiec

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Microsoft Xbox Wireless Controller 40,70€ • Lexar Play 1 TB 99,60€ • DAMN!-Deals mit AMD-Bundle-Aktion • MindStar: AMD Ryzen 9 5950X 429€, MSI RTX 3060 Gaming Z Trio 12G 329€, GIGABYTE RTX 3060 Eagle OC 12G 299€, be quiet! Pure Base 500DX 89€ • Logitech bis -46% [Werbung]
    •  /