Zum Hauptinhalt Zur Navigation

Instabilität und Ausfälle: Aggressive KI-Crawler gefährden Open-Source-Projekte

KI-Crawler dominieren den Datenverkehr und reagieren mit gefälschten Nutzeragenten auf Sperrungen. Die Open-Source -Szene wehrt sich dagegen.
/ Mike Faust
12 Kommentare News folgen (öffnet im neuen Fenster)
Da KI-Crawler Sperrmaßnahmen häufig umgehen, entstehen immer mehr Abwehrtools. (Bild: Pixabay / genesis3g)
Da KI-Crawler Sperrmaßnahmen häufig umgehen, entstehen immer mehr Abwehrtools. Bild: Pixabay / genesis3g

Open-Source-Entwickler stellen fest, dass KI-Crawler den Datenverkehr auf ihren Webseiten dominieren und wiederholt für Instabilitäten und Ausfallzeiten verantwortlich sind. Wie Ars Technica schreibt(öffnet im neuen Fenster) , berichtet der Softwareentwickler Xe Iaso in einem Blogbeitrag(öffnet im neuen Fenster) , wie er Anfang des Jahres 2025 von einem aggressiven KI-Crawler von Amazon betroffen war, dessen Traffic seinen Git-Repository-Service überlastete.

Abwehrmaßnahmen wie die Anpassung der robots.txt, die Blockierung bekannter Crawler-Agenten und die Filterung verdächtigen Datenverkehrs umgingen die Crawler, indem sie Nutzeragenten fälschten und IP-Adressen von Privatanwendern als Proxys durchliefen. Letztendlich musste Xe Iaso seinen Server hinter einem VPN platzieren. Er entwickelte ein Anubis genanntes Proof-of-Work-System(öffnet im neuen Fenster) , das den Webbrowser dazu zwingt, eine Rechenaufgabe zu lösen, bevor auf die Webseite zugegriffen werden darf.

Sein Bericht beschreibt ein Problem, von dem große Teile der von der Open-Source-Gemeinschaft betriebenen Infrastruktur betroffen sind. Laut einem Bericht von Librenews(öffnet im neuen Fenster) stammen bei einigen Open-Source-Projekten mittlerweile bis zu 97 Prozent des Datenverkehrs von Bots, die KI-Unternehmen zugeordnet werden können. Dies erhöht die Bandbreitenkosten und verursacht Instabilität bei den betroffenen Diensten.

"Mussten den gesamten Datenverkehr aus Brasilien blockieren"

Nachdem wiederholte Versuche, den durch Bots verursachten Datenverkehr einzuschränken, fehlschlugen, mussten die Betreuer des Fedora-Infrastrukturprojekts Pagure zeitweise den gesamten Datenverkehr aus Brasilien blockieren, berichtet Kevin Fenzi(öffnet im neuen Fenster) , ein Mitglied des Sysadmin-Teams von Pagure.

Xe Iasos Anubis-System wurde für das Gnome-Gitlab implementiert und dessen Systemadministrator Bart Piotrowski schrieb auf Mastodon(öffnet im neuen Fenster) , dass nur etwa 3,2 Prozent der Anfragen das Prüfsystem bestanden hätten. Das deutet darauf hin, dass hier ebenfalls ein Großteil des Datenverkehrs automatisiert stattfand. Laut LibreNews war zudem die Gitlab-Infrastruktur von KDE wegen des von Crawlern aus dem IP-Bereich von Alibaba verursachten Traffics vorübergehend offline.

KI-Crawler verursachen aber nicht nur technische, sondern auch finanzielle Probleme. Wie das Projekt Read the Docs laut Ars Technica berichtet, sank dessen Datenverkehr nach dem Blockieren der Crawler um 75 Prozent, was einer Reduktion von 800 Gigabyte auf 200 Gigabyte pro Tag entsprach. Durch diese Änderung sparte das Projekt 1.500 US-Dollar im Monat.

Muster deuten auf kontinuierliche Datenerfassung hin

Große KI-Unternehmen werden schon seit Längerem dafür kritisiert, dass sie ohne Rücksicht auf Eigentumsverhältnisse Webcrawler einsetzen, um Trainingsdaten für ihre Large Language Modelle (LLMs) zu sammeln. Eine Analyse des sozialen Netzwerks Diaspora ergab, dass ein Viertel des Datenverkehrs von Bots mit Nutzeragenten von OpenAI stammte. Weitere 15 Prozent gingen von Amazon und 4,3 Prozent von Anthropic aus.

Dennis Schubert von Diaspora stellte dabei fest(öffnet im neuen Fenster) , dass die Crawler nicht einfach die Seiten scannten und dann weiterzogen, sondern alles sechs Stunden wiederkamen. Dieses Muster deute auf eine kontinuierliche Datenerfassung und nicht auf ein einmaliges Training hin, schrieb er in einem Post.

Da die verursachenden Firmen keine kooperativen Ansätze verfolgen, entstehen immer mehr Abwehrtools wie Anubis. Ein weiteres Beispiel dafür ist Nepenthes , das KI-Crawler mit ständig neu generierten Verlinkungen in ein endloses Labyrinth schickt, um sie beschäftigt zu halten. Cloudflare kündigte zudem AI Labyrinth an , ein Tool, mit dem Anfragen von KI-Crawlern nicht blockiert, sondern auf KI-generierte Webseiten weitergeleitet werden.

Über das Projekt ai.robots.txt(öffnet im neuen Fenster) lassen sich zudem vorgefertigte robots.txt- und .htaccess-Dateien herunterladen, die das Robots Exclusion Protocol implementieren sowie Fehlerseiten zurückgeben, wenn Anfragen von KI-Crawlern gestellt werden.


Relevante Themen