Zum Hauptinhalt Zur Navigation

Crawler: KI-Suchmaschine Perplexity soll Website-Sperren umgehen

Cloudflare wirft Perplexity vor, getarnte Crawler zu nutzen, um trotz expliziter robots.txt-Verbote an Inhalte zu gelangen.
/ Michael Linden
20 Kommentare News folgen (öffnet im neuen Fenster)
Perplexity (Bild: REUTERS/Dado Ruvic)
Perplexity Bild: REUTERS/Dado Ruvic

Cloudflare berichtet(öffnet im neuen Fenster) , dass die KI-gestützte Suchmaschine Perplexity auf Inhalte von Websites zugreifen soll, obwohl diese Crawler explizit blockiert haben. Die Erkenntnisse deuten darauf hin, dass das Unternehmen möglicherweise etablierte Web-Crawling-Restriktionen umgeht, die über Jahrzehnte ein ungeschriebenes Gesetz waren.

Laut Cloudflares Untersuchung versucht Perplexity zunächst, Websites unter seinem eigenen User-Agenten zu crawlen. Wenn jedoch Netzwerk-Blockaden oder robots.txt-Beschränkungen auftreten, soll der Dienst zu einem generischen Browser-User-Agenten wechseln, der darauf ausgelegt ist, Google Chrome auf MacOS-Systemen zu imitieren.

Stealth-Crawler könnte 3 bis 6 Millionen Anfragen pro Tag verursachen

Cloudflare testete dieses Verhalten, indem es neue Domains mit strikten robots.txt-Dateien erstellte, die jeden automatisierten Zugang untersagten. Trotz dieser Beschränkungen soll Perplexity weiterhin detaillierte Informationen über die blockierten Inhalte bereitgestellt haben, als Nutzer Anfragen zu diesen Testseiten stellten.

Cloudflares Daten zeigen, dass Perplexitys Crawler etwa 20 bis 25 Millionen tägliche Anfragen generiert, während der mutmaßliche Stealth-Crawler zusätzliche 3 bis 6 Millionen Anfragen pro Tag verursacht. Der Stealth-Crawler soll verschiedene IP-Adressen nutzen.

Das beobachtete Verhalten steht im Gegensatz zu etablierten Web-Crawling-Standards, die in RFC 9309(öffnet im neuen Fenster) beschrieben sind.

OpenAI wird von Cloudflare als Beispiel für ordnungsgemäßes Crawling anführt. ChatGPTs Crawler soll robots.txt-Dateien respektiert und Crawling-Versuche eingestellt haben, wenn er blockiert wurde, ohne zu versuchen, Beschränkungen durch alternative User-Agents zu umgehen.


Relevante Themen