Zum Hauptinhalt Zur Navigation

Künstliche Intelligenz: Twitterbot scannt Webseiten offenbar für KI-Training

Der Twitterbot dient anscheinend nicht mehr nur zur Link-Vorschau. Analysen zeigen massives Scraping, vermutlich fürs KI -Training von Grok(öffnet im neuen Fenster) .
/ Nils Matthiesen
4 Kommentare News folgen (öffnet im neuen Fenster)
Sammelt der Twitterbot Daten für KI-Modelle? (Bild: KI-generiert mit Gemini)
Sammelt der Twitterbot Daten für KI-Modelle? Bild: KI-generiert mit Gemini

Die Debatte um das automatisierte Auslesen von Internetinhalten durch Tech-Konzerne gewinnt an Schärfe. Aktuelle Untersuchungen deuten darauf hin, dass die Social-Media-Plattform X(öffnet im neuen Fenster) (ehemals Twitter) ihren Web-Crawler Twitterbot deutlich aggressiver einsetzt als bisher bekannt. Während der Bot ursprünglich primär dafür zuständig war, Link-Vorschauen für geteilte URLs zu generieren, mehren sich die Anzeichen, dass die gesammelten Informationen nun direkt in das Training der hauseigenen KI-Modelle von xAI fließen.

Wie aus einer technischen Analyse des Blogs Kitsunemimi(öffnet im neuen Fenster) hervorgeht, weist das Verhalten des Crawlers untypische Muster auf. Statt nur punktuell einzelne Seiten abzurufen, die von Nutzern geteilt wurden, scannt der Bot anscheinend systematisch ganze Verzeichnisstrukturen. Auffällig sei dabei die Frequenz der Anfragen, die weit über das Maß einer gewöhnlichen Indexierung hinausgehe. In den Server-Logs identifiziere sich der Crawler dabei weiterhin mit dem User-Agent Twitterbot/1.0, was die Zuordnung eindeutig mache.

Die Analyse der IP-Adressen zeigt ferner eine Verbindung zur Infrastruktur von X sowie genutzten Clouddiensten wie AWS. Ein wesentlicher Kritikpunkt ist die mangelnde Transparenz. Während Unternehmen wie OpenAI oder Google mittlerweile spezifische User-Agents für ihre KI-Crawler bereitstellen, die von Webmastern gezielt über die robots.txt-Datei blockiert werden können, scheint X das bestehende System des Twitterbots zweckzuentfremden.

Strategie für Grok und xAI

Es wird vermutet, dass die so gewonnenen Daten direkt dem KI-Chatbot Grok zugutekommen sollen. Elon Musk betonte in der Vergangenheit, dass der Zugang zu Echtzeitdaten ein entscheidender Wettbewerbsvorteil für xAI gegenüber Konkurrenten wie ChatGPT sei. Da die internen Datenbestände von X allein für ein umfassendes Sprachmodell kaum ausreichen dürften, ist die Erweiterung des Datensatzes durch externes Web-Scraping ein logischer Schritt.

Dies stellt Webseitenbetreiber vor ein Dilemma: Wer den Twitterbot blockiert, verhindert zwar das potenziell unerwünschte Abgreifen von Daten für das KI-Training, löst aber gleichzeitig aus, dass Links zur eigenen Webseite auf X nicht mehr korrekt mit Vorschaubild und Teaser-Text dargestellt werden. Für viele Medienhäuser und Blogger ist dies ein erheblicher Nachteil bei der Reichweite. Die aktuelle Vorgehensweise wird daher als Versuch gewertet, Daten ohne explizite Zustimmung der Urheber zu akquirieren, indem die Abhängigkeit der Publisher von Social-Media-Traffic ausgenutzt wird.

Rechtliche Grauzone: DSGVO und AI Act

Dieses Vorgehen operiert rechtlich in einer Grauzone. Während das Auslesen von Inhalten für Suchmaschinen meist durch das " berechtigte Interesse " (Art. 6 Abs. 1 lit. f DSGVO) gedeckt ist – da der Webseitenbetreiber durch die Indexierung einen direkten Vorteil, in diesem Fall Sichtbarkeit, erfährt -, ist die Nutzung für das Training kommerzieller KI-Modelle hochgradig umstritten. Insbesondere das Fehlen einer granularen Opt-out-Möglichkeit, ohne dabei die Plattformfunktionalität zu verlieren, könnte gegen Vorgaben des neuen EU AI Act und europäische Datenschutzstandards verstoßen. Die Zweckentfremdung eines technischen Werkzeugs (Link-Vorschau) für einen völlig anderen Zweck (KI-Training) widerspricht zudem dem Prinzip der Zweckbindung.

Bisher äußerte sich X nicht offiziell zu den geänderten Aktivitäten. Für Administratoren bleibt derzeit nur die Möglichkeit, den User-Agent serverseitig zu sperren oder spezifische IP-Bereiche zu blockieren. Da die Aktivitäten jedoch oft von wechselnden Adressen ausgehen, gestaltet sich eine effektive Filterung schwierig, ohne reguläre Funktionen der Plattform zu beeinträchtigen.


Relevante Themen