Zum Hauptinhalt Zur Navigation

Webseiten-Crawler: Google ermöglicht Blocken von Bard und VertexAI

Innerhalb der Robots.txt können Webseitenbetreiber einstellen, ob Google Daten für KI sammeln darf oder nicht.
/ Oliver Nickel
5 Kommentare News folgen (öffnet im neuen Fenster)
Der Google-Crawler sammelt auch Daten für KI-Modelle. (Bild: Pixabay.com)
Der Google-Crawler sammelt auch Daten für KI-Modelle. Bild: Pixabay.com / Pixabay-Inhaltslizenz

Google führt eine neue Art von Parameter für die Webcrawler des Unternehmens ein. Mit Google-Extended(öffnet im neuen Fenster) sollen Betreiber bestimmen können, ob sie die Daten ihrer Webseite für das Training von Bard und Vertex AI bereitstellen wollen oder eben nicht. Die beiden Produkte sind Googles KI-Assistenten, die in Zukunft wohl eine größere Rolle spielen werden. Bard ist ein dedizierter Sprachgenerator, während VertexAI die gesamte KI-Plattform darstellt.

Mithilfe von auf Webseiten veröffentlichten Daten kann Google die eigenen KI-Systeme trainieren, sodass sie auch anhand aktueller Gegebenheiten und neuer Situationen Entscheidungen treffen können. Diese Fähigkeiten will Google in die eigenen Crawler einbauen, die sowieso bereits möglichst viele Webseiten für die eigene Suchmaschine indizieren und analysieren.

OpenAI folgen

Admins können die Rechte mittels Google-Extended innerhalb der Robots.txt-Datei auf dem jeweiligen Webserver anpassen. Das funktioniert nach dem gleichen Schema wie bei anderen Google-Crawler-Elementen mittels Disallow-Parameter. "Web-Publisher werden steigender Komplexität gegenüberstehen, wenn sie mehrere Nutzungsszenarien in der Größe verwalten müssen" , schreibt Danielle Romain(öffnet im neuen Fenster) , Google-Chefin für Trust.

Aus diesem Grund will Google laut eigenen Aussagen auch andere maschinenlesbare Methoden entwickeln, um die stetig wachsenden Anforderungen der Kunden besser abdecken zu können. Details dazu sollen in der nahen Zukunft geteilt werden.

Google ist nicht das erste Unternehmen, das Usern eine bessere Kontrolle darüber gibt, ob KI Daten sammeln darf oder nicht. OpenAI hat etwa eine ähnliche Lösung implementiert, um den Crawler GPTBot vom Datensammeln abzuhalten(öffnet im neuen Fenster) . Dafür können Admins einfach die User-Agents innerhalb der Robots.txt blocken.


Relevante Themen