Robots Exclusion Protocol: Google will Robots.txt zu IETF-Standard machen

Mit Hilfe des Robots Exclusion Protocol können Webmaster festlegen, ob und wie Crawler ihre Webseite durchsuchen sollen. Die Technik rund um die Robots.txt soll 25 Jahre nach Entstehen nun zu einem IETF-Standard werden und Google macht seinen Parser dafür Open Source.

Artikel veröffentlicht am ,
Zum 25. Jubiläum der Robots.txt startet Google eine Initiative zum Standardisieren der Technik.
Zum 25. Jubiläum der Robots.txt startet Google eine Initiative zum Standardisieren der Technik. (Bild: Google)

Vor 25 Jahren kündigte der Webmaster Martijn Koster einen Standard an, mit dem Robots, die unter anderem auch Crawler genannt werden, angewiesen werden können, wie und ob diese die eigenen Seite durchsuchen dürfen. Dieses Robots Exclusion Protocol (REP) mit der dafür zentralen Robots.txt-Datei ist bis jetzt als Übereinkunft von großen Suchmaschinenbetreibern aber nur ein De-facto-Standard. Google will das mit Hilfe von Koster ändern und das REP bei der Internet Engineering Task Force (IETF) standardisieren.

Stellenmarkt
  1. (Senior) Change Manager IT Infrastruktur (m/w/x)
    ALDI International Services GmbH & Co. oHG, Mülheim an der Ruhr
  2. Berater*in Gesundheitsdaten und digitale Gesundheit (m/w/d)
    Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) GmbH, Bonn
Detailsuche

Laut Google führte die bisher fehlende Standardisierung dazu, dass "Entwickler das Protokoll im Laufe der Jahre etwas anders interpretiert haben. Und seit seiner Einführung wurde der REP nicht mehr aktualisiert, um die heutigen Ausnahmefälle abzudecken. Dies ist ein herausforderndes Problem für Webseitenbetreiber, da es aufgrund des mehrdeutigen De-facto-Standards schwierig war, die Regeln korrekt zu schreiben."

IETF-Entwurf bringt Neuerungen

Diese Probleme soll ein neuer IETF-Standard nun lösen, indem er Regeln liefert, die der aktuellen Praxis entsprechen. Der Entwurf dazu steht bei der IETF bereit. Zusätzlich zu der Zusammenarbeit mit Koster habe Google dafür auch mit Webmastern und anderen Suchmaschinenbetreibern kooperiert. Die wichtigste Neuerung ist demnach die Nutzung des REP für jedes URI-Schema, also nicht mehr nur HTTP, sondern auch FTP oder Coap.

Robots können darüber hinaus ein Parsing-Limit festlegen, das jedoch mindestens 500 KByte betragen muss. So sollen Verbindungen nicht zu lange aufrechterhalten werden müssen. Ebenso können die HTTP-Cache-Control-Header als Anweisung an Crawler benutzt werden, so dass die Robots.txt eben in einem Cache für maximal 24 Stunden vorgehalten wird. So soll sich die Datei einfacher ändern lassen, ohne von Crawler-Anfragen überrannt zu werden.

Golem Akademie
  1. Elastic Stack Fundamentals - Elasticsearch, Logstash, Kibana, Beats
    26. - 28. Oktober 2021, online
  2. Docker & Containers - From Zero to Hero
    5.-7. Oktober 2021, online
  3. Advanced Python - Fortgeschrittene Programmierthemen
    16./17. September 2021, online
Weitere IT-Trainings

Sollte die Robots.txt außerdem nicht erreichbar sein, muss sich der Crawler nun so verhalten, dass die Webseite gar nicht durchsucht werden darf. Für den Fall, dass die Seite vorher schon einmal von dem Crawler besucht wurde, soll bei Nichterreichbarkeit die im Cache vorgehaltene Datei genutzt werden, so dass dann die bisher bekannten Regeln weiter gelten.

Google selbst hat nun auf Grundlage des IETF-Entwurfs seine eigenen Regeln im Umgang mit der Robots.txt verändert und verfolgt bis zu fünf Redirects oder unterstützt alle URI-Schemata. Weitere Änderungen listet Google in seiner Dokumentation für Entwickler.

Wie mit den Änderungen von Google deutlich wird, ist die Nutzung des IETF-Entwurfs mit Anpassungen auf Seiten der Webseitenbetreiber verbunden. Damit das Parsen der Robots.txt aber nicht zu viel Arbeit bedeutet, hat das Unternehmen seinen eigenen Parser dafür nun als Open Source auf Github veröffentlicht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Opel Mokka-e im Praxistest
Reichweitenangst kickt mehr als Koffein

Ist ein Kompakt-SUV wie Opel Mokka-e für den Urlaub geeignet? Im Praxistest war nicht der kleine Akku das eigentliche Problem.
Ein Test von Friedhelm Greis

Opel Mokka-e im Praxistest: Reichweitenangst kickt mehr als Koffein
Artikel
  1. Statt TCP: Quic ist schwer zu optimieren
    Statt TCP
    Quic ist schwer zu optimieren

    Eine Untersuchung von Quic im Produktiveinsatz zeigt: Die Vorteile des Protokolls sind wohl weniger wichtig als die Frage, wer es einsetzt.

  2. Lockbit 2.0: Ransomware will Firmen-Insider rekrutieren
    Lockbit 2.0
    Ransomware will Firmen-Insider rekrutieren

    Die Ransomware-Gruppe Lockbit sucht auf ungewöhnliche Weise nach Insidern, die ihr Zugangsdaten übermitteln sollen.

  3. Galactic Starcruiser: Disney eröffnet immersives (und teures) Star-Wars-Hotel
    Galactic Starcruiser
    Disney eröffnet immersives (und teures) Star-Wars-Hotel

    Wer schon immer zwei Tage lang wie in einem Star-Wars-Abenteuer leben wollte, bekommt ab dem Frühjahr 2022 die Chance dazu - das nötige Kleingeld vorausgesetzt.

Kein Kostverächter 03. Jul 2019

Die robots.txt ist kein Sicherheitsfeature und war auch nie als solches gedacht. Sie ist...



Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Fire TV Stick 4K Ultra HD 29,99€, Echo Dot 3. Gen. 24,99€ • Robas Lund DX Racer Gaming-Stuhl 143,47€ • HyperX Cloud II Gaming-Headset 59€ • Media Markt Breaking Deals [Werbung]
    •  /