Abo
  • IT-Karriere:

Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren

Das Archiv des Internets will der Robots.txt-Datei einer Webseite künftig keine Bedeutung mehr beimessen. Der Schritt sei notwendig, weil die Datei einer echten Archivierung des Internets aus Nutzersicht entgegenstehe, schreiben die Macher.

Artikel veröffentlicht am ,
Zeichnung eines historischen Archivs
Zeichnung eines historischen Archivs (Bild: Gemeinfrei)

Das gemeinnützige Projekt Internet Archive hat auf seiner Webseite bekanntgegeben, Einträge in Robots.txt ignorieren zu wollen. Über die Jahre habe man festgestellt, dass die Einträge in der Datei "nicht notwendigerweise unseren archivarischen Zwecken dienen", schreibt das Projekt. In der Vergangenheit hätten Robots.txt-Einträge auf archivierten Webseiten immer wieder dazu geführt, dass solche Webseiten auch aus der "Wayback Machine" des Internet Archive herausfallen würden.

Stellenmarkt
  1. Vodafone GmbH, Düsseldorf
  2. Joyson Safety Systems Aschaffenburg GmbH, Aschaffenburg

Bereits vor einigen Monaten hatte das Projekt aufgehört, Robots.txt auf Seiten der US-Regierung und des US-Militärs zu beachten. Dies gelte sowohl für das Crawling als auch für das Anzeigen von Webseiten durch die Wayback Machine. Löschanfragen, die an info@archive.org gesandt werden, würden weiterhin entgegengenommen. Das Vorgehen habe bislang nicht zu Problemen geführt.

US-Regierungswebseiten werden schon länger ohne Ausnahme durchsucht

Künftig soll Robots.txt auch bei anderen Webseiten keine Anwendung mehr finden. Internet Archive schreibt: "Wir sehen, dass die Zukunft der Webarchivierung sich weniger auf die Deklarationen der Robots.txt-Datei verlässt, die eher auf Suchmaschinen zielt, sondern das Web so abbildet, wie es wirklich war - aus Nutzersicht."

Robots.txt ist eine kleine Textdatei, mit der Webseitenbetreiber bestimmte Teile einer Webseite vor Suchmaschinencrawlern verstecken können. Dies kann für die gesamte Webseite gelten, aber auch nur bestimmte Teile, etwa für den Loginbereich des Content-Management-Systems. Robots.txt ist kein verbindlicher technischer Standard, sondern eine Konvention, die die meisten großen Suchmaschinenbetreiber beachten.



Anzeige
Spiele-Angebote
  1. 2,49€
  2. (-60%) 19,99€
  3. 37,49€
  4. 59,99€ für PC/69,99€ für PS4, Xbox (Release am 4. Oktober)

FreiGeistler 30. Mai 2017

Wenn du nur Besucher willst die europäischem Recht unterliegen, solltest du den...

okidoki 26. Apr 2017

Einsehbar ja, raubkopierbar nein. Keiner darf den Inhalt von Golem.de kopieren und...

okidoki 26. Apr 2017

Ja, richtig gelesen. Netzpublikationen müssen analog zu Büchern bei der Deutschen...

Anonymer Nutzer 25. Apr 2017

Weil sie sich aktuell nur an dortige gesetze halten müssen.

Anonymer Nutzer 25. Apr 2017

Genau das kann die robots.txt eben nicht leisten. Sie bittet nur darum bestimmte seiten...


Folgen Sie uns
       


Die Commodore-264er-Reihe angesehen

Unschlagbar günstig, unfassbar wenig RAM - der C16 konnte in vielen Belangen nicht mit dem populären C64 mithalten.

Die Commodore-264er-Reihe angesehen Video aufrufen
Chromium: Der neue Edge-Browser könnte auch Chrome besser machen
Chromium
Der neue Edge-Browser könnte auch Chrome besser machen

Build 2019 Wie sieht die Zukunft des Edge-Browsers aus und was will Microsoft zum Chromium-Projekt beitragen? Im Gespräch mit Golem.de gibt das Unternehmen die vage Aussicht auf einen Release für Linux und Verbesserungen in Google Chrome. Bis dahin steht viel Arbeit an.
Von Oliver Nickel

  1. Browser Edge auf Chromium-Basis wird Netflix in 4K unterstützen
  2. Browser Microsoft lässt nur Facebook auf Flash-Whitelist in Edge
  3. Microsoft-Browser Edge bekommt Chromium-Herz

Motorola One Vision im Hands on: Smartphone mit 48-Megapixel-Kamera für 300 Euro
Motorola One Vision im Hands on
Smartphone mit 48-Megapixel-Kamera für 300 Euro

Motorola bringt ein weiteres Android-One-Smartphone auf den Markt. Die Neuvorstellung verwendet viel Samsung-Technik und hat ein sehr schmales Display. Die technischen Daten sind für diese Preisklasse vielversprechend.
Ein Hands on von Ingo Pakalski

  1. Moto G7 Power Lenovos neues Motorola-Smartphone hat einen großen Akku
  2. Smartphones Lenovo leakt neue Moto-G7-Serie

Katamaran Energy Observer: Kaffee zu kochen heißt, zwei Minuten später anzukommen
Katamaran Energy Observer
Kaffee zu kochen heißt, zwei Minuten später anzukommen

Schiffe müssen keine Dreckschleudern sein: Victorien Erussard und Jérôme Delafosse haben ein Boot konstruiert, das ohne fossilen Treibstoff auskommt. Es kann sogar auf hoher See selbst Treibstoff aus Meerwasser gewinnen. Auf ihrer Tour um die Welt wirbt die Energy Observer für erneuerbare Energien.
Ein Bericht von Werner Pluta

  1. Umweltschutz Kanäle in NRW bekommen Ladesäulen für Binnenschiffe
  2. Transport DLR plant Testfeld für autonome Schiffe in Brandenburg
  3. C-Enduro Britische Marine testet autonomes Wasserfahrzeug

    •  /