Abo
  • Services:

Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren

Das Archiv des Internets will der Robots.txt-Datei einer Webseite künftig keine Bedeutung mehr beimessen. Der Schritt sei notwendig, weil die Datei einer echten Archivierung des Internets aus Nutzersicht entgegenstehe, schreiben die Macher.

Artikel veröffentlicht am ,
Zeichnung eines historischen Archivs
Zeichnung eines historischen Archivs (Bild: Gemeinfrei)

Das gemeinnützige Projekt Internet Archive hat auf seiner Webseite bekanntgegeben, Einträge in Robots.txt ignorieren zu wollen. Über die Jahre habe man festgestellt, dass die Einträge in der Datei "nicht notwendigerweise unseren archivarischen Zwecken dienen", schreibt das Projekt. In der Vergangenheit hätten Robots.txt-Einträge auf archivierten Webseiten immer wieder dazu geführt, dass solche Webseiten auch aus der "Wayback Machine" des Internet Archive herausfallen würden.

Stellenmarkt
  1. Gentherm GmbH, Odelzhausen
  2. Deutsche Welle, Bonn

Bereits vor einigen Monaten hatte das Projekt aufgehört, Robots.txt auf Seiten der US-Regierung und des US-Militärs zu beachten. Dies gelte sowohl für das Crawling als auch für das Anzeigen von Webseiten durch die Wayback Machine. Löschanfragen, die an info@archive.org gesandt werden, würden weiterhin entgegengenommen. Das Vorgehen habe bislang nicht zu Problemen geführt.

US-Regierungswebseiten werden schon länger ohne Ausnahme durchsucht

Künftig soll Robots.txt auch bei anderen Webseiten keine Anwendung mehr finden. Internet Archive schreibt: "Wir sehen, dass die Zukunft der Webarchivierung sich weniger auf die Deklarationen der Robots.txt-Datei verlässt, die eher auf Suchmaschinen zielt, sondern das Web so abbildet, wie es wirklich war - aus Nutzersicht."

Robots.txt ist eine kleine Textdatei, mit der Webseitenbetreiber bestimmte Teile einer Webseite vor Suchmaschinencrawlern verstecken können. Dies kann für die gesamte Webseite gelten, aber auch nur bestimmte Teile, etwa für den Loginbereich des Content-Management-Systems. Robots.txt ist kein verbindlicher technischer Standard, sondern eine Konvention, die die meisten großen Suchmaschinenbetreiber beachten.



Anzeige
Spiele-Angebote
  1. (-76%) 11,99€
  2. 4,99€
  3. (-68%) 12,99€

FreiGeistler 30. Mai 2017

Wenn du nur Besucher willst die europäischem Recht unterliegen, solltest du den...

okidoki 26. Apr 2017

Einsehbar ja, raubkopierbar nein. Keiner darf den Inhalt von Golem.de kopieren und...

okidoki 26. Apr 2017

Ja, richtig gelesen. Netzpublikationen müssen analog zu Büchern bei der Deutschen...

Prinzeumel 25. Apr 2017

Weil sie sich aktuell nur an dortige gesetze halten müssen.

Prinzeumel 25. Apr 2017

Genau das kann die robots.txt eben nicht leisten. Sie bittet nur darum bestimmte seiten...


Folgen Sie uns
       


Assassin's Creed Odyssey - Test

Wir hätten nicht gedacht, dass wir erneut so gerne so viel Zeit in Ubisofts Antike verbringen.

Assassin's Creed Odyssey - Test Video aufrufen
NGT Cargo: Der Güterzug der Zukunft fährt 400 km/h
NGT Cargo
Der Güterzug der Zukunft fährt 400 km/h

Güterzüge sind lange, laute Gebilde, die langsam durch die Lande zuckeln. Das soll sich ändern: Das DLR hat ein Konzept für einen automatisiert fahrenden Hochgeschwindigkeitsgüterzug entwickelt, der schneller ist als der schnellste ICE.
Ein Bericht von Werner Pluta


    15 Jahre Extreme Edition: Als Intel noch AMD zuvorkommen musste
    15 Jahre Extreme Edition
    Als Intel noch AMD zuvorkommen musste

    Seit 2003 verkauft Intel seine CPU-Topmodelle für Spieler und Enthusiasten als Extreme Edition. Wir blicken zurück auf 15 Jahre voller zweckentfremdeter Xeon-Chips, Mainboards mit Totenschädeln und extremer Prozessoren, die mit Phasenkühlung demonstriert wurden.
    Von Marc Sauter

    1. Quartalszahlen Intel legt 19-Milliarden-USD-Rekord vor
    2. Ryan Shrout US-Journalist wird Chief Performance Strategist bei Intel
    3. Iris GPU Intel baut neuen und schnelleren Grafiktreiber unter Linux

    Serverless Computing: Mehr Zeit für den Code
    Serverless Computing
    Mehr Zeit für den Code

    Weniger Verwaltungsaufwand und mehr Automatisierung: Viele Entwickler bauen auf fertige Komponenten aus der Cloud, um die eigenen Anwendungen aufzubauen. Beim Serverless Computing verschwinden die benötigten Server unter einer dicken Abstraktionsschicht, was mehr Zeit für den eigenen Code lässt.
    Von Valentin Höbel

    1. Kubernetes Cloud Discovery inventarisiert vergessene Cloud-Native-Apps
    2. T-Systems Deutsche Telekom will Cloud-Firmen kaufen
    3. Trotz hoher Gewinne Wieder Stellenabbau bei Microsoft

      •  /