• IT-Karriere:
  • Services:

Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren

Das Archiv des Internets will der Robots.txt-Datei einer Webseite künftig keine Bedeutung mehr beimessen. Der Schritt sei notwendig, weil die Datei einer echten Archivierung des Internets aus Nutzersicht entgegenstehe, schreiben die Macher.

Artikel veröffentlicht am ,
Zeichnung eines historischen Archivs
Zeichnung eines historischen Archivs (Bild: Gemeinfrei)

Das gemeinnützige Projekt Internet Archive hat auf seiner Webseite bekanntgegeben, Einträge in Robots.txt ignorieren zu wollen. Über die Jahre habe man festgestellt, dass die Einträge in der Datei "nicht notwendigerweise unseren archivarischen Zwecken dienen", schreibt das Projekt. In der Vergangenheit hätten Robots.txt-Einträge auf archivierten Webseiten immer wieder dazu geführt, dass solche Webseiten auch aus der "Wayback Machine" des Internet Archive herausfallen würden.

Stellenmarkt
  1. EPLAN Software & Service GmbH & Co. KG, Stuttgart
  2. Medienzentrum Pforzheim-Enzkreis, Pforzheim

Bereits vor einigen Monaten hatte das Projekt aufgehört, Robots.txt auf Seiten der US-Regierung und des US-Militärs zu beachten. Dies gelte sowohl für das Crawling als auch für das Anzeigen von Webseiten durch die Wayback Machine. Löschanfragen, die an info@archive.org gesandt werden, würden weiterhin entgegengenommen. Das Vorgehen habe bislang nicht zu Problemen geführt.

US-Regierungswebseiten werden schon länger ohne Ausnahme durchsucht

Künftig soll Robots.txt auch bei anderen Webseiten keine Anwendung mehr finden. Internet Archive schreibt: "Wir sehen, dass die Zukunft der Webarchivierung sich weniger auf die Deklarationen der Robots.txt-Datei verlässt, die eher auf Suchmaschinen zielt, sondern das Web so abbildet, wie es wirklich war - aus Nutzersicht."

Robots.txt ist eine kleine Textdatei, mit der Webseitenbetreiber bestimmte Teile einer Webseite vor Suchmaschinencrawlern verstecken können. Dies kann für die gesamte Webseite gelten, aber auch nur bestimmte Teile, etwa für den Loginbereich des Content-Management-Systems. Robots.txt ist kein verbindlicher technischer Standard, sondern eine Konvention, die die meisten großen Suchmaschinenbetreiber beachten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. 89,90€ + Versand (Vergleichspreis 135,77€ + Versand)
  2. (heute Logitech G332 für 29€ statt 39,99€ im Vergleich)
  3. (aktuell u. a. Acer Predator XB271HA für 349€ + Versand)
  4. (u. a. Xbox Game Pass - 3 Monate für 14,99€, Conan Exiles für 13,99€ und Need for Speed Heat...

FreiGeistler 30. Mai 2017

Wenn du nur Besucher willst die europäischem Recht unterliegen, solltest du den...

okidoki 26. Apr 2017

Einsehbar ja, raubkopierbar nein. Keiner darf den Inhalt von Golem.de kopieren und...

okidoki 26. Apr 2017

Ja, richtig gelesen. Netzpublikationen müssen analog zu Büchern bei der Deutschen...

Anonymer Nutzer 25. Apr 2017

Weil sie sich aktuell nur an dortige gesetze halten müssen.

Anonymer Nutzer 25. Apr 2017

Genau das kann die robots.txt eben nicht leisten. Sie bittet nur darum bestimmte seiten...


Folgen Sie uns
       


Apple iPad 7 - Fazit

Apples neues iPad 7 richtet sich an Nutzer im Einsteigerbereich. Im Test von Golem.de schneidet das Tablet aufgrund seines Preis-Leistungs-Verhältnisses sehr gut ab.

Apple iPad 7 - Fazit Video aufrufen
VW-Logistikplattform Rio: Mehr Fracht transportieren mit weniger Lkw
VW-Logistikplattform Rio
Mehr Fracht transportieren mit weniger Lkw

Im Online-Handel ist das Tracking einer Bestellung längst Realität. In der Speditionsbranche sieht es oft anders aus: Silo-Denken, viele Kleinunternehmen und Vorbehalte gegenüber der Digitalisierung bremsen den Fortschritt. Das möchte Rio mit seiner Cloud-Lösung und niedrigen Preisen ändern.
Ein Bericht von Dirk Kunde

  1. Vernetzte Mobilität Verkehrsunternehmen könnten Datenaustauschpflicht bekommen
  2. Studie Uber und Lyft verschlechtern den Stadtverkehr
  3. Diesel-Ersatz Baden-Württemberg beschafft Akku-Elektrotriebzüge Mireo

Quantencomputer: Intel entwickelt coolen Chip für heiße Quantenbits
Quantencomputer
Intel entwickelt coolen Chip für heiße Quantenbits

Gebaut für eine Kühlung mit flüssigem Helium ist Horse Ridge wohl der coolste Chip, den Intel zur Zeit in Entwicklung hat. Er soll einen Quantencomputer steuern, dessen Qubits mit ungewöhnlich hohen Temperaturen zurechtkommen.
Von Frank Wunderlich-Pfeiffer

  1. AWS re:Invent Amazon Web Services bietet Quanten-Cloud-Dienst an
  2. Quantencomputer 10.000 Jahre bei Google sind 2,5 Tage bei IBM
  3. Google Ein Quantencomputer zeigt, was derzeit geht und was nicht

Minikonsolen im Video-Vergleichstest: Die sieben sinnlosen Zwerge
Minikonsolen im Video-Vergleichstest
Die sieben sinnlosen Zwerge

Golem retro_ Eigentlich sollten wir die kleinen Retrokonsolen mögen. Aber bei mittelmäßiger Emulation, schlechter Steuerung und Verarbeitung wollten wir beim Testen mitunter über die sieben Berge flüchten.
Ein Test von Martin Wolf


      •  /