Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren

Das Archiv des Internets will der Robots.txt-Datei einer Webseite künftig keine Bedeutung mehr beimessen. Der Schritt sei notwendig, weil die Datei einer echten Archivierung des Internets aus Nutzersicht entgegenstehe, schreiben die Macher.

Artikel veröffentlicht am ,
Zeichnung eines historischen Archivs
Zeichnung eines historischen Archivs (Bild: Gemeinfrei)

Das gemeinnützige Projekt Internet Archive hat auf seiner Webseite bekanntgegeben, Einträge in Robots.txt ignorieren zu wollen. Über die Jahre habe man festgestellt, dass die Einträge in der Datei "nicht notwendigerweise unseren archivarischen Zwecken dienen", schreibt das Projekt. In der Vergangenheit hätten Robots.txt-Einträge auf archivierten Webseiten immer wieder dazu geführt, dass solche Webseiten auch aus der "Wayback Machine" des Internet Archive herausfallen würden.

Stellenmarkt
  1. Softwareentwickler Backend (m/w/d)
    eLearning Manufaktur GmbH, Kleve, Düsseldorf (Home-Office möglich)
  2. Senior Software Architect .NET (m/w)
    MED-EL Medical Electronics, Innsbruck (Österreich)
Detailsuche

Bereits vor einigen Monaten hatte das Projekt aufgehört, Robots.txt auf Seiten der US-Regierung und des US-Militärs zu beachten. Dies gelte sowohl für das Crawling als auch für das Anzeigen von Webseiten durch die Wayback Machine. Löschanfragen, die an info@archive.org gesandt werden, würden weiterhin entgegengenommen. Das Vorgehen habe bislang nicht zu Problemen geführt.

US-Regierungswebseiten werden schon länger ohne Ausnahme durchsucht

Künftig soll Robots.txt auch bei anderen Webseiten keine Anwendung mehr finden. Internet Archive schreibt: "Wir sehen, dass die Zukunft der Webarchivierung sich weniger auf die Deklarationen der Robots.txt-Datei verlässt, die eher auf Suchmaschinen zielt, sondern das Web so abbildet, wie es wirklich war - aus Nutzersicht."

Robots.txt ist eine kleine Textdatei, mit der Webseitenbetreiber bestimmte Teile einer Webseite vor Suchmaschinencrawlern verstecken können. Dies kann für die gesamte Webseite gelten, aber auch nur bestimmte Teile, etwa für den Loginbereich des Content-Management-Systems. Robots.txt ist kein verbindlicher technischer Standard, sondern eine Konvention, die die meisten großen Suchmaschinenbetreiber beachten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Krypto-Betrug in Milliardenhöhe
Gründer von Africrypt stehlen 69.000 Bitcoin

Die Gründer der Kryptoplattform Africrypt haben sich offenbar mit 69.000 gestohlenen Bitcoin abgesetzt. Der Betrug deutete sich schon vor Monaten an.

Krypto-Betrug in Milliardenhöhe: Gründer von Africrypt stehlen 69.000 Bitcoin
Artikel
  1. Nvidia: Neuronales Netz erstellt Gan Theft Auto
    Nvidia
    Neuronales Netz erstellt Gan Theft Auto

    Wenn Rockstar Games kein neues GTA macht, dann muss eben eine KI ran: Das System hat nach kurzem Training sein Gan Theft Auto errechnet.

  2. Elektromobilität: Lithium für Akkus soll aus dem Meer kommen
    Elektromobilität
    Lithium für Akkus soll aus dem Meer kommen

    Der Bedarf an Lithium für Akkus ist groß. Ein Team aus Saudi-Arabien hat ein Verfahren entwickelt, um den Rohstoff aus Meerwasser zu gewinnen.

  3. iPhone: Apple warnt offenbar Leaker aus China
    iPhone
    Apple warnt offenbar Leaker aus China

    Bevor Apple neue Geräte veröffentlicht, gibt es oft eine Reihe von Leaks aus chinesischen Produktionsanlagen. Leaker haben nun Post bekommen.

FreiGeistler 30. Mai 2017

Wenn du nur Besucher willst die europäischem Recht unterliegen, solltest du den...

Anonymer Nutzer 26. Apr 2017

Einsehbar ja, raubkopierbar nein. Keiner darf den Inhalt von Golem.de kopieren und...

Anonymer Nutzer 26. Apr 2017

Ja, richtig gelesen. Netzpublikationen müssen analog zu Büchern bei der Deutschen...

Anonymer Nutzer 25. Apr 2017

Weil sie sich aktuell nur an dortige gesetze halten müssen.

Anonymer Nutzer 25. Apr 2017

Genau das kann die robots.txt eben nicht leisten. Sie bittet nur darum bestimmte seiten...


Folgen Sie uns
       


Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Mega-Wiedereröffnung bei MediaMarkt - bis zu 30 Prozent Rabatt • Samsung SSD 980 Pro PCIe 4.0 1TB 166,59€ • Gigabyte M27Q 27" WQHD 170Hz 338,39€ • AMD Ryzen 5 5600X 251,59€ • Dualsense Midnight Black + R&C Rift Apart 99,99€ • Logitech Lenkrad-Sets zu Bestpreisen [Werbung]
    •  /