Abo
  • Services:
Anzeige
Zeichnung eines historischen Archivs
Zeichnung eines historischen Archivs (Bild: Gemeinfrei)

Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren

Zeichnung eines historischen Archivs
Zeichnung eines historischen Archivs (Bild: Gemeinfrei)

Das Archiv des Internets will der Robots.txt-Datei einer Webseite künftig keine Bedeutung mehr beimessen. Der Schritt sei notwendig, weil die Datei einer echten Archivierung des Internets aus Nutzersicht entgegenstehe, schreiben die Macher.

Das gemeinnützige Projekt Internet Archive hat auf seiner Webseite bekanntgegeben, Einträge in Robots.txt ignorieren zu wollen. Über die Jahre habe man festgestellt, dass die Einträge in der Datei "nicht notwendigerweise unseren archivarischen Zwecken dienen", schreibt das Projekt. In der Vergangenheit hätten Robots.txt-Einträge auf archivierten Webseiten immer wieder dazu geführt, dass solche Webseiten auch aus der "Wayback Machine" des Internet Archive herausfallen würden.

Anzeige

Bereits vor einigen Monaten hatte das Projekt aufgehört, Robots.txt auf Seiten der US-Regierung und des US-Militärs zu beachten. Dies gelte sowohl für das Crawling als auch für das Anzeigen von Webseiten durch die Wayback Machine. Löschanfragen, die an info@archive.org gesandt werden, würden weiterhin entgegengenommen. Das Vorgehen habe bislang nicht zu Problemen geführt.

US-Regierungswebseiten werden schon länger ohne Ausnahme durchsucht

Künftig soll Robots.txt auch bei anderen Webseiten keine Anwendung mehr finden. Internet Archive schreibt: "Wir sehen, dass die Zukunft der Webarchivierung sich weniger auf die Deklarationen der Robots.txt-Datei verlässt, die eher auf Suchmaschinen zielt, sondern das Web so abbildet, wie es wirklich war - aus Nutzersicht."

Robots.txt ist eine kleine Textdatei, mit der Webseitenbetreiber bestimmte Teile einer Webseite vor Suchmaschinencrawlern verstecken können. Dies kann für die gesamte Webseite gelten, aber auch nur bestimmte Teile, etwa für den Loginbereich des Content-Management-Systems. Robots.txt ist kein verbindlicher technischer Standard, sondern eine Konvention, die die meisten großen Suchmaschinenbetreiber beachten.


eye home zur Startseite
okidoki 26. Apr 2017

Einsehbar ja, raubkopierbar nein. Keiner darf den Inhalt von Golem.de kopieren und...

Themenstart

okidoki 26. Apr 2017

Ja, richtig gelesen. Netzpublikationen müssen analog zu Büchern bei der Deutschen...

Themenstart

Prinzeumel 25. Apr 2017

Weil sie sich aktuell nur an dortige gesetze halten müssen.

Themenstart

Prinzeumel 25. Apr 2017

Genau das kann die robots.txt eben nicht leisten. Sie bittet nur darum bestimmte seiten...

Themenstart

Prinzeumel 25. Apr 2017

Wo siehst du hier meine Intention dies tun zu wollen? Oo Hier auch noch? Muss das sein...

Themenstart

Kommentieren



Anzeige

Stellenmarkt
  1. Techniklotsen GmbH, Bielefeld
  2. über Hays AG, Rhein-Main-Gebiet
  3. aiticon GmbH, Frankfurt am Main, Hoppstädten-Weiersbach
  4. ALDI SÜD, Mülheim an der Ruhr


Anzeige
Blu-ray-Angebote
  1. (u. a. Reign, Person of Interest, Gossip Girl, The Clone Wars)
  2. 13,98€ + 5,00€ Versand
  3. (u. a. The Revenant 7,97€, James Bond Spectre 7,97€, Der Marsianer 7,97€)

Folgen Sie uns
       


  1. Amazon Channels

    Prime Video erhält Pay-TV-Plattform mit Live-Fernsehen

  2. Bayerischer Rundfunk

    Fernsehsender wollen über 5G ausstrahlen

  3. Kupfer

    Nokia hält Terabit DSL für überflüssig

  4. Kryptowährung

    Bitcoin notiert auf neuem Rekordhoch

  5. Facebook

    Dokumente zum Umgang mit Sex- und Gewaltinhalten geleakt

  6. Arduino Cinque

    RISC-V-Prozessor und ESP32 auf einem Board vereint

  7. Schatten des Krieges angespielt

    Wir stürmen Festungen! Mit Orks! Und Drachen!

  8. Skills

    Amazon lässt Alexa natürlicher klingen

  9. Cray

    Rechenleistung von Supercomputern in der Cloud mieten

  10. Streaming

    Sky geht gegen Stream4u.tv und Hardwareanbieter vor



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
3D-Druck bei der Bahn: Mal eben einen Kleiderhaken für 80 Euro drucken
3D-Druck bei der Bahn
Mal eben einen Kleiderhaken für 80 Euro drucken
  1. Bahnchef Richard Lutz Künftig "kein Ticket mehr für die Bahn" notwendig
  2. Flatrate Öffentliches Fahrradleihen kostet 50 Euro im Jahr
  3. Nextbike Berlins neues Fahrradverleihsystem startet

Google I/O: Google verzückt die Entwickler
Google I/O
Google verzückt die Entwickler
  1. Neue Version im Hands On Android TV bekommt eine vernünftige Kanalübersicht
  2. Play Store Google nimmt sich Apps mit schlechten Bewertungen vor
  3. Daydream Standalone-Headsets auf Preisniveau von Vive und Oculus Rift

Panasonic Lumix GH5 im Test: Die Kamera, auf die wir gewartet haben
Panasonic Lumix GH5 im Test
Die Kamera, auf die wir gewartet haben
  1. Die Woche im Video Scharfes Video, spartanisches Windows, spaßige Switch

  1. Re: Hähhh...

    Ninos | 03:04

  2. Re: Die Bandbreite ist eine Sache, die Latenz...

    -fraggl- | 03:01

  3. Re: Bin ich eig. der einzige, der an die Traffic...

    sofries | 01:53

  4. Re: Frequenzvermüllung

    ShaDdoW_EyE | 01:51

  5. Fake News?

    Friedhelm | 01:43


  1. 00:01

  2. 18:45

  3. 16:35

  4. 16:20

  5. 16:00

  6. 15:37

  7. 15:01

  8. 13:34


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel