Original-URL des Artikels: https://www.golem.de/0401/29150.html    Veröffentlicht: 08.01.2004 09:23    Kurz-URL: https://glm.io/29150

Webcrawler der Internet-Archive-Macher als Open Source

Heritrix ist erweiterbar und unter der LGPL-Lizenz veröffentlicht

Die Betreiber des Internet Archives, die unter anderem die Wayback-Engine betreiben, haben einen Open-Source-Webcrawler unter der LGPL-Lizenz (GNU Lesser Public license) veröffentlicht. Das unter Java implementierte Archivierungssystem für Websites trägt den Namen Heritrix.

Heritrix berücksichtigt die von Webmastern eingerichteteten robots.txt-Beschränkungen und META-Tags für Robots. Der Crawler nutzt das Java Runtime Environment 1.4.

Das System wurde bisher nur unter Linux getestet. Die Macher wollen in Zukunft aber eventuell auch noch andere Plattformen unterstützen. Neben einer umfangreichen Dokumentation wurden zwei Mailinglisten eingerichtet, die Entwicklern helfen sollen, auf Basis von Heritrix eigene Anwendungen zu erstellen.  (ad)


Verwandte Artikel:
Internet-Archiv erhält neue Suchmaschine   
(05.09.2003, https://glm.io/27304 )
Endemann übernimmt Suchmaschine Crawler   
(20.11.2000, https://glm.io/10902 )
Mit dem Archive.org in die Webvergangenheit   
(29.10.2001, https://glm.io/16608 )

Links zum Artikel:
Archive (.org) - Heritrix: http://crawler.archive.org
Archive.org: http://www.Archive.org

© 1997–2019 Golem.de, https://www.golem.de/