• IT-Karriere:
  • Services:

Webcrawler der Internet-Archive-Macher als Open Source

Heritrix ist erweiterbar und unter der LGPL-Lizenz veröffentlicht

Die Betreiber des Internet Archives, die unter anderem die Wayback-Engine betreiben, haben einen Open-Source-Webcrawler unter der LGPL-Lizenz (GNU Lesser Public license) veröffentlicht. Das unter Java implementierte Archivierungssystem für Websites trägt den Namen Heritrix.

Artikel veröffentlicht am ,

Heritrix berücksichtigt die von Webmastern eingerichteteten robots.txt-Beschränkungen und META-Tags für Robots. Der Crawler nutzt das Java Runtime Environment 1.4.

Das System wurde bisher nur unter Linux getestet. Die Macher wollen in Zukunft aber eventuell auch noch andere Plattformen unterstützen. Neben einer umfangreichen Dokumentation wurden zwei Mailinglisten eingerichtet, die Entwicklern helfen sollen, auf Basis von Heritrix eigene Anwendungen zu erstellen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (u. a. Asus Geforce RTX 3070 DUAL für 599€, EVGA Geforce RTX 3070 XC3 Black Gaming für 619€)
  2. ab 108,90€ neuer Bestpreis auf Geizhals

Gunnar 08. Jan 2004

"nur unter linux getestet..." wer hätte das vor ein paar jahren gedacht... -gunnar


Folgen Sie uns
       


Xbox Series S ausgepackt

Wir packen beide Konsolen aus und zeigen den Lieferumfang.

Xbox Series S ausgepackt Video aufrufen
Logistik: Hamburg bekommt eine Röhre für autonome Warentransporte
Logistik
Hamburg bekommt eine Röhre für autonome Warentransporte

Ein Kölner Unternehmen will eine neue Elbunterquerung bauen, die nur für autonom fahrende Transporter gedacht ist.
Ein Bericht von Werner Pluta

  1. Intelligente Verkehrssysteme Wenn Autos an leeren Kreuzungen warten müssen
  2. Verkehr Akkuzüge sind günstiger als Brennstoffzellenzüge
  3. Hochgeschwindigkeitszug JR Central stellt neuen Shinkansen in Dienst

Energiewende: Wie die Begrünung der Stahlindustrie scheiterte
Energiewende
Wie die Begrünung der Stahlindustrie scheiterte

Vor einem Jahrzehnt suchte die europäische Stahlindustrie nach Technologien, um ihren hohen Kohlendioxid-Ausstoß zu reduzieren, doch umgesetzt wurde fast nichts.
Eine Recherche von Hanno Böck

  1. Wetter Warum die Klimakrise so deprimierend ist

Philips-Leuchten-Konfigurator im Test: Die schicke Leuchte aus dem 3D-Drucker
Philips-Leuchten-Konfigurator im Test
Die schicke Leuchte aus dem 3D-Drucker

Signify bietet mit Philips My Creation die Möglichkeit, eigene Leuchten zu kreieren. Diese werden im 3D-Drucker gefertigt - und sind von überraschend guter Qualität. Golem.de hat eine güldene Leuchte entworfen.
Ein Test von Tobias Költzsch

  1. Smarte Leuchten mit Kurzschluss Netzteil-Rückruf bei Philips Hue Outdoor
  2. Signify Neue Lampen, Leuchten und Lightstrips von Philips Hue
  3. Signify Neue Philips-Hue-Produkte vorgestellt

    •  /