Abo
  • IT-Karriere:

Webcrawler der Internet-Archive-Macher als Open Source

Heritrix ist erweiterbar und unter der LGPL-Lizenz veröffentlicht

Die Betreiber des Internet Archives, die unter anderem die Wayback-Engine betreiben, haben einen Open-Source-Webcrawler unter der LGPL-Lizenz (GNU Lesser Public license) veröffentlicht. Das unter Java implementierte Archivierungssystem für Websites trägt den Namen Heritrix.

Artikel veröffentlicht am ,

Heritrix berücksichtigt die von Webmastern eingerichteteten robots.txt-Beschränkungen und META-Tags für Robots. Der Crawler nutzt das Java Runtime Environment 1.4.

Das System wurde bisher nur unter Linux getestet. Die Macher wollen in Zukunft aber eventuell auch noch andere Plattformen unterstützen. Neben einer umfangreichen Dokumentation wurden zwei Mailinglisten eingerichtet, die Entwicklern helfen sollen, auf Basis von Heritrix eigene Anwendungen zu erstellen.



Anzeige
Hardware-Angebote
  1. ab 369€ + Versand
  2. 114,99€ (Release am 5. Dezember)
  3. 259€ + Versand oder kostenlose Marktabholung

Gunnar 08. Jan 2004

"nur unter linux getestet..." wer hätte das vor ein paar jahren gedacht... -gunnar


Folgen Sie uns
       


Linksabbiegen mit autonomen Autos - Bericht

In Braunschweig testet das DLR an zwei Ampeln die Vernetzung von automatisiert fahrenden Autos und der Verkehrsinfrastruktur.

Linksabbiegen mit autonomen Autos - Bericht Video aufrufen
Transport Fever 2 angespielt: Wachstum ist doch nicht alles
Transport Fever 2 angespielt
Wachstum ist doch nicht alles

Wesentlich mehr Umfang, bessere Übersicht dank neuer Benutzerführung und eine Kampagne mit 18 Missionen: Das Schweizer Entwicklerstudio Urban Games hat Golem.de das Aufbauspiel Transport Fever 2 vorgestellt - bei einer Bahnfahrt.
Von Achim Fehrenbach

  1. Mordhau angespielt Die mit dem Schwertknauf zuschlagen
  2. Bus Simulator angespielt Zwischen Bodenschwelle und Haltestelle
  3. Bright Memory angespielt Brachialer PC-Shooter aus China

Radeon RX 5700 (XT) im Test: AMDs günstige Navi-Karten sind auch super
Radeon RX 5700 (XT) im Test
AMDs günstige Navi-Karten sind auch super

Die Radeon RX 5700 (XT) liefern nach einer Preissenkung vor dem Launch eine gute Leistung ab: Wer auf Hardware-Raytracing verzichten kann, erhält zwei empfehlenswerte Navi-Grafikkarten. Bei der Energie-Effizienz hapert es aber trotz moderner 7-nm-Technik immer noch etwas.
Ein Test von Marc Sauter

  1. Navi 14 Radeon RX 5600 (XT) könnte 1.536 Shader haben
  2. Radeon RX 5700 (XT) AMD senkt Navi-Preise noch vor Launch
  3. AMD Freier Navi-Treiber in Mesa eingepflegt

Forschung: Mehr Elektronen sollen Photovoltaik effizienter machen
Forschung
Mehr Elektronen sollen Photovoltaik effizienter machen

Zwei dünne Schichten auf einer Silizium-Solarzelle könnten ihre Effizienz erhöhen. Grünes und blaues Licht kann darin gleich zwei Elektronen statt nur eines freisetzen.
Von Frank Wunderlich-Pfeiffer

  1. ISS Tierbeobachtungssystem Icarus startet
  2. Sun To Liquid Solaranlage erzeugt Kerosin aus Sonnenlicht, Wasser und CO2
  3. Shell Ocean Discovery X Prize X-Prize für unbemannte Systeme zur Meereskartierung vergeben

    •  /