Webcrawler der Internet-Archive-Macher als Open Source

Heritrix ist erweiterbar und unter der LGPL-Lizenz veröffentlicht

Die Betreiber des Internet Archives, die unter anderem die Wayback-Engine betreiben, haben einen Open-Source-Webcrawler unter der LGPL-Lizenz (GNU Lesser Public license) veröffentlicht. Das unter Java implementierte Archivierungssystem für Websites trägt den Namen Heritrix.

Artikel veröffentlicht am ,

Heritrix berücksichtigt die von Webmastern eingerichteteten robots.txt-Beschränkungen und META-Tags für Robots. Der Crawler nutzt das Java Runtime Environment 1.4.

Das System wurde bisher nur unter Linux getestet. Die Macher wollen in Zukunft aber eventuell auch noch andere Plattformen unterstützen. Neben einer umfangreichen Dokumentation wurden zwei Mailinglisten eingerichtet, die Entwicklern helfen sollen, auf Basis von Heritrix eigene Anwendungen zu erstellen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
CDU-Sicherheitslücke
Juristische Drohungen schaden der IT-Sicherheit

Dass eine Person, die verantwortungsvoll eine Sicherheitslücke gemeldet hat, dafür juristischen Ärger bekommt, ist fatal und schadet der IT-Sicherheit.
Ein IMHO von Hanno Böck

CDU-Sicherheitslücke: Juristische Drohungen schaden der IT-Sicherheit
Artikel
  1. Kritik der Community: Microsoft schaltet Kommentare unter Windows-11-Video ab
    Kritik der Community
    Microsoft schaltet Kommentare unter Windows-11-Video ab

    In einem Youtube-Video verteidigt Microsoft die Bedingungen von Windows 11. Die Community ist außer sich, Kommentare werden geblockt.

  2. Connect-App: CDU zeigt offenbar Hackerin nach Melden von Lücken an
    Connect-App  
    CDU zeigt offenbar Hackerin nach Melden von Lücken an

    Nach dem Auffinden einer Lücke in einer CDU-App zeigt die Partei nun die Finderin an. Der CCC will deshalb keine Lücken mehr an die CDU melden.

  3. Datenübertragung: Flüssigkernfaser könnte Glasfaser ersetzen
    Datenübertragung
    Flüssigkernfaser könnte Glasfaser ersetzen

    Schweizer Forscher haben eine Faser entwickelt, die Daten genauso gut überträgt wie eine Glasfaser, aber dieser gegenüber Vorteile hat.

Gunnar 08. Jan 2004

"nur unter linux getestet..." wer hätte das vor ein paar jahren gedacht... -gunnar



Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Speicherwoche bei Saturn Samsung • Robas Lund DX Racer Gaming-Stuhl 153,11€ • HyperX Cloud II Gaming-Headset 59€ • Bosch Professional Werkzeuge und Messtechnik • Samsung Galaxy Vorbesteller-Aktion • Speicherwoche bei Media Markt • 60 Jahre Saturn-Aktion [Werbung]
    •  /