Nutch 2.0 veröffentlicht
Nutch 2.0 veröffentlicht (Bild: Apache)

Nutch 2.0 Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Anzeige

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.


wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?

Kommentieren



Anzeige

  1. Release Manager (m/w) (Division Issuing)
    Wirecard Technologies GmbH, Aschheim (near Munich)
  2. Datenmanager / Analyst (m/w)
    RATIONAL AG, Landsberg am Lech
  3. Software-Entwickler (m/w) C++ / Java
    S. Siedle & Söhne, Furtwangen bei Villingen-Schwenningen/Freiburg im Breisgau
  4. Programmleiter Informatik PLM (m/w)
    PHOENIX CONTACT GmbH & Co. KG, Blomberg

 

Detailsuche


Folgen Sie uns
       


  1. ISSpresso

    Italienischer Espresso auf der ISS

  2. Richterlicher Beschluss

    US-Justiz umgeht Smartphone-Verschlüsselung

  3. Sony

    Smartwatch mit Armband aus E-Paper geplant

  4. Samsung SDC

    Displays werden bunter, biegsamer und fast durchsichtig

  5. Mozilla

    Ein-Klick-Suche im Firefox

  6. EU-Richtlinien beschlossen

    Recht auf Vergessen soll weltweit gelten

  7. Rekord

    Apple kommt Börsenwert von einer Billion US-Dollar näher

  8. Systemd und Launchd

    FreeBSD-Gründer sieht Notwendigkeit für modernes Init-System

  9. Internet und Energie

    EU will 315 Milliarden Euro für Netze mobilisieren

  10. Mobile Bürosuite

    Dropbox mit Microsoft-Office-Anschluss



Haben wir etwas übersehen?

E-Mail an news@golem.de



Next-Gen-Geburtstag: Xbox One und Playstation 4 sind eins
Next-Gen-Geburtstag
Xbox One und Playstation 4 sind eins
  1. Big Fish Games Bis zu 885 Millionen US-Dollar für Casualgames-Anbieter
  2. This War of Mine Das traurigste Spiel des Jahres
  3. Qbert & Co 901 Spielhallenklassiker im Onlinearchiv

NSA-Ausschuss: Meisterschule für Geheimniskrämer
NSA-Ausschuss
Meisterschule für Geheimniskrämer
  1. Kanzlerhandy Bundesanwaltschaft will NSA-Ermittlungsverfahren einstellen
  2. NSA und Co. US-Geheimdienste melden viele Zero-Day-Lücken vertraulich
  3. IT-Sicherheitsgesetz BSI soll Sicherheitslücken nicht geheim halten

Panasonic Lumix DMC-LX100 im Test: Kamera zum Begeistern und zum Verzweifeln
Panasonic Lumix DMC-LX100 im Test
Kamera zum Begeistern und zum Verzweifeln
  1. Systemkamera Sony Alpha 7 II mit 5-Achsen-Bildstabilisierung
  2. Canon PowerShot G7 X im Test Canons Konkurrenz zu Sonys 1-Zoll-Kamera
  3. Interne Dokumente Neuer Sony-Sensor könnte Kameras kraftvoller machen

    •  / 
    Zum Artikel