Nutch 2.0: Freie Suchmaschine mit flexiblem Datenbank-Backend
Nutch 2.0 veröffentlicht (Bild: Apache)

Nutch 2.0 Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Anzeige

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.


wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?

Kommentieren



Anzeige

  1. Systemingenieur (m/w)
    Bosch Sensortec GmbH, Reutlingen
  2. Jasper ETL / Data Warehousing Experte (m/w)
    afb Application Services AG, München
  3. IT-System-Techniker / Fachinformatiker (m/w)
    Deutschlandradio Service GmbH, Berlin
  4. DV-Systembetreuer/in für HRM / MEG im Team Belegschaftsmanagement
    Daimler AG, Germersheim

 

Detailsuche


Folgen Sie uns
       


  1. EU-Angleichung

    Welche Onlineshops keine Gratis-Retouren mehr erlauben

  2. MIT Media Lab

    Bildschirm gleicht Sehfehler aus

  3. Leere Symbolik

    Greenwald lehnt aus Protest Aussage im NSA-Ausschuss ab

  4. Technisches Komitee

    Debian beharrt auf mehreren Init-Systemen

  5. Stellar

    Kostenlose Kryptowährung soll Kunden locken

  6. Brigadier

    Kyoceras Saphirglas-Smartphone kostet 400 US-Dollar

  7. ZeroVM

    Virtuelle Maschine für die Cloud

  8. CDN

    Apple aktiviert offenbar sein Content Delivery Network

  9. Test Sacred 3

    Schnetzeln im Team

  10. Microsoft

    Enhanced Mitigation Experience Toolkit 5.0 freigegeben



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Oneplus One im Test: Unerreichbar gut
Oneplus One im Test
Unerreichbar gut
  1. Oneplus One Eigenes ROM mit Stock Android 4.4.4 vorgestellt
  2. Oneplus One-Update macht verkürzte Akkulaufzeit rückgängig
  3. Oneplus One könnte ab dem dritten Quartal vorbestellbar sein

Überwachungssoftware: Ein warmes Mittagessen für den Staatstrojaner
Überwachungssoftware
Ein warmes Mittagessen für den Staatstrojaner
  1. Ex-CIA-Deutschlandchef Wir konnten Schröder leider nicht abhören
  2. Überwachung NSA-Ausschuss erwägt Einsatz mechanischer Schreibmaschinen
  3. Kontrollausschuss Die Angst der Abgeordneten, abgehört zu werden

Smartphone-Hersteller Xiaomi: Wie Apple, nur anders
Smartphone-Hersteller Xiaomi
Wie Apple, nur anders
  1. Smartphone-Markt wächst Samsung verkauft weniger Smartphones
  2. Flir One Wärmebildkamera fürs iPhone lieferbar
  3. Per Smartphone Paypal ermöglicht Bezahlen in Restaurants landesweit

    •  / 
    Zum Artikel