Nutch 2.0: Freie Suchmaschine mit flexiblem Datenbank-Backend
Nutch 2.0 veröffentlicht (Bild: Apache)

Nutch 2.0 Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Anzeige

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.


wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?

Kommentieren



Anzeige

  1. Systemadministrator (m/w) Windows
    KDO Personaldienste, Oldenburg
  2. Entwicklungsingenieur (m/w) Software
    EBE Elektro-Bau-Elemente GmbH, Leinfelden-Echterdingen bei Stuttgart
  3. IT-Projektleiter/in (SAP)
    Landeshauptstadt München, München
  4. Web-Entwickler (m/w) mit Schwerpunkt PHP
    LLG Media GmbH, Bonn

 

Detailsuche


Folgen Sie uns
       


  1. Europäischer Gerichtshof

    Framende Links sind keine Urheberrechtsverletzung

  2. IP-Telefonie

    DDoS-Angriff legt Sipgate lahm

  3. Mobiles Bezahlen

    Überwiegend positive Erfahrungsberichte zu Apple Pay

  4. UniPi+

    Das Raspberry Pi B+, in Aluminium gehüllt

  5. Ubuntu 14.10

    Zum Geburtstag kaum Neues

  6. Deutsche Telekom

    "Verdienen nicht genug für den Ausbau für Milliarden GByte"

  7. Raumfahrt

    Mondrover Andy liefert Bilder für Oculus Rift

  8. Kingdom Come Tech Alpha

    Verirrte Schafe und geplagte Farmer

  9. Verwaltung

    Berliner Steuerbehörden wollen wieder MS Office nutzen

  10. Anno

    Erschaffe ein Königreich auf dem iPad



Haben wir etwas übersehen?

E-Mail an news@golem.de



3D-Druck ausprobiert: Internetausdrucker 4.0
3D-Druck ausprobiert
Internetausdrucker 4.0
  1. Niedriger Schmelzpunkt 3D-Drucken mit metallischer Tinte
  2. Deltadrucker Magna Japanisches Unternehmen zeigt Riesen-3D-Drucker
  3. 3D-Technologie US-Armee will Sprengköpfe drucken

Qubes OS angeschaut: Abschottung bringt mehr Sicherheit
Qubes OS angeschaut
Abschottung bringt mehr Sicherheit

Schenker XMG P505 im Test: Flaches Gaming-Notebook mit überraschender GTX 970M
Schenker XMG P505 im Test
Flaches Gaming-Notebook mit überraschender GTX 970M
  1. Getac S400-S3 Das Ruggedized-Notebook mit SSD-Heizung
  2. Geforce GTX 980M und 970M Maxwell verdoppelt Spielgeschwindigkeit von Notebooks
  3. Toughbook CF-LX3 Panasonics leichtes Notebook mit der Lizenz zum Runterfallen

    •  / 
    Zum Artikel