Nutch 2.0: Freie Suchmaschine mit flexiblem Datenbank-Backend
Nutch 2.0 veröffentlicht (Bild: Apache)

Nutch 2.0 Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Anzeige

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.


wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?

Kommentieren



Anzeige

  1. Software Support Specialist (m/w)
    Scheidt & Bachmann Service GmbH, Mönchengladbach
  2. Leiter Business Solutions (m/w)
    Seven2one Informationssysteme GmbH, Karlsruhe
  3. Controller/-in Business Solutions / Treasury Prozesse / Treasury Front & Middle Office
    Daimler AG, Stuttgart
  4. Planungsingenieurin / Planungsingenieur
    Berliner Verkehrsbetriebe (BVG), Berlin

 

Detailsuche


Folgen Sie uns
       


  1. Microsoft

    China Telecom vertreibt Xbox One ab September 2014

  2. Samsung Galaxy Tab S im Test

    Flaches, poppig buntes Leichtgewicht

  3. Sysadmin Day

    Danke für laufende Rechner!

  4. Bungie

    Beta von Destiny für alle Spieler

  5. Ron Sommer

    Ex-Telekom-Chef greift Nachfolger an

  6. Prepaid

    Media Markt und Saturn starten eigenen Mobilfunktarif

  7. Hannspad SN1AT74

    Neues 10-Zoll-Tablet mit Kitkat für 170 Euro

  8. Spielevideos

    Google soll 1 Milliarde Dollar für Twitch.tv zahlen

  9. Gear VR

    Software für Samsungs VR-Brille entdeckt

  10. Hamburg

    Uber legt Widerspruch gegen Verbot ein



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
PC-Spiele mit 4K, 6K, 8K, 15K: "Spielen mit Downsampling schlägt Full-HD immer"
PC-Spiele mit 4K, 6K, 8K, 15K
"Spielen mit Downsampling schlägt Full-HD immer"
  1. Transformers Ära des Untergangs - gefilmt mit Sensoren im Imax-Format
  2. Intel-Partnerschaft mit Samsung 4K-Monitore sollen unter 400 US-Dollar gedrückt werden
  3. Asus ROG Kleine Gaming-PCs im Konsolendesign mit Desktophardware

Smartphone-Hersteller Xiaomi: Wie Apple, nur anders
Smartphone-Hersteller Xiaomi
Wie Apple, nur anders
  1. Flir One Wärmebildkamera fürs iPhone lieferbar
  2. Per Smartphone Paypal ermöglicht Bezahlen in Restaurants landesweit
  3. Datenübertragung Smartphone-Kompass spielt Musik durch Magnetkraft

Nvidia Shield Tablet ausprobiert: Schnelles Spiele-Tablet für Android mit WLAN-Controller
Nvidia Shield Tablet ausprobiert
Schnelles Spiele-Tablet für Android mit WLAN-Controller
  1. Tegra K1 Start von Nvidias Shield Tablet zeichnet sich ab
  2. GM200 und GM204 Nvidias große Maxwell-GPUs zeigen sich beim Zoll
  3. Dual-GPU-Grafikkarte EVGA macht Titan-Z schmaler und leiser als Nvidia

    •  / 
    Zum Artikel