Nutch 2.0: Freie Suchmaschine mit flexiblem Datenbank-Backend
Nutch 2.0 veröffentlicht (Bild: Apache)

Nutch 2.0 Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Anzeige

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.


wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?

Kommentieren



Anzeige

  1. Web-Entwickler (m/w)
    PROJECT PI Immobilien AG, Nürnberg
  2. Wissenschaftliche Mitarbeiterin / Wissenschaftlicher Mitarbeiter am Lehrstuhl für Wirtschaftsinformatik
    Universität Passau, Passau
  3. Mitarbeiter (m/w) für die Implementierung von Softwarelösungen
    DAN Produkte Pflegedokumentation GmbH, Siegen
  4. Mobile Developer - Andriod / iOS (m/w)
    PAYBACK GmbH, München

 

Detailsuche


Folgen Sie uns
       


  1. Deutsche Grammophon

    Klassik streamen mit bis zu 320 Kbps

  2. Alibaba

    Milliardenschwerer Börsengang wohl Mitte September

  3. Test Infamous First Light

    Neonbunter Actionspaß

  4. Nach Wurstfirmeninsolvenz

    Redtube-Abmahn-Anwalt verliert Zulassung

  5. Gat out of Hell

    Saints Row und die Froschplage in der Hölle

  6. Ridesharing

    Taxidienst Uber in 200 Städten verfügbar

  7. Telefónica und E-Plus

    "Haben endgültige Freigabe von EU-Kommission bekommen"

  8. Intel Core i7-5960X im Test

    Die PC-Revolution beginnt mit Octacore und DDR4

  9. Nintendo

    Neuer 3DS mit NFC und zweitem Analogstick

  10. Onlinereiseplattform

    Opodo darf Nutzern keine Versicherungen unterschieben



Haben wir etwas übersehen?

E-Mail an news@golem.de



Breitbandausbau: Netzbetreiber und Regierung schachern um Netzneutralität
Breitbandausbau
Netzbetreiber und Regierung schachern um Netzneutralität
  1. Mobiles Internet Roaming-Gebühren benachteiligen Grenzregionen
  2. Digitale Agenda Bitkom fordert komplette Nutzung des 700-Megahertz-Bandes
  3. Digitale Agenda 38 Seiten Angst vor festen Zusagen

Spiele auf dem Oculus Rift DK2: Manchmal klappt es, manchmal nicht
Spiele auf dem Oculus Rift DK2
Manchmal klappt es, manchmal nicht
  1. Oculus Rift Geld für gefundene Sicherheitslücken
  2. Virtuelle Realität Hüft-OP mit Oculus Rift und zwei Gopro-Kameras
  3. Oculus Rift Valve aktualisiert SteamVR für das DK2

Sofia: Der fliegende Blick durch den Staub
Sofia
Der fliegende Blick durch den Staub
  1. Gehirnforschung Licht programmiert Gedächtnis um
  2. Audio aus Video Gefilmte Topfpflanze verrät Gespräche
  3. Nahrungsmittel Trinken statt Essen

    •  / 
    Zum Artikel