Nutch 2.0: Freie Suchmaschine mit flexiblem Datenbank-Backend
Nutch 2.0 veröffentlicht (Bild: Apache)

Nutch 2.0 Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Anzeige

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.


wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?

Kommentieren



Anzeige

  1. Senior Betriebs-System Engineer (m/w)
    DATAGROUP Köln GmbH, Frankfurt am Main
  2. Senior Manager of ICT Services EMEA (m/w)
    Bosch Communication Center Magdeburg GmbH, Magdeburg
  3. Spezialist/-in für Datenverkabelungen und Multimedia für Schulen
    Landeshauptstadt Stuttgart, Stuttgart
  4. Junior Data Scientist / Analyst im Bereich Datenmanagement (m/w)
    Institut des Bewertungsausschusses, Berlin

 

Detailsuche


Folgen Sie uns
       


  1. Displays und Kameras

    Für die Pixelzähler

  2. Norton Security

    Symantec bestätigt Ende von Norton Antivirus

  3. Streaming

    Adam Sandler produziert vier Filme nur für Netflix

  4. Googles nächstes Smartphone

    Neue Details zum kommenden Nexus 6

  5. Freisprecheinrichtung

    Erst iOS 8.1 soll Bluetooth-Probleme im Auto lösen

  6. Toughbook CF-LX3

    Panasonics leichtes Notebook mit der Lizenz zum Runterfallen

  7. Honda Connect

    Nvidias Tegra fährt mit Android in Japan

  8. Smartphones

    Sonys Xperia Z3 und Xperia Z3 Compact sind da

  9. Pavlok

    Gewollte Stromschläge vom Fitness-Wearable

  10. Apple

    iOS hat noch immer WLAN-Probleme



Haben wir etwas übersehen?

E-Mail an news@golem.de



Trainingscamp NSA: Ex-Spione gründen High-Tech-Startups
Trainingscamp NSA
Ex-Spione gründen High-Tech-Startups
  1. Vorratsdatenspeicherung NSA darf weiter Telefondaten von US-Bürgern sammeln
  2. Prism-Programm US-Regierung drohte Yahoo mit täglich 250.000 Dollar Strafe
  3. NSA-Ausschuss Grüne "frustriert und deprimiert" über Schwärzung von Akten

Ascend Mate 7 im Test: Huaweis fast makelloses Topsmartphone
Ascend Mate 7 im Test
Huaweis fast makelloses Topsmartphone
  1. Cloud Congress 2014 Huawei verkauft Intel-Standardserver nur als Türöffner
  2. Huawei Cloud Congress Huawei will weltweit der führende IT-Konzern werden
  3. Ascend G7 Huawei-Smartphone mit 13-Megapixel-Kamera für 300 Euro

PC-Spiele mit 4K, 5K, 6K: So klappt's mit Downsampling
PC-Spiele mit 4K, 5K, 6K
So klappt's mit Downsampling
  1. Hero 4 Gopro stellt 4K-Actionkamera vor
  2. Leak Gopro Hero 4 soll in 4K aufnehmen
  3. Ifa Vodafone Deutschland und Cisco bringen 4K-Set-Top-Box

    •  / 
    Zum Artikel