Nutch 2.0 veröffentlicht
Nutch 2.0 veröffentlicht (Bild: Apache)

Nutch 2.0 Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Anzeige

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.


wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?

Kommentieren



Anzeige

  1. Systems Engineer (m/w) mit Schwerpunkt Linux
    Stadtwerke München GmbH, München
  2. IT Support Engineer Windows / Citrix (m/w)
    PIRONET NDH Datacenter AG & Co. KG, Köln
  3. Mitarbeiter (m/w) für den 1st Level Support
    Schafferer & Co. KG, Freiburg im Breisgau
  4. Entwickler IBM Cognos (m/w)
    Blutspendedienst des Bayerischen Roten Kreuzes gemeinnützige GmbH, Wiesentheid

 

Detailsuche


Top-Angebote
  1. NEU: Der Hobbit: Eine unerwartete Reise [Extended Edition] (Steelbook) [Blu-ray + Blu
    19,97€
  2. NEU: Ich - Einfach unverbesserlich 1&2 - Weihnachts-Special [Blu-ray]
    22,97€
  3. NEU: Blu-rays um bis zu 40% reduziert
    (u. a. Rambo Trilogy Ultimate Edition 16,99€ FSK 18, MASK komplette Serie 20,97€, Running...

 

Weitere Angebote


Folgen Sie uns
       


  1. Z1

    Samsung veröffentlicht endlich sein Tizen-Smartphone

  2. Zehn Jahre Entwicklung

    Network Manager 1.0 ist erschienen

  3. Star Citizen

    Galaktisches Update mit Lobby, Raketen und Cockpits

  4. Smrtgrips

    Die intelligenten Griffe fürs Fahrrad

  5. Messenger

    Whatsapp richtet Spam-Sperre ein

  6. Sony-Hack

    Die dubiose IP-Spur nach Nordkorea

  7. FreeBSD-Entwickler

    Linux-Foundation sponsert NTPD-Alternative

  8. Telefonabzocke

    Kaum weniger Beschwerden trotz hoher Bußgelder

  9. GSC Game World

    Entwicklerstudio von Stalker neu gegründet

  10. Android 5.0.2

    Erstes Nexus 7 erhält weiteres Lollipop-Update



Haben wir etwas übersehen?

E-Mail an news@golem.de



Stacked Memory: Lecker, Stapelchips!
Stacked Memory
Lecker, Stapelchips!

Netzverschlüsselung: Mythen über HTTPS
Netzverschlüsselung
Mythen über HTTPS
  1. Websicherheit Chrome will vor HTTP-Verbindungen warnen
  2. SSLv3 Kaspersky-Software hebelt Schutz vor Poodle-Lücke aus
  3. TLS-Verschlüsselung Poodle kann auch TLS betreffen

Jahresrückblick: Was 2014 bei Golem.de los war
Jahresrückblick
Was 2014 bei Golem.de los war
  1. In eigener Sache Golem.de sucht (Junior) Concepter/-in für Onlinewerbung
  2. In eigener Sache Golem.de offline und unplugged
  3. In eigener Sache Golem.de sucht Videoredakteur/-in

    •  / 
    Zum Artikel