Abo
  • Services:

Nutch 2.0: Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Artikel veröffentlicht am ,
Nutch 2.0 veröffentlicht
Nutch 2.0 veröffentlicht (Bild: Apache)

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

Stellenmarkt
  1. Bertrandt Services GmbH, Paderborn
  2. Statistisches Bundesamt, Wiesbaden

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.



Anzeige
Blu-ray-Angebote
  1. (nur für Prime-Mitglieder)
  2. (2 Monate Sky Ticket für nur 4,99€)
  3. 4,25€

wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?


Folgen Sie uns
       


Asus ROG Phone - Hands On auf der Computex 2018

Das ROG ist ein interessantes Konzept, das sich schon beim an Gamer gerichteten Design von anderen Telefonen unterscheidet. Außergewöhnlich sind die vielen Zubehörteile: darunter ein Handheld-Adapter, ein Desktop-Dock, ein Anstecklüfter und ein Controllermodul. Wir haben es uns angeschaut.

Asus ROG Phone - Hands On auf der Computex 2018 Video aufrufen
Krankenversicherung: Der Papierkrieg geht weiter
Krankenversicherung
Der Papierkrieg geht weiter

Die Krankenversicherung der Zukunft wird digital und direkt, aber eine tiefgreifende Disruption des Gesundheitswesens à la Amazon wird in Deutschland wohl ausbleiben. Die Beharrungskräfte sind zu groß.
Eine Analyse von Daniel Fallenstein

  1. Imagen Tech KI-System Osteodetect erkennt Knochenbrüche
  2. Medizintechnik Implantat wird per Ultraschall programmiert
  3. Telemedizin Neue Patienten für die Onlinepraxis

VR-Rundschau: Retten rockende Jedi-Ritter die virtuelle Realität?
VR-Rundschau
Retten rockende Jedi-Ritter die virtuelle Realität?

Der mediale Hype um VR ist zwar abgeflaut, spannende Inhalte dafür gibt es aber weiterhin - und das nicht nur im Games-Bereich. Mit dabei: das beliebteste Spiel bei Steam, Jedi-Ritter auf Speed und ägyptische Grabkammern.
Ein Test von Achim Fehrenbach

  1. Oculus Core 2.0 Windows 10 wird Minimalanforderung für Oculus Rift
  2. Virtual Reality BBC überträgt Fußball-WM in der virtuellen VIP-Loge
  3. VR-Brillen Google experimentiert mit Lichtfeldfotografie

KI in der Medizin: Keine Angst vor Dr. Future
KI in der Medizin
Keine Angst vor Dr. Future

Mit Hilfe künstlicher Intelligenz können schwer erkennbare Krankheiten früher diagnostiziert und behandelt werden, doch bei Patienten löst die Technik oft Unbehagen aus. Und das ist nicht das einzige Problem.
Ein Bericht von Tim Kröplin

  1. Medizintechnik Künstliche Intelligenz erschnüffelt Krankheiten
  2. Dota 2 128.000 CPU-Kerne schlagen fünf menschliche Helden
  3. KI-Bundesverband Deutschland soll mehr für KI-Forschung tun

    •  /