Abo
  • IT-Karriere:

Nutch 2.0: Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Artikel veröffentlicht am ,
Nutch 2.0 veröffentlicht
Nutch 2.0 veröffentlicht (Bild: Apache)

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

Stellenmarkt
  1. SEW-EURODRIVE GmbH & Co KG, Bruchsal
  2. Mercer Timber Products GmbH, Saalburg-Ebersdorf

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.



Anzeige
Spiele-Angebote
  1. (-72%) 16,99€
  2. 2,22€
  3. 5,25€

wrnr 11. Jul 2012

Kennt wer http://yacy.net/de/ und kann berichten, wie sich yacy und nutch unterscheiden?


Folgen Sie uns
       


Seasonic TX-700 Fanless und The First - Hands on (Computex 2019)

Das Prime TX-700 Fanless vo Seasonic ist das derzeit stärkste passiv gekühlte Netzteil am Markt. Die kompaktere Variante namens PX-500 wiederum passt in das The First von Monsterlabo, ein Gehäuse, um 200-Watt-Komponenten passiv zu kühlen.

Seasonic TX-700 Fanless und The First - Hands on (Computex 2019) Video aufrufen
Watch Dogs Legion angespielt: Eine Seniorin als Ein-Frau-Armee
Watch Dogs Legion angespielt
Eine Seniorin als Ein-Frau-Armee

E3 2019 Elitesoldaten brauchen wir nicht - in Watch Dogs Legion hacken und schießen wir auch als Pensionistin für den Widerstand. Beim Anspielen haben wir sehr über die ebenso klapprige wie kampflustige Oma Gwendoline gelacht.


    Elektromobilität: Wohin mit den vielen Akkus?
    Elektromobilität
    Wohin mit den vielen Akkus?

    Akkus sind die wichtigste Komponente von Elektroautos. Doch auch, wenn sie für die Autos nicht mehr geeignet sind, sind sie kein Fall für den Schredder. Hersteller wie Audi testen Möglichkeiten, sie weiterzuverwenden.
    Ein Bericht von Dirk Kunde

    1. Proterra Elektrobushersteller vermietet Akkus zur Absatzförderung
    2. Batterieherstellung Kampf um die Zelle
    3. US CPSC HP muss in den USA nochmals fast 80.000 Akkus zurückrufen

    Ada und Spark: Mehr Sicherheit durch bessere Programmiersprachen
    Ada und Spark
    Mehr Sicherheit durch bessere Programmiersprachen

    Viele Sicherheitslücken in Software sind auf Programmierfehler zurückzuführen. Diese Fehler lassen sich aber vermeiden - und zwar unter anderem durch die Wahl einer guten Programmiersprache. Ada und Spark gehören dazu, leider sind sie immer noch wenig bekannt.
    Von Johannes Kanig

    1. Das andere How-to Deutsch lernen für Programmierer
    2. Programmiersprachen, Pakete, IDEs So steigen Entwickler in Machine Learning ein
    3. Software-Entwickler Welche Programmiersprache soll ich lernen?

      •  /