Nutch 2.0: Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Artikel veröffentlicht am ,
Nutch 2.0 veröffentlicht
Nutch 2.0 veröffentlicht (Bild: Apache)

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

Stellenmarkt
  1. IT Prozessmanager (m/w/d) Anwendungsentwicklung
    Seehafen Kiel GmbH & Co. KG, Kiel
  2. Chef-Architekt (m/w/d) für Software-Produktneuentwicklu- ng in der Sensortechnik
    mi.ro Personalberatung, Stuttgart
Detailsuche

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Golem Karrierewelt
  1. Kubernetes Dive-in-Workshop: virtueller Drei-Tage-Workshop
    19.-21.07.2022, Virtuell
  2. Elastic Stack Fundamentals – Elasticsearch, Logstash, Kibana, Beats: virtueller Drei-Tage-Workshop
    26.-28.09.2022, Virtuell
Weitere IT-Trainings

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Obi-Wan Kenobi Episode 4 bis 6
Darth Vader und das Imperium der Schwachköpfe

Dämliche Stormtrooper sind in Obi-Wan Kenobi noch das geringste Problem. Zum Ende hin ist die Star-Wars-Serie vor allem eines: belanglos. Achtung, Spoiler!
Eine Rezension von Oliver Nickel

Obi-Wan Kenobi Episode 4 bis 6: Darth Vader und das Imperium der Schwachköpfe
Artikel
  1. BVG: Telefónica will auch 5G in der U-Bahn bieten
    BVG
    Telefónica will auch 5G in der U-Bahn bieten

    Beim LTE-Ausbau für die anderen Netzbetreiber geht es dagegen weiter nur langsam voran. Telefónica nennt einige Gründe dafür.

  2. Akkutechnik: CATLs Qilin-Batterie schlägt Teslas 4680-Akku deutlich
    Akkutechnik
    CATLs Qilin-Batterie schlägt Teslas 4680-Akku deutlich

    Der größte Akku-Hersteller der Welt hat seine Akkupacks weiter optimiert und stellt damit Teslas alte 4680-Technik in den Schatten.
    Eine Analyse von Frank Wunderlich-Pfeiffer

  3. Teamarbeitstool: Zendesk für 10,2 Milliarden US-Dollar verkauft
    Teamarbeitstool
    Zendesk für 10,2 Milliarden US-Dollar verkauft

    Zendesk wird von Finanzinvestoren gekauft. Noch im Februar 2022 wurde ein Angebot mit einem Volumen von rund 17 Milliarden US-Dollar abgelehnt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Samsung SSD (PS5-komp.) günstig wie nie: 109,24€ (1TB) / 234,45€ (2TB) • LG 31,5" UWQHD 165 Hz günstig wie nie: 327,72€ • PS5-Controller: 57,13€ • Xbox Elite Controller günstig wie nie: 126,04€ • 16.000 Artikel günstiger bei Media Markt • MindStar (Palit RTX 3070 Ti 679€) [Werbung]
    •  /