Original-URL des Artikels: https://www.golem.de/news/nutch-2-0-freie-suchmaschine-mit-flexiblem-datenbank-backend-1207-93099.html    Veröffentlicht: 10.07.2012 16:06    Kurz-URL: https://glm.io/93099

Nutch 2.0

Freie Suchmaschine mit flexiblem Datenbank-Backend

Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.

Das Suchframework Nutch ist in Java geschrieben und setzt auf anderen Apache-Projekten wie Solr, Tika, Hadoop und Gora auf. Nutch crawlt das Web, parst HTML-Seiten sowie verschiedene andere Dokumentenformate und erstellt daraus eine Link-Datenbank.

In der Version 2.0 setzt Nutch auf eine einfache, tabellenartige Datenbankstruktur, wie man sie im NoSQL-Umfeld findet. Über die Abstraktionsschicht Apache Gora lassen sich verschiedene Backends zum Speichern der Daten verwenden, darunter die Apache-Projekte Accumulo, Avro, Cassandra, HBase, HDFS sowie verschiedene SQL-Datenbanken. Nutch bietet aber auch einen eigenen Data-Store, der die Daten im Speicher hält.

Rund zwei Jahre hat die Entwicklung von Nutch 2.0 gedauert, das vom einzelnen Server bis hin zum großen Cluster skalieren soll und sich dabei den eigenen Bedürfnissen anpassen lässt. Über Plugins können Entwickler die Unterstützung weiterer Dokumentenformate ergänzen.

Kalooga betreibt einen Cluster von 34 Hadoop-Servern, auf dem mehr als eine Milliarde Webseiten gespeichert sind, die mit Nutch gecrawlt werden. Jeden Monat wächst der Bestand um mehrere Millionen Webseiten.

Apache Nutch ist Open Source und steht unter der Apache License v2.0. Die Software kann unter nutch.apache.org heruntergeladen werden.  (ji)


Verwandte Artikel:
Dezentrale Suchmaschinen-Struktur als Alternative zu Google   
(25.11.2004, https://glm.io/34880 )
Bildersuche: Google entfernt Direktlink auf Fotos   
(16.02.2018, https://glm.io/132823 )
Shopping Ads: Konkurrenz wirft Google erneut Wettbewerbsverzerrung vor   
(31.01.2018, https://glm.io/132509 )
Urheberrecht: Google und Getty legen Streit bei   
(12.02.2018, https://glm.io/132706 )
Reisen: Google legt Flug- und Hotelsuche zusammen   
(09.02.2018, https://glm.io/132690 )

© 1997–2020 Golem.de, https://www.golem.de/