Original-URL des Artikels: https://www.golem.de/news/howto-goodbye-google-suchmaschinen-selber-hosten-1610-123482.html    Veröffentlicht: 04.10.2016 12:01    Kurz-URL: https://glm.io/123482

Howto

Goodbye Google? Suchmaschinen selber hosten

Bei einem Marktanteil von über 90 Prozent kommt man nicht um die Google-Suche herum. Oder doch? Wir haben uns fünf alternative Suchmaschinen zum Selbsthosten angesehen. Wir erklären, wie leicht sie sich installieren lassen, wie gut ihre Suchergebnisse sind und ob sich das für Otto Normalnutzer lohnt.

Suchen muss nicht immer mit Google sein. Viele alternative Suchmaschinen wie Startpage oder Duck Duck Go werben damit, die Privatsphäre ihrer Nutzer zu respektieren und keine persönlichen Profile zu erstellen. Nach eigenen Angaben speichern sie weder IP-Adressen und Suchbegriffe noch setzen sie Cookies ein.

Vertrauen braucht es dennoch, denn was ein Anbieter auf seinen Servern speichert und was nicht, lässt sich als Nutzer nicht überprüfen. Vor allem Duck Duck Go musste in der Vergangenheit daher Kritik einstecken. Das Unternehmen hat seinen Sitz im US-Bundesstaat Pennsylvania und betreibt Teile seiner Infrastruktur auf Amazon-EC2-Servern. Sowohl die Duck Duck Go Inc. als auch Amazon unterliegen US-Recht und könnten so durch eine Anordnung des Fisa-Gerichts in den USA zum heimlichen Sammeln und Herausgeben von Nutzerdaten gezwungen werden, ohne dass sie dies zugeben dürften.

Als Ausweg aus diesem Dilemma setzen immer mehr alternative Suchmaschinen auf Opensource. Zuletzt hat der deutsche nicht-kommerzielle Anbieter Metager den Quellcode seiner Metasuchmaschine veröffentlicht. Wir haben uns die quelloffenen Alternativen einmal genauer angesehen. Was können sie? Wie leicht lassen sie sich installieren? Und vor allem: Wie gut sind ihre Suchergebnisse im Alltag?



Fünf Kandidaten treten gegeneinander an

Die fünf bekanntesten quelloffenen Suchmaschinen sind neben dem bereits genannten Metager Gigablast, Mysearch, Searx und Yacy. Mit Ausnahme von Gigablast werben alle dieser Kandidaten mit dem besonderen Schutz der Privatsphäre ihrer Nutzer. Das heißt vor allem: Es sollen keine IP-Adressen gespeichert und es soll kein User Profiling oder Tracking durchgeführt werden. Yacy verspricht als Peer-to-Peer-Lösung darüber hinaus, eine mögliche Zensur der Suchergebnisse zu verhindern.

Für unseren Test haben wir die Suchmaschinen in der jeweils letzten stabilen Version unter Ubuntu 16.04 LTS auf einem PC mit Intel Core i5 und 4 GB Arbeitsspeicher installiert.

Außer der Installation haben wir uns auch die gebotenen Funktionen angeschaut, sowohl die für Admins als auch die für Nutzer. Um die Qualität der Suchergebnisse einzuschätzen, haben wir jede der fünf Suchmaschinen mit drei realistischen Suchbegriff-Kombinationen gefüttert, die auf bestimmte Informationen abzielen: (1) "autor die entdeckung der langsamkeit", (2) "mitglieder nsa untersuchungsausschuss" und (3) "ios 10 schwachstelle". Wir überprüften jeweils, welche Kandidaten uns unter den ersten zehn Suchergebnissen die einschlägigsten Informationen liefern. Das ersetzt zwar keinen umfangreichen Vergleichstest, gibt aber interessante Anhaltspunkte für Installationswillige.



Gigablast: freier Suchindex mit Skalierungspotenzial

Gigablast erstellt einen eigenen Index, greift also nicht wie Metasuchmaschinen auf Ergebnisse anderer Suchangebote zurück. Das Projekt wird seit dem Jahr 2000 von Hauptentwickler Matt Wells betreut und zusammen mit einer Handvoll Programmierern weiterentwickelt.

Die Suchmaschine ist laut Wells in der Lage, Hunderte Milliarden Webseiten zu indexieren, lässt sich in großen Clustern betreiben und so auf Tausende Server skalieren. Als Systemvoraussetzung geben die Entwickler eine Linux-Maschine mit Kernelversion 2.4.25 oder neuer an sowie mindestens 4 GB Arbeitsspeicher und 10 GB Festplattenplatz für den Index. Die Größe des Index hängt dabei natürlich davon ab, wie viele Webseiten indiziert werden sollen. Eine kostenpflichtige Pro-Version soll weitere Features bereitstellen und zudem 20- bis 30-mal so schnell suchen wie die normale Version.

Die Installation ist einfach

Installationspakete für die freie Version stehen für Debian- sowie Redhat-basierte Systeme jeweils für 32-bit und 64-bit zum Download bereit. So wird die Installation von Gigablast mit dem distributionseigenen Paketmanager denkbar einfach. Nach der Installation lässt sich die Suchmaschine per "sudo gb -d" als Daemon starten und steht anschließend unter http://localhost:8000 zur Verfügung. Eine leicht verständliche Kurzanleitung sowie umfangreiche (wenn auch zum Teil etwas angestaubte) Informationen zu API, Cluster-Management und allgemeiner Konfiguration stehen auf Englisch auf der Webseite des Projekts zur Verfügung.

Die Installation klappte auf unserem Testsystem problemlos. Nachdem wir in der Konfigurationsmaske die Domain Golem.de zum Indexieren eingetragen hatten, legte Gigablast sofort los. Auf ein vollständiges Indexieren des Internets haben wir für dieses Howto verzichtet, für unseren Suchbegriff-Test haben wir stattdessen auf die öffentliche Demo zurückgegriffen.

Die Demo ist für Entwickler gedacht

Die Standardoberfläche von Gigablast wirkt etwas altbacken, ist aber übersichtlich gestaltet. Ein Menü am linken Bildschirmrand erinnert daran, dass die Suchmaske unter Gigablast.com lediglich als Demo für Interessierte gedacht ist, denn seine zehn Menüpunkte richten sich eher an Entwickler als an Nutzer. Nach Eingabe eines Suchbegriffs zeigt Gigablast eine Reihe nützlicher Funktionen wie Zeiteinschränkung, Sortierreihenfolge, Sprachauswahl, Dateitypenauswahl und Familienfilter an, die die Präzisierung der Suche ermöglichen.



Die Suchergebnisse sind durchwachsen

Unsere erste Suche nach dem Autor des Buches "Die Entdeckung der Langsamkeit" führte zu gemischten Ergebnissen. Einerseits brachte uns gleich der erste Treffer ans Ziel, nämlich auf eine alphabetische Autorenliste der Webseite Zitate.eu, die unter anderem den Autor Sten Nadolny und sein oben genanntes Werk enthält. Andererseits war dies auch der einzig sinnvolle Treffer. Mit der Entdeckung der Langsamkeit brachte Gigablast ansonsten nur Flusskreuzfahrten, SlowTV und einen Focus-Artikel über das Wanderleben Jesus Christi in Verbindung.

Etwas besser klappte die Suche nach den Mitgliedern des NSA-Untersuchungsausschusses des Deutschen Bundestags. Auf einen wenig relevanten Treffer folgte ein Link zu einem Ausschussdokument auf Wikileaks, auf dessen erster Seite sich eine Mitgliederliste findet. Wirklich passend war aber erst Treffer 9, der uns direkt auf die leider englischsprachige Wikipedia-Seite des Ausschusses lotste. Dass hier nicht die deutsche Übersetzung erscheint, ist schade.

Befragt man Gigablast nach "ios 10 schwachstelle", bekommt man einige Treffer zu älteren Sicherheitslücken in iOS 7 und 9 präsentiert, wird ansonsten aber eher enttäuscht. Offenbar lässt sich die Suchmaschine von der Zahl 10 irritieren, denn sieben unserer ersten zehn Treffer hatten nichts oder nur am Rande mit Lücken in Apples Betriebssystemen zu tun.



Metager: das deutsche Universitätsprojekt



Metager ist die wohl älteste Suchmaschine in unserem Test. Das Projekt wurde ursprünglich von Mitarbeitern der Universität Hannover erdacht - auf einer Papierserviette beim Mittagessens auf der Cebit 1996. Es arbeitet seitdem inzwischen als ein Hybrid aus Metasuchmaschine und eigenem Index. Wie klassische Metasuchmaschinen durchforstet Metager auf Wunsch bis zu 50 verschiedene Quellen, kombiniert und gewichtet deren Ergebnisse neu und zeigt sie gemeinsam in einer Liste an. Darüber hinaus greift Metager nach Angaben ihres Gründers Wolfgang Sander-Beuermann aber auch auf eigene Indexer und Crawler zurück, mit denen Spezialfelder abgedeckt werden sollen.

Zu den durchsuchten Quellen gehören bekannte Anbieter wie Yahoo und Yandex, aber auch Außergewöhnliches wie das europäische Kulturportal Europeana und das gesamte Archiv von Die Zeit und Zeit Online von 1946 bis heute. Google lässt Metager dabei bewusst links liegen, "denn dann hätten wir uns vertraglich verpflichten müssen, die jeweiligen Google-Ergebnisse genau so zu übernehmen, wie Google sie liefert. Also in keiner anderen Reihenfolge, keine Anwendung unseres eigenen Rankings, keine Aussortierung von Spam usw. Das ging uns zu weit", sagte Sander-Beuermann in einem Interview.

Installation gelingt erst beim zweiten Anlauf

Der Quellcode von Metager steht seit August 2016 frei zur Verfügung, wie Golem.de berichtete quasi als Alternative zu einem Datenschutz-Gütesiegel. Unser erster Versuch, Metager selbst zu installieren, scheiterte an der nicht mehr ganz taufrischen Dokumentation. Auf Nachfrage stellte der gemeinnützige SUMA-EV, der die Suchmaschine seit 2004 betreut und weiterentwickelt, aber binnen weniger Stunden eine aktualisierte Installationsanleitung zur Verfügung. Damit gelang die Installation problemlos.

Eine funktionsfähige Metager bekommt man damit leider aber noch nicht auf seinen Rechner. Dazu benötigt man gültige API-Zugangsdaten der zu durchsuchenden Indizes, die Metager aus vertragsrechtlichen Gründen nicht mitliefert. Anders als die anderen hier vorgestellten Metasuchmaschinen setzt Metager nämlich ganz auf die Kooperation mit ihren Quellen. Anstatt die Suchergebnisse beispielsweise per Screenscraping abzugreifen, nutzt Metager nach eigenen Angaben wo immer möglich die vom jeweiligen Anbieter bereitgestellten APIs.



Das bringe vor allem Rechtssicherheit: "Wir könnten ohne Kooperationsvereinbarungen auch abgemahnt und sogar schadensersatzpflichtig werden", argumentiert Sander-Beuermann und ergänzt: "Nur via API ist eine dauerhafte und stabile Datenübertragung gewährleistet." Andere Anbieter wie etwa die Entwickler von Searx (siehe unten) befürchten jedoch, dass die Nutzung der APIs zum User Profiling missbraucht und so persönliche Daten geleakt werden könnten. Für letzte Sicherheit könnte hier wohl nur eine umfangreiche Code-Review von APIs und Suchmaschine sorgen.

Die Oberfläche ist übersichtlich

Für dieses Howto nutzten wir die öffentlich zugängliche Instanz unter Metager.de. Deren Bedienoberfläche wirkt trotz einer Reihe an Optionen und einer Menüleiste am oberen Bildschirmrand aufgeräumt. Neben der normalen Websuche haben Nutzer direkten Zugriff auf eine Bildersuche, eine Produktsuche sowie Nachrichten- und Wissenschaftsquellen. Um den gemeinnützigen Betrieb von Metager zu finanzieren, schaltet die Suchmaschine in Kooperation mit Yahoo wenig aufdringliche textbasierte Werbung. Diese erscheint oberhalb der Suchergebnisse und ist deutlich als solche gekennzeichnet. User Profiling oder Tracking werde mit der Werbung nicht betrieben, verspricht Metager.

Die Suchergebnisse sind gut

Bei unserer ersten Testsuche nach der Entdeckung der Langsamkeit schlug sich Metager sehr gut. Sieben der ersten zehn Treffer führten direkt zu Seiten über das gesuchte Buch, darunter der deutsche Wikipedia-Eintrag und die entsprechenden Produktseiten bei Amazon und der Buch-Community Lovelybooks.de.

Auch bei den Mitgliedern des NSA-Untersuchungsausschusses konnte Metager überzeugen. Treffer 1 und 3 führten direkt zu entsprechenden Seiten des Deutschen Bundestags, der dazugehörige Wikipedia-Eintrag fand sich auf Platz 6. Die restlichen Treffer deckten mehr oder weniger relevante Artikel aus der Tageszeitung (taz), Die Zeit und Die Welt ab.

Bei unserer dritten Testsuche nach Schwachstellen in Apples iOS 10 patzte Metager lediglich ein bisschen, die ersten zehn Ergebnisse blieben aber insgesamt zufriedenstellend. 50 Prozent verlinkten zu einschlägigen Artikeln über die Schwächen in Apples Backup-System oder zu den etwas älteren Berichten über den unverschlüsselten Systemkern. Die andere Hälfte deckte die Themen Apple/Sicherheit leider nur allgemein ab, darunter auch die Wikipedia-Seite zu iOS 10.



Mysearch: der Google-Proxy aus Frankreich



Anders als Metager und Searx fungiert Mysearch eher als ein Such-Proxy für eine Handvoll ausgewählter Quellen. Neben Google sind dies Wikipedia, Openstreetmap und die ebenfalls in diesem Artikel getestete Peer-to-Peer-Suchmaschine Yacy - und dies auch nur nach expliziter Einzelauswahl. Eine eigene Gewichtung oder Filterung der Suchergebnisse nimmt Mysearch nicht vor.

Mysearch wird seit 2013 von einem französischen Programmierer unter dem Nickname Tuxicoman für die eigene Nutzung entwickelt, der Quellcode steht auf Framagit zum Download bereit. Der Autor stellt zwar eine eigene öffentliche MySearch-Instanz zur Verfügung, gedacht ist das Projekt aber eher als lokaler Proxyzugang zu den Suchergebnissen von Google.

Schwierigkeiten bei der Installation

Wir haben die aktuelle Version 1.9 getestet, die laut Entwickler nur sporadisch und nach persönlichem Bedarf weiterentwickelt wird. Nach dem Download des Tar-Archivs und der Installation der Abhängigkeiten lässt sich Mysearch mit dem Befehl "python mysearch/mysearch.py" starten steht anschließend lokal unter http://localhost:60061 zur Verfügung.

Hier stoßen wir allerdings auf Schwierigkeiten: Zwar bekommen wir die Suchmaske angezeigt, unsere erste Testsuche schlägt mit einem "exceptions.AttributeError: 'module' object has no attribute '_URI'" fehl. Nach kurzer Rücksprache mit Tuxicoman stoßen wir auf Inkompatibilitäten mit der von Ubuntu bereitgestellten aktuelleren Version des Netzwerk-Frameworks Twisted. Mit einem kleinen Patch des Entwicklers, der nun als Version 1.10 auch in den Hauptcode aufgenommen wurde, konnten wir das Problem aber schnell beheben.



Die Oberfläche ist sehr reduziert

Mysearch ist mit Abstand die spartanischste unter den getesteten Suchmaschinen. Die Startseite zeigt lediglich die Suchzeile am oberen Bildschirmrand, eine Auswahlliste für Sprache und eine für die Suchquellen. Viel falsch machen kann man hier nicht, viel einstellen allerdings auch nicht.

Weil Mysearch lediglich die Suchtreffer von Google abholt, erlauben die Ergebnisse hier gleichzeitig einige Rückschlüsse auf die Qualität der Google-Suche selbst. Der erste Test enttäuschte nicht: Alle zehn ersten Links betrafen das Buch "Die Entdeckung der Langsamkeit", darunter der deutsche Wikipedia-Eintrag, Produktseiten von Amazon und dem Piper Verlag sowie Buchrezensionen aus FAZ und Focus.

Fast ebenso erfolgreich war unsere Suche nach den Mitgliedern des NSA-Untersuchungsausschusses. Sieben der ersten zehn Treffer waren hier relevant, angeführt von Links zu den entsprechenden Seiten des Deutschen Bundestags und bei Wikipedia sowie Artikeln zum Thema bei der taz und der Zeit. Die drei verlinkten Youtube-Videos passten zwar allgemein ins Thema, die Mitglieder des Ausschusses ließen sich dort aber nicht ermitteln.

Auch bei der Suche nach Schwachstellen in iOS 10 konnte Mysearch überzeugen. Wieder gab es sieben von zehn Volltreffern zu passenden Artikeln. Die anderen drei Links führten immerhin zu allgemeinen Informationen über iOS 10 oder Apples Betaprogramm.



Searx: Allrounder mit über 70 Quellen



Die ursprünglich aus Ungarn stammende Metasuchmaschine Searx versucht, sich mit vielseitigen Einstellungsmöglichkeiten und einer großen Anzahl möglicher Suchquellen von der Konkurrenz abzusetzen. Die erst kürzlich erschienene Version 0.10.0 unterstützt neben einer Datumsauswahl auch Endlosscrollen und hat einen intuitiveren Einstellungsdialog erhalten.

Die Macher um Hauptentwickler Adam Tauber wünschen sich so viele öffentliche Instanzen wie möglich. Eine Internetsuche dezentral zur Verfügung stellen zu können, sei für sie ein entscheidendes Ziel bei der Entwicklung von Searx, denn nur so könne man seiner Suchmaschine wirklich vertrauen. Bisher können Nutzer, die Searx nicht selbst installieren wollen, unter rund 30 Installationen im Netz wählen. Die beiden populärsten Domains sind Searx.me und Searx.de. Auch der französische Hackerverein La Quadrature du Net betreibt eine eigene Searx-Instanz.

Gute Anleitung für die Installation

Um dem Ziel möglichst vieler öffentlicher Instanzen näher zu kommen, haben die Searx-Entwickler auf ihrer Webseite eine recht gut verständliche, englischsprachige Installationsanleitung veröffentlicht, der wir auch für diesen Test gefolgt sind. Nach der Installation der notwendigen Abhängigkeiten lädt man Searx per Git herunter und installiert den Rest in einer virtuellen Python-Umgebung. Searx lässt sich anschließend per "python searx/webapp.py" starten und steht dann lokal unter http://localhost:8888 zu Verfügung.

Wer die Suchmaschine per Nginx oder Apache-Webserver öffentlich erreichbar machen möchte, passt nach der Webserver-Installation lediglich die Konfigurationsdatei "/etc/nginx/sites-available/searx" beziehungsweise "/etc/apache2/apache2.conf" entsprechend an. Ist der Webserver bereits vorher einsatzbereit, nimmt die gesamte Installation von Searx auch für Neulinge kaum mehr als eine halbe Stunde in Anspruch.

Einfache Bedienung plus Extras für Experten

Searx bietet eine aufgeräumte Oberfläche mit einer Eingabemaske, wie sie von anderen Suchmaschinen bekannt ist. Ein unauffälliger Link zu "Experteneinstellungen" eröffnet eine Vielzahl von Suchkategorien für Bilder, Dateien, Entwicklerinformationen, Kartenmaterial, Musik und vieles mehr. Für jede dieser Suchkategorien lassen sich die zu durchsuchenden Quellen einzeln an- und abstellen. Darüber hinaus bietet Searx eine Safesearch-Funktion sowie eine automatische Umleitung auf die HTTPS-Version einer Seite, wenn verfügbar.



Die Ergebnisseite der Standardsuche wird durch Infoboxen am rechten Bildschirmrand ergänzt. Diese enthalten wo möglich Überblicksinformationen von Wikipedia sowie weitergehende Suchvorschläge. Leider sind diese Informationen mehrheitlich in Englisch, unabhängig von den Spracheinstellungen in Searx.

Suchergebnisse hängen von Suchquellen ab

Unsere Suchtests haben wir mit den Standardquellen von Searx durchgeführt. Aktiviert oder deaktiviert man andere Kombinationen der Suchquellen, können sich die Suchergebnisse natürlich erheblich unterscheiden - positiv wie auch negativ. Dies hängt letztendlich von den eigenen Suchgewohnheiten ab, die so gewonnene Nutzerfreiheit bewerten wir aber grundsätzlich positiv.

Die Trefferliste nach Nadolnys Roman kann bei Searx überzeugen. Auch wenn der erste Treffer zum entsprechenden Theaterstück am Münchner Schauburg-Theater führte, waren die restlichen neun von zehn Ergebnissen einschlägig: der Wikipedia-Eintrag zum Buch, die Autorenseite bei der Buch-Community Goodreads.com sowie die relevanten Produktseiten bei Buecher.de und Amazon passten gut.

Auch die Suche nach den Mitgliedern des NSA-Untersuchungsausschusses klappte sehr gut. Unter den ersten zehn Treffern fanden sich zwei Links zu den entsprechenden Seiten des Deutschen Bundestags, die passenden Wikipedia-Einträge auf Deutsch und auf Englisch, sowie - etwas weniger relevant - Informationen zum NSA-Skandal aus der deutschen Presse. Nur einer der ersten zehn Treffer lag wirklich daneben: ein Blogeintrag zum NSU-Prozess.

Ebenfalls ganz gut schlug sich Searx bei der Suche nach den Schwachstellen in iOS 10. Fünf der ersten zehn Treffer befassten sich direkt mit den Bugs in dieser Betriebssystemversion, zwei weitere Ergebnisse behandelten ältere Schwachstellen. Auf Platz 4 fand sich übrigens die iOS-Themenseite von Golem.de, auf der natürlich auch aktuelle Artikel zu iOS-10-Schwachstellen zu finden sind. So gesehen ließen sich die gesuchten Informationen mit Searx recht zufriedenstellend finden.



Yacy: Der Peer-to-Peer-Kandidat



Noch weiter als Searx trägt die Peer-to-Peer-Suche Yacy den Gedanken der Dezentralisierung. Anders als Searx ist Yacy nicht nur eine vollwertige Suchmaschine mit eigenem Suchindex, sie kann jeden Nutzer selbst zu einem Baustein in Yacys globalem Peer-to-Peer-Suchnetzwerk machen. Anstatt den Suchindex zentralisiert zu speichern oder bei einem Dritten abzufragen, erstellt so jede Yacy-Installation einen kleinen Teil des globalen Index. Ziel von Yacy ist ein komplettes Suchmaschinennetz in Nutzerhand, das "nicht zensierbar ist und kein Nutzerverhalten an zentraler Stelle speichert".

Yacy wurde ursprünglich 2004 von dem deutschen Informatiker Michael Christen ins Leben gerufen, der auch heute noch als Hauptentwickler tätig ist. Inzwischen arbeiten rund 30 Freiwillige an der Weiterentwicklung des Quellcodes. Eigenen Angaben zufolge hat Yacy etwa 1,4 Milliarden Dokumente im Index, verteilt auf etwa 600 Peer-Betreiber pro Monat und rund 130.000 Suchanfragen pro Tag.

Die Einbindung der Nutzer in das Peer-to-Peer-Netz birgt potenziell aber auch Probleme, auf die die Macher selbst hinweisen. So ist rechtlich offenbar unklar was passiert, wenn der lokal installierte Yacy-Crawler illegale Inhalte indiziert und dabei seine IP-Adresse im Serverlog des Inhalteanbieters hinterlässt. Im Fall einer Beschlagnahmung des Servers könnten Strafverfolgungsbehörden diese IP-Adresse als Beweis werten, dass der Yacy-Nutzer den illegalen Inhalt angesehen hat. Im Wiki des Yacy-Projekts wird vorgeschlagen, diesem Problem mit einer Speicherung der eigenen Browserhistorie zu begegnen, um damit im Notfall belegen zu können, dass man die potenziell illegalen Inhalte gar nicht angesehen hat. Ob dies vor Gericht ausreichen würde, ist offen.

Installation für Linux, Windows oder per Tar-Archiv

Wir haben Yacys aktuelle Version 1.90 getestet. Für die Installation empfehlen die Macher mindestens 4 GB freien Speicherplatz auf der Festplatte, außerdem wird Java benötigt. Auf der Webseite hat man die Auswahl zwischen einem Apt-Repository für Debian-basierte Linuxe und dem Download eines Tar-Archivs. Letzteres lässt sich einfach in den Home-Ordner des Nutzers entpacken und darin über die Kommandozeile die Datei "./startYACI.sh" aufrufen. Anschließend steht Yacy unter http://localhost:8090 zur Verfügung.



Als Einziger der fünf Kandidaten stellt Yacy auch ein Installationspaket für Windows bereit, das in Bezug auf Funktionsumfang und Bedienung mit der Linuxversion identisch ist.

Komplexe Bedienungsoberfläche für Admins

Die Bedienungsoberfläche von Yacy gleicht der anderer Suchmaschinen, der Admin-Bereich dagegen gestaltet sich deutlich komplexer. Neben der Möglichkeit, dem Crawler detailliert mitzuteilen, welche Domains indexiert werden sollen, gibt es umfangreiche Funktionen für Monitoring und Lastenverteilung, Layout und Portaldesign.

Neben einer Bildersuche lassen sich unter dem Link "Mehr Optionen" noch die Anzahl der Ergebnisse pro Seite wählen sowie festlegen, ob der globale Yacy-Index oder nur dessen lokal gespeicherter Teil durchsucht werden soll. Für die meisten Anwendungsfälle ist wohl Ersteres interessanter. Es ist auch dieser dezentrale Index, der dafür sorgt, dass eine Yacy-Suche im Schnitt deutlich langsamer ist als Suchanfragen in zentralisierten Indizes. Unsere Testsuchen dauerten jeweils mehrere Sekunden.

In der Suchergebnisliste fällt zudem die außergewöhnliche Einstellungsleiste am linken Bildschirmrand auf. Hier lässt sich die Suche präzisieren und beispielsweise auf bestimmte Domains, Sprachen oder - sehr praktisch - Dateitypen beschränken.

Suchergebnisse überzeugt nicht ganz

Bei der Qualität der Suchergebnisse konnte Yacy allerdings nur teilweise überzeugen. Für unseren ersten Suchbegriff lieferte uns Yacy auf den ersten Plätzen einen Artikel der christlichen Newsseite "Publik-Forum" sowie Blog- und Forumsbeiträge zu Themen, die nichts mit dem gesuchten Buchtitel zu tun haben. Außerdem einen Reisebericht des Focus über Lettland und eine Seite der Metropolregion Nürnberg. Unter den ersten zehn Treffern fanden wir keine Hinweise auf den Autor des bekannten Buches.

Die Suche nach den Mitgliedern des NSA-Untersuchungsausschusses klappte etwas besser. Der erste Link führte uns direkt auf die entsprechende Seite des Deutschen Bundestages. Der Suchbegriff "ios 10 schwachstelle" ergab nur ein gemischtes Ergebnis. Weil auch bei Yacy die iOS-Themenseite von Golem.de wieder unter den ersten Treffern lag, kamen wir zwar schnell an die gesuchten Informationen, alle anderen Links jedoch lagen eher daneben: Artikel zu Schwachstellen in OpenSSL, Symantecs Antivirus und Windows passten nicht wirklich zu unseren Suchbegriffen.



Fazit



Suchmaschinen selbst hosten, ist einfacher, als es auf den ersten Blick erscheinen mag. Mit Ausnahme von Metager und Mysearch waren alle Suchangebote in kürzester Zeit auf unserem Testgerät einsatzbereit. Bei Metager wird sich das wegen der API-Problematik erst einmal auch nicht ändern, Mysearch sollte dank des bereitgestellten Patches in Zukunft problemlos installierbar sein. Grundkenntnisse der Linux-Kommandozeile sind bei allen Kandidaten hilfreich, dank solider Dokumentation aber keine Voraussetzung.

Welche Bedienungsoberfläche am besten gefällt ist natürlich Geschmacksache und hängt nicht zuletzt von der gewünschten Optionsvielfalt ab. Im Test haben uns hier besonders Searx und Metager gefallen, weil beide viele Einstellungsmöglichkeiten in ein übersichtliches Ganzes zusammenfassen. Mysearch ist eher etwas für Puristen, und wer Yacy nutzen möchte, bringt am besten etwas Zeit mit, um dessen Funktionsweise zu verstehen. Die Oberfläche von Gigablast funktioniert gut, wirkte auf uns aber weniger zeitgemäß.

Gegen Gigablast spricht für den hier behandelten Anwendungszweck zudem, dass der Nutzer eine Menge Rechenkapazität, Speicherplatz und Zeit mitbringen muss, um die für ihn relevanten Teile des Netzes selbst zu indexieren. Interessant ist da wohl für die meisten Nutzer eher, die Demo auf Gigablast.com zu verwenden.

Suchmeister mit Einschränkungen

Bei den Suchergebnissen ist Mysearch ganz oben dabei. Als einfacher Google-Proxy profitiert die Suche von Googles exzellenten Algorithmen, die auf den gesammelten privaten Daten von Milliarden Nutzern basieren. Die Ergebnisse deckten sich fast vollständig mit den Google-Treffern eines frisch installierten Linux mit Firefox-Browser, der nie in einem Google-Konto angemeldet war. Gleichzeitig ist mit Mysearch natürlich auch die Abhängigkeit von Google am größten, die für viele Anwender einer der Hauptgründe für den Wechsel zu einer alternativen Suchmaschine sein dürfte. Die spartanische Oberfläche und die fehlenden Suchfunktionen dürften zudem viele Nutzer abschrecken.

Ebenfalls sehr gute Suchergebnisse lieferten in unserem Test Searx und Metager. Beide Projekte schaffen es, aus vielen verschiedenen Suchquellen die besten Treffer herauszufiltern und übersichtlich zu präsentieren. Wer selbst hosten will, greift dabei zu Searx und erfreut sich an noch größerer Funktionsvielfalt.

Yacy und Gigablast konnten in den Suchergebnissen nur teilweise überzeugen. Für Wechselwillige, die von Google kommen, könnte dies mit der einen oder anderen Enttäuschung einhergehen. Yacy wirbt damit, dass die Suchergebnisse umso besser werden, je mehr Menschen das Programm installieren und einen Crawler laufenlassen. Wer die dezentralisierte Peer-to-Peer-Suche also unterstützen möchte, installiert sie in jedem Fall daheim.

Empfehlung für Umstiegswillige: Metager und Searx

Selbst hostbare Suchmaschinen sind inzwischen so gut, dass auch Nicht-Experten damit den Weg weg von Google & Co. finden können. Die Suchergebnisse waren in unseren Tests zuverlässig genug, dass wir uns einen Produktiveinsatz im Alltag damit gut vorstellen können. Das Selbsthosten lohnt sich dabei für all jene, die keinem Fremdanbieter so recht vertrauen wollen. Aber selbst wer sich nicht an eine eigene Installation wagt, kann heute dank öffentlicher Instanzen wie Metager.de oder Searx.me von einer quelloffenen Suchmaschine profitieren.  (jaw)


Verwandte Artikel:
Bildersuche: Google entfernt Direktlink auf Fotos   
(16.02.2018, https://glm.io/132823 )
Urheberrecht: Bär lehnt Leistungsschutzrecht strikt ab   
(10.03.2018, https://glm.io/133260 )
LLVM 6.0: Clang bekommt Maßnahme gegen Spectre-Angriff   
(09.03.2018, https://glm.io/133241 )
Virtuelle Maschinen: Virtualbox funktioniert auch ohne grafische Oberfläche   
(10.03.2016, https://glm.io/119609 )
Große Koalition: Evaluierungsverweigerer Maas wird Außenminister   
(09.03.2018, https://glm.io/133249 )

© 1997–2019 Golem.de, https://www.golem.de/