Original-URL des Artikels: https://www.golem.de/news/darpa-memex-soll-die-suchmaschine-fuer-das-deep-web-werden-1504-113685.html    Veröffentlicht: 23.04.2015 12:00    Kurz-URL: https://glm.io/113685

Darpa

Memex soll die Suchmaschine für das Deep Web werden

Die US-Behörde Darpa hat die Komponenten ihrer Suchmaschine Memex veröffentlicht. Mit ihr soll auch das Deep Web und vor allem das Tor-Netzwerk durchsucht werden können. Hilfe bekam die Darpa von den Tor-Entwicklern.

Strafverfolgungsbehörden wollen bislang unsichtbare Inhalte im Internet durchsuchen können, um Kriminelle dingfest zu machen. Traditionelle Suchmaschinen reichen hierfür nicht aus und spezielle Suchmaschinen etwa für das Tor-Netzwerk schon gar nicht. Abhilfe soll also die von der US-Behörde Defense Advanced Research Projects Agency (Darpa) vorgestellte Suchmaschine Memex schaffen. Jetzt hat die Darpa die dazu benötigten Werkzeuge veröffentlicht.

Memex soll aber nicht nur Webseiten im Tor-Netzwerk sammeln und indizieren, sondern auch Inhalte im sogenannten Deep Web entdecken. Also jene Seiten, die weder von Google noch von Bing oder Yahoo indiziert werden. Diese Suchmaschinen zeigten nur fünf Prozent des tatsächlichen Inhalts des Internets an, sagte der Hauptentwickler des Memex-Projekts, Chris White, zu CBS.

Werkzeug für Strafverfolgungsbehörden

Memex, oder zumindest ein Teil der Implementierung, werde bereits erfolgreich von Strafverfolgungsbehörden in den USA angewendet, um gegen Kinderpornografie, organisierten Menschen- und Drogenhandel vorzugehen, so der CBS-Bericht. Die gesammelten Informationen, darunter auch von Werbeeinblendungen, werden zusammen mit Standortdaten durch Memex visualisiert und sollen es den Fahndern erlauben, Bewegungsprofile möglicher Täter zu erstellen. Die Fahnder können die Suchergebnisse auch selbst filtern.

Die Darpa hat sich für ihr Projekt Hilfe von einer ganzen Reihe bekannter Einrichtungen geholt, darunter renommierte Universitäten oder Forschungsinstitute. Auch von den Entwicklern beim Tor-Projekt bekommt die Darpa Hilfe, wie der Mitgründer des Projekts Roger Dingledine bestätigte. Im Gegenzug finanziert die Behörde in den nächsten Jahren Verbesserungen im Tor-Netzwerk, die den Datenverkehr beschleunigen und die Sicherheit der Nutzer erhöhen sollen.

Hilfe von Tor-Entwicklern

Das Tor-Projekt wolle der Darpa und somit den Fahndern ein besseres Verständnis des Netzwerks vermitteln, aber keinesfalls die Anonymität der Benutzer gefährden, schreibt Dingledine. Die Adressen der versteckten Dienste (Hidden Services) im Tor-Netzwerk seien dort immerhin öffentlich und müssten demnach auch indiziert werden dürfen. Dass dort auch Kriminelle ihre Dienste anbieten und Tor einen schlechten Ruf bescheren, ärgert ihn maßlos: "Fuck them, they should get off our network, that's not what Tor is for and they're hurting all of us."

Nach Schätzungen des Forschers Gareth Owen sind durchschnittlich 45.000 Hidden Services pro Tag über Tor erreichbar. Dabei handelt es sich nicht nur um Webseiten, sondern auch auch um andere Dienste, etwa IRC-Server oder Command-and-Control-Server für Botnets. Owens Studie zufolge lassen sich aber weniger als 10.000 Dienste über einen längeren Zeitraum abrufen, etwa die Suchmaschine Duckduckgo oder Facebook, das seit Oktober 2014 ebenfalls eine Onion-Adresse hat. Viele Dienste waren nur über einen kurzen Zeitraum erreichbar - eine Herausforderung für jede Suchmaschine. Die im Vergleich zum offenen Web deutlich geringere Anzahl an zu indizierenden Webseiten hingegen dürfte Datenbanken auch auf Servern mit geringer Kapazität nicht überfordern.

Suchmaschinen für das Tor-Netzwerk

Das Tor-Netzwerk sorgt sich um die Anonymität seiner Benutzer, wie also können Suchmaschinen dort überhaupt funktionieren? Damit Hidden Services dennoch erreichbar sind, benötigen sie wie im normalen Web eine Adresse, die normalerweise jedoch in Form eines Hashwerts vorliegt. Die Tor-Adresse der Suchmaschine Duckduckgo lautet http://3g2upl4pq6kufc4m.onion. Diese Adresse lässt sich nur in einem Tor-kompatiblen Browser öffnen. Duckduckgo liefert übrigens auch über seine Tor-Adresse nur Resultate aus dem normalen Web.

Jeder Hidden Service generiert regelmäßig einen Beschreibungswert, den sogenannten Descriptor. Dieser Descriptor enthält eine Liste der Knoten, über die der Hidden Service aktuell erreichbar ist und eine Identifikationsnummer, die Descriptor-ID, die ihrerseits ein Hashwert ist. Dieser Hashwert ändert sich alle 24 Stunden. Der Hashwert wird über einen Distributed Hash Table (DHT) in den sogenannten Hidden Services Directories veröffentlicht, die wiederum auf ausgewählten Tor-Konten liegen.

Das Tor-Netzwerk soll verbessert werden

Dieser dynamische Aufbau sorgt für Anonymität, stellt aber ein Hindernis für Suchmaschinen dar, die aktuelle Ergebnisse liefern wollen. Die Crawler der Suchmaschinen müssen sich nämlich an den DHTs orientieren, um eine Verbindung zu dem Hidden Service herzustellen, den sie indizieren wollen.

Es gibt aber noch ein weiteres Problem: Ein solcher Tor-Knoten kann genutzt werden, um die Descriptor-IDs zu manipulieren und so einen DDoS-Angriff innerhalb des Tor-Netzwerks zu starten. Solche Angriffe gibt es immer wieder und sie lassen sich erst beenden, wenn die Betreiber des Tor-Netzwerks einen solchen Knoten identifizieren und abschalten. Mit Hilfe einer neuen Finanzierungsrunde durch die Darpa soll das Tor-Protokoll in den nächsten Monaten modernisiert werden, so dass beispielsweise versteckte Dienste auf mehreren Hosts laufen können. Das soll nicht nur DDoS-Angriffe mildern, sondern auch den steigenden Datenverkehr innerhalb des Netzwerks besser verteilen. So will das Tor-Netzwerk eine vergleichbare Surfgeschwindigkeit erreichen, wie sie im normalen Web üblich ist. Zudem soll die Verschlüsselung des Identitätsschlüssels der jeweiligen Hidden Services erhöht werden, und das Original des Schlüssels soll auch offline gespeichert werden können.

Tor-Suchmaschinen kaum funktional

Suchmaschinen im Tor-Netzwerk haben es also ungleich schwerer, aktuelle und zuverlässige Suchergebnisse zu liefern, wenn sie überhaupt aufgerufen werden können. Auf der zentralen Anlaufstelle The Hidden Wiki (http://zqktlwi4fecvo6ri.onion/wiki/index.php/Main_Page) gibt es eine Liste von Suchmaschinen, von denen viele nicht immer erreichbar sind und einige lediglich eine Liste von Onion-Seiten bereitstellen, die es teilweise gar nicht mehr gibt. Etwa Torlinks (torlinkbgs6aabns.onion) oder Harrys 71 Onion Spider (skunksworkedp2cg.onion), die jeweils eine Liste von Webseiten im Tor-Netzwerk bereitstellen, die mehr oder weniger auf Aktualität geprüft werden.

Über Grams (grams7enufi7jmdl.onion) wurde schon mehrfach berichtet. Das ist eine Suchmaschine im herkömmlichen Sinne, allerdings für Substanzen, die meist gegen das Betäubungsmittelgesetz verstoßen. Man gibt einen Suchbegriff wie Cannabis ein und erhält eine Liste mit entsprechenden Angeboten. Die werbefinanzierte Suchmaschine Torch (xmh57jrzrnw6insl.onion) behauptet, mehr als 1,1 Millionen Webseiten indiziert zu haben. Vergleicht man die Zahl mit den Erhebungen von Gareth Owen kann man davon ausgehen, dass viele der dort angezeigten Links wohl längst nicht mehr funktionieren, was eine Stichprobe auch bestätigt. Immerhin zeigen die Suchergebnisse an, wann eine Seite zuletzt gesichtet wurde. Es gibt zudem eine zwischengespeicherte Version, sollte das Original gerade nicht erreichbar sein. Ab und an gab die Suchmaschine einen Fehler aus, es gebe zu viele Verbindungen.

Dopplungen und tote Links

Die werbefreie Variante Torsearch (hss3uro2hsxfogfq.onion/) ist wie Torch zuverlässig erreichbar, lädt Resultate aber deutlich schneller. Jedoch sind dort meist viele Dubletten zu sehen und die meisten Verweise zeigen auf Onion-Links (tt3j2x4k5ycaa5zt.onion), das wie das bereits erwähnte Torlinks lediglich eine Liste ausgewählter Adressen bereitstellt. Aktuell nicht erreichbare Seiten werden dort rot markiert. Außerdem können Anwender selbst Webseiten einfügen.

Die Suchmaschine Ahmia, die auch im normalen Web erreichbar ist und Suchergebnisse aus dem Tor-Netzwerk anzeigen soll, bietet ebenfalls die Möglichkeit, Webseiten manuell in dessen Datenbank einzufügen. Ahmia zeigte in unserem Test weder im normalen Web noch im Tor-Browser auch nur ein einziges Suchergebnis an, egal welchen Begriff wir wählten. Die Suchmaschinen Torfind und !Google waren überhaupt nicht erreichbar.

Auftritt: Memex

Memex soll also die Suche im Tor-Netzwerk erleichtern. Dazu hat die Darpa jetzt eine ganze Palette an Werkzeugen unter freien Lizenzen veröffentlicht, die sie von verschiedenen Auftraggebern erhalten hat. Vom Unternehmen SRI International stammen die Crawler für das Tor-Netzwerk, darunter der Hidden Service Forum Spider, der Foren indiziert. Sein Werkzeug HSProbe sucht das Tor-Netzwerk nach Domains ab. SRI International hat bei der Entwicklung seiner Crawler Hilfe von den Tor-Machern bekommen.

Das Unternehmen Hyperion Grey hat eine ganze Reihe von Crawler-Werkzeugen beigesteuert, etwa Autologin, das automatisch Zugangsdaten eingibt, oder Formasaurus, das Webforms ausfüllen kann. Ihr HG Profiler vergleicht Daten auf Webseiten, die nicht miteinander verlinkt sind. Weitere Werkzeuge des Unternehmens sollen bei der Filterung und Organisation der Daten helfen. Mit ihrem Werkzeug Scrapy-Dockerhub sollen die Crawler in virtuellen Docker-Containern untergebracht werden können.

Big Data für Memex

Hinzu kommt eine ganze Reihe von Analysewerkzeugen, etwa Deepdive von der Universität Stanford. Das Machine-Learning-Werkzeug analysiert große Datenmengen, die aus Text und Multimediainhalten bestehen, und versucht, aus den Daten selbstständig Verbindungen zwischen Personen und Gruppen herzustellen, nach denen gesucht wird. Die Werkzeuge Text.jl, MITIE und Topic stammen vom MIT und dienen der Verarbeitung natürlicher Sprache in den gesammelten Dokumenten.

Die Anwendung Dossier Stack vom Unternehmen Diffeo soll spezifische Sucheingaben verarbeiten, wie es semantische Suchmaschinen wie Wolfram Alpha und Google Knowledge Graph bereits umsetzen.

Keine normale Suchmaschine

Um die großen Datenmengen zu verarbeiten, gibt es die Software-Bibliothek Arrayfire, die über Cuda und OpenCL die Rechenleistung von Grafikchips hinzuziehen kann und massive parallele Verarbeitung beherrscht. Außerdem gibt es die Visualisierungswerkzeuge DIG von der University of Southern California, Next Century Corporation und Tellfinder vom Unternehmen Uncharted Software, die die Daten für Benutzer aufbereiten.

Wie die einzelnen Komponenten zusammenarbeiten, verrät die Webseite jedoch nicht. Memex soll vor allem dabei helfen, die wachsende Datenmenge im Internet besser zu aggregieren und dem Nutzer bei der Organisation der gesammelten Daten zu helfen. Funktionen, die herkömmliche Suchmaschinen nicht lieferten, heißt es in der Zusammenfassung.  (jt)


Verwandte Artikel:
Spot Mini: Boston Dynamics bringt Roboter das Türöffnen bei   
(13.02.2018, https://glm.io/132733 )
Subterranean Challenge: Darpa ruft Wettbewerb für Navigation unter der Erde aus   
(22.12.2017, https://glm.io/131837 )
Bell UH-1: Aurora Flight Sciences macht einen Hubschrauber zur Drohne   
(14.12.2017, https://glm.io/131667 )
Darpa: US-Militär will Pflanzen als Schadstoffsensoren einsetzen   
(23.11.2017, https://glm.io/131305 )
Boston Dynamics: Humanoider Roboter Atlas macht Salto rückwärts   
(17.11.2017, https://glm.io/131213 )

© 1997–2019 Golem.de, https://www.golem.de/