Tor und Co.: Website-Fingerprints hebeln auch Anonymizer aus

In mehreren Experimenten gelang es Dominik Herrmann von der Universität Regensburg(öffnet im neuen Fenster) und lexi von der Firma iDev(öffnet im neuen Fenster) per Dataminig, Datenpakete aus dem Tor-(öffnet im neuen Fenster) und JAP-Netzwerk(öffnet im neuen Fenster) zu analysieren und die von Benutzern angesteuerten Webseiten nahezu genau zu ermitteln.
Die Daten wurden mit Hilfe der frei erhältlichen Weka-Tools(öffnet im neuen Fenster) und deren Multinomial-Naive-Bayes-Filter sowie Support Vector Machines(öffnet im neuen Fenster) analysiert, die speziell für das Datamining erstellt wurden. Sie wurden auf DNS-Logfiles losgelassen. In einem Experiment wurde das Surfverhalten von 28 Beteiligten ohne Anonymizer durch die Klassifizierungssoftware zu 77 Prozent akkurat individuell identifiziert - nur anhand der Analyse der aufgerufenen Webseiten.
Kurze Sitzungen helfen nicht
Auch wenn die aufeinanderfolgenden Sitzungen zeitlich begrenzt sind, bleibt die Genauigkeit der Vorhersage zwar unter dem nach 24 Stunden erreichten Wert, steigt aber bereits nach zehn Minuten deutlich an.
Bei nicht aufeinanderfolgenden Internetsitzungen bleibt das Surfverhalten der Benutzer auch über längere Zeit das gleiche. Eine wichtige Rolle spielt auch die Tageszeit: Morgens und abends steuern die meisten Anwender die immer gleichen Webseiten an, tagsüber werden weit mehr unterschiedliche Adressen aufgerufen, was die Trefferquote der Klassifizierungssoftware senkt.
Hohe Trefferquote auch bei vielen Surfern
In einem weiteren Experiment waren über 3.000 Personen beteiligt. Es wurden in elf Tagen über 68 Millionen Typ-A-DNS-Anfragen ausgewertet. Die Trefferquote lag dabei immer noch bei 70 Prozent.
Wer seine IP-Adresse häufig ändert und nach jeder Änderung andere Webseiten ansteuert, senkt die Trefferquote der Analysesoftware. Eine weitere Schutzmöglichkeit besteht darin, verschiedene Proxys für verschiedene Aktivitäten zu verwenden. Die Daten über mehrere Server zu verteilen, senkte die Trefferquote lediglich von etwa 77 auf 58 Prozent. Wer nur das eine Prozent der populärsten Webseiten ansteuert, senkt die Möglichkeit, sein Surfverhalten zu identifizieren, auf etwa 66 Prozent.
Anonymizer bieten nur wenig Schutz
Gewappnet mit einer Anzahl von interessanten Webseiten kann die Klassifizierungssoftware auch bei der Verwendung von Tor trainiert werden. Angriffsfläche ist die letzte Meile, also ein Angriff auf das WLAN zu Hause oder bei einem ISP. Von Datenpaketen, die über Tor verschickt werden, können nur die Richtung und die Zeitabfolge des Pakettransfers ermittelt werden, denn Tor verwendet immer Pakete mit einer Größe von 512 Bytes. Sind nicht genügend Daten in einem Paket, wird der Rest aufgefüllt – das sogenannte Padding.
Ein Angreifer kann dennoch ermitteln, ob ein Benutzer die Seiten ansteuert, die der Angreifer als interessant eingestuft hat. Dazu steuert er über Tor die von ihm ausgewählten Seiten mehrmals über einen längeren Zeitraum an und extrahiert daraus die entsprechenden Website-Fingerprints. Danach trainiert er die Klassifizierungssoftware und wendet sie auf die Testdaten eines Opfers an, die er ebenfalls zuvor aufgenommen hat.
Paketgröße und Richtung für die Analyse
Die Voraussetzungen für die Ermittlung genauer Fingerprints sind allerdings nicht immer einfach zu erfüllen: Zunächst muss dem Angreifer das Betriebssystem und der verwendete Browser des Opfers bekannt sein, damit er die transferierten Daten realistisch nachbilden kann. Noch schwieriger dürfte es sein, die zweite Kondition zu erfüllen: Der Angreifer muss einzelne Webabfragen aus dem Datenstrom extrahieren können. Je nachdem wie viele Anfragen ein Benutzer gleichzeitig absendet, steigt die Schwierigkeit.
Bei der Analyse der Tor-Daten spielt vor allem die Richtung der versendeten Daten eine große Rolle. Zudem werden alle ACK-Pakete entfernt. Alle Pakete, die in eine Richtung versendet werden, werden zusammengezählt. Daraus ergibt sich trotz Padding eine relativ genaue Dateigröße.
Hohe Trefferquote auch bei vielen Surfern
In ihrem ersten Experiment 2009 haben die Entwickler 775 häufig angesteuerte Webseiten 20-mal per Tor angesteuert. Zudem wendeten sie ein zehnfaches Kreuzvalidierungsverfahren an, um Zufallsdaten zu minimieren. Dabei erzielten sie über OpenSSH-, OpenVPN- und IPSec-Verbindungen eine Trefferquote von über 95 Prozent. Die Trefferquote bei JAP – JAP verwendet eine Paketgröße von 998 Bytes - betrug immerhin noch 20 Prozent, während sie bei Tor lediglich zwei Prozent betrug.
Durch Optimierungen, die der Entwickler Andriy Panchenko von der Universität Luxemburg(öffnet im neuen Fenster) beisteuerte, stieg das Resultat nur ein Jahr später bei Tor auf 55 Prozent, während im JAP-Netzwerk die Trefferquote auf 80 Prozent stieg. Bei der Verwendung von Tor im lokalen Netzwerk stieg das Ergebnis sogar auf 89 Prozent.
Diversifizierter Datenstrom schützt
Die Wissenschaftler dehnten das Experiment aus: Sie reduzierten die interessanten Webseiten auf fünf und fügten etliche weniger besuchte Webseiten hinzu. Sie stellten sich die Frage, wie viele uninteressante Webseiten benötigt werden, um weniger als 1 Prozent an False-Positivs zu erreichen.
Werden etwa 2.000 weniger besuchte Webseiten zu dem zu analysierenden Datenstrom hinzugefügt, bleibt die Trefferquote bei etwa 67 Prozent.
Der beste Schutz wäre, immer mehrere Seiten im Internet gleichzeitig anzusteuern, oder gleichzeitig Webradio zu hören, um die Menge der Datenpakete so zu erhöhen, dass die Analyse der Datenpakete schwieriger würde.



