Abo
  • IT-Karriere:

Facebook-Crawler

Einfach als Google ausgeben

Die öffentlichen Nutzerdaten von Facebook sollen sich nicht nur über das Nutzerverzeichnis, sondern auch über die Sitemap gut auslesen lassen. Grund ist ein Versäumnis von Facebook.

Artikel veröffentlicht am ,

Günter Grodotzki hatte bereits im April 2010 herausgefunden, wie sich der öffentliche Teil von Facebook-Profilen massenhaft auslesen lässt. Anders als der Crawler von Ron Bowes, dessen Blog derzeit unerreichbar ist, liest der Crawler von Grodotzki nicht das Facebook-Verzeichnis, sondern die Sitemap des sozialen Netzwerks aus. Das sei "viel einfacher", sagte Grodotzki Golem.de, obwohl auch damit nur so viele Daten auslesbar seien, wie es der Facebook-Nutzer zulasse.

Stellenmarkt
  1. Hays AG, Wiesbaden (Home-Office möglich)
  2. AKDB, Regensburg

Eine Sitemap ist eine XML-Datei mit allen URLs der Webseite, die von Suchmaschinen wie Google gecrawlt und indexiert werden sollen. Auf sie kann eigentlich nur von berechtigten Hostnamen zugegriffen werden. Darunter laut Grodotzki auch diejenigen, die sich als Googlebot ausweisen. Diesen Hostnamen fälschte Grodotzki und machte sich zunutze, dass Facebook sich nicht mittels Cross-Checking absichert. Letztlich sind dann alle die Daten auslesbar, die regulär von Google gesehen werden.

Schneller Auslesen

Durch das Auslesen der Sitemap ist umfangreiches Crawling ohne Captcha-Hürden möglich. Und das "mit einem viel höheren Datendurchsatz, da man es auch ausgeloggt durchführen kann und es wegen des gefälschten Hostnamens nicht auffällt", so Grodotzki.

Ausprobiert hat er das bereits, indem er laut eigenen Aussagen etwa 10 GByte an reinen XML-Dateien ausgelesen hat. Diese enthielten Links zu den Nutzerprofilen, Profilbildern, Gruppen, Pages und Kontakten. Um auch die Inhalte dieser URLs auszulesen, würden jedoch 2 Terabyte oder mehr Speicherplatz anfallen.

Das Auslesen von öffentlichen Daten aus sozialen Netzwerken lässt sich kaum verhindern. Auch der Facebook-Konkurrent VZ Netzwerke, wie Golem.de zugehörig zur Verlagsgruppe Georg von Holtzbrinck, sammelt auf SchülerVZ, StudiVZ und MeinVZ weiter Erfahrungen mit Crawlern.

Die mit Crawlern gewonnenen Profillinks haben durchaus einen Wert - sie können etwa Ziele für unerwünschte Werbung und Phishingversuche werden. Die persönlichen Daten bleiben den Bots und anderen allzu Neugierigen verborgen, sofern die Nutzer von den sinnvollen Einstellungen für mehr Privatsphäre Gebrauch machen.



Anzeige
Top-Angebote
  1. (u. a. Lenovo Legion Y530-15ICH für 699€ + Versand - Bestpreis!)
  2. (aktuell u. a. Sennheiser Momentum 2 Wireless für 199€ statt 229€ im Vergleich)
  3. 39€ + Versand (Bestpreis!)
  4. (aktuell u. a. Intel Core i5-9600K boxed für 229€ + Versand statt 247,90€ + Versand im...

Turrican 02. Aug 2010

doch. das geht. ich hab die option zuerst auch nicht gefunden. nur die option zum...

Turrican 02. Aug 2010

Nur vergisst du dabei das seit Dezember 2009 dein Name, dein Profilbild und dein...

klo 01. Aug 2010

denen ist völlig wurst ob du hans oder peter heisse für die bist du #12923731 und von dem...

Krille 31. Jul 2010

Wenn du zu deinen Servern/Netzen eigene DNS betreibst und die Pools reverse auflösen...

Verzeihung 30. Jul 2010

Eine leichte Steigerung wäre noch möglich durch die Nachricht: Jemand hat sich direkten...


Folgen Sie uns
       


Workers Resources Soviet Republic - Test

Wem Aufbaustrategiespiele wie Anno oder Sim City zu einfach sind, sollte Workers & Resources: Soviet Republic ausprobieren. Das Spiel ist Wirtschaftssimulation und Verkehrsmanager in einem.

Workers Resources Soviet Republic - Test Video aufrufen
Chromium: Der neue Edge-Browser könnte auch Chrome besser machen
Chromium
Der neue Edge-Browser könnte auch Chrome besser machen

Build 2019 Wie sieht die Zukunft des Edge-Browsers aus und was will Microsoft zum Chromium-Projekt beitragen? Im Gespräch mit Golem.de gibt das Unternehmen die vage Aussicht auf einen Release für Linux und Verbesserungen in Google Chrome. Bis dahin steht viel Arbeit an.
Von Oliver Nickel

  1. Insiderprogramm Microsoft bietet Vorversionen von Edge für den Mac an
  2. Browser Edge auf Chromium-Basis wird Netflix in 4K unterstützen
  3. Browser Microsoft lässt nur Facebook auf Flash-Whitelist in Edge

Bundestagsanhörung: Beim NetzDG drohen erste Bußgelder
Bundestagsanhörung
Beim NetzDG drohen erste Bußgelder

Aufgrund des Netzwerkdurchsetzungsgesetzes laufen mittlerweile über 70 Verfahren gegen Betreiber sozialer Netzwerke. Das erklärte der zuständige Behördenchef bei einer Anhörung im Bundestag. Die Regeln gegen Hass und Hetze auf Facebook & Co. entzweien nach wie vor die Expertenwelt.
Ein Bericht von Justus Staufburg

  1. NetzDG Grüne halten Löschberichte für "trügerisch unspektakulär"
  2. NetzDG Justizministerium sieht Gesetz gegen Hass im Netz als Erfolg
  3. Virtuelles Hausrecht Facebook muss beim Löschen Meinungsfreiheit beachten

LTE-V2X vs. WLAN 802.11p: Wer hat Recht im Streit ums Auto-WLAN?
LTE-V2X vs. WLAN 802.11p
Wer hat Recht im Streit ums Auto-WLAN?

Trotz langjähriger Verhandlungen haben die EU-Mitgliedstaaten die Pläne für ein vernetztes Fahren auf EU-Ebene vorläufig gestoppt. Golem.de hat nachgefragt, ob LTE-V2X bei direkter Kommunikation wirklich besser und billiger als WLAN sei.
Eine Analyse von Friedhelm Greis

  1. Vernetztes Fahren Lobbyschlacht um WLAN und 5G in Europa
  2. Gefahrenwarnungen EU setzt bei vernetztem Fahren weiter auf WLAN

    •  /