Facebook-Crawler

Einfach als Google ausgeben

Die öffentlichen Nutzerdaten von Facebook sollen sich nicht nur über das Nutzerverzeichnis, sondern auch über die Sitemap gut auslesen lassen. Grund ist ein Versäumnis von Facebook.

Anzeige

Günter Grodotzki hatte bereits im April 2010 herausgefunden, wie sich der öffentliche Teil von Facebook-Profilen massenhaft auslesen lässt. Anders als der Crawler von Ron Bowes, dessen Blog derzeit unerreichbar ist, liest der Crawler von Grodotzki nicht das Facebook-Verzeichnis, sondern die Sitemap des sozialen Netzwerks aus. Das sei "viel einfacher", sagte Grodotzki Golem.de, obwohl auch damit nur so viele Daten auslesbar seien, wie es der Facebook-Nutzer zulasse.

Eine Sitemap ist eine XML-Datei mit allen URLs der Webseite, die von Suchmaschinen wie Google gecrawlt und indexiert werden sollen. Auf sie kann eigentlich nur von berechtigten Hostnamen zugegriffen werden. Darunter laut Grodotzki auch diejenigen, die sich als Googlebot ausweisen. Diesen Hostnamen fälschte Grodotzki und machte sich zunutze, dass Facebook sich nicht mittels Cross-Checking absichert. Letztlich sind dann alle die Daten auslesbar, die regulär von Google gesehen werden.

Schneller Auslesen

Durch das Auslesen der Sitemap ist umfangreiches Crawling ohne Captcha-Hürden möglich. Und das "mit einem viel höheren Datendurchsatz, da man es auch ausgeloggt durchführen kann und es wegen des gefälschten Hostnamens nicht auffällt", so Grodotzki.

Ausprobiert hat er das bereits, indem er laut eigenen Aussagen etwa 10 GByte an reinen XML-Dateien ausgelesen hat. Diese enthielten Links zu den Nutzerprofilen, Profilbildern, Gruppen, Pages und Kontakten. Um auch die Inhalte dieser URLs auszulesen, würden jedoch 2 Terabyte oder mehr Speicherplatz anfallen.

Das Auslesen von öffentlichen Daten aus sozialen Netzwerken lässt sich kaum verhindern. Auch der Facebook-Konkurrent VZ Netzwerke, wie Golem.de zugehörig zur Verlagsgruppe Georg von Holtzbrinck, sammelt auf SchülerVZ, StudiVZ und MeinVZ weiter Erfahrungen mit Crawlern.

Die mit Crawlern gewonnenen Profillinks haben durchaus einen Wert - sie können etwa Ziele für unerwünschte Werbung und Phishingversuche werden. Die persönlichen Daten bleiben den Bots und anderen allzu Neugierigen verborgen, sofern die Nutzer von den sinnvollen Einstellungen für mehr Privatsphäre Gebrauch machen.


Turrican 02. Aug 2010

doch. das geht. ich hab die option zuerst auch nicht gefunden. nur die option zum...

Turrican 02. Aug 2010

Nur vergisst du dabei das seit Dezember 2009 dein Name, dein Profilbild und dein...

klo 01. Aug 2010

denen ist völlig wurst ob du hans oder peter heisse für die bist du #12923731 und von dem...

Krille 31. Jul 2010

Wenn du zu deinen Servern/Netzen eigene DNS betreibst und die Pools reverse auflösen...

Verzeihung 30. Jul 2010

Eine leichte Steigerung wäre noch möglich durch die Nachricht: Jemand hat sich direkten...

Kommentieren




Anzeige
  1. Projekt-Qualitätsmanager (m/w)
    Continental AG, Nürnberg (Reisebereitschaft)
  2. Webentwickler (m/w)
    Global Group Dialog Solutions AG, Idstein
  3. Solution Manager/IT-Spezialist DMS und Workflow (m/w)
    Deutsche Leasing AG, Bad Homburg
  4. Entwicklungsingenieur (m/w) Elektronik
    J. Schmalz GmbH, Glatten bei Freudenstadt

 

Detailsuche


Folgen Sie uns
       


  1. Antifeatures

    Freie Software gegen Bevormundung

  2. Video

    Yahoo gibt Angebot für Hulu ab

  3. Google X

    Google baut mobiles Internet in Afrika und Südostasien

  4. Xbox One

    Handel muss Gebrauchtspiele de-registrieren

  5. Lenovo

    "Wir können uns jede Übernahme leisten"

  6. Bundesdatenschützer

    Jobcenter sollen nicht bei Facebook recherchieren

  7. Navigation

    Google Maps erhält Routenplanung per Fahrrad

  8. Test Call of Juarez Gunslinger

    Hör-Spiel im Wilden Westen

  9. Fonic All-Net Flat

    Telefon-, SMS- und Datenflatrate für 25 Euro

  10. Drosselung

    Die Mär vom teuren Traffic oder wie viel kostet ein GByte?



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Superkondensator: Neuer Energiespeicher mit kurzer Ladezeit
Superkondensator
Neuer Energiespeicher mit kurzer Ladezeit

Ein Smartphone, das in einer halben Minute geladen ist, soll ein neuer Energiespeicher ermöglichen. Die Entwicklerin kam auf die Idee, weil sie sich über den dauernd leeren Akku ihres Mobiltelefons geärgert hat.

  1. Silverback-Gorilla Akku als Steckdosenersatz für Notebooks
  2. Akku Kleiner Akku mit großer Leistung
  3. Paul Scherrer Institut Lithium-Ionen-Akkus haben doch einen Memory-Effekt

Dying Light: Einsamer Kampf in großer Stadt
Dying Light
Einsamer Kampf in großer Stadt

Tagsüber sammelt der Spieler Vorräte und Waffen, nachts kämpft er gegen Zombies: Das ist das Grundkonzept von Dying Light, das Techland unter anderem für Playstation 4 und Xbox One produziert.

  1. Flying Wild Hog Der Shadow Warrior kämpft wieder
  2. Homosexualität in Spielen Bug oder Feature?
  3. Strategiespiel HTML5-Version von Freeciv veröffentlicht

München: Limux bleibt technisch anspruchsvoll
München
Limux bleibt technisch anspruchsvoll

Linuxtag 2013 Das Limux-Projekt geht in den Regelbetrieb über. Viel Arbeit fällt bei der Umstellung der Münchner Stadtverwaltung auf Linux trotzdem noch an - für die Techniker und die Stadtverwaltung, die eine Strategie für den Umgang mit Open-Source-Projekten erarbeiten muss.

  1. Clark Asay Defensive Patente mit freier Software nicht vereinbar?
  2. Adobes CFF Engine Bessere Schriftdarstellung für Android, iOS und Linux
  3. Entwicklerplatinen Spark Core mit WLAN und Cortex-M3-Prozessor

Zum Artikel