Facebook-Crawler

Einfach als Google ausgeben

Die öffentlichen Nutzerdaten von Facebook sollen sich nicht nur über das Nutzerverzeichnis, sondern auch über die Sitemap gut auslesen lassen. Grund ist ein Versäumnis von Facebook.

Anzeige

Günter Grodotzki hatte bereits im April 2010 herausgefunden, wie sich der öffentliche Teil von Facebook-Profilen massenhaft auslesen lässt. Anders als der Crawler von Ron Bowes, dessen Blog derzeit unerreichbar ist, liest der Crawler von Grodotzki nicht das Facebook-Verzeichnis, sondern die Sitemap des sozialen Netzwerks aus. Das sei "viel einfacher", sagte Grodotzki Golem.de, obwohl auch damit nur so viele Daten auslesbar seien, wie es der Facebook-Nutzer zulasse.

Eine Sitemap ist eine XML-Datei mit allen URLs der Webseite, die von Suchmaschinen wie Google gecrawlt und indexiert werden sollen. Auf sie kann eigentlich nur von berechtigten Hostnamen zugegriffen werden. Darunter laut Grodotzki auch diejenigen, die sich als Googlebot ausweisen. Diesen Hostnamen fälschte Grodotzki und machte sich zunutze, dass Facebook sich nicht mittels Cross-Checking absichert. Letztlich sind dann alle die Daten auslesbar, die regulär von Google gesehen werden.

Schneller Auslesen

Durch das Auslesen der Sitemap ist umfangreiches Crawling ohne Captcha-Hürden möglich. Und das "mit einem viel höheren Datendurchsatz, da man es auch ausgeloggt durchführen kann und es wegen des gefälschten Hostnamens nicht auffällt", so Grodotzki.

Ausprobiert hat er das bereits, indem er laut eigenen Aussagen etwa 10 GByte an reinen XML-Dateien ausgelesen hat. Diese enthielten Links zu den Nutzerprofilen, Profilbildern, Gruppen, Pages und Kontakten. Um auch die Inhalte dieser URLs auszulesen, würden jedoch 2 Terabyte oder mehr Speicherplatz anfallen.

Das Auslesen von öffentlichen Daten aus sozialen Netzwerken lässt sich kaum verhindern. Auch der Facebook-Konkurrent VZ Netzwerke, wie Golem.de zugehörig zur Verlagsgruppe Georg von Holtzbrinck, sammelt auf SchülerVZ, StudiVZ und MeinVZ weiter Erfahrungen mit Crawlern.

Die mit Crawlern gewonnenen Profillinks haben durchaus einen Wert - sie können etwa Ziele für unerwünschte Werbung und Phishingversuche werden. Die persönlichen Daten bleiben den Bots und anderen allzu Neugierigen verborgen, sofern die Nutzer von den sinnvollen Einstellungen für mehr Privatsphäre Gebrauch machen.


Turrican 02. Aug 2010

doch. das geht. ich hab die option zuerst auch nicht gefunden. nur die option zum...

Turrican 02. Aug 2010

Nur vergisst du dabei das seit Dezember 2009 dein Name, dein Profilbild und dein...

klo 01. Aug 2010

denen ist völlig wurst ob du hans oder peter heisse für die bist du #12923731 und von dem...

Krille 31. Jul 2010

Wenn du zu deinen Servern/Netzen eigene DNS betreibst und die Pools reverse auflösen...

Verzeihung 30. Jul 2010

Eine leichte Steigerung wäre noch möglich durch die Nachricht: Jemand hat sich direkten...

Kommentieren




Anzeige
  1. Assistent E-Business (m/w)
    Hornbach-Baumarkt-AG, Großraum Mannheim/Karlsruhe
  2. User Experience Designer / Web Designer (m/w)
    Schleupen AG, Moers
  3. IT-Spezialist/in Informationssicherheit
    LEW TelNet GmbH, Augsburg
  4. SAP-Consultant / Application-Analyst HR/FI (m/w)
    Pfleiderer Service GmbH, Neumarkt, Gütersloh

 

Detailsuche


Folgen Sie uns
       


Meistgelesen
  1. Epic Games

    Unreal Engine 4 soll in diesem Jahr "die Leute schockieren"

  2. Acta-Demos

    Zehntausende gegen "bekACTA Scheiß" in München und Berlin

  3. IMHO

    Windows 8 - Microsofts Befreiungsschlag

  4. Acta

    Deutschland setzt Unterzeichnung von Acta aus

  5. Paypal-Konkurrent

    Dwolla will seine Dienste weltweit anbieten


Meistkommentiert
  1. Kommentare: 206 | letzter Beitrag 22:33 Uhr

  2. Kommentare: 123 | letzter Beitrag 17:38 Uhr

  3. Kommentare: 108 | letzter Beitrag 10.02. 15:30

  4. Kommentare: 97 | letzter Beitrag 17:29 Uhr

  5. Kommentare: 80 | letzter Beitrag 10.02. 09:24

Mehr


  1. Nach Hackerangriff

    Polizei-Webserver in Nordrhein-Westfalen seit 12 Tagen down

  2. Acta-Demos

    Zehntausende gegen "bekACTA Scheiß" in München und Berlin

  3. Nasa

    Mögliche Etatkürzungen gefährden Mars-Erforschung

  4. Golem.de guckt

    Zuckerberg und Assange

  5. Steam-Hack

    Einbrecher könnten Kreditkartendaten kopiert haben

  6. HTTPS gesperrt

    Iran weitet Internetzensur aus

  7. Paypal-Konkurrent

    Dwolla will seine Dienste weltweit anbieten

  8. Epic Games

    Unreal Engine 4 soll in diesem Jahr "die Leute schockieren"

  9. Digitale Karten

    US-Luftwaffe will Flugkarten durch Tablets ersetzen

  10. Freie Grafikbibliothek

    Mesa 8.0 unterstützt OpenGL 3.0



Haben wir etwas übersehen?

E-Mail an news@golem.de


Club-Mate: Hack fürs Hirn
Club-Mate
Hack fürs Hirn

Es sprudelt, schäumt und schmeckt - nicht jedem. Macht nichts: Club-Mate ist Kult und aus der Hackerkultur nicht mehr wegzudenken. Wie es dazu kommen konnte, erzählt das Buch Hackerbrause.

  1. Retro-Gnome Cinnamon 1.2 stabilisiert API und Desktop
  2. Linux Mint Cinnamon wird wohl Standarddesktop
  3. 28C3 Hacker hinter feindlichen Linien

Prozessorgerüchte: Haswell mit fünfmal schnellerer Grafik als Sandy Bridge?
Prozessorgerüchte
Haswell mit fünfmal schnellerer Grafik als Sandy Bridge?

Für seine nächste komplett neue CPU-Architektur Haswell plant Intel unbestätigten Angaben zufolge verschiedene Grafikkerne. Der schnellste, Codename GT3, soll fünfmal so schnell wie die HD Graphics 3000 der aktuellen Sandy-Bridge-Prozessoren arbeiten.

  1. Transactional Memory Intels Haswell kommt 2013 mit neuer Speicherverwaltung

Acta im EU-Parlament: Druck aus dem Netz und aus Berlin
Acta im EU-Parlament
Druck aus dem Netz und aus Berlin

Im Netz gibt es immer mehr Protest gegen das internationale Urheberrechtsabkommen Acta. Der Adressat: das EU-Parlament. Die EU-Abgeordneten stimmen voraussichtlich erst Mitte Juni 2012 über Acta ab.

  1. Acta Lettland setzt Ratifizierung von Handelsabkommen aus
  2. Acta Junge Union gegen Acta und Internetsperren
  3. Acta Piratenparteien rufen zu Protesten in Deutschland auf

Zum Artikel