Abo
  • Services:
Anzeige

Facebook-Crawler

Einfach als Google ausgeben

Die öffentlichen Nutzerdaten von Facebook sollen sich nicht nur über das Nutzerverzeichnis, sondern auch über die Sitemap gut auslesen lassen. Grund ist ein Versäumnis von Facebook.

Günter Grodotzki hatte bereits im April 2010 herausgefunden, wie sich der öffentliche Teil von Facebook-Profilen massenhaft auslesen lässt. Anders als der Crawler von Ron Bowes, dessen Blog derzeit unerreichbar ist, liest der Crawler von Grodotzki nicht das Facebook-Verzeichnis, sondern die Sitemap des sozialen Netzwerks aus. Das sei "viel einfacher", sagte Grodotzki Golem.de, obwohl auch damit nur so viele Daten auslesbar seien, wie es der Facebook-Nutzer zulasse.

Anzeige

Eine Sitemap ist eine XML-Datei mit allen URLs der Webseite, die von Suchmaschinen wie Google gecrawlt und indexiert werden sollen. Auf sie kann eigentlich nur von berechtigten Hostnamen zugegriffen werden. Darunter laut Grodotzki auch diejenigen, die sich als Googlebot ausweisen. Diesen Hostnamen fälschte Grodotzki und machte sich zunutze, dass Facebook sich nicht mittels Cross-Checking absichert. Letztlich sind dann alle die Daten auslesbar, die regulär von Google gesehen werden.

Schneller Auslesen

Durch das Auslesen der Sitemap ist umfangreiches Crawling ohne Captcha-Hürden möglich. Und das "mit einem viel höheren Datendurchsatz, da man es auch ausgeloggt durchführen kann und es wegen des gefälschten Hostnamens nicht auffällt", so Grodotzki.

Ausprobiert hat er das bereits, indem er laut eigenen Aussagen etwa 10 GByte an reinen XML-Dateien ausgelesen hat. Diese enthielten Links zu den Nutzerprofilen, Profilbildern, Gruppen, Pages und Kontakten. Um auch die Inhalte dieser URLs auszulesen, würden jedoch 2 Terabyte oder mehr Speicherplatz anfallen.

Das Auslesen von öffentlichen Daten aus sozialen Netzwerken lässt sich kaum verhindern. Auch der Facebook-Konkurrent VZ Netzwerke, wie Golem.de zugehörig zur Verlagsgruppe Georg von Holtzbrinck, sammelt auf SchülerVZ, StudiVZ und MeinVZ weiter Erfahrungen mit Crawlern.

Die mit Crawlern gewonnenen Profillinks haben durchaus einen Wert - sie können etwa Ziele für unerwünschte Werbung und Phishingversuche werden. Die persönlichen Daten bleiben den Bots und anderen allzu Neugierigen verborgen, sofern die Nutzer von den sinnvollen Einstellungen für mehr Privatsphäre Gebrauch machen.


eye home zur Startseite
Turrican 02. Aug 2010

doch. das geht. ich hab die option zuerst auch nicht gefunden. nur die option zum...

Turrican 02. Aug 2010

Nur vergisst du dabei das seit Dezember 2009 dein Name, dein Profilbild und dein...

klo 01. Aug 2010

denen ist völlig wurst ob du hans oder peter heisse für die bist du #12923731 und von dem...

Krille 31. Jul 2010

Wenn du zu deinen Servern/Netzen eigene DNS betreibst und die Pools reverse auflösen...

Verzeihung 30. Jul 2010

Eine leichte Steigerung wäre noch möglich durch die Nachricht: Jemand hat sich direkten...



Anzeige

Stellenmarkt
  1. Alfred Kärcher GmbH & Co. KG, Winnenden bei Stuttgart
  2. Daimler AG, Stuttgart
  3. Robert Bosch GmbH über access KellyOCG GmbH, Leonberg
  4. MBtech Group GmbH & Co. KGaA, Sindelfingen, Stuttgart, Böblingen


Anzeige
Top-Angebote
  1. (nur in den Bereichen "Mainboards", "Smartphones" und "TV-Geräte")
  2. 29,99€
  3. 18,00€ (ohne Prime bzw. unter 29€-Einkauf zzgl. 3€ Versand)

Folgen Sie uns
       

Anzeige
Whitepaper
  1. Sicherheitsrisiken bei der Dateifreigabe & -Synchronisation
  2. Praxiseinsatz, Nutzen und Grenzen von Hadoop und Data Lakes
  3. Mit digitalen Workflows Geschäftsprozesse agiler machen


  1. taz

    Strafbefehl in der Keylogger-Affäre

  2. Respawn Entertainment

    Live Fire soll in Titanfall 2 zünden

  3. Bootcode

    Freie Firmware für Raspberry Pi startet Linux-Kernel

  4. Brandgefahr

    Akku mit eingebautem Feuerlöscher

  5. Javascript und Node.js

    NPM ist weltweit größtes Paketarchiv

  6. Verdacht der Bestechung

    Staatsanwalt beantragt Haftbefehl gegen Samsung-Chef

  7. Nintendo Switch im Hands on

    Die Rückkehr der Fuchtel-Ritter

  8. Raspberry Pi

    Compute Module 3 ist verfügbar

  9. Microsoft

    Hyper-V bekommt Schnellassistenten und Speicherfragmente

  10. Airbus-Chef

    Fliegen ohne Piloten rückt näher



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Intel Core i7-7700K im Test: Kaby Lake = Skylake + HEVC + Overclocking
Intel Core i7-7700K im Test
Kaby Lake = Skylake + HEVC + Overclocking
  1. Kaby Lake Intel macht den Pentium dank HT fast zum Core i3
  2. Kaby Lake Refresh Intel plant weitere 14-nm-CPU-Generation
  3. Intel Kaby Lake Vor der Vorstellung schon im Handel

GPD Win im Test: Crysis in der Hosentasche
GPD Win im Test
Crysis in der Hosentasche
  1. Essential Android-Erfinder Rubin will neues Smartphone entwickeln
  2. Google Maps Google integriert Uber in Karten-App
  3. Tastaturhülle Canopy hält Magic Keyboard und iPad zum Arbeiten zusammen

Wonder Workshop Dash im Test: Ein Roboter riskiert eine kesse Lippe
Wonder Workshop Dash im Test
Ein Roboter riskiert eine kesse Lippe
  1. Supermarkt-Automatisierung Einkaufskorb rechnet ab und packt ein
  2. Robot Operating System Was Bratwurst-Bot und autonome Autos gemeinsam haben
  3. Roboterarm Dobot M1 - der Industrieroboter für daheim

  1. Re: Selbst Landungen

    Moe479 | 22:38

  2. Re: Die Telekom krempelt ihr Netz komplett um

    Faksimile | 22:38

  3. Re: Wann kommt eigentlich endlich mal ein PI mit...

    Andre_af | 22:30

  4. Re: 9 von 10 jammern nur

    Heishiken | 22:26

  5. Re: NPM zeigt auf, wie schlecht die StdLib von JS...

    Pete Sabacker | 22:25


  1. 18:02

  2. 17:38

  3. 17:13

  4. 14:17

  5. 13:21

  6. 12:30

  7. 12:08

  8. 12:01


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel