Facebook-Crawler

Einfach als Google ausgeben

Die öffentlichen Nutzerdaten von Facebook sollen sich nicht nur über das Nutzerverzeichnis, sondern auch über die Sitemap gut auslesen lassen. Grund ist ein Versäumnis von Facebook.

Artikel veröffentlicht am ,

Günter Grodotzki hatte bereits im April 2010 herausgefunden, wie sich der öffentliche Teil von Facebook-Profilen massenhaft auslesen lässt. Anders als der Crawler von Ron Bowes, dessen Blog derzeit unerreichbar ist, liest der Crawler von Grodotzki nicht das Facebook-Verzeichnis, sondern die Sitemap des sozialen Netzwerks aus. Das sei "viel einfacher", sagte Grodotzki Golem.de, obwohl auch damit nur so viele Daten auslesbar seien, wie es der Facebook-Nutzer zulasse.

Stellenmarkt
  1. Junior SAP Basis Engineer (m/w/x)
    über duerenhoff GmbH, München
  2. Linux- oder IT-Systemadministrator (m/w/d) zur Weiterentwicklung zum DevOps Engineer (m/w/d)
    Friedrich PICARD GmbH & Co. KG, Bochum
Detailsuche

Eine Sitemap ist eine XML-Datei mit allen URLs der Webseite, die von Suchmaschinen wie Google gecrawlt und indexiert werden sollen. Auf sie kann eigentlich nur von berechtigten Hostnamen zugegriffen werden. Darunter laut Grodotzki auch diejenigen, die sich als Googlebot ausweisen. Diesen Hostnamen fälschte Grodotzki und machte sich zunutze, dass Facebook sich nicht mittels Cross-Checking absichert. Letztlich sind dann alle die Daten auslesbar, die regulär von Google gesehen werden.

Schneller Auslesen

Durch das Auslesen der Sitemap ist umfangreiches Crawling ohne Captcha-Hürden möglich. Und das "mit einem viel höheren Datendurchsatz, da man es auch ausgeloggt durchführen kann und es wegen des gefälschten Hostnamens nicht auffällt", so Grodotzki.

Ausprobiert hat er das bereits, indem er laut eigenen Aussagen etwa 10 GByte an reinen XML-Dateien ausgelesen hat. Diese enthielten Links zu den Nutzerprofilen, Profilbildern, Gruppen, Pages und Kontakten. Um auch die Inhalte dieser URLs auszulesen, würden jedoch 2 Terabyte oder mehr Speicherplatz anfallen.

Golem Karrierewelt
  1. Entwicklung mit Unity auf der Microsoft HoloLens 2 Plattform: virtueller Zwei-Tage-Workshop
    10./11.10.2022, Virtuell
  2. DP-203 Data Engineering on Microsoft Azure virtueller Vier-Tage-Workshop
    12.-15.09.2022, virtuell
Weitere IT-Trainings

Das Auslesen von öffentlichen Daten aus sozialen Netzwerken lässt sich kaum verhindern. Auch der Facebook-Konkurrent VZ Netzwerke, wie Golem.de zugehörig zur Verlagsgruppe Georg von Holtzbrinck, sammelt auf SchülerVZ, StudiVZ und MeinVZ weiter Erfahrungen mit Crawlern.

Die mit Crawlern gewonnenen Profillinks haben durchaus einen Wert - sie können etwa Ziele für unerwünschte Werbung und Phishingversuche werden. Die persönlichen Daten bleiben den Bots und anderen allzu Neugierigen verborgen, sofern die Nutzer von den sinnvollen Einstellungen für mehr Privatsphäre Gebrauch machen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Turrican 02. Aug 2010

doch. das geht. ich hab die option zuerst auch nicht gefunden. nur die option zum...

Turrican 02. Aug 2010

Nur vergisst du dabei das seit Dezember 2009 dein Name, dein Profilbild und dein...

klo 01. Aug 2010

denen ist völlig wurst ob du hans oder peter heisse für die bist du #12923731 und von dem...

Krille 31. Jul 2010

Wenn du zu deinen Servern/Netzen eigene DNS betreibst und die Pools reverse auflösen...



Aktuell auf der Startseite von Golem.de
Autonomes Fahren
Fahrerlose Taxis treffen sich und blockieren eine Kreuzung

Fahrerlose Autos haben manchmal ihren eigenen Willen und können einen Stau verursachen.

Autonomes Fahren: Fahrerlose Taxis treffen sich und blockieren eine Kreuzung
Artikel
  1. Action: EA plant Battlefield-7-Kampagne - und provoziert Solospieler
    Action
    EA plant Battlefield-7-Kampagne - und provoziert Solospieler

    Mit einem Tweet bringt EA die Fans von Solokampagnen gegen sich auf - und sucht gleichzeitig einen Designer für das nächste Battlefield.

  2. Datenleck: E-Mail-Adressen beim NFT-Marktplatz Opensea geklaut
    Datenleck
    E-Mail-Adressen beim NFT-Marktplatz Opensea geklaut

    Opensea meldet ein Datenleck mit mehr als 1,8 Millionen E-Mail-Adressen von NFT-Käufern und warnt vor Phishing.

  3. Rockstar Games: Viele Details zu GTA 6 geleakt - oder gefälscht
    Rockstar Games
    Viele Details zu GTA 6 geleakt - oder gefälscht

    Ein gangbasierter Onlinemodus, drei spielbare Charaktere in der Kampagne: Ein möglicher Leak zu GTA 6 sorgt für Diskussionen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Gigabyte RX 6800 679€ • Samsung SSD 2TB (PS5-komp.) 249,90€ • MindStar (Zotac RTX 3090 1.399€) • Nanoleaf günstiger • Alternate (TeamGroup DDR4-3600 16GB 49,99€, Be Quiet Silent Tower 159,90€) • iPhone SE (2022) günstig wie nie: 476,99€ • Switch OLED günstig wie nie: 333€ [Werbung]
    •  /