Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


Kommentieren



Anzeige

  1. Leiter Delivery IT Services (m/w)
    über HRM CONSULTING GmbH, München, Frankfurt/Main, Hamburg oder Berlin
  2. Teamleiter Softwareentwicklung (m/w)
    über HRM CONSULTING GmbH, Mainz/Wiesbaden
  3. Senior ERP Projekt Manager (m/w)
    HSO Enterprise Solutions GmbH, verschiedene Standorte
  4. Softwareentwickler (m/w) als Projektleiter
    Vector Informatik GmbH, Stuttgart

 

Detailsuche


Folgen Sie uns
       


  1. Quartalsbericht

    Facebook mit hohem Gewinn und starkem Nutzerwachstum

  2. Ofcom

    Briten schalten den Pornofilter ab

  3. Erstmal keine Integration

    iOS 8 und OS X Yosemite sollen nicht parallel erscheinen

  4. Privacy

    Unsichtbares Tracking mit Bildern statt Cookies

  5. Oberster Gerichtshof

    Österreichs Provider gegen Internetsperren zu Kino.to

  6. Eigene Cloud

    Owncloud 7 mit Server-to-Server-Sharing

  7. Electronic Arts

    Battlefield Hardline auf Anfang 2015 verschoben

  8. Schlafmonitor

    Besser schlafen mit Sense

  9. Videostreaming

    Youtube-Problem war ein Bug bei Google

  10. Prozessor inklusive Speicher

    Kommende APUs mit Stacked Memory und mehr Bandbreite



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Luftfahrt: Die Rückkehr der Überschallflieger
Luftfahrt
Die Rückkehr der Überschallflieger
  1. Verkehr FBI sorgt sich um autonome Autos als "tödliche Waffen"
  2. Steampunk High Tech trifft auf Dampfmaschine
  3. Aerovelo Eta Kanadier wollen mit 134-km/h-Fahrrad Weltrekord aufstellen

Destiny angespielt: Schöne Grüße vom Master Chief
Destiny angespielt
Schöne Grüße vom Master Chief
  1. Bungie Drei Betakeys für Destiny
  2. Activison Destiny ungeschnitten "ab 16" und mit US-Tonspur
  3. Bungie Destiny läuft auch auf der Xbox One in 1080p mit 30 fps

Let's Player: "Es gibt Spiele, für die man bezahlt wird"
Let's Player
"Es gibt Spiele, für die man bezahlt wird"
  1. Transocean Handelssimulation mit Ozeanriesen
  2. Dieselstörmers angespielt Diablo plus Diesel
  3. Quo Vadis Computec Media übernimmt Mehrheit an Aruba Events

    •  / 
    Zum Artikel