Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


Kommentieren



Anzeige

  1. Anwendungsbetreuer (m/w) SAP HCM
    Stadtwerke München GmbH, München
  2. Senior Software-Entwickler/in Java
    Bosch Energy and Building Solutions GmbH, Ismaning
  3. Softwareentwickler (m/w)
    BayWa r.e. Solarsysteme GmbH, Tübingen
  4. Principal Business Analyst (m/w) Projektmanager für strategische IT-Projekte
    Vector Informatik GmbH, Stuttgart

 

Detailsuche


Hardware-Angebote
  1. TIPP: Amazon Fire TV
    84,00€
  2. Dell 24-Zoll-Ultra-HD-Monitor
    529,90€
  3. Angebote der Woche bei Notebooksbilliger
    (u. a. Samsung Galaxy Tab 4 für 239,90€, Bosch IXO IV für 39,90€)

 

Weitere Angebote


Folgen Sie uns
       


  1. General vor dem NSA-Ausschuss

    Der Feuerwehrmann des BND

  2. Outcast 1.1

    Technisch überarbeiteter Klassiker bei Steam und GOG

  3. Microsoft

    Webbrowserauswahl in Windows ist abgeschafft

  4. Streaming

    Netflix schließt Offline-Videos kategorisch aus

  5. KDE Applications 14.12

    Erste Frameworks-5-Ports der KDE-Anwendungen erschienen

  6. Spearfishing

    Icann meldet Einbruch in seine Server

  7. Amiibos

    Zubehör für Super Smash Bros wird rar und teuer

  8. x86-64-Architektur

    Fehler im Linux-Kernel kann für Abstürze ausgenutzt werden

  9. Manhattan

    Amazon liefert per Radkurier in einer Stunde aus

  10. Entwicklerpreis Summit 2014

    Wiederspielbarkeit Reloaded



Haben wir etwas übersehen?

E-Mail an news@golem.de



Security: Smarthomes, offen wie Scheunentore
Security
Smarthomes, offen wie Scheunentore
  1. Software-Plattform Bosch und Cisco gründen Joint Venture für Smart Home
  2. Pantelligent Die funkende Bratpfanne
  3. Smarthome Das intelligente Haus wird nie fertig

Jahresrückblick: Was 2014 bei Golem.de los war
Jahresrückblick
Was 2014 bei Golem.de los war
  1. In eigener Sache Golem.de sucht (Junior) Concepter/-in für Onlinewerbung
  2. In eigener Sache Golem.de offline und unplugged
  3. In eigener Sache Golem.de sucht Videoredakteur/-in

E-Mail-Ausfall in München: Und wieder wars nicht Limux
E-Mail-Ausfall in München
Und wieder wars nicht Limux
  1. Öffentliche Verwaltung Massiver E-Mail-Ausfall bei der Stadt München
  2. Limux Kopf einziehen und über Verschwörung tuscheln
  3. Limux Windows-Rückkehr würde München Millionen kosten

    •  / 
    Zum Artikel