Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


Kommentieren



Anzeige

  1. Systemingenieur (m/w) Militärische Kommunikationssysteme
    MBDA Deutschland, Schrobenhausen
  2. Mitarbeiter/in Systemadministration und Anwendersupport
    Queisser Pharma GmbH & Co. KG, Flensburg
  3. Experiment Control Scientist / Engineer (m/w)
    European X-Ray Free-Electron Laser Facility GmbH, Hamburg
  4. Softwareentwickler (m/w) Instrumentensteuerung für hochauflösende Massenspektrometer
    Thermo Fisher Scientific (Bremen) GmbH, Bremen

Detailsuche


Hardware-Angebote
  1. Sandisk 16-GB-USB-3.0-Stick
    8,99€
  2. Sapphire Radeon R9 Fury Tri-X
    ab 546,75€
  3. TIPP: Alternate Schnäppchen Outlet
    (täglich neue Deals)

Weitere Angebote


Folgen Sie uns
       


  1. Firmenchef

    Voice over LTE bei der Telekom "kommt später"

  2. Magnetfeld

    Die Smartwatch sendet Daten durch den Körper

  3. Film-Codecs

    Amazon gibt 500 Millionen Dollar für Startup aus

  4. Direkt zur CIA

    BND soll deutsche Telefonate in die USA geroutet haben

  5. RT-AC5300

    Asus' Igel- Router soll der weltweit schnellste sein

  6. Streaming

    Netflix beginnt Anfang 2016 mit HDR

  7. Datenschutz

    Spotify bessert nach - ein bisschen

  8. Kopenhagen

    Elektro-Carsharing mit der Busfahrkarte

  9. The Witcher 3

    Romantik-Optimierung per Patch

  10. RSA-CRT

    RSA-Angriff aus dem Jahr 1996 wiederentdeckt



Haben wir etwas übersehen?

E-Mail an news@golem.de



Mad Max im Test: Sandbox voll mit schönem Schrott
Mad Max im Test
Sandbox voll mit schönem Schrott

Smart-TV-Betriebssysteme im Test: Wenn sich Streaming wie Fernsehen anfühlt
Smart-TV-Betriebssysteme im Test
Wenn sich Streaming wie Fernsehen anfühlt
  1. Not so smart Aktuelle Fernseher im Sicherheitscheck
  2. Update für Smart-TVs Neue Netflix-App streamt immer sofort
  3. Medienaufsicht Kabel Deutschland begrüßt Recht auf HbbTV-Ausfilterung

In eigener Sache: Golem pur jetzt auch im Gruppenabo
In eigener Sache
Golem pur jetzt auch im Gruppenabo
  1. In eigener Sache Golem.de-Artikel mit Whatsapp-Kontakten teilen
  2. In eigener Sache Preisvergleich bei Golem.de
  3. In eigener Sache News von Golem.de bei Xing lesen

  1. Re: MacBook? Wohl eher von Asus kopiert

    Tzven | 03:09

  2. Re: Dann ist das Drosselargument ja bald hinfällig

    Onbak | 02:50

  3. Re: "offline braucht zu viel Speicher und zu viel...

    DASPRiD | 02:41

  4. Re: Und wann fangen sie mit "ruckelfrei" an?

    Tzven | 01:52

  5. Batterieschonend...

    kazhar | 01:24


  1. 19:42

  2. 18:31

  3. 18:05

  4. 17:38

  5. 17:34

  6. 16:54

  7. 15:15

  8. 14:44


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel