Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


Kommentieren



Anzeige

  1. Anwendungsentwickler mit Schwerpunkt CAD (m/w)
    ZF Friedrichshafen AG, Schweinfurt
  2. IT-Consultant Checkout Solutions (m/w)
    Media-Saturn IT Services GmbH, Ingolstadt
  3. Software-Entwickler (m/w)
    Kries-Energietechnik GmbH&Co KG, Waiblingen
  4. Applikationsingenieur (m/w) im Bereich Industrieautomation
    VITRONIC Dr.-Ing. Stein Bildverarbeitungssysteme GmbH, Wiesbaden

 

Detailsuche


Spiele-Angebote
  1. Wolfenstein: The Old Blood
    19,99€ (Release 08.05.)
  2. The Order: 1886 (uncut) Steelbook - [PlayStation 4]
    64,95€
  3. TOPSELLER: Sid Meier's Starships [PC Steam Code]
    8,74€

 

Weitere Angebote


Folgen Sie uns
       


  1. Studie

    Facebook trackt jeden

  2. Umfrage

    Notebook bleibt beliebtestes Gerät zur Internetnutzung

  3. Surface 3 im Hands on

    Das Surface ohne RT

  4. Fotodienst

    Flickr erlaubt gemeinfreie Bilder

  5. Musikstreaming

    Jay Z startet Spotify-Konkurrenten Tidal

  6. Zahlungsabwickler

    Paypal erstattet Rücksendekosten

  7. Daniel Stenberg

    HTTP/2 verbreitet sich schnell

  8. Asus ROG GR8 im Test

    Andere können's besser

  9. Nationales Roaming

    Telefónica legt heute 3G-Netze von O2 und E-Plus zusammen

  10. Tracking

    Klage gegen Googles Safari-Cookies hat Erfolg



Haben wir etwas übersehen?

E-Mail an news@golem.de



Banana Pi M2 angesehen: Noch kein Raspberry-Pi-Killer
Banana Pi M2 angesehen
Noch kein Raspberry-Pi-Killer
  1. Die Woche im Video Galaxy S6 gegen One (M9), selbstbremsende Autos und Bastelei
  2. MIPS Creator CI20 angetestet Die Platine zum Pausemachen
  3. Raspberry Pi 2 ausprobiert Schnell rechnen, langsam speichern

HTC One (M9) im Test: Endlich eine gute Kamera
HTC One (M9) im Test
Endlich eine gute Kamera
  1. Lollipop Erstes HTC-One-Smartphone erhält kein Android 5.1

Mini-Business-Rechner im Test: Erweiterbar, sparsam und trotzdem schön klein
Mini-Business-Rechner im Test
Erweiterbar, sparsam und trotzdem schön klein
  1. Shuttle DS57U Passiver Mini-PC mit Broadwell und zwei seriellen Com-Ports
  2. Broadwell-Mini-PC Gigabytes Brix ist noch kompakter als Intels NUC
  3. Mouse Box Ein Mini-PC in der Maus

  1. Re: Nein doch oh!

    Wimmmmmmmmy | 17:29

  2. Das Problem mobiler Websites

    ibsi | 17:29

  3. Re: Verdi packts nicht....

    RapidStrikeCS-18 | 17:28

  4. Re: Das wird so nichts

    synoon | 17:26

  5. Re: Taugt nichts ohne SteamOS

    pythoneer | 17:24


  1. 17:22

  2. 16:32

  3. 15:00

  4. 13:54

  5. 13:45

  6. 13:05

  7. 12:57

  8. 12:01


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel