Abo
  • Services:
Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. Tecan Software Competence Center GmbH, Mainz-Kastel
  2. CompuGroup Medical SE, Hannover
  3. TAKATA AG, Aschaffenburg
  4. Webdata Solutions GmbH, Leipzig


Anzeige
Hardware-Angebote
  1. 1.499,00€
  2. täglich neue Deals
  3. 59,90€

Folgen Sie uns
       


  1. TS-x77

    Qnaps NAS mit AMDs Ryzen-Prozessor ist verfügbar

  2. Flicks

    Facebook erfindet Zeiteinheit für Videos

  3. MacOS

    Apple patcht MacOS Sierra und El Capitan gegen Meltdown

  4. Recruiting

    IT-Experten brauchen harte Fakten

  5. Radeon Technologies Group

    AMD heuert zwei Grafikspezialisten an

  6. Samsung

    Smartphone-Kameras können bald Full-HD mit 480 fps aufnehmen

  7. E-Autos

    2019 will Volvo elektrische Lkw verkaufen

  8. Xbox Game Pass

    Auch ganz neue Konsolenspiele im Monatsabo für 10 Euro

  9. Tesla

    Elon Musk spielt mit hohem Risiko

  10. Mondwettbewerb

    Niemand gewinnt den Google Lunar X-Prize



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Sgnl im Hands on: Sieht blöd aus, funktioniert aber
Sgnl im Hands on
Sieht blöd aus, funktioniert aber
  1. NGSFF alias M.3 Adata zeigt seine erste SSD mit breiterer Platine
  2. Displaytechnik Samsung soll faltbares Smartphone auf CES gezeigt haben
  3. Vuzix Blade im Hands on Neue Datenbrille mit einem scharfen und hellen Bild

Matthias Maurer: Ein Astronaut taucht unter
Matthias Maurer
Ein Astronaut taucht unter
  1. Rocketlab Billigrakete startet erfolgreich in Neuseeland
  2. Planetologie Forscher finden große Eisvorkommen auf dem Mars
  3. SpaceX Geheimer Satellit der US-Regierung ist startklar

Zahlungsverkehr: Das Bankkonto wird offener
Zahlungsverkehr
Das Bankkonto wird offener
  1. Gerichtsurteil Internet- und Fernsehkunden müssen bei Umzug weiterzahlen
  2. Breitbandmessung Provider halten versprochene Geschwindigkeit fast nie ein
  3. EU-Verordnung Verbraucherschützer gegen Netzsperren zum Verbraucherschutz

  1. Re: Das Spiel wird er verlieren

    bernd71 | 10:41

  2. Re: Und nun?

    Kondom | 10:41

  3. Re: Ich mag Linux ja...

    Teebecher | 10:40

  4. Re: Nope

    David64Bit | 10:39

  5. Re: Firmenbesitzer bestätigt sich selbst als CEO

    Gamma Ray Burst | 10:39


  1. 10:48

  2. 09:59

  3. 09:41

  4. 09:32

  5. 09:26

  6. 09:11

  7. 08:56

  8. 08:41


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel