Abo
  • Services:
Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. FILIADATA - Dienstleister der dm-drogerie markt-Gruppe, Karlsruhe
  2. SCHOTT AG, Mainz
  3. ADWEKO Consulting GmbH, deutschlandweit
  4. Daimler AG, Böblingen


Anzeige
Blu-ray-Angebote
  1. (u. a. Reign, Person of Interest, Gossip Girl, The Clone Wars)
  2. 29,99€ (Vorbesteller-Preisgarantie)

Folgen Sie uns
       


  1. Google

    Android 8.0 heißt Oreo

  2. KI

    Musk und andere fordern Verbot von autonomen Kampfrobotern

  3. Playerunknown's Battlegrounds

    Bluehole über Camper, das Wetter und die schussfeste Pfanne

  4. Vega 64 Strix ausprobiert

    Asus' Radeon macht fast alles besser

  5. Online-Tracking

    Händler können Bitcoin-Anonymität zerstören

  6. ANS-Coding

    Google will Patent auf freies Kodierverfahren

  7. Apple

    Aufregung um iPhone-Passcode-Entsperrbox

  8. Coffee Lake

    Intels 6C-Prozessoren erfordern neue Boards

  9. Square Enix

    Nvidia möbelt Final Fantasy 15 für Windows-PC auf

  10. Spionage

    FBI legt US-Unternehmen Kaspersky-Verzicht nahe



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Nach Anschlag in Charlottesville: Nazis raus - aber nur aus PR-Gründen
Nach Anschlag in Charlottesville
Nazis raus - aber nur aus PR-Gründen
  1. Bundesinnenministerium Neues Online-Bürgerportal kostet 500 Millionen Euro
  2. EU-Transparenz EuGH bekräftigt nachträglichen Zugang zu Gerichtsakten
  3. Rücknahmepflicht Elektronikschrott wird kaum zurückgegeben

Radeon RX Vega 64 im Test: Schnell und durstig mit Potenzial
Radeon RX Vega 64 im Test
Schnell und durstig mit Potenzial
  1. Radeon RX Vega Mining-Treiber steigert MH/s deutlich
  2. Radeon RX Vega 56 im Test AMD positioniert sich in der Mitte
  3. Workstation AMD bringt Radeon Pro WX 9100

Threadripper 1950X und 1920X im Test: AMD hat die schnellste Desktop-CPU
Threadripper 1950X und 1920X im Test
AMD hat die schnellste Desktop-CPU
  1. Ryzen AMD bestätigt Compiler-Fehler unter Linux
  2. CPU Achtkerniger Threadripper erscheint Ende August
  3. Ryzen 3 1300X und 1200 im Test Harte Gegner für Intels Core i3

  1. Re: kann autonome Kampfsysteme auch nicht gutheißen

    picaschaf | 05:01

  2. Anonym und Internet gibt es nicht..

    mcmrc1 | 04:32

  3. Die wollen doch keine schnelleren Updates...

    mcmrc1 | 03:16

  4. Re: Bauernfängerei

    Aslo | 02:54

  5. Re: die liste geht nur bis S

    amagol | 02:53


  1. 20:53

  2. 18:40

  3. 18:25

  4. 17:52

  5. 17:30

  6. 15:33

  7. 15:07

  8. 14:52


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel