Abo
  • Services:
Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. ESG Elektroniksystem- und Logistik-GmbH, Wilhelmshaven
  2. Robert Bosch GmbH, Abstatt
  3. Läpple Dienstleistungsgesellschaft mbH, Haßmersheim
  4. Geocom Informatik GmbH, deutschlandweit


Anzeige
Hardware-Angebote
  1. 17,99€ statt 29,99€
  2. 59,90€
  3. 900$/815,11€ mit Gutscheincode: CIVILTOP

Folgen Sie uns
       


  1. Whistleblowerin

    Obama begnadigt Chelsea Manning

  2. Stadtnetz

    Straßenbeleuchtung als Wifi-Standort problematisch

  3. Netzsperren

    UK-Regierung könnte Pornozensur willkürlich beschließen

  4. Kartendienst

    Google Maps soll künftig Parksituation anzeigen

  5. PowerVR Series 8XE Plus

    Imgtechs Smartphone-GPUs erhalten ein Leistungsplus

  6. Projekt Quantum

    GPU-Prozess kann Firefox schneller und sicherer machen

  7. TV-Kabelnetz

    Tele Columbus will höhere Datenrate und mobile Conversion

  8. Fingerprinting

    Nutzer lassen sich über Browser hinweg tracken

  9. Raumfahrt

    Chinas erster Raumfrachter Tianzhou 1 ist fertig

  10. Bezahlinhalte

    Bild fordert Obergrenze für Focus Online



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Reverse Engineering: Mehr Spaß mit Amazons Dash-Button
Reverse Engineering
Mehr Spaß mit Amazons Dash-Button

Glasfaser: Nun hängt die Kabel doch endlich auf!
Glasfaser
Nun hängt die Kabel doch endlich auf!
  1. Fake News Für Facebook wird es hässlich
  2. Nach Angriff auf Telekom Mit dem Strafrecht Router ins Terrorcamp schicken oder so
  3. Soziales Netzwerk Facebook wird auch Instagram kaputt machen

Western Digital Pidrive im Test: Festplatte am Raspberry Pi leicht gemacht
Western Digital Pidrive im Test
Festplatte am Raspberry Pi leicht gemacht
  1. Sopine A64 Weiterer Bastelrechner im Speicherriegel-Format erscheint
  2. Raspberry Pi Compute Module 3 ist verfügbar
  3. Audio Injector Octo Raspberry Pi spielt Surround-Sound

  1. Re: Snowden-Begründung kompletter Mumpitz.

    Eik | 04:52

  2. Re: Der Typ ist größenwahnsinnig

    deadeye | 04:42

  3. Re: "Wir bauen mehr Glasfaser als jeder andere...

    bombinho | 04:31

  4. Re: Ist dies die Situation in der gesamtem EX...

    Golressy | 04:26

  5. Re: Dann baut man halt Schalter in die Laternen ein

    Golressy | 04:21


  1. 22:50

  2. 19:05

  3. 17:57

  4. 17:33

  5. 17:00

  6. 16:57

  7. 16:49

  8. 16:48


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel