Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


Kommentieren



Anzeige

  1. Data Scientist (m/w)
    Stadtwerke München GmbH, München
  2. SAP Consultant HCM Personalmanagement (m/w)
    Media-Saturn IT Services GmbH, Ingolstadt
  3. Quality Engineer (m/w) Mobile Logistikanwendungen
    PTV Group, Karlsruhe
  4. Junior Softwareentwickler (m/w)
    SARSTEDT AG & Co., Nümbrecht

Detailsuche


Blu-ray-Angebote
  1. Erste Folge beliebter Serien gratis anschauen
    (u. a. Gotham, Arrow, Girls, Boardwalk Empire, Chicago Fire)
  2. Blu-rays je 9,97 EUR
    (u. a. Avatar, Blade Runner, Ziemlich beste Freunde, Corpse Bride)
  3. San Andreas [3D Blu-ray]
    12,90€

Weitere Angebote


Folgen Sie uns
       


  1. Flash-Player mit Malware

    Mac-Nutzer werden hereingelegt

  2. The Binding of Isaac

    Apple lehnt Indiegame wegen Gewaltinhalten ab

  3. Sicherheitsupdate

    Java fixt sein Installationsprogramm

  4. Gesunkene Produktionskosten

    Oneplus Two kostet dauerhaft über 50 Euro weniger

  5. Netzneutralität

    Indien verbietet Facebooks kostenlosen Internetservice

  6. Fernsehserien

    Netflix hält nichts von wöchentlicher Ausstrahlung

  7. Agatha Christie im Test

    Hercule Poirot auf den Spuren von Sherlock Holmes

  8. Netgear-Router-Software

    Schwachstelle ermöglicht Dateiupload und Download

  9. Sprachanrufe

    Google führt Peer-to-Peer-Verbindungen bei Hangouts ein

  10. Galaxy View im Test

    Samsungs Riesentablet scheitert als Fernseher-Alternative



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Time Machine VR angespielt: Wir tauchen mit den Monstern der Tiefe
Time Machine VR angespielt
Wir tauchen mit den Monstern der Tiefe
  1. Unreal Engine4 Epic baut virtuelle Welt in virtueller Welt
  2. Unmandelboxing Markus Persson fliegt durch VR-Fraktaltunnel
  3. Spectrevision Elijah Wood macht Horror-VR mit Ubisoft

Tails 2.0 angeschaut: Die Linux-Distribution zum sicheren Surfen neu aufgelegt
Tails 2.0 angeschaut
Die Linux-Distribution zum sicheren Surfen neu aufgelegt

Asteroidenbergbau: Verblendet vom Platinrausch
Asteroidenbergbau
Verblendet vom Platinrausch
  1. Escape Dynamics Firma für mikrowellenbetriebene Raumschiffe ist bankrott
  2. Raumfahrt SpaceX und Orbital bauen Triebwerke für das US-Militär
  3. Dream Chaser Mini-Shuttle darf zur ISS fliegen

  1. Re: Wachstum... immer nur Wachstum

    Poison Nuke | 02:23

  2. Re: Peinlich

    Clarissa1986 | 01:59

  3. AUJA! Super Idee! :D

    Clarissa1986 | 01:56

  4. Re: Flash braucht man nicht

    No name089 | 01:56

  5. Re: Geschlossene Plattform

    Clarissa1986 | 01:55


  1. 17:53

  2. 16:39

  3. 16:15

  4. 15:33

  5. 15:27

  6. 14:41

  7. 14:00

  8. 12:35


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel