Abo
  • Services:
Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. Magazino GmbH, München oder Home-Office
  2. über JobLeads GmbH, Villingen-Schwenningen
  3. über JobLeads GmbH, München
  4. Bite AG, Filderstadt


Anzeige
Top-Angebote
  1. 144,44€
  2. 2,99€ (ohne Prime bzw. unter 29€ Einkauf zzgl. 3€ Versand)

Folgen Sie uns
       


  1. Blackberry Key One

    Android-Smartphone mit Hardware-Tastatur kostet viel

  2. Arrow Launcher 3.0

    Microsofts Android-Launcher braucht weniger Energie und RAM

  3. Die Woche im Video

    Angeswitcht, angegriffen, abgeturnt

  4. Hardlight VR Suit

    Vibrations-Weste soll VR-Erlebnis realistischer machen

  5. Autonomes Fahren

    Der Truck lernt beim Fahren

  6. Selektorenaffäre

    BND soll ausländische Journalisten ausspioniert haben

  7. Kursanstieg

    Bitcoin auf neuem Rekordhoch

  8. Google-Steuer

    Widerstand gegen Leistungsschutzrecht auf EU-Ebene

  9. Linux-Kernel

    Torvalds droht mit Nicht-Aufnahme von Treibercode

  10. Airbus A320

    In Flugzeugen wird der Platz selbst für kleine Laptops knapp



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Intel C2000: Weiter Unklarheit zur Häufung von NAS-Ausfällen
Intel C2000
Weiter Unklarheit zur Häufung von NAS-Ausfällen
  1. Super Bowl Lady Gaga singt unter einer Flagge aus Drohnen
  2. Lake Crest Intels Terminator-Chip mit Terabyte-Bandbreite
  3. Compute Card Intel plant Rechnermodul mit USB Type C

XPS 13 (9360) im Test: Wieder ein tolles Ultrabook von Dell
XPS 13 (9360) im Test
Wieder ein tolles Ultrabook von Dell
  1. Die Woche im Video Die Selbstzerstörungssequenz ist aktiviert
  2. XPS 13 Convertible im Hands on Dells 2-in-1 ist kompakter und kaum langsamer

Mechanische Tastatur Poker 3 im Test: "Kauf dir endlich Dämpfungsringe!"
Mechanische Tastatur Poker 3 im Test
"Kauf dir endlich Dämpfungsringe!"
  1. Patentantrag Apple denkt über Tastatur mit Siri-, Emoji- und Teilen-Taste nach
  2. MX Board Silent im Praxistest Der viel zu teure Feldversuch von Cherry
  3. Kanex Faltbare Bluetooth-Tastatur für mehrere Geräte gleichzeitig

  1. Re: sehr clever ... MS

    FreiGeistler | 01:33

  2. Re: Erklärung für einen Kryptodepp

    freebyte | 01:28

  3. Ich habe es natürlich verkackt.

    __destruct() | 01:28

  4. Re: First World Problems

    picaschaf | 01:21

  5. Re: Anscheinend gibt es keine gesetzlichen Vorgaben.

    picaschaf | 01:17


  1. 20:21

  2. 11:57

  3. 09:02

  4. 18:02

  5. 17:43

  6. 16:49

  7. 16:21

  8. 16:02


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel