Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite

Kommentieren



Anzeige

  1. Entwicklungsingenieur (m/w) FPGA
    FERCHAU Engineering GmbH, Bremen
  2. Head of Software Development / Leiter Softwareentwicklung (m/w)
    Hella Gutmann Solutions GmbH, Ihringen
  3. Software-Entwickler Java/C++ (m/w)
    IVU Traffic Technologies AG, Berlin, Aachen
  4. IT-Sicherheitsexpertin/IT-Si- cherheitsexperte im IT-Sicherheitslabor für die industrielle Produktion
    Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB, Karlsruhe (Home-Office möglich)

Detailsuche



Anzeige
Top-Angebote
  1. XCOM 2 - [PC]
    24,99€
  2. TIPP: Sandisk Extreme 500 Portable 120-GB-SSD, USB 3.0
    49,99€ inkl. Versand (Vergleichspreis ab 55€)
  3. NEU: PlayStation 4 - Konsole (1TB) + Uncharted 4: A Thief's End
    369,00€

Weitere Angebote


Folgen Sie uns
       


  1. USA

    Furcht vor Popcorn Time auf Set-Top-Boxen

  2. Unplugged

    Youtube will Fernsehprogramm anbieten

  3. Festnetz

    Telekom-Chef verspricht 500 MBit/s im Kupfernetz

  4. Uncharted 4 im Test

    Meisterdieb in Meisterwerk

  5. Konkurrenz für Bandtechnik

    EMC will Festplatten abschalten

  6. Mobilfunk

    Telekom will bei eSIM keinen Netzwechsel zulassen

  7. Gründung von Algorithm Watch

    Achtgeben auf Algorithmen

  8. Mobilfunk

    Störung zwischen E-Plus-Netz und Telekom

  9. Bug-Bounty-Programm

    Facebooks jüngster Hacker

  10. Taxidienst

    Mytaxi-Bestellungen jetzt per Whatsapp möglich



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Snapchat: Wir kommen in Frieden
Snapchat
Wir kommen in Frieden
  1. O2-Mobilfunknetz Snapchat-Nutzer in Deutschland sind Schüler
  2. Snapchat-Update Fließender Wechsel zwischen Text, Video und Audio
  3. Messaging Snapchat kauft Bitstrips für über 100 Millionen US-Dollar

Gardena Smart Garden im Test: Plug and Spray mit Hindernissen
Gardena Smart Garden im Test
Plug and Spray mit Hindernissen
  1. Revolv Google macht Heimautomatisierung kaputt
  2. Intelligentes Heim Alphabet könnte sich von Nest trennen
  3. You-Rista Kaffeemaschine mit App-Anschluss

Netzpolitik: Edward Snowden ist genervt
Netzpolitik
Edward Snowden ist genervt
  1. Snowden Natural Born Knüller
  2. NSA-Affäre BND-Chef Schindler muss offenbar gehen
  3. Panama-Papers 2,6 TByte Daten zu dubiosen Offshore-Firmen

  1. Re: jeden [auf Instagram] zu eliminieren, sogar...

    Graveangel | 03:32

  2. Re: Was ist das für....

    Pjörn | 03:31

  3. Gewinnmaximierung

    Cespenar | 03:30

  4. Re: Oh Wunder der Mensch denkt mal wieder nicht...

    Crossfire579 | 02:59

  5. VPN? Kann TTIP nicht die GEMA "wegregulieren"

    Pjörn | 02:34


  1. 13:08

  2. 11:31

  3. 09:32

  4. 09:01

  5. 19:01

  6. 16:52

  7. 16:07

  8. 15:26


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel