Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. SUZUKI DEUTSCHLAND GMBH, Bensheim
  2. Takata AG, Berlin
  3. birkle IT GmbH, München
  4. Computacenter AG & Co. oHG, Ratingen, Stuttgart


Anzeige
Spiele-Angebote
  1. 134,98€
  2. 59,99€ (Vorbesteller-Preisgarantie)
  3. 2,49€

Folgen Sie uns
       


  1. Layer-2-Bitstrom

    Bundesagentur fordert 100-MBit/s-Zugang für 19 Euro

  2. Thomson Reuters

    Terrordatenbank World-Check im Netz zu finden

  3. Linux-Distribution

    Ubuntu diskutiert Ende der 32-Bit-Unterstützung

  4. Anrufweiterschaltung

    Bundesnetzagentur schaltet falsche Ortsnetznummern ab

  5. Radeon RX 480 im Test

    Eine bessere Grafikkarte gibt es für den Preis nicht

  6. Overwatch

    Ranglistenspiele mit kleinen Hindernissen

  7. Fraunhofer SIT

    Volksverschlüsselung startet ohne Quellcode

  8. Axon 7 im Hands on

    Oneplus bekommt starke Konkurrenz

  9. Brexit

    Vodafone prüft Umzug des Konzernsitzes aus UK

  10. Patent

    Apple will Konzertaufnahmen verhindern



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Battlefield 1 angespielt: Zeppeline, Sperrfeuer und die Wiedergeburtsspritze
Battlefield 1 angespielt
Zeppeline, Sperrfeuer und die Wiedergeburtsspritze
  1. Electronic Arts Battlefield 1 mit Wetter und Titanfall 2 mit Kampagne
  2. Dice Battlefield 1 spielt im Ersten Weltkrieg

Trials of the Blood Dragon im Test: Motorräder im B-Movie-Rausch
Trials of the Blood Dragon im Test
Motorräder im B-Movie-Rausch
  1. Anki Cozmo Kleiner Roboter als eigensinniger Spielkamerad
  2. Crowdfunding Echtwelt-Survival-Spiel Reroll gescheitert
  3. Anki Overdrive Mit dem Truck auf der Rennbahn

Telefonabzocke: Dirty Harry erklärt mein Windows für kaputt
Telefonabzocke
Dirty Harry erklärt mein Windows für kaputt
  1. Darknet-Handel Nutzerdaten von Telekom-Kunden werden verkauft
  2. Security Ransomware-Bosse verdienen 90.000 US-Dollar pro Jahr
  3. Festnahme und Razzien Koordinierte Aktion gegen Cybercrime

  1. Sensation! Firma baut Tortendrucker:

    Keridalspidialose | 02:25

  2. Re: Das wird die EU retten!

    /mecki78 | 01:48

  3. TUXEDO Mangelhaft - fehlende Rückzahlung

    feram | 01:06

  4. Re: bei den Preisen...

    Feuerfred | 00:53

  5. Re: Und hier nun der Beweis: An eine 1070 reicht...

    Unix_Linux | 00:47


  1. 18:14

  2. 18:02

  3. 16:05

  4. 15:12

  5. 15:00

  6. 14:45

  7. 14:18

  8. 12:11


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel