Abo
  • Services:
Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. Takata AG, Berlin
  2. NSCON Network Services & Consulting GmbH, verschiedene Standorte
  3. WestWing Online GmbH, München
  4. Stadtwerke München GmbH, München


Anzeige
Hardware-Angebote
  1. ab 219,90€
  2. (Core i5-6500 + Geforce GTX 1060)
  3. 699,00€

Folgen Sie uns
       


  1. Für Werbezwecke

    Whatsapp teilt alle Telefonnummern mit Facebook

  2. Domino's

    Die Pizza kommt per Lieferdrohne

  3. IT-Support

    Nasa verzichtet auf Tausende Updates durch HP Enterprise

  4. BGH-Antrag

    Opposition will NSA-Ausschuss zur Ladung Snowdens zwingen

  5. Kollaborationsserver

    Nextcloud 10 verbessert Server-Administration

  6. Exo-Planet

    Der Planet von Proxima Centauri

  7. Microsoft

    Windows 10 Enterprise kommt als Abo

  8. Umwelthilfe

    Handel ignoriert Rücknahmepflicht von Elektrogeräten

  9. 25 Jahre Linux

    Besichtigungstour zu den skurrilsten Linux-Distributionen

  10. Softrobotik

    Oktopus-Roboter wird mit Gas angetrieben



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
­Cybersyn: Chiles Traum von der computergesteuerten Planwirtschaft
­Cybersyn
Chiles Traum von der computergesteuerten Planwirtschaft
  1. Princeton Piton Open-Source-Chip soll System mit 200.000 Kernen ermöglichen
  2. Programmiersprache Go 1.7 läuft schneller und auf IBM-Mainframes
  3. Adecco IBM will Helpdesk-Geschäft in Erfurt und Leipzig loswerden

Thinkpad X1 Carbon 2013 vs 2016: Drei Jahre, zwei Ultrabooks, eine Erkenntnis
Thinkpad X1 Carbon 2013 vs 2016
Drei Jahre, zwei Ultrabooks, eine Erkenntnis
  1. Huawei Matebook im Test Guter Laptop-Ersatz mit zu starker Konkurrenz
  2. iPad Pro Case Razer zeigt flache mechanische Switches
  3. Thinkpwn Lenovo warnt vor mysteriöser Bios-Schwachstelle

Asus PG248Q im Test: 180 Hertz erkannt, 180 Hertz gebannt
Asus PG248Q im Test
180 Hertz erkannt, 180 Hertz gebannt
  1. Raspberry Pi 3 Booten über USB oder per Ethernet
  2. Autonomes Fahren Mercedes stoppt Werbespot wegen überzogener Versprechen
  3. Radeon RX 480 Dank DX12 und Vulkan reicht auch eine Mittelklasse-CPU

  1. Re: Es beginnt...

    AIM-9 Sidewinder | 18:21

  2. Re: Das wird Konsequenzen haben

    crazypsycho | 18:20

  3. Re: Wird Zeit zu wechseln

    Nikolaus117 | 18:19

  4. Re: Tja...und Threema will selbst niemand...

    lear | 18:18

  5. Re: Sehe ich genauso...

    Abseus | 18:17


  1. 15:54

  2. 15:34

  3. 15:08

  4. 14:26

  5. 13:31

  6. 13:22

  7. 13:00

  8. 12:45


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel