Original-URL des Artikels: https://www.golem.de/1111/87593.html    Veröffentlicht: 08.11.2011 09:07    Kurz-URL: https://glm.io/87593

Common Crawl Foundation

Freier Webindex mit 5 Milliarden Seiten

Die von Gil Elbaz ins Leben gerufene Common Crawl Foundation hat einen Webindex mit fünf Milliarden Seiten veröffentlicht, den jeder frei nutzen kann. Der Index enthält Metadaten wie Pagerank und einen Link-Graph.

Die Common Crawl Foundation will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden.

Derzeit umfasst der Index der Stiftung rund fünf Milliarden Webseiten samt der zugehörigen Metadaten, einschließlich Pagerank und der Verlinkungen untereinander.

Die Daten liegen in einem HDFS-Cluster vor, der per Map Reduce abgefragt wird, um kleine Archivdateien von 100 MByte zu erzeugen, die über Amazon S3 heruntergeladen werden können. Es ist aber auch eine direkte Abfrage der Daten via Map Reduce möglich.

Bislang arbeitete die Common Crawl Foundation eher im Stillen und sucht nun die Öffentlichkeit, damit die gesammelten Daten genutzt werden. Auch das von Ahad Rana entwickelte Crawl-System soll als Open Source auf Github veröffentlicht werden. Zudem will die Stiftung Bibliotheken zur Verfügung stellen, die den Umgang mit den Daten vereinfachen.  (ji)


Verwandte Artikel:
Suchmaschine: Googles Crawler lernt Ajax   
(02.11.2011, https://glm.io/87449 )
Bildersuche: Google entfernt Direktlink auf Fotos   
(16.02.2018, https://glm.io/132823 )
Urheberrecht: Google und Getty legen Streit bei   
(12.02.2018, https://glm.io/132706 )
Reisen: Google legt Flug- und Hotelsuche zusammen   
(09.02.2018, https://glm.io/132690 )
Verwaltungsrat: Alphabet-Chef Eric Schmidt gibt den Posten auf   
(22.12.2017, https://glm.io/131827 )

© 1997–2019 Golem.de, https://www.golem.de/