• IT-Karriere:
  • Services:

Common Crawl Foundation: Freier Webindex mit 5 Milliarden Seiten

Die von Gil Elbaz ins Leben gerufene Common Crawl Foundation hat einen Webindex mit fünf Milliarden Seiten veröffentlicht, den jeder frei nutzen kann. Der Index enthält Metadaten wie Pagerank und einen Link-Graph.

Artikel veröffentlicht am ,
Ein freier Webindex für alle
Ein freier Webindex für alle (Bild: Common Crawl Foundation)

Die Common Crawl Foundation will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden.

Stellenmarkt
  1. Hornbach-Baumarkt-AG, Bornheim bei Landau
  2. Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Mainz

Derzeit umfasst der Index der Stiftung rund fünf Milliarden Webseiten samt der zugehörigen Metadaten, einschließlich Pagerank und der Verlinkungen untereinander.

Die Daten liegen in einem HDFS-Cluster vor, der per Map Reduce abgefragt wird, um kleine Archivdateien von 100 MByte zu erzeugen, die über Amazon S3 heruntergeladen werden können. Es ist aber auch eine direkte Abfrage der Daten via Map Reduce möglich.

Bislang arbeitete die Common Crawl Foundation eher im Stillen und sucht nun die Öffentlichkeit, damit die gesammelten Daten genutzt werden. Auch das von Ahad Rana entwickelte Crawl-System soll als Open Source auf Github veröffentlicht werden. Zudem will die Stiftung Bibliotheken zur Verfügung stellen, die den Umgang mit den Daten vereinfachen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote

Zaphod 08. Nov 2011

mit sicherheit gnadenlos von allen SEO'ler überrannt heute ...

DaM 08. Nov 2011

Vorbereitung is allet!

dabbes 08. Nov 2011

Die Benutzen ja nicht Pagerank sondern geben lediglich die Zahl aus. Selbst berechnet...


Folgen Sie uns
       


Immortals Fenyx Rising - Fazit

Im Video zeigt Golem.de das Actionspiel Immortals Fenyx Rising.

Immortals Fenyx Rising - Fazit Video aufrufen
Biden und die IT-Konzerne: Die Zähmung der Widerspenstigen
Biden und die IT-Konzerne
Die Zähmung der Widerspenstigen

Bislang konnten sich IT-Konzerne wie Google und Facebook noch gegen eine schärfere Regulierung wehren. Das könnte sich unter Joe Biden ändern.
Eine Analyse von Friedhelm Greis

  1. Quibi Mobile-Streaming-Dienst nach einem halben Jahr dicht

IT-Security outsourcen: Besser als gar keine Sicherheit
IT-Security outsourcen
Besser als gar keine Sicherheit

Security as a Service (SECaaS) verspricht ein Höchstmaß an Sicherheit. Das Auslagern eines so heiklen Bereichs birgt jedoch auch Risiken.
Von Boris Mayer

  1. Joe Biden Stellenanzeige im Quellcode von Whitehouse.gov versteckt
  2. Sturm auf Kapitol Pelosis Laptop sollte Russland angeboten werden
  3. Malware Offenbar Ermittlungen gegen Jetbrains nach Solarwinds-Hack

Google vs. Oracle: Das wichtigste Urteil der IT seit Jahrzehnten
Google vs. Oracle
Das wichtigste Urteil der IT seit Jahrzehnten

Der Prozess Google gegen Oracle wird in diesem Jahr enden. Egal welche Seite gewinnt, die Entscheidung wird die IT-Landschaft langfristig prägen.
Eine Analyse von Sebastian Grüner


      •  /