Abo
  • Services:

Common Crawl Foundation: Freier Webindex mit 5 Milliarden Seiten

Die von Gil Elbaz ins Leben gerufene Common Crawl Foundation hat einen Webindex mit fünf Milliarden Seiten veröffentlicht, den jeder frei nutzen kann. Der Index enthält Metadaten wie Pagerank und einen Link-Graph.

Artikel veröffentlicht am ,
Ein freier Webindex für alle
Ein freier Webindex für alle (Bild: Common Crawl Foundation)

Die Common Crawl Foundation will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden.

Stellenmarkt
  1. MorphoSys AG, Planegg
  2. Merz Pharma GmbH & Co. KGaA, Reinheim

Derzeit umfasst der Index der Stiftung rund fünf Milliarden Webseiten samt der zugehörigen Metadaten, einschließlich Pagerank und der Verlinkungen untereinander.

Die Daten liegen in einem HDFS-Cluster vor, der per Map Reduce abgefragt wird, um kleine Archivdateien von 100 MByte zu erzeugen, die über Amazon S3 heruntergeladen werden können. Es ist aber auch eine direkte Abfrage der Daten via Map Reduce möglich.

Bislang arbeitete die Common Crawl Foundation eher im Stillen und sucht nun die Öffentlichkeit, damit die gesammelten Daten genutzt werden. Auch das von Ahad Rana entwickelte Crawl-System soll als Open Source auf Github veröffentlicht werden. Zudem will die Stiftung Bibliotheken zur Verfügung stellen, die den Umgang mit den Daten vereinfachen.



Anzeige
Blu-ray-Angebote
  1. (nur für Prime-Mitglieder)

Zaphod 08. Nov 2011

mit sicherheit gnadenlos von allen SEO'ler überrannt heute ...

DaM 08. Nov 2011

Vorbereitung is allet!

dabbes 08. Nov 2011

Die Benutzen ja nicht Pagerank sondern geben lediglich die Zahl aus. Selbst berechnet...


Folgen Sie uns
       


HP Elitebook 735 G5 - Test

Wir schauen uns das HP Elitebook 735 G5 an, eines der besten Business-Notebooks mit AMDs Ryzen Mobile.

HP Elitebook 735 G5 - Test Video aufrufen
Indiegames-Rundschau: Schiffbruch, Anime und viel Brummbrumm
Indiegames-Rundschau
Schiffbruch, Anime und viel Brummbrumm

Gas geben, den weißen Hai besiegen und endlich die eine verlorene Socke wiederfinden: Die sommerlichen Indiegames bieten für jeden etwas - besonders fürs Spielen zu zweit.
Von Rainer Sigl

  1. Indiegames-Rundschau Schwerelose Action statt höllischer Qualen
  2. Indiegames-Rundschau Kampfkrieger und Abenteuer in 1001 Nacht
  3. Indiegames-Rundschau Mutige Mäuse und tapfere Trabbis

KI in der Medizin: Keine Angst vor Dr. Future
KI in der Medizin
Keine Angst vor Dr. Future

Mit Hilfe künstlicher Intelligenz können schwer erkennbare Krankheiten früher diagnostiziert und behandelt werden, doch bei Patienten löst die Technik oft Unbehagen aus. Und das ist nicht das einzige Problem.
Ein Bericht von Tim Kröplin

  1. KI Mit Machine Learning neue chemische Reaktionen herausfinden
  2. Elon Musk und Deepmind-Gründer Keine Maschine soll über menschliches Leben entscheiden
  3. Medizintechnik Künstliche Intelligenz erschnüffelt Krankheiten

Hasskommentare: Wie würde es im Netz aussehen, wenn es uns nicht gäbe?
Hasskommentare
"Wie würde es im Netz aussehen, wenn es uns nicht gäbe?"

Hannes Ley hat vor rund anderthalb Jahren die Online-Initiative #ichbinhier gegründet. Die Facebook-Gruppe schreibt Erwiderungen auf Hasskommentare und hat mittlerweile knapp 40.000 Mitglieder. Im Interview mit Golem.de erklärt Ley, wie er die Idee aus dem Netz in die echte Welt bringen will.
Ein Interview von Jennifer Fraczek

  1. Nutzungsrechte Einbetten von Fotos muss nicht verhindert werden
  2. Bundesnetzagentur UKW-Abschaltung abgewendet
  3. Drupalgeddon 2 115.000 Webseiten mit Drupallücken übernommen

    •  /