Abo
  • IT-Karriere:

Common Crawl Foundation: Freier Webindex mit 5 Milliarden Seiten

Die von Gil Elbaz ins Leben gerufene Common Crawl Foundation hat einen Webindex mit fünf Milliarden Seiten veröffentlicht, den jeder frei nutzen kann. Der Index enthält Metadaten wie Pagerank und einen Link-Graph.

Artikel veröffentlicht am ,
Ein freier Webindex für alle
Ein freier Webindex für alle (Bild: Common Crawl Foundation)

Die Common Crawl Foundation will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden.

Stellenmarkt
  1. SEW-EURODRIVE GmbH & Co KG, Bruchsal
  2. über Dr. Maier & Partner GmbH Executive Search, Region Stuttgart

Derzeit umfasst der Index der Stiftung rund fünf Milliarden Webseiten samt der zugehörigen Metadaten, einschließlich Pagerank und der Verlinkungen untereinander.

Die Daten liegen in einem HDFS-Cluster vor, der per Map Reduce abgefragt wird, um kleine Archivdateien von 100 MByte zu erzeugen, die über Amazon S3 heruntergeladen werden können. Es ist aber auch eine direkte Abfrage der Daten via Map Reduce möglich.

Bislang arbeitete die Common Crawl Foundation eher im Stillen und sucht nun die Öffentlichkeit, damit die gesammelten Daten genutzt werden. Auch das von Ahad Rana entwickelte Crawl-System soll als Open Source auf Github veröffentlicht werden. Zudem will die Stiftung Bibliotheken zur Verfügung stellen, die den Umgang mit den Daten vereinfachen.



Anzeige
Hardware-Angebote
  1. 114,99€ (Release am 5. Dezember)
  2. (reduzierte Überstände, Restposten & Co.)
  3. täglich neue Deals bei Alternate.de
  4. 274,00€

Zaphod 08. Nov 2011

mit sicherheit gnadenlos von allen SEO'ler überrannt heute ...

DaM 08. Nov 2011

Vorbereitung is allet!

dabbes 08. Nov 2011

Die Benutzen ja nicht Pagerank sondern geben lediglich die Zahl aus. Selbst berechnet...


Folgen Sie uns
       


Raumfahrt: Galileo-Satellitennavigation ist vollständig ausgefallen
Raumfahrt
Galileo-Satellitennavigation ist vollständig ausgefallen

Seit Donnerstag senden die Satelliten des Galileo-Systems keine Daten mehr an die Navigationssysteme. SAR-Notfallbenachrichtigungen sollen aber noch funktionieren. Offenbar ist ein Systemfehler in einer Bodenstation die Ursache. Nach fünf Tagen wurde die Störung behoben.

  1. Satellitennavigation Galileo ist wieder online

In eigener Sache: Zeig's uns!
In eigener Sache
Zeig's uns!

Golem kommt zu dir: Golem.de möchte noch mehr darüber wissen, was IT-Profis in ihrem Berufsalltag umtreibt. Dafür begleitet jeder unserer Redakteure eine Woche lang ein IT-Team eines Unternehmens. Welches? Dafür bitten wir um Vorschläge.

  1. In eigener Sache Golem.de bietet Seminar zu TLS an
  2. In eigener Sache ITler und Board kommen zusammen
  3. In eigener Sache Herbsttermin für den Kubernetes-Workshop steht

Radeon RX 5700 (XT) im Test: AMDs günstige Navi-Karten sind auch super
Radeon RX 5700 (XT) im Test
AMDs günstige Navi-Karten sind auch super

Die Radeon RX 5700 (XT) liefern nach einer Preissenkung vor dem Launch eine gute Leistung ab: Wer auf Hardware-Raytracing verzichten kann, erhält zwei empfehlenswerte Navi-Grafikkarten. Bei der Energie-Effizienz hapert es aber trotz moderner 7-nm-Technik immer noch etwas.
Ein Test von Marc Sauter

  1. Navi 14 Radeon RX 5600 (XT) könnte 1.536 Shader haben
  2. Radeon RX 5700 (XT) AMD senkt Navi-Preise noch vor Launch
  3. AMD Freier Navi-Treiber in Mesa eingepflegt

    •  /