Common Crawl Foundation: Freier Webindex mit 5 Milliarden Seiten

Die von Gil Elbaz ins Leben gerufene Common Crawl Foundation hat einen Webindex mit fünf Milliarden Seiten veröffentlicht, den jeder frei nutzen kann. Der Index enthält Metadaten wie Pagerank und einen Link-Graph.

Artikel veröffentlicht am ,
Ein freier Webindex für alle
Ein freier Webindex für alle (Bild: Common Crawl Foundation)

Die Common Crawl Foundation will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden.

Stellenmarkt
  1. Software Architect (w/m/d)
    Analytik Jena GmbH, Jena
  2. IT-Demandmanager*in (m/w/d)
    Stadtwerke München GmbH, München
Detailsuche

Derzeit umfasst der Index der Stiftung rund fünf Milliarden Webseiten samt der zugehörigen Metadaten, einschließlich Pagerank und der Verlinkungen untereinander.

Die Daten liegen in einem HDFS-Cluster vor, der per Map Reduce abgefragt wird, um kleine Archivdateien von 100 MByte zu erzeugen, die über Amazon S3 heruntergeladen werden können. Es ist aber auch eine direkte Abfrage der Daten via Map Reduce möglich.

Bislang arbeitete die Common Crawl Foundation eher im Stillen und sucht nun die Öffentlichkeit, damit die gesammelten Daten genutzt werden. Auch das von Ahad Rana entwickelte Crawl-System soll als Open Source auf Github veröffentlicht werden. Zudem will die Stiftung Bibliotheken zur Verfügung stellen, die den Umgang mit den Daten vereinfachen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Kursabsturz
Teamviewer-Chef spricht über schwere hausgemachte Fehler

Die vielen neuen Mitarbeiter seien nicht richtig eingearbeitet worden. Und die Ziele von Teamviewer seien zu hochgesteckt gewesen, sagt Oliver Steil.

Kursabsturz: Teamviewer-Chef spricht über schwere hausgemachte Fehler
Artikel
  1. Reality 12K QLED: Pimax' VR-Headset tritt mit 12K und 200 Hz an
    Reality 12K QLED
    Pimax' VR-Headset tritt mit 12K und 200 Hz an

    Das Reality 12K QLED von Pimax kann am PC oder autark verwendet werden. Allerdings ist schon das Basismodell des VR-Headsets sehr teuer.

  2. Amazon-Go-Konkurrenz: Rewe eröffnet ersten kassenlosen Supermarkt
    Amazon-Go-Konkurrenz
    Rewe eröffnet ersten kassenlosen Supermarkt

    Kameras und Sensoren überwachen Kunden in Rewes kassenlosem Supermarkt. Bezahlt wird mit dem Smartphone.

  3. Time-Critical Communication: Ericsson will mit Software 1 ms Latenz zusichern
    Time-Critical Communication
    Ericsson will mit Software 1 ms Latenz zusichern

    Zusammen mit der Deutschen Telekom hat Ericsson Versuche gestartet, um die Latenz für Gamer zu senken. Die Software kommt als Update für 5G-Netze.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Speicherprodukte von Sandisk & WD zu Bestpreisen (u. a. Sandisk SSD Plus 2TB 140,99€) • Sapphire Pulse RX 6600 497,88€ • Epos H3 Hybrid Gaming-Headset 144€ • Apple MacBook Pro 2021 erhältlich ab 2.249€ • EA-Spiele für alle Plattformen günstiger • Samsung 55" QLED 699€ [Werbung]
    •  /