Common Crawl Foundation: Freier Webindex mit 5 Milliarden Seiten

Die von Gil Elbaz ins Leben gerufene Common Crawl Foundation hat einen Webindex mit fünf Milliarden Seiten veröffentlicht, den jeder frei nutzen kann. Der Index enthält Metadaten wie Pagerank und einen Link-Graph.

Artikel veröffentlicht am ,
Ein freier Webindex für alle
Ein freier Webindex für alle (Bild: Common Crawl Foundation)

Die Common Crawl Foundation will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden.

Stellenmarkt
  1. Hackers wanted - Software Engineers with Machine Learning Background (m/f/d)
    freiheit.com technologies gmbh, Hamburg
  2. DevOps Engineer / Cloud Architekt (d/w/m)
    MT AG, Frankfurt a.M., Köln, München, Ratingen
Detailsuche

Derzeit umfasst der Index der Stiftung rund fünf Milliarden Webseiten samt der zugehörigen Metadaten, einschließlich Pagerank und der Verlinkungen untereinander.

Die Daten liegen in einem HDFS-Cluster vor, der per Map Reduce abgefragt wird, um kleine Archivdateien von 100 MByte zu erzeugen, die über Amazon S3 heruntergeladen werden können. Es ist aber auch eine direkte Abfrage der Daten via Map Reduce möglich.

Bislang arbeitete die Common Crawl Foundation eher im Stillen und sucht nun die Öffentlichkeit, damit die gesammelten Daten genutzt werden. Auch das von Ahad Rana entwickelte Crawl-System soll als Open Source auf Github veröffentlicht werden. Zudem will die Stiftung Bibliotheken zur Verfügung stellen, die den Umgang mit den Daten vereinfachen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
US-Whistleblower  
Putin verleiht Snowden die russische Staatsbürgerschaft

US-Whistleblower Edward Snowden ist nun auch russischer Staatsbürger. Für den Krieg gegen die Ukraine kann er aber vorerst nicht eingezogen werden.

US-Whistleblower: Putin verleiht Snowden die russische Staatsbürgerschaft
Artikel
  1. Pendix eDrive: Ein E-Bike wie kein anderes
    Pendix eDrive
    Ein E-Bike wie kein anderes

    Pendix bietet einen Umbausatz, mit dem aus normalen Fahrrädern E-Bikes werden. Nicht ganz billig - aber auf jeden Fall ein Vergnügen.
    Ein Test von Martin Wolf

  2. Effizienter und schneller: Die Bundeswehr wird digitaler
     
    Effizienter und schneller: Die Bundeswehr wird digitaler

    Viele Unternehmen und Organisationen haben erkannt, dass Digitalisierung das Arbeitsleben effizienter machen kann. Bereits auf einem sehr guten Weg ist die Bundeswehr.
    Sponsored Post von BWI

  3. Nutzfahrzeug: Citroën Berlingo in einen 2CV-Kastenwagen verwandelt
    Nutzfahrzeug
    Citroën Berlingo in einen 2CV-Kastenwagen verwandelt

    Citroën und ein Karosseriebauer haben den Citroën Berlingo im Stil des 2CV Typ AU mit Wellblechaufbau verwandelt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • CyberWeek: PC-Tower, Cooling & Co. • Günstig wie nie: Asus RX 6700 XT 539€, FIFA 23 PS5 59,99€, Acer 31,5" 4K 144 Hz 899€, MSI RTX 3090 1.159€ • AMD Ryzen 7 5800X 287,99€ • Xbox Wireless Controller 49,99€ • MindStar (Gigabyte RTX 3060 Ti 522€) [Werbung]
    •  /