Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Artikel veröffentlicht am ,
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Stellenmarkt
  1. Development Worker as Digital Ambassador (m/f/d) Supporting Digitalisation Processes of a Juvenile ... (m/w/d)
    GIZ Deutsche Gesellschaft für Internationale Zusammenarbeit GmbH, Lusaka (Sambia)
  2. IT-Systemadministrator mit Schwerpunkt Support (m/w/d)
    Hays AG, Ulm
Detailsuche

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Golem Karrierewelt
  1. Container Technologie: Docker und Kubernetes - Theorie und Praxis: virtueller Drei-Tage-Workshop
    04.-07.07.2022, virtuell
  2. Adobe Photoshop Aufbaukurs: virtueller Zwei-Tage-Workshop
    14./15.07.2022, Virtuell
Weitere IT-Trainings

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Halbleiterfertigung
Keine modernen Belichtungsmaschinen mehr für China

Maschinen für EUV-Belichtung darf ASML bereits nicht mehr nach China exportieren, auch der Zugang zu älteren DUV-Anlagen soll gekappt werden.

Halbleiterfertigung: Keine modernen Belichtungsmaschinen mehr für China
Artikel
  1. Gewobag: 500 Ladepunkte für Mieter in Berlin geplant
    Gewobag
    500 Ladepunkte für Mieter in Berlin geplant

    Mieter der Berliner Gewobag sollen bis Ende 2024 etwa 500 Ladepunkte für ihre E-Autos nutzen können. Die Gesellschaft verfügt über 16.000 Stellplätze.

  2. Kryptowinter: Auch Bitcoin-Minern droht die Zahlungsunfähigkeit
    Kryptowinter
    Auch Bitcoin-Minern droht die Zahlungsunfähigkeit

    Nicht nur Bitcoin-Verleiher gehen in der Krise pleite. Auch professionelle Krypto-Mining-Unternehmen kämpfen um ihre Liquidität.

  3. Fake-Polizei-Anrufe: Bundesnetzagentur meldet starken Anstieg von Beschwerden
    Fake-Polizei-Anrufe
    Bundesnetzagentur meldet starken Anstieg von Beschwerden

    Seit März wachsen die Beschwerden stark an, weil Betrüger automatische Ansage von Polizei, BKA, Interpol oder Europol versenden. Dabei täuschen sie echte Telefonnummern vor.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Red Friday: Mega-Rabatt-Aktion bei Media Markt • PS5 bestellbar • EVGA RTX 3090 günstig wie nie: 1.649€ • MindStar (MSI RTX 3060 429€, MSI 31,5“ WQHD 165Hz 369€) • Samsung QLED 85" günstig wie nie: 1.732,72€ • Alternate (Tower & CPU-Kühler) • Der beste 2.000€-Gaming-PC [Werbung]
    •  /