Abo
  • Services:

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Artikel veröffentlicht am ,
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Stellenmarkt
  1. Garz & Fricke GmbH, Hamburg
  2. über OPTARES GmbH & Co. KG, südliches Baden-Württemberg

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.



Anzeige
Spiele-Angebote
  1. (-35%) 38,99€
  2. 5€
  3. 4,95€
  4. 99,99€

Folgen Sie uns
       


Fahrt mit Alstoms Brennstoffzellenzug - Bericht

Wasserstoff statt Diesel: Der Nahverkehrszug der Zukunft soll sauber fahren. Der französische Konzern Alstom hat einen Zug mit einem Brennstoffzellenantrieb entwickelt, der ohne Oberleitung elektrisch fährt. Wir sind eingestiegen.

Fahrt mit Alstoms Brennstoffzellenzug - Bericht Video aufrufen
P20 Pro im Kameratest: Huaweis Dreifach-Kamera schlägt die Konkurrenz
P20 Pro im Kameratest
Huaweis Dreifach-Kamera schlägt die Konkurrenz

Mit dem P20 Pro will Huawei sich an die Spitze der Smartphone-Kameras katapultieren. Im Vergleich mit der aktuellen Konkurrenz zeigt sich, dass das P20 Pro tatsächlich über eine sehr gute Kamera verfügt: Die KI-Funktionen können unerfahrenen Nutzern zudem das Fotografieren erleichtern.
Ein Test von Tobias Költzsch

  1. Android Huawei präsentiert drei neue Smartphones ab 120 Euro
  2. Wie Samsung Huawei soll noch für dieses Jahr faltbares Smartphone planen
  3. Porsche Design Mate RS Huawei bringt 512-GByte-Smartphone für 2.100 Euro

Adblock Plus: Bundesgerichtshof erlaubt Einsatz von Werbeblockern
Adblock Plus
Bundesgerichtshof erlaubt Einsatz von Werbeblockern

Der Bundesgerichtshof hat im Streit um die Nutzung von Werbeblockern entschieden: Eyeo verstößt mit Adblock Plus gegen keine Gesetze. Axel Springer hat nach dem Urteil angekündigt, Verfassungsbeschwerde einreichen zu wollen.

  1. Urheberrecht Easylist muss Anti-Adblocker-Domain entfernen

Datenverkauf bei Kommunen: Öffentliche Daten nicht verhökern, sondern sinnvoll nutzen
Datenverkauf bei Kommunen
Öffentliche Daten nicht verhökern, sondern sinnvoll nutzen

Der Städte- und Gemeindebund hat vorgeschlagen, Kommunen sollten ihre Daten verkaufen. Wie man es auch dreht und wendet: Es bleibt eine schlechte Idee.
Ein IMHO von Michael Peters und Walter Palmetshofer

  1. Gerichtsurteil Kein Recht auf anonyme IFG-Anfrage in Rheinland-Pfalz
  2. CDLA Linux Foundation veröffentlicht Open-Data-Lizenzen
  3. Deutscher Wetterdienst Wetterdaten sind jetzt Open Data

    •  /