Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


Kommentieren



Anzeige

  1. Mitarbeiter/-in IT-Sicherheit
    Daimler AG, Stuttgart
  2. Informatiker/IT-Consultant (m/w)
    CADENAS GmbH, Augsburg
  3. IT-Projektmanager (m/w)
    FTI Group, München
  4. Test Automation Engineer (m/w)
    DAVID Systems GmbH, München

 

Detailsuche


Folgen Sie uns
       


  1. Nachfolger von Google Glass

    Google patentiert Kontaktlinsen mit Kameras

  2. Kleine Fuck-Anfrage

    Welche Begriffe in deutschen Behörden gefiltert werden

  3. Kindle Phone

    Neue Details zur 3D-Technik des Amazon-Smartphones

  4. Phishing-Mail

    BSI warnt vor BSI-Warnung

  5. Gesichtserkennung

    FBI sammelt Millionen Fotos von Unverdächtigen

  6. Truecrypt

    Bislang keine Hintertüren gefunden

  7. Gulp-Umfrage

    IT-Freelancer mit 6.150 Euro Gewinn im Monat

  8. OpenSSL

    OpenBSD mistet Code aus

  9. Menschenrechte

    Schärfere Exportkontrollen für Spähprogramme gefordert

  10. The Elder Scrolls Online

    Zenimax deaktiviert umstrittene Bezahlmethoden



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Windows XP ade: Linux ist nicht nur ein Lückenfüller
Windows XP ade
Linux ist nicht nur ein Lückenfüller

Wenn der Support für Windows XP ausläuft, wird es dringend Zeit, nach einer sicheren und vor allem kostenlosen Alternative zu suchen. Linux ist dafür bestens geeignet. Bleibt nur noch die Qual der Wahl.

  1. Open Source Linux 3.15 startet in die Testphase
  2. Linux-Kernel LTO-Patch entfacht Diskussion
  3. Linux-Distribution Opensuse baut um und verschiebt Version 13.2

Facebook und Oculus Rift: Vier Prognosen zu Faceboculus
Facebook und Oculus Rift
Vier Prognosen zu Faceboculus

Der erste Shitstorm hat sich gelegt. Und Oculus gehört immer noch Facebook. Was ändert das jetzt? Und was bedeutet das für die Zukunft? Wer sich mit Entwicklern und Experten unterhält, der kann einige erste Schlüsse ziehen.

  1. Oculus Rift 25.000 Exemplare der neuen Dev-Kit-Version verkauft
  2. Developer Center Sicherheitslücke bei Oculus VR
  3. Oculus VR "Wir haben nicht so viele Morddrohungen erwartet"

Windows 8.1 Update 1 im Test: Ein lohnenswertes Miniupdate
Windows 8.1 Update 1 im Test
Ein lohnenswertes Miniupdate

Microsoft geht wieder einen Schritt zurück in die Zukunft. Mit dem Update 1 baut der Konzern erneut Funktionen ein, die vor allem für Mausschubser gedacht sind. Wir haben uns das Miniupdate für Windows 8.1 pünktlich zur Veröffentlichung angesehen.

  1. Microsoft Installationsprobleme beim Windows 8.1 Update 1
  2. Windows 8.1 Update 1 Wieder mehr minimieren und schließen
  3. Microsoft Windows 8.1 Update 1 vorab verfügbar

    •  / 
    Zum Artikel