Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


Kommentieren



Anzeige

  1. Referent (m/w) Lernmanagementsysteme mit Schwerpunkt IT-Fachkonzeption
    Gothaer Finanzholding AG, Köln
  2. Systemtechniker/-in im Network Management Center
    M-net Telekommunikations GmbH, München
  3. Informatiker/in
    Lechwerke AG, Augsburg
  4. Business Analyst / Projekt Manager (m/w)
    Parts Europe GmbH, Wasserliesch bei Trier

 

Detailsuche


Folgen Sie uns
       


  1. Quartalsbericht

    Microsofts Gewinn und Umsatz fallen

  2. Element

    Schenkers Windows-Tablet ab 350 Euro - aber ohne Tastatur

  3. Epic Games

    Unreal Engine 4.1 mit Zugriff auf Konsolen-Quellcode

  4. Heartbleed-Bug

    Techfirmen zahlen Millionen für Open-Source-Sicherheit

  5. Sofortlieferung

    Base liefert Smartphone noch am gleichen Tag

  6. Leica T

    Teure Systemkamera mit Touchscreen

  7. The Elder Scrolls Online

    Inhaltserweiterung und Goldfarmer

  8. Sensabubble

    Display aus duftenden Seifenblasen

  9. Lulzsec

    FBI soll von Anonymous-Hacks profitiert haben

  10. Opera Coast 3.0

    Der Gesten-Browser fürs iPhone ist da



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Digitalkamera: Panono macht Panoramen im Flug
Digitalkamera
Panono macht Panoramen im Flug

Wenn Jonas Pfeil ein Panorama aufnimmt, stellt er nicht Kamera, Stativ und Panoramakopf auf, sondern wirft einen Ball in die Höhe. Um das Panorama anschließend zu betrachten, hantiert er mit einem Tablet. Der Berliner hat Golem.de seine Entwicklung erklärt.

  1. Lytro Illum Neue Lichtfeldkamera für Profis
  2. Nachfolger von Google Glass Google patentiert Kontaktlinsen mit Kameras
  3. Pentax 645Z Mittelformatkamera mit 51 Megapixeln und ISO 204.800

Windows XP ade: Linux ist nicht nur ein Lückenfüller
Windows XP ade
Linux ist nicht nur ein Lückenfüller

Wenn der Support für Windows XP ausläuft, wird es dringend Zeit, nach einer sicheren und vor allem kostenlosen Alternative zu suchen. Linux ist dafür bestens geeignet. Bleibt nur noch die Qual der Wahl.

  1. Freedesktop-Summit Desktops erarbeiten gemeinsam Wayland und KDBus
  2. Open Source Linux 3.15 startet in die Testphase
  3. Linux-Kernel LTO-Patch entfacht Diskussion

First-Person-Walker: Wie viel Gameplay braucht ein Spiel?
First-Person-Walker
Wie viel Gameplay braucht ein Spiel?

Walking-Simulator-Spiele nennen sie die einen, experimentelle Spiele die anderen. Rainer Sigl hat einen neuen Begriff für das junge Genre der atmosphärisch dichten Indie-Games erfunden: First-Person-Walker - Spiele aus der Ich-Perspektive mit wenig Gameplay.

  1. Flappy 48 Zahlen statt Vögel
  2. Deadcore Indiegames-Turmbesteigung für PC, Mac und Linux
  3. A Maze 2014 Tanzen mit der Perfect Woman

    •  / 
    Zum Artikel