Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex Blekko spendet 22 Milliarden Webseiten an Common Crawl

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Anzeige

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite

Kommentieren



Anzeige

  1. IT-Berater (m/w)
    cimt AG, Frankfurt
  2. Software Engineer (m/w)
    Cambaum GmbH, Baden-Baden
  3. Datenbankentwickler/in mit Schwerpunkt Datawarehouse
    BKK Verkehrsbau Union, Berlin
  4. Business Engineer (m/w)
    über Kilmona PersonalManagement GmbH, Zweibrücken

Detailsuche



Anzeige

Folgen Sie uns
       


  1. Soylent-Flüssignahrung

    Die Freiheit, nicht ans Essen zu denken

  2. Fraunhofer IPMS

    Multispektralkamera benötigt nur ein Objektiv

  3. Transformer 3 (Pro)

    Asus zeigt Detachables mit Kaby Lake

  4. Delock DL-89456

    Netzwerkkarte für 2.5 und 5GbE

  5. Bezahlsystem

    Apple will Pay zügig in Europa ausweiten

  6. Überwachung

    Aufregung um Intermediate-Zertifikat für Bluecoat

  7. Virtual Reality

    Googles Daydream benötigt neues Smartphone

  8. Cortex-A73 Artemis

    ARMs neuer High-End-CPU-Kern für 2017

  9. Tony Fadell

    iPod-Erfinder baut Elektro-Gokarts für Kinder

  10. Riesiges Produktionsgebäude

    Ende Juli wird die Tesla Gigafactory eröffnet



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Xiaomi Mi5 im Test: Das fast perfekte Top-Smartphone
Xiaomi Mi5 im Test
Das fast perfekte Top-Smartphone
  1. Konkurrenz zu DJI Xiaomi mit Kampfpreis für Mi-Drohne
  2. YI 4K Xiaomi greift mit 4K-Actionkamera GoPro an

Hyperloop Global Challenge: Jeder will den Rohrpostzug
Hyperloop Global Challenge
Jeder will den Rohrpostzug
  1. Hyperloop HTT will seine Rohrpostzüge aus Marvel-Material bauen
  2. Hyperloop One Der Hyperloop fährt - wenn auch nur kurz
  3. Inductrack Hyperloop schwebt ohne Strom

Doom im Test: Die beste blöde Ballerorgie
Doom im Test
Die beste blöde Ballerorgie
  1. Doom im Technik-Test Im Nightmare-Mode erzittert die Grafikkarte
  2. id Software Doom wird Vulkan unterstützen
  3. Id Software PC-Spieler müssen 45 GByte von Steam laden

  1. Wie sieht es eigentlich mit den Kosten aus ?

    RipClaw | 12:40

  2. Re: Bin mal gespannt wann Google ernst macht

    Wallbreaker | 12:40

  3. Eklig und ungesund

    TheBigLebowski | 12:40

  4. Re: Zahnprobleme durch wenig kauen?

    Sharra | 12:39

  5. Re: Ab 2020 wird die Kapazität erreicht

    simpletech | 12:38


  1. 12:02

  2. 11:39

  3. 11:28

  4. 11:10

  5. 10:31

  6. 10:27

  7. 08:45

  8. 08:15


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel