Abo
  • Services:
Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. Robert Bosch GmbH, Bühl
  2. über Tröger & Cie. Aktiengesellschaft, Baden-Württemberg
  3. Mobile Trend GmbH, Hamburg
  4. AreaDigital AG, Fürth


Anzeige
Top-Angebote
  1. (u. a. The Revenant, Zoomania, The Hateful 8)
  2. 43,99€
  3. 4,99€

Folgen Sie uns
       


  1. Smartphones und Tablets

    Bundestrojaner soll mehr können können

  2. Internetsicherheit

    Die CDU will Cybersouverän werden

  3. 3D-Flash-Speicher

    Micron stellt erweiterte Fab 10X fertig

  4. Occipital

    VR Dev Kit ermöglicht Roomscale-Tracking per iPhone

  5. XPG SX8000

    Adatas erste PCIe-NVMe-SSD nutzt bewährte Komponenten

  6. UBBF2016

    Telefónica will 2G-Netz in vielen Ländern abschalten

  7. Mögliche Übernahme

    Qualcomm interessiert sich für NXP Semiconductors

  8. Huawei

    Vectoring erreicht bald 250 MBit/s in Deutschland

  9. Kaufberatung

    Das richtige Solid-State-Drive

  10. Android-Smartphone

    Huawei bringt Nova Plus doch nach Deutschland



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Swift Playgrounds im Test: Apple infiziert Kinder mit Programmiertalent
Swift Playgrounds im Test
Apple infiziert Kinder mit Programmiertalent
  1. Asus PG248Q im Test 180 Hertz erkannt, 180 Hertz gebannt

MacOS 10.12 im Test: Sierra - Schreck mit System
MacOS 10.12 im Test
Sierra - Schreck mit System
  1. MacOS 10.12 Sierra fungiert als alleiniges Sicherheitsupdate für OS X
  2. MacOS Sierra und iOS 10 Apple schmeißt unsichere Krypto raus
  3. Kaspersky Neue Malware installiert Hintertüren auf Macs

Android 7.0 im Test: Zwei Fenster für mehr Durchblick
Android 7.0 im Test
Zwei Fenster für mehr Durchblick
  1. Android-X86 Desktop-Port von Android 7.0 vorgestellt
  2. Android 7.0 Erste Nougat-Portierung für Nexus 4 verfügbar
  3. Android 7.0 Erste Nougat-Portierungen für Nexus 5 und Nexus 7 verfügbar

  1. Re: Mit 41 kWh 400km Reichweite

    thesmann | 23:43

  2. Re: LSR ist gut für die Schweiz und England

    FreiGeistler | 23:42

  3. Re: Wieder dieser SUV Mist

    unbuntu | 23:38

  4. Re: Ist das jetzt der Tiefpunkt Golem?

    deus-ex | 23:35

  5. Re: Das Auto könnte locker 600km schaffen...

    unbuntu | 23:35


  1. 19:24

  2. 19:05

  3. 18:25

  4. 17:29

  5. 14:07

  6. 13:45

  7. 13:18

  8. 12:42


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel