Abo
  • Services:
Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. Deutsche Telekom AG, Darmstadt
  2. Landratsamt Calw, Calw
  3. Villeroy & Boch AG, Mettlach bei Saarbrücken / Merzig
  4. MEDIAN Kliniken GmbH, Berlin


Anzeige
Hardware-Angebote
  1. (täglich neue Deals)
  2. 308,95€ (Bestpreis)

Folgen Sie uns
       


  1. Künstliche Intelligenz

    Softbank und Honda wollen sprechendes Auto bauen

  2. Alternatives Android

    Cyanogen soll zahlreiche Mitarbeiter entlassen

  3. Update

    Onedrive erstellt automatisierte Alben und erkennt Pokémon

  4. Die Woche im Video

    Ausgesperrt, ausprobiert, ausgetüftelt

  5. 100 MBit/s

    Zusagen der Bundesnetzagentur drücken Preis für Vectoring

  6. Insolvenz

    Unister Holding mit 39 Millionen Euro verschuldet

  7. Radeons RX 480

    Die Designs von AMDs Partnern takten höher - und konstanter

  8. Koelnmesse

    Tagestickets für Gamescom ausverkauft

  9. Kluge Uhren

    Weltweiter Smartwatch-Markt bricht um ein Drittel ein

  10. Linux

    Nvidia ist bereit für einheitliche Wayland-Unterstützung



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Schrott im Netz: Wie Social Bots das Internet gefährden
Schrott im Netz
Wie Social Bots das Internet gefährden
  1. Netzwerk Wie Ausrüster Google Fiber und Facebooks Netzwerk sehen
  2. Secret Communications Facebook-Messenger bald mit Ende-zu-Ende-Verschlüsselung
  3. Social Media Ein Netzwerk wie ein Glücksspielautomat

Masterplan Teil 2: Selbstfahrende Teslas werden zu Leihautos
Masterplan Teil 2
Selbstfahrende Teslas werden zu Leihautos
  1. Projekt Titan Apple Car soll später kommen
  2. Nissan Serena Automatisiert fahrender Minivan soll im August erscheinen
  3. Elon Musk Tesla-Chef arbeitet an neuem Masterplan

Dirror angeschaut: Der digitale Spiegel, der ein Tablet ist
Dirror angeschaut
Der digitale Spiegel, der ein Tablet ist
  1. Bluetooth 5 Funktechnik sendet mehr Daten auch ohne Verbindungsaufbau
  2. Smarter Schalter Wenn Github mit dem Lichtschalter klingelt
  3. Tony Fadell Nest-Gründer macht keine Omeletts mehr

  1. Re: Weil Datenschutz in Frankreich so gro...

    Ach | 12:39

  2. Re: Mich würde mal Wundern, wann sie Kaffee als...

    it-boy | 12:28

  3. Re: Wäre cool...

    wiesi200 | 12:25

  4. Re: Gut so, hoffentlich bald alle arbeitslos

    Akhelos | 12:24

  5. Strix Takt und Effizienz

    TodesBrote | 12:24


  1. 15:17

  2. 14:19

  3. 13:08

  4. 09:01

  5. 18:26

  6. 18:00

  7. 17:00

  8. 16:29


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel