Abo
  • Services:
Anzeige
Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Freier Webindex: Blekko spendet 22 Milliarden Webseiten an Common Crawl

Mehr Daten für den freien Webindex der Common Crawl Foundation
Mehr Daten für den freien Webindex der Common Crawl Foundation (Bild: Common Crawl Foundation)

Die Suchmaschine Blekko stellt ihre Suchdaten zu rund 22 Milliarden Webseiten ab sofort der Common Crawl Foundation zur Verfügung. Die Stiftung stellt einen Webindex samt Metadaten wie Pagerank und Link-Graph zur Verfügung, den jeder frei nutzen kann.

Daten, die bislang nur großen Suchmaschinenbetreibern zur Verfügung standen, sollen so für alle zugänglich werden, das ist das Ziel der Common Crawl Foundation. Sie will den Zugang zu Webinformationen demokratisieren und dazu ein offenes Repository mit Crawl-Daten aus dem Web bereitstellen. Gestartet ist das von Gil Elbaz gestartete Projekt im November 2011 mit einem Index von rund 5 Milliarden Webseiten.

Anzeige

Dieser Datensatz soll nun besser werden: Die Suchmaschine Blekko stellt ständig aktualisierte Daten von rund 140 Millionen Websites mit insgesamt rund 22 Milliarden Webseiten zur Verfügung. Schon jetzt stellt Blekko anderen seine Suchergebnisse per API zur Verfügung.

Common Crawl soll Blekkos Daten vor allem nutzen, um seine eigenen Crawler zu verbessern, damit diese Webspam, Pornos und andere ausufernde SEO-Webseiten umgehen können. So soll die Stiftung ihre Ressourcen effizienter einsetzen können, um Webseiten zu erfassen, die von Menschen für Menschen erstellt werden.

Die Daten der Common Crawl Foundation stehen bei Amazon S3 zum Download bereit. Zudem wird ein Image für Amazon EC2 angeboten, mit dem die Daten direkt per Map-Reduce verarbeitet werden können, ohne dass das gesamte Archiv heruntergeladen werden muss. Zudem gibt es Archive mit Metadaten sowie ein Archiv mit den reinen Textdaten der Webseite.

Gedacht sind die Daten vor allem für Forscher. Diesen will die Common Crawl Foundation auf diesem Weg einen umfangreichen Auszug des Webs zur Verfügung stellen, mit dem sie arbeiten können, ohne eine eigene Crawler-Infrastruktur aufsetzen zu müssen.

Der aktuelle Datensatz wurde zwischen dem 15. Februar 2012 und dem 29. November 2012 erstellt und umfasst rund 81 TByte.


eye home zur Startseite



Anzeige

Stellenmarkt
  1. Experis GmbH, Kiel
  2. Bundeskriminalamt, Wiesbaden
  3. BG-Phoenics GmbH, München
  4. Wüstenrot Immobilien GmbH, Ludwigsburg


Anzeige
Blu-ray-Angebote
  1. (u. a. Reign, Person of Interest, Gossip Girl, The Clone Wars)
  2. (u. a. The Revenant, Batman v Superman, James Bond Spectre, Legend of Tarzan)
  3. (u. a. The Revenant 7,97€, James Bond Spectre 7,97€, Der Marsianer 7,97€)

Folgen Sie uns
       


  1. ZTE

    Chinas großes 5G-Testprojekt läuft weiter

  2. Ubisoft

    Far Cry 5 bietet Kampf gegen Sekte in und über Montana

  3. Rockstar Games

    Waffenschiebereien in GTA 5

  4. Browser-Games

    Unreal Engine 4.16 unterstützt Wasm und WebGL 2.0

  5. Hasskommentare

    Bundesrat fordert zahlreiche Änderungen an Maas-Gesetz

  6. GVFS

    Windows-Team nutzt fast vollständig Git

  7. Netzneutralität

    Verbraucherschützer wollen Verbot von Stream On der Telekom

  8. Wahlprogramm

    SPD fordert Anzeigepflicht für "relevante Inhalte" im Netz

  9. Funkfrequenzen

    Bundesnetzagentur und Alibaba wollen Produkte sperren

  10. Elektromobilität

    Qualcomm lädt E-Autos während der Fahrt auf



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Redmond Campus Building 87: Microsofts Area 51 für Hardware
Redmond Campus Building 87
Microsofts Area 51 für Hardware
  1. Windows on ARM Microsoft erklärt den kommenden x86-Emulator im Detail
  2. Azure Microsoft betreut MySQL und PostgreSQL in der Cloud
  3. Microsoft Azure bekommt eine beeindruckend beängstigende Video-API

3D-Druck bei der Bahn: Mal eben einen Kleiderhaken für 80 Euro drucken
3D-Druck bei der Bahn
Mal eben einen Kleiderhaken für 80 Euro drucken
  1. Bahnchef Richard Lutz Künftig "kein Ticket mehr für die Bahn" notwendig
  2. Flatrate Öffentliches Fahrradleihen kostet 50 Euro im Jahr
  3. Nextbike Berlins neues Fahrradverleihsystem startet

Google I/O: Google verzückt die Entwickler
Google I/O
Google verzückt die Entwickler
  1. Neue Version im Hands On Android TV bekommt eine vernünftige Kanalübersicht
  2. Play Store Google nimmt sich Apps mit schlechten Bewertungen vor
  3. Daydream Standalone-Headsets auf Preisniveau von Vive und Oculus Rift

  1. Re: 700$ - Ich hätte da eine bessere Lösung...

    Oktavian | 20:48

  2. Re: Wundert mich nicht, die löschen auch...

    ex-Amazoner | 20:48

  3. Re: Mit Stream On gibt es noch ein ganz anderes...

    redmord | 20:46

  4. Was habe ich von Netzneutralität als Kunde?

    sundown73 | 20:45

  5. Re: Toller Artikel, coole Technik

    David64Bit | 20:45


  1. 17:40

  2. 16:40

  3. 16:29

  4. 16:27

  5. 15:15

  6. 13:35

  7. 13:17

  8. 13:05


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel