Zum Hauptinhalt Zur Navigation

Internet Archive: 10.000.000.000.000.000 Byte archiviert

Websites und kulturelle Artefakte aus dem Netz für die Nachwelt: Das Internet Archive hat mittlerweile 10 Petabyte an Daten archiviert.
/ Jens Ihlenfeld
37 Kommentare News folgen (öffnet im neuen Fenster)
Internet Archive speichert mehr als 10 PByte. (Bild: Internet Archive)
Internet Archive speichert mehr als 10 PByte. Bild: Internet Archive

Mit dem Internet Archive will es Brewster Kahle späteren Generationen ermöglichen, Entwicklungen unserer Zeit nachzuvollziehen. Über die Way Back Machine(öffnet im neuen Fenster) können die gesammelten Websites abgefragt werden, so dass deutlich wird, wie eine Website zu verschiedenen Zeitpunkten ausgesehen hat.

Große Datenmengen müssen dafür gespeichert werden. Im Jahr 2005 schaffte das Internet Archive dazu ein erstes System mit einer Speicherkapazität von 1 Petabyte an. Das aber reicht schon lange nicht mehr, denn am 25. Oktober 2012 hat der Datenbestand die Marke von 10 Petabyte überschritten(öffnet im neuen Fenster) , das sind mehr als 10 Millionen GByte.

Nun will das Internet Archive den kompletten Datensatz eines Crawler-Laufs(öffnet im neuen Fenster) zu Forschungszwecken bereitstellen. Das Archiv umfasst rund 80 TByte an WARC-Dateien(öffnet im neuen Fenster) , in denen die Inhalte von rund 2,7 Milliarden URIs zusammengefasst sind. Der Crawlerlauf begann am 9. März 2011 und endete am 23. Dezember 2011. Ausgangspunkt waren die laut Alexa 1 Million am häufigsten besuchten Websites.


Relevante Themen