Mit WARC das Web archivieren
Das Format WARC (Web ARChive) erlaubt es, mehrere Datenobjekte in einer langen Datei abzulegen. Damit sollen sich Applikationen entwickeln lassen, die Webinhalte abgrasen, verwalten, zur Verfügung stellen und deren Austausch ermöglichen. Die Standardisierung soll dafür sorgen, das Thema Archivierung breiter zu verankern.
WARC ist eine Erweiterung des Dateiformats ARC, das vom Internet Archive seit 1996, aber auch von anderen Institutionen eingesetzt wird. Es wird genutzt, um die beim Crawlen des Webs anfallenden Daten samt der darin verlinkten Daten abzulegen. Anders als das ARC-Format erlaubt WARC auch die Aufzeichnung von HTTP-Request-Headern und beliebiger Metadaten. Zudem lassen sich Duplikate besser verwalten und Inhalte migrieren sowie segmentieren. Dabei soll WARC zur Speicherung beliebiger digitaler Inhalte geeignet sein, ganz gleich ob diese über HTTP oder ein anderes Protokoll erfasst wurden.
Einige Archivierungswerkzeuge unterstützen WARC bereits, darunter der Heritrix Crawler(öffnet im neuen Fenster) des Internet Archive, die WARC Tools(öffnet im neuen Fenster) , die Wayback Machine(öffnet im neuen Fenster) und NutchWAX(öffnet im neuen Fenster) .