Zum Hauptinhalt Zur Navigation

Internet Archive

Die Golem Newsletter : Das Wichtigste für Techies und IT-Leader auf einen Blick. Jetzt abonnieren

Mit WARC das Web archivieren

ISO legt neuen Standard zur Webarchivierung fest. Die ISO hat mit dem Dateiformat WARC alias "ISO 28500:20092" einen Standard zur Archivierung von Webseiten verabschiedet. Damit soll es einfach werden, die flüchtigen Informationen des Web für die Nachwelt verfügbar zu halten.
undefined

Das Internet im Container

Internet Archive migriert auf SunMD mit Sun Fire X4500 und ZFS. Das Internet Archive hat ein neues Rechenzentrum bezogen, das in einem Standardcontainer 3 Petabyte Daten unterbringt. Mit weiteren Containern soll die Kapazität künftig erweitert werden, schließlich wächst das Archiv um rund 100 TByte pro Monat.

Über 17.000 Bücher mit Recaptcha transkribiert

Initiatoren ziehen nach einem Jahr positive Bilanz des Projektes. Im Frühjahr 2007 haben Wissenschaftler der Carnegie Mellon Universität reCAPTCHA ins Leben gerufen, ein System, um Bücher mit Hilfe von Spamschutzmaßnahmen zu digitalisieren. In einem Aufsatz im Wissenschaftsmagazin Science ziehen sie jetzt eine erste Bilanz des Projekts.
undefined

Interview: "Daten brauchen ein Verfallsdatum"

Golem.de im Gespräch mit Harvard-Professor Viktor Mayer-Schönberger. Sind Daten einmal im Internet gelandet, ist es schwierig, sie wieder zu entfernen. Erinnerung, kritisiert Viktor Mayer-Schönberger, ist im digitalen Zeitalter die Regel und das Vergessen die Ausnahme. Er fordert deshalb die Einrichtung von Verfallsdaten an Informationen. Warum digitales Vergessen so wichtig ist und wo Gefahren im Internet lauern, erklärt Mayer-Schönberger im Gespräch mit Golem.de.

Internet Archive soll Aufnahmen der NASA digitalisieren

Online-Archiv mit Foto- und Filmaufnahmen aus über 50 Jahren Weltraumforschung. Die NASA will zusammen mit dem Internet Archive die in den Archiven der Behörde schlummernden Fotos, historischen Film- und Video-Aufnahmen digitalisieren und im Internet frei zur Verfügung stellen. Bestehende Archive sollen zusammengefasst und so eine zentrale Anlaufstelle geschaffen werden.

AFANA: Alte Filme online retten

Adoptieren, digitalisieren, archivieren. Das Academic Film Archive of North America (AFANA) hat ein Projekt gestartet, um alte 16-mm-Bildungsfilme vor dem Verfall zu retten. Gegen einen geringen Beitrag von 110,- bis 244,- US-Dollar kann jeder eine Filmrettung unterstützen.

reCAPTCHA: Stoppt Spam, lest Bücher

Spam-Schutz soll helfen, gescannte Texte zu digitalisieren. Wissenschaftler der Carnegie-Mellon-Universität wollen Websites mit "reCAPTCHAs" vor automatisierten Spam-Angriffen schützen und zugleich die Digitalisierung von Büchern vorantreiben. Dabei arbeiten sie mit dem Internet Archive zusammen und werden von Intel unterstützt.

Auch Microsoft will eine Büchersuche starten

Zusammenarbeit mit der Open Content Alliance und dem Internet Archive geplant. Google hat sich mit seiner Büchersuche bislang vor allem viel Ärger eingehandelt. Viele Autoren sehen sich ihrer Rechte beraubt, obwohl die Bücher nur in kleinen Ausschnitten zur Verfügung stehen und Google vorerst das Scannen eingestellt hat. Dennoch kündigt Microsoft nun an, mit einer eigenen Büchersuche starten zu wollen und so den Zugriff auf Millionen Bücher zu ermöglichen - allerdings nicht im Alleingang.

Open Content Alliance will Inhalte frei zugänglich machen

Internet Archive sucht Schulterschluss mit Unternehmen und Universitäten. Unter dem Namen "Open Content Alliance" will eine Gruppe von Organisationen und Unternehmen Inhalte unterschiedlicher Art und Weise frei zugänglich machen. Daran beteiligt sind neben dem "Internet Archive" auch Yahoo, Adobe, HP und die Universität Kalifornien.
undefined

Yahoos Cache-Seiten mit Verweis auf Internet Archive

Bequem mehrere Generationen einer Webseite einsehen. Der Suchmaschinenbetreiber Yahoo bindet in seinen Cache-Seiten einen Verweis auf das Internet Archive ein, um dem Nutzer die Möglichkeit zu bieten, frühere Fassungen einer Webseite zu begutachten. Damit lassen sich bequem mehrere Versionen einer Webseite einsehen.

Eignet sich die Datei robots.txt als Kopierschutz?

Bizarre Klage gegen das Internet Archive. Eine bizarre Klage hat die Firma Healthcare Advocates gegen die Anwaltskanzlei Harding, Earley, Follmer & Frailey und das Internet Archive angestrengt. Im Kern lautet der Vorwurf, Harding, Early, Follmer & Frailey hätten durch den Zugriff auf die Wayback-Machine des Internet Archive einen Kopierschutz umgangen und so gegen den Digital Millennium Copyright Act (DMCA) verstoßen.

Ein Petabyte für das Internet Archive

Capricorn installiert skalierbaren Speicher-Cluster PetaBox. Capricorn Technologies hat ein Speichersystem mit einer Kapazität von einem Petabyte, also rund einer Million Gigabyte, an das Internet Archive ausgeliefert. Das System basiert auf der PetaBox von Capricorn, einem hoch skalierbaren Speicher-Cluster, der in diesem Fall aus mehr als 600 Einzelsystemen besteht.

Ourmedia - Mehr als kostenloses Film-Hosting

Neues Projekt mit Unterstützung von Brewster Kahle und dem Internet Archive. Mit Ourmedia startet jetzt ein Open-Source-Media-Projekt, das multimediale Arbeiten von jedermann eine Heimat geben will. Ourmedia soll aber weitaus mehr sein als nur eine dauerhaft kostenlose Hosting-Plattform für Audio- und Video-Inhalte: Das Projekt versteht sich als Plattform für eine Remix-Kultur.

FreeCache: Keine Angst vor zu viel Traffic

Kostenloser Dienst soll Traffic für Anbieter großer Dateien reduzieren. Wer größere Datenmengen zum Download anbietet, steht schnell unerwartet hohen Traffic-Kosten gegenüber. Insbesondere für kleine Anbieter kann dies schnell zu einem finanziellen Problem werden. Das Internet Achive will dieses mit seinem Dienst FreeCache lösen. Damit soll es jedem möglich sein, auch größere Dateien wie Musik oder Videos zum Download anzubieten, ohne Angst vor ausufernden Kosten haben zu müssen.