Wie lassen sich digitale Daten so konservieren, dass sie auch in Dutzenden oder sogar Hunderten von Jahren noch problemlos gelesen und verstanden werden? Diese Frage treibt zurzeit Archivare in der ganzen Welt um – und bereitet nicht wenigen von ihnen schlaflose Nächte. Denn eine Patentlösung für die Langzeitarchivierung digitaler Daten gibt es noch nicht.
Migration: Konvertieren bis in alle Ewigkeit
Bisher bleibt den großen Archiven meist nur eine Möglichkeit: Ihre Datenbestände ständig zu kontrollieren, umzukopieren und auf den neuesten Stand zu bringen – im Wettlauf mit der Zeit und den Fortschritten der Technik. Die Informationen müssen dabei von veralteten Dateiformaten oder Betriebssystemen regelmäßig auf die jeweils aktuellen Programme und Formate konvertiert werden.
Diese Datenmigration hat den Vorteil, dass die Informationen mit der jeweils gängigen Hard- und Software lesbar bleiben. Nachteil ist jedoch, dass dieses Konvertieren angesichts der oft hunderttausenden Dateien in großen Archiven selbst mit automatisierten Routinen enorm aufwändig ist. Das kann dazu führen, dass Archive nur noch Teile ihrer Bestände auf diese Weise pflegen – der Rest geht im Laufe der Zeit verloren.
Hinzu kommt, dass bei jedem Kopiervorgang Fehler passieren können. Daher sind aufwändige Kontrollprozeduren nötig, um die Lesbarkeit der Kopien zu garantieren. Beim Getty-Bildarchiv wird dafür beispielsweise automatisch die Bitmenge jeder Datei, die sogenannte „Checksum“ erfasst und verglichen. Erst wenn beide übersteinstimmen und damit garantiert ist, dass Original und Kopie bis ins letzte Bit übereinstimmen, wird die alte Version gelöscht.
Emulation: Alte Umgebung auf neuer Maschine
Eine weitere Möglichkeit ist die Emulation: Dabei werden die Daten nicht konvertiert, sondern bleiben in ihrem Originalformat – obwohl es veraltet ist. Um die Informationen trotzdem lesen zu können, konstruieren die Archivare die alte Hard- und Softwareumgebung virtuell. Auf einem Rechner der neuesten Generation läuft dann beispielsweise ein alter Atari, das Betriebssystem MS-Dos oder die Anwendung Wordperfect 1.0.
Der Vorteil dabei: Die Originaldateien bleiben erhalten und können im alten Aussehen und in der alten Umgebung betrachtet werden. Mit einer solchen Emulation machen beispielsweise Forscher der Emory University in Atlanta die Original-Dokumente des Schriftstellers Salman Rushdie lesbar. Die in einem mittlerweile veralteten Textverarbeitungsprogramm erstellten Dokumente erscheinen genauso formatiert, wie sie der Autor einst anlegte. Eingesetzt wird die Emulation auch bei der Archivierung von Computerspielen.
Der Nachteil der Emulation: Auch die Emulationsprogramme sind irgendwann veraltet. Sie müssen dann entweder komplett neu geschrieben werden oder aber man benötigt Emulatoren für die Emulatoren. Zudem schützt dieses Verfahren nicht vor der Degradation der Datenträger. Um dies zu verhindern, müssen alle Bestände trotzdem regelmäßig auf neue Datenträger umkopiert werden – Fehlerrisiko inklusive.
Das Problem der Metadaten
Bei allen digitalen Archiven gibt es zudem noch ein grundsätzliches Problem: Um die Information auch in Jahrzehnten oder Jahrhunderten noch wiederzufinden, müssen neben den Daten selbst auch umfangreiche Metadaten erstellt und mitgespeichert werden. Dazu gehören Angaben zu Format und Struktur der Dateien, aber auch zur Herkunft und der Versionsgeschichte. Sie sollen künftigen Betrachtern verraten, welche Technik sie benötigen, um die digitalen Nullen und Einsen wieder in sinnvolle Informationen umzuwandeln.
Idealerweise sollten diese Metadaten in einem einfachen, plattformunabhängigen Format gespeichert sein. Aber welche Kodierung ist auch in 100 Jahren noch ohne große Schwierigkeiten lesbar? Was genau gehört alles in die Metadaten hinein und wie wird es gekennzeichnet? Auf diese Fragen gibt es bisher keine allgemeingültigen Antworten. Die Archive und Archivverbünde testen hier teilweise ganz verschiedene Lösungen.
Und noch etwas kommt dazu: Bei großen Beständen müssen die Metadaten automatisiert erfasst und erstellt werden können – denn manuell würden für diese Arbeit sonst Heerscharen von Helfern benötigt. An den technischen Lösungen dafür wird aber ebenfalls noch gearbeitet.
Damit ist klar, dass digitales Archivieren ständige Arbeit und einen teilweise enormen Aufwand erfordert. Einmal abspeichern und dann einfach vergessen funktioniert nicht. Doch das bedeutet, dass immer auch genügend Menschen, Technik und finanzielle Mittel vorhanden sein müssen. Ein Archiv, das nicht ständig gepflegt werden kann, ist bald wenig mehr als Datenschrott.
Nadja Podbregar