Logo

Ervaringen met preserveringstools FITS en CSPO

Auteur: Eva van den Hurk – van ’t Klooster, Adviseur Digitale Archieven, 6 april 2021

'De ontwikkeling van digitaal archief stelt ons voor een nieuwe uitdaging: hoe bewaren we aan elkaar gerelateerde bits en bytes op zo’n manier dat ze over 100 jaar nog te lezen zijn? Voor veel archieven ligt de oplossing van de langetermijnarchivering van digitaal archief bij het e-depot. Onderdeel van het e-depot is het inrichten van de preservering van digitaal archief. Om preserveringsopties (migratie, conversie en emulatie) mogelijk te maken, kan gebruik worden gemaakt van preserveringstools. Deze zijn in te zetten zowel voor als na ingest. In deze blog neem ik jullie mee langs de preserveringstools FITS en C3PO.

FITS en C3PO
In het najaar van 2020 ben ik begonnen met het testen van preserveringstools ter voorbereiding op ingests in het e-depot. Vanwege goede ervaringen van andere archiefdiensten, de combinatie van verschillende tools in één en de extra mogelijkheid om de metadata te analyseren via een webinterface, heb ik gekozen voor FITS in combinatie met C3PO.

FITS staat voor File Information Tool Set (FITS) en C3PO voor Clever, Crafty Content Profiling of Objects. FITS identificeert, valideert en extraheert technische metadata uit verschillende soorten bestandsformaten. Het gedraagt zich als een soort container, waarin output van verschillende preserveringstools opgenomen en gemanaged kunnen worden. De output van deze tools worden omgezet naar een standaardformaat, met elkaar vergeleken en gezamenlijk in één XML exportbestand gezet. Tools die in FITS zitten zijn o.a. DRIOD Jhove, Apache Tika en Exiftool.

C3PO is een software tool waarin metadata uit digitale archiefstukken als input worden gebruikt voor een profiel van de dataset. Het biedt filtermethoden en grafieken om analyses los te laten op de informatie uit FITS. Resultaten en analyses kunnen in XML en CSV worden geëxporteerd.

 

Preserveringstools FITS
Preserveringstool FITS

 

Installatie
Het in elkaar zetten van FITS en C3PO gaat een stuk verder dan een website bouwen in Wordpress . Dat begint met de aanbieding van de tools via Github: je mag ze dus zelf in elkaar knutselen met een aantal downloads. Hiervoor is informatie beschikbaar op Github en bij het Nationaal Archief. Ben je, net als ik, niet dagelijks bezig met programmeren, dan kan het Nationaal Archief (NA) je als archiefdienst hierbij assisteren. Samen met Remco van Veenendaal van het NA heb ik de twee programma’s draaiende weten te krijgen.

Gebruik
FITS en C3PO worden bestuurd via Opdrachtprompt. Door de juiste locaties en codes in te voeren, starten de programma’s op. Voor FITS doe je dat door de locatie van het programma FITS in te voeren en de locatie van de dataset die je door FITS wilt laten analyseren. Als de analyse klaar is, heeft FITS per geanalyseerd bestand een XML-bestand gemaakt waarin de output van de gebruikte tools met elkaar wordt vergeleken. FITS herkent zelf welke geïncorporeerde tools het kan loslaten op een bestand. Zo zal het nooit een tool voor audiovisuele bestanden (bijvoorbeeld MediaInfo) gebruiken voor een Word-document.

In de XML-bestanden staat verschillende informatie onder elkaar:
- Identificatie: formaat, mimetype, formaatversie, PRONOM-ID;
- Bestandsinformatie: grootte, gebruikte software, creatiedatum, checksums etc.;
- Bestandsstatus: is het bestand correct gestructureerd;
- Metadata: beschrijving van de informatie in het bestand;
- Statistieken: welke tools zijn gebruikt om bovenstaande informatie te genereren en hoe lang heeft iedere tool er over gedaan.

Wanneer een tool iets anders leest dan een andere tool, wordt dit als CONFLICT aangegeven. Het kan voorkomen, zoals in het voorbeeld, dat er geen sprake is van een daadwerkelijk conflict in informatie maar een verschil in noteerwijze. Wanneer voor een dataset alle XML-bestanden zijn aangemaakt kunnen de gegevens van FITS worden ingeladen in C3PO, die via grafieken en tabellen de geëxtraheerde metadata weergeeft. Op basis van deze grafieken en bijbehorende filteropties kunnen lege bestanden (bestanden van 0 KB) uit de set worden gefilterd en problematische bestanden (bestanden waarvan de tools er niet uitkomen wat voor bestandsformaat het heeft) snel worden opgespoord. Het is mogelijk om op basis van eigen wensen nieuwe tabellen aan het C3PO scherm toe te voegen.

Preserveringstools C3PO
Preserveringstool C3PO

Inzetbaarheid in processen
FITS en C3PO zijn preserveringstools die in de pré-ingestfase kunnen worden gebruikt. Ze sporen nog voor de ingest problematische bestanden op, waarover vervolgens met de aanleverende gemeente gesproken kan worden. De tools kunnen ook na ingest gebruikt worden, hoewel hun invloed en nut afhangt van het gebruikte type e-depot. In sommige e-depots is het mogelijk om FITS en C3PO in te bouwen om zo op lange termijn inzage te krijgen in de gesteldheid van het digitale archief. Bij andere e-depots is het niet mogelijk om deze tools in te bouwen. De tools kunnen dan alleen ingezet worden wanneer het digitale archief eerst geëxporteerd wordt naar een lokale schijf. De vraag is of dit wenselijk is.

Actuele bruikbaarheid
De huidige versies van FITS en C3PO bevatten nog een aantal kinderziektes. Zo worden niet alle bestanden uit een dataset al meegenomen door de twee tools. Vooral bij C3PO missen er in de analyse soms vele gegevens. Deze constateringen zijn gedeeld met de ontwikkelaars van de tools. Het is dan ook te verwachten dat over niet al te lange tijd FITS en C3PO volledig naar behoren werken en een mooie bijdrage kunnen leveren aan de langetermijnpreservering van digitaal archief.'