Preserveringsbeleid, bestandsformaten en kwaliteitscontrole Eindrapport van het NCDD-‐project Richtlijnen ten behoeve van automatische kwaliteitscontrole
NCDD Nationale Coalitie Digitale Duurzaamheid
Versie 1.0 | Den Haag, 14 juli 2015 | Vera Hubers -‐ Koninklijke Bibliotheek | Nationaal Archief | Nederlands Instituut voor Beeld en Geluid | CCDD | Data Archiving and Networked Services
Voorwoord Het voorliggende rapport beschrijft de resultaten van het project Automatische Kwaliteitscontrole. Dit project is uitgevoerd tussen april 2014 en juni 2015 in opdracht van de Nationale Coalitie Digitale Duurzaamheid (NCDD). Het is een van de samenwerkingsprojecten die zijn geformuleerd in de strategische agenda van de NCDD en het NCDD-‐programmaplan 2013 – 2018. Het project maakt onderdeel uit van een reeks van projecten die de basis vormt voor de inrichting van een netwerk van landelijke voorzieningen voor duurzame toegang tot digitale informatie in Nederland. Het eindresultaat is tot stand gekomen in een nauwe samenwerking tussen de Koninklijke Bibliotheek, het Nationaal Archief, Data Archiving and Networked Services, het Nederlands Instituut voor Beeld en Geluid en EYE Filmmuseum als vertegenwoordiger van de Culturele Coalitie Digitale Duurzaamheid. De projectleiding was in handen van de Koninklijke Bibliotheek. Over de NCDD De Nationale Coalitie Digitale Duurzaamheid is in 2008 opgericht door organisaties uit de publieke sector die de langdurige zorg voor digitale informatie in het publieke domein tot hun kerntaak rekenen. De NCDD fungeert als platform voor het delen van kennis en expertise en coördineert de ontwikkeling van een landelijk netwerk waarin de toegang tot digitale informatie van de publieke sector gegarandeerd is. www.ncdd.nl
2
Inhoudsopgave 0 1
Inleiding ......................................................................................................................................... 5 De stip op de horizon: preserveringsbeleid in Nederland ............................................................. 7 1.1 Nederlands Instituut voor Beeld en Geluid ........................................................................... 9 1.1.1 Preserveringsbeleid in aanbouw .................................................................................... 9 1.1.2 Kwaliteitseisen ............................................................................................................. 10 1.2 Koninklijke Bibliotheek ........................................................................................................ 11 1.2.1 Tot standkoming Preservation Policies in de KB .......................................................... 11 1.2.2 Relatie met praktijk ...................................................................................................... 12 1.2.3 Beschrijving .................................................................................................................. 12 1.3 Nationaal Archief ................................................................................................................. 12 1.4 Data Archiving and Networked Services (DANS) ................................................................. 13 1.5 EYE Filmmuseum .................................................................................................................. 13 1.6 Conclusie .............................................................................................................................. 14 2 Bestandsformaten -‐ opslag .......................................................................................................... 15 2.1 Nederlands Instituut voor Beeld en Geluid ......................................................................... 15 2.1.1 Opslag en toegankelijkheid .......................................................................................... 15 2.1.2 Analoge materialen ...................................................................................................... 15 2.1.3 Omroepcollecties ......................................................................................................... 16 2.1.4 Externe collecties ......................................................................................................... 16 2.2 Koninklijke Bibliotheek ........................................................................................................ 16 2.3 Nationaal Archief ................................................................................................................. 17 2.4 Data Archiving and Networked Services (DANS) ................................................................. 18 2.5 EYE Filmmuseum .................................................................................................................. 18 2.6 Conclusie .............................................................................................................................. 18 3 Bestandsformaten: kennis ........................................................................................................... 20 3.1 Nederlands Instituut voor Beeld en Geluid ......................................................................... 20 3.2 Koninklijke Bibliotheek ........................................................................................................ 20 3.3 Nationaal Archief ................................................................................................................. 21 3.4 Data Archiving and Networked Services (DANS) ................................................................. 22 3.5 EYE Filmmuseum .................................................................................................................. 22 3.6 Conclusie .............................................................................................................................. 23 4 Tools voor kwaliteitscontrole ...................................................................................................... 24 4.1 Nederlands Instituut voor Beeld en Geluid ......................................................................... 24 4.1.1 Nederlands Instituut voor Beeld en Geluid .................................................................. 24 4.2 Koninklijke Bibliotheek ........................................................................................................ 25 4.3 Nationaal Archief ................................................................................................................. 25 4.4 Data Archiving and Networked Services (DANS) ................................................................. 27 4.5 EYE Filmmuseum .................................................................................................................. 27 4.5.1 DigiScanner .................................................................................................................. 28 4.5.2 Quicktime Player/VLC .................................................................................................. 28 4.5.3 OS X DVD-‐speler ........................................................................................................... 28 4.5.4 Audacity ....................................................................................................................... 28 4.5.5 EasyDCP Player ............................................................................................................ 28 3
4.5.6 Doremiserver EYE-‐Cinema ........................................................................................... 28 4.5.7 Digital Betacam Speler ................................................................................................. 28 4.5.8 djv_view ....................................................................................................................... 29 4.5.9 DaVinci Resolve ............................................................................................................ 29 4.5.10 After Effects ................................................................................................................. 29 4.5.11 VideoSpec/ MediaInfo/ iMediaHUD ............................................................................ 29 4.5.12 OS X Disk Utility ............................................................................................................ 29 4.5.13 arRsync ......................................................................................................................... 29 4.6 Conclusie .............................................................................................................................. 29 5 Toekomstplannen ........................................................................................................................ 31 5.1 Nederlands Instituut voor Beeld en Geluid ......................................................................... 31 5.1.1 Beleid op waardestelling .............................................................................................. 31 5.2 Koninklijke Bibliotheek ........................................................................................................ 32 5.3 Nationaal Archief ................................................................................................................. 32 5.4 Data Archiving and Networked Services (DANS) ................................................................. 33 5.5 EYE Filmmuseum .................................................................................................................. 33 6 Verwante internationale projecten ............................................................................................. 34 6.1 SCAPE (Koninklijke Bibliotheek) ........................................................................................... 34 6.2 APARSEN (Koninklijke Bibliotheek) ...................................................................................... 34 6.3 PREFORMA (Nederlands Instituut voor Beeld en Geluid) .................................................... 35 6.4 E-‐ARK (Nationaal Archief) .................................................................................................... 36 7 Conclusie en aanbevelingen ........................................................................................................ 38 Bijlage A: Projectdeelnemers ............................................................................................................... 44
4
0 Inleiding De Nationale Coalitie Digitale Duurzaamheid (NCDD) heeft tussen mei 2014 en april 2015 de eerste fase van het project Permanente digitale toegang door automatische kwaliteitscontrole uitgevoerd in het kader van het meerjarenplan 2013-‐2018. Doel van dit project was het inventariseren van bestaande richtlijnen voor de verwerking van verschillende bestandsformaten bij de aan dit project deelnemende organisaties. Richtlijnen voor verwerking van bestandsformaten zijn afgeleid van het duurzaamheidsbeleid (preservation policy) dat door betreffende instellingen gehanteerd wordt. Daarom werd dit onderwerp breder benaderd in de vorm van een drietal vragen: 1. Wat is het beleid ten aanzien duurzame toegang tot digitale collecties bij de betrokken instellingen? 2. Welke digitale collecties worden er opgenomen door de betrokken instellingen en welke bestandsformaten worden daarbij toegelaten? 3. Welke richtlijnen worden er gehanteerd voor opname en verwerking van de betreffende bestandsformaten? Met betrekking tot deze vraag is er gekeken naar het proces van totstandkoming van zogenaamde preferred formats. Oorspronkelijke doelstelling In het oorspronkelijke projectplan werd een ander doel geschetst voor dit project: Het vaststellen van een generieke set aan kwaliteitscontroles uitgevoerd tijdens het verwerkingsproces van digitale bestanden. Dit zou vervolgens moeten leiden tot de ontwikkeling van een generieke tool voor het uitvoeren van kwaliteitscontroles, een voorziening die door meerdere organisaties ingepast zou kunnen worden in het verwerkingsproces, waarmee de kwaliteit van de te verwerken digitale bestanden gecontroleerd zou kunnen worden. De aanvankelijke aanname was dat dit al min of meer op gestandaardiseerde wijze plaats zou vinden met min of meer gelijke processen en tools. De ontwikkeling van een dergelijke generieke voorziening zou vervolgens kunnen worden uitbesteed aan de markt middels een procurement traject. Een eventueel procurement traject zou worden opgenomen in de projectenportfolio van het programma Inkoop Innovatie Urgent van het Ministerie van Economische Zaken. Hiermee zou er, behalve de ontwikkeling van een kwaliteitscontroletool, ervaring opgedaan kunnen worden met het organiseren van publiek-‐private samenwerking en met procurement-‐achtige financieringsinstrumenten. Al snel bleek echter het oorspronkelijk projectdoel niet haalbaar. De in dit project betrokken organisaties hebben te maken met verschillende bestandsformaten en verschillende tools 5
voor kwaliteitscontrole. Het is dan ook nog te vroeg gebleken voor het harmoniseren van de controleprocessen. Zo worden de kwaliteitscontroles die de Koninklijke Bibliotheek uitvoert op de tekstuele bestanden in PDF uitgevoerd met geheel andere soort controlesoftware dan de controles die het Nederlands Instituut voor Beeld en Geluid uitvoert op de te verwerken audiovisuele bestanden. Controletools daarvoor komen uit een geheel ander segment van de markt. Daarnaast worden ook lang niet altijd controles uitgevoerd op dezelfde plaats in het proces. Veelal worden controles uitgevoerd tijdens het verwerkingsproces (ingest), maar in sommige gevallen worden deze pas uitgevoerd nadat de bestanden zijn opgeslagen. Dit heeft te maken met een aantal pragmatische keuzes die per betrokken instelling anders zijn. Op te leveren producten Na vaststelling van de onhaalbaarheid van de initiële doelstelling is deze aangepast en heeft de projectgroep besloten zich te richten op richtlijnen voor controle van bestandsformaten in het verwerkingsproces. De resultaten die dit project zal opleveren zijn: 1. Een overzicht van preservation policies bij de deelnemende organisaties (hoofdstuk 1) 2. Een overzicht van bestandsformaten die de organisaties opnemen (hoofdstuk 2) 3. Een overzicht van bestandsformaten waarin de organisaties kennis investeren (hoofdstuk 3) 4. Een overzicht van tools die de organisaties voor kwaliteitscontrole gebruiken (hoofdstuk 4) 5. Een overzicht van de toekomstplannen van de betrokken organisaties (hoofdstuk 5) Dit project is uitgevoerd onder leiding van de Koninklijke Bibliotheek in opdracht van de NCDD. Het project maakt onderdeel uit van een reeks van projecten die de basis vormen voor de inrichting van een netwerk van landelijke voorzieningen voor duurzame toegang tot digitale informatie in Nederland. Naast de Koninklijke Bibliotheek namen de volgende instellingen aan het project deel: Nationaal Archief, Nederlands Instituut voor Beeld en Geluid, Data Archiving and Networked Services (DANS) en de CCDD vertegenwoordigd door EYE Filmmuseum. Een overzicht van de projectdeelnemers is te vinden in Bijlage A: Projectdeelnemers.
6
1 De stip op de horizon: preserveringsbeleid in Nederland Context van het project De snel groeiende digitale informatie op een efficiënte wijze toegankelijk houden voor toekomstige generaties is een van de grote uitdagingen waar collectie beherende instellingen voor staan. Digitale informatie is kwetsbaar en tegelijkertijd zijn we er sterk afhankelijk van geworden. De razendsnelle digitalisering van de samenleving heeft ervoor gezorgd dat de manier waarop mensen met elkaar communiceren, wetenschap bedrijven en informatie verzamelen, veranderd is. Er zijn vergelijkbare maar ook geheel nieuwe objecten in digitale vorm ontstaan. Met computers worden documenten, foto's, films, muziek, kunst, databases, games, websites, multimediale toepassingen, etc. gemaakt. Dit betekent ook dat deze digitale bronnen verzameld en bewaard moeten worden, enerzijds door authentieke bronnen op grote schaal te digitaliseren, anderzijds door de grote aanwas van born digital objecten duurzaam op te slaan en toegankelijk te houden. Grenzen die in het fysieke domein betrekkelijk helder zijn, zijn dat in de digitale wereld niet meer. Digitale informatie (publicaties, archiefstukken, websites, onderzoeksdata of audiovisuele data) wordt opgeslagen in digitale archieven. Om de toegang op lange termijn te kunnen garanderen moet er voldaan worden aan een aantal belangrijke randvoorwaarden. Een van die voorwaarden is dat duidelijk is wát er wordt opgeslagen, en dat de vorm en consistentie van de opgeslagen objecten gecontroleerd wordt (karakteriseren en valideren). Zo moet duidelijk zijn om welke bestandsformaten het gaat, of alle bits en bytes van het bestand kloppen, of er geen beveiligingen op een bestand staan, hoe bestanden met elkaar gekoppeld zijn, etc. Gelet op de enorme hoeveelheid objecten die collectie beherende instellingen dagelijks verwerken, is het onmogelijk dit handmatig te doen, zoals dat in de fysieke wereld veelal gebeurt. Kwaliteitscontroles op digitale bestanden vormen in bijna alle gevallen een geautomatiseerd proces. Dit is lastig omdat het om veel en divers materiaal gaat, omdat technologische ontwikkelingen snel gaan (formaten veranderen en bestaande tools voor automatische kwaliteitscontrole moeten dus in hoog tempo mee veranderen) en omdat het proces ingewikkeld is. Daar komt bij dat kwaliteitscontrole, kort samengevat als “informatie over een digitaal object’’, wezenlijk is voor alle stappen van digitale duurzaamheid.
7
SCAPE drielagen policy model Tijdens het Europese project SCAPE (2011-‐2014) is onderzoek gedaan naar Preservation Policies als onderdeel van Preservation Planning en Preservation Watch. Achterliggende gedachte is dat Preservation Policies op verschillende niveaus in de organisatie van digitale duurzaamheid invloed hebben en activiteiten sturen. Het SCAPE Policy Model bestaat uit drie niveaus en gaat van globaal naar gedetailleerd. Op het hoogste niveau, de Guidance policies, worden de lange termijn doelen van de duurzame collecties beschreven. Bijvoorbeeld de komende 100 jaar zullen de digitale collecties toegankelijk blijven. Hoe dit dan gerealiseerd gaat worden, wordt beschreven in de Preservation Procedure policies. Hierin staan acties als bijvoorbeeld bit preservation, maar ook het opleiden van personeel en het veilig stellen van voldoende middelen. Veelal hebben de Preservation Procedure policies betrekking op grote delen van de collectie. Een nadere uitwerking, waarbij rekening gehouden wordt met de eigenschappen van (deel)collecties, vindt plaats in de Control policies. De twee bovenste niveaus van policies zijn altijd in “mensentaal” opgesteld, ze dienen immers als middel om interne activiteiten te stroomlijnen. De Control policies zullen in eerste instantie ook in mensentaal opgeschreven worden om hun correctheid te kunnen bediscussiëren, maar zullen vervolgens in computertaal worden omgezet, zodat er automatische preservation acties kunnen plaatsvinden met de Control policies als input. Een nadere uitwerking van dit model is te vinden in de SCAPE Catalogue of Preservation Policy Elements1. Wil men zelf een policy opstellen, dan kan men inspiratie opdoen bij een verzameling policies van andere instellingen2.
1 2
http://wiki.opf-labs.org/display/SP/Catalogue+of+Preservation+Policy+Elements http://wiki.opf-labs.org/display/SP/Published+Preservation+Policies
8
In dit hoofdstuk wordt een overzicht gegeven van de policies (preserveringsbeleid) zoals die door de in dit project deelnemende organisaties worden gehanteerd. Per organisatie wordt er geschetst in welk stadium het peserveringsbeleid zich bevindt (de mate van volwassenheid), hoe het tot stand gekomen is en welke stappen er nog gezet dienen te worden. Policies vormen een essentieel uitgangspunt voor digitale duurzaamheid. Op basis van informatie over een digitaal object kunnen preservation actions worden voorgesteld (wat moeten we voor deze collectie doen?). Deze preservation actions maken onderdeel uit van de preservation planning (wanneer moeten we wat voor welke collectie doen?) en de preservation planning is weer een afgeleide van de preservation policy: het collectiebehoudsplan voor digitale collecties (op welk duurzaamheidsniveau houden wij onze verschillende collectieonderdelen duurzaam toegankelijk?)3. Een goed werkende kwaliteitscontrole is dus ook van strategisch belang voor iedere collectie beherende instelling.
1.1 Nederlands Instituut voor Beeld en Geluid 1.1.1 Preserveringsbeleid in aanbouw Beeld en Geluid is een instelling met een publieke taak die zich bezighoudt met het bewaren van het nationale audiovisuele erfgoed. Het maakt keuzes met betrekking tot selectie, standaarden, diensten en prioriteiten die gebaseerd zijn op het collectiebeleid4. Voor het duurzaam bewaren en aanbieden van digitale bestandsformaten is alleen het inrichten van een fysieke digitale opslagvoorziening dan ook niet voldoende. In het Meerjarenplan 2011-‐ 2015 is duurzaam behoud van digitale objecten vastgelegd als een strategische prioriteit. Om digitale audiovisuele collecties daadwerkelijk voor de toekomst te behouden en beschikbaar te blijven stellen is overzicht, samenhang, richting en standaardisering nodig op het niveau van alle verplaatsingen, conversies en mutaties van de digitale bestandsformaten. Deze samenhang wordt bereikt door de implementatie van een digitaal preserveringsbeleid. Dit beleid ligt ten grondslag aan de inrichting van een rationele, kosteneffectieve beheersomgeving voor de duurzame instandhouding van de digitale collecties. Van eind 2012 tot begin 2014 liep bij Beeld en Geluid het project Trusted Digital Repository (TDR). Opdracht van dit project was het in kaart brengen van alle requirements voor een OAIS-‐ compliant digitaal archief als voorbereiding op de formele status als Trustworthy Digital Repository. Uit dit project zijn beleidsstukken voortgekomen met kwaliteitsrichtlijnen voor 3
4
Deze samenhang is beschreven in het functioneel model ontwikkeld in het Planets project
Collectiebeleid Beeld en Geluid
9
het digitaal archief, submission en order agreements, object lifecycle management en preserveringsmetadata. In 2015 wordt er gewerkt aan het opstellen van officieel preserveringsbeleid. Dit moet resulteren in een overzichtelijke set aan documenten met op het hoogste niveau het strategische preserveringsbeleid. Deze documenten moeten de hoofdlijnen weergeven van de zaken zoals deze vastgelegd moeten worden door Beeld en Geluid om te komen tot een aanvraag van de DSA. Daarbinnen wordt ook weer verwezen naar andere beleidsstukken die in het kader hiervan ook geformaliseerd moeten worden op het gebied van security, back-‐ up en recovery, preserveringsniveaus, standaard workflows, standaard diensten, contracten, kwaliteitscontroles, storagebeleid en leveringsvoorwaarden. 1.1.2 Kwaliteitseisen Beeld en Geluid houdt zijn digitale collecties technisch bijdetijds door delen regelmatig over te zetten naar actuele digitale formaten, naar vernieuwde hard-‐ en softwareomgevingen voor opslag en beheer en naar eigentijdse versies van opslagmedia, zoals datatapes en taperobots. De migratiecycli variëren en zijn afhankelijk van de mate waarin de betreffende formaten en hun technologische omgeving in onbruik geraakt zijn. Een digitaal archief moet in de eerste plaats voldoen aan de eis van persistentie. Dat houdt in dat het materiaal er op het gedetailleerde niveau van de bitconfiguratie precies zo uit moet komen als het erin gegaan is: compleet en in de juiste datastructuur. Deze data-‐ integriteit wordt door Beeld en Geluid vastgesteld door middel van checksums -‐ het vergelijken van het bestandsformaat met de originele bitconfiguratie zoals die is vastgelegd bij de instroom van het materiaal. Naast de data-‐integriteit moet de authenticiteit van een digitaal object door het archief zijn gewaarborgd. Authenticiteit wordt hier opgevat in zijn archivale betekenis, namelijk dat een object werkelijk is wat het voorgeeft te zijn. Door Beeld en Geluid wordt dit zeker gesteld door het vastleggen van alle relevante gegevens over het betreffende object in de context waarbinnen het is gecreëerd en gebruikt. Alle relevante procedures, handelingen en gegevens daarover worden hiertoe nauwkeurig vastgelegd binnen een gecontroleerd geheel van processen, systemen en mensen. Deze vormen samen de basis voor het geformaliseerde administratieve beheer van het digitaal archief. Alle migraties, conversies, verplaatsingen en bewerkingen moeten volgens welomschreven regels worden gedocumenteerd. Het strak beheren van de levenscyclus van de materialen is nodig voor de beheersing van het digitale archief en om te allen tijde de herkomst en bewerkingen van alle ingestroomde bestanden, metadata en datacontainers te kunnen traceren. De vastlegging van dit type gegevens vormt immers de basis voor het kunnen garanderen van de authenticiteit van de collectie. Beeld en Geluid ontwikkelt daartoe een 10
geheel nieuw instrumentarium voor de organisatie en beheersing van zijn digitale processen.
1.2 Koninklijke Bibliotheek Om zowel intern als extern duidelijkheid te verschaffen over de taak van de Koninklijke Bibliotheek, namelijk het duurzaam toegankelijk houden van het Nederlandse (digitale) erfgoed, meer specifiek “publicaties”, is een begin gemaakt met het beschrijven van policies onder de titel Beleidsuitgangspunten Digitale Duurzaamheid 2015-‐2018, waarin op hoofdlijnen beschreven is wat het kader voor digitale duurzaamheid is. 1.2.1 Totstandkoming Preservation Policies in de Koninklijke Bibliotheek Het maken van een preservation policy is geen eenvoudige zaak. De Koninklijke Bibliotheek heeft verschillende fasen doorlopen, voordat ze tot het huidige resultaat kwam. Het beginpunt lag bij de afdeling Onderzoek. Daar werd al in 2009 begonnen met een inventarisatie van policies. Op basis van vakliteratuur over digitale duurzaamheid en de bijbehorende standaarden en de impliciet aanwezige uitgangspunten in de Koninklijke Bibliotheek is in 2011 een overzicht samengesteld van (gewenste) beleidsuitgangspunten ten aanzien van duurzame bewaring. Omdat deze beleidsuitgangspunten niet altijd expliciet waren, werden de punten als vraag geformuleerd. Dus bijvoorbeeld “welke collecties wil de Koninklijke Bibliotheek duurzaam bewaren?” Aanvullende werkzaamheden in SCAPE leidden tot nog beter inzicht en een heldere verdeling van verschillende niveaus van policies, waarbij de Koninklijke Bibliotheek zich in eerste instantie op het hoogste niveau richtte. In overleg met de afdeling Collectiebehoud is er een plan van aanpak voorgesteld aan de directie, die expliciet een discussiestuk verwachtte waarin het beleid werd toegelicht, maar waar ook knelpunten en oplossingen onderdeel van uitmaakten. Omdat digitale duurzaamheid vele raakvlakken in de organisatie heeft en niet iets is van één afdeling, is de werkgroep Preservation Policies samengesteld, waarin vertegenwoordigers van alle relevante afdelingen binnen de Koninklijke Bibliotheek zaten, onder leiding van de afdeling Productie & Beheer, waar Collectiebehoud een onderdeel van is. De werkgroep heeft input geleverd op grond waarvan het huidige Beleidsuitgangspunten Digitale Duurzaamheid is samengesteld. Daarin zijn de belangrijkste (maar niet alle) vragen van een uitgangspunt voorzien en op hoofdlijnen is duidelijk wat het streven van de Koninklijke Bibliotheek is met digitale duurzaamheid. Nadere invulling van het beleid wordt beschreven in bijvoorbeeld richtlijnen voor file formaten en richtlijnen voor metadata. Het streven is de overige vragen ook te beantwoorden en tot een integrale policy te komen.
11
1.2.2 Relatie met praktijk Het document is officieel door de directie goedgekeurd en staat op intranet. In het document staan een aantal strategische doelen om bepaalde beleidsuitgangspunten binnen de genoemde beleidsperiode (2015-‐2018) uit te werken. Deze zijn grotendeels in het KB Beleidsplan 2015-‐20185 terecht gekomen, zoals certificering. Daarnaast heeft de Koninklijke Bibliotheek een regulier intern overleg waarin de opname van nieuwe materialen door alle betrokken afdelingen wordt besproken. De beleidsuitgangspunten zijn daarbij een belangrijke leidraad. 1.2.3 Beschrijving De Koninklijke Bibliotheek heeft nog geen preservation strategy, in die zin dat de nadruk nu ligt op het mogelijk maken diverse digitale materialen binnen te halen (ingest) en op bit level preservation niveau te bewaren, inclusief het voldoen aan de eisen die vanuit de beleidsuitgangspunten en (specifieke) richtlijnen worden gesteld.
1.3 Nationaal Archief Het Nationaal Archief werkte met een Preservation Policy die niet officieel vastgesteld was. Inzicht is in de tijd veranderd en het laatste kwartaal van 2014 is een nieuwe start gemaakt met het opzetten van een policy (op hoog niveau). Na input van de stakeholders (zowel intern als extern) is een versie 2.0 opgeleverd. Deze is nu klaar om het vaststellingstraject te doorlopen. De verwachting is dat het Nationaal Archief eind tweede kwartaal een vastgestelde policy heeft. De policy is een beleidsplan dat aangeeft op welke wijze het Nationaal Archief de digitale informatie die zij beheert authentiek en bruikbaar houdt. Daarnaast bepaalt de policy mede de voorwaarden voor producenten van informatie en de voorwaarden voor koppelingen naar consumenten. Door het ontwikkelen van een policy kan het Nationaal Archief processen en procedures met betrekking tot duurzame toegankelijkheid vormgeven. De policy is kaderstellend en ondersteunt informatiewet-‐ en regelgeving zoals de Archiefwet, de wet Openbaarheid van Bestuur en de Wet Bescherming Persoonsgegevens. Het Nationaal Archief kan verantwoording afleggen op het gebied van preservation aan interne en externe stakeholders (bestuurders, medewerkers, klanten, burgers, partners, certificeringsinstanties) en verantwoordelijkheden in de organisatie duiden. Daarmee wordt tevens draagvlak gecreëerd voor preservation binnen en buiten het Nationaal Archief.
5
KB-beleidsplan 2015-2018
12
1.4 Data Archiving and Networked Services (DANS) De missie en strategie van DANS zijn geformuleerd in een Preservation Policy6 en de Strategienota7. Het eerste document beschrijft vanuit de missie van DANS in hoofdlijnen de uitgangspunten met betrekking tot het beheer, behoud en toegang tot de data die bij DANS is gedeponeerd. De Strategienota is een stuk dat om de vijf jaar wordt geschreven op basis van actuele ontwikkelingen en inzichten en beschrijft waar het beleid zich de komende vijf jaar op gaat richten, vertaald naar meetbare doelstellingen. De Preservation Policy van DANS is geschreven op basis van de missie van DANS en de Strategienota, waarin de strategische prioriteiten en doelen voor vijf jaar worden vastgesteld. Het Policy document beschrijft de uitgangspunten van het preserveringsbeleid om aan te tonen dat het archief voldoet aan de eisen die internationaal gesteld worden aan een 'trusted digital repository'. Het bevat o.a. informatie over het wettelijk kader waarbinnen het archief opereert, waarom er gekozen is voor preferred formats en beschrijft hoe de verschillende functies vanuit het OAIS model bij DANS worden ingevuld. Dit beleidsstuk is redelijk abstract en bevat geen praktische aanwijzingen zoals welke keuzes een archivaris kan en mag maken als het gaat om bijv. het veranderen van de metadata, het omzetten van het bestandsformaat, etc. Daar bestaan wel richtlijnen voor, maar die zijn niet in een beleidsstuk gevat. Omdat de stap tussen algemeen preserveringsbeleid en actieplannen groot is, is een stuk geschreven waarin de huidige praktijk in zijn algemeenheid wordt beschreven zoals een karakterisering van de collectie (aantal, formaat, community), de significant properties per community (bijv. waaruit bestaat een oral history dataset en welke kenmerken moeten bewaard worden), uitgangspunten zoals bijv. de keuze voor migratie, het metadataschema, risk assessment, etc. Dit stuk is nog in bewerking en zal in de loop van 2015 beschikbaar komen. Op basis van een prioriteitenlijst (opgesteld door de coördinator Datadiensten) zullen de concrete actieplannen worden geschreven.
1.5 EYE Filmmuseum De policy van EYE Filmmuseum is geformuleerd in het Collectiebeleidsplan 2014-‐2017 (hoofdstuk 7 Collectie en Digitale Duurzaamheid)8. EYE Filmmuseum ontwikkelt een efficiënte workflow voor digitale bestanden (van acquisitie tot projectie en duurzame conservering). Centraal hierin staat de ontwikkeling van protocollen in samenspraak met externe partners en collega-‐instellingen, laboratoria en het Nederlands Filmfonds. In 2012 hebben EYE Filmmuseum en het Nederlands Instituut voor Beeld en Geluid een overeenkomst gesloten om de digitale collectie van EYE Filmmuseum duurzaam bij Beeld en Geluid op te slaan, die geproduceerd is tijdens Beelden voor de Toekomst. Onderdeel van
6 7 8
Preservation Policy DANS strategienota 2015-2020 Collectieplan 2014 – 2017
13
deze samenwerking is het afstemmen van elkaars workflows waarin kwaliteitscontrole een belangrijke rol speelt. EYE en Beeld en Geluid hebben het voornemen om in 2016 de storage en de workflows te laten certificeren (Data Seal of Approval). In het kader hiervan is EYE bezig zijn digitaliseringsworkflow (digitaliseringen van analoog materiaal en opslag daarvan) en zijn born digital workflow opnieuw vorm te geven. Nu de filmwereld geheel digitaal is geworden is het opzetten van een gecertificeerde workflow voor het born digital materiaal voor EYE een belangrijke schakel in de uitvoering van zijn preservation policy.
1.6 Conclusie Alle vijf de deelnemende instellingen beschikken over een geschreven preserveringsbeleid. Deze beschrijft de uitgangspunten ten aanzien van het duurzaam beheer, behoud en toegang van hun digitale collecties. Preserveringsbeleid is gekoppeld aan de missie en de strategische prioriteiten van de betreffende organisatie. Een preservation policy geeft het kader voor de uitvoering van digitale duurzaamheid in een organisatie. Wat we zien is dat de ontwikkeling van een preserveringsbeleid stap-‐voor-‐stap plaatsvindt. In veel gevallen wordt deze opgeschreven vanuit een praktische noodzaak. De organisatie verwerkt al digitale content en beschikt al over een e-‐depot, alleen is het beleid daar nog niet op ingericht. In dit geval volgt beleid de praktijk. Daarmee wordt digitale duurzaamheid ingebed in het algehele beleid van de organisatie en is er een koppeling met de visie, missie en strategie van de organisatie. Voor de meeste organisaties geldt dat het geschreven preserveringsbeleid een intern document is. Alleen DANS en Beeld en Geluid hebben hun preservation policy op de website gepubliceerd. Dit komt omdat de meeste policies nog in ontwikkeling zijn. Maar ook omdat er nog geen vertaling van beleid op hoog niveau naar de praktijk is beschreven. Het SCAPE drielagen policy model beschrijft de drie lagen van een preserveringsbeleid, van beleid op hoog niveau naar de operationele uitvoering daarvan. De preservation policy is een richtlijn voor het preserveringsbeleid. Daaruit volgt een beschrijving van de wijze waarop dit gerealiseerd wordt, de processen en procedures, en ten slotte de uitvoering zelf, deels geautomatiseerd. Op dit moment is het hoogste niveau beschreven, de policy, maar de twee niveaus daaronder in veel gevallen niet. Dit is een risico voor de feitelijke uitwerking van duurzaamheid. Alleen DANS beschikt over een beschrijving van het tweede niveau. Dat betekent niet dat deze twee niveaus er niet zijn. Uiteraard zijn er processen, procedures en activiteiten die uitgevoerd worden om digitale content te verwerken, op te slaan en duurzaam te beheren. Deze zijn alleen nog niet beschreven. 14
2 Bestandsformaten -‐ opslag In dit hoofdstuk wordt een overzicht gegeven van de verschillende bestandsformaten die door de deelnemende instellingen verwerkt en opgenomen worden in hun digitale archieven. Om welke bestandsformaten gaat het? Welke van deze formaten zijn voorkeursformaten en hoe wordt dat bepaald?
2.1 Nederlands Instituut voor Beeld en Geluid 2.1.1 Opslag en toegankelijkheid In het digitale domein zijn opslag en toegankelijkheid niet te scheiden. Een achterhaald opslagformaat is niet reproduceerbaar en dus niet te benaderen door gebruikers. De instandhouding van digitale collecties wordt afgemeten aan de directe bruikbaarheid ervan. Deze moet dan ook voldoen aan de ‘eis van courante formaten’, wat inhoudt dat opgeslagen items daadwerkelijk zijn af te spelen door de gebruikers van het archief. Uitgerangeerde formaten kunnen in dat verband niet meer bestaan. Voldoet een archief blijvend aan de eis van courantheid, dan is er sprake van duurzame opslag. Digitale duurzaamheid van archieven en collecties wordt daarom ook wel gelijkgesteld aan duurzame toegankelijkheid. In het mediadomein is deze toegankelijkheid in grote mate afhankelijk van door de industrie in omgang zijnde producten – niet enkel afspeelsoftware dus, maar ook editing consoles en de bijbehorende workflows die bij de omroepen en postproductiehuizen in gebruik zijn. 2.1.2 Analoge materialen Instandhouding van audiovisuele werken op analoge materialen vindt bij Beeld en Geluid in principe via digitalisering plaats. De laatste jaren heeft het instituut hierin een belangrijke slag weten te maken. Het omvangrijke project Beelden voor de Toekomst (2007-‐2014) betekende een belangrijke impuls voor de grootschalige digitalisering en daarmee het duurzame behoud van de audiovisuele werken voor de lange termijn9. Daarmee is dit hoofdstuk echter nog niet afgesloten. Tot nu toe is ongeveer 50% van de audiovisuele collectie (exclusief muziek) in digitale vorm beschikbaar. Digitalisering vanuit het analoge bronmateriaal blijft daarmee nog vele jaren een alledaagse werkelijkheid. De keuze voor het gewenste digitale bestandsformaat vindt plaats met inachtneming van de informatiedichtheid van de brondrager, ofwel met het formaat van de oorspronkelijke, analoge drager. Vervanging en afstoting van analoge materialen wordt zo mede 9
Eindpublicatie Beelden van het verleden: 7 jaar beelden voor de toekomst
15
georganiseerd per type drager: in onbruik geraakte dragers en dragers met niet-‐ professionele bronkwaliteit worden na digitalisering niet in het archief bewaard. Het digitale bestand wordt in dat geval de archiefmaster. 2.1.3 Omroepcollecties Voor video is het archiefformaat MXF, een open standaard onderhouden door SMPTE. Documenten zijn alleen verkrijgbaar via SMPTE. Dit formaat is voor professioneel gebruik en wordt ondersteund door veel verschillende soorten transcoders en editing software. SD-‐Materiaal moet geëncodeerd zijn als MXF OP1a, D10-‐30 of D10-‐50 (de standaard van de Digitale Voorziening10), op basis van de SMPTE-‐ richtlijnen. HD-‐materiaal moet geëncodeerd zijn als XDCAM HD422. Voor additionele ondertitelbestanden bij MXF wordt .890 en .STL in EBU formaat11 gebruikt binnen het archief. Het archiefformaat voor audio is BWF. Dit formaat bestaat uit het lossless WAV-‐formaat, aangevuld met extra metadatavelden12. Verder worden bij programma's ook tekstbestanden als PDF opgeslagen en worden foto's en papieren gescand als TIFF. 2.1.4 Externe collecties Beeld en Geluid voorziet in dataopslag voor externe partijen, waaronder bijvoorbeeld de digitale collecties van EYE en andere audiovisuele collecties. Hierin bevindt zich een veelheid aan bestandsformaten. Collecties die via de catalogus van het instituut beschikbaar worden gesteld, worden getranscodeerd naar de MXF standaard zoals die gebruikt wordt voor de omroepcollectie.
2.2 Koninklijke Bibliotheek De Koninklijke Bibliotheek accepteert in principe alle formaten die uitgevers leveren, maar behoudt zich het recht voor af te wegen hoeveel inspanning gerechtvaardigd is om het materiaal voor de lange termijn aan de collectie toe te voegen. Daarnaast heeft de Koninklijke Bibliotheek richtlijnen voor enkele veel voorkomende (born digital) bestandsformaten in haar collectie. Deze richtlijnen zijn ondersteunend in het proces en wijzen op de risico’s van het formaat, zodat een weloverwogen beslissing genomen kan 10 11 12
http://www.dedigitalevoorziening.nl/ http://tech.ebu.ch/docs/tech/tech3264.pdf http://tech.ebu.ch/docs/tech/tech3285.pdf
16
worden, mochten aanleveringen afwijken van de richtlijnen. Er zijn thans richtlijnen voor PDF en ePUB. Daarnaast zijn er richtlijnen voor digitalisering naar JPEG2000 formaat.
2.3 Nationaal Archief De Rijksoverheid stimuleert het gebruik van open data, open standaarden en opensourcesoftware. De Nederlandse overheid hanteert daarbij het principe pas toe of leg uit. De Archiefregeling 2009 stelt dat digitale informatie uiterlijk op het tijdstip van overbrenging, [is] opgeslagen in een valideerbaar en volledig gedocumenteerd bestandsformaat dat voldoet aan een open standaard. Indien vlak voor overbrenging informatie moet worden omgezet naar een open standaard/formaat is het raadzaam om hierover vooraf advies te vragen aan het Nationaal Archief aangezien er bij deze omzetting ongewenst informatieverlies kan optreden. Indien de archiefvormer voor de keuze staat om een procesapplicatie aan te schaffen en in te richten is het raadzaam om een risicoanalyse uit te voeren: welk proces ondersteunt deze toepassing, welke informatie wordt daarbij gevormd, ontvangen en (her)gebruikt, welke functionaliteit moet behouden blijven in de toekomst (doel van informatie), welk maatschappelijk belang dient deze informatie en welke mate van duurzame toegankelijkheid past daarbij? Op basis van deze risicoanalyse kan dan een keuze voor een open of gesloten formaat worden gemaakt. Bestandsformaten en essentiële kenmerken Het Nationaal Archief werkt aan een lijst van voorkeursformaten die preservation en daarmee duurzame toegankelijkheid van informatie makkelijker maakt. Op dit moment legt het Nationaal Archief geen beperking op met betrekking tot het aantal of type bestandsformaten dat opgenomen wordt. De ervaring leert dat op dit moment het grootste risico voor informatieverlies ligt bij slechte conversies, zoals die van een gesloten naar een open formaat. Als iets niet te lezen is, komt het vaak door een fout in het "menselijk handelen". Informatie wordt dan verkeerd geconverteerd of opgeslagen (zoals vergeten het lettertype in te sluiten). Bij grote bulkmigraties wordt de kwaliteitscontrole soms slecht of onvolledig uitgevoerd. Ook speelt mee dat een migratiebeslissing niet alleen gemaakt kan worden op basis van bestandsformaat of –extensie. Veel belangrijker zijn de keuzen met betrekking tot wat je wilt bewaren qua gedrag, inhoud, vorm en structuur van het informatie object, met andere woorden de essentiële kenmerken. Het Nationaal Archief maakt een lijst met criteria om te gebruiken bij het vaststellen van deze essentiële kenmerken.
17
Het Nationaal Archief onderstreept hierbij dat een keuze voor niet-‐open standaarden mogelijke gevolgen heeft voor: • de bijbehorende preservation strategy, dat wil zeggen de mogelijke actieve en passieve preservation. • de vorm van beschikbaarstelling van de informatie, in verband met de noodzakelijke viewers of vrij te verkrijgen software.
2.4 Data Archiving and Networked Services (DANS) DANS hanteert een lijst met voorkeursformaten13. Per informatie type (tekst, stilstaand beeld, bewegend beeld, geluid, spreadsheet, etc.) wordt steeds gekozen voor 1 of 2 veelvoorkomende, bij voorkeur open formaten. Sinds anderhalf jaar is er een interne werkgroep voor preferred formats, waarin ieder lid verantwoordelijk is voor een bepaald type data. Eén keer per jaar wordt er gekeken of de lijst moet worden aangepast. Deze aanpassing gebeurt na consultatie met vertegenwoordigers van het betreffende vakgebied.
2.5 EYE Filmmuseum De standaarden binnen de interne digitaliseringsworkflow worden door EYE Filmmuseum bepaald. Afhankelijk van de technische ontwikkelingen kunnen aanpassingen aan de workflow plaatsvinden. Voor digitaal materiaal dat verworven wordt van externe partijen streeft EYE Filmmuseum ernaar het materiaal zoveel mogelijk gestandaardiseerd binnen te krijgen. Een belangrijk deel van de Nederlandse filmproductie wordt gesubsidieerd door het Nederlands Filmfonds. In het Financieel & Productioneel Protocol van het Nederlands Filmfonds wordt in hoofdstuk 6 (Voorwaarden oplevering Filmkopie ten behoeve van opslag en conservering door EYE Filmmuseum) de aanleverspecificaties voor digitale filmproducties nader uitgewerkt.14 Een speciale categorie is het digitaal filmmateriaal dat binnenkomt in het kader van expanded cinema (digitale kunst). Binnen deze workflow komen veel verschillende formaten voor. EYE Filmmuseum accepteert alle formaten.
2.6 Conclusie Uit bovenstaande overzichten blijkt dat er een groot aantal verschillende bestandsformaten verwerkt wordt door de betrokken instellingen. De typen formaten die binnenkomen zijn uiteraard afhankelijk van de typen collecties die verzameld worden. Toch kan er niet worden geconcludeerd dat de KB alleen tekstformaten verwerkt en Beeld en Geluid alleen AV-‐ formaten. Als voorbeeld nemen we de wetenschappelijke tijdschriftartikelen die 13
http://www.researchdata.nl/uploads/tx_na15docviewer/DANS_preferred_formats_NL_DEF.pdf
14
http://www.filmfonds.nl/admin/a/search?q=Financieel+%26+productioneel+Protocol
18
opgenomen worden in het internationaal e-‐depot van de KB. Deze artikelen zijn al lang niet meer eenvoudige en eenduidige PDF bestanden, maar bestaan uit verschillende delen en verschillende bestandsformaten zoals data-‐formaten en audiovisuele formaten. Ook niet de primaire focus voor de KB. En ook EYE en Beeld en Geluid geven een wetenschappelijke e-‐ journal uit waarin, uiteraard, AV-‐materiaal integraal onderdeel uitmaakt van de artikelen. Hieruit blijkt dat digitale collecties een steeds meer hybride karakter hebben waarbij een publicatie nauw verbonden is aan een dataset en aan de context van de publicatie. Hoe om te gaan met dergelijke zogenaamde “verrijkte publicatie” is onderzocht in het NCDD project verrijkte publicatie. Hierin zijn digitale objecten in hun digitale context onderzocht15. De bovenstaande overzichten bieden een eerste begin van een meer integraal en landelijk overzicht van welke instellingen welke soort van informatie en welke bestandsformaten opslaan en beheren. Welke garantie kunnen we bieden op welke bestandsformaten op dit moment? Een volgende stap kan vervolgens gezet worden door het verzamelen van richtlijnen (nationaal en internationaal) voor de verwerking van verschillende typen bestandsformaten en deze richtlijnen met elkaar te delen. Op deze manier kan kennis over bestandsformaten beter en breder gedeeld worden en hoeft niet iedereen zelf het wiel uit te vinden. Voor veel, met name, kleinere instellingen blijkt taal ook een barrière te zijn voor het vergaren en delen van kennis. Een overzicht van richtlijnen en andere hulpmiddelen in het Nederlands is dan ook gewenst. Belangrijk is ook om op een generieke wijze gebruik te kunnen maken van een format registry waaruit informatie over bestandsformaten gehaald kan worden. Er bestaan verschillende format registries, maar tot nu toe is er geen waarin op dit moment voldoende informatie is opgenomen en waaraan we gezamenlijk deelnemen16. Daarnaast is het van belang om te kunnen vertrouwen op een format registry, het onderliggende business model en het duurzaam voortbestaan van de registry zelf.
15
Sierman, et al, Digitale objecten in digitale context. Eindrapport NCDD project. Juni 2015
16
Gary Mcgarth, The Format Registry Problem. Code{4}lib journal. Issue 19, 2013-01-15
19
3 Bestandsformaten: kennis Het vorige hoofdstuk gaf een overzicht van bestandsformaten verzameld door de verschillende instellingen betrokken in dit project. In dit hoofdstuk zullen nader ingaan op de ontwikkeling en mogelijkheid voor uitwisseling van kennis over de betreffende bestandsformaten. Welke instelling investeert in kennis over welke bestandsformaten? We zagen in het vorige hoofdstuk al dat sommige instellingen, ondanks dat ze bepaalde voorkeuren hanteren, toch (vrijwel) alle formaten accepteren. Het is onmogelijk voor één instelling om van alle bestandsformaten evenveel expertise te hebben. Veel instellingen krijgen op kleine schaal materiaal binnen waar anderen meer verstand van hebben. Een organisatie met kennis over formaat X zou andere organisaties hierover kunnen adviseren, zodat zij niet opnieuw het wiel hoeven uit te vinden. In dit hoofdstuk beschrijven we per instelling van welke bestandsformaten zij de meeste kennis in huis hebben.
3.1 Nederlands Instituut voor Beeld en Geluid De focus ligt voor digitale dragers bij Beeld en Geluid op het MXF formaat, dat in huis in ruime mate wordt ingezet en waarrond nauwe samenwerking bestaat met leveranciers zoals Ericsson en de omroepen op het Mediapark. Een kwaliteitscontroleteam kwam regelmatig bijeen tot circa 2010. Daarnaast genereert het instituut DPX en XDCAM HD files bij het scannen van filmmateriaal. Naast het beheren van formaten in-‐huis houdt het instituut de vinger aan de pols voor de audiovisuele sector in Nederland: door het verzamelen van kennis voor AVAnet en het up-‐ to-‐date houden van PrestoCentre en het instellen van Technology Watch en gebruikersonderzoek volgens OAIS-‐richtlijnen, bouwt het kennis op van formaten voor consumenten en professionals en evoluties op het vlak van open source formaten voor opslag en uitlevering.
3.2 Koninklijke Bibliotheek De kennis die bij de afdeling Onderzoek van de Koninklijke Bibliotheek wordt vergaard, wordt zo veel mogelijk gedeeld via het web. Met name is dit te vinden op: KB Research Blog: https://researchkb.wordpress.com/ Open preservation foundation www.openpreservation.org/blogs Met name de volgende topics zijn onderwerp van (gepubliceerd) onderzoek: 20
PDF http://www.openpreservation.org/blogs/2012-‐12-‐19-‐identification-‐pdf-‐preservation-‐risks-‐ apache-‐preflight-‐first-‐impression http://www.openpreservation.org/blogs/2013-‐07-‐25-‐identification-‐pdf-‐preservation-‐risks-‐ sequel http://openpreservation.org/knowledge/blogs/2014/01/27/identification-‐pdf-‐preservation-‐ risks-‐analysis-‐govdocs-‐selected-‐corpus/ ePUB http://www.openpreservation.org/system/files/epubForArchivalPreservation20072012Exte rnalDistribution.pdf JPEG 2000 http://openpreservation.org/knowledge/blogs/2012/09/04/automated-‐assessment-‐jp2-‐ against-‐technical-‐profile/ Tools voor identificatie, karakterisering en controle http://openpreservation.org/knowledge/blogs/2014/01/31/why-‐cant-‐we-‐have-‐digital-‐ preservation-‐tools-‐just-‐work/ Apache Preflight Epubcheck tool Apache Tika Unix File JPYLYZER http://jpylyzer.openpreservation.org/ https://github.com/openpreserve/jpylyzer
3.3 Nationaal Archief Duurzaam toegankelijke overheidsinformatie wil zeggen dat overheidsinformatie toegankelijk en bruikbaar is voor iedereen die daar recht op heeft, vanaf het moment van ontstaan en voor zolang als noodzakelijk is, zodat burgers, ambtenaren, journalisten en bijvoorbeeld onderzoekers de informatie die ze nodig hebben kunnen vinden, raadplegen en interpreteren. Dit is essentieel voor de dagelijkse bedrijfsvoering van de overheid en de verantwoording daarover. Daarnaast vormt overheidsinformatie een belangrijke bron voor wetenschappelijk onderzoek en voor economische en maatschappelijke ontwikkelingen. Overheidsorganisaties moeten tijdig maatregelen nemen om digitale informatie toegankelijk te maken en te houden. Dat geldt voor alle vormen van digitale informatie die ontstaan bij
21
het uitvoeren van overheidstaken, zoals tekstdocumenten, filmpjes, e-‐mails, websites, databasegegevens en tweets. Dit betekent dat het Nationaal Archief alles kan binnenkrijgen en een grote diversiteit aan bestandsformaten kan ontvangen. Ons e-‐Depot is hierop ingericht. Een breed scala aan tools voor identificatie, validatie, property extraction, object extraction etc. wordt aangeroepen tijdens de ingest van de digitale informatie. In een Technical Registry wordt uit verschillende bronnen (bijv. de PRONOM database) technische informatie verzameld over bestandsformaten, software, encoderingen, algoritme e.d. Vele soorten tekstdocumenten, presentaties, afbeeldingen en e-‐mails zijn op dit moment de grote bulk. Er is een groeiende vraag binnen de rijksoverheid naar oplossingen voor websites, CMSen, databases, basisregistraties, audiovisueel materiaal, etc. Met de inrichting van de afdeling Kennis en Advies is een start gemaakt met inrichting van een kennisfunctie. In de archiefvisie (2011) is beschreven dat het kabinet de rol van het Nationaal Archief als kennis-‐ en expertise centrum voor de gehele archieffunctie wil versterken. Daarnaast is voor het Nationaal Archief een centrale rol weggelegd bij het, samen met de archiefsector, opstellen en uitvoeren van de innovatieagenda. Samenwerking met andere instellingen en sectoren is randvoorwaarde voor het succes van de kennisfunctie van het Nationaal Archief. Het Nationaal Archief streeft naar deskundigheidbevordering om (digitale) overheidsinformatie duurzaam te kunnen bewaren, zodat deze betrouwbaar en toegankelijk is en blijft. Belangrijke thema’s daarbij zijn de digitalisering van de informatiehuishouding, de daarmee samenhangende duurzaamheidsvraagstukken, nieuwe visies op openbaarheid en (her)gebruik van digitale data en het introduceren van nieuwe methoden, waardering, selectie en toegankelijkheid en het formuleren van een visie op collectievorming.
3.4 Data Archiving and Networked Services (DANS) Door de grote verscheidenheid aan dataformaten wordt bij DANS veel gebruik gemaakt van de kennis van de depositors (designated community). Hergebruik binnen een specifieke 'community' is daarbij leidend. Daarnaast zijn er binnen DANS een aantal vakspecialisten die de contacten met specifieke wetenschapsgebieden onderhouden.
3.5 EYE Filmmuseum Tijdens het omvangrijke conserverings-‐ en digitaliseringsproject Beelden voor de Toekomst heeft EYE Filmmuseum samen met het Nederlands Instituut voor Beeld en Geluid en het Nationaal Archief veel kennis vergaard op het gebied van digitale formaten. Ten aanzien van digitale film en fotografie zijn op basis van onderzoek binnen de archiefwereld 22
archiefstandaarden opgesteld voor duurzame opslag en hergebruik. Daarnaast worden industriestandaarden gebruikt zoals de DCI-‐standaarden. DCI staat voor Digital Cinema Initiatives, een joint venture van de grote filmstudio’s opgericht om te komen tot een gestandaardiseerde architectuur voor digitale cinema. Een andere belangrijke bron van kennis op het gebied van standaarden is de Society of Motion Picture and Television Engineers (SMPTE). Op internationaal vlak is EYE Filmmuseum betrokken bij de Technical Commission van de Fédération internationale des archives du film (FIAF), bij de Future of Film Archiving (FOFA) Expert Group en bij PrestoCentre, een ledenorganisatie die wereldwijd stakeholders binnen de archiefwereld en de industrie samenbrengt om kennis te delen, samen te werken en van elkaar te leren.
3.6 Conclusie Welke instelling investeert in kennis over welke bestandsformaten? Bovenstaande beschrijvingen laten zien dat er een grote diversiteit is in de verwerking en opslag van typen informatie en bestandsformaten. Ieder domein kent zijn eigen standaarden hierin en er is op het eerste gezicht weinig overlap. Deze overlap zien we wél binnen specifieke domeinen zoals het AV domein. EYE en Beeld en Geluid hebben te maken met gelijksoortige formaten. Ook bij gedigitaliseerd materiaal is er een grote overlap tussen gehanteerde formaten. Verder zien we dat instellingen vaak te maken krijgen met vele verschillende bestandsformaten en dat het vaststellen van preferred formats niet altijd leidt tot het daadwerkelijk beperken tot deze voorkeursformaten. Alle aan dit project deelnemende instellingen investeren in onderzoek naar de voor hun meest relevante bestandsformaten. Voor het Nationaal Archief geldt dat dit onderzoek zich niet zozeer op de specifieke bestandsformaten richt, maar veeleer op de processen van creatie en verwerking van overheidsdocumenten in het algemeen. DANS heeft een procedure waarbij preferred formats worden vastgesteld op basis van lopende ontwikkelingen en wensen en eisen vanuit het veld17. Het is van belang om de bestaande kennis van en ervaring met verwerking en beheer van bestandsformaten zo breed mogelijk te delen. De platformfunctie van de NCDD kan hier vorm aan geven en als doorgeefluik naar de kleinere instellingen dienen.
17
http://www.dans.knaw.nl/nl/deponeren/toelichting-data-deponeren/DANSpreferredformats.pdf
23
4 Tools voor kwaliteitscontrole In dit hoofdstuk wordt een overzicht gegeven van de wijze waarop kwaliteitscontrole plaatsvindt bij de verschillende instellingen en welke tools daarvoor gebruikt worden.
4.1 Nederlands Instituut voor Beeld en Geluid 4.1.1 Nederlands Instituut voor Beeld en Geluid Een typische flow voor video doorloopt standaard een aantal kwaliteitscontroles en preserveringsacties: • Integriteit wordt bepaald op basis van checksum na ingest of header-‐ en footercheck voor ingest om zeker te stellen dat het bestand niet afgebroken is in transport. • Er wordt gecontroleerd of het bestand qua opbouw en headermetadata voldoet aan de standaard. • Er wordt gecontroleerd of de bestandsnaam voldoet aan de afspraken. • Er wordt gecontroleerd of er een metadatabestand aanwezig is en of deze voldoet aan de afspraak. • Er wordt gecontroleerd of randvoorwaardelijke metadata aanwezig is. • Een checksum wordt bij ingest berekend door het systeem waarmee de checksum vanuit de aanlevering gecontroleerd kan worden en die vervolgens binnen het systeem ook gebruikt wordt om te controleren dat kopieer-‐ en migratieacties geslaagd zijn. • Na ingest wordt door middel van end-‐to-‐end-‐controle bepaald of alle bestanden die geleverd hadden moeten worden ook daadwerkelijk aangeleverd zijn. • Na ingest wordt een back-‐up gemaakt van het bestand. Bij constatering van fouten wordt bij de meeste van bovenstaande stappen de import gestopt en wordt de depotgever op de hoogte gesteld en verzocht materiaal opnieuw aan te leveren. Errorlogs worden ook gecontroleerd op fouten zodat er actief actie ondernomen kan worden bij uitzonderingen. Verder wordt dagelijks een back-‐up gemaakt van de metadata. Bestanden worden opgeslagen op LTO-‐tape onder beheer van Storage Management Systeem DivArchive. Binnen dit systeem wordt onder andere bijgehouden welke bestanden op welke tapes staan, welke tapegroepen er in het archief zijn en welke back-‐up-‐policies op welk materiaal van toepassing zijn. Wanneer blijkt dat een LTO-‐tape niet meer leesbaar is of een bestand niet goed meer gelezen kan worden wordt een restore gedaan vanuit de back-‐up en wordt er een nieuwe back-‐up gemaakt. Periodiek worden LTO-‐tapes vervangen. 24
Software die gebruikt wordt voor de verschillende acties: • Voor MD5-‐checks: md5sum en Frontporch DivArchive • Voor kwaliteitscontrole: Cerify en binnenkort ook Baton • Voor formaatcheck: IRT MXF Analyzer en Mediainfo Verder zijn veel van de controlestappen geschreven in scripts van de diverse import-‐ workflows.
4.2 Koninklijke Bibliotheek Tools zullen ingezet worden in de volgende release van het Digitaal Magazijn. Op dit moment wordt een minimale controle gedaan op de binnenkomende files, bijvoorbeeld of er geen lege files meegestuurd worden.
4.3 Nationaal Archief Hieronder de tools die het Nationaal Archief gebruikt, wat ze controleren, waar in het proces ze ingezet worden en hoe ze gebruikt worden. Pre-‐ingest In de fase voor de ingest van digitale informatie wordt een aantal zaken geregeld conform de aansluitvoorwaarden en de Submission Agreement. Er wordt gecontroleerd op: • de technische voorwaarden voor systeemaansluitingen; • de beperkingen met betrekking tot digitale handtekeningen, compressie en andere technische bewerkingen; • de logische voorwaarden voor de interoperabiliteit van de metadata. Er wordt een mapping gemaakt tussen de metadata van de producent met het metadataprofiel van de rijksoverheid. Op basis daarvan worden metadata aangevuld of verbeterd; • de noodzakelijke bewaartermijn in verband met uitgeplaatste informatie; • de informatie over de relatie tussen het informatiebestand en de wijze machine-‐ leesbaar beschikbaar stelling aan de verschillende klantgroepen; • er wordt een inschatting gemaakt van risico’s met betrekking tot de gebruikte formaten. Op basis daarvan volgt wellicht al een omzetting van bepaalde formaten naar een duurzamer formaat. Beide formaten worden, met bijbehorende metadata, geïngest. De producer levert de informatie. De metadata worden omgezet naar een machine leesbare informatie zodat deze met de digitale bestanden worden opgenomen (via de SIP 25
Generator). Aan het einde van de pre-‐ingest is er een valide en bruikbare Submission Information Package (SIP). Het NA controleert de SIP op integriteit via een checksum, en op volledigheid door na te gaan of alle opgegeven informatieobjecten en metadata ook daadwerkelijk in de SIP zitten. Ingest Bij de ingest van de SIP wordt een aantal controles en identificaties uitgevoerd die randvoorwaardelijk zijn voor goed beheer en beschikbaarstelling van digitale informatie. Karakterisatie is een verzamelterm voor de volgende handelingen: 1. Identificatie: het bestandsformaat wordt geïdentificeerd en middels een in de metadata opgeslagen unieke verwijzer aan de Technical Registry gekoppeld. 2. Validatie: gekeken wordt of het bestandsformaat volgens de technische specificaties is opgebouwd. 3. "Meten" van technische eigenschappen die eventueel duurzaam beheer in de weg kunnen staan (denk aan encryptie, compressie) Ook dit wordt middels een PUID opgeslagen in de metadata. 4. Identificeren van embedded objecten (bijv. afbeeldingen of grafieken in een Word bestand) of objecten in containerbestanden (e-‐mail met bijlagen, webpagina's van een website): bestandsformaten van deze objecten worden middels een PUID opgeslagen in de metadata. 5. Identificeren van bestandseigenschappen. De waarden van deze properties worden geëxtraheerd en samen met een verwijzing naar de eigenschap middels een PUID opgeslagen. Denk aan hoogte en breedte van een afbeelding, aantal pagina's/woorden van een tekstdocument etc. De Technical Registry is een technische database waar alle informatie over bestandsformaten, software, hardware, compressie, tools en bijvoorbeeld properties is opgeslagen. Controles Daarnaast is sprake van een aantal kwaliteitscontroles met betrekking tot de integriteit zoals hier genoemd: 1. Metadata Integrity check: er wordt nagegaan of alle content files zijn gespecificeerd in de metadata middels de correcte (relatieve) locatie; 2. Content Integrity check: er wordt nagegaan of de content files zijn gespecificeerd in de metadata xml en dat dit consistent gebeurt. 26
Door bovenstaande controles uit te voeren zorg je ervoor dat er geen content wordt opgenomen zonder metadata en er geen metadata wordt opgenomen zonder content. Een ander integriteitscontrole is de Fixity Check. De checksum voor elke content file wordt vergeleken met de originele checksum gespecificeerd in de metadata. Deze controle vindt na ingest periodiek plaats. Voor de ingest kan hij na elk transport (ftp, kopiëren, etc.) ook worden gecontroleerd. En natuurlijk vindt de viruscontrole plaats en is de beveiliging geregeld conform de eisen van de Baseline Informatiebeveiliging Rijksdienst (BIR). Zowel het oorspronkelijke informatieobject als de oorspronkelijke metadata worden opgeslagen. Er wordt een AIP gemaakt dat de status krijgt van origineel informatieobject. Deze AIP krijgt een uniek identificatienummer en wordt weggeschreven naar de storagedatabase. Een deel van de metadata die binnen komt is Descriptive Information. Dit gedeelte wordt geëxporteerd naar het Collectie beheer systeem en zal daar verder verrijkt worden. De originele metadata van de zorgdrager blijft bewaard in het e-‐Depot (in de metadata-‐ database). Ook alle metadata die tijdens de verschillende processen worden gegenereerd worden opgeslagen in dezelfde metadata-‐database. Er komt dus gedurende het beheer van informatie objecten steeds meer metadata bij. Tot slot is er een check op de afspraken in de Submission Agreement.
4.4 Data Archiving and Networked Services (DANS) DANS gebruikt geen specifieke tools behalve de software die nodig is om de bestanden te checken op leesbaarheid, volledigheid en betrouwbaarheid. Gestreefd wordt om ten minste van alle voorkeursformaten de laatste software versie te hebben. Ingest en controle van nieuwe datasets verlopen via de archiveringsapplicatie EASY. Daarnaast wordt gebruik gemaakt van een SFTP programma om bestanden te versturen die te groot zijn om via de online archiveringstool EASY te uploaden. Een andere mogelijkheid is sinds kort om via SURF Filesender bestanden te versturen.
4.5 EYE Filmmuseum Om langdurige opslag en gebruik te garanderen wordt binnengekomen digitaal materiaal gecontroleerd op kwaliteit en volledigheid. De geleverde digitale films worden zowel visueel (en/of auditief) als op technisch niveau gecontroleerd. De validatie van het materiaal en het harvesten van de relevante metadata vindt plaats met behulp van diverse tools. Metadata worden geëxporteerd naar de database en zijn naast de eigenlijke digitale bestanden 27
essentieel voor het duurzaam bewaren en migreren van de films. EYE Filmmuseum gebruikt onderstaande tools voor kwaliteitscontrole. Voor een overzicht van de processen die doorlopen worden zie bijlage B. 4.5.1 DigiScanner Nadat alle materiaal visueel is gecontroleerd, wordt het gescand door de DigiScanner. Deze scanner harvest de metadata van alle bestanden en slaat deze op. Momenteel wordt de metadata handmatig in de database gezet. In de nabije toekomst kunnen deze metadata zeer eenvoudig van de DigiScanner naar de database geïmporteerd worden. 4.5.2 Quicktime Player/VLC Deze tool wordt gebruikt voor de visuele controle van h.264, ProRes, DNxHD, e.d. bestanden. Wegens tijdgebrek kunnen de films niet in real time worden bekeken, maar er wordt getracht om te controleren of de film compleet is en of de eindversie daadwerkelijk is ontvangen. 4.5.3 OS X DVD-‐speler Hiermee wordt getest of de geleverde DVD’s en ISO-‐bestanden daadwerkelijk werken en compleet zijn. 4.5.4 Audacity Audio-‐programma voor het beluisteren van los aangeleverde audiobestanden. 4.5.5 EasyDCP Player Hiermee kunnen DCP’s afgespeeld en gevalideerd worden met een ‘hash-‐check’. 4.5.6 Doremiserver EYE-‐Cinema Wanneer een DCP niet ingeladen kan worden met EasyDCP Player wordt deze ingeladen op de EYE Doremiserver. Deze server kan de DCP valideren en afspelen. 4.5.7 Digital Betacam Speler Afspelen van geleverde DigiBeta-‐tapes voor inhoudscontrole en kwaliteitscontrole.
28
4.5.8 djv_view Veel films worden aangeleverd als afbeeldingsequenties (ca. 100.000 afbeeldingen per film). djv_view stelt de controleur in staat om afbeeldingsequenties makkelijk af te spelen en om metadata te harvesten. 4.5.9 DaVinci Resolve Djv_view-‐alternatief voor het bekijken en harvesten van metadata van afbeeldingsequenties. 4.5.10 After Effects Alternatief voor djv_view; gebruikt om afbeeldingsequenties en metadata te bekijken. 4.5.11 VideoSpec/ MediaInfo/ iMediaHUD Gebruikt voor het winnen van metadata van ProRes-‐bestanden, DNxHD-‐bestanden, H264-‐ bestanden, audiobestanden, e.d. 4.5.12 OS X Disk Utility Wordt gebruikt na het controleren van al het materiaal voor het formatteren van harde schijven, het kopiëren van DVD’s en het herstellen en verifiëren van harde schijven. 4.5.13 arRsync Na het controleren van al het materiaal maakt arRsync back-‐ups en voert checksums uit.
4.6 Conclusie Wie gebruikt welke tools? Beeld en Geluid md5sum, Frontporch DivArchive, Cerify, Baton (binnenkort), IRT MXF Analyzer, Mediainfo Koninklijke Bibliotheek (nog niet, wel in ontwikkeling) Nationaal Archief o.a. DROID, Preservica tools voor Identificatie van file components, OOXML Validator, BFO Validate en property extraction tools, APACHE POI tools (voor msg), Java ImageIO tool, JHOVE, OLE2 property extraction, MediaInfo, FFMEG, Image Magic en verschillende object extraction tools (zip extractor, arc 29
DANS
EYE Filmmuseum
file extractor, Apache POI MSG attachments, unwarc, etc.) Aperture, Microsoft Office (Excel, Word, Access), Adobe Photoshop, Adobe Distiller, Adobe PDF printer, Adobe Acrobat Pro, Adobe Illustrator, Notepad++, Sisulizer Kaboom, SPSS, VLC Player, Any Audio converter, ESRI ArcGIS, MapInfo Professional, Golden Software Surfer DigiScanner, Quicktime Player/VLC, OS X DVD-‐speler, Audacity, EasyDCP Player, Doremiserver EYE-‐Cinema, Digital Betacam Speler, djv_view, DaVinci Resolve, After Effects, VideoSpec, MediaInfo, iMediaHUD, OS X Disk Utility, arRsync
Er lijkt weinig overlap te zitten in de tools die de instellingen gebruiken voor kwaliteitscontroles. De enige tool die door meerdere instellingen wordt gebruikt is Mediainfo (B&G, EYE). Al eerder zijn we als projectgroep tot de conclusie gekomen dat het komen tot een generieke set aan kwaliteitscontroles nog te ver weg was. Dit hoofdstuk geeft eens te meer aan dat er een grote diversiteit aan tools wordt gebruikt onder de deelnemende instellingen. Het bouwen van een generieke controletool is op dit moment niet haalbaar. Wel kan bovenstaand overzicht een hulpmiddel zijn voor andere instellingen die zich willen verdiepen in de mogelijkheden op het gebied van controletools. Wie meer wil weten over het gebruik van Cerify kan bij Beeld en Geluid navragen wat de ervaringen met deze tool zijn.
30
5 Toekomstplannen In de vorige hoofdstukken is achtereenvolgens geschetst op welke wijze preserveringsbeleid wordt vastgesteld en gehanteerd en hoe dit vervolgens kan worden gekoppeld aan de praktijk van digitale duurzaamheid in een organisatie. We hebben gezien dat er nog nauwelijks geschreven operationele plannen zijn die de link leggen tussen beleid op hoog niveau en de operationele praktijk. Wél beschikken alle instellingen over procedures en richtlijnen over hoe om te gaan met bestandsformaten en kwaliteitscontrole. In dit hoofdstuk wordt kort beschreven wat de prioriteiten van de betrokken instellingen zijn in de komende jaren. Wat zijn de onderzoeksprioriteiten? Hoewel er al veel gebeurt met betrekking tot digitale duurzaamheid binnen de instellingen en hoewel er ook aardig wat kennis is vergaard over bijvoorbeeld bestandsformaten en tools voor kwaliteitscontroles, valt er nog een genoeg werk te verrichten voordat we onze zaken helemaal op orde hebben. Hieronder volgt een overzicht van de toekomstplannen van de deelnemende organisaties.
5.1 Nederlands Instituut voor Beeld en Geluid 5.1.1 Beleid op waardestelling Door de grote volumes in het digitaal archief van Beeld en Geluid wordt het bewaarbeleid dat geldt voor de vele digitale objecten zoveel mogelijk automatisch toegepast. Daartoe bestaat er een directe relatie tussen de cultuurhistorische waardestelling van het materiaal en de gegevens die worden vastgelegd in het opslagbeheerssysteem van de digitale bestanden. Dit beheersysteem is uitgerust met software die de levenscyclus van elk digitaal bestand vastlegt en volgt. Vijf tot zeven jaar na instroom meldt het beheersysteem dat een bepaalde, duurzaam te behouden audiovisuele productie gemigreerd moet worden naar een nieuw actueel formaat, dan wel dat een productie met een lage waardestelling bewaard moet te blijven in een lagere opslagkwaliteit of zelfs uit het systeem moet worden verwijderd. Van deze laatste categorieën zullen delen opnieuw manueel worden beoordeeld, zodat afwaarderen en afstoting nooit automatische processen kunnen zijn. Direct al bij de vastlegging van gegevens tijdens de instroom van producties worden indicatoren aangebracht die het cultuurhistorisch en/of (her)gebruiksbelang van het item aangeven. Dit proces verloopt op basis van vaste regels met een ruime mogelijkheid tot tijdige en manuele herziening van de indicator op grond van veranderde inzichten in de cultuurhistorische waarde, het verwachte (her)gebruik en/of op basis van wensen van 31
specifieke producenten of omroepen. Het gehele proces wordt gecontroleerd door een te ontwikkelen module voor lifecycle management voor digitale bestandsformaten en metadata.
5.2 Koninklijke Bibliotheek Richtlijnen voor JPEG2000 en het ARC en WARC formaat zijn gepland. Daarnaast wordt onderzocht hoe informatie van CD’s en CD-‐roms zo efficiënt en goed mogelijk kan worden opgeslagen.
5.3 Nationaal Archief De Archiefvisie voorziet dat in de digitale toekomst overheidsinformatie duurzaam bewaard moet worden en dat deze betrouwbaar en toegankelijk blijft. Voorwaarde is dat informatie, beter dan nu vaak het geval is, wordt opgeslagen op het moment waarop die wordt geproduceerd. Hierbij is de deskundigheid van archivarissen net zo onontbeerlijk als de inbreng van informatiespecialisten en ICT-‐architecten. Maar die inzet heeft alleen zin wanneer ook een digitale infrastructuur om deze informatie duurzaam te bewaren en te ontsluiten beschikbaar is: een e-‐depot, het archief van morgen. Door deze ontwikkeling wordt voorzien dat op langere termijn het moment van ‘overbrenging’ van informatie in de verdere toekomst niet meer uitsluitend zal worden bepaald door het verstrijken van een termijn of periode, maar door het takenpakket van het overheidsorgaan, het soort informatie, de kwaliteit van de digitale infrastructuur en technische transities die gepaard gaan met informatieverlies. Hierbij spelen ook overwegingen van kosten en efficiëntie. Immers, het beheren en toegankelijk houden van digitale informatie kost geld. De mogelijkheid van het (mede)gebruik van een digitale infrastructuur (e-‐depot) kan voor individuele archiefvormers kostenreductie en efficiencywinst betekenen. Archief2020 en het programma Digitale Taken Rijk (DTR) staan voor het opleveren van een toekomstvaste digitale infrastructuur, door middel van het stimuleren en faciliteren en voor het Rijk realiseren van: • Een landelijk dekkend netwerk van aanbieders van duurzaam digitaal depot voor alle overheden. • Informatie voor alle overheden over wat nodig is voor aansluiting van hun informatiehuishouding op duurzaam digitaal depot.
32
Levering door archiefinstellingen van (zakelijke) diensten en producten voor alle overheden betreffende het gebruik van duurzaam digitaal depot, bemiddelen daarin of adviseren daarover.
5.4 Data Archiving and Networked Services (DANS) Er zijn plannen om nieuwe tools te ontwikkelen die de processen binnen de eigen archiveringsapplicatie EASY moeten ondersteunen, zoals het automatisch herkennen of de geüploade bestanden voldoen aan het voorkeursformaat, iets dat nu nog handmatig gebeurt als onderdeel van het controleren en verwerken van nieuwe datasets. Er wordt ook onderzocht of bestaande tools geïntegreerd kunnen worden als onderdeel van EASY, bijv. op het gebied van signalering wanneer bepaalde bestanden gemigreerd moeten worden naar een andere versie/formaat.
5.5 EYE Filmmuseum EYE Filmmuseum is bezig de interne workflow digitaliseringen van analoog filmmateriaal en de workflow born digital opnieuw vorm te geven en af te stemmen met het Nederlands Instituut voor Beeld en Geluid waar de digitale bestanden worden opgeslagen. Daarbij zal EYE Filmmuseum zijn kwaliteitscontrole laten aansluiten op de certificering (Data Seal of Approval) in 2016 van het e-‐depot van Beeld en Geluid. Onderzoek zal uitwijzen of in het kader van deze ontwikkelingen nieuwe tools voor kwaliteitscontrole nodig zijn.
33
6 Verwante internationale projecten Ook op internationaal gebied wordt er nagedacht over kwaliteitscontroles op digitale bestanden. Hieronder volgt een beschrijving van verwante internationale projecten waaraan NCDD partners deelnemen.
6.1 SCAPE (Koninklijke Bibliotheek) Het SCAPE project18 (Scalable Preservation Environments 2011-‐2014) richtte zich op diverse aspecten van grootschalige verwerking en duurzame bewaring van digitale collecties. Bestaande tools die slechts goed werkten wanneer toegepast op kleine hoeveelheden objecten, zijn geschikt gemaakt voor bredere toepassing. Nieuwe tools voor kwaliteitscontrole, zoals JPYLYZER voor het checken van JPEG 2000 files en de rapportage tool C3PO zijn ontwikkeld. Binnen SCAPE is vooral gewerkt aan oplossingen in de HADOOP cluster omgeving. Er zijn workflows aangemaakt voor automatische verwerking op deze omgeving op basis van het programma Taverna. Zowel Taverna als de workflows zijn open source en toegepast op verschillende repository omgevingen, bijvoorbeeld Fedora 4. Automatische verwerking vraagt om automatische beslissingen, die dan weer op basis van beleid (policies) genomen worden. Ondersteunend hierbij is het ontwikkelde SCAPE Policy Model en de bijbehorende Catalogue of Policy Elements, een leidraad om zelf een preservation policy te maken. Ook de Plato tool, een beslissingsondersteunend instrument voor duurzaamheidsacties, is verder ontwikkeld. Meer informatie over de producten van SCAPE is te vinden op de originele website. Alle producten van SCAPE zijn in beheer bij de Open Preservation Foundation.
6.2 APARSEN (Koninklijke Bibliotheek) Het APARSEN project (Alliance Permanent Access to the Records of Science in Europe Network 2011-‐2014) heeft verschillende aspecten van duurzaamheid dieper uitgewerkt, om uiteindelijk te komen tot een blauwdruk voor een “Virtual Centre of Excellence” waar de expertise op dit gebied verzameld is. Er zijn verschillende uitstekende rapporten verschenen onder andere over Digital Rights Management, Persistent Identifiers, Authenticity en een verslag van test audits gedaan op basis van ISO 16363 Trustworthy Digital Repositories. Deliverables19 en andere informatie zijn te vinden op de website20 van het project.
18 19 20
http://www.scape-project.eu/ http://www.alliancepermanentaccess.org/index.php/aparsen/aparsen-deliverables/ http://www.alliancepermanentaccess.org/index.php/aparsen/
34
6.3 PREFORMA (Nederlands Instituut voor Beeld en Geluid) Beeld en Geluid is al meer dan veertien jaar actief in de Europese onderzoeksarena en een gewaardeerde partner in een groot aantal onderzoeksprojecten. Daarnaast is Beeld en Geluid onder andere actief in de internationale organisaties FIAT/IFTA, IASA, EBU en UNESCO en vormt het de thuisbasis van PrestoCentre, het kennisplatform voor digitaal beheer van audiovisueel materiaal. Beeld en Geluid is één van de zes erfgoedinstellingen die deelnemen aan het pre-‐commerciële aanbestedingsproject PREFORMA, dat gefinancierd wordt onder het Europese FP7-‐programma. PREFORMA laat onder open source licenties referentie-‐implementatiesoftware ontwikkelen. Het doel is deze software in te kunnen zetten binnen elke erfgoedinstelling die wil controleren of haar bestandsformaten overeenstemmen met een specifieke standaard. Fileformaten worden gecreëerd door software van verschillende leveranciers. Een archiefinstelling of de organisatie die de bestanden produceert heeft maar zelden of nooit de volledige controle over de werking van deze programma’s. Als gevolg hiervan moeten erfgoedinstellingen conformiteitstests inbouwen voordat ze de ontvangen elektronische collecties in bewaring nemen. Deze tests zijn op hun beurt ook weer zelden in eigen beheer te vinden. Dat maakt ze niet volledig betrouwbaar -‐ digitale objecten die een ongecontroleerd proces doorkomen, kunnen immers het hele bewaringsproces in gevaar brengen. Het project maakt gebruik van een aanbesteding om de vaardigheden van leveranciers samen te brengen met de professionele kennis van erfgoedinstellingen bij de ontwikkeling en promotie van producten. Deze samenwerking levert een win-‐winsituatie op. Een gezamenlijke aanbesteding laat PREFORMA toe een duurzaam netwerk van gemeenschappelijk belang op te bouwen. Daardoor kunnen de openbare aanbesteders ook nadat de financiële steun afloopt in contact blijven en samenwerken. De referentie-‐implementatiesoftware komt te bestaan uit een set modulaire tools. Ze worden gevalideerd aan de hand van specifieke standaard implementaties die relevant zijn voor het PREFORMA project en gebruikt door Europese erfgoedinstellingen voor het behoud van hun verschillende soorten data. Om de effectiviteit van deze tools aan te tonen en te verfijnen, worden ze ontwikkeld in een iteratief proces met meerdere releases en met een aantal experimenten met bestande datasets. De filetypes die onder de aanbesteding vallen, zijn: 1. Teksten, standaard specs te worden gecontroleerd: PDF 1.7, PDF / A-‐1, PDF / A-‐2, PDF / A-‐3 2. Afbeeldingen, standaard specs te worden gecontroleerd: TIFF / EP, TIFF / IT 3. AV-‐records, standaard specs worden gecontroleerd: MKV, Ogg (wrapper); JPEG2000, FFv1, Dirac v2.2.3 (video encoding); LPCM (audio encoding) 35
Zes leveranciers (twee voor ieder mediatype) waren geselecteerd voor de eerste ontwerpfase, die maanden duurde. De leveranciers van de beste drie ontwerpen (één voor ieder domein) werden daarna uitgenodigd voor de prototypingfase die twee releases omvat, en de redesign fase, die duurt tot december 2016. De leveranciers zijn: • veraPDF (geleid door Open Preservation Foundation en PDF Association): “The PDF/A conformance checker accepted industry-‐wide” (PDF/A) • EasyInnova: "Digital Preservation Formats (DPF) Manager” (TIFF) • MediaArea -‐ "Preforma MediaConch: CONformance CHecking for audiovisual files” (MKV|FFV1|LPCM) Het project heeft een open source portal opgezet om een overzicht te bieden van de open source projecten die momenteel aan de prototypingfase werken21. Het fungeert als een aanknopingspunt voor externe betrokkenen, waarop onderzoekers en ontwikkelaars worden uitgenodigd om in contact te treden met de leveranciers om bij te dragen aan de open source projecten en erfgoedinstellingen worden uitgenodigd om deel te nemen aan de testfase door het verstrekken van datasets. De Open Preservation speelt een belangrijke rol binnen het PREFORMA project, daardoor zijn KB en NA als leden van OPF eveneens via deze weg betrokken.
6.4 E-‐ARK (Nationaal Archief) E-‐Ark (European Archival Records and Knowledge Preservation) is een drie jaar durend onderzoeksprogramma wat mede gefinancierd wordt door de Europese commissie en loopt van februari 2014 tot januari 2017. Het Nationaal Archief zit in de Advisory Board van dit programma waarvan het eerste jaar inmiddels succesvol is afgerond. Doel van het programma: “Our objective is to provide a single, scalable, robust approach capable of meeting the needs of diverse organisations, public and private, large and small, and able to support complex data types. E-‐ARK will demonstrate the potential benefits for public administrations, public agencies, public services, citizens and business by providing simple, efficient access to the workflows for the three main activities of an archive -‐ acquiring, preserving and enabling re-‐ use of information. The practices developed within the project will reduce the risk of information loss due to unsuitable approaches to keeping and archiving of records. The project will be public facing, providing a fully operational archival service, and access to information for its users. The 21
http://www.preforma-project.eu/open-source-portal.html
36
project results will be generic and scalable in order to build an archival infrastructure across the EU and in environments where different legal systems and records management traditions apply. E-‐ARK will provide new types of access for business users.” Meer informatie is te vinden op de website: http://www.eark-‐project.com/
37
7 Conclusie en aanbevelingen De snel groeiende digitale informatie op een efficiënte wijze toegankelijk houden voor toekomstige generaties is een van de grote uitdagingen waar collectiebeherende instellingen voor staan. Digitale informatie is kwetsbaar en tegelijkertijd is de maatschappij er sterk afhankelijk van geworden. De razendsnelle digitalisering van de samenleving heeft ervoor gezorgd dat de manier waarop mensen met elkaar communiceren, wetenschap bedrijven en informatie verzamelen, veranderd is. Er zijn vergelijkbare maar ook geheel nieuwe objecten in digitale vorm ontstaan. Met computers worden documenten, foto's, films, muziek, kunst, databases, games, websites, multimediale toepassingen etc. gemaakt. Dit betekent ook dat deze digitale bronnen verzameld en bewaard moeten worden, enerzijds door authentieke bronnen op grote schaal te digitaliseren, anderzijds door de grote aanwas van born digital objecten duurzaam op te slaan en toegankelijk te houden. Grenzen die in het fysieke domein betrekkelijk helder zijn, zijn dat in de digitale wereld niet meer. Digitale informatie wordt opgeslagen in digitale archieven (bijv. publicaties, archiefstukken, websites, onderzoeksdata of audiovisueel materiaal). Om duurzame toegang te kunnen garanderen moet er voldaan worden aan een aantal belangrijke randvoorwaarden. Een van die voorwaarden is dat duidelijk is wat wordt opgeslagen, en dat de vorm en consistentie van de opgeslagen objecten gecontroleerd wordt (karakteriseren en valideren). Zo moet duidelijk zijn om welke bestandsformaten het gaat, of alle bits en bytes van het bestand kloppen, of er geen beveiligingen op een bestand staan, hoe bestanden met elkaar gekoppeld zijn, etc. Gelet op de enorme hoeveelheid objecten die collectie beherende instellingen dagelijks verwerken, is het onmogelijk dit handmatig te doen, zoals in de fysieke wereld. Kwaliteitscontrole moet dus geautomatiseerd verlopen. Dit is lastig omdat het om veel en divers materiaal gaat, omdat technologische ontwikkelingen snel gaan (formaten veranderen en de weinige bestaande tools voor automatische kwaliteitscontrole moeten dus in hoog tempo mee veranderen), en omdat het proces ingewikkeld is. Dit werd eens te meer duidelijk in de uitvoering van dit project. Daar waar aanvankelijk beoogd werd functionele eisen te formuleren voor een te ontwikkelen generieke kwaliteitscontrole tool of proces, werd al snel duidelijk dat de operationele praktijk bij de deelnemende instellingen te zeer verschillend is. Kwaliteitscontrole is wezenlijk voor alle stappen van digitale duurzaamheid en kan worden samengevat als “informatie over een digitaal object”. Een goed werkende kwaliteitscontrole is van strategisch belang voor iedere collectiebeherende instelling. Dat is nu voor iedere afzonderlijke oplossing ingeregeld. De te verwerken en te behouden typen digitale objecten 38
verschillen te zeer om een generieke controletool te kunnen definiëren. Daarnaast zijn ook de verwerkingsprocessen, de plaats in dat proces waar kwaliteitscontrole plaatsvindt en de tools die daarvoor gebruikt worden dermate anders dat er op dit moment te weinig overeenkomsten zijn voor een generieke aanpak. Conclusies In de bovenstaande hoofdstukken is er een overzicht gegeven van: 1. Het beleid ten aanzien duurzame toegang tot digitale collecties bij de betrokken instellingen: preserveringsbeleid 2. De te verwerken en te beheren digitale collecties bij de betrokken instellingen en de bestandsformaten die daarbij worden opgenomen/toegestaan 3. De richtlijnen die worden gehanteerd voor opname en verwerking van de betreffende bestandsformaten 4. De wijze waarop de kwaliteit van de te verwerken en beheren bestanden wordt gecontroleerd, alsmede de tools waarmee deze kwaliteitscontrole plaatsvindt De belangrijkste conclusies die hieruit getrokken kunnen worden zijn: 1. De vijf grote landelijke instellingen beschikken allen over een geschreven preserveringsbeleid. Deze beschrijft de uitgangspunten ten aanzien van het duurzaam beheer, behoud en toegang van hun digitale collecties en is gekoppeld aan de missie van de betreffende organisatie. 2. Deze geschreven policies zijn over het algemeen interne documenten en worden nog maar mondjesmaat gedeeld met anderen. Alleen DANS en Beeld en Geluid hebben hun policy gepubliceerd (Beeld en Geluid als onderdeel van hun Collectiebeleid) 3. Een preservation policy beschrijft op hoog niveau het beleid van een organisatie op het gebied van digitale duurzaamheid. In veel gevallen mist nog de vertaling daarvan naar de operationele praktijk; de wijze waarop digitale duurzaamheid gerealiseerd wordt in de organisatie 4. Niet alle vijf grote landelijke instellingen beschikken over richtlijnen voor de verwerking van typen bestandsformaten (in het geval van het Nationaal Archief is dit ook minder relevant). In sommige gevallen hanteren ze wél een aantal preferred formats, bestandsformaten die de voorkeur hebben boven anderen 5. In de praktijk zien we dat bijna alle bestandsformaten toegestaan worden ondanks de richtlijnen en preferred formats. Het blijkt dat instellingen in veel gevallen afhankelijk zijn van de leveranciers van digitale objecten 6. Er is behoefte aan een landelijk overzicht van welke instellingen welke bestandsformaten verwerken en opslaan 7. Er is behoefte aan het delen van richtlijnen voor de verschillende bestandsformaten. De Nederlandse taal is hiervoor prettig (met name voor kleinere instellingen) 8. Kennis over bestandsformaten de verwerking daarvan moet meer en beter gedeeld worden 39
9. Kwaliteitscontroletools worden door alle betrokken instellingen gebruikt, maar er is nauwelijks overlap in de tools die gebruikt worden Vervolgstappen in het kader van het Netwerk Digitaal Erfgoed In maart 2015 werd de Nationale Strategie Digitaal Erfgoed gepresenteerd. De strategie geeft een visie op de wijze waarop de gewenste landelijke infrastructuur tot stand kan komen. Uitgangspunt daarbij is samenwerking tussen instellingen en de verschillende sectoren. Alleen via een intensieve samenwerking kunnen we een ambitieus doel als dit behalen. De strategie bevat doelen, vertrekpunten en concrete werkprogramma’s voor een gezamenlijke aanpak. Deze nationale strategie is een initiatief van het Netwerk Digitaal Erfgoed. Dit samenwerkingsverband richt zich op de ontwikkeling van een stelsel van landelijke voorzieningen en diensten voor het verbeteren van de zichtbaarheid, bruikbaarheid en houdbaarheid van digitaal erfgoed. Het netwerk is gestart op initiatief van het Ministerie van Onderwijs, Cultuur en Wetenschap. Deelnemers in het netwerk zijn grote landelijke instellingen die werken aan professioneel behoud en beheer van digitale data (de Koninklijke Bibliotheek, het Nederlands Instituut voor Beeld en Geluid, de Rijksdienst voor het Cultureel Erfgoed, de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) en het Nationaal Archief), kenniscentrum DEN, startpagina innl en een groeiend aantal partijen en personen van binnen en buiten de erfgoedsector." Instellingen ontwikkelen functionele en technische voorzieningen om die collecties digitaal zichtbaar te maken, te laten gebruiken en duurzaam en kosteneffectief te behouden. Dit zijn vaak omvangrijke programma’s met de logica, oplossingen en dilemma’s die passen bij de betreffende sector. Het is nu de kunst om sectorale infrastructuren verder te ontwikkelen en ze tegelijkertijd meer te gaan verbinden, door gedeelde principes en standaarden te hanteren en meer gezamenlijke projecten uit te voeren. Met een gecoördineerde IT-‐strategie kunnen schaalvoordelen worden benut en bestaande bouwstenen worden hergebruikt. Door slimme verbindingen tussen collecties tot stand te brengen kunnen gebruikers ieder object in een veel rijkere context raadplegen, beleven en hergebruiken. Daarnaast kunnen ook ervaringen worden uitgewisseld over de mogelijkheden van open software. Fileformaten en kwaliteitscontroletools worden vaak geproduceerd onder gesloten licenties of gepatenteerde technologie. Op plaatsen waar wel open formaten worden aanbevolen, zagen we dat gebruikers deze in de praktijk niet altijd toepassen -‐ vanwege gebruiksgemak of ingesleten gewoontes. Het inzetten van open formaten kan op termijn duidelijke voordelen hebben voor een bewaringsproces, maar de mogelijkheden hiervan en verhouding ten opzichte van gesloten, marktconforme toepassingen, dienen 40
voortdurend te worden afgetoetst. Een grote uitdaging voor de erfgoedsector ligt in het opschalen van voorzieningen dat leidt tot meer effectiviteit en efficiency en in het koppelen van collecties voor een beter gebruik. Het uitgangspunt voor een landelijke infrastructuur van voorzieningen is het zogenaamde drielagenmodel, waarin het beheer van datacollecties, voorzieningen voor het verbinden van die data en toepassingen voor presentatie en gebruik functioneel worden gescheiden. De samenwerking wordt concreet gemaakt in drie werkprogramma’s: 1. Digitaal Erfgoed Zichtbaar vergroot de zichtbaarheid van collecties, verkent de vraag van gebruikers en bevordert (her)gebruik van digitale collecties. 2. Digitaal Erfgoed Bruikbaar verbetert de mogelijkheden tot gebruik van collecties door ze gezamenlijk online beschikbaar te stellen, en door data te verbinden en te verrijken met behulp van termenlijsten en thematisch beheer. 3. Digitaal Erfgoed Houdbaar werkt aan de sector overstijgend delen, benutten en opschalen van voorzieningen voor duurzaam behoud en toegang, met aandacht voor kostenbeheersing en onderlinge rolverdeling ten aanzien van collectievorming. Het centrale doel van de activiteiten binnen het derde werkprogramma, Digitaal Erfgoed Houdbaar, is het tot stand brengen van een gezamenlijke infrastructuur door middel van domein overstijgende samenwerking. Dit om duurzame toegang tot digitale informatie te garanderen. De aanname die we hierbij doen is dat samenwerking en delen van voorzieningen leidt tot het verhogen van de effectiviteit en tot een grotere efficiëntie en kostenreductie. De projecten die binnen dit werkpakket uitgevoerd zullen worden bouwen voort op de strategische discussies en projecten die in de afgelopen jaren zijn uitgevoerd binnen de NCDD en de CCDD. In de komende twee jaar, 2015 en 2016 zullen er een aantal projecten uitgevoerd worden binnen dit werkprogramma. De resultaten van deze projecten dragen als waren ze legoblokjes bij aan de totstandkoming van een nationale infrastructuur. Projecten volgen een drietal met elkaar samenhangen thema’s: 1. De ontwikkeling van een set aan voorzieningen die ervoor moeten zorgen dat de digitale collecties van zo veel mogelijk Nederlandse erfgoedinstellingen duurzaam beheerd kunnen worden. Dit willen we bereiken door het beter benutten en opschalen van bestaande voorzieningen 2. Het ontwikkelen van een transparante kostenstructuur zodat het beter inzichtelijk wordt wat de kosten voor lange termijn beheer zijn en instellingen een betere inschatting van hun lange termijn kosten kunnen maken 3. Het verhelderen van rollen en verantwoordelijkheden ten aanzien van digitale collectievorming door het maken van afspraken en opstellen van procedures voor collectievorming en lange termijn beheer van digitale collecties 41
Binnen deze thema’s worden clusters van projecten uitgevoerd die tot concrete resultaten moeten leiden: handreikingen, procedures, documentatie, diensten, etc. Het levert een pakket van voorzieningen waarmee erfgoedinstellingen als het ware ontzorgd worden. De conclusies en aanbevelingen uit het project automatische kwaliteitscontrole zullen worden meegenomen in de projecten van werkpakket 3. Het zo breed mogelijk delen van kennis en ervaringen is van groot belang zodat instellingen verantwoorde en effectieve keuzes kunnen maken. Aanbevelingen 1. Op basis van bestaande preservation policies en het drielagenmodel van SCAPE raden wij aan om templates te ontwikkelen voor het opstellen van een preservation policy en preservation procedures ten behoeve van kleine en middelgrote instellingen. 2. Zoals hierboven beschreven ontbreekt het veelal nog aan de koppeling tussen preservationbeleid en de operationele uitvoering daarvan (respectievelijk de lagen twee en drie van het SCAPE drielagenmodel). Er is behoefte aan meer uitwerking op dit gebied. Dit dient gestimuleerd te worden. 3. Het delen van documentatie op het gebied van preserveringsbeleid dient te worden gestimuleerd. Evenals de vertaling daarvan naar de praktijk. Het hebben van een preservation policy is mooi, maar hoe wordt dit vertaald naar de operationele praktijk? Meer inzicht hierin is nodig. Dit kan onder andere door het delen van best practices. Uitvoering daarvan ligt bij de platformfunctie van de NCDD en kan in de vorm van een reeks workshops. Te denken valt ook aan een reeks webinars over het implementeren van digitale duurzaamheid in de organisatie (van policy naar praktijk of van praktijk naar policy) 4. Binnen het SCAPE project is een set van elementen van een preservation planning opgesteld. Vertaling naar het Nederlands (in taal en in situatie) is aan te bevelen 5. Er dient een kennispagina (wiki) over bestandsformaten opgezet te worden. Hierin moet informatie opgenomen worden over welke bestandsformaten er zijn, welke organisaties deze formaten beheren en waar de kennis over de betreffende informatie aanwezig is. Deze kennispagina zal kunnen functioneren als een community rondom kennis over bestandsformaten in Nederland (met een link naar internationale initiatieven) 6. Het is aan te bevelen om een landelijke werkgroep preferred formats in te richten waarin kennis over preferred formats en het opstellen van preferred formats besproken wordt. Gebruik van de Nederlandse taal is hierbij drempelverlagend. 7. De mogelijkheden tot het delen van diensten en tools met betrekking tot kwaliteitscontrole moeten worden onderzocht en daar waar mogelijk worden uitgevoerd 8. Het is aan te bevelen om te onderzoeken hoe en waar we op centraal niveau kunnen aansluiten bij internationale initiatieven op het gebied van format registries 42
Deze aanbevelingen zullen worden opgepakt in het werkpakket 3, digitaal erfgoed houdbaar, van het NDE werkprogramma 2015-‐2016.
43
Bijlage A: Projectdeelnemers Projectleider Expert Expert Expert Expert Expert
Expert
Koninklijke Bibliotheek NCDD Koninklijke Bibliotheek Nationaal Archief DANS Beeld en Geluid
CCDD (vertegenwoordigd door EYE Filmmuseum)
Vera Hubers Marcel Ras Barbara Sierman Mette van Essen Paula Witkamp Aad van der Valk (tot oktober 2014) Erwin Verbruggen (vanaf oktober 2014) Daniel Steinmeijer Walter Swagemaker
44
Bijlage B: Workflow EYE Filmmuseum
45