Hoe en waarom preserveren? Een inleiding in digitale duurzaamheid Planetsdag 14 december 2009 Ross King (Planets, dia’s) en Inge Angevaare (NCDD, tekst, bewerking en presentatie)
Na het welkomstwoord van Hans Jansen (directeur e‐Strategie van de KB) sta ik zelf op het programma – hoewel, ik ben het en ik ben het ook weer niet. We hebben jullie beloofd dat we deze dag toegankelijk zouden houden, dat we het probleem en de Planetsgereedschappen begrijpelijk zouden brengen. Daar hoort een les basiskennis over duurzame toegankelijkheid bij, en degene die dat als geen ander kan doen is Ross King van het Planetsproject. Hij kon hier vandaag zelf niet zijn, maar we mochten wel zijn dia’s gebruiken en de opbouw van zijn verhaal. Jullie krijgen dus een beetje een mix aangeboden, zeg maar Ross King meets Inge Angevaare, oftewel techneut meets beleidsmedewerker. Ik begeef me als mens van beleid en organisatie een beetje op glad ijs als ik over de techniek praat, maar jullie kunnen erop vertrouwen dat mijn meer ter zake deskundige collega’s van het Nationaal Archief en de Koninklijke Bibliotheek ogenblikkelijk ingrijpen als ik een uitglijdertje maak.
Dit is de korte inhoud van de presentatie. Als beleidsmedewerker zou ik zelf bij het waarom beginnen, en dan het hoe bespreken, maar Ross doet het andersom. Ook prima. Na een korte inleiding over de digitale wereld beginnen we met de technische problemen, en daarna komen de meer organisatorische zaken aan bod.
Als de digitale wereld één allesoverheersend kenmerk heeft, dan is het wel de explosie aan informatie. 700 exabyte in 2009? Ik wist niet eens wat ik me daarbij moest voorstellen. Maar Clive
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 1 ‐
Billenness van Planets gaf me vanochtend een aardige illustratie: 700 exabyte aan informatie op cd’s is een stapel van de aarde naar Mars én terug …
We produceren momenteel meer dan we kunnen opslaan, en het gaat almaar harder. Gelukkig hoeven we ons over misschien wel 90% van die informatie niet druk te maken. Die is overbodig, of het is ruis, of het is van tijdelijk belang. We laten al die informatie voor wat het is en laten het rustig verdwijnen in het zwarte gat van cyberspace.
Probleem is natuurlijk wel dat we zelf in de hand willen houden wat we bewaren en wat we laten verdwijnen. Selectie dus. Dat is een flinke opgave, waar de NCDD zich wel mee bemoeit, maar Planets niet. Die slaan we vandaag dus over. Het hoe van preserveren is wel het terrein van Planets – en aan het eind kijken we ook nog even naar het waarom van duurzaam beheer en hoe we dat kunnen bevorderen. Wat zijn de uitdagingen?
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 2 ‐
Laten we eerst eens benoemen wat we verstaan we onder digitale duurzaamheid – of zoals ik het zelf tegenwoordig liever noem: duurzame toegankelijkheid, omdat duurzaamheid zelf natuurlijk nooit een doel is. En de term toegankelijkheid doet het beter in de fondsenwerving. Maar wat we eronder verstaan is hetzelfde: het geheel van technologie, standaarden en best practices dat we nodig hebben om digitale gegevens voor de lange termijn toegankelijk en herbruikbaar te houden. Het was Jeff Rothenberg die deze uitdaging het eerst goed omschreef, in 1995, onder het motto dat u hier op de dia ziet staan. Rothenberg had het daar vooral over de technische uitdagingen van digitaal informatiebeheer. Hoe zien die eruit?
In virtuele samenwerking gaan Ross en ik het principiële verschil tussen analoge en digitale informatie uitleggen aan de hand van een vergelijking tussen informatieoverdracht vroeger en informatieoverdracht nu. Dit plaatje kennen jullie vast: het is de Steen van Rosette. De vondst van deze steen in 1799 stelde ons in staat om eindelijk het Egyptische hiëroglyfenschrift te ontcijferen omdat er twee vertalingen bij stonden. In technische zin hebben we hier te maken met een duurzame informatiedrager – dat mag je wel zeggen van een steen van 760 kilo. Er staat informatie op die is gecodeerd in tekens, in drie talen. Wat heb je nodig om de informatie eruit te halen? Alleen maar een mens die in staat is om een van de drie gebruikte talen te begrijpen. Simpel, rechtstreeks.
Het plaatje anno 2009 is een stuk ingewikkelder. De drager (een schijf of dvd) geeft zijn informatie niet zo maar af, daar is hardware voor nodig als intermediair. En software, zowel het operating systeem als applicaties.
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 3 ‐
Lastig is ook dat de codering niet zomaar door mensen gelezen kan worden. Bitstreams, nullen en énen, zijn alleen leesbaar voor machines. Die moeten de bistream weer omzetten in coderingen die mensen kunnen begrijpen. Daar heb je representatie‐apparaten voor nodig als beeldschermen.
Schematisch zag het er in 196 voor Christus zo simpel uit. Informatie wordt in steen gehakt, en die coderingen, de tekens, kunnen weer door een mens worden geïnterpreteerd.
In het digitale tijdperk is dat plaatje wat complexer geworden. Informatie moet eerst worden omgezet in binaire gegevens, de enen en nullen, de bitstream. Die bitstream wordt weer door software omgezet in een representatie, bijvoorbeeld op een beeldscherm. Dat beeldscherm kan dan weer door mensen worden uitgelezen. Een mens zou bijna denken waarom doen we zo moeilijk. Laten we tijdens deze dag over de problemen van digitale informatie niet vergeten dat er ook enorme voordelen zijn. Machines rekenen oneindig veel sneller en accurater dan wij mensen. En we hebben maar één Steen van
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 4 ‐
Rosette die maar op één plek kan worden uitgelezen, terwijl digitale informatie in seconden de hele wereld over kan vliegen en overal tegelijkertijd zijn nut kan hebben. Maar daar moeten we wel een prijs voor betalen.
Het duurzaam bewaren van die digitale gegevens is namelijk een aardige uitdaging. Niet alleen moet je ervoor zorgen dat de nullen en de enen in tact blijven, de bitstreampreservering, maar we moeten ook de hele context zien te bewaren, wat we logische preservering noemen.
Dat zijn technisch nogal verschillende processen. Bij de bitstreampreservering gaat het om de hardware en de fysieke dragers. Bij de logische preservering om de software en de context. Daar zitten bijvoorbeeld ook de processen in die archiefbescheiden doorlopen hebben om ze rechtsgeldigheid te geven. Zonder proces geen archiefstuk. Sara van Bussel komt vanmiddag nog terug op de verschillen tussen deze manieren van preserveren.
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 5 ‐
Wat maakt het lastig om de bitstream goed te bewaren? Fysieke dragers zoals cd’s en dvd’s gaan kapot. En computers worden steeds opnieuw uitgevonden.
Kijk maar eens naar dit plaatje met een vergelijking van de levensduur van dragers. Die Steen van Rosette is al 2000 jaar oud en nog perfect te lezen. Maar een cd‐rom anno 2009 kan met 10 jaar al onbruikbaar zijn.
En dan de levensduur van de hardware. Dit plaatje spreekt voor zich. Al deze modellen zijn alweer antiek te noemen.
En probeer maar eens een floppy in een notebook te stoppen …
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 6 ‐
Nu zou je natuurlijk in theorie een aantal oude computers kunnen bewaren in een computermuseum en die aan de praat kunnen houden. Op beperkte schaal wordt die oplossing ook toegepast. Op het plaatje zie je het computermuseum van de National Archives van Australië – vlak voordat het werd opgeruimd. Want het is een kostbare oplossing en je ziet aan dit plaatje al waar deze manier van preserveren mank zal gaan. Er komt altijd een tijd dat je er geen onderdelen meer voor kunt krijgen, of dat er geen handleidingen meer beschikbaar zijn en niemand dus meer weet hoe het apparaat werkt.
Daarom zetten de meeste organisaties in op migratie. Je zet de bitstream steeds over op de drager van het moment. Van een floppy op een cd, van een cd op een harde schijf, en ga zo maar door – hoewel, je probeert het wel zo slim mogelijk te doen door dragers te gebruiken die zo lang mogelijk meegaan. Zulke migraties moet je automatiseren, want de hoeveelheden zijn te groot om het met de hand te doen.
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 7 ‐
Dan de logische preservering, het bewaren van de context. Dat wordt lastig gemaakt door software die steeds weer veroudert en bestandsformaten die verouderen. WordStar, WordPerfect, niemand gebruikt ze meer. Als we dus al een bitstream hebben overgehouden, weten we niet meer hoe we die moeten interpreteren als we de software niet hebben.
De oplossing hiervoor is het opslaan van zoveel mogelijk informatie over de context waarin de informatie is geproduceerd, de zogenaamde representatie‐informatie. Representatie‐informatie kan echt van alles zijn, zoals dit citaat uit het Handboek van het Digital Curation Centre in Engeland laat zien. Ze noemen het hier ook recursive, ik weet niet zo goed hoe ik dat moet vertalen maar het doet mij denken aan het beroemde Droste‐blik – ieder stukje informatie kan weer verwijzen naar andere informatie die je ook nodig hebt. Net zo lang totdat je alles weet om die rij enen en nullen weer bruikbaar te maken.
Met behulp van al die representatie‐informatie kun je in principe twee kanten op: je kunt de omgeving waarin het originele bestand is gemaakt nabootsen met behulp van software, dat noemen we emulatie. Het gezamenlijke project Dioscuri van de KB en het NA is daar een voorbeeld van. Emulatie heeft als nadeel dat het aan het begin van de rit hoge investeringen vereist. Daarom wordt het nog niet veel toegepast. Niettemin zou het voor complexe objecten zoals websites weleens de enige mogelijke strategie kunnen zijn. Voor de andere objecten zetten de meeste organisaties momenteel in op migratie – de representatie‐informatie stelt je in staat om te identificeren welke objecten in je collectie gevaar lopen omdat de bestandsformaten uit zwang raken. Vervolgens zet je de bitstreams dan over naar een nieuwer of robuuster bestandsformaat. Het liefst ook een open en gestandaardiseerd formaat, want die lijken vooralsnog het meest toekomstvast te zijn.
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 8 ‐
De vraag is nu wat Planets voor jullie kan betekenen bij dit alles. Binnen Planets is op een logische manier nagedacht over welke stappen je allemaal moet zetten om je collecties te preserveren, en heeft men geprobeerd om voor een aantal van die stappen gereedschappen of diensten te ontwikkelen. Eerst moet je natuurlijk weten wat er allemaal in je collectie zit en wat voor methoden er zijn om je collecties te preserveren. Daarvoor is de Core Registry ontwikkeld – Sara van Bussel vertelt er straks meer over. Dan moet je gaan plannen wat je gaat doen om de risico’s in je collecties te beheersen, daarvoor is er de Planets Preservation Tool oftewel Plato, waar Hans Hofman over gaat vertellen. Vervolgens ga je concrete acties uitvoeren om je collecties te preserveren, daarvoor zijn er de Planets Preservation Service Suite en de Planets Service Developers Guidelines.
Het XCL Tool pakket is bedoeld om na een migratie te kunnen controleren of het allemaal goed is gegaan. En op het testbed kun je experimenteren met diverse gereedschappen voordat je ze loslaat op je collecties. Petra Helwig vertelt daar straks meer over. En ten slotte is er het Planets Interoperability Framework om diverse preserveringsacties in een workflow onder te kunnen brengen. Een samenvatting van al die instrumenten vind je in de congresmap. En ook de volgende spreker, Clive Billenness, zal ze de revue laten passeren in een logisch verband. Ten slotte enkele opmerkingen over het waarom van duurzaam bewaren. Dat ligt meer in de lijn van mijn werk als NCDD‐coördinator.
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 9 ‐
In principe heeft iedereen te maken met digitale objecten die onleesbaar worden. De wetenschap, de overheid, het bedrijfsleven en particulieren. Maar hebben ze allemaal ook goede redenen om informatie voor de lange termijn te bewaren?
Ik plak er nu even een dia tussen met informatie uit het NCDD‐onderzoek Toekomst voor ons digitaal geheugen. Daaruit bleek dat men in het bedrijfsleven het bewaren van informatie al gauw als een kostenpost ziet die niets meer oplevert. Het bedrijfsleven zal daarom gegevens vernietigen zodra die niet meer nodig zijn om procesrechtelijke redenen. Er zijn enkele uitzonderingen, zoals de farmaceutische industrie, die wettelijk verplicht is om gegevens zeer lang te bewaren. Het is vooral de publieke sector die er echt werk van maakt. De wetenschap om onderzoeksresultaten te kunnen verifiëren maar ook om het wetenschappelijk proces te versnellen, meer rendement halen uit een set ruwe data. De overheid zal bewaren om verantwoording te kunnen afleggen aan de burger, en zowel de overheid als het cultureel erfgoed zullen bewaren om cultuurhistorische redenen. Dat zijn behoorlijk dwingende redenen, zou je zeggen, maar toch komt duurzaam beheer vaak moeizaam van de grond. Waarom is dat?
Het probleem met duurzame toegankelijkheid is dat het langetermijnwerk is. En de producenten van digitale informatie hebben vaak juist een kortetermijnbelang. Als mijn proefschrift maar af komt, als mijn klanten aan de balie maar geholpen worden, ik wil politiek kunnen scoren binnen mijn eigen ambtstermijn. Daarbij komt dat de opbrengsten van duurzame toegankelijkheid nauwelijks in geld uitgedrukt kunnen worden. Want die opbrengsten liggen vaak in de toekomst en die kan niemand overzien.
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 10 ‐
Daarom gaan er steeds meer stemmen op om duurzame toegankelijkheid te bezien als een vorm risicomanagement. En die gedachtengang spreekt mij zeer aan.
Dan worden dit het soort vragen dat we onszelf stellen. Wat is de waarde van de digitale objecten voor onze organisatie? Wat zijn de consequenties voor onze organisatie als we de objecten kwijtraken? Clive Billenness, de volgende spreker zal daar wat dieper op ingaan.
Al met al zijn dit de conclusies: de hoeveelheden digitale informatie kunnen we eigenlijk niet bevatten. Het bewaren van die informatie stelt ons voor behoorlijke problemen. Planets heeft antwoorden op een aantal van die problemen, maar niet op alle. Duurzame toegankelijkheid is politiek lastig te verkopen omdat het een langetermijnprobleem is. En misschien is een benadering vanuit het risicomanagement wel de beste manier om het probleem toch op de politieke agenda te krijgen. Dank voor jullie aandacht.
Planetsdag 14 december 2009 – Inleiding Ross King/Inge Angevaare
‐ 11 ‐