Dit is geen succesverhaal! Hoe het allemaal precies is begonnen weet ik niet meer, het zal wel ooit ergens bij het gemeentearchief Rotterdam ter sprake zijn gekomen en in 2003 ben ik me er in gaan verdiepen. Al snel werd ik geconfronteerd met de activiteiten van Philip Boudrez uit Antwerpen en zijn project DAVID en met het Archipol project in Groningen. Ik las de buitengewoon toegankelijke publicatie “Het web gevangen”, van Archipol, de rapporten van DAVID, het rapport van Erika Hokke, “Blijvend beschikbaar”, de scriptie “Gevangen van het Net” van José van der Gun, nog meer scripties en nog meer artikelen. En langzamerhand kwam ik tot de conclusie dat een aantal scribenten ruimhartig gebruik maakten van de teksten van andere scribenten. Tussen haakjes als je snel wilt worden ingewijd in de wereld van het downloaden van websites kan ik de publicatie Het web gevangen aanbevelen. Daarin wordt kort en helder uitgelegd waar het om gaat. Deze publicatie vormde de basis van mijn kennis over dit onderwerp. (www.archipol.nl) In 2004 startte het Gemeentearchief met een pilotproject E-depot en dit project is geprolongeerd wegens enorm succes. Eén van de deelprojecten was het project Websites. De deelprojectgroep bestond uit vertegenwoordigers van de beherende afdelingen met ondersteuning van I & A en onder leiding van Jeroen van Oss van Inspectie. Natuurlijk werd begonnen met een degelijk ‘plan van aanpak’ waarin het projectdoel en de beoogde resultaten werden vastgelegd. (plaatje 2) Jeroen is een wetenschapper en daarbij een bijzonder ordelijk mens, dus de zaken werden gestructureerd aangepakt. Zelf werd ik een beetje zenuwachtig van al dat ontwikkelen van archiveringsstrategieën, scopes, typologieën, authenticiteiteisen, kwaliteitseisen enzo…. Ik wilde alleen maar websites fatsoenlijk binnenhalen, opslaan en ontsluiten. Toch heb ik inmiddels geleerd dat het heel belangrijk is de zaken eerst grondig te overdenken en op te schrijven. Doordat je nadenkt over het onderwerp krijgt het meer structuur en het is beter de problemen eerst theoretisch te overdenken en op te lossen dan dat je later van alles moet gaan bijstellen. Een mens is nooit te oud om te leren! Het belangrijkste product van deze deelprojectgroep was een publicatie met de enigszins prestigieuze titel: “Handboek archivering websites” Dit handboek heeft zijn nut ruimschoots bewezen bij het binnenhalen van de websites van de politieke partijen. Wat is eigenlijk een website. Erika Hokke heeft een aantal letters op een rijtje gezet en kwam tot de volgende definitie: Een website is het medium waarmee via het internet informatie wordt gepresenteerd op een statische of dynamische manier, vaak in combinatie met technologieën voor tweezijdige communicatie en transactie, zoals e-mail, nieuwsgroepen of discussielijsten (definitie van Erika Hokke in: Blijvend beschikbaar : Amsterdam, 2003) (plaatje 3) Zoals alle definities ziet het er ingewikkeld uit maar na een paar keer lezen valt het best mee. 1
Bij het archiveren van een dynamisch en veelvormig documenttype als een website moet je eerst afbakenen wat je van zo’n website wil archiveren. Wil je de chatsessies met de wethouder, de database met stamboomgegevens, of de via de website aangevraagde kapvergunning bewaren, of gaat het alleen maar om de inhoud en de presentatievorm? De keuzes die we daarin maken, hebben nogal wat technische en inhoudelijke consequenties. Daarom moet eerst worden bepaald wat een website maakt tot wat hij is. Is het een presentatiemedium, een portaal naar andere informatiebronnen of een transactiemedium? Het antwoord op die vraag hangt af van de functie die de website heeft in één of meerdere werkprocessen. Als dat is gedefinieerd, kun je vervolgens analyseren welke elementen van de website behouden moeten blijven om er voor te zorgen dat de authenticiteit overeind blijft. Dat wil dus zeggen dat je Authenticiteitseisen moet opstellen Het Testbed Digitale Duurzaamheid heeft een methode ontwikkeld om dit voor digitale documenten te definiëren en daarbij staan twee begrippen centraal: integriteit en Verifieerbaarheid. (plaatje 4) Met integriteit wordt bedoeld dat het document intact is en niet zodanig veranderd of gecorrumpeerd dat de betekenis ervan niet meer duidelijk is. Wijzigingen zijn tot op zekere hoogte aanvaardbaar, zolang de oorspronkelijke betekenis of functie van het document er niet door wordt aangetast. Verifieerbaarheid betekent dat vast te stellen is dat het document is wat het beweert te zijn. Om dit mogelijk te maken is weer context informatie nodig en deze informatie wordt later vastgelegd in metadata. De integriteit van een digitaal document hangt af van vijf elementen: (plaatje 5) •
• • • •
Context: de oorspronkelijke omgeving waarin de website is gemaakt. Zowel de ontstaanscontext (vormer, technische omgeving, werkproces) als de relatie met andere documenten (links met andere websites, koppelingen met backofficesystemen). Inhoud: tekst, plaatjes, filmpjes, geluid, maar ook databases. Structuur: logische hiërarchie, relaties tussen de delen van een document. Bijvoorbeeld de opbouw van een website zoals weergegeven in de sitemap. Vorm (of uiterlijk): de presentatievorm van de website: de vormgeving (lettertype, kleuren, opmaak). Gedrag (of functionaliteit): de interactieve mogelijkheden t.b.v. de gebruiker. Bijvoorbeeld: zoeken in een database, aanvragen van een vergunning, chatten met een wethouder.
Op basis van deze 5 elementen hebben we een lijst opgesteld met 19 authenticiteitseisen, en daarmee kunnen we iedere keer als we een website willen archiveren bepalen of de site aan deze eisen voldoet. Als dat niet zo is en je wilt de site toch wel graag hebben dan kun je die eisen altijd nog bijstellen. (plaatje 6) NR 1
EIS Context De gebruiker krijgt een signaal wanneer hij naar een externe link gaat 2
2 3 4 5 6 7 8 9 10 11
12 13 14 15 16 17 18 19
Organisatorische herkomst is reconstrueerbaar Rol in werkprocessen is reconstrueerbaar Plaats in informatie-architectuur is reconstrueerbaar Inhoud Tekst wordt integraal weergegeven Afbeeldingen worden integraal weergegeven Bewegend beeld en geluid worden integraal weergegeven Neerslag van transacties worden niet weergegeven. De interface wordt als afbeelding weergegeven Deepweb toepassingen zoals databases worden niet weergegeven. De interface wordt als afbeelding weergegeven Neerslag van chatsessies wordt niet weergegeven. De interface wordt als afbeelding weergegeven Meenemen van mutaties wordt per website bepaald. Informatieverlies wordt daarbij geaccepteerd Structuur Structuur website wordt integraal weergegeven Interne links worden integraal weergegeven Vorm Opmaak, vormgeving wordt integraal weergegeven Beeldfunctionaliteit, zie 19 Gedrag Functionaliteit tbv transacties wordt als afbeelding weergegeven d.w.z. als een screenshot Zoekfunctionaliteit wordt als afbeelding weergegeven Chatfunctionaliteit wordt als afbeelding weergegeven Beeldfunctionaliteit, zoals in- en uitzoomen, menugestuurde afbeeldingen, aanklikbare afbeeldingen, veranderende kleuren bij cursorbeweging, wordt werkend weergegeven
Tevens wordt afgebakend welke delen van de website worden opgenomen en of eventuele deep-web toepassingen worden opgenomen of niet. (Een groot deel van het web is niet toegankelijk via gewone zoekmachines, omdat de inhoud is verborgen in databases. Dit noemen we het deep web of invisible web.) Vervolgens analyseren we de eventuele begrenzingen en problemen bij opname door middel van de snapshotmethode. De naam zegt het al, het is een snapshot, een momentopname van een website! In sommige gevallen gaat dat wel op, er zijn websites die je binnen een paar seconden binnenhaalt, maar er zijn ook sites waarbij het uren duurt. Het maken van een snapshot houdt in dat de interactieve functionaliteit niet langer beschikbaar is. Via de gearchiveerde site kun je dus niet meer chatten met die wethouder! Externe links blijven wel beschikbaar, maar als de link verandert houdt dat ook op. Omdat websites nogal aan verandering onderhevig zijn moet je een strategie ontwikkelen over de frequentie waarmee verschillende soorten websites worden opgenomen. Daarom is het belangrijk om te weten wanneer een site gaat veranderen en dan kan een goed contact met de webmaster wel handig zijn. Voor het maken van een snapshot is speciale software nodig Voorwaarde was dat de software ‘Open source software’ moet zijn. (is de term bekend?) 3
(plaatje 7) is computersoftware waarvan de broncode in te kijken en te veranderen is. Open Source Software (OSS) is software waarvan de broncode vrij aan het publiek beschikbaar wordt gesteld door de makers. OSS ontstaat op initiatief van een of enkele programmeurs en ontwikkelt zich daarna door wereldwijde samenwerking van programmeurs via het internet. De initiatiefnemer coördineert meestal de voortgang. De software kent geen eigenaar en is daardoor voor iedereen vrij beschikbaar. Het meest bekende voorbeeld is Linux. Er zijn een aantal programma’s waaruit je kan kiezen en de bekendste is wel HTtrack. Andere mogelijkheden zijn Heritrix, TeleportPro en nog een paar Om een goede keuze te kunnen maken hebben we eisen opgesteld waaraan de software moet voldoen en aan de hand van deze eisen is een keuze gemaakt. (plaatje 8, 9) • Open source • Stabiel draaien op de aanwezige hardware, het besturingssysteem en het netwerk. • Gebruiksvriendelijk • De te archiveren website zo volledig mogelijk kunnen binnenhalen. • Het moet mogelijk zijn aan te geven wat wel en wat niet binnengehaald moet worden. • De functionaliteit van een website moet zoveel mogelijk intact blijven. • Hyperlinks moeten zo correct mogelijk werken • Interne links moeten relatief worden gemaakt, zodat ze werken ongeacht hoe en waar de website is opgeslagen. • Interne metadata van de website moeten worden meegenomen. • De website moet zo worden opgeslagen dat de verschillende soorten bestanden bijeen blijven en de structuur van de website bewaard blijft. • De wijze van archiveren moet het mogelijk maken de website zo functioneel mogelijk is te raadplegen en waar veranderingen hebben plaatsgevonden moet dat aangegeven kunnen worden. • Het moet mogelijk zijn om te bepalen welke bestandstypen van de website worden geharvest. • Een logbestand moet worden gegenereerd van het binnenhalen van de website met vermelding welke bestanden en pagina’s zijn binnengehaald en de eventuele foutmeldingen. Aan de hand van deze eisen kwamen we tot de keuze voor HTtrack Je zou zo zeggen, als je software hebt gevonden die aan al deze eisen voldoet moet het downloaden een fluitje van een cent zijn. Maar: in de IT-wereld gaat alles automatisch, maar niets vanzelf. Daar kwamen we al heel gauw achter en daarom hebben we al in 2005 contact gezocht met de firma Capsis. Capsis is gespecialiseerd in webarchivering en webconservering, en heeft veel ervaring met het archiveren van websites. Ze verzorgden voor ons een korte cursus waarin de werkgroepleden werden ingewijd in de geheimen van HTtrack en het downloaden van websites.
4
Maar hoe meer ik me verdiepte in de problematiek van het downloaden van websites, hoe meer ik tot het inzicht kwam dat we dat niet zelf moesten doen maar dat het downloaden van websites beter zou passen in de portefeuille van e-conservator. De problemen waar we mee werden geconfronteerd bij de uitvoering van het project websites politieke partijen hebben deze opvatting alleen maar versterkt. Ik kom hierop nog terug Het project archiveren van websites van Rotterdamse politieke partijen Aangezien in maart 2006 gemeenteraadsverkiezingen zouden worden gehouden leek het ons een goed idee om als praktisch uitvloeisel van al de theoretische exercities de websites van de Rotterdamse politieke partijen te gaan downloaden en op te slaan in het e-depot. De theorie moest nu maar eens worden getoetst aan de praktijk! Het ging uiteindelijk om 18 politieke partijen en dat is een redelijk beperkte hoeveelheid om mee te beginnen. De bedoeling was om éénmaal te downloaden vóór de verkiezingen en éénmaal na de verkiezingen en de werkgroep Websites werd gevraagd hier mee aan de slag te gaan Ik had mijn lesje geleerd, en we begonnen dus met een ordentelijk plan van aanpak! Plan van aanpak (plaatje 10, 11) • • • • • • • • • •
In kaart brengen en selecteren van te acquireren websites. Contact leggen met de webmasters (ivm technische eisen, evt. auteursrecht) Analyseren websites en opstellen van authenticiteits- en integriteitseisen per website Verzamelen gegevens ten behoeve van metadata. Opstellen opnameplan per website (welke delen wel/niet, hoe vaak, welke techniek) Eerste pogingen downloaden Eventueel bijstellen opnameplan Tweede en verdere pogingen downloaden Nogmaals downloaden na de gemeenteraadsverkiezingen Downloaden collegepartijen na de collegevorming
Het leek erop dat niet alle partijen beschikten over een eigen website, maar toen we nog wat gingen “Googelen” bleken er toch nog een paar websites te bestaan en uiteindelijk hadden alle partijen toch wel iets wat op een website leek Tussen haakjes er is in Rotterdam een partij met de naam VrijPartij. Als je in Google zoekt op Vrijpartij krijg je een heleboel resultaten die niks met politiek hebben te maken! Door de werkgroepleden zijn de te archiveren websites bekeken en de bevindingen aangetekend in een ‘checklist’. Ook deze checklist is weer gebaseerd op de 5 integriteits- en authenticiteitseisen: context, inhoud, structuur, vorm en gedrag Checklist website (plaatje 12) Context Eigenaar van de site/ welke organisatie? Auteur/webmaster Ontwerper/bouwer van de site 5
Bevat de site externe links Doel van de website • informatie • communicatie • transactie anders, namelijk: • contactinformatie (adres/e-mail) • onderdeel van een site Inhoud Tekst Afbeeldingen Bewegend Beeld/Geluid Interactieve onderdelen (transacties/chatten/deep-web) Wordt gebruik gemaakt van een forum? Datum laatste reactie op forum: Melding laatste wijziging Datum laatste wijziging: Verouderde informatie (aankondiging van gebeurtenissen in het verleden) Website compleet (niet deels nog in bewerking lege agina's/melding 'under construction')? Werken alle links (extern/intern) Bevat de website voornamelijk eigen informatie (niet vrijwel alleen links naar andere sites)? Is de eigen informatie substantieel (meer dan alleen adresinformatie, zijn er meerdere pagina's) Is er een archief van de site en om welk onderdeel gaat en tot wanneer gaat het terug? Structuur Bevat de site interne links? Is er een sitemap? Is er een index/inhoudsopgave? Is er een zoekfunctie? Heeft het eventuele zoeken betrekking op de site zelf en niet op een onderliggende deep-web toepassing? Is het mogelijk om van een pagina terug te gaan naar een hogere of beginpagina? Vorm Is er een introductiescherm? Passen de pagina's op het scherm (er hoeft niet gescrolled te worden) Wordt er gebruik gemaakt van frames? Welke versie van html is voor de site gebruikt (zie bron) Moet voor bepaalde onderdelen van de site ingelogd worden? Gedrag Is de site goed bereikbaar? (laden duurt niet langer dan ca. 10 sec.) Werkt de site in verschillende browsers (Internet Explorer of Mozilla Firefox)? Zijn er eventueel verschillen bij gebruik van verschillende browsers? Wordt er gebruik gemaakt van pop-ups? Werken afbeeldingen als links? Wordt er gebruik gemaakt van thumbnails? Wordt er gebruik gemaakt van flash, java of andere scripts? 6
Welke bestandstypen worden gebruikt : pdf, doc, jpg, anders…. Wordt gebruik gemaakt van RSS feeds? (logo .xml of rss) Wordt er gebruik gemaakt van bepaalde beeldfunctionaliteiten (inzoomen, veranderende kleuren)? Overige gedragingen van de site Alle te archiveren websites zijn via deze checklist geanalyseerd en daarna naast elkaar gelegd en besproken en het bleek dat de bevindingen van de werkgroepleden voor 90 % identiek waren. Voorafgaand aan het downloaden is een brief gestuurd aan alle politieke partijen waarin we hen op de hoogte brachten van ons voornemen de website van hun partij te downloaden en te bewaren voor de toekomst. (afgeleid van een soortgelijke brief in gebruik bij Archipol) en door een aantal partijen is daarop positief gereageerd. De websites van de partijen die niet hebben gereageerd zijn trouwens (voor zover technisch mogelijk) gewoon ‘gearchiveerd’ In week 7 zijn we begonnen met het downloaden van de websites. Met het eigenlijke downloaden heb ik me niet bemoeid, daarvoor zijn wat slimmere mensen nodig met wat meer technisch inzicht. Het correct downloaden van een website is te vergelijken met een onderzeeboot. Als je een onderzeeboot een beetje fatsoenlijk wilt laten duiken moet je een aantal kleppen op de juiste manier openen en sluiten. Tegenwoordig gaat dat vaak automatisch maar vroeger was dat echt vakmanschap. Het luisterde nogal nauw en het verschilde vaak per boot en als je de verkeerde kleppen, of de kleppen op een verkeerde manier opende ging de boot als een speer naar beneden en was het een hele toer om hem weer recht trimmen. (plaatje 13) Datzelfde vakmanschap moet je ontwikkelen voor het correct downloaden van websites. Je moet de juiste instellingen weten te vinden, weten welke en hoeveel externe- en interne links je open zet en welke je afsluit. Pas als je de juiste instellingen hebt gedefinieerd kun je de site goed binnenhalen. En ondanks de voorbereidende werkzaamheden èn de cursus van Capsis viel dat nogal tegen. Sommige websites waren binnen enige minuten of zelfs seconden binnengehaald, anderen duurden uren. Doorgaans werd eerst begonnen met een zgn. ‘run’ in de standaardinstellingen van HTtrack. Daarna werd de binnengehaalde site beoordeeld en het foutenrapport geraadpleegd. (plaatje14) Aan de hand van deze bevindingen werden, indien nodig de instellingen aangepast en begon men met een volgende run. (plaatje15) Dit ging net zo lang door totdat de gehele site goed was binnengehaald. Je kunt de voortgang van het proces volgen (plaatje 16) Er is trouwens nogal eens een merkwaardige overeenkomst tussen de aard van de politieke partij en de problemen met het downloaden van de website. 7
•
• • • • • • • • • •
Leefbaar Rotterdam. Bij de eerste run is de site snel binnengehaald. Bij openen blijkt de opmaak heel anders te zijn. Ook de links werken niet, mededeling: Disallowed Key Characters. De problemen met deze site blijken te komen door de manier waarop de interne pagina's zijn gelinkt. Bij de PVDA kost het vinden van de juiste instelling nogal wat moeite, het was allemaal niet erg duidelijk, je wist niet precies waar je aan toe was. De VVD wilde je veel meer doen binnenhalen dan nodig was, het duurde bijna een etmaal om alles te downloaden en dan kwam er veel mee wat je niet nodig hebt. Groen Links was letterlijk in no-time binnengehaald. De logfile vermeld: 0 seconden. De tweede keer duurde het trouwens aanzienlijk langer! D66 Ook hier weer een lawine aan externe links, maar de zoekfunctie werkt niet. Downloaden van de SP duurde 10 uur. Deze lokale site is onderdeel van de landelijke website. Het manoeuvreren van lokaal naar landelijk vice versa gaat wat moeizaam. Soms raken uitersten elkaar: de instellingen van Nieuw Rechts waren gelijk aan die van de PVDA De protestpartijen zoals de Stadspartij en de Vrijpartij zitten vol met flash. Het woord flash zegt al voldoende De Islamitische Partij gaf geen problemen, maar de externe links werken niet! Een degelijke gezagsgetrouwe partij als de SGP/Christenunie combinatie is binnen een paar minuten of seconden volgens de regelen der kunst zonder problemen te downloaden Ook het CDA leverde weinig problemen op al vertoonden alle grote partijen, inclusief de SP de neiging meer binnen te halen dan nodig is.
De websites van lokale politieke partijen die ook landelijk opereren blijken vaak afgeleiden van de site van de landelijke partij en je moet met het downloaden dan ontzettend goed oppassen dat je niet de hele landelijke site binnenhaalt. Kleinere landelijke partijen, zoals b.v. de Nationale Alliantie hebben vaak weer geen duidelijke lokale site Zo had iedere site zijn eigen problemen maar vooral de sites van Leefbaar Rotterdam en de PvdA leverden nogal wat moeilijkheden op. Omdat we er niet helemaal uitkwamen, of liever omdat we er helemaal niet uitkwamen, hebben we Capsis geraadpleegd, maar zelfs met hun adviezen konden de sites van Leefbaar Rotterdam, de PVDA en de VrijPartij niet vlekkeloos worden gearchiveerd. Het probleem bij Leefbaar Rotterdam was dat de URL een “index.php” bevat (plaatje 17) Alle interne pagina’s van deze website hebben “index.php” in de url, en meestal wordt het deel "index.php" weggelaten uit de URL (plaatje 18) Een deel van de site wordt wel opgeslagen, maar een ander deel niet. (plaatje 19) PHP is een scripttaal, die hoofdzakelijk wordt gebruikt om op de webserver dynamisch webpagina's te creëren. Andere bekende server-side scripttalen zijn Java Server Pages, Coldfusion en Active Server Pages. Dit in tegenstelling tot client-side scripting (zoals Javascript). We hebben de webmaster van Leefbaar Rotterdam verzocht de site zodanig aan te passen dat downloaden wel mogelijk was, maar die was daarvan niet echt gecharmeerd. 8
Eigenlijk wel logisch, de website moet daarvoor minstens 24 uur uit de lucht en je kan van een politieke partij niet vergen dat ze midden in de verkiezingscampagne hun website technisch gaan bijwerken. Een medewerker van I&A hoorde van de problemen met Leefbaar Rotterdam en heeft deze site toen binnengehaald met Teleport Pro. Deze download werkt duidelijk beter, maar ook nog niet volledig. Nadeel van TeleportPro is dat de site alleen lokaal kan worden bekeken. Weer een andere medewerker kwam op het briljante idee om de met TeleportPro binnengehaalde website nogmaals te downloaden met Httrack, maar dat is helaas mislukt. De volgende partij die problemen opleverde, in dit geval met downloaden, was de Partij van de Arbeid (plaatje 20) Het lukte het ons niet om de site van de PvdA goed binnen te halen. Met de standaard instellingen haalden we te weinig binnen waardoor je bij het bekijken van de gearchiveerde site al snel weer terechtkwam op de site zelf. Je moest daarom bij het downloaden constant opletten dat de URL niet veranderde Bij aanpassing van de interne links naar ‘onbeperkt’ werd te veel binnengehaald en kwamen ook veel externe sites mee. Daarna hebben we de interne links weer beperkt, maar dan kregen we nog steeds te veel binnen. Vervolgens probeerden we met het filter om het aantal interne links te beperken maar dat lukte ook niet. Toen maar Capsis geraadpleegd en ook daar lukte het in eerste instantie niet. Dat was de eer van de medewerkers van Capsis te na en ze hebben het net zo lang geprobeerd totdat ze de website van de PVDA volledig hadden gearchiveerd. (plaatje 21) Stadspartij Rotterdam en de Vrijpartij (plaatje 22, 23, 24) Deze sites bevatten veel flash en leverden daardoor nogal wat problemen op De sites waren snel binnen maar het openen was een probleem Eén van de medewerkers heeft toen de site ook thuis gedownload met Firefox maar ook op die manier was de site niet te openenen. De website van de Vrijpartij.nl is volledig flash gebaseerd en het archiveren van sites met flash en Java is doorgaans nogal lastig en aangezien Httrack nogal wat moeite heeft met flash, lukt het niet om de site te openen. Als je zoekt op “Forum”krijg je de mededeling dat de pagina niet kan worden geopend. (plaatje 25) Dit is wat u zou moeten zien! (plaatje 26) (Forum) Na het downloaden werden de websites gecontroleerd op volledigheid van inhoud en functionaliteit. De tweede download run begon op maandag 13 maart. De verkiezingen waren op 7 maart en we gingen er van uit dat de partijen op 13 maart hun site weer op orde zouden hebben. Ze hebben dan een aantal dagen de tijd gehad om de verkiezingsuitslagen te verwerken Uiteraard werd tijdens de duur van het project vaak overlegd door de werkgroep en werd regelmatig mondeling verslag uitgebracht aan de projectleider en het “bevoegd gezag”. (plaatje 27) Preservering Als de websites zijn gedownload worden ze in de quarantaine server geplaatst waarin ze worden gecontroleerd op digitale ongerechtigheden zoals virussen. Na zes weken komen ze dan terecht in de preserveringsserver.
9
(plaatje 287) Die onderzeeboot is nu wel onder water, maar hoe komt die boot nu weer boven? Dat is mogelijk met HTtrack, maar er is ook speciale software voor ontwikkeld, onder andere door Archipol. Ook Capsis heeft software ontwikkeld die de websites binnenhaalt en archiveert, en tevens een viewer bevat om de gearchiveerde websites te presenteren Voor het ontsluiten van websites worden bij het GAR metadata ontwikkeld. Ook op dat gebied vinden bij het GAR interessante ontwikkelingen plaats. We proberen een eenduidig metadata model te ontwikkelen voor de ontsluiting van archieven, bibliotheekmateriaal, geluidsdocumenten en visuele documenten (de volgorde duidt geen rangorde aan, maar is alfabetisch!) We zijn al een aardig eind op weg, maar dat is een heel ander verhaal al zou het eigenlijk ook wel ontzettend leuk zijn om het daar eens met elkaar over te hebben….. Al met al kunnen we concluderen: Het handboek websites heeft zijn nut ruim voldoende bewezen! (plaatje 29) Voorgoed vastgelegd? Waarschijnlijk wel. Voorgoed raadpleegbaar? Dat kan ik niet met zekerheid zeggen, dat is toch voor een deel afhankelijk van de technische ontwikkelingen. Een website is een gecompliceerd ding en wordt samengesteld uit diverse software. Naarmate de technische mogelijkheden groter worden, worden ook de websites geavanceerder en gecompliceerder en wordt het probleem van de digitale duurzaamheid alleen maar groter. (denk aan streaming video) Maar, hoe gaan we nu verder! We gaan de archivering van websites rustig verder opbouwen want we willen voorkomen dat we worden overspoeld door een niet te beheersen vloedgolf aan websites. Er zijn zo enorm veel websites dat we al snel tot de conclusie kwamen dat het archiveren van alle Rotterdamse en / of regionale websites niet mogelijk zal zijn. Daarom hebben we een acquisitieprofiel opgesteld. Een duidelijk acquisitieprofiel is ontzettend belangrijk. Archivarissen en bibliothecarissen zijn mensen met een soms onbeheersbare verzameldrift en een degelijk acquisitieprofiel is het middel om die verzameldrift te beheersen en onder controle te houden. Je kunt zo’n vastgesteld profiel trouwens ook altijd goed gebruiken om diensthoofden en bestuurders ervan te overtuigen dat een aangeboden collectie of verzameling echt niet in de collectie past! Voor het acquisitieprofiel van het hebben we de volgende criteria opgesteld (plaatje 30) • Cultuurhistorische waarde • Uniciteit • Informatiewaarde • Regelmatige en te verwachten toekomstige vraag (plaatje 31)
10
Daarom: Houdt het beperkt, leer leven met de gedachte dat we gewoon niet alles kunnen bewaren. Je kunt niet het hele internet downloaden. Mijn collega Ivar Bermon heeft het geprobeerd! Houdt de realiteit in het oog, vraag je eerlijk af of die website nou echt zoveel toevoegt aan datgene wat je al hebt. Digitale opslag is namelijk niet gratis! Door het Testbed Digitale bewaring zijn interessante kostenmodellen ontwikkeld. Het is wel handig om contacten te leggen met ‘uitgevers’ of webmasters van websites die regelmatig worden gedownload. Je kan dan misschien ook wat sturen op kwaliteit en op de hoogte blijven van vernieuwde versies en updates. En misschien kan de webmaster je dan weer voorzien van de nodige of aanvullende metadata. Maar pas op, trap niet in de valkuil dat de webmaster de website wel even zelf zal archiveren! Houdt de zaak in eigen hand!! Hoewel, als het een website is die onderdeel uitmaakt van een overheidsarchief zou dit eigenlijk wel mogelijk moeten zijn. Voor inspectie ligt hier misschien wel een taak in het ontwikkelen van praktische adviezen en richtlijnen waaraan overheidswebsites (bij voorkeur) moeten voldoen om de duurzaamheid zo goed mogelijk te kunnen waarborgen Zoals we al eerder opmerkten vraagt het downloaden van websites het nodige vakmanschap en inzicht. Populair gezegd het is een kunstje. Alleen al het diverse malen downloaden van de 18 websites kostte met alle ups en downs ca. 36 uur personele inzet Pas als je dit vaak doet krijg je het nodige vakmanschap en kan het allemaal veel en veel sneller. Er is trouwens ook software in de handel die je dit werk allemaal uit handen neemt. Omdat het downloaden van websites niet echt tot de kerntaken van de medewerkers van de beherende afdelingen behoort gaan we dit in Rotterdam waarschijnlijk overdragen aan de e-conservator. De e-conservator is de beheerder van het depot van digitale publicaties en een nieuw fenomeen in de Rotterdamse archiefwereld. De e-conservator screent de digitale documenten op virussen en andere digitale ongemakken en loodst ze door de quarantaine- en preserverings servers. Deels eigenlijk gewoon een medewerker eerstelijnszorg, het enige verschil is dat de te verwijderen nietjes digitaal zijn. In mijn visie gaan collectiebeheerders hun websites bestellen bij de e-conservator De e-conservator haalt de website binnen, controleert op volledigheid en plaatst deze in de quanrantaineserver. Vervolgens doorloopt de site het hele quarantaine- en preserveringsproces en belandt uiteindelijk op het werkstation van de besteller. De eigenlijke ontsluiting kan dan gebeuren door de medewerkers van de beherende afdelingen. In Rotterdam verkeren we in een riante positie. Dienstleiding en gemeentebestuur zijn doordrongen van de noodzaak tot opslag van digitale documenten en digitale duurzaamheid. We kunnen veel tijd vrijmaken en er wordt veel tijd vrijgemaakt en onderzoek ontwikkeling worden gestimuleerd. Het project websites politieke partijen heeft toch wel dik 100 uren
11
gekost en je bent ook behoorlijk wat uren kwijt aan de voorbereidingen, de begeleiding en de rapportage. Wij kunnen tijd vrijmaken, wij hebben een afdeling I & A die ons met raad en daad bijstaat, wij kunnen gebruik maken van de vaardigheden van collega’s. Maar als je dat allemaal niet hebt, wat moet je dan? Door de toenemende digitalisering wordt het voor kleinere archieven toch wel erg lastig om bij te blijven. Ik kan me voorstellen dat u als archivaris van een wat kleiner gemeente- of streek- of ander archief denkt, leuk verhaal, maar echt weer iets voor de grote jongens. Want ik neem aan dat ook de kleinere archieven hun lokale websites graag veilig stellen, maar ze hebben er doorgaans gewoon de tijd en de mogelijkheden niet voor. Het traject wat ik u heb geschetst is al moeizaam genoeg in een grote dienst. We willen graag onze kennis met anderen delen, maar ook wij zijn nog bezig met een zoektocht en we beseffen heel goed dat we natuurlijk niet het Nationaal Archief zijn. Maar misschien moeten we er toch eens met elkaar over praten. Misschien kunnen we dan ook een oplossing bedenken voor de kleinere archieven en er met elkaar voor zorgen dat die de digitale boot niet gaan missen. Ik kan me namelijk niet voorstellen dat daarvoor geen oplossing is te vinden. Maar misschien loop ik nu wel, onbedoeld mensen en organisaties voor de voeten, misschien zijn deze ontwikkelingen al lang aan de gang. Ik heb niet zoveel zicht op wat er gebeurt in archievenland, maar de materie is te gecompliceerd om in je eentje op te lossen. Het wiel is al uitgevonden, maar de spaken moeten er nog in, en als we met elkaar de spaken op de juiste plaats weten te zetten zorgen we ervoor dat het wiel rond blijft! Er valt nog een heleboel te overdenken en te ontwikkelen en we zouden het wel fijn vinden als we dat met elkaar kunnen doen. Misschien kunnen we eens een bijeenkomst organiseren waarin we bijpraten over het Rotterdamse project e-depot, dan kunt u in elk geval leren van onze fouten. In Rotterdam hebben we dus met veel moeite 18 websites weten te archiveren! Samen met nog een stuk of 20 andere sites die we al eerder met kunst en vliegwerk binnenhaalden. Maar; de Library of Congress heeft inmiddels meer dan 45 terabyte aan websites binnengehaald en gearchiveerd en door The Internet Archive zijn inmiddels ruim 40 miljard pagina’s vastgelegd. Dat doet niks af aan de waarde van ons project, maar dat houdt een mens wel bescheiden! De technische mogelijkheden zijn ruimschoots aanwezig (plaatje 32) The sky is the limit, (plaatje 33) maar doorgaans hebben we in Nederland nog wat last van laaghangende bewolking.
12