1.
Inleiding
De toenemende informatisering van de administratie heeft voor gevolg dat archivarissen nieuwe soorten archiefdocumenten in hun archief moeten opnemen. E-mails zijn daar een goed voorbeeld van. Alhoewel het e-mailgebruik volop is ingeburgerd en iedereen overtuigd is van de potentiële archiefwaarde van e-mails, zijn er nog maar weinig archiefdiensten of -instellingen met een archiveringssysteem voor e-mails. De reden ligt voor de hand. Bij e-mailarchivering wordt men immers volop geconfronteerd met de voornaamste uitdagingen die met digitale archivering samengaan: contextualisering, selectie, beschrijving, digitale duurzaamheid en verzekeren van de betrouwbaarheid. Ondertussen liggen de krachtlijnen van mogelijke archiveringsstrategieën1 vast en wordt het hoog tijd dat men van wal steekt met de uitvoering in de praktijk. Hopelijk kan dit artikel met een overzicht van de opties en de beschrijving van een best practice hiertoe een aanzet zijn2.
2.
De opties
A.
Afdrukken of digitaal archiveren ?
Bij het uittekenen van een archiveringssysteem voor e-mails is één van de eerste afwegingen de keuze tussen archivering op papier of digitale archivering. Bij archivering van digitale informatie in het algemeen hanteert men de hard copy optie doorgaans enkel als noodoplossing, maar in het geval van e-mailarchivering is het een ernstig alternatief. Beter e-mails afdrukken en op een goede manier bewaren, dan digitaal archiveren op een wijze die niet beantwoordt aan de vereisten voor bewaring in een goede, geordende en toegankelijke staat. De praktijk leert dat veel organisaties bij gebrek aan een duidelijk archiveringsbeleid beide strategieën naast elkaar gebruiken. E-mails worden binnen het e-mailsysteem bewaard en belangrijke e-mails worden nog eens afgedrukt. Dezelfde informatie is dan twee keer aanwezig. 1
2
P. HORSMAN, Archivering van elektronische post. Methoden, meningen en alternatieven, Amsterdam, 1999; Managing e-mails as records (beschikbaar op: http://www.gslis.utexas.edu/~scisco/lis389c.5/email/); Managing electronic messages as e-mails. Guidelines http://www.naa.gov.au/recordkeeping/er/ elec_messages/contents.html Met dank aan Inge Schoups en Werner Pottier voor het nalezen van dit artikel. Een meer uitgebreide beschrijving van de opties en de best practice vindt u in het tweede deel van het DAVID-rapport over de archivering van e-mails (beschikbaar op: http://www.antwerpen.be/david ).
Welke versie is dan het origineel of de kopie? Welke versie wordt in een gecontroleerde omgeving bewaard en welke e-mail kan als authentiek of integer doorgaan? De beschikbare archiefmiddelen zijn beperkt zodat ze beter op één strategie worden geconcentreerd. De afdrukstrategie kan relatief gemakkelijk worden gerealiseerd. Net zoals bij de klassieke papieren brief kunnen de registratuurgegevens (ontvangstdatum, classificatiecode, …) op de afdruk worden genoteerd. Door de afdruk in de corresponderende dossiermap op te bergen wordt de archivalische band met de context fysiek vastgelegd. Het afdrukken heeft onrechtstreeks nog een aantal bijkomende voordelen. De inhoud van het bericht is naar een meer duurzame drager overgezet en problemen inzake bestandsformaat en leesbaarheid op lange termijn stellen zich niet. Een andere motivatie voor het afdrukken zou het vermijden van een hybride informatiesysteem kunnen zijn, maar informatie is alsmaar meer in digitale vorm aanwezig zodat het afdrukken van emails op lange termijn toch tot een papieren én digitaal informatiesysteem leidt. Bij de archivering van digitale archiefdocumenten komt het erop aan om zoveel mogelijk originele eigenschappen te archiveren. De archiveringswijze sluit dus best zo dicht mogelijk aan bij de primaire vorm van de informatie. E-mails zijn digitaal. Digitale archivering biedt ook een aantal voordelen die in een papieren omgeving ontbreken: geautomatiseerde zoek- of sorteeropdrachten (op header of full text), centraal beheer, gedecentraliseerde en simultane terbeschikkingstelling, enz. Digitale archivering is anderzijds technisch complexer en vereist in veel gevallen een gecustomiseerde aanpak. Beide strategieën hebben als gemeenschappelijk aandachtspunt dat de gearchiveerde emailberichten de nodige metadata moeten bevatten. De metadata worden samen met het bericht opgenomen in het archiveringssysteem. De vereiste metadata voor elk bericht zijn minstens: de identiteit van de afzender, de datum en tijd van verzending, de identiteit van de geadresseerde, de datum en tijd van ontvangst, het onderwerp en ten slotte de ontvangers van de kopieën3. Bij digitale archivering moet het mogelijk om de e-mails op basis van deze gegevens op te zoeken. De opgesomde metadata zijn voor elk bericht in de meeste e-mailsystemen aanwezig, maar meestal worden ze niet allemaal mee afgedrukt of in de e-mailheader opgenomen. Vooral de datum en het tijdstip van verzending of ontvangst ontbreken in bepaalde weergaven of afdrukken. Nochtans is de aanwezigheid van al deze metadata noodzakelijk voor de status van gearchiveerde e-mail4. De meest geschikte oplossing hiervoor is het aanpassen van de header voor inkomende e-mails zodat datum en tijdstip van verzending en ontvangst automatisch erin zijn opgenomen. De andere metadata zijn doorgaans standaard aanwezig.
3
4
Deze vereiste metadata voor e-mails zijn expliciet opgenomen in de Amerikaanse DoD-5015.2 standaard voor archiefbeheersystemen (C.2.2.3: Filing Electronic Mail Messages). De discussie rond de Amerikaanse General Records Schedule nr. 20 toont het belang hiervan aan. Een rechter verbood in eerste instantie het bewaren van afdrukken van e-mails omdat de digitale versie van emails meer informatie bevat dan de papieren versie. Er werd hierop gereageerd door op te leggen dat de afdrukken de nodige metadata moeten bevatten. In Nederland houdt het afdrukken van e-mails volgens de archiefwet van 1995 substitutie in waarvoor toestemming is vereist.
Afbeelding 1: Een afdruk van een email die de noodzakelijke metadata bevat.
Het e-mailsysteem wordt ook veel gebruikt voor de uitwisseling van computerbestanden. E-mails en hun bijlagen vormen samen één geheel. In het geval van papieren archivering kan het emailbericht samen met de afgedrukte bijlage in dezelfde map worden opgeborgen. Bij digitale archivering is de archivering van de attachments iets complexer. Gelet op de grote verscheidenheid van computerbestanden in bijlage kan er hiervoor niet één gemeenschappelijke archiveringsstrategie worden toegepast. Door de e-mails en bijlagen als afzonderlijke computerbestanden in eenzelfde directory te bewaren, wordt defacto aan dossiervorming gedaan. Aangezien e-mail en attachment op die manier van elkaar worden gescheiden, moeten de metadata van beide archiefdocumenten naar elkaar verwijzen.
B.
Digitale archivering: vereisten, mogelijkheden en moeilijkheden
Digitale e-mailarchivering betekent de digitale archivering van de inhoud, de structuur en de context van de berichten in een geschikt archiveringsformaat buiten het e-mailsysteem. E-mailsystemen zijn niet geschikt voor de lange termijnarchivering van e-mails. E-mailsystemen zijn in de eerste plaats informatiesystemen en geen document- of archiefbeheersystemen. Ze beschikken niet over de essentiële functionaliteiten voor document- en archiefbeheer en staan bovendien buiten de systemen die deze functies wel vervullen. De toegang tot postbussen en off line bestanden is beperkt door accounts en paswoorden. De e-mailsystemen zijn niet geschikt om grote hoeveelheden e-mails te beheren of te centraliseren. Ten slotte zijn de e-mails ook in een applicatie afhankelijk bestandsformaat opgeslagen wat leesbaarheid op lange termijn hypothekeert. E-mailsystemen bewaren e-mailberichten in een applicatie eigen bestandsformaat. Op lange termijn zal dit leesbaarheidsmoeilijkheden met zich meebrengen, waardoor grootschalige omzettingsoperaties zich regelmatig opdringen. Betere alternatieven zijn de gestandaardiseerde bestandsformaten voor tekstuele documenten zoals XML (eXtensible Markup Language), PDF (Portable Document Format) en eventueel HTML (HyperText Markup Language). Bij opname in het archiveringssysteem zijn de e-mails best omgezet naar één van voornoemde formaten. XML geniet de voorkeur op PDF en HTML. XLM is platformonafhankelijk, (semi)-zelfbeschrijvend en herleidt hard-en softwareafhankelijkheid tot een absoluut minimum. XML is uitermate geschikt om de structuur van een digitaal archiefbestand te archiveren. Indien nodig kan de structuur formeel in een DTD of XML Schema worden gedefinieerd. Het definiëren van de headervelden als afzonderlijke XML-elementen biedt het voordeel dat de metadata automatisch uit de gearchiveerde e-mails kunnen worden overgenomen. Dit maakt bulkopname en automatische beschrijving mogelijk, wat gezien het aantal te archiveren e-mails geen overbodige luxe is. Met PDF en HTML kan dit niet,
maar deze bestandsformaten hebben wel het voordeel dat ze technisch gemakkelijker te realiseren zijn. Bewaren als HTML is een standaard functionaliteit van de meeste clientmailprogramma’s en wie over het Acrobatprogramma van Adobe beschikt kan elke e-mail als PDF-document buiten het emailsysteem wegschrijven. De e-mailsystemen kunnen hoogstens gebruikt worden om tijdelijk e-mails met archiefwaarde te bewaren. Een aantal courante e-mailsystemen bieden de mogelijkheid om e-mails in off line mappen te plaatsen (MS Outlook: *.pst-bestand, ‘bestand met persoonlijke mappen’ of ‘openbare map’; Lotus notes: *.nsf-bestand, ‘databank’). Off line bestanden of postbussen zijn hiervoor het meest geschikt omdat ze de mailserver niet belasten. Het aanleggen van een mappenstructuur is een eerste mogelijkheid om de structuur van het emailarchief en de context van de e-mails te bewaren. De mappenstructuur moet hiervoor een weerspiegeling van de functies, taken en activiteiten van de archiefvormer zijn. Een hiërarchische indeling binnen de functies maakt een ordening van algemeen (taken) naar bijzonder (activiteiten, handelingen) mogelijk. Op het laagste niveau kan er per onderwerp of per dossier een map worden gemaakt waarin alle samenhorende e-mails met archiefwaarde tijdelijk worden bewaard. De mapnamen zijn uniek en zijn bij voorkeur de naam van het onderwerp of dossier. De hoofdindeling van de mappenstructuur ligt vast. Samen met het aanpassen van de formulieren of sjablonen voor uitgaande en inkomende e-mails is dit de voornaamste functionaliteit die het e-mailsysteem moet bieden om efficiënte archivering mogelijk te maken. Ook de context van elk e-mailbericht wordt mee gearchiveerd. De archivalische band tussen email en context kan in een digitale omgeving niet langer uit de fysieke plaats worden afgeleid, zodat men die enkel op een logische of intellectuele manier kan vastleggen. Dit kan door registratuur- of klassementgegevens (dossiernummer, classificatiecode, archiefcode, enz.) aan elke e-mail toe te kennen5. In de standaardformulieren of -sjablonen voor de berichten in de mappen met inkomende en uitgaande e-mails is hiervoor geen plaats voorzien. Men kan dit oplossen door hiervoor bijkomende velden aan de e-mailheader toe te voegen. In deze velden kunnen dan de gegevens worden ingevuld waarmee de band tussen e-mail en zaak of onderwerp enerzijds, en de band tussen e-mail en bijlagen anderzijds expliciet wordt vastgelegd. Selectie en contextualisering zijn enkel mogelijk door de betrokkenen in de administratie. Zij plaatsen de e-mails met archiefwaarde zelf in de overeenstemmende off line map of sturen ze voor registratie en/of archivering naar een andere postbus door. Of dit laatste mogelijk is, hangt af van het beschikbare personeel. Onze overheidsadministraties kunnen hiervoor geen beroep doen op DIVmedewerkers, zoals bijvoorbeeld in Noord-Amerikaanse landen of in Nederland wel het geval is6. Bijgevolg moeten ze hiervoor zelf instaan. Ook bij papieren briefwisseling zijn selectie en contextualisering defacto een verantwoordelijkheid van de administratie. In dit opzicht verandert er niet veel. Alleen moet men erover waken dat er voldoende vorming en scholing is zodat het archiveringssysteem voor e-mails binnen alle geledingen van de organisatie correct wordt toegepast. Omwille van de archivistische nood aan selectie en contextualisering wordt rechtstreekse archivering vanop de mailserver uitgesloten. Technisch is het perfect mogelijk om vanop de mailserver een kopie bij te houden van elke uitgaande en binnenkomende mail, deze naar een geschikt archiveringsformaat om te zetten en zo in het archiveringssysteem op te nemen. Dit zou
5 6
L. DURANTI, The archival bond, in: Archives and museum informatics, 1997, nrs. 3-4, p. 217. P. HORSMAN, Archivering van elektronische post. Methoden, meningen en alternatieven, Amsterdam, 1999, p. 14.
echter met zich mee brengen dat ook e-mails zonder archiefwaarde worden gearchiveerd en dat de context van berichten ontbreekt. Ook juridisch levert deze aanpak een moeilijkheid op. De e-mails worden als het ware tijdens hun overbrenging onderschept. Gelet op de bescherming van het telecommunicatiegeheim is dit maar toegelaten in zoverre men over de expliciete goedkeuring van afzender en geadresseerde beschikt.
3.
Best practice
In de praktijk kan men meerdere archiveringssystemen uitwerken die aan de vooropgezette kwaliteitsvereisten voldoen. Uiteindelijk komt het er op aan om een archiveringssysteem uit te werken dat het best bij de organisatie en de werkprocessen van de archiefvormer past en dat op zijn e-mailbeleid is afgestemd. De best practice die bij wijze van voorbeeld hier wordt beschreven, is het archiveringssysteem dat wordt toegepast door het stadsarchief Antwerpen. Het stadsarchief Antwerpen kiest voor digitale e-mailarchivering. Het archiveringssysteem voor e-mails bestaat uit verschillende stappen. De e-mails met archiefwaarde worden tijdelijk in off line mappen binnen het e-mailsysteem bewaard. Hiertoe wordt een mappenstructuur uitgewerkt. Bij archivering wordt de map met e-mails buiten het e-mailsysteem geplaatst. Op de harde schijf of externe drager wordt dezelfde mappenstructuur aangelegd waarin de gearchiveerde e-mails als afzonderlijke XML-bestanden komen te staan. Deze mappen worden in het documentbeheersysteem opgenomen. De bijlagen of attachments van e-mails worden als afzonderlijke bestanden in de overeenstemmende map binnen het documentbeheersysteem geplaatst. Zo wordt feitelijk een dossier gevormd. In de metadata van de bijlage en van het e-mailbericht wordt naar elkaar verwezen. De logische band geeft aan dat e-mail en bijlage één geheel vormen. Een eerste stap is het aanpassen van de headers van de uitgaande en binnenkomende e-mails zodat de berichten alle metadata bevatten en contextualisering door afzender of geadresseerde mogelijk is. In de header voor uitgaande e-mails worden velden voorzien om de registratuurkenmerken van de afzender en een beschrijving van de eventuele bijlagen (aantal, identificatie) aan het bericht toe te voegen. Dit laat archivering van uitgaande e-mails toe conform de kwaliteitsvereisten. Deze velden kunnen ook voor controledoeleinden worden gebruikt. Afbeelding 2: Aan de standaardheader voor uitgaande emails zijn drie velden toegevoegd. In de velden ‘Aantal bijlagen’ en ‘Bestanden in bijlage’ wordt vastgelegd hoeveel en welke bestanden in bijlage worden opgestuurd. In het veld ‘Klassement afzender’ kan de afzender zijn registratuurgegevens vastleggen.
Het e-mailsysteem van de stad Antwerpen gebruikt voor de e-mails in de mappen ‘Postvak in’ en ‘Verzonden items’ hetzelfde formulier. De e-mails worden in dit formulier in de mappenstructuur binnen het e-mailsysteem geplaatst. Dit formulier bevat velden voor alle vereiste metadata en voor het vastleggen van de archivalische band. In de header wordt ook het klassementskenmerk van de afzender vermeld. In het veld er onder kan de geadresseerde zijn eigen registratuurgegevens noteren. De velden ‘Aantal bijlagen’ en ‘Bestanden in bijlage’ krijgen de inhoud zoals ze door de afzender werden ingevuld, maar kunnen indien nodig aangepast worden. De kans bestaat immers dat bijlagen worden vergeten, een verkeerd getal is ingevuld, een bestandsnaam wordt aangepast of dat de vindplaats van de bijlagen bij de geadresseerde wordt aangegeven. De inhoud van deze velden wordt in de e-mail opgeslagen en maakt dan integraal deel uit van het bericht. Dit is een toepassing van het encapsulation-principe waarbij de metadata samen met het archiefobject in hetzelfde computerbestand worden opgeslagen.
Afbeelding 3: De header voor binnenkomende en verzonden e-mails.
De ontvangen of verstuurde e-mails met archiefwaarde worden uit de respectieve mappen ‘Postvak in’ en ‘Verzonden items’ gehaald en in een off line map geplaatst. Of de e-mails in een gemeenschappelijke of persoonlijke postbus terecht komen, doet er eigenlijk niet toe. De gangbare e-mailsystemen bieden voldoende mogelijkheden om off line mappen op maat te organiseren en te beheren: één gemeenschappelijke openbare map voor een hele dienst, mappen delen met meerdere mensen, persoonlijke mappen (*.pst-bestanden, *.nsf-bestanden) of een combinatie van deze mogelijkheden. De bestanden met de off line mappen worden op serverschijven geplaatst, zodat ze mee beschermd worden door de back-upprocedures. In de volgende stap van het archiveringsproces worden de e-mails buiten het e-mailsysteem geplaatst. Het tijdstip kan afhankelijk zijn van het afsluiten van een dossier, het bereiken van een bepaalde bestandsomvang of een vaste frequentie. Elke e-mail wordt als een afzonderlijk XML-
bestand opgeslagen. De mappenstructuur is identiek aan de mappenstructuur binnen het emailsysteem. De courante e-mailsystemen beschikken niet over deze functionaliteit zodat hiervoor een ad hoc oplossing moet worden uitgewerkt. De snelste en gemakkelijkste manier is een plug-in of een tool die deze operatie volledig automatisch uitvoert. Dit vraagt natuurlijk enig programmeerwerk. Hetzelfde resultaat kan ook op een meer eenvoudige manier bekomen worden. Op de doellocatie wordt dezelfde mappenstructuur aangemaakt en de e-mails worden één voor één als een plat tekstbestand (*.txt) naar die map gekopieerd. Vervolgens worden de e-mails getagd en als XML-bestanden bewaard. Voor de tagging kan men een macro in een teksteditor of tekstverwerkingsprogramma gebruiken, want de e-mails hebben toch een vaste structuur. Deze manier van werken is weliswaar arbeidsintensiever, maar toont aan dat met eenvoudige middelen hetzelfde resultaat kan worden bekomen. Om de gearchiveerde XML e-mail een gelijkaardige layout te geven als een e-mail binnen het e-mailsysteem kan er een stylesheet aan het XML-bestand worden gekoppeld.
Afbeelding 4: Een e-mail opgeslagen als een XML-bestand.
Na het voltooien van deze omzetting heeft men eigenlijk twee versies van dezelfde e-mail: één binnen het e-mailsysteem en één als XML-bestand buiten het e-mailsysteem. De versies binnen het e-mailsysteem worden vernietigd. De e-mail gearchiveerd als XML-bestand wordt de authentieke en integere versie. Om de authenticiteit en integriteit van de gearchiveerde e-mails mee te helpen garanderen, worden de e-mails in het documentbeheer- of beter het archiefbeheersysteem opgenomen. In het geval van het stadsarchief Antwerpen gaat het om een documentbeheersysteem. Voor de gearchiveerde e-mails wordt een nieuw objecttype binnen het documentbeheersysteem aangemaakt. De attributen van het object ‘e-mail’ zijn de metadata. Bij opname in het documentbeheersysteem worden de attribuutvelden automatisch ingevuld met de gegevens uit de corresponderende XML headerelementen van elk bericht. De mappenstructuur wordt in het documentbeheersysteem overgenomen. Binnen het documentbeheersysteem kan dan bepaald worden welke gebruikers(groepen) al dan niet toegangsrechten tot het e-mailarchief hebben. Eens is vastgesteld hoe de e-mails worden gearchiveerd, komt het erop aan om het archiveringssysteem in de praktijk om te zetten. De administratie is verantwoordelijk voor het goed
functioneren van de eerste stappen in het archiveringssysteem. De administratie moet de nieuwe emailheaders correct gebruiken, de e-mails met archiefwaarde selecteren en de off line mappen binnen het e-mailsysteem organiseren en beheren. Coaching en opleiding zullen hierbij van groot belang zijn. Er worden dan ook cursussen over e-mailarchivering gegeven en op de intranetsite van het stadsarchief is een handleiding beschikbaar waarin gedetailleerd de verschillende stappen worden beschreven. Eén van de eerste zaken die hierbij aan bod moet komen is het onderscheid tussen e-mails met of zonder archiefwaarde. Een aantal duidelijke afspraken voor een mappenstructuur zijn evenzeer onmisbaar.
4.
Besluit
E-mails kunnen op papier of digitaal worden gearchiveerd. De keuze is in principe vrij. Archivarissen dienen zich wel bewust te zijn van de kwaliteitsvereisten waaraan de archivering moet voldoen. De gearchiveerde e-mails moeten alle metadata bevatten. Een kleine aanpassing van de header in emailformulieren of -sjablonen volstaat hiervoor. Bij digitale archivering gaat men bij het aanpassen van de header nog een stap verder en worden er velden voorzien voor het expliciet vastleggen van de archivalische band met de bijlagen en de context. De e-mails met archiefwaarde worden tijdelijk in off line mappen binnen het e-mailsysteem bewaard. Bij archivering worden ze in een geschikt archiveringsformaat buiten het e-mailsysteem geplaatst en in het document- of archiefbeheersysteem opgenomen.