Archivematica - svobodn´y syst´em na ochranu digit´aln´ıch dokument˚ u ˇ ska (5. sem., 3. roˇc.) Robert Siˇ 5. prosince 2014
http://www.archivematica.org/, Artefactual Systems Inc.
1
Co je Archivematica
Archivematica je svobodn´ y software vystavˇen´ y podle referenˇcn´ıho modelu a ISO standardu OAIS (Open Archival Information System). Zab´ yv´a se ˇreˇsen´ım nˇekter´ ych aspekt˚ u ochrany digit´aln´ıch dokument˚ u s d˚ urazem na urdrˇzov´an´ı srozumitelnosti dokument˚ u automatick´ ymi konverzemi form´at˚ u. Nen´ı to monolitick´ y software, ale sada mnoha d´ılˇc´ıch program˚ u, kter´e umoˇzn ˇuj´ı postupn´e zpracov´an´ı z´akladn´ıch entit OAIS modelu pomoc´ı d´ılˇc´ıch operac´ı - pˇr´ıstupem, kter´ y autoˇri projektu naz´ yvaj´ı mikro-sluˇzby. Projekt je distribuov´an spolu s webovou aplikac´ı ICA-AtoM od stejn´ ych autor˚ u umoˇzn ˇuj´ıc´ı webov´ y pˇr´ıstup k archivovan´ ym objekt˚ um, m˚ uˇze b´ yt vˇsak kombinov´an s ostatn´ımi syst´emy urˇcen´ ymi k pˇr´ıstupu k dokument˚ um.
2
C´ıle projektu
Projekt vyv´ıj´ı a spravuje kanadsk´a spoleˇcnost Artefactual Systems ve spolupr´aci s technick´ ym v´ yborem UNESCO programu Pamˇet’ svˇeta“ (anglicky ” 1
Memory of the World), Museem modern´ıho umˇen´ı v New Yorku, Rockefellerov´ ym archivaˇcn´ım centrem a mnoha dalˇs´ımi organizacemi zab´ yvaj´ıc´ımi se digit´aln´ı archivac´ı. Prvotn´ı verze projektu poprv´e spatˇrily svˇetlo svˇeta v roce 2009 a projekt z˚ ustal ve st´adiu beta aˇz do roku 2014, kdy vyˇsla stabiln´ı verze 1.0. Je to tedy velmi mlad´ y projekt, na kter´em st´ale prob´ıh´a pomˇernˇe aktivn´ı v´ yvoj. Aktu´aln´ı v´ yvojov´a verze je 1.3 a jej´ı hlavn´ı pˇr´ınos je integrace s dalˇs´ım svobodn´ ym projektem DuraCloud (software na archivov´an´ı pomoc´ı cloud technologi´ı). Hlavn´ım c´ılem projektu je vytvoˇren´ı syst´emu pro u ´drˇzbu digit´aln´ıho repozit´aˇre, kter´ y je pˇr´ıstupn´ y lidem bez technick´eho z´azem´ı, ale kter´ y by z´aroveˇ n splˇ noval veˇsker´e n´aroky kladen´e archivaˇcn´ımi probl´emy, jako konverze form´at˚ u, automatick´e opatˇrov´an´ı metadaty, workflow apod. Vˇetˇsina obdobn´ ych profesion´aln´ıch syst´em˚ u (jako Roda nebo DAITSS) vyˇzaduj´ı nemal´e zkuˇsenosti s administrac´ı server˚ u, kter´e archiv´aˇri ˇcasto nemaj´ı. Dalˇs´ım c´ılem je ponechat veˇsker´e svobody uˇzivatel˚ um. Cel´ y syst´em je k disposici zdarma a zdrojov´e k´ody jsou veˇrejnˇe dostupn´e. V´ yvoj je veden agiln´ımi metodami a autoˇri udrˇzuj´ı kontakt s komunitou. Vˇsechny zdrojov´e k´ody syst´emu jsou licencov´any pod AGPL a extern´ı software je kontrolov´an pro licenˇcn´ı kompatibilitu pˇred t´ım, neˇz je do projektu integrov´an.
3 3.1
Popis projektu a jeho v´ ysledk˚ u Technick´ eˇ reˇ sen´ı
Archivematica nen´ı multiplatformn´ı aplikace. Je pevnˇe sv´az´ana s prostˇred´ım GNU/Linux, i kdyˇz by teoreticky mˇela b´ yt funkˇcn´ı na jak´emkoliv syst´emu splˇ nuj´ıc´ı standardn´ı hierarchii souborob´eho syst´emu (FHS). Pˇredkompilovan´e bal´ıky se nach´azej´ı v repozit´aˇr´ıch syst´emu Ubuntu. Dalˇs´ı moˇznost´ı je vytvoˇren´ı ˇziv´e distribuce na pˇrenosn´em m´ediu. Syst´em je ale tak´e distribuov´an jako pˇredkonfigurovan´ y virtu´aln´ı obraz specializovan´eho operaˇcn´ıho syst´emu (zaloˇzen´eho na Ubuntu) a je tak jednoduˇse pouˇziteln´ y na vˇsech syst´emech schopn´ ych virtualizace. To redukuje celou instalaci na pouh´e staˇzen´ı sou2
boru a jeho spuˇstˇen´ı ve virtualizaˇcn´ım n´astroji, coˇz z nˇej ˇcin´ı nejjednoduˇseji pouˇziteln´ y syst´em tohoto typu. Zvolen´ı v´ıcevrstv´e a modul´arn´ı architektury, v nichˇz jednotliv´e ˇca´sti komunikuj´ı pomoc´ı s´ıt’ov´ ych protokol˚ u, m˚ uˇze b´ yt syst´em nasazen na v´ıce stroj˚ u, coˇz v kombinaci s vyvaˇzov´an´ım z´atˇeˇze v´ yraznˇe zvˇetˇsuje ˇsk´alovatelnost. Software je z pˇrev´aˇzn´e naps´an v jazyce Python a jednotliv´e mikro-sluˇzby mohou b´ yt naps´any v jak´emkoliv jazyce, kter´ y je umoˇzn ˇuje pˇr´ıstup k souborov´emu syst´emu a relaˇcn´ım datab´az´ım. Mnoh´e z nich vyuˇz´ıvaj´ı extern´ı programy na normalizaci dokument˚ u, identifikaci typu soubor˚ u, konverzi obr´azk˚ u, grafiky a vide´ı, atd.
3.2
Architektura
Po vzoru OAIS definuje Archivematica tˇri z´akladn´ı typy entit. Producentem nahran´ y dokument je jako SIP (Submission Information Package) vloˇzen do archivaˇcn´ıho syst´emu, kter´ y jej zpracuje a vytvoˇr´ı jednu ˇci v´ıce variac´ı urˇcen´e k archivaci - AIP (Archival). Mimo to jsou vytv´aˇreny variace DIP (Dissemination), kter´e jsou urˇcen´e k veˇrejn´emu pˇr´ıstupu.[1] Kaˇzd´ y bal´ık obsahuje dokument samotn´ y a d´ale tak´e kontroln´ı souˇcty, metadata, z´aznamy o vloˇzen´ı a dalˇs´ı informace. Tyto dodateˇcn´e informace jsou pro kaˇzd´ y typ entity jin´e. Tento proces je z´akladem modelu OAIS - tzv. ingest to access. Archivematica jej implementuje pomoc´ı mikro-sluˇzeb. Mikro-sluˇzby jsou d´ılˇc´ı operace na entit´ach, kter´e jsou urˇcen´e k ˇretˇezen´ı. Kaˇzd´a mikro-sluˇzba prov´ad´ı jeden u ´kol na dan´e entitˇe a po skonˇcen´ı je entita zpracov´ana dalˇs´ı sluˇzbou v poˇrad´ı. V j´adru vˇseho je software typu klient-server urˇcen´ y k distrubovan´emu prov´adˇen´ı u ´kol˚ u. Konfigurace serveru definuje poˇrad´ı mikrosluˇzeb pro jednotliv´e u ´koly (napˇr. vloˇzen´ı SIP, vytvoˇren´ı AIP/DIP). Mikro-sluˇzby samotn´e jsou souˇca´st klient˚ u, kteˇr´ı informuj´ı server o tom, kter´e sluˇzby nab´ız´ı a ˇcekaj´ı, aˇz je server zamˇestn´a. V praxi to znamen´a, ˇze server sleduje ˇradu sloˇzek, kter´e reprezentuj´ı stav procesu. Mikro-sluˇzby pak upravuj´ı a pˇresouvaj´ı dokument, dokud ˇretˇeˇzec neskonˇc´ı. Nepˇr´ıjemn´ y d˚ usledek tohoto ˇreˇsen´ı je, ˇze server i vˇsichni klienti mus´ı m´ıt pˇr´ıstup do stejn´e sloˇzky, coˇz m˚ uˇze vytv´aˇret 3
u ´zk´e hrdlo pˇri nadmˇern´e diskov´e nebo s´ıt’ov´e aktivitˇe. Tento probl´em lze ˇca´steˇcnˇe ˇreˇsit pouˇzit´ım distribuovan´ ych souborov´ ych syst´em˚ u (napˇr. RAID). O spr´avu a pˇr´ıstup k uloˇziˇst´ım se star´a samostatn´a aplikace s vlastn´ım webov´ ym rozhran´ım. V souˇcasnosti vˇsak podporuje pouze ukl´ad´an´ı do souborov´eho syst´emu; obecn´e rozhran´ı u ´loˇzn´eho syst´emu je zat´ım ve v´ yvoji. Konfigurace serveru i mikro-sluˇzeb je uloˇzena v relaˇcn´ı datab´azi SQL. Pro ovl´ad´an´ı syst´emu slouˇz´ı uˇzivatelsky pˇr´ıvˇetiv´a webov´a aplikace komunikuj´ıc´ı se serverem. Je to v´ıceuˇzivatelsk´ y syst´em, kter´ y umoˇzn ˇuje konfigurovat a spouˇstˇet u ´lohy, sledovat a ovlivˇ novat jejich pr˚ ubˇeh (nˇekter´e akce m˚ uˇzou ˇcekat na volbu), upravovat metadata, vytv´aˇret statistiky a podobnˇe.
3.3
Politika ochrany dokument˚ u
Ochrana digit´aln´ıch dokument˚ u souhrnnˇe oznaˇcuje aktivity vedouc´ı k zajiˇstˇen´ı pouˇzitelnosti digit´aln´ıch objekt˚ u po mnoho let.[2] Pro tento u ´ˇcel umoˇzn ˇuje Archivematica definovat skupiny digit´aln´ıch form´at˚ u a definovat v´ ystupn´ı form´aty pro archivaci a pro pˇr´ıstup. Napˇr´ıklad vˇsechny audio soubory jsou archivov´any v bezztr´atov´em form´atu a veˇrejnˇe pˇr´ıstupny ve form´atu MP3. Autoˇri kladou d˚ uraz na to, aby vˇsechny archivaˇcn´ı form´aty byly svobodn´e implementace standardizovan´ ych form´at˚ u. Jak se vyv´ıjej´ı n´astroje a velikost uloˇziˇst’, mˇen´ı se i form´aty. Politika pˇrevodu form´at˚ u tedy nen´ı nic vytesan´eho do kamene. K tomuto u ´ˇcelu spravuje spoleˇcnost Artefactual veˇrejnˇe dostupn´ y server, kter´ y slouˇz´ı jako strukturovan´ y seznam pokyn˚ u k normalizaci jednotliv´ ych typ˚ u dokument˚ u. Instance syst´emu Archivematica si tedy m˚ uˇze ke sv´emu lok´aln´ımu nastaven´ı nav´ıc pˇridat i nejnovˇejˇs´ı politiku z centr´aln´ıho serveru. Pl´anem v´ yvoj´aˇr˚ u je kompatibilita s registry PRONOM a/nebo UDFR. Identifikace typu souboru m˚ uˇze b´ yt zaloˇzena na anal´ yze dat pomoc´ı n´astroje FITS, nebo pouze podle pˇr´ıpony. Dalˇs´ı metody je snadn´e dodat. Po zjiˇstˇen´ı typu souboru jsou dokumenty charakterizov´any - vytv´aˇr´ı se tzv. v´ yznamn´e charakteristiky, kter´e jsou potˇrebn´e pro dlouhodob´e uchov´an´ı digit´aln´ıch dokument˚ u.[3, s.15] To m˚ uˇze b´ yt tˇreba barevn´a hloubka a rozliˇsen´ı u obr´azk´ u, 4
poˇcet kan´al˚ u a frekvence vzorkov´an´ı u audio soubor˚ u a podobnˇe. Tyto charakteristiky jsou vloˇzeny do metasouboru form´atu METS archivovan´eho AIP. Do ˇretˇezce mikro-sluˇzeb je moˇzn´e zapojit tak´e tˇreba pˇrepis pomoc´ı OCR.
4
Z´ avˇ er
Archivematica ke sv´e ˇcinnosti orchestruje cel´ y operaˇcn´ı syst´em a spoustu extern´ıch n´astroj˚ u a plnˇe tak vyuˇz´ıv´a sv´eho statutu svobodn´eho software. T´ımto aspektem se projekt drˇz´ı dvou pravidel unixov´e filosofie dˇelej jednu ” vˇec, ale poˇra´dnˇe“ a piˇs programy tak, aby spolupracovaly.“ T´ım, ˇze distri” buuj´ı vlastn´ı operaˇcn´ı syst´em jako virtu´aln´ı obraz, maj´ı cel´ y syst´em pod kontrolou a instalaci syst´emu zvl´adne archiv´aˇr i bez potˇreby vˇetˇs´ıch technick´ ych znalost´ı a to vˇcetnˇe instalace distribuovan´e na v´ıce stroj˚ u. Jako pozitivn´ı vid´ım tak´e snahy integrovat existuj´ıc´ı syst´emy jako DSpace, ContentDM, Archivist’s Toolkit a jin´e. Z pl´an˚ u pro budouc´ı verze m˚ uˇzeme vidˇet, ˇze vˇetˇsina pr´ace na projektu je sponzorov´ana univerzitami, knihovnami a dalˇs´ımi institucemi z cel´eho svˇeta. O Archivematicu se pˇred ned´avnem probudil z´ajem ˇ e republice napˇr´ıklad ze strany MZK. [4] taky v Cesk´
5
5
DC Metadata
TITLE=Archivematica - svobodn´ y syst´em na ochranu digit´aln´ıch dokument˚ u ˇ ska CREATOR=Robert Siˇ DESCRIPTION=Recenze softwaru Archivematica SUBJECT.Keywords=Archivematica, OAIS DATE.Created=2014-12-05 LANGUAGE=czech FORMAT.Medium=application/pdf
Reference [1] ISO 14721:2012 Open archival information system (OAIS) – Reference model. International Organization for Standardization, Geneva, Switzerland. [2] GLADNEY, Henry M. Preserving Digital Information. New York: Springer, 2007. [3] WILSON, Andrew Significant Properties of Digital Objects [online] National Archives of Australia, 2008. Dostupn´e z: http://www.dpconline. org/docs/events/080407sigpropsWilson.pdf ˇ [4] Archivematica v CR. In: Digital Preservation CZ - Blog [online]. Dostupn´e z: http://www.digitalpreservation.cz/2014/04/ archivematica-v-cr.html
6