PRACOVIŠTĚ PRO DLOUHODOBÉ UCHOVÁVÁNÍ A ZPŘÍSTUPŇOVÁNÍ DOKUMENTŮ V DIGITÁLNÍ PODOBĚ --NÁRODNÍ DIGITÁLNÍ ARCHIV
Úvod - digitální archiv - primární účel: trvalé uchování (na dobu > 50 let) a zpřístupňování vybraných digitálních dokumentů – archiválií, především veřejné správy - sekundární funkce: správa a prezentace digitalizovaných dokumentů v rámci projektu „otevřená minulost“ - jeho existencí je podmíněno i plnění usnesení vlády č. 500/2006, o Národním plánu zavedení elektronického zadávání veřejných zakázek - jedná se nejen o úložiště, ale i o strategii uchovávání a metodiku výběru, zpracování či zpřístupňování dokumentů
- technologický projekt - vznikl na základě usnesení vlády č. 11/2004 - byl zpracován firmou ICZ a.s. - dostupný na stránkách Národního archivu http://www.nacr.cz
Uchování dokumentu - existence dokumentu - dvě úložiště vzdálená 50 km - dva typy médií (UDO, disková pole)
- čitelnost dokumentu - metoda migrace (omezený počet formátů) - strategie uchování (postupovat se bude od jednodušších dokumentů ke složitějším) - je třeba určit vhodné formáty a v nich dokumenty uchovávat (nejlépe od chvíle vzniku)
- autenticita dokumentu - dokument je tím, čím má být, nebyl v průběhu uložení v archivu změněn a procesem migrace nedošlo ke ztrátě žádné podstatné informace - nespoléhá se na zaručený elektronický podpis nebo elektronická značka – ty jsou vhodná jen v počátečních fázích životního cyklu dokumentu - spoléhá se na fyzické a procesní zabezpečení uložených dokumentů a transparentnost všech operací s ním => nutná certifikace NDA jako důvěryhodného úložiště.
Schéma digitálního archivu
Informační balíčky - SIP (Submission Information Package)
(původce → archiv)
- AIP (Archival Information Package)
(archiv)
- DIP (Dissemination Information Package) (archiv → badatel) - obsahují dokument(y) a metadata - AIP je primárním uložením dokumentu i jeho metadat
Informační balíček – XML podoba
Informační balíček – adresářová struktura
Formáty – faktory trvanlivosti 1 Otevřenost vyjadřuje stupeň, jak kvalitní a komplexní je specifikace formátu a jakým způsobem je dostupná (např. jestli je veřejně přístupná), zda existují nástroje pro validaci integrity obsahu a jestli je možné vytvářet a udržovat digitální obsah v daném formátu. Existuje více úrovní otevřenosti. Rozšířenost vyjadřuje stupeň rozšíření využívání formátu od tvůrců dokumentů, šiřitelů až po příjemce. Lze předpokládat, že formáty používané velkým množstvím uživatelů a podporované řadou producentů SW nástrojů budou pomaleji zastarávat a formát bude dlouhodobě udržován. Transparentnost je faktor popisující přístupnost obsahu uloženého v daném formátu pro přímou analýzu s použitím základních nástrojů, jako je třeba jednoduchý textový editor. Sebedokumentace znamená, že součástí dokumentů jsou doplňující metadata, obecné, technické administrativní povahy, popisující účel dokumentu, jeho vznik a následné procesy v rámci jeho životního cyklu.
Formáty – faktory trvanlivosti 2 Vnější závislosti popisují stupeň závislosti daného formátu na vnějších faktorech, jakými jsou specifický hardware, software, nebo specifické služby, které musí být dostupné online. Vliv patentů vyjadřuje závislost daného formátu na různých patentech. Problém není v existenci patentu, ale v podmínkách, které mohou držitelé patentu uplatnit. Pokud licenční ujednání zahrnuje poplatky odvozené od používáni mohou být v dlouhodobém horizontu nepředvídatelné a vysoké. Ochranné mechanismy jsou vážnou překážkou dlouhodobého uchovávání. Aplikací ochranného mechanisku může být uložení ztíženo či znemožněno.
Formáty – faktory trvanlivosti 3 Stabilita formátu vyjadřuje neměnnost formátu, popř. rozšiřování formátu bez radikálních změn původního kódování se zpětnou kompatibilitou formátu pro dokumenty vytvořené ve starší verzi formátu. Věrnost vyjadřuje schopnost zachoval smysl a hodnoty obsažené v originálu, schopnost prezentovat původní vzhled bez závislosti na použité platformě (např. od nezávislých formátů, přes formáty závislé na prostředí až po formáty ovlivněné uživatelským nastavením při prohlížení– HTML). Modifikovatelnost vyjadřuje možnosti pozměnit původní dokument; zda se formát používá pro změny nebo jako finální podoba určená pouze pro zobrazení.
Formáty - rozdělení - preferovaný formát má příznivé faktory trvanlivosti je vhodný pro dlouhodobé uchovávání - akceptovatelný formát má méně příznivé faktory trvanlivosti vhodný pro střednědobé uchovávání může se stát preferovaným formátem - s nízkou trvanlivostí vhodné jen pro krátkodobé uchování Do archivu budou přebírány pouze preferované a akceptovatelné formáty
Formáty - příklady zdroj: technologický projekt typ dokumentu
preferované formáty
textový dokument
prostý text, XML struktura, OpenDocument, PDF A/1a OpenOffice 1.0, Ritch Text Format 1.x, Office Open XML, PDF Delimited text (CSV) OpenDocument, Office Open XML PDF, OpenDocument, Office Open XML TIFF, BMP, JPEG, JPEG2000, PNG TIFF (komprimovaný LZW, JPEG), GIF SVG 1.1 (bez Javy) Computer Graphic Metafile
tabulky prezentace rastrová grafika
vektorová grafika zvukové dokumenty video dokumenty
WAV, AIFF, Broadcast Wave MPEG-1, MPEG-2, QuickTime, AVI (nekomprimované)
akceptovatelné formáty
MP3, MP2, OGG Vorbis OGG Theora, MPEG-4
formáty s nízkou trvanlivostí
MS-Word, Text602, 602 PC Suite, Amipro, WordPerfect MS-Excel, Calc602, Lotus MS-PowerPoint TIFF (jiná komprese), PCX, interní formáty grafických aplikací interní formáty grafických aplikací Windows Media Audio, RealNetworks AVI, QuickTime (komprimované), Windows Media Video, RealNetworks
Formáty - stanovení - do archivu budou přebírány preferované a akceptovatelné formáty - vhodné formáty budou určeny na základě zmocnění zákona - pro statické digitálních dokumenty textové a obrazové povahy budou na přechodnou dobu určeny vládním usnesením: PDF/A-1 (ISO 19005-1) jako výstupní datový formát statických textových a obrazových digitálních dokumentů, PNG (ISO/IEC 15948:2004) a TIFF (nekomprimovaný) jako výstupní datové formáty statických obrazových digitálních dokumentů týká se dokumentů ze systémů spisové služby vykonávaných elektronickou formou za použití výpočetní techniky a jako datové formáty statických obrazových digitálních dokumentů připravovaných pro předávání do Národního digitálního archivu.
Metadata - Popisná – vyjádření obsahu uchovávaných dokumentů (např. název, popis, původce). - Uchovávací – podpora uchovávání, autenticity, standard PREMIS. - Strukturální – sdružení všech částí informačního balíčku (SIP, AIP, DIP), standard METS.
Formát a metadata v průběhu životního cyklu libovolný formát vznik dokumentu
zpracování dokumentu
vyřízení dokumentu
preferovaný (akceptovatelný) formát digitální výběr spisovna archiválií
metadata SIP
Aktuální stav - existuje Technologický projekt - existuje časový harmonogram, který předpokládá dokončení NDA do 31. 12. 2011. - existuje odhad nákladů (výstavba: 400 mil. Kč, provoz: 70 mil. Kč/rok - jsou vybrány lokality pro úložiště - bylo přijato vládní usnesení 447/2008 z 21. 4. 2008, které schválilo čerpání finančních prostředků na vybudování Národního digitálního archivu ve výši 400 mil. Kč a uložilo ministru vnitra zabezpečit počínaje rokem 2011 24 mil. Kč ročně na provoz NDA a nárokovat finanční prostředky ve výši 85 % nákladů projektu z evropských strukturálních fondů v rámci Integrovaného operačního programu. - vznikají další podklady (zadávací dokumentace, studie proveditelnosti, projektový záměr pro OSF)
DĚKUJI VÁM ZA POZORNOST Jiří Bernas, Národní archiv
[email protected] http://www.nacr.cz