Výzkumný záměr
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Průběžná zpráva o řešení za rok 2005
Mgr. Adolf Knoll, řešitel PhDr. Zdeněk Uhlíř a PhDr. Jiří Polišenský, spoluřešitelé
Národní knihovna ČR Klementinum 190 110 00 Praha 1
8. prosinec 2005
1
Zpráva o řešení výzkumného záměru 2005 A. Konstatační část Výzkumný záměr Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů je komplexní úkol, který spočívá ve využití informačně komunikačních technologií pro shromáždění, ochranu, zpracování a zpřístupnění písemného kulturního dědictví a pro jeho mnohostranné využití v nastupující informační a znalostní společnosti. Jde tedy na jedné straně o jeho uchování ve smyslu kontinuity idejí, na druhé straně však o jeho transformaci ve smyslu diskontinuity diskursů, kterými je pojednáváno. Základem tudíž je jednak vytvoření nového konceptuálního rámce pro paměťové instituce, jednak o výběr obsahu k převedení do virtuálního, tj. síťového elektronického prostředí, jednak o vývoj technologických nástrojů, které to prakticky umožní a technicky realizují. Výzkumný záměr řeší kromě vlastního badatelského prostředí i řadu souvisejících otázek, jako například trvalé uchování digitálních dat nebo výzkumné a vývojové aspekty v oblasti digitalizace a zachování dokumentů tištěných na kyselém papíře. Z hlediska uživatelských výstupů tedy zahrnuje celou oblast digitalizace sbírek. 1.
Budování virtuálního badatelského prostředí
1.1. Rešerše Základní vstupní rešerše byla provedena v minulém roce řešení (2004). V tomto roce řešení výzkumného záměru byla pouze doplněna o některé další údaje speciálního rázu. 1.1.1. Bibliografický/katalogový informační systém Dosud provedená rešerše je plně vyhovující a není ji třeba rozšiřovat. 1.1.2. Digitální knihovna Dosud provedená rešerše je plně vyhovující a není ji třeba rozšiřovat. 1.1.3. Standardizace katalogových záznamů Standardy MASTER a MASTER+ (msnkaip.xsd) se plně osvědčily pro tzv. evidenční záznamy, tzn. takové záznamy, na něž se napojují ostatní digitální dokumenty. Někdy se však ukazuje jako rozumné nebo dokonce nezbytné pořizovat ještě takové katalogové záznamy, které originální historický dokument popíší z nějakého speciálního hlediska. V tomto případě je možno jako standardu pro tyto speciální, tj. druhotné záznamy použít MIML pro iluminované rukopisy či rukopisné iluminace nebo CEI pro listiny. Jako výměnný formát se kromě MASTER osvědčuje ještě MODS, který je zejména pro komunikační protokol OAI-PMH výhodnější než obvyklé výměnné formáty UNIMARC a MARC21. 1.1.4. Standardizace plných textů Dosud provedená rešerše je plně vyhovující a není ji třeba rozšiřovat. Standard TEI umožňuje na základě modularity generování různých definic typu dokumentu, resp. vytváření
2
tzv. Relax NG schémat, takže na tomto základě lze vytvářet plné texty libovolných primárních, tj. originálních historických dokumentů. Pokud jde o sekundární dokumenty, tj. dokumenty o dokumentech primárních nebo zpracované na základě primárních dokumentů, je i zde standard TEI plně vyhovující. V tomto případě však je při vytváření virtuálního badatelského prostředí možno zapojit i další standardy na bázi XML, např. docBook, tzn. uvažovat o větší heterogenitě prostředí. 1.1.5. Standardizace obrazových a zvukových dokumentů Dosud provedená rešerše je plně vyhovující a není ji třeba rozšiřovat. 1.1.6. Konceptuální rámec pro zpracování písemného kulturního dědictví Dosud provedená rešerše je plně vyhovující a není ji třeba rozšiřovat. 1.1.7. Nástroje k přípravě dat Dosud provedená rešerše je plně vyhovující a není ji třeba rozšiřovat.
1.2. Současný stav Byly vykonány první kroky k vytvoření virtuálního badatelského prostředí pro práci s historickými fondy, a to zejména ověřením možností integrace heterogenních zdrojů a komunikace mezi nimi. Tak byla ověřena technická splnitelnost podmínek vybudování síťové elektronicko-digitální knihovny historických fondů. Spočívá na kombinaci centralizace a indexace metadat, tj. evidenčních katalogových záznamů na jedné straně a distribuce dat, tj. digitálních obrazových kopií, plných textů, audio- a videodokumentů či multimediálních, resp. multimodálních dokumentů na straně druhé v jednotném uživatelském rozhraní. Bylo dosaženo naplnění obsahem nad kritickou míru (více než 50 000 evidenčních katalogových záznamů, více než 1 700 digitálních obrazových kopií originálních historických dokumentů, zkušebně 10 plných textů primárních dokumentů). Tak se podařilo vytvořit největší digitální knihovnu starších historických dokumentů (do roku 1800) na světě, která v roce 2005 obdržela cenu UNESCO Jikji. 1.2.1. Otevřený katalog historických fondů Otevřený katalog historických fondů byl dále naplňován obsahem. Pro jeho naplňování byla získána další instituce z Polska a v úplnosti byly zařazeny záznamy jedné instituce z Litvy (cca 1 200 záznamů). Bylo zařazeno několik záznamů jedné instituce ze Slovinska. Byly navázány kontakty s institucemi v Rakousku a Německu a provedeny první testy, které však dosud nebyly uzavřeny. Rekognoskace byla provedena u jedné instituce ve Švýcarsku, v jednání se pokračuje. Byl retrokonvertován jeden tištěný katalog rukopisů (více než 4 000 záznamů). Byla konvertována česká národní retrospektivní bibliografie, která je zároveň souborným katalogem. 1.2.2. Digitální knihovna obrazových kopií Digitální knihovna obrazových kopií byla dále naplňována obsahem, zejména na základě národního programu Memoriae mundi series Bohemica. Byly zařazeny také čtyři
3
digitalizované rukopisy z Maďarska. Byly navázány kontakty s institucemi v Rakousku a Německu a provedeny první testy, které však dosud nebyly uzavřeny. Rekognoskace byla provedena u jedné instituce ve Švýcarsku, v jednání se pokračuje. 1.2.3. Elektronická knihovna plných textů V první testovací verzi bylo vytvořeno cca 200 plných textů a na jejich základě byla revidována definice typu dokumentu mss-fulltext. Byla vytvořena definice typu dokumentu mss-verse. Proběhlo testování a bylo zkušebně zpřístupněno 10 prvních dokumentů. 1.2.4. Další související digitální dokumenty Výzkumný záměr předpokládá i připojení dalších souvisejících digitálních dokumentů, jako jsou např. dokumenty zvukové, tj. hudební interpretace originálních dokumentů, jejichž kopie byly zpřístupněny v digitální knihovně obrazových kopií, resp. virtuálním badatelském prostředí pro práci s historickými fondy, nebo další textové dokumenty, tj. sekundární dokumenty týkající se tak či onak originálních, primárních dokumentů, jež byly zpřístupněny tamtéž, případně audio- a videodokumenty nebo multimediální či multimodální dokumenty. Zařazení dokumentů tohoto typu se předpokládá v pozdějších etapách řešení výzkumného záměru.
1.3. Vstupní data Základním principem virtuálního badatelského prostředí pro práci s historickými fondy je to, aby do něho vstupující metadata a data byla důsledně standardizována bez ohledu na heterogenitu prvotních zdrojů. To předpokládá jednak důraz na dodržování datového standardu v případě dat vytvářených přímo pro virtuální badatelské prostředí pro práci s historickými fondy, jednak konverzi či transformaci dat původně vytvořených pro jiné zdroje. Datovým standardem pro záznamy otevřeného katalogu historických fondů je MASTER, pro vytváření virtuálních digitálních kopií MASTER+, pro plné texty originálních historických dokumentů mss-fulltext, resp. mss-verse na bázi TEI, pro komplexní digitální dokumenty MASTER+, resp. adaptace METS.
1.4. Problémy Přetrvávají problémy týkající se autorských práv, které řešitelský tým není schopen ovlivnit. Přetrvává i problém nestejné vývojové úrovně partnerů podílejících se tak či onak na budování virtuálního badatelského prostředí pro práci s historickými fondy. S postupující integrací a vznikem reálné možnosti jednotného uživatelského rozhraní v širokém rámci (středoevropském, evropském, globálním) se vyskytl nový řád problémů, jež lze charakterizovat jako politické, diplomatické a organizační. Naprostá většina paměťových institucí o sobě je schopna uvažovat pouze jako o institucích tzv. kamenných a není schopna přijmout model virtuální instituce, protože se obává, že by v něm zanikla jejich identita nebo přinejmenším jejich image. Obávají se, že by je integrující instituce svým jednotným uživatelským rozhraním připravila o jejich svébytnost, popularitu a vůbec reprezentaci. Na odstranění tohoto problému sice řešitelský tým může mít vliv, avšak je nutno předpokládat, že to je záležitost dlouhodobá, možná přesahující časový rámec řešení výzkumného záměru.
4
2. Dlouhodobá archivace digitálních dat V r. 2005 bylo třeba - s ohledem na možnosti dlouhodobé archivace digitálních dokumentů - se věnovat problematice metadat v systému Kramerius z hlediska možných migrací a konverzí v budoucnosti. V rámci řešení zpracoval J. Hutař analýzu shod a rozdílů popisných elementů mezi formáty Národní knihovny ČR používané v systému Kramerius, formátem MARC 21 a formátem Dublin Core. Závěry analýzy bude možné využít při tvorbě konverzních nástrojů mezi těmito formáty. Velkým problémem při tvorbě metadat, ale i při jejich konverzích do jiného formátu, je nejen shoda či rozdíly ve struktuře popisných elementů, ale také konkrétní podoba zápisu metadat. V rámci řešení byla navržena a dále pracovníky NK ČR propracována pravidla jejich tvorby, která by měla usnadnit hromadné editace po konverzích. Pro archivaci velkého množství dat byla v minulosti téměř výhradně používána zařízení založená na magnetopáskových technologiích (včetně zařízení NK ČR). V posledním období proběhl důležitý vývoj v oblastí diskových subsystémů, kde především díky rostoucí kapacitě disků je tato technologie schopna nahradit páskové knihovny. Díky tomuto vývoji byly na trh uvedeny systémy pro dlouhodobou archivaci využívající velká disková pole. Schopnost dlouhodobě uchovávat digitální data není dána pouze vlastnostmi použitých médií, ale celkovou strategií. Studie J. Veškrny, zpracovaná v rámci řešení záměru, se zabývá problematikou médií a na nich založených technologiích z hlediska strategie dlouhodobého uchovávání digitálních dat a navrhuje zásady, které by tato strategie měla respektovat. Diskuse zabývající se archivací dat, které v NK ČR probíhaly od r. 2004, vyvrcholily v návrh vybudovat centrální datové úložiště, zajišťující dostatečný bezpečný prostor pro digitální dokumenty všech tří národních programů (Manuscriptorium, Kramerius, WebArchiv). V letošním roce byla firmě Neat Code s.r.o. zadána studie, jejímž cílem je analyzovat potřeby a podmínky NK ČR v oblasti archivace digitálních dokumentů a zpracovat zadávací dokumentaci pro výběrové řízení. Analýza V. Piláta, zpracovaná v rámci realizace výzkumného záměru, se zabývá možností vybudování centrálního datového úložiště kategorie enterprise v podmínkách NK ČR, z hlediska stávající architektury IT. Realizovaným řešením v r. 2005 není problematika dlouhodobé archivace digitálních dokumentů vyčerpána, spíše naopak. V následujících letech bude nutné vybudovat centrální datové úložiště a dále se věnovat otázkám strategie dlouhodobého uchovávání digitálních dokumentů, problematice standardizace, přípravě na hlubší integraci v rámci evropských projektů, zpracování obrazových souborů a metodice tvorby metadat.
5
B. Analytická část 1. Manuscriptorium Vlastní řešení výzkumného záměru, jeho přínos a posun znalostí spočívá v: 1)
2) 3)
4)
jasné konceptualizaci rozdílu mezi tradičním tištěným a síťovým elektronickým, tj. virtuálním informačním, komunikačním a znalostním prostředím, přičemž tomuto rozdílu se přiznává paradigmatický význam; důsledném zaměření na flexibilně pojatou standardizaci, tzn. zdůrazňuje její heterogenní, nikoli homogenní složku; důrazu na strukturální a procesuální diferenciaci virtuálního badatelského prostředí pro práci s historickými fondy, což v podstatě znamená dodržovat na různých úrovních stále zřejmý rozdíl týmové práce, jež se věnuje vytváření dat v masovém měřítku, a individuální práce, která se na dílčím úseku soustřeďuje na kompetenčně náročné vysoce sofistikované úkoly. Při týmové práci tak je důraz na snadnou zaměnitelnost pracovníků, zatímco při individuální práci je třeba vycházet z konkrétních kompetencí toho kterého pracovníka, přičemž je nutno počítat s tím, že zaměnitelnost v tomto případě bude mnohem obtížnější, resp. vůbec nemožná; konzultační, metodických a organizačních aktivitách ve vztahu k ostatním partnerům, kteří se zapojili do práce na budování virtuálního badatelského prostředí pro práci s historickými fondy.
1.1. Vlastní řešení Vlastní řešení výzkumného záměru se odvíjí od základní ideje koordinace činnosti jednotlivých institucí podílejících se na vytváření virtuálního badatelského prostředí pro práci s historickými fondy a integrace jednotlivých zdrojů vzniklých z činnosti těchto institucí. S tím souvisí soustavná organizační činnost ve vztahu jak k obsahovým partnerům, tak k technickému provozovateli systému potažmo virtuálního prostředí. Tato koncepční a výzkumná činnost je potom doprovázena činností vývojovou, zejména pokud jde o vývoj systému, nástrojů pro přípravu a editaci dat, jakož i nástrojů pro konverzi a transformaci dat a také pokud jde o implementaci komunikačních protokolů. Jeho součástí je rozpoznávání existujících externích nástrojů a jejich integrace do virtuálního prostředí. 1.1.1. Koordinace, integrace, organizace V průběhu druhého roku řešení výzkumného záměru se nejenom podařilo udržet a rozvinout kontakty s dosavadními partnery ve středoevropských zemích (Slovensko, Polsko, Německo, Rakousko, Litva, Chorvatsko, Maďarsko, Slovinsko), ale navázat kontakty i v širším rámci (Dánsko, Španělsko, Švédsko). NK ČR se snaží aktivně vystupovat v roli koordinátora a integrátora, a to jak v rámci evropských projektů (ECH:TOPICC – integrace metadat litevského partnera) či projektu UNESCO (integrace dat maďarského partnera, integrace metadat slovinského partnera), tak samostatnými aktivitami (perspektiva integrace metadat i dat dalšího polského partnera).
6
Řešitelský tým pokračoval také ve spolupráci na rukopisném portálu CERL v druhé fázi pilotního projektu. Při této příležitosti se prokázalo, že 1) implementace standardu MODS jakožto výměnného formátu (profilu) do komunikačního protokolu OAI-PMH přináší mnohem lepší výsledky než implementace standardu UNIMARC do komunikačního protokolu Z39.50; 2) je efektivnější data stahovat, ukládat v databázi a indexovat než pouze prohledávat vzdálenou databázi. Tím se jiným způsobem ověřila vhodnost základního konceptu výzkumného záměru. 1.1.2. Systém Byla vypracována analýza druhé verze systému Manuscriptorium, jakož i analýza implementace komplexního digitálního dokumentu, tj. spojení evidenčního katalogového záznamu, digitálního obrazových kopií a dalších souvisejících digitálních dokumentů. Při těchto analýzách bylo využito standardu METS určeného sice pro nativní digitální (nikoli pouze digitalizované) dokumenty, aplikovatelného však pro svou obecnost i na jiné případy. 1.1.3. Nástroje pro přípravu a editaci dat Nástroj pro editaci dat MEdit byl připraven pro použití online. Vzhledem k tomu, že tento nástroj je založen na zjednodušeném využití standardu MASTER tím, že používá jediného stabilního vzorce markupu, není zapotřebí validátoru, což velice zjednodušuje práci méně zkušeným katalogizátorům, takže je možno použití i bez absolvovaného zaškolení a přímého kontaktu. Na tomto základě by měla být integrace nejenom snazší, ale i rychlejší. Na základě MEdit vnikl nový nástroj, který se nyní testuje a bude sloužit ke snadnému vytvoření komplexních struktur digitalizovaných dokumentů pro nepříliš kvalifikovaného uživatele. To umožní připravit digitální dokument, nahrát ho na server instituce a technickému správci Manuscriptoria pouze sdělit URL příslušného XML souboru. To bude stačit ke zpracování příslušných metadat a k dopočítání dílčích URL jednotlivých obrazů, reprezentujících dokument. Obrazy zůstanou na serveru spolupracující instituce, uživatel Manuscriptoria však bude využívat bezešvé integrace vzdálených zdrojů, aniž by to nějak pocítil. Pro něj se vše bude i nadále odehrávat v integrovaném virtuálním prostředí. K tomuto účelu vznikl také dokument popisující, jak má vypadat digitální dokument kompatibilní s požadavky Manuscriptoria. Řešitelé věří, že tímto způsobem se jim podaří překlenout psychologické bariéry možných přispěvatelů. 1.1.4. Nástroje pro konverzi a transformaci dat Nástroj MConvCZ byl použit na konverzi dat litevského partnera. Při té příležitosti se ukázalo, že standardy jsou zpravidla zneužívány, takže je třeba nasazené nástroje vždy znovu individuálně adaptovat a implementovat. V souvislosti s analýzou komplexního digitálního dokumentu pak vznikla potřeba jasnějšího formulování kompatibility, představa preferovaných standardů a idea vytvoření obecnějšího pravidla interoperability na vyšší úrovni. Tyto otázky budou postupně řešeny v dalších etapách výzkumného záměru. 1.1.5. Komunikační protokoly V souvislosti s druhou fází pilotního projektu rukopisného portálu CERL byla vytvořena a prakticky ověřena implementace výměnného formátu MODS do komunikačního protokolu OAI-PMH pro komunikaci Manuscriptoria směrem navenek. Vytvoření světového
7
indexu rukopisů jakožto prvního stupně virtuálního badatelského prostředí pro práci s historickými fondy tím získalo jasné obrysy spojením s již existující a zcela funkční digitální knihovnou Manuscriptorium. V současné době disponuje Manuscriptorium konektivitou Z39.50 s profilem MARC21 a OAI-PMH s profily DC Unqualified, MARC21, MODS a profil OpenM.dtd (navržený původní pro komunikaci v programu Eureka!). 1.2. Přínos řešitele Přínosem řešitele je komplexní pojetí, dovolující nejenom práci s informací o informaci (metadata – katalogové záznamy), ale přímo práci s informací (digitální obrazové kopie originálních historických dokumentů, plné texty primárních dokumentů) za použití celé řady modulárních nástrojů (editor, validátor, konvertor, komunikační protokol, vyhledávání grafických variant), z nichž některé jsou dostupné a použitelné online. Přínosem řešitele je schopnost systému pracovat s původně heterogenními daty a zdroji, vytvoření jednotného uživatelského rozhraní a možnost integrace externích nástrojů. V oblasti zpřístupnění velkých obrazových souborů (řádově několik set MB nekomprimovaných bitmap) se plně osvědčila technologie MrSID (Multiresolutional Seamless Image Databank) v kombinace s obrazovým serverem firmy Lizardtech (Express Server). Tato technologie zpřístupňuje dynamicky pouze ty části a ta rozlišení bitmap, které jsou v dané chvíli uživatelem požadovány a tím umožňuje pohodlnou práci v síti Internet.
1.3. Posun znalostí Posun znalostí spočívá především v metodologii kombinace různých dílčích nástrojů, které jsou důsledně budovány na principu systémové modularity. Tak je možno týmiž nástroji zpracovávat data pro různé uživatelské požadavky, pro různá hlediska a připravovat heuristický materiál pro různé metodické postupy. Variabilita, flexibilia a alternabilita dat připravených v průběhu řešení vytvořenými nástroji a kombinace různého využití dalších nástrojů umožňují vytvářet heterogenní data v rámci jediného zdroje. Pluralita východisek (data) tak generuje pluralitu výstupů (informace). Jde tedy o příspěvek k rozvinutí metodologie práce ve virtuálním prostředí. 2. Trvalé uchování dokumentů a systém Kramerius 2.1 Předpoklady trvalého uchování digitálních dokumentů Ve sbírkách NK ČR se v současné době uchovává několik typů elektronických dokumentů. Především se jedná o dokumenty vzniklé digitalizací rukopisů, starých tisků, periodik a monografií. Dále početnou skupinu tvoří sbírka CD-ROM, které NK ČR získala jako povinný výtisk. Konečně v rámci projektu WebArchiv se shromažďují a uchovávají webové stránky domény „cz“. Všechny uvedené dokumenty je třeba dlouhodobě nebo trvale uchovat ve zpřístupnitelném stavu. Dlouhodobé uchování digitálních dokumentů je velmi obtížné s ohledem na rychlé zastarávání technických i programových prostředků a krátkou životnost různých standardů a formátů. Je to dáno krátkými inovačními cykly různých zařízení a systémů. Existují tři metody, jak čelit překotnému vývoji v této oblasti: a) migrace digitálních dat
8
b) emulace provozu původního HW a SW v novém prostředí c) technologické muzeum Drtivá většina stávajících dokumentů bude v budoucnosti vyžadovat migrace různých typů (konverze do nových formátů, migrace dat na nové technické prostředky, atd.). Emulace budou nezbytné v případech některých CD ROM, které obsahují části programu, vyžadujícího ke svému chodu určitý konkrétní operační systém. Technologické muzeum (udržování straších přístrojů, operačních systémů a aplikací, nezbytných pro prezentaci dokumentů), není v podmínkách NK ČR reálné, spíše bude možné tento princip realizovat ve spolupráci s jinými institucemi. Trvalé uchování dokumentů bude tedy nejvíce závislé na tom jak se NK ČR bude dařit zajišťovat migrace a emulace. 2.2 Migrace dat v l. 2003 a 2004 NK ČR uskutečnila v l. 2003 a 2004 rozsáhlou migraci v případě digitalizovaných periodik a rovněž rukopisů. Bylo nutné zejména konvertovat metadata ze zastaralého formátu DOBM, který využíval standard SGML, do nových formátů založených na XML. Kromě toho bylo třeba provést konverze všech obrazových souborů z formátu JPEG do formátu DjVu pro zpřístupnění prostřednictvím sítí (v případě rukopisů generovat pak nové uživatelské ibrazy především ve formátech JPEG a GIF /pro černobílý obraz/). Formát JPEG se dál využívá pro archivaci zdrojových obrazových souborů. Zatímco konverze obrazových souborů nepřinesly téměř žádné problémy, kromě značných časových nároků daných nízkými výkony pracovních stanic, byla konverze metadat mnohem náročnější na následné úpravy a editace. Základní konverze proběhla během 24 hod., po té však následovaly zhruba tři etapy úprav. V první etapě bylo nutno individuálně zařadit některé údaje, které se nepodařilo vůbec zkonvertovat, ve druhé etapě byly taktéž individuálně opravovány, doplňovány nebo sjednocovány některé popisné údaje, ve třetí etapě pak byly provedeny některé hromadné změny v databázi, které umožnily zobrazovat zapsaná metadata novým způsobem. Časově nejnáročnější byly první dvě etapy, kdy konverzní nástroj nerozpoznal o jaký typ údaje se jedná a kdy bylo třeba sjednocovat nebo opravovat vlastní formu zápisu konkrétních popisných elementů. Editace metadat mohla být realizována pouze na nejvyšších úrovních dokumentů (titul, ročník) a bude nutné editovat postupně i údaje na nižších úrovních (výtisk, stránka). 2.3 Porovnání metadatových formátů Migrace ukázala na problémy, které mohou nastat i v budoucnosti. Vzhledem k tomu, že NK ČR používá vlastní formát metadat, lze očekávat, že bude nutné z různých důvodů provádět konverze bibliografických údajů, které jsou součástí metadat z katalogizačních záznamů ve formátu MARC 21 (M21), nebo Dublin Core (DC) a bylo by užitečné znát, které popisné elementy mohou způsobovat při migracích problémy. V průběhu roku byla zpracována analýza shod a rozdílů mezi formáty NK ČR užívané v programu Kramerius (FNK) a formáty DC a M21, jejímž cílem bylo zjistit náročnost migrací v budoucnosti, pokud by bylo třeba využít některý z uvedených formátů a poskytnout potřebné informace pro vytvoření konverzních nástrojů. Z provedené analýzy1 vyplývá, jaké problémy během konverze nastanou, a že nebude možné zcela eliminovat individuální editaci a úpravy konvertovaných metadat. Méně příznivých výsledků se dosáhne při konverzích mezi formáty FNK a DC, s ohledem na malý počet 1
viz Příloha č. 1
9
popisných elementů formátu DC, takže při konverzi bude velká část údajů podchycených ve formátu FNK ztracena. Další komplikace mohou nastat při konverzi z kvalifikovaného DC, kdy kvalifikátory mohou znemožnit jednoznačné přiřazování metadat k popisným elementům FNK (zvláště, pokud byly vytvářeny účelově v rámci realizace nějakého specifického projektu). Větší shoda je mezi FNK a M21. Zejména při konverzi do FNK nastanou jen drobné problémy, ale ani zde nebude možné migrace provést zcela automaticky. Během konverze bude nutné rozhodovat které konkrétní pole M21 odpovídá danému údaji ve FNK. Lze ale předem definovat u kterých polí bude nutné individuální rozhodování a konverzní nástroj upravit tak, aby konverze proběhla co nejefektivněji. Je třeba se také zabývat možností překonání tohoto problému další unifikací popisu v případě daných elementů.2 Analýza ukázala několik významných skutečností. Formát FNK má mnohem blíž k formátu M21, takže pokud bude v budoucnosti třeba provádět konverze mezi FNK a dalším formátem, který by zajišťoval kompatibilitu s evropskými projekty, měl by to být M21. Toto řešení je výhodnější i z hlediska možného přebírání záznamů z báze NKC nebo souborného katalogu CASLIN. Žádný z posuzovaných formátů neřeší a ani nemůže řešit popis struktury zejména periodického dokumentu v potřebném detailu (na úroveň strany, nebo článku), pouze FNK, žádný dostatečně neeviduje údaje o defektech (chybějících stranách, poškození apod.). Z obou formátů pouze M21 může podchytit tzv. technická metadata, (nebo preservation metadata), popisující okolnosti digitalizace, i když ne zcela vyhovujícím způsobem. Konečně výsledky analýzy bude možné použít při tvorbě konverzních nástrojů. 2.4 Formát METS V rámci zadání srovnávací analýzy byl do porovnání zařazen i formát METS (Metadata Encoding and Transmission Standard, http://www.loc.gov/standards/mets/)3, navržený a podporovaný Kongresovou knihovnou a již prakticky využívaný řadou národních a univerzitních knihoven (včetně Manuscriptoria pro budování virtuálního badatelského prostředí – viz výše). Formát METS je primárně určen pro správu objektů digitálních knihoven a jejich výměnu mezi různými repozitáři a v této roli aspiruje na obecný standard. Jedná se o formát jiného typu než M21, DC nebo FNK, je to tzv. kontejnerový formát, který může pojmout různě definované struktury. Sestává ze tří hlavních částí: popisných metadat, administrativních metadat a strukturálních metadat. Důležitou roli hrají „profily“ kterými lze vymezit charakteristické vlastnosti používaných metadat pro vytváření dokumentů dané třídy ve formátu METS. Profily lze registrovat (a tím je zveřejnit a propagovat) prostřednictvím Editorial Board Kongresové knihovny. V případě NK ČR by mohl být využit pro vytvoření exportně/importního rozhrání sloužícího k výměně většího objemu digitálních objektů. Registrované profily by usnadnily vytvoření potřebných konverzních nástrojů. V tom případě lze uvažovat i o konverzích popisných metadat on-the-fly mezi NKF a např. M21. Formát METS je z hlediska dalšího budování digitální knihovny perspektivním formátem a bude nutné v následujících obdobích prověřit možnosti jeho využití v kombinaci s formátem FNK, příp. M21 pro popisná metadata a FNK pro strukturální a administrativní metadata. Současně bude třeba zanalyzovat roli profilů při výměně digitálních objektů mezi repozitáři využívajícími odlišné formáty metadat a podmínky a postup registrace profilu.
2 3
Výsledky analýzy jsou uvedeny v tabulkách v Příloze č. 2 a 3. viz Příloha č. 4
10
2.5 Formát PREMIS Jádrem formátu PREMIS (PREservation Metadata: Implementation Strategie, http://www.oclc.org/research/projects/pmwg/) je PREMIS Data Dictionary založený na referenčním informačním modelu OAIS a na starším návrhu A Metadata Framework to Support the Preservation of Digital Objects. Formát pracuje s pěti typy entit: intelektuální entitou, objektem, událostí, právy a činitelem a popisuje vazby mezi nimi, nedefinuje popisná metadata, pro něž slouží řada jiných formátů. Podstatnou součástí metadat by měla být pečlivá dokumentace technického prostředí spojeného s archivovaným digitálním objektem. Výhodou formátu PREMIS je skutečnost, že dokáže popsat a archivovat složené digitální objekty, které využívají i několik formátů najednou. Tento formát by např. byl nepostradatelný pro uchovávání povinných výtisků elektronických verzí tištěných publikací, pokud by se podařilo legislativně prosadit tento typ povinného výtisku. Formát PREMIS není jen dalším specializovaným souborem popisných elementů sloužících trvalému uchovávání (tak jako např. návrh Australské národní knihovny: Preservation Metadata for Digital Collections), ale poskytuje komplexní přístup k této problematice. 2.6 Pravidla zápisu metadat Problémy spojené s migrací metadat v r. 2003 inspirovaly i k dalším aktivitám, jejichž cílem bylo také eliminovat následnou editaci metadat. Řada problémů byla způsobena nejednotností zápisu některých popisných elementů, což znemožnilo použít hromadné úpravy. Dalším důvodem byla skutečnost, že Knihovna AV ČR vybudovala vlastní digitalizační pracoviště založené na stejných programových nástrojích (Kramerius/Sírius) a bylo třeba koordinovat způsoby zápisu na obou pracovištích. Stejný případ byla i firma Elsyst Engineering, tvůrce programu Sírius, která zahájila dodavatelské reformátování a také potřebovala přesnější pravidla pro zápis metadat. Pravidla jsou vytvářena, koordinována a distribuována průběžně a jsou k dispozici i příp. dalším zájemcům o digitalizaci z řad knihoven nebo specializovaných firem. Cílem aktivit je minimalizovat vlastní tvorbu při zpracování metadat a spíše volit mezi několika nabízenými možnostmi. 4
2.7 Obecné zásady dlouhodobé archivace z hlediska provozu technických zařízení V rámci realizace výzkumného záměru byla zpracována J. Veškrnou studie, hodnotící zásady dlouhodobé archivace elektronických dokumentů a rizikové faktory. Díky vývoji levných disků SATA se stírají rozdíly v nákladech na archivaci dat prostřednictvím páskových a diskových technologií. Při hodnocení trvanlivosti záznamu je třeba posuzovat fyzickou i morální životnost, přičemž fyzická životnost není rozhodujícím faktorem, ale pro dlouhodobou archivaci dat by měla být volena média s životností nejméně 5 až 10 let. Poměrně krátká morální životnost záznamu se překonává promyšleným plánem řízené dostupnosti založeným na migracích, emulacích, či uchovávání již zastaralých HW a SW prostředků v provozuschopném stavu (technologické muzeum). Zálohování celých archivů se děje klonováním médií v případě páskových technologií (technologií s výměnnými médii), vzdáleným zrcadlením nebo replikací v případě diskových subsystémů. Závěrem studie shrnuje zásady dlouhodobé archivace v několika bodech, které je užitečné ocitovat v plném znění: 4
viz Příloha č. 5
11
„Nejdůležitější zásady fungování jsou shrnuty v následujících bodech: 01) Stávající technologie a jejich dosavadní vývoj vyžadují trvalý proces migrace dat z jedné generace na generace následující. V budoucnu může být vyvinuta dosud neznámá technologie se schopnostmi dlouhodobě skladovat informace bez zvláštních nároků na metody přístupu k informacím. 02) Na dlouhodobý archiv nelze aplikovat mechanizmy ILM Data v archivu se vyznačují tím, že vysoké procento informací nebude z archivu již nikdy požadováno. 03) Zařízení a média pro úschovu dat musí mít výrobcem deklarovanou životnost minimálně 10 let Projektovaná životnost IT technologií je zpravidla pouze 5 let. 10 let je doba morálního zastarání, za kterou již významně rostou ekonomické náklady na jejich provoz. 04) Data musí být uložena v nejméně třech lokalitách Třetí lokalita by měla fungovat jako trvalé úložiště typu WORM. Třetí lokalita v žádném případě neslouží k primárnímu zpracování dat, pouze a jen k jejich trvalé úschově. 05) Alespoň v jedné lokalitě musí být použita zařízení s různou technologií, jejíž perioda obměny se nekryje s periodou obměny lokalit ostatních Výměna technologie nesmí ohrozit nepřetržitost existence dat. 06) Dvě lokality jsou synchronizovány v reálném čase, třetí lokalita v asynchronním režimu se zpožděním Zpoždění zabraňuje vědomému zničení dat ve všech lokalitách. 07) Uložená data mohou být chráněna proti zneužití nejen v úložištích, ale i v komunikačních kanálech Bezpečnost nemusí být vyžadována vzhledem k obsahu informací, ale s ohledem na nedovolené komerční využití. 08) Archiv nevyžaduje nasazení prostředků pro úschovu dat s vysokou dostupností Vysoká dostupnost prostředků několikanásobně zvyšuje jednotkovou cenu za uložený TB. Archiv není mission kritická aplikace. Kritická je dlouhodobá trvanlivost informací. 09) Zařízení pro úschovu dat a komunikace v jednotlivých lokalitách by neměla pocházet od jednoho originálního výrobce (OEM) Vazba na jednoho výrobce je riskantní. Neustále probíhající konsolidace trhu IT způsobuje pohlcování jednotlivých článků světové produkce a často to znamená i ukončení podpory. 10) Zařízení pro úschovu dat musí být co nejvíce otevřené obecně rozšířeným platformám bez úzké vazby na jednoho dodavatele Aplikační část archivu musí být zcela nezávislá na hardwarové platformě. 11) Je nutno vyhnout se unikátním technologiím, za kterými stojí pouze jeden výrobce, i s rizikem, že vybrané řešení nebude nejvýkonnější
12
Stále platí zkušenost z minulosti, kdy se hledal univerzální a široce akceptovaný formát videozáznamu mezi principy BETA a VHS. Úspěšnější byl nakonec méně dokonalý VHS. 12) Prvotní pořizovací náklady a cena za implementaci bude tvořit pouze desetinu až třetinu celkových nákladů na provoz a vlastnictví. Z ekonomického hlediska se pro dlouhodobý projekt jeví nejvýhodnější plný outsourcing, pokud není na závadu dislokace dat mimo území jejich správce. Světové trendy však jednoznačně směřují k tomuto modelu a s ním roste i propracovaná legislativa, ošetřující otázku vlastnictví a zodpovědnosti poskytovatele služby. V současnosti se jeví jako výhodné použít jako úložiště diskové pole, založené na technologii SATA. Při dodržení výše uvedených zásad budou pořizovací náklady tak nízké, že jejich budoucí obnova nebude mít zásadní vliv na jednotkovou cenu za TB. Snížení nákladů na kapacitu lze dále dosáhnout kombinací zařízení založených na pevných discích a na výměnných páskových médiích. Případně lze využít hybridního systému, který samostatně řeší vnitřní organizační strukturu dat a navenek funguje jako automatizovaná knihovna s velkou kapacitou. Kromě výhodné jednotkové ceny za TB jde o kombinaci dvou technologií s různou dobou morálního zastarávání a při inovaci jedné části budou data uložena v druhé části nebo na výměnných médiích. Budoucí vývoj naznačuje, že opět dojde k rozevření průběhu křivek cen za uloženou jednotkovou kapacitu na pevném disku a na páskovém či jiném výměnném médii. To by opět znamenalo vytváření levných velkokapacitních úložišť, založených na výměnných technologiích. Klíčovým momentem pro trvale udržitelný chod velkokapacitního distribuovaného archivu je rychlá a spolehlivá komunikace mezi pracovišti, bez ohledu na to, jaké prostředky jsou použity pro ukládání elektronických informací. 5“ Celou studii „Technologie pro dlouhodobou archivaci digitálních dat“viz 2.7 Centrální datové úložiště Vývoj v oblasti digitalizace a shromažďování digitálních dokumentů v NK ČR dospěl díky realizaci různých grantů a projektů do stadia, kdy již není efektivní budovat pro každý národní program (Manuscriptorium, Kramerius, WebArchiv) vlastní archiv digitálních dat, ale kdy bude třeba vybudovat centrální datové úložiště sloužící těmto programům. Současně byla v r. 2005 v NK ČR zpracována „Koncepce trvalého uchovávání knihovních sbírek tradičních i digitálních dokumentů…“, která poprvé definuje představu Národní digitální knihovny jako součásti širší České digitální knihovny. V jádru řešení je centrální datové úložiště jako základní nástroj archivace digitálních dokumentů, které bude tuto funkci zabezpečovat pro Národní digitální knihovnu i pro část České digitální knihovny. Tomuto vývoji musela být podřízena i původní představa o vytvoření speciální archivní aplikace pro program Kramerius, která by v případě její realizace dublovala většinu funkcí poskytovaných centrálním datovým úložištěm. Během roku byla firmě Neat Code s.r.o. zadána studie6, jejímž předmětem bylo zpracovat analýzu problematiky a navrhnout optimální řešení a současně připravit zadávací dokumentaci pro výběrové řízení. Navržené řešení je založeno na dvou shodných diskových subsystémech umístěných v budově Klementina a v Centrálním depozitáři v Hostivaři a 5 6
Celou studii viz Příloha č. 6 viz Příloha č. 7
13
vzdálené replikaci dokumentů mezi oběma lokalitami. Propojení úložiště s jednotlivými aplikacemi řeší studie třemi variantami: a) přístupem k diskovému prostoru opět ve třech variantách (nekontrolovaný systém ukládání) aa) připojením pomocí FC ab) připojením pomocí iSCSI ac) sdílením prostoru s využitím NAS a TCP/IP b) přístupem k aplikačnímu rozhraní (plně kontrolovaný systém ukládání) c) kombinací obou způsobů Jako optimální je navržena druhá varianta jak z hlediska logiky architektury archivace, nákladů na pořízení i provoz a nákladů na přenosy dat mezi lokalitami. Výhody tohoto řešení je možné shrnout do následujících bodů: • Nebude třeba budovat propojení mezi jednotlivými aplikacemi a hradit vysoké náklady spojené s jeho využíváním. • Prostřednictvím jednotného interface bude možné připojit jakékoliv další aplikace. • Bude možné sdílet stejná data různými aplikacemi. • NK ČR bude mít kontrolu nad všemi archivovanými daty. • Všechna data budou pod centrální správou a bude možné provádět hromadné migrace celého obsahu archivu v budoucnosti. Specifickými požadavky na realizaci tohoto řešení jsou naprogramování aplikačního rozhraní a vytvoření konektorů mezi jednotlivými aplikacemi a úložištěm. Jedná se ale o jednorázové náklady. 2.8 Rozbor podmínek využití centrálního datového úložiště Rozbor zpracoval ing. Pilát, pracovník NK ČR, odd. automatizace7. Předmětem rozboru bylo posouzení možností efektivního využití úložiště v kategorii robustních enterprise zařízení typu EMC Centera nebo Hitachi Tunder 9500 s ohledem na stávající architekturu IT. Rozbor snáší řadu technických argumentů, ze kterých jsou pak vyvozeny závěry, z nichž některé by měly být předmětem další diskuse. Problematické jsou zejména tyto: • Vyšší objemové efektivity je možné dosáhnout při realizaci nákupem techniky na rozdíl od pronájmu, kdy část kapacity je nevyužitá. • Stávající architektura IT vybavení pracoviště digitalizace neodpovídá požadavkům na efektivitu činností i možného využití enteprise zařízení. Vhodnější uspořádání by bylo založeno na architektuře terminál (tenký klient) - server. Praxe z různých realizací spíš podporují názor, že k neefektivnímu využití dochází právě při nákupu zařízení, kdy většinou chybí finanční prostředky na jeho postupné rozšiřování (co se nekoupí hned, nekoupí se nikdy). To většinou ústí ve strategii vytvořit kapacitní rezervu pro následující období (alespoň na rok), během kterého nebude nutné do zařízení investovat další prostředky. Pronájem právě naopak umožňuje rozšiřovat objem paměťové kapacity podle potřeby. V případě dosažení limitu daného diskového subsystému bývá nutné v obou případech nahradit dosud používané (a ještě ne zastaralé) zařízení jiným, s větším objemem paměťového prostoru. V případě investičního nákupu není téměř tato situace řešitelná, pokud instituce nemá příslušné (většinou značně vysoké) finanční prostředky pohotově k dispozici. V případě pronájmu se tato změna může projevit navýšením ročního poplatku, jednorázová
7
viz Příloha č. 8
14
částka se rozloží do více let a celkový nárůst nemusí být natolik citelný, protože dodavatelská firma může pro původní zařízení najít uplatnění jinde. V případě porovnání výhodnosti pronájmu a investičního nákupu, nebývají do investice započítávány skryté náklady (režie správce systému, technická podpora, náklady na školení, výpadky zařízení, apod.), které hradí instituce ze svého rozpočtu, a které bývá obtížné vyčíslit a se kterými obvykle počítá firma zajišťující službu a umí jim lépe čelit, protože na nich často závisí efektivita daného obchodního případu. Výhodou pronájmu je také daleko lepší zastupitelnost klíčových odborníků. Firma většinou disponuje větším počtem vyškolených pracovníků, kteří mají navíc velmi bohaté zkušenosti s provozem daného konkrétního typu zařízení. Naproti tomu v případě pořízení investice může instituce vyškolit většinou pouze jediného pracovníka, který se s daným typem zařízení teprve seznamuje a u kterého je zastupitelnost velmi problematická. Architektura terminál - server bývá nejvíce využívána a je nejefektivnější v případě vkládání dat prostřednictvím šablony (formuláře - smlouvy, faktury, v našem případě tvorba metadat). V případě využití pro zpracování obrazových dat (imageprocessing), nejsou názory odborníků na efektivitu tohoto řešení zcela jednotné. Volba architektury může také být závislá na vlastnostech programového nástroje který zajišťuje požadované procesy (algoritmy), jako v případě systému Sírius. Obdobná pracoviště u firem i institucí vybudovaná na stejné architektuře jako pracoviště NK ČR ukazují, že se jedná o řešení obvyklé a funkční. I některá další doporučení uvedená v rozboru je obtížné realizovat, např. centrální automatické zpracování dat naráží na charakter původních digitalizovaných dokumentů. Pokročilý stav degradace papíru způsobuje, že automatické zpracování (např. ořez a narovnání, zónové rozpoznávání paginace apod.) generuje víc chyb než manuální a v některých případech ho nelze vůbec použít. Na druhé straně je velmi lákavá představa integrace prostředků úložiště a linky pro tvorbu digitálních dokumentů, která by pomohla eliminovat přenosy velkých objemů dat mezi pracovními stanicemi a tím urychlit proces digitalizace. V prostředí rozvinuté kooperace, kdy se budou na budování Národní digitální knihovny podílet i další instituce, by takové řešení umožnilo provádět některé operace (OCR, konverze obrazových formátů apod.) až při importech do vlastního archivu a tím šetřit náklady zejména dodavatelského reformátování, ale i nároky na procesorový výkon u spolupracujících institucí. Tento aspekt intenzivní kooperace bude do budoucnosti spíše posilován a může přinést podstatné zvýšení efektivity. Realizované analýzy poskytly dostatek informací pro další rozhodování o způsobech archivace digitálních dokumentů. Základním přínosem je rozbor možností realizace centrálního datového úložiště a porovnání metadatových formátů. Další výzkum je tak možné orientovat podle doporučení uvedených v následující části zprávy.
15
C. Návrhová část 1. Manuscriptorium 1.1. Výsledky řešení I po druhém roce řešení výzkumného záměru budování virtuálního badatelského prostředí pro práci s historickými fondy jsou výsledky pouze dílčí, závažnější výsledky lze očekávat až v horizontu střednědobém. Přesto však jsou již nyní perspektivní, poněvadž je lze pružně rozvíjet v několika možných směrech. NK ČR upevnila svoje dominantní postavení integrátora ve středoevropském prostoru (evropský projekt ECH:TOPICC, projekt UNESCO, samostatná iniciativa při vyhledávání a získávání partnerů) a pevně se zapojila do progresivních integračních aktivit na globální rovině (pilotní projekt rukopisného portálu CERL) vč. zapojení do Evropské knihovny TEL, očekávané od 1. 7. 2006. Kromě vlastního řešení se členové řešitelského týmu také zúčastnili řady mezinárodních akcí, kde prezentovali dosažené výsledky. Mj. jde o světovou konferenci pořádanou v Republice Korea u příležitosti předání ceny UNESCO Jikji Národní knihovně ČR za zásluhy v oblasti ochrany a zpřístupnění fondů, zejména v oblasti digitalizace a šíření dosažených znalostí v mezinárodním měřítku. Dále konference pobaltských států o digitálním zpřístupnění sbírek v Tallinnu nebo UNESCO Open Forum na konferenci IFLA v Norsku. Řešitelé se rovněž zapojili do práce IT komise Asociace knihoven ČR, pro její potřeby mj. zpracovali doporučení pro používání datových formátů pro digitalizaci, která byla publikována na webu SDRUK. Řešitel provedl dvě základní školení o digitalizaci (Ostrava a Praha), na nichž bylo celkově proškoleno cca. 50 pracovníků knihoven a dalších paměťových institucí. Na pozvání Lotyšské národní knihovny provedl dva cykly školení o digitalizaci pro lotyšské knihovníky (obecné jednodenní – cca. 60 účastníků; specializované dvoudenní – cca. 20 účastníků) v rámci národního lotyšského programu dalšího vzdělávání pracovníků knihoven. Řešitel byl také požádán o účast v panelu o digitalizaci na výročním zasedání CENL (Consortium of European National Librarians), kde vystoupil spolu se zástupci národních knihoven Velké Británie, Francie, Maďarska a společnosti Google. řešitel je též zástupcem Národní knihovny ČR v Evropské knihovně TEL. Kromě toho se řešitel zúčastnil pracovního zasedání Subkomise pro technologii programu UNESCO Paměť světa a dále za Národní knihovnu ČR řešení projektů EU v programu Information Society Technologies (6. RP) CALIMERA a TEL-ME-MOR, projektu ECH:TOPICC v programu Eureka! a projektu M-CAST v programu eContent. Spoluřešitel Zdeněk Uhlíř byl zároveň spoluřešitelem končícího projektu EU VICODI (program IST 5. RP) a projektu COMTOOCI v programu EU Kultura 2000. Všechny tyto projekty se ve větší nebo menší míře týkaly/týkají digitálních technologií. Jindřich Marek je zástupcem Národní knihovny ČR v TEI Consortium a Františka Vrbenská v EROMM.
1.2. Závěr Druhý rok řešení výzkumného záměru budování virtuálního badatelského prostředí pro práci s historickými fondy úspěšně splnil plánované úkoly jak pokud jde o tvorbu technických
16
a implementaci infrastrukturních nástrojů, tak pokud se týče tvorby nezbytných standardů. Právě tak byly plánované úkoly splněny v aspektu naplňování prostředí obsahem. Pokud jde o integrační roli NK ČR, byla jak ve středoevropském, tak v mezinárodním a nadnárodním rámci upevněna, přičemž je reálná perspektiva získat další relevantní partnery. Tím jsou vytvořeny záruky pro to, aby výzkumný záměr byl i nadále financován v plné výši. 1.3. Návrhy opatření Návrhem opatření tedy je nadále pokračovat podle původního plánu, protože jak národní, tak mezinárodní a nadnárodní srovnání dokládá, že řešení je na výši nejperspektivnějších současných poznatků a že vzhledem ke své pružné konceptualizaci umožňuje jak další rozvoj, tak rychlou reakci na uživatelské požadavky. Z širšího hlediska se však již projevuje problém, který může řešení výzkumného záměru znesnadnit. Je jím financování souvisejících aktivit, které se netýkají přímo vytváření infrastruktury virtuálního badatelského prostředí pro práci s historickými fondy a jednotlivých nástrojů tohoto prostředí, nýbrž vztahují se k jeho naplňování obsahem. Finanční prostředky věnované ze státního rozpočtu na digitalizaci totiž mají klesající tendenci, digitalizace však je hlavním a v jistém smyslu jediným prostředkem naplňování virtuálního badatelského prostředí pro práci s historickými fondy reálným obsahem. Pro danou chvíli lze situaci řešit grantem z tzv. norských fondů, to je však řešení pouze dočasné, nikoli dlouhodobé. Podařilo se sice získat partnery pro tvorbu plných textů, kteří jsou schopni a ochotni zajistit ji z vlastních institucionálních prostředků, potřeba masivní tvorby plných textů originálních historických dokumentů tím však není dlouhodobě zaručena. Návrhem opatření tedy je posoudit tyto nezbytné požadavky úspěchu a důsledně řešit také financování těchto navazujících aktivit. 2. Kramerius a trvalé uchování digitálních dat Doporučení vyplývající z provedených analýz lze shrnout do následujících bodů: 1. Vybudovat centrální datové úložiště založené na dvou diskových subsystémech se vzdálenou replikací dat, využívající aplikační rozhraní, příp. kombinovanou variantu a zajistit tím dlouhodobou bezpečnou archivaci digitálních dokumentů. 2. V rámci úložiště vytvořit předpoklady pro hromadné zpracování dat bez nároků na přenosy po síti a využít systém Sírius pro manipulaci se zdrojovými digitálními dokumenty. 3. Provést analýzu možností využití formátů MARC 21, METS a PREMIS v kombinaci s formátem NK ČR. 4. Dále sledovat vývoj v oblasti digitálních knihoven, komerčních, i příp. distribuovaných jako freeware, z hlediska využívaných standardů a funkcí „repozitory“. Připravit přechod na robustní systém zajišťující zpřístupnění i archivaci standardními nástroji. 5. Provést analýzu možností emulace digitálních dokumentů uchovávaných na fyzických médiích a následně i průzkum a selekci dokumentů, které pro dlouhodobé uchování budou vyžadovat emulaci. 6. Zajistit zpracování bezpečnostní politiky zabývající se bezpečností dat na všech úrovních.
17