Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení výzkumného záměru za r. 2004
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Adolf Knoll, hlavní řešitel Jiří Polišenský a Zdeněk Uhlíř, spoluřešitelé Národní knihovna České republiky Klementinum 190 110 00 Praha 1
Prosinec 2004
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení výzkumného záměru za r. 2004
Obsah
Zpráva………………………………..str. 3 Přílohy………………………………str. 47 Posudek měřících přístrojů ADIVAN……. str. 48 Manuscriptorium 2 – analýza systému….str. 51 Zprávy ze služebních cest……………….str. 101
Stránka 2
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
Zpráva o řešení výzkumného záměru Úvod Výzkumný záměr Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů je komplexní úkol, který spočívá ve využití informačně komunikačních technologií pro shromáždění, ochranu, zpracování a zpřístupnění písemného kulturního dědictví a pro jeho mnohostranné využití v nastupující informační a znalostní společnosti. Základem je jednak vytvoření nového konceptuálního rámce pro paměťové instituce, jednak jde o výběr obsahu k převedení do virtuálního, tj. síťového elektronického prostředí, jednak o vývoj technologických nástrojů, které to prakticky umožní a technicky realizují. Výzkumný záměr pracuje na bázi dvou dříve rozvíjených programů a projektů: §
§
Memoriae Mundi Series Bohemica (Memoria), který je zaměřen na digitální zpřístupnění rukopisů, starých tisků a historických map, příp. dalších vzácných dokumentů; Kramerius, který je zaměřen na záchranu a zpřístupnění dokumentů, ohrožených degradací kyselého papíru.
Ve sféře digitálního zpřístupnění se oba programy setkávají ve virtuálním prostředí, nicméně zachovávají si svou specifičnost, která je dána jak zpracováním dokumentů, tak i možnostmi jejich zpřístupnění z pohledu autorských práv (Kramerius pracuje ponejvíce s díly, která nejsou volná). Pro zpřístupnění dat používají různé aplikace: Memoria je nejen digitální knihovnou, ale také souborným katalogem historických fondů, do nichž se začínají zapojovat i zahraniční instituce. Aplikace programu Memoria se nazývá Manuscriptorium (www.manuscriptorium.com) a jako databáze je provozována centrálně, zatím co datové soubory mohou být distribuovány po síti Internet. Dokumenty v Manuscriptoriu vyhovují specifikaci edoc formátu msnkaip.dtd.
Stránka 3
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
Kramerius je aplikace, která je provozována ve více institucích, neboť autorsky chráněná díla může elektronicky zpřístupnit pouze majitel originálu, přičemž i elektronická kopie musí být u něho. Dokumenty v aplikaci Krameria jsou řízeny několika formáty, přičemž nejvíce dat je prozatím v oblasti digitalizovaných periodik (Periodical.dtd); další zapracovaný formát je pro digitalizované monografie a tč. jsou implementovány další typy dokumentů. URL aplikace Kramerius v Národní knihovně ČR je http://kramerius.nkp.cz. Za volná – a tudíž přístupná vně knihovny – jsou považována pouze díla vydaná do r. 1880.
Stránka 4
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
A. Konstatační část A.I. MEMORIA 1.1. Rešerše Vstupní rešerši bylo třeba provést pro tři základní okruhy: Jednak pokud jde o technické nástroje pro přípravu a zpracování dat, jednak pokud jde o datové modely a konkrétní datové standardy, jednak pokud jde konceptuální rámec pro přípravu dat. 1.1.1. Bibliografický/katalogový informační systém Je zřejmé, že žádný z tradičně pojatých knihovních systémů se nehodí pro budování virtuálního badatelského prostředí. Jejich první nevýhodou je to, že všeobecně vycházejí z tvrdé strukturace dat založené na rigidní sémantické redukci, jak ji realizují tradiční selekční jazyky, anebo pracují pouze s plnotextovým vyhledáváním; využívají tedy dat nestrukturovaných. Nadto pracují se značným množství modulů, které sice umožňují management fyzické fondové knihovny ve virtuálním prostředí, ale v síťové elektronické knihovně však nenacházejí využití. Tradiční knihovní systémy jsou tedy na jednu stranu naddimenzované, na druhou stranu však nemají dostatek dílčích detailních nástrojů pro práci s daty. Druhou nevýhodou tradičních knihovních systémů je to, že pro ně nejsou konceptualizovány, a tedy v nich ani nejsou realizovány oddělená archivní část na jedné a prezentační část na druhé straně. Pracují totiž výhradně s homogenními daty, takže nejsou způsobilé realizovat takovou situaci, kdy z týchž archivních dat mohou vzniknout – a to dost dobře i v rámci modulů jednoho jediného systému – různá, tj. heterogenní prezentační data vztažená k různým účelům. Třetí nevýhodou tradičních knihovních systémů je, že jejich počátky jsou ještě v době existence tzv. klasického online spojení, a že tedy jsou adaptovatelné na webové prostředí jen částečně, ne zcela uživatelsky vlídně. Bylo tedy třeba hledat takový informační systém, který by byl primárně implementován, či alespoň jednoduše implementovatelný do webového prostředí a Stránka 5
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
který by zároveň umožňoval modulární stavbu jednotlivých dílčích vyhledávacích nástrojů jako např. neurčité vyhledávání, využití grafických variant při vyhledávání apod. Zároveň to musí být systém, který by dokázal pracovat s vnitřně strukturujícím značkovacím jazykem, konkrétně XML. Takových informačních systémů je nepochybně více v poměrně stejné kvalitě, a tak musely být přidány přesněji vymezující podmínky, totiž aby k tomuto systému byla jednoduše dostupná technická podpora. Ukázalo se, že informačním systémem vyhovujícím všem zmíněným podmínkám je systém Tornádo vyvinutý firmou AiP Beroun. 1.1.2. Digitální knihovna Pro budování virtuálního badatelského prostředí pro práci s historickými dokumenty však nestačí pouhý informační systém umožňující management bibliografických či katalogových záznamů. Je zapotřebí systému, který umožňuje pracovat nejenom s jednotlivými strukturovanými dokumenty, ale s celými strukturami dokumentů a to jak pevně danými, tak generovanými. Základním požadavkem je tedy jak schopnost zpracovat společně katalogový záznam a na něj vázanou libovolně rozsáhlou množinu souvisejících digitálních dokumentů, tak způsobilost vytvořit na základě dotazu flexibilní sdružený souborný dokument, tedy vytvářet heuristicky variabilní shluky dokumentů v rozmanitých strukturách. Stávající systémová řešení pro digitální knihovny jsou vzhledem k těmto požadavkům příliš statická a rigidní. Jsou až příliš inspirována tradičními knihovními systémy, tzn. jsou způsobilá využívat pro vyhledávání pouze tvrdě strukturovaných dat jmenného popisu a hierarchických zvnějšku přiložených hesel předmětového popisu. Z toho plyne, že jsou schopna zpracovat pouze explicitně vyjádřenou informaci, nejsou však schopna postihnout informaci implicitní. Práce s implicitní informací však je podmínkou nutnou pro práci ve virtuálním badatelském prostředí, protože jejím základem není prostá manifestace explicitní informace, nýbrž také – nejspíše zejména – heuristika na základě informace, jež sice není v datech přímo explikována, je v nich však uložena v implikátním stavu. Systémová řešení pro digitální knihovny jsou však zpravidla zaměřena ještě tradičním způsobem, tj. odpovídají na situaci vzniklou v době první informační krize, avšak neberou ohled na to, že nyní už stojíme před druhou informační krizí. Bylo tudíž nutno využít takového systému, který by díky své robustnosti a důsledné modularitě umožňoval rozvinutí ve směru heuristiky a práce s implicitní Stránka 6
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
informací. Těmto požadavkům odpovídá systém Manuscriptorium vyvinutý firmou AiP Beroun. Proto byl vybrán za základ pro další vývoj. 1.1.3 Standardizace katalogových záznamů Tradiční knihovnické záznamy, jež v transpozici do elektronického prostředí vyvrcholily MARCovými formáty – v Česku užívaný UNIMARC, resp. MARC21 – jsou naprosto nevhodné pro popis historických dokumentů (starých tisků, prvotisků a tím méně rukopisů). Jako schůdné se neukázaly ani jejich specifická implementace vypracovaná v NK ČR pro staré tisky ani americká adaptace pro popis rukopisů AMREMM. Jako schůdný se neukázal ani nizozemský systémstandard PICA, který je jednak proprietární, jednak důsledně orientovaný na moderní materiál, ačkoli Královská knihovna v Haagu jej používá pro katalogizaci rukopisů. Všechny tyto standardy jsou příliš tradiční (evokují spíše kartotéční lístek konvertovaný do elektronického prostředí), než aby mohly být využitelné pro budování virtuálního badatelského prostředí pro práci s historickými fondy. Pokročilejší je standard, na němž pracuje skupina TEI MSS konsorcia TEI. TEI je otevřený standard pro přípravu textových dat umožňující pojednávat je z různých hledisek. Je to tedy standard alternabilní (dovolující skrze tzv. ideologii markupu konstruovat kódování textu podle různých paradigmat objektu), variabilní (dovolující různé speciální technické implementace) a flexibilní (umožňující v rámci jediné definice typu dokumentu vytvářet data v různé informační hloubce). Práce skupiny TEI MSS konsorcia TEI však je zaměřena jednostranně ve směru tradiční filologie obírající se rukopisy, tedy vysloveně speciálně. To je ovšem pro účely virtuálního badatelského prostředí pro práci s historickými fondy nevhodné, protože to má vytvářet obecný základ pro různé obory pracující s rukopisy, nikoli se orientovat na jediný z nich. NK ČR ve spolupráci s AiP Beroun vyvinula v počátcích masivní digitalizace historických dokumentů standard DOBM (SGML platforma), který umožňuje vytvoření komplexního digitálního dokumentu, tzn. spojení katalogového/ bibliografického popisného záznamu se souvisejícími digitálními dokumenty, tj. digitálními obrazovými kopiemi originálních historických dokumentů, resp. dalšími textovými či zvukovými dokumenty. Standard DOBM byl posléze vybrán jako doporučení UNESCO pro program Memory of the World. Tento standard umožňuje jak vytváření jednotlivých komplexních dokumentů, ale také webových Stránka 7
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
stránek určených k prezentaci NK ČR byla členem konsorcia, které vytvořilo standard MASTER orientovaný na popis rukopisů, který však není oborově specifický. (Dokladem toho je právě, že skupina TEI MSS konsorcia TEI zahájila aktivity ve směru specificky filologickém, zatímco bulharská skupina kolem Institutu matematiky a informatiky v Sofii se důsledněji orientovala na fyzické rysy.) Tento standard se postupně prosazuje v různých evropských zemích (Česko, Island, Švédsko, Velká Británie, nově i Německo). NK ČR jej postupně zapracovala do workflow pro digitalizaci rukopisů, přičemž jej rozšířila do podoby MASTER+ (msnkaip.dtd) dovolující integrovat popisné katalogové záznamy se souvisejícími digitálními dokumenty, a tak se stal i standardem pro český národní program Memoriae mundi series Bohemica-VISK6. V současné době probíhají intenzivní práce na implementaci standardu MASTER do širšího standardu TEI. Z tohoto důvodu byl vývoj virtuálního badatelského prostředí pro práci s historickými fondy založen na standardu MASTER, resp. MASTER+. 1.1.4 Standardizace plných textů První textové archivy v elektronické podobě začaly být vytvářeny již v šedesátých letech 20. století. Data byla ukládána technicky v textovém formátu, tzn. jako zcela nestrukturované texty. To sice dodnes usnadňuje některé operace jejich technického zpracování (např. korpusy jsou dodnes budovány v této podobě nestrukturovaných textů), avšak neumožňuje to sofistikovanější heuristiku, protože implicitní informace je v takto formátovaných textech podána v příliš vágní podobě, než aby mohla být cíleně využita. Tento způsob se tedy pro budování virtuálního badatelského prostředí pro práci s historickými jeví jako zcela nevhodný, protože práce s pořizováním takových dat nemá odpovídající efekt na uživatelské úrovni. Pokud nestrukturované textové formáty se vyznačují extrémní jednoduchostí, využití vnitřně strukturujícího značkovacího jazyka SGML se naopak vyznačuje extrémní složitostí. Obsahový expert se při jeho používání zpravidla neobejde bez podpory znalostního inženýra, což je ovšem z hlediska ekonomiky práce při pořizování takových textových dat vysloveně neefektivní, nadto by tím byly z budování virtuálního prostředí vyloučeny menší pracovní týmy či instituce. Ke všemu jsou technické nástroje způsobilé pracovat se SGML vzácné, řídké a velmi Stránka 8
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
drahé, čehož následkem by byla zřejmá neefektivita finanční. Využití SGML jako datového standardu pro přípravu plných textů je tedy právě tak nevhodné. Idea virtuálního badatelského prostředí je založena na využití Internetu, poněvadž ten se stal z důvodu možností komerčního využití dominantním hypermédiem vznikající informační a znalostní společnosti. Využití běžného standardu webového prostředí, totiž značkovacího jazyka HTML není však nosné z toho důvodu, že tento značkovací jazyk není používán jako vnitřně strukturující, ale pouze jako strukturující vnější formy reprezentovaného dokumentu. To je pro sofistikovanější využití, které stojí v základu virtuálního badatelského prostředí, naprosto nevhodné. Na Internetu se však postupně prosazuje vnitřně strukturující značkovací jazyk XML, který lze vhodnými transformacemi převést do jazyka HTML. Jazyk XML nadto vzhledem ke své relativní jednoduchosti nevyžaduje, aby obsahový expert potřeboval stálou podporu znalostního inženýra. Proto byl XML zvolen jako obecný datový standard pro strukturované plné texty. Jazyk XML však vyžaduje zurčitění v definici typu dokumentu. Validní dokumenty podle definice typu dokumentu jsou potom jednoduše technicky zpracovatelné různými technickými nástroji, což je základním předpokladem pro úspěšné budování virtuálního prostředí. Jestliže zde v podobě TEI existuje obecný a otevřený standard pro všestranné formální pojednání textů, jevilo se jako nejvýhodnější využití tohoto standardu, jenž je podporován širokým odborným zázemím v podobě konsorcia TEI a jeho pracovních skupin, než vytváření standardu vlastního, který by mohl zůstat jen v podstatě, tj. fakticky proprietárním. Definice typu dokumentu TEI je však příliš široká, než aby mohl být v celé této šíři skutečně prakticky použitelná, umožňuje však za využití nástroje Pizza Chef generování užších a specifičtějších standardů. To se ukázalo jako nejschůdnější a nejlepší cesta pro náš výzkumný záměr. 1.1.5 Standardizace obrazových a zvukových dokumentů Vytváření standardů pro digitální obrazové a zvukové dokumenty není tak jednoduše přehledné jako je tomu v případě standardů pro strukturované texty, protože obrazové a zvukové dokumenty nejsou tak výrazně vázány na odborné použití jako strukturované dokumenty textové. Standardy v této sféře jsou tedy pouze standardy via facti, nejsou ve striktním smyslu obecné a otevřené. Pro použití těchto via facti standardů však existuje dostatečné množství nástrojů, které Stránka 9
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
je umožňují různým způsobem automaticky zpracovávat. Jako nejefektivnější se tedy jeví jejich pragmatické využívání a výběr vhodných formátů a přístupů/ parametrů v jejich použití, které se budou jevit k daným účelům jako optimální. 1.1.6. Konceptuální rámec pro zpracování písemného kulturního dědictví Virtuální, tj. síťové elektronické prostředí představuje naprosto jiný způsob komunikace, než je ten, který je důvěrně znám z tradičního prostředí tištěného. V obou případech je komunikace jak přímá, tak nepřímá, která je primárně určena vzdálenému adresátu či uživateli. Způsob tištěné komunikace však je principiálně založen na dokumentu, tzn. takovém komunikátu, který je založen na rozlišení a spojení fyzického či spíše materiálního nosiče a nefyzického záznamu, na dokončenosti a uzavřenosti záznamu a na sémiotické linearitě textu. Sdělení v tištěném prostředí mající formu dokumentu tak při svém zpracování musí být především reprodukováno v čistě myšlenkové formě, tzn. že na jedné straně musí být chápáno jako transparentní samo v sobě, na druhé straně tedy musí být jeho obsah striktně oddělen od adresátovy, recipientovy či uživatelovy mysli, resp. jeho vědomí. Obsah sdělení v tradičním tištěném prostředí je tedy stále koncipován a chápán jako universale reale a v tom smyslu je považován za objektivní. Obsah takového sdělení se však netýká fyzických či spíše materiálních věcí či procesů vnějšího světa, nýbrž mentálních předmětů či jejich komplexů vnitřního světa, tzn. pojmů, kategorií, abstraktních relací apod. V tištěném prostředí je informace vytvářena, vysílána, zprostředkovávána a přijímána tak, že se primární důraz klade na její konzistenci jakožto modelu a korelátu vnějšího světa a teprve sekundárně na to, aby byla odrazem či reprezentací v ontologicko-noetickém smyslu. Tradiční tištěné prostředí, pokud je pojímáno nikoli jako dominantní vedle prostředí jiných (např. orálního, rétorického, obrazového apod.), ale jako prostředí jediné, tedy směřuje k totalitnímu chápání světa, jeho věcí a procesů. Tato inherentní tendence tištěného informačního, komunikačního a znalostního prostředí se ukázala jako politicky, ekonomicky, sociálně a kulturně neúnosná. Způsob komunikace v síťovém elektronickém, tj. virtuálním prostředí je naproti tomu založen na dokumentech v čistě technicko-informatickém, nikoli však v informačněvědném a kulturologickém významu. Některé filozofické a sociálněvědné proudy pak nazývají dokument, tj. formu komunikátu v tištěném prostředí monumentem a termín dokument rezervují pro formy komunikátu v síťovém elektronickém prostředí. To však je pouze nepodstatná terminologická Stránka 10
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
nuance, která má leckdy spíše jen politicko-ideologický význam, nelze ji tedy použít pro neutrální pohled na věc. Povaha elektronického prostředí je založena na tom, že nevyžaduje pro komunikaci fyzický či spíše materiální nosič záznamu informace (pokud za takový nepovažujeme elektrické pole, jež ovšem je „vědeckým pomyslem“, nikoli „věcí“ v obvyklém realistickém významu). Obsah sdělení-informace se tak odpoutává od věcně materiální povahy, která byla až dosud nutnou podmínkou jeho existence. Pro zpracování historických fondů a historické bádání vůbec to znamená, že pomocné vědy historické (zejména kodikologie, filigranologie, ale také paleografie a diplomatika), jež jsou jakoby první linií v tomto směru a které se dosud převážně, ne-li povýtce zabývaly vnějšími znaky vztahujícími se k fyzickému či spíše materiálnímu nosiči záznamu, se musí nově orientovat na vnitřní znaky vztahující se k záznamu jakožto sémiotickému a kulturnímu obsahu. Z toho pak plyne nejenom nutnost transformace pomocných věd historických v jejich předmětném zaměření, ale také potřeba jejich institucionální restrukturalizace. Odpoutání záznamu od nosiče pak ve svém důsledku znamená, že dokument ztrácí povahu dokončenosti a uzavřenosti a stává se integrální součástí svého prostředí, tzn. reálně se vytváří představa textového kontinua, jehož jsou dokumenty chápané v tradičním významu pouhými dočasnými a arbitrárními figurami, jež se ze svého prostředí vynořují a opět do něho zapadají. Základní modelovou jednotkou síťového elektronického prostředí tak není dokument, ale sdružený souborný dokument, resp. na vyšší úrovni informační zdroj. Jednotlivé dokumenty tak nemohou být chápány jako transparentní, ale jako masivní ve svém vztahu ke zdroji a potenciálně také ve vztahu k soubornému sdruženému dokumentu. Podstatný je kontext, který ovšem není objektivně dán, nýbrž vyplývá z informační přípravy a informačního zpracování. Budování virtuálního badatelského prostředí pro práci s historickými fondy tak je založeno především na znalostně informační přípravě, nikoli na pouhé informační podpoře a informačním průzkumu. Odpoutání od věcně materiální povahy, jakož i následný příklon ke kontextualitě a masivnosti pak způsobuje, že texty (ať už v neterminologickém, filologickém, lingvistickém nebo sémiotickém významu) se stávají nelineárními hypertexty, přičemž není podstatné, zda hyperlinky spojující různé tyto texty jsou pevné, anebo zda jsou generovány ad hoc podle dotazu. Text je reprezentován a vnímán jako síť, nikoli jako linie, resp. paralelní linie. Stránka 11
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
Jeho detailní, tj. v jistém smyslu základní jednotky nejsou kumulovány do objektivně chápaných celků, ale jsou více méně volně kombinovány do různých shluků podle konkrétních, tj. vhodných, nikoli pravdivých nebo správných uživatelských požadavků. Jednotlivé uživatelské požadavky pak podléhají nejenom podmínce možnosti verifikace, ale také falzifikace a to nejenom na základě operativních metodik, ale také vzhledem ke svým původním intencionálním předmětům, přičemž prvotní intencionální předmět, tj. motiv zkoumání musí nejenom ladit s ideálním předmětem, tj. výsledkem zkoumání, nýbrž také s pragmatickým posouzením celého tohoto procesu. Obsah virtuálního informačního, komunikačního a znalostního prostředí lze pak ve vztahu k jeho technicko-informatické dokumentové povaze rozlišit na čtyři horizonty či úrovně: dílo, vyjádření, provedení a exemplář. Tradiční objektivně kumulativní způsob vlastní tištěnému prostředí interpretoval vztahy mezi těmito horizonty ve striktní a rigidní stromové struktuře tak, že ke každé dílčí jednotce vyššího horizontu může být přiřazeno více jednotek na nižším horizontu, ale že to platí pouze jednosměrně, tzn. že naopak není možná situace, aby k dílčí jednotce nižšího horizontu mohlo být přiřazeno více jednotek na vyšším horizontu; směrem dolů tedy platí princip partikularity, avšak směrem nahoru princip totality. Základní premisou, axiómem virtuálního prostředí je naopak to, že ke každé dílčí jednotce kteréhokoli horizontu může být přiřazeno více jednotek nejenom na nižším, ale také na vyšším horizontu, tzn. platí to obousměrně; směrem dolů tedy platí princip plurality, směrem nahoru princip univerzality. Tradiční tištěné prostředí je tedy založeno kontradiktorně, tzn. na protikladech (princip tertium non datur, differentia specifica, resp. and/or), zatímco virtuální síťové elektronické prostředí je založeno kontrárně, tzn. na škálách podobnosti a různosti (princip and/ both). Pro tištěné prostředí je tedy pravda (a v oslabujícím pojetí správnost a vhodnost) kategorií věcnou, ontologickou, zatímco pro virtuální prostředí je kategorií hodnotovou, axiologickou. V tom je paradigmatická změna v základní koncepci využívání obou prostředí ve vztahu k historickému materiálu: zatímco badatelé orientující se na tištěné prostředí jsou přesvědčeni, že historii lze odpoutat od hodnot, badatelé orientující se na prostředí virtuální jsou přesvědčeni, že historii od hodnot odpoutat nelze. Je to rozpor mezi totalistickým absolutním (nikoli nutně absolutistickým) pojetím na jedné a univerzalistickým relativním (nikoli nutně Stránka 12
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
relativistickým) na druhé straně. NK ČR se rozhodla budovat virtuální badatelské prostředí pro práci s historickými fondy tak, aby vyhověla komplexním uživatelským požadavkům, tzn. v rámci hybridní knihovny. Z toho plyne, že je buduje ve dvou směrech zároveň, přičemž důraz je kladen na koordinaci a integraci mezi oběma skupinami aktivit. Cílem je spojit virtuální badatelské prostředí pro práci s historickými fondy v rámci síťového elektronického prostředí s tradičním knihovním systémem, tj. se systémem managementu fyzické fondové knihovny. Zároveň však je konečným cílem podřídit fyzickou fondovou knihovnu síťové elektronické knihovně, jež bude přímo a plně integrována do okolního prostředí. Úhrnem to znamená přelom v práci historického knihovníka, jehož úkolem nadále nebude prostě popisovat knihy, nýbrž do hloubky nejenom informačně, ale také znalostně zpracovávat jejich obsah tak, aby vytvořené prostředí bylo komplexním heuristickým prostředkem pro tvorbu transinformace. 1.1.7 Nástroje k přípravě dat Speciální technické nástroje k přípravě dat pro virtuální badatelské prostředí pro práci s historickými fondy zpravidla nejsou k dispozici, protože počet jejich uživatelů je příliš malý, než aby bylo únosné poskytovat je na normální komerční bázi. Takové speciální nástroje tedy vznikají takřka výhradně v souvislosti se speciálními výzkumnými a vývojovými projekty, jejichž cílem je elektronické zpracování historických fondů a dokumentů, a to v zásadě dvojím způsobem: jednak vlastním vývojem od základu, jednak adaptací volně dostupných nástrojů univerzálního zaměření. Do první skupiny, tj. speciálně vytvořených nástrojů patří např. nástroje pro kompletaci digitálních dokumentů AiP Beroun vyvinuté ve spolupráci s NK ČR, nástroj ACT pro anotaci dokumentů vyvinutý centrem komutační lingvistiky MFF UK v Praze nebo nástroj pro komplexní digitální zpracování historických dokumentů pracoviště komutační lingvistiky v Pise. Do druhé skupiny nástrojů patří editor pro vytváření popisných záznamů adaptovaný na základě volně dostupného editoru NoteTabLight v rámci evropského projektu MASTER, jehož partnerem byla také NK ČR. Vedle toho existují univerzální volně dostupné nástroje, jejichž využití je Stránka 13
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
obecné, protože umožňují nahrát příslušnou definici typu dokumentu, jakož i provádět na jejím základě validaci, jako jsou např. emacs nebo jEdit. Tyto nástroje jsou však určeny spíše technikům nebo upravovatelům dokumentů po formální stránce, zatímco pro obsahové experty jsou více méně uživatelsky krajně nevlídné, jejich využití také jimi však v žádném případě není zásadně vyloučeno. Důležité v tomto kontextu je, že není dosud zcela jasná představa, jak by měly vypadat uživatelsky vlídné nástroje pro obsahové experty, protože práce ve virtuálním prostředí se dosud nestala běžnou a obvyklou, aby bylo možno vycházet ze zhodnocení rozsáhlejších praktických zkušeností a z konkrétní představy funkčního určení takových nástrojů. V zásadě lze tedy postupovat jen na základě metody pokusu a omylu. Ze zhodnocení této situace vyplynulo, že sice mohou existovat takové nástroje, které budou na základě dílčí zkušenosti, jakož i jejich snadného zapojení do workflow a ostatně také na základě dosud nízké kompetence většiny obsahových expertů při používání takových nástrojů považovány za doporučené, v žádném případě však by neměly být předepsané. Použití každého nástroje k přípravě dat je tedy fakultativní, nikoli obligatorní. Jde o to, aby uživatel-obsahový expert měl možnost zvolit si nástroj, který mu individuálně co možno nejvíce vyhovuje a aby případné divergence mezi pořízenými daty byly řešeny až na úrovni automatických transformací a konverzí, přičemž apriorně není vyloučena ani heterogenita pořízených dat. Tato data však nezbytně musí být vzájemně převoditelná s co nejmenší ztrátou informace.
1.2. Současný stav Současný stav je charakterizován počátečním stupněm výzkumu a vývoje virtuálního badatelského prostředí pro práci s historickými fondy. Byly vytvořeny základní předpoklady jeho budování, avšak je třeba ještě několika dalších postupných kroků k tomu, aby bylo dotvořeno jednak v komplexitě svých funkcí uspokojujících uživatelské potřeby jak při přípravě dat, tak při koncovém využívání, jednak v naplnění obsahem nad kritickou míru umožňujícím poskytnout vskutku relevantní informaci. 1.2.1. Otevřený katalog historických fondů Otevřený katalog historických fondů v podobě databáze evidenčních záznamů Stránka 14
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
na jedné a prezentační databáze na druhé straně je srdcem celého virtuálního badatelského prostředí pro práci s historickými fondy, tedy i systému Manuscriptorium, který je jeho základem. Nyní je v něm bezmála 30 000 katalogových záznamů, které nejsou z hlediska informační hloubky homogenní, nýbrž výrazně heterogenní. Heterogenita záznamů vyplývá nejen z toho, že byly shromážděny z různých prvotních zdrojů, ale také z toho, že jde o velice rozmanitý materiál a že představy o využití jeho jednotlivých typů se více méně liší. Otevřený katalog historických fondů tedy není tradičním souborným katalogem vyžadujícím homogenitu záznamů jak po formální, tak po obsahové stránce, není však ani pouhým sdruženým katalogem následujícím ve formě a obsahu záznamů informační a prezentační politiku institucí, v nichž záznamy původně vznikly. Je v zásadě katalogem centralizovaným, třebaže to není nezbytně nutné, protože i distribuovaný otevřený katalog historických fondů by mohl mít svoje opodstatnění. Centralizované zpracování a udržování je však z pragmatického a organizačního hlediska méně náročné, a tedy výhodnější. Rozlišení mezi databází evidenčních záznamů a prezentační databází je dáno dvěma důvody. První z nich je nutnost archivace kvalifikovaně a obtížně pořízených dat, tzn. potřeba z čistě praktických důvodů oddělit datový archiv od veřejně přístupné databáze. Druhý vyplývá ze způsobu práce s informací vlastní virtuálnímu prostředí, z nějž vyplývá, že data a informace nelze ztotožňovat nebo vzájemně zaměňovat. Je tudíž nutno připravit možnost, že data nebudou prezentována pouze jako surová data v základní fragmentaci, ale že v různých prezentacích budou ještě dále speciálně fragmentována podle příslušných, tzn. různých účelů. V databázi evidenčních záznamů pak budou základní data, tj. data v surové podobě, zatímco v možné neurčité množině prezentačních databází nad databází evidenčních záznamů budou ještě podrobena dalšímu stupni přípravy ze specifického hlediska. V nynější chvíli a v nejbližších letech to sice není reálné, avšak v delší perspektivě je třeba s takovouto možností zcela jistě počítat. Na otevřeném katalogu se podílejí nejenom instituce z Česka, ale také ze Slovenska, Polska a Chorvatska. Je tedy v zásadě pojat jako integrovaný katalog středoevropský. V současnosti probíhají jednání o připojení s partnery z Litvy, dalším partnerem z Polska, jakož i z Rakouska a Německa a nově bylo zahájeno jednání i s partnerem z Maďarska a Slovinska. I v případě takto širokého okruhu spolupracujících institucí se jeví jako výhodnější centralizovaná podoba otevřeného katalogu historických fondů, poněvadž to usnadňuje navázání katalogových Stránka 15
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
záznamů na související digitální dokumenty, a to bez ohledu na to, zda související digitální dokumenty budou na jednotlivé záznamy vázány pevnými hyperlinky, anebo hyperlinky generovanými na základě jednoznačné identifikace digitálního objektu. 1.2.2. Digitální knihovna obrazových kopií Digitální knihovna obrazových kopií je prvním z dalších horizontů, k němuž odkazují záznamy otevřeného katalogu historických fondů. Digitální obrazové kopie jsou snímány v tzv. excelentní kvalitě, z níž jsou generovány kvality nižší, tj. normální, nízká, náhledová, jakož i černo-bílá optimalizace pro usnadnění čtení obtížných míst či pro snazší postižení kompozice jednotlivých obrazů knižní malby. Obrazy excelentní kvality slouží archivním účelům, obrazy ostatních stupňů kvality slouží účelům prezentačním. Zásadně jsou digitalizovány jen celé, tj. úplné dokumenty, tedy celé soustavné sekvence obrazů, nikoli jen jednotlivé obrazy, tj. tzv. markanty. Metoda snímání markantů dovoluje sice vzhledem k nižším nákladům zpřístupnit digitální obrazové kopie většího počtu dokumentů, její zásadní nevýhodou však je apriorně standardizovaný výběr podle vnějších znaků toho kterého originálního historického dokumentu, což výrazně omezuje možnosti heuristiky a vede k notorizaci historického poznání. Postup metodou markantů tak snad může být vhodný pro tradiční fondový katalog, kde dovoluje jednak používat metody short title (poněvadž celý titulní list je na digitální obrazové kopii), jednak jakýmsi způsobem ilustrovat jednotlivé katalogové záznamy, rozhodně však není únosný pro budování virtuálního badatelského prostředí pro práci s historickými fondy, poněvadž základním požadavkem kladeným na toto prostředí je rozšíření a nikoli zúžení možností heuristiky. V současné době je zpřístupněno více než 1 400 v úplnosti digitalizovaných dokumentů, což představuje asi 850 000 jednotlivých stran. Podařilo se tak již nyní vybudovat největší digitální knihovnu zpřístupňující starší historické dokumenty na světě. Přece však tato knihovna ještě není virtuálním prostředím a přes svou velikost představuje jen zlomek českého a tím spíše středoevropského kulturního dědictví. Jejím základem je český národní program Memoriae mundi series Bohemica, k němuž se připojil i slovenský partner, takže i v této úrovni byla nastoupena cesta ke koordinaci a integraci ve středoevropském rozsahu. To je Stránka 16
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
zvýrazněno tím, že probíhají jednání s jedním rakouským a jedním německým partnerem, třebaže tam alespoň částečně půjde nikoli o pojetí centralizované, nýbrž distribuované. 1.2.3. Elektronická knihovna plných textů Budování elektronické knihovny plných textů, tzn. pragmatických textových edic originálních historických dokumentů bylo v obecných rysech koncipováno, zatím však nebylo v plné míře prakticky zahájeno. Na základě TEI byla vytvořena definice typu dokumentu mss-fulltext a přistoupilo se k vytváření plných textů pro testování. Jelikož jde o práci odborně a časově velmi náročnou a jelikož uživatelská prezentace jejích výsledků vyžaduje sofistikovanější systém, než je Manuscriptorium ve své první verzi, je budování elektronické knihovny plných textů nutno vidět jako úkol spíše střednědobý, jehož výsledky budou zřetelné až v pozdější fázi řešení výzkumného záměru. 1.2.4. Další související digitální dokumenty Výzkumný záměr předpokládá i připojení dalších souvisejících digitálních dokumentů, jako jsou např. dokumenty zvukové, tj. hudební interpretace originálních dokumentů, jejichž kopie byly zpřístupněny v digitální knihovně obrazových kopií, resp. virtuálním badatelském prostředí pro práci s historickými fondy, nebo další textové dokumenty, tj. sekundární dokumenty týkající se tak či onak originálních, primárních dokumentů, jež byly zpřístupněny tamtéž. Digitalizace zvukových dokumentů již byla úspěšně testována. Sekundární textové dokumenty budou zapojeny do řešení až v pozdější etapě. 1.3. Vstupní data Základním principem virtuálního badatelského prostředí pro práci s historickými fondy je to, aby do něho vstupující data byla důsledně standardizována, jakkoli prvotní zdroje dat mohou být v tomto ohledu heterogenní. To předpokládá jednak důraz na dodržování datového standardu v případě dat vytvářených přímo pro virtuální badatelské prostředí pro práci s historickými fondy, jednak konverzi či transformaci dat původně vytvořených pro jiné zdroje. Datovým standardem pro záznamy otevřeného katalogu historických fondů je MASTER, pro vytváření komplexních digitálních dokumentů MASTER+ Stránka 17
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
(msnkaip.dtd) a pro plné texty originálních historických dokumentů mss-fulltext na bázi TEI. 1.4. Problémy Vytváření virtuálního badatelského prostředí pro práci s historickými fondy však přináší problémy, které jsou v zásadě dvojího druhu. Jednak je to problém autorských práv vztahujících se ke všem druhům plnotextových dokumentů, ale zejména k dokumentům zvukovým. V nynější právní situaci to znamená, že v podstatě není možno přebírat, byť s náležitou úpravou dokumenty z tradičního tištěného prostředí nebo z prostředí zvukových fyzických nosičů ať už analogových, nebo digitálních. To prakticky znamená budovat toto prostředí v podstatě na zelené louce, z čehož plyne, že jeho zaplňování skutečně relevantním obsahem bude záležitostí dlouhodobou. Jednak je to problém nestejné vývojové úrovně partnerů podílejících se tak či onak na budování virtuálního badatelského prostředí pro práci s historickými fondy, z nichž řada, ba možná většina je ještě příliš pevně zakořeněna v tradičním tištěném prostředí a jeho paradigmatickém světě. To se projevuje jak v popisných katalogových záznamech, které vycházejí z tradiční verze pomocných věd historických, tak ve výběru dokumentů k digitalizaci, jež sleduje především linii notoricky známých dokumentů, které stěží mohou znamenat významný přínos heuristice. S tím souvisí i knihovnický prakticismus vycházející takřka výhradně jen z uživatelských požadavků na reprodukční služby té které paměťové instituce, tedy myšlení v dimenzích institucí kamenných a nikoli virtuálních.
A.II. KRAMERIUS 1.1 Výchozí stav V letech 1997 až 1999 byl v NK ČR v rámci projektu VaV Digitalizace mikromédií vybudován systém pro hromadnou tvorbu, archivaci a zpřístupňování digitálních dokumentů. Jádrem systému je robotická magnetopásková knihovna, diskový subsystém, souborový systém SAM FS a aplikace AIP Safe. Systém slouží pro reformátování knihovních dokumentů ohrožených degradací kyselého papíru, zejména bohemikálních periodik. Protože bylo třeba zabezpečit trvalou náhradu ohrožených dokumentů ve zpřístupnitelné podobě byla zvolena hybridní Stránka 18
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
technologie reformátování vyzkoušená na univerzitě v Yale. Snímkováním ohroženého dokumentu se zhotovuje archivní negativ, který zabezpečuje dlouhodobé uložení (životnost archivního mikrofilmu se při zachování předepsaných skladovacích podmínek odhaduje na 500 let), kopírováním se vytvoří matriční negativ, který slouží ke zhotovování uživatelských mikrofilmových kopií, nebo ke konverzi do digitálního formátu skenováním. Pro tvorbu digitálních dokumentů slouží výrobní linka sestávající ze dvou mikrofilmových skenerů, doplněná v r. 2004 hybridní kamerou, a z řady lokálních pracovních stanic využívaných k úpravám obrazových souborů a k vytváření popisných dat (metadat). Základním obrazovým formátem pro archivaci i zpřístupňování byl zvolen formát JPEG v jediné úrovni kvality. Metadata jsou vytvářena složitým pracovním postupem náročným na čas, využívajícím papírový formulář a programové nástroje MICTAB, DOBM Generátor a aplikaci AIP Safe. Obrazové soubory jsou ukládány do file systému SAM FS a na pásky robotické jednotky, metadata do databáze (ORACLE) na diskovém subsystému. Metadata jsou vytvářena ve formátu DOBM založeném na standardu SGML. Archivace obrazových souborů byla řešena pomocí souborového systému SAM FS, který zabezpečuje kompletní recyklaci dokumentů automatickou kontrolou expiračních lhůt médií (AIT 2, později vyměněných za AIT 3), dekompresí, dopočítáním dat, kompresí a záznamem na čerstvé médium. Pro případ vadných médií a jejich poruch jsou dokumenty v identické podobě zaznamenávány celkem na tři média, z nichž dvě jsou uložena v robotické jednotce, třetí v trezoru v jiné místnosti. Systém garantuje dochování dat jak v případě poruch médií a čtecích mechanik, tak i v případě kompletního zničení celého zařízení. Systém je odolný i vůči opotřebení nebo zastarání médií. Archivace metadat je řešena méně spolehlivým způsobem, pouze zálohováním databáze. V případě souběhu havárie příslušné části systému a narušení databáze současně s poruchou zálohování hrozilo reálné nebezpečí ztráty dat. Proto byla metadata archivována ještě ve formátu DOBM a TXT pomocí CDR médií se systematickým měřením redundance dat. V letech 2000 a 2001 proběhla optimalizace systému, byl přizpůsoben proces mikrofilmování požadavkům na následné skenování a systém byl doplněn o vyhledávací nástroj a technologii OCR. Stránka 19
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
1.2 Systém Kramerius Vytvořený systém trpěl některými problémy popsanými dále. Největší riziko představovala nízká úroveň bezpečnosti, která umožnila průnik hackera do jádra systému. Dalším problémem byly časové prodlevy při zpřístupňování obrazových souborů jak na lokální síti tak i na internetu. Formát DOBM pro periodika zastaral a bylo třeba provést migraci metadat do nového formátu (XML). Vývoj systému urychlila i ničivá povodeň v r. 2002, při které bylo zaplaveno mnoho knihoven a vodou poškozeno velké množství dokumentů, z nichž značné procento představovala starší bohemikální periodika. Bylo rozhodnuto část periodik nahradit reformátováním a bylo třeba řešit zvýšení kapacit hybridní technologie a řešit otázku zpřístupňování digitalizovaných dokumentů prostřednictvím lokální sítě v různých postižených institucích. Z těchto důvodů bylo rozhodnuto v r. 2003 vytvořit speciální aplikaci pro zpřístupňování digitalizovaných dokumentů. Systém Kramerius je programová aplikace umožňující jednoduché operace jako import, export, spojování, nahrazování, mazání apod. s komplexními dokumenty nebo pouze s obrazovými soubory či metadaty a replikace hotových komplexních dokumentů nebo jejich částí na jiné instance Krameria. Na četné žádosti knihoven byl vytvořen současně modul pro tvorbu a validaci metadat ve struktuře XML umožňující vytvářet i upravovat nebo doplňovat metadata (Corel XMetaL). Pro potřebu NK ČR byla vytvořen další externí modul pro řízenou konverzi umožňující konverze metadat z formátu DOBM do XML a obrazových souborů z formátu JPEG do DjVu. Vytvořené programové nástroje se mohou volně šířit (licence GNU GPL) s výjimkou nástroje Corel XMetaL.
1.3 Migrace digitalizovaných dokumentů Obrazové soubory ve formátu JPEG vytvářené skenováním mikrofilmovaných periodik byly poměrně rozsáhlé jednak vzhledem k velkému formátu původního dokumentu a velikosti písma a také proto, že bylo nutno tyto dokumenty s ohledem na pokročilý stupeň degradace papíru skenovat v šedé škále. Porovnáním kompresních vlastností různých obrazových formátů se ukázalo, že je Stránka 20
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
výhodnější využít formát DjVu, který při zachování kvality a čitelnosti dosahuje daleko lepších kompresních poměrů a tím i značně menší velikosti výsledných souborů. V r. 2003 byly realizovány rozsáhlé konverze obrazových souborů (cca 800 000 souborů) z formátu JPEG do formátu DjVu dodavatelsky a další konverze na vlastním pracovišti. Spolu s obrazovými soubory bylo třeba řešit formát metadat. Stávající formát DOBM založený na standardu SGML již zastaral a bylo třeba provést některé změny v popisné struktuře a přizpůsobit se praxi v evropském projektu DIEPER. Po provedené analýze zpracoval A. Knoll návrhy nové popisné struktury (DTD Dokument Type Definition) pro periodické dokumenty a monografie využívající XML a v r. 2004 další DTD pro muzejní objekty. O tyto typy dokumentů byly rozšířeny jak Systém Kramerius, tak i externí modul pro tvorbu metadat
1.4 Systém Sírius Pokročilá degradace papíru reformátovaných dokumentů limitovala do značné míry možnosti digitalizace. Pro nízký kontrast způsobený zabarvením papíru a nekvalitní tisk bylo nutno využívat pouze zobrazení v šedé škále, které zaručovalo zachování maximálního množství informací. Výsledkem však jsou velké obrazové soubory, které je obtížné dále zpracovávat jednak pro nároky na vybavení pracovních stanic a šířku pásma sítě, ale také pro absenci algoritmů ve standardních programových nástrojích (např. Photoshopu) pro dávkové zpracování obrazových souborů v barvě a šedé škále. Dalším problémem, který limitoval proces digitalizace byl náročný způsob tvorby metadat, který vyžadoval individuální kontrolu každé strany dokumentu a vytvoření popisných údajů pro všechny úrovně často rozsáhlých a složitě strukturovaných periodických dokumentů. Popisné údaje byly nejprve vytvářeny pomocí papírového formuláře, po té přepsány do pracovního listu počítače a vytvořeny textové soubory, které pak byly konvertovány do formátu DOBM, propojeny odkazy s obrazovými soubory pro každou stranu dokumentu a importovány do systému AIP Safe. Velké problémy představovalo spojování ročníků periodických dokumentů do rozsáhlých řetězců prostřednictvím systému AIP Safe.
Stránka 21
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
Řešení uvedených problémů bylo spojeno s úpravami a dalším vývojem programového systému PhotoImage vyškovské firmy Elsyst Engineering a jeho pozdější databázové verze Sírius. Tento systém byl již přizpůsoben pro nový formát metadat založený na XML a příslušných definicích typů dokumentů (DTD) pro periodika a monografie. Systém využívá zónové rozpoznávání pro poloautomatickou tvorbu metadat, čímž umožnil zjednodušit a zrychlit proces tvorby popisných údajů a struktury dokumentu. Všechny operace, které je třeba provádět s obrazovými soubory, byly v systému integrovány tak, aby nedocházelo ke zbytečným časovým prodlévám a znehodnocování kvality obrazových souborů jejich několikanásobným ukládáním. Technologie OCR (FineReader) byla přizpůsobena archaickým fontům používaným v digitalizovaných dokumentech.
1.5 Hybridní snímkování Hybridní technologie reformátování založená na skenování mikrofilmů má některé limity, které omezovaly její využití pro periodika velkých formátů s ohledem na nízkou dosahovanou rozlišovací schopnost (pod 200 dpi) a nemožnost barevného podání. Z těchto důvodů byla hybridní technologie rozšířena pořízením hybridní kamery umožňující mikrofilmování i skenování při jedné manipulaci s předlohou. Hybridní snímkování umožňuje dosažení vyššího rozlišení (až 400 dpi) a kvalitního barevného podání. Nevýhodou hybridní kamery je skutečnost, že dokument během skenování musí co nejvíce přiléhat k přítlačnému sklu, jinak dochází k posunu pixelů a jemné deformaci detailů kresby nebo písma. Z těchto důvodů není vhodné využívat hybridní kameru pro skenování např. pergamenových rukopisů (pro které však slouží jiné pracoviště NK ČR).
1.6 Spolupráce institucí Hybridní technologie ochranného reformátování se využívá pro záchranu dokumentů ohrožených degradací papíru a to nejen pro knihovní sbírky Národní knihovny ČR, ale také dalších knihoven. Od r. 2001 mohou různé instituce využívat program Veřejné informační služby knihoven (VISK), jehož podprogram VISK 7 je určen na podporu projektů reformátování ohrožených bohemikálních periodik. Hybridní technologie je využívána i pro náhradu titulů poškozených vodou během povodně v r. 2002. V rámci národního programu Kramerius Stránka 22
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
zabezpečuje Národní knihovna ČR centrální archivaci zdrojových dokumentů vývoj standardů a koordinaci výběru titulů. V budoucnosti bude třeba řešit společné financování technické podpory některých programových nástrojů, zejména Systému Kramerius. V tomto směru již úzce spolupracuje Národní knihovna ČR s Knihovnou Akademie věd ČR, která využívá vyvinuté programové nástroje jak na vlastním pracovišti digitalizace, tak i v pobočkách, kde se digitalizované dokumenty zpřístupňují. Limitem hlubší spolupráce a využívání sofistikovanějších programových nástrojů je Autorský zákon. Spolupráce NK ČR a firem při vývoji knot-how v oblasti hybridního reformátování vyústila v přizpůsobení některých komerčních programových systémů potřebám knihoven, které nyní slouží pro dodavatelské reformátování. Tím se v ČR vytvořila značná kapacita, kterou mohou využívat knihovny a další instituce pro záchranu svých ohrožených dokumentů.
1.7 Institucionální vývoj v r. 2004 V r. 2004 bylo zajištěno rozšíření externího modulu pro tvorbu metadat Corel XMetaL o muzejní objekty. V rámci Systému Kramerius mohou být uživatelům zpřístupňovány digitalizované muzejní objekty spolu s knižními dokumenty. NK ČR se z institucionálních prostředků podílí spolu s Knihovnou Akademie věd ČR i na implementaci protokolu OAI PMH do Systému Kramerius, což usnadní komunikaci s ostatními systémy.
Stránka 23
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
B. Analytická část B.I. MEMORIA Vlastní řešení výzkumného záměru a jeho přínos, jakož i posun znalostí spočívá na jasné konceptualizaci rozdílu mezi tradičním tištěným a síťovým elektronickým, tj. virtuálním informačním, komunikačním a znalostním prostředím, přičemž tomuto rozdílu se přiznává paradigmatický význam. V druhém plánu pak spočívá v důsledném důrazu na flexibilně pojatou standardizaci, tzn. zdůrazňuje její heterogenní, nikoli homogenní složku. Konečně ve třetím plánu se klade důraz na strukturální a procesuální diferenciaci virtuálního badatelského prostředí pro práci s historickými fondy, což v podstatě znamená dodržovat na různých úrovních stále zřejmý rozdíl týmové práce, jež se věnuje vytváření dat v masovém měřítku, a individuální práce, která se na dílčím úseku soustřeďuje na kompetenčně náročné vysoce sofistikované úkoly. Při týmové práci tak je důraz na snadnou zaměnitelnost pracovníků, zatímco při individuální práci je třeba vycházet z konkrétních kompetencí toho kterého pracovníka, přičemž je nutno počítat s tím, že zaměnitelnost v tomto případě bude mnohem obtížnější, resp. vůbec nemožná.
2.1. Vlastní řešení Vlastní řešení výzkumného záměru se odvíjí od základní ideje koordinace činnosti jednotlivých institucí podílejících se na vytváření virtuálního badatelského prostředí pro práci s historickými fondy a integrace jednotlivých zdrojů vzniklých z činnosti těchto institucí. S tím souvisí soustavná organizační činnost ve vztahu jak k obsahovým partnerům, tak k technickému provozovateli systému potažmo virtuálního prostředí. Tato koncepční a výzkumná činnost je potom doprovázena činností vývojovou, zejména pokud jde o vývoj systému, nástrojů pro přípravu a editaci dat, jakož i nástrojů pro konverzi a transformaci dat a také pokud jde o implementaci komunikačních protokolů. 2.1.1. Koordinace, integrace, organizace
Stránka 24
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
Ačkoli koordinace a integrace jsou spíše činnostmi politickými a diplomatickými než výzkumnými ve striktním smyslu, jsou první podmínkou toho, aby o virtuálním prostředí vůbec bylo možno vážně uvažovat. NK ČR se jakožto koordinátorovi národního programu Memoriae mundi series Bohemica již v průběhu předchozích let podařilo soustředit kolem sebe různé české partnery, s nimiž pokračuje i v řešení tohoto výzkumného záměru. Vzhledem k tomu, že český národní program digitalizace historických dokumentů je jedním z nejúspěšnějších v mezinárodním a nadnárodním měřítku, podařilo se v průběhu prvního roku řešení výzkumného záměru navázat kontakty s řadou partnerů ve středoevropských zemích (Slovensko, Polsko, Německo, Rakousko, Litva, Chorvatsko, Maďarsko, Slovinsko, Srbsko), a to jak v přímé souvislosti s tímto výzkumným záměrem, tak zprostředkovaně v souvislosti s dalšími mezinárodními, resp. evropskými projekty, jejichž je NK ČR partnerem. Hlavní snahou řešitele výzkumného záměru je spojovat svoje jednotlivé aktivity do celku vyššího řádu a multiplikovat tak jejich efekt. To se ve srovnání s obdobnými aktivitami v globálním měřítku podařilo v nebývale širokém rozsahu. Vlastního výzkumu se bezprostředně dotýká integrace dat získaných na základě koordinační a integrační činnosti NK ČR. Postup integrace dat je v trojím směru: za prvé centralizovaně (metadata i data v rámci systému Manuscriptorium), za druhé distribuovaně (metadata v rámci systému Manuscriptorium, data v rámci vzdáleného zdroje, přičemž se využívá jednoznačné identifikace digitálního objektu), za třetí za využití komunikačních protokolů (metadata i data v rámci vzdáleného zdroje, v systému Manuscriptorium reprezentován pouze výsledek vyhledávání). První směr integrace dat je beze zbytku splněn a je připraven k rutinnímu využívání. Druhý směr je ve stadiu testování a první výsledky jsou uspokojivé. Třetí směr je splněn v případě poskytování metadat ze systému Manuscriptorium vzdálenému integrátoru (pilotní projekt CERL-MSS: v práci se bude pokračovat, aby bylo dosaženo ještě lepších výsledků), v případě získávání metadat ze vzdálených zdrojů pro systém Manuscriptorium se použitelné výsledky předpokládají v průběhu příštího roku řešení výzkumného záměru. 2.1.2. Systém Systém Manuscriptorium ve své první verzi byl vyvinut v roce 2003 AiP Beroun na základě praktických potřeb reprezentace rozsáhlého digitalizovaného materiálu. Splňuje požadavky jak uživatelské vlídnosti, tak rychlosti vyhledávání, Stránka 25
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
umožňuje však jen práci s komplexními digitálními dokumenty nižší úrovně, tzn. s katalogovými záznamy s navázanými digitálními obrazovými kopiemi, avšak nedovoluje práci s komplexními digitálními dokumenty vyšší úrovně, tzn. s přechodnými soubornými dokumenty spočívajícími ve spojení jak katalogových záznamů s navázanými digitálními obrazovými kopiemi, tak s dokumenty, jež mají být obsahem elektronické knihovny plných textů, resp. i dalších horizontů virtuálního badatelského prostředí. V letošním roce řešení výzkumného záměru proto byla provedena analýza uživatelských požadavků jak pro přípravu, tak pro využívání dat a byla konzultována s obsahovými experty stojícími vně řešitelského týmu. V zásadě byl nalezen souhlas řešitelů s konzultanty, zejména v tom, že je nanejvýše zapotřebí zařadit do systému plné texty originálních historických dokumentů. Tato analýza bude využita pro projekt druhé verze systému Manuscriptorium. 2.1.3. Nástroje pro přípravu a editaci dat Ačkoli je běžné dostupná řada editorů umožňujících připravovat data v jazyce XML, a tedy jsou použitelné pro práci se standardem MASTER, který je definicí typu dokumentu právě v jazyce XML, většina z těchto editorů je příliš obtížně ovladatelná pro obsahové experty, kteří se v českém prostředí vyznačují pouze elementární počítačovou a minimální informační gramotností. Schopnost pracovat se standardním XML editorem není tedy běžně rozšířena. Zároveň standardní XML editory nedovolují generovat šablony dokumentů podle standardu MASTER+, poněvadž ten spočívá nikoli pouze na formální struktuře dokumentu samého, nýbrž na korelaci popisného katalogového záznamu s originálním dokumentem, zejména pokud jde o fyzický rozsah (foliace, resp. paginace). Nadto je třeba každý dokument zapsaný v jazyce validovat, aby byl formálně bezchybný. Ve standardních XML editorech je sice implementována utilita validace, pro běžného obsahového experta typického pro české prostředí však je jen obtížně použitelná. Obsahoví experti kromě toho mají z tradičního tištěného prostředí zděděnou tendenci k nadměrnému kumulativnímu detailismu, která sama o sobě je ve virtuálním badatelském prostředí kontraproduktivní, poněvadž v jejím důsledku v podstatě rutinní práce probíhá příliš pomalu, a jež se při použití sofistikovaného jazyka XML mnohdy stává takřka nepřekonatelnou kompetenční překážkou. V průběhu prvního roku řešení byl tedy vytvořen nástroj MEdit umožňující vytváření a editaci dat jak podle standardu MASTER, tak podle širšího standardu Stránka 26
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
MASTER+, aniž je uživatel nucen používat XML markup a aniž je zapotřebí dokumenty validovat, protože mají pevnou a nezměnitelnou strukturu kódování. Vzhledem k tomu, že tento přístup zároveň znamená pevnou strukturu polí, je to sice na jedné straně prohřešek proti flexibilitě jazyka XML, na druhé straně to však má praktický dopad na zrychlení práce obsahového experta, který je oddělen od možnosti detailizovat popis až k neúnosnosti. Vzhledem k tomu, že však jsou i takoví obsahoví experti, kteří jsou schopni pracovat se standardními XML editory (emacs, NoteTabLight, jEdit apod.) a vzhledem k tomu, že tento způsob práce je z hlediska potřeby zásadní obsahové flexibility lepší, byl upgradován pro práci s větším počtem znakových sad již dříve vytvořený nástroj TorXmlValid sloužící k validaci dat podle definice typu dokumentu MASTER. 2.1.4. Nástroje pro konverzi a transformaci dat Důležité je rozpoznat a především přijmout skutečnost, že virtuální badatelské prostředí pro práci s historickými fondy je prostředím heterogenním, tzn. takovým, v němž není možná a ani žádoucí jak formální, tak informační homogenita. Je tudíž třeba počítat s reálnou existencí různých datových standardů, resp. formátů. Z toho plyne, že kromě standardu MASTER, resp. MASTER+, jakož i mss-fulltext na základě TEI je nutno zaručit také schopnost využít i data připravená v dalších obvyklých otevřených formátech, kterými jsou v prostředí knihoven zejména UNIMARC a MARC21. K obdobnému postavení se v prostředí světových archivů sice začíná blížit formát EAD, ten však v českém archivnictví není uplatňován, nadto jsou snahy integrovat jej na vyšším stupni (právě tak jako MASTER) do definice typu dokumentu, resp. metajazyka TEI. V přítomné chvíli je tedy mimo jakoukoli praktickou úvahu, ačkoli v delší perspektivě je i zde nutno počítat s nutnou obousměrnou konverzí také v tomto případě. Byl proto vyvinut nástroj MConvCZ umožňující obousměrnou konverzi mezi formátem MASTER na jedné a formáty UNIMARC a MARC21 na druhé straně. Výhodou tohoto nástroje je to, že je určen zejména pro hromadné převody dat, v důsledku čehož je možno uvažovat nikoli jen o individuálních konverzích jednotlivých záznamů, ale o hromadných převodech dat zaručující možnost masivního budování virtuálního prostředí.
Stránka 27
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
2.1.5. Komunikační protokoly Pro náležité fungování virtuálního badatelského prostředí pro práci s historickými fondy je ovšem třeba zaručit nejenom vzájemnou převoditelnost dat na úrovni jednotlivin, tzn. dokumentů, resp. souborů, ale také na hromadné úrovni celých v elektronickém prostoru fyzicky porůznu rozmístěných zdrojů. To je v podstatné míře paradigmatický požadavek, poněvadž základní jednotkou síťového elektronického prostředí je zdroj, nikoli pouhý dokument. Je tudíž nutno vybudovat takovou infrastrukturu, která spočívá v propojení nejenom povrchového, ale především skrytého webu. Tímto spojením je využití technologie komunikačních protokolů dovolujících připojení k příslušným serverům, na nichž jsou dislokovány ty které zdroje, a přenos na nich uložených dat ve srozumitelné formální informační struktuře na server cílový k přímé reprezentaci nebo druhotnému uložení. Komunikační protokoly tak vytvářejí podpovrchovou síť, která sice není koncovému uživateli zjevná, na niž však závisí fungování virtuálního prostředí, které fakticky požaduje. Proto byly do systému Manuscriptorium implementovány standardní komunikační protokoly Z39.50 a OAI-PMH. V uplynulém roce řešení byly zprovozněny v souvislosti s globálním projektem CERL-MSS ven z Manuscriptoria, implementace dovnitř Manuscriptoria se předpokládá v příštím roce řešení. V souvislosti s tím byla vytvořena i definice typu dokumentu OpenM.dtd, která je pro historické fondy a dokumenty vhodnější než pro moderní fondy a dokumenty určený přenos ve standardu UNIMARC.
2.2. Přínos řešitele Přínos řešitele spočívá v komplexním pojetí problematiky vztahující se k budování virtuálního badatelského prostředí pro práci s historickými fondy. Komplexní přístup se zakládá na strukturování virtuálního prostředí do několika postupných a v zásadě rozmnožitelných a rozšiřitelných horizontů. Tyto horizonty (realizovaný otevřený katalog historických fondů, realizovaná digitální knihovna obrazových kopií, aktuálně testovaná elektronická knihovna plných textů originálních historických dokumentů, aktuálně testovaná integrace externích analytických nástrojů, perspektivně předpokládaná elektronická knihovny sekundárních plných textů) jsou z informačního obsahového hlediska koncipovány Stránka 28
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
jako dynamicky prostupné a za jistých metodických podmínek jako volně kombinovatelé. Z hlediska technického řešení jsou tyto horizonty projektovány modulárně jako integrace jednotlivých dílčích nástrojů na zpracování, resp. vyhledání dat s ohledem na plynulý přechod od dat k informaci a transinformaci. Přínosem je i důsledné pojetí virtuálního badatelského prostředí pro práci s historickými fondy jako integrace interních a externích dat na základě jednoznačné identifikace digitálního objektu, jakož i interních a externích nástrojů důsledně využívajících pro práci s daty otevřených kompatibilních či alespoň konvertibilních standardů. Přínosem je také zásadní jak konceptuální, tak obsahová i technická otevřenost systému dovolující po technické stránce jeho rozšiřování o různé interní i externí nástroje zpracování dat a po obsahové stránce jednak práci s heterogenním originálním materiálem, jednak divergentní prohlubování informační úrovně v jediném konceptuálním a technickém rámci.
2.3. Posun znalostí Posun znalostí spočívá především ve výrazném oddělení formy od obsahu. Po stránce technické to znamená důsledné oddělení softwarových nástrojů od jimi zpracovávaných dat, což dodnes nebývá zcela běžné. To ve svém důsledku znamená nejen možnost použití různých nástrojů pro tytéž účely, ale také k záruce, že s různými nástroji bude dosaženo týchž výsledků. Důraz na analytické rozpracování workflow podle jednotlivých postupných kroků směřujících k žádanému výsledku pak znamená i možnost využití dílčích výsledků i činností původně určených k dosažení výsledků jiných, tj. svým účelem jinak zaměřených. Posun znalostí je v technicko-organizačním ohledu také v tom, že žádoucích výsledků je možno dosáhnout za použití různých nástrojů, že tedy není nutný a tím méně možný jen jeden jediný tzv. správný postup, ale že pro dosažení předepsaného, tj. objektivního, resp. neutrálního výsledku se lze řídit subjektivními kritérii výběru. Totéž po obsahové stránce znamená striktní oddělení postupu, resp. metody od předmětu, resp. vnějškově formálně strukturovaného obsahu. Ve svém důsledku z toho plyne, že týž výsledek může mít nejenom různou vnější výrazovou a stylovou formu, ale také různou formu své vnitřní strukturace, skrze niž jsou nazírány vnější a vnitřní znaky originálního historického materiálu. Zásadní posun znalostí je obsahově expertní: spočívá v poznání, že jednotlivé postupy informačního zpracování obsahu ve virtuálním badatelském prostředí pro práci s historickými fondy nejsou kumulativní, tj. svým výčtem a pořadím použití dané, Stránka 29
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
nýbrž kombinační, tj. zakládají se na volném výběru ze svého neurčitého, tzn. v podstatě nekonečného rejstříku a libovolně seřaditelné vzhledem k časové následnosti svého použití. B.II. KRAMERIUS 2.1 Problémy prvotního řešení Vytvoření jednotného systému pro tvorbu, archivaci a zpřístupňování digitálních dokumentů bylo limitováno jednak stavem rozvoje této oblasti na konci 90. let a omezenými finančními prostředky. Systém trpěl některými problémy. 2.1.1 Technické problémy Systém bylo třeba pořídit po částech podle jednotlivých komponent a zajistit jejich integraci. Vzhledem ke složitosti systému to bylo velmi náročné. Komplikace způsobila i nekompatibilita některých zařízení, která byla v rozporu s deklarací dodavatelské firmy. Složitost systému měla za následek sníženou odolnost vůči poruchám, zejména v počátku provozu. I malé výpadky periferního zařízení způsobovaly odstávku celého systému. Technické problémy se podařilo dořešit na přelomu roku 2000/2001. Systém byl také vybaven pro výpadky proudu zařízením UPS napojeným na náhradní zdroj energie. 2.1.2 Bezpečnost systému V počátku nebylo možné systém dostatečně zabezpečit proti útoku z vnějšku. Důsledkem bylo proniknutí hackera do jádra systému. I když průnik nezpůsobil žádné škody, bylo nutno kompletně reinstalovat veškeré programové součásti systému a realizovat nutná bezpečnostní opatření. Systém byl rozdělen na dvě části, na demilitarizovanou a chráněnou zónu, která byla zabezpečena filtrací přístupů nastavenou na směrovači v Centrálním depozitáři v Hostivaři. 2.1.3 Časová náročnost Zpřístupňování obrazových souborů z robotické páskové jednotky, nazývané near-line bylo časově náročné, s ohledem na prováděné operace (vyhledání a založení kazety, přetočení na příslušné místo a kopírování dat na diskové pole). Stránka 30
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
Časové prodlevy snižovaly uživatelskou přívětivost systému. Další značné časové prodlevy systému byly v oblasti exportů a importů obrazových dat i metadat mezi klientskými stanicemi systému AIP Safe a databází, což limitovalo proces tvorby dokumentů. 2.1.4 Spojování metadat Velkým problémem při tvorbě metadat byl složitý způsob spojování části bohatě strukturovaných dokumentů do větších řetězců, který často nutil k nestandardnímu řešení odporujícímu knihovnickým zvyklostem. Problém byl dán charakterem vytvořených tabulek relační databáze.
2.1.5 Absence nástrojů pro úpravy obrazových souborů Systém AIP Safe neposkytoval žádné nástroje pro úpravy obrazových dat. Všechny operace musely být prováděny v externích programech což zvyšovalo nároky na přenosy dat mezi pracovními stanicemi a zhoršování kvality obrazových souborů několikanásobným ukládáním. 2.1.6 Kontrola konsistence dat Systém nedisponuje mechanismech pro kontrolu konsistence dat, proto není možné zjistit zda obrazové soubory nebo metadata byla během uložení pozměněna. I ostatní možnosti kontroly uložených dat v systému byly limitovány. 2.1.7 Nároky na správu systému Velké nároky na správu systému vyplývaly z heterogenního řešení na úrovni platformy. V systému byly použity kromě Windows také Linux a Solaris. Náročná byla i správa hardwarových prostředků, protože chod systému zabezpečovalo šest serverů a řada pracovních stanic. 2.2 Problémy vyplývající z dlouhodobého uchovávání digitálních dat
Stránka 31
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
2.2.1 Standardizace metadat Důležitým předpokladem pro dlouhodobé uchování digitalizovaných dokumentů a objektů je kromě nezávislosti na SW a HW standardizace popisných údajů (metadat). Pro periodika byl vytvořen formát DOBM založený na SGML vycházející ze zkušeností při digitalizaci rukopisů a starých tisků. Velký význam pro hromadné zpracování dat má dodržování specifikace definující způsob popisu příslušných typů dokumentů, ale i formalizace způsobu zápisu popisných údajů. Drobné odchylky ve specifikaci pro popis rukopisů, ke kterým docházelo při digitalizaci v průběhu několika let, znemožnily import velké části digitalizovaných rukopisů do systému AIP Safe. Bylo třeba hledat jiné řešení, které vyústilo v migraci popisných údajů do formátu založeném na XML a vytvoření systému pro rukopisy (Memoria). Toto řešení se ukázalo jako velmi životaschopné a perspektivní. Standard DOBM pro periodika postupně zastaral a bylo třeba řešit přechod na nový, založený na XML, které se již začalo velmi využívat v oblasti popisu digitálních objektů a to nejen v případě knihoven, ale také DMS systémů a průmyslových aplikací. Dále bylo třeba koordinovat popis užívaný v ČR s praxí v evropském projektu DIEPER, aby se usnadnila integrace obou iniciativ v budoucnosti. Pro popis jednotlivých typů dokumentů jsou postupně vytvářeny závazné definice (Dokument Type Definition – DTD) a zveřejňovány na URL http://digit.nkp.cz. Používání vyhlášených standardů je podmínkou pro získání finanční podpory pro projekty digitalizace v rámci programu VISK. Požadavek na dlouhodobé uchovávání digitálních dokumentů bude i do budoucnosti vyvolávat nároky na migrace metadat a obrazových souborů. Změna standardu popisných údajů může vést k rozšíření popisných elementů, ke změně struktury dokumentu, ke změnám způsobu popisu v rámci některých elementů apod. Vzhledem k tomu, že se většinou nepodaří provést automatickou migraci korektně a komplexně, je nutné následně provádět náročnou editaci a doplňování jednotlivých údajů individuálně. To je samozřejmě možné pouze při omezeném počtu digitalizovaných titulů. Čelit těmto dopadům migrace lze jedině další formalizací zápisu v rámci některých popisných elementů a provedením hlubší analýzy, která by jednak poukázala na možné komplikace a umožnila navrhnout takový postup migrace, který by následnou individuální editaci metadat eliminoval.
Stránka 32
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
2.2.2 Podpora obrazových formátů Prudký vývoj, který se odehrává na poli výpočetní techniky se týká současně i vývoje nových obrazových formátů nebo vylepšených verzí již existujících, které zajišťují vyšší kvalitu zobrazení a mnohem účinnější kompresní poměry. Konverze dokumentů do digitální podoby organizovaná jako národní program musí akceptovat výsledky tohoto vývoje ale s ohledem na charakter informací a zejména způsob jejich využívání. Vzhledem k tomu, že tato činnost slouží zejména akademické obci a musí garantovat co nejširší možnost využití a to bez barier různých poplatků, bude volba doporučených formátů směřovat většinou k produktům, které jsou volně k dispozici a charakteru této činnosti vyhovují. Druhým požadavkem je nezávislost digitálních dokumentů na technickém i programovém vybavení, což u formátů vázaných na komerční licencované prohlížeče není vždy možné naplnit. Konverze obrazových souborů je velmi náročná na režijní výkon výpočetní techniky a současně je i rizikovým okamžikem při kterém může docházet k poškození souborů i zhoršení jejich kvality. Vývoj archivačního systému v následujících letech by měl řešit i tuto problematiku a to zejména automatickou kontrolou konzistence dat a kvality obrazových souborů. Volbě formátu používaného v rámci národního programu Kramerius jako standard musí být přizpůsobeny nástroje pro zpřístupňování digitálních dokumentů a ty musí být ostatním účastnickým institucím dostupné (pokud možno zdarma). Proto je výhodné vývoj programových nástrojů pro zpřístupňování řešit pomocí licence GNU GPL. Totéž samozřejmě platí i pro standardy používané pro metadata. Z hlediska kontroly plynulého přechodu na nové standardy se jeví jako nevyhnutelné, aby NK ČR i do budoucnosti zajišťovala archivaci všech dokumentů digitalizovaných v rámci národního programu a prováděla hromadné a co nejvíce automatizované migrace všech uchovávaných dat i pro ostatní instituce, které by pak mohly získat kopie dokumentů v nových standardech replikací.
2.3. Zpřístupňování digitalizovaných dokumentů Dosavadní zpřístupňování digitalizovaných dokumentů využívalo zejména internet a fyzická média CD-R. Nový Autorský zákon a ochranné lhůty z něj Stránka 33
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
vyplývající znemožnily využít internet pro zpřístupňování většiny digitalizovaných dokumentů. Se zhoršením kvality CD-R médií a prosazováním DVD médií, která sice obsáhnou větší objem dat, ale jsou ještě více náchylná na poškození, vzrostl význam lokálních sítí a prostředků které je využívají. Systém Kramerius byl vyvíjen zejména pro potřeby knihoven postižených záplavami v r. 2002, jejichž některé části sbírek je třeba nahradit v digitální podobě a zpřístupnit je v daných institucích pomocí lokální sítě. Současně řeší problém systémového rozdělení archivace a zpřístupňování v rámci digitální knihovny NK ČR. Jeho využívání se předpokládá především v institucích, které se nezabývají digitalizací, ale využívají dodavatelská pracoviště digitalizace pro reformátování vlastních ohrožených dokumentů. Systém Kramerius se stává součástí širší infrastruktury v jejímž rámci se zajišťuje tvorba, archivace a zpřístupňování digitalizovaných dokumentů, a kterou mohou využívat všechny instituce. Dalším vývojem Systému a integrací dalších typů digitálních objektů se mohou zlepšit jeho funkční vlastnosti a tím rozšířit možnosti využívání. Systém Kramerius tak aspiruje na významnou součást uživatelského prostředí pro odborné a vědecké pracovníky. Na rozdíl od paměťových institucí, které se specializují podle své odbornosti na dané typy dokumentů (muzejní předměty, knihovní dokumenty, archiválie) a necítí potřebu integrovaného zpřístupnění dokumentů a objektů různých druhů je situace vědeckých ústavů a vysokých škol odlišná. Tyto instituce jistě budou moci ještě lépe využít vyvíjených vlastností Systému Kramerius.
2.4. Dlouhodobá archivace digitálních dokumentů Využívání digitálních dokumentů v rámci širšího uživatelského prostředí předpokládá jejich dlouhodobou dostupnost. Co jednou bylo zpřístupněno v rámci národního programu digitalizace v prostředí internetu, by mělo zůstat trvale součástí virtuálního badatelského prostředí. Je to úkol, v současné době stále ještě dost obtížně řešitelný s ohledem na četná rizika elektronického prostředí i provozu konkrétního zařízení. Pravděpodobně bude i v nejbližších 5 až 10 letech třeba využívat mikrofilm pro zabezpečení dlouhodobé dostupnosti ve zpřístupnitelné podobě, zejména u dokumentů bezprostředně ohrožených degradací papíru. Jedná se o velký objem dokumentů jejichž odhady se pohybují okolo 500 tis. svazků z období 2. pol. 19. a 1. pol. 20. stol. Problémy jsou však i se současnými novinami, jejichž papír je ještě více náchylný na změny, než novinový papír z uvedeného období. Zdá se, že hybridní technologie reformátování jsou Stránka 34
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
perspektivním řešením i do střednědobé budoucnosti a že bude třeba uvažovat o jejich rozšíření o technologii záznamu digitálních dat na mikrofilm, která by umožnila celkem spolehlivě archivovat dokumenty prvotně vytvářené v digitální podobě (digital born). K rizikovým faktorům však nepatří pouze technické prostředky a jejich případné selhání, prudký vývoj oblasti způsobující rychlé zastarávání zařízení i standardů, ale také nároky na kvalifikaci odborníků a na financování všech aktivit včetně dalšího vývoje a technické podpory používaných systémů. Pokud by tato činnost byla i nadále organizována jako národní program, jehož výsledků využívá široké spektrum institucí, bylo by možné zabezpečit rozsáhlou rutinní digitalizaci prostřednictvím dodavatelských firem, šetřit velké finanční prostředky snížením nákladů na koordinovanou archivaci a zpřístupňování a současně by bylo možné uvažovat i o systémových řešení ležících mimo oblast IT technologií. Řada problémů by byla mnohem snáze řešitelná pomocí legislativních změn zejména autorského zákona, příp. zákonů týkajících se povinných výtisků.
Stránka 35
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
C. Návrhová část C.I. MEMORIA 3.1. Výsledky řešení Vzhledem k tomu, že výzkumný záměr budování virtuálního badatelského prostředí pro práci s historickými fondy je teprve na počátku svého řešení, jsou jeho výsledky nutně pouze dílčí. Byly vytvořeny základní předpoklady pro rozvoj v několika různých směrech, což je jeho základním cílem. Z tohoto hlediska jsou výsledky dobré a lze v nich pokračovat i v dlouhodobé perspektivě. Kvalitu výsledků dosažených při řešení výzkumného záměru dokazuje i mezinárodní srovnání. NK ČR se aktuálně účastní rozvojových projektů Evropské komise ECH:TOPICC (program Eureka!) a COMTOOCI (program Culture 2000) a v obou případech patří k partnerům nejaktivnějším a nejkompetentnějším, zejména s ohledem na svůj nízký podíl na rozpočtových prostředcích určených pro ten který projekt. Právě tak se NK ČR v tomto roce prosadila jako jeden ze čtyř řešitelů globálního pilotního projektu CERL-MSS a její působení v rámci tohoto projektu bylo hodnoceno jako dobré, takže i nadále se bude podílet na řešení otázek souvisejících s virtuálním badatelským prostředím pro práci s historickými fondy ve světovém měřítku. Výsledky řešení mají tedy už v této počáteční fázi výrazně komplexní charakter, takže umožňují intenzivní zapojení NK ČR do různých aktivit v národním, evropském i světovém měřítku. V souvislosti s řešením výzkumného záměru se NK ČR již v prvním roce podařilo získat dominantní postavení ve středoevropském rámci, což je vyjádřeno její rolí integrátora nejenom českého, ale také středoevropského písemného kulturního dědictví. 3.2. Závěr První rok řešení výzkumného záměru budování virtuálního badatelského prostředí pro práci s historickými fondy úspěšně splnil plánované úkoly jak pokud jde o tvorbu technických a implementaci infrastrukturních nástrojů, tak pokud se týče tvorby nezbytných standardů. Pokud jde o integrační roli NK ČR, byl předpoklad ve středoevropském rámci výrazně překročen a v rámci mezinárodním Stránka 36
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
a nadnárodním bylo právě tak dosaženo lepších výsledků, než byl původní cíl. Tím jsou vytvořeny záruky pro to, aby výzkumný záměr byl i nadále financován v plné výši. 3.3. Návrhy opatření Návrhem opatření tedy je nadále pokračovat podle původního plánu, protože jak národní, tak mezinárodní a nadnárodní srovnání dokládá, že řešení je na výši nejperspektivnějších současných poznatků a že vzhledem ke své pružné konceptualizaci umožňuje jak další rozvoj, tak pružnou reakci na uživatelské požadavky. Z širšího hlediska se však již v blízké budoucnosti může projevit problém, který může řešení výzkumného záměru znesnadnit. Je jím financování souvisejících aktivit, které se netýkají přímo vytváření infrastruktury virtuálního badatelského prostředí pro práci s historickými fondy a jednotlivých nástrojů tohoto prostředí, nýbrž vztahují se k jeho naplňování obsahem. Finanční prostředky věnované ze státního rozpočtu na digitalizaci totiž jeví mít klesající tendenci, digitalizace však je hlavním a v jistém smyslu jediným prostředkem naplňování virtuálního badatelského prostředí pro práci s historickými fondy reálným obsahem. Přitom je už v blízké budoucnosti nutno předpokládat potřebu masivní tvorby plných textů originálních historických dokumentů, jejíž financování není z prostředků státního rozpočtu zajištěno vůbec. Návrhem opatření tedy je posoudit tyto nezbytné požadavky úspěchu a důsledně řešit také financování těchto navazujících aktivit. C. II. KRAMERIUS Institucionální vývoj v této oblasti se zaměří na doplnění technologie záznamu digitálních dat na mikrofilmy a na další rozvoj zpřístupňování a archivace digitálních dokumentů. Zdokonalování nástrojů pro tvorbu dokumentů a popisných dat již mohou zabezpečovat dodavatelské firmy, jejichž předmětem podnikání je poskytování reformátování jako služby. V oblasti zpřístupňování je třeba doplnit Systém Kramerius o protokol Open Archive Initiative Protocol for Metadata Harvesting (OAI PMH), který umožní vytěžovat data ze systému i uživatelům s odlišným programovým vybavením. Dále je účelné pokračovat v rozšiřování typů dokumentů, které je možné zpřístupňovat Stránka 37
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
prostřednictvím Systému Kramerius, pomocí implementace dalších DTD (muzejní objekty, zvukové dokumenty, archiválie). Konečně bude třeba doplnit Systém o výkonný integrovaný vyhledávací nástroj. Oblast archivace digitálních dat není v současné době uspokojivě vyřešena a bude třeba se jí zabývat podrobněji. Především je třeba definovat potřeby NK v této oblasti a stanovit, které dokumenty bude nutné uchovávat prostřednictvím archivačního systému (digitalizovaná periodika a monografie, rukopisy, povinný výtisk CD-ROM, vlastní elektronické publikace, web archiv atp.) Dále je třeba potvrdit nebo korigovat záměr využívat zařízení NK pro centrální archivaci všech dokumentů vytvářených v rámci Národního programu Kramerius a tím zabezpečovat tuto službu ostatním knihovnám a institucím. Technické vybavení archivačního systému zastarává a i když rozšíření o další expanzní modul a provedený upgrade v r. 2003 zabezpečily dostatečnou kapacitu archivace dat na několik let, do budoucnosti je třeba počítat s obnovou přístrojové základny. Další upgrade v rámci technologie AIT na vyšší verzi již není možný a rozšíření kapacity by vyžadovalo nákup dalších expanzních modulů (max. dvou). Předpokládáme, že stávající zařízení morálně i fyzicky zastará do r. 2008. Systém AIP Safe, který se dosud používal pro všechny funkce digitální knihovny, již není schopen bez dalších investic implementovat dokumenty v nové struktuře XML založené na schválených a používaných DTD. Pro další využívání k archivačním účelům jej nelze doporučit i z dalších důvodů, které byly již částečně popsány výše (absence kontroly konsistence dat, využívání databáze pro archivaci metadat, jejíž vnitřní strukturování není NK k dispozici, atd.). Výhodnějším řešením je uchovávání jednotlivých kompletních XML dokumentů v souborovém systému, nad kterým by byla vytvořena jednoduchá aplikace zajišťující některé funkce potřebné pro vybrané operace s XML dokumenty. Definování vlastností takové aplikace, její vytvoření a zpracování analýzy problematiky dlouhodobé archivace by se mělo stát předmětem řešení v následujících letech. Ve spolupráci s firmami, které se podílely na vývoji nástrojů pro tvorbu digitálních dokumentů, bude užitečné se věnovat možnosti podrobnějšího popisu vnitřních částí periodických dokumentů (obsahy, názvy článků atd.) pomocí nástrojů, které by tuto činnost částečně automatizovaly (zónové rozpoznávání). Stránka 38
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
Přes značnou intenzitu institucionálního vývoje v oblasti ochranného reformátování, jehož výsledkem jsou pokročilé programové nástroje, na jejichž základě byla vybudována poměrně efektivní a sofistikovaná technologie, je rozsah zachráněných dokumentů stále příliš omezený ve srovnání s potřebami danými objemem dokumentů, které jsou bezprostředně ohroženy degradací papíru a dalšími činiteli. Situace je obdobná ve všech větších knihovnách, které spravují bohemikální fondy 19. a 20. stol. V případě některých často využívaných titulů již neexistuje exemplář, který by nebyl rozsáhlým způsobem poškozen. Nejnovější výzkumy např. poukazují na nebezpečí urychlování rozpadu papíru způsobené světlem nebo polutanty v ovzduší. Aby bylo možno dosáhnout zásadního obratu v tomto nepříznivém vývoji, bude třeba investovat do ochranného reformátování značné finanční prostředky a to po několik následujících desetiletí. V opačném případě je velmi vážně ohroženo dochování rozsáhlých částí tištěné bohemikální tvorby příští generaci. Velké komplikace v oblasti reformátování s využitím digitalizace způsobuje autorský zákon zejména retroaktivitou a některými dalšími ustanoveními, která je velmi obtížné interpretovat. Vzhledem k tomu, že neexistují mechanismy, které by umožnily využívat digitalizované dokumenty a prostřednictvím plateb dostát závazkům vůči autorům, nebo dědicům autorských práv, není možné řešit zpřístupnění digitalizovaných dokumentů ani pomocí soukromých podnikatelských aktivit, tak jak je to běžné v ostatních zemích. Bez zásadní novelizace autorského zákona, která by vyváženým způsobem garantovala práva všech stran a uvedla v soulad náš právní stav s praxí v Evropské unii, bude záchrana dokumentů ohrožených degradací kyselého papíru nemožná.
Stránka 39
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů
Zpráva o řešení za r. 2004
C. III. Základní dosažené výsledky – shrnutí za r. 2004
§
komplexní analýza potřeb a určení dalšího rozvoje systému Manuscriptorium (bude předmětem posouzení a základem diskuse k dalšímu vývoji systému)
§
implementace protokolů Z39.50 do digitální knihovny Memoria (a otestování v portálu evropského programu CERL) a OAI-PMH jak do Memoria, tak i do Krameria (pro digitalizovaná periodika)
§
vývoj a otestování formátu pro strukturaci historického fulltextu na bázi TEI
§
dotvoření formátu (DTD) pro prezentaci digitalizovaných sbírkových předmětů a zadání její implementace do systému Kramerius s využitím dalších finančních prostředků Andrew W. Mellon Foundation a po dohodě s Národním muzeem a odborem muzeí a galerií Ministerstva kultury
§
vytvoření návrhu (Audio.dtd)
§
spolupráce s odborem muzeí a galerií Ministerstva kultury na stanovení podmínek pro vyhlášení programu ISO-B pro digitalizaci sbírkových předmětů
§
vývoj a implementace konvertoru MARC21<=>MASTER do editoru pro přípravu dat programu Memoria
§
implementace nového řešení měření optických médií; excerpce dat přímo ze čtecích zařízení a měření jak fyzických, tak i digitálních vlastností médií
§
implementace obrazového serveru firmy Lizardtech a řešení zpřístupnění objemných datových souborů historických map on-line na bázi formátu MrSID (MultiResolutional Seamless Image Database)
§
digitální knihovna Memoria zahájila spolupráci se zahraničními partnery za účelem zpřístupnění jejich digitalizovaných rukopisů a starých tisků jak formou katalogizačních záznamů (například Univerzitní knihovna Wroclaw, Národní a univerzitní knihovna Záhřeb), tak i včetně obrazových
Stránka 40
formátu
pro
digitalizované zvukové dokumenty
Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Zpráva o řešení za r. 2004
dat (příprava a testování příspěvků z německého projektu CEEC - obrazová data zůstanou na německém serveru - rakouského projektu Monasterium, digitalizovaných dokumentů z Univerzitní knihovny Bratislava, Knihovny Akademie věd ve Vilniusu, Institutu matematiky AV v Bělehradě, Knihovny Technické univerzity v Budapešti a Národní a univerzitní knihovny v Lublani - obé za přispění UNESCO); zájem vyjádřila i Národní knihovna ve Varšavě a další zahraniční instituce
Stránka 41