ROZVOJ DIGITÁLNÍHO ZPŘÍSTUPNĚNÍ VZÁCNÝCH DOKUMENTŮ Adolf Knoll, Národní knihovna ČR Knihovny a další instituce shromažďující kulturní předměty, mající významný informační obsah pro rozvoj poznání, stojí před dvěmi nesnadnými a souvisejícími úkoly: mají tyto předměty chránit a mají je také zpřístupnit co největšímu množství zájemců. Tato dvě poslání stojí zdánlivě proti sobě, z určitého pohledu na věc se dokonce vylučují, ale v podstatě jedno bez druhého nemá smysl. Informace totiž chráníme, abychom je mohli zpřístupnit a zpřístupňovat. Zpřístupnění znamená život a ochranu, neboť to, co je potřebné, přitahuje pozornost a bývá neustále k dispozici. Moderní terminologií můžeme říci, že hojně používané informace spontánně a často migrují: významná sdělení byla odjakživa memorována, zapisována a přepisována, a to se děje dodnes. V podstatě jiné vydání téhož díla je vlastně migrace tohoto díla do jiné podoby, v níž text zůstává identický, zatím co doprovodné informace jsou jiné (předmluva, komentáře, ilustrace, …) a forma je také jiná (jiná vazba, rozměry fyzického dokumentu, jeho rozsah, hmotnost atp.) Mluvíme v těchto souvislostech o dílech dnes takřka zapomenutých, které občas někdo někde objeví a vydá, a tím je z tohoto zapomenutí vytrhne a dá jim větší šanci přežít, a o dílech věčně živých. Když Max Brod odmítl po smrti Franze Kafky spálit jeho rukopisy a naopak je uspořádal a rekonstruoval z nich určité celky a vydal například román Zámek, zachránil jej od zmizení. Zámek pak doznal spousty vydání na celém světě a dnes nikdo nepochybuje o tom, že by mu (jeho textu) hrozilo zmizení. Mohou zmizet jednotlivé knihy nebo i vydání, ale dílo bylo zachráněno. Bylo zachráněno tím, že bylo dáno v oběh, který ukázal jeho kvalitu. A přece tenkrát stačilo tak málo: Max Brod mohl vyhovět přání svého přítele a rukopisy spálit. Dnes bychom řekli mluvou některých mých kolegů, že by je prostě nereformátoval – a 20. století by přišlo o jednoho ze svých největších spisovatelů. V obdobné situaci jsou na tom knihovny a další instituce ve vztahu k určitým kategoriím informací, které uchovávají. V sbírkách Národní knihovny ČR majících tzv. konzervační (archivní) charakter je každý předmět jiný, nikoli však informace. Nejenže tam jsou nezměněná vydání týchž děl, ale také různá vydání týchž textů. Z toho však vyplývá, že knihovny jsou však ochránkyněmi těchto textů, tedy prvotních myšlenek, jen sekundárně. Knihovny jsou spíše muzei knižní kultury určitého regionu a ve své podstatě v oblasti ochrany fondů mají velmi nesnadnou úlohu. Čemu věnovat větší a čemu menší pozornost? Určitě je rozdíl mezi zvýšenou ochranou 1. vydání Babičky Boženy Němcové a některého z běžných vydání 20. století, určitě je rozdílná obava o zachránění poselství /je vyjádřeno v textu/
309
tohoto románu a obava o zmizení jedinečných informací, obdobných rukopisům Franze Kafky před jejich vydáním. A jak poznat hodnotu informací, aby mohla být provedena selekce? Selekce Selekce – toto slovo se neslyší rádo, ale je na místě a je výrazem realistického a pragmatického přístupu k informacím. UNESCO mluví o výběru celkem bez zábran, neboť je zřejmé, že vše od zkázy nezachráníme, a je také zřejmé, že nám většina dnes existujících informací nikdy nebude chybět. V klasickém světě četby selekci provádí nakladatel spolu se čtenářem. Výsledkem je pak migrace textu a jeho duplikace. Jinými slovy nebývalý příspěvek k ochraně a záchraně díla. Ale u mnoha závažných informací k migraci a duplikaci nedochází, neboť je to komerčně nejisté. Rukopisy, vzácné staré tisky, staré noviny, časopisy a další dokumenty – řada z nich ještě obsahuje informace, které čekají na své zhodnocení nebo které jsou neustále tu a tam třeba, když musíme něco důležitého zjistit. Selekce těchto dokumentů a jejich znovuuvedení do oběhu, to je nejvlastnější úkol knihoven jako ochránkyň duševního dědictví. Pokud zmizí ze světa první vydání Babičky Boženy Němcové, bude to velká kulturní škoda, ale trvání myšlenkového odkazu spisovatelky to neohrozí. Zmizí-li však některé ročníky významných novin dokumentujících život společnosti v některém regionu například v 19. století, bude to ztráta daleko tragičtější, protože informace v nich obsažené již v žádné další formě (dalším vydání například) neexistují. Navíc vydáváním určitých děl dochází k jejich intenzivnímu šíření a tím i šíření poznání, zatím co nedostupnost jedinečných rukopisných nebo i tištěných pramenů – nebo jejich velmi omezená dostupnost na místě – omezují poznání, a tím i vlastně nepřímo ohrožují samu existenci těchto pramenů. V oblasti zvukových archivů, archivování elektronických záznamů a archivnictví vůbec je selekce základním předpokladem úspěšného uchování a záchrany relevantních informací 1 . Tato skutečnost vychází z poznání reality, totiž z toho, že je kapacitně – zpracování a uchování – nezvladatelné archivovat vše. Kupříkladu banky nejsou schopny po delší dobu archivovat všechny provedené transakce, zvukové archivy nezvládají kapacitně přepis analogových nahrávek do digitální podoby a zoufale bojují se stabilitou médií, jako jsou magnetická páska nebo optický disk. Přitom se ještě problémy bohatší části světa liší od problémů méně rozvinutých zemí. Bohatší svět nezvládá elektronickou archivaci především záznamů vzniklých digitálně (státní administrativa, kosmický výzkum, geografické informace, …), zatím co méně bohaté země stojí před problémem zaznamenání klasického informačního bohatství od ústně předávaných informací (oral tradition) po celou škálu klasických dokumentů. V České republice bylo do konce roku 2001 digitalizováno na jeden milion stran novin, rukopisů a starých tisků. Při využití stávajících kapacit je možno 1
Fioravanti, Gigliola: Scegliere per conservare la memoria del presente. Referát na mezinárodní konferenci Strategies and Choices for the Preservation of the Collective memory, Dobbiaco (Itálie), 25. – 29. červen 2002 (bude publikováno)
310
mikrofilmovat kolem jednoho milionu stran periodik ročně a digitalizovat asi 400.000 stran. Zvážíme-li, že do třiceti let dojde k postupnému rozpadu kyselého papíru, na němž bylo vytištěno na našem teritoriu na 245 milionů stran informací, které by bylo třeba zachránit před zmizením, vychází nám, že by práce v tomto tempu trvala 245 let a digitalizace asi půl tisíciletí. Pokud jde o relevantní rukopisy a staré a vzácné dokumenty, je třeba zpřístupnit digitálně asi 22,5 milionu stran dokumentů, což by při stávající kapacitě trvalo asi 110 let. Dané časové předpoklady vycházejí z kapacity instalovaných zařízení, očekávaných finančních prostředků do programu VISK nebo obdobných programů na úrovni roku 2001 (2002 byl výrazně finančně poddimenzován). Je zřejmé, že práce může urychlit rozvoj technologií a nákup dalších zařízení a samozřejmě možnost několikanásobně zvýšit zapojení lidských zdrojů. To vše je pak o finančních prostředcích, které bude moci ČR na záchranu a zpřístupnění svého kulturně dědictví věnovat. Proti tomu bude působit faktor času, takže každopádně bude muset docházet k výběru a upřednostňování určitých dokumentů. To bude mít za následek odsouzení některých dokumentů k zániku a některých k zapomnění, a tím možná k déle trvajícímu zániku. Otázka je, kde je možno položit rozumnou hranici. Z filosofického hlediska je to však také o tom umět se podívat na naše kulturní dědictví možná i jinýma očima. Tyto jiné oči by měly zvážit kvalitu informací obsažených v dokumentech 2 . Můžeme tak dojít k překvapivým závěrům, že například řada středověkých rukopisů tím, že - i když ve variantách - v podstatě duplikují již jinde zaznamenané informace, není tak cenná nebo přínosná, jako je leckterý unikátní moderní dokument čtyřicet padesát let starý. Knihovny se pravděpodobně nevyhnou časem obdobnému přemýšlení o selekci, které je tak vlastní archivářům. Neboť ti provádějí selekci, aby uchovali a zpřístupnili to, co je nezbytné. Technologie Jaké jsou kritické stránky technologií spjatých s digitalizací u vědomí řádků napsaných výše? Reprezentace digitalizovaných dokumentů Obvykle se v souvislosti s digitalizací hovoří o aplikovaných datových formátech a popisných metadatech. Obojí je důležité pro dlouhodobou dostupnost toho, co jsme digitalizací vyrobili. Jestliže před řadou let zaznívaly z mnoha stran velmi rigorózní požadavky resp. doporučení, dnes jsou všechny tyto materiály zpracovány ne jako předpisy, ale spíše jako orientační pomůcky, které přispívají k vlastnímu rozhodování zpracovatelů dat. 3 2
Kriteria k tomu existují, vydalo je UNESCO pro účely programu Paměť světa a jsou analogicky aplikovatelné nejen na celý svět, ale na jakékoli teritorium; viz: Memory of the World: General Guidelines to Safeguard Documentary Heritage. Rev. ed. 2002 /prepared for UNESCO by Ray Edmondson. Paris, UNESCO, 2002. 72 pp. (CII-95/WS-11rev) 3 Nezávisle na sobě jsou připravovány krátké pomocné manuály v evropském projektu PULMAN (pro účel veřejných knihoven), v nichž několik se týká digitalizace, a zásadní
311
Tito musí nejprve pečlivě zvážit cíle svých programů a podle toho se orientovat v dosažitelných datových formátech. Obecně je přijímáno, že pro archivaci obrazových digitálních dat jsou vhodné nejrozšířenější ISO formáty s nejrozšířenějšími parametry (TIFF CCITT Fax Gr. 4, TIFF nekomprimovaný; JPEG), kdežto pro zpřístupnění dat jsou možné v rámci zodpovědnosti zpracovatele/zpřístupňovatele i další de facto formáty (PNG, DjVu, LDF, …). Pokud jde o metadata, komplexní digitální dokument má obvykle dvě různé podoby: statickou a předzpracovanou. Statické formy jsou – měly by být – doménou SGML resp. XML, kdežto ty předzpracované jsou závislé na technologiích příslušných zpřístupňovacích mechanismů (digitální knihovna). Obecně platí, že tyto zpřístupňovací aplikace by měly být schopné exportovat data do dohodnutých výměnných formátů a přijímat data v dohodnutých formátech. Platforma bude s nejvyšší pravděpodobností po několik příštích let XML. Znamená to tedy, že je třeba se opírat o stabilní DTD pro jednotlivé typy digitalizovaných dokumentů. Tato DTD se zakládají obvykle na předpisech upravujících popis těchto jednotlivých aspektů/částí digitalizovaných dokumentů: • pravidla tvorby katalogizačního záznamu • pravidla analytického popisu jednotlivých částí dokumentu (například stran a objektů v nich obsažených, jako jsou texty, iluminace, notové záznamy, články, …) • technický popis digitálních dat (obrazů) Pro možnost otevřeně komunikovat je třeba, aby tyto části odrážely obecně přijímaný nebo dohodnutý úzus, resp. pravidla popisu. To je v širším prostředí věc velmi nesnadná, nejlépe však zvládnutelná na úrovni katalogizačního popisu. Ale i tam jsou velké problémy, viz například probíhající diskuse o popisu rukopisů v ČR. Zároveň je tvorba popisných dat velmi časově náročná, tzn., že nebude snahou opatřovat digitální dokument v rutinním provozu podobnými popisy, ale spíše popisy na elementární úrovni. Z tohoto pohledu je využitelnost přijímaných popisných standardů jen na úrovni uvádění povinných prvků. Zároveň nejde jen o to dohodnout se například pouze v ČR, ale dosáhnout dohod na širší mezinárodní úrovni. Zde je dobrým příkladem standard MASTER pro popis rukopisů. To, že jej přijímáme jako komponentu výstavby struktury digitálního rukopisu, znamená, že alespoň na úrovni základního jádra popisu můžeme být kompatibilní s obdobně založenými programy. Zároveň pro to však musíme názvy popisných termínů uvádět nejen česky, ale i anglicky – nejlépe pak mít pomateriál objednaný UNESCO u IFLA a ICA s pracovním názvem Guidelines for Digitization Projects for Collections and Holdings in the Public Domain, particularly Those Held by Libraries and Archives. Materiál byl projednán na červnovém zasedání Subkomise pro Technologii programu UNESCO Paměť světa a po vyžádaných doplňcích a vyřízení připomínek bude vydán jako publikace UNESCO. Pro oblast archivů je vhodným výchozím materiálům pro první seznámení s problematikou například: Conversion and Document Formats: Backfile Conversion and Format Issues for Information Stored in Digital Archives. AIIM Industry White Paper on Records, Documents and Enterprise Content Management for the Public Sector. Hamburg, Project Consult, 2002. 60 pp. (ISBN 3-936534-02-0)
312
pisy dva: jeden v českém a jeden v anglickém jazyce katalogizace, což je u většiny digitalizovaných rukopisů (bohužel, ne ve všech institucích) běžné. Souběžně s tím musí být digitalizované dokumenty provázány s běžnými informačními systémy knihoven a zajištěna cesta od katalogizačního záznamu k vizuální reprezentaci dokumentu. Vzácné digitalizované dokumenty v ČR jsou především rukopisy a noviny a další periodika. Program Memoriae Mundi Series Bohemica vytvořil tlak na založení souborného elektronického katalogu rukopisů, jehož záznamy budou tvořeny ve formátu MASTER (řízeném příslušným DTD), nad kterým bude pracovat produkt AiP Beroun s.r.o. Tornádo. Odsud pravděpodobně povede cesta k dalšímu zpřístupnění digitálních kopií. Zpřístupnění novin, digitalizovaných v programu Kramerius, bude pravděpodobně navázáno na OPAC Národní knihovny ČR. Zde však prozatím schází obdoba DTD MASTER, jímž mohla být struktura výměnného formátu novin, jejíž základy byly navrženy v evropském programu DIEPER. Program DIEPER nevyprodukoval použitelné DTD, ale existuje velká vůle pokračovat (viz poslední Expression of Interest podaný do 6. rámcového programu EU řadou významných evropských institucí včetně Národní knihovny ČR). Kvalitní propojení jednotlivých programů a iniciativ bude ještě nějakou dobu trvat. Souběžně se standardizací však budou působit stále sofistikovanější systémy vyhledávání a prezentace informací, takže oba směry se někde uprostřed setkají. Ochrana a zpřístupnění digitalizovaných dokumentů Digitalizací vznikají svébytné dokumenty – a i když slouží převážně jen pro zpřístupnění klasických originálů, je třeba je chránit, aby ony pak co nejlépe a nejdéle chránily právě originály, ze kterých vznikly. Vzhledem k tomu, že se digitalizace nestala přímým prostředkem záchrany originálů – tou je zvýšená péče o sám originál nebo mikrofilm – není v této oblasti takový tlak na stabilitu médií jako v oblasti zvuku, který je vždy zaznamenán – ať analogově nebo digitálně – na moderním nosiči a jehož záchrana tkví jednoznačně v digitalizaci. Obdobný vývoj pak lze předpokládat i v oblasti pohyblivého obrazu. Jde nám zde především o ochranu a zpřístupnění digitálních náhrad. A právě oblast audia a videa pravděpodobně najde a už nalézá svou obdobu i v oblasti digitalizace obrazu. Pro archivování digitálních zvukových nahrávek především byly vyvinuty robotické systémy hromadného uložení dat (mass storage facilities), které jsou využitelné i v našich programech. V Národní knihovně ČR již takový systém funguje a je základem digitální knihovny. Na druhé straně obecně v oblasti audia a videa jsou velmi známé snahy o účinnou kompresi, o zmenšení zvukových a video souborů, aby mohly být snadno přenášeny a skladovány. Formáty MP3 pro zvuk nebo MPEG4 pro video, video kompresor (codec) DivX a další dokazují zázraky. Na jedno klasické CD se vejde ve velmi dobré nebo přijatelné kvalitě spousta klasických audio CD, ale při troše snahy i celovečerní film – při nejhorším se rozdělí pro zvýšení kvality na 2 CD. V oblasti zpřístupnění digitálního obrazu to je nejinak. Jen si stačí uvědomit, jakým pokrokem je dnes už klasický formát JPEG, výsledky práce iniciativ 313
JPEG (směrem ke JPEG 2000) a JBIG (směrem ke JBIG 2) 4 , nemluvě už o přístupech typu DjVu ke smíšenému obsahu naskenovaných dokumentů. Systém ochrany se bude velmi pravděpodobně skládat z velmi stabilního archivu, ve kterém budou/jsou buď originály nebo jejich náhrady v jiných formátech. Vzhledem k digitálním kopiím to v podstatě bude věrohodný referenční archiv 5 . Závěr Digitalizace je závislá na objemu finančních prostředků, které lze do příslušných programů a související infrastruktury vložit. To vše výrazně ovlivňuje množství vyprodukovaných dat, spolehlivost jejich uložení a komfort jejich zpřístupnění. Knihovnám a dalším institucím tímto vznikají nové úkoly, které nejsou s to řešit v rámci stávajících rozpočtů a pracovních kapacit. Nejsou je s to řešit samy, musí spolupracovat s řadou dalších subjektů, především pak z oblasti malých a středních podniků/firem. A to je směr, který je obdobným způsobem nastartován v celé vyspělé Evropě v rámci rámcových programů výzkumu a vývoje. Úroveň dosažená v ČR díky existujícím národním programům Memoriae Mundi Series Bohemica a Kramerius je velmi slušná, ale je třeba do této oblasti v současné době výrazně investovat, aby to, co již bylo vyprodukováno, mohlo být také odpovídajícím způsobem zhodnoceno nejen uvnitř ČR, ale také v mezinárodní spolupráci, která přinese výrazné obohacení informačního prostředí pro výuku, vědu a celoživotní vzdělávání.
4
JBIG a JPEG jsou mezinárodní expertní pracovní skupiny, jejichž cílem je vyvíjet a zdokonalovat kompresní techniky statického obrazu. JBIG to činí v oblasti černobílého digitálního obrazu (1-bitového) a JPEG v oblasti obrazu barevného; cílem je vždy nový ISO standard. V oblasti pohyblivého obrazu pak je obdobou těchto pracovních skupina MPEG. 5 strategie referenčního archivování běžných administrativních dokumentů na mikromédiích je aplikovatelná i u nás; je popsána v: Availability & Preservation: Longterm Availability & Preservation of Digital Information. AIIM Industry White Paper on Records, Documents and Enterprise Content Management for the Public Sector. Hamburg, Project Consult, 2002. 28 pp. (ISBN 3-936534-05-5)
314