VISK 4 Digitální knihovna a archiv pro informační služby knihoven Adolf Knoll, Národní knihovna ČR 1. Historie vzniku digitální knihovny Národní knihovna ČR počala produkovat digitální dokumenty na základě vzácných a ohrožených knihovních fondů relativně velmi brzy, a to i v evropském měřítku. Program Memoriae Mundi Series Bohemica od r. 1996 do konce r. 2000 vyrobil asi 200.000 obrazových stran převážně rukopisů a program Kramerius za rok svého rutinního provozu přibližně totožné množství stran periodik. Poměrně dlouhou dobu nebylo zřejmé, zda bude ze strany odborníků dostatečně velký zájem o přístup k digitálním kopiím rukopisů po Internetu, protože jde přece jen o řadu velmi speciálních tematik. Nicméně po zkušebním zpřístupnění asi 15 titulů rukopisů se postupně tento zájem objevil a zesílil ještě více po digitalizaci většího množství titulů, které začaly vytvářet jádra určitých virtuálních tematických sbírek.. U novin a časopisů bylo zřejmé hned od počátku, že o ně zájem na Internetu bude, takže již programový projekt výzkumu a vývoje Digitalizace mikromédií položil spolu s dotací Open Society Fund technologický základ Digitální knihovny v Hostivaři. Lze říci, že v průběhu roku 2000 došlo k integraci nezbytného hardware a v r. 2001 začalo postupné oživování a optimalizace systému Digitální knihovny. To s sebou přineslo nebývalé nároky na odbornou práci a hlavně na další financování, na které by Národní knihovna ČR sama nestačila. Zároveň stoupl i objem přenášených dat po Internetu. 2. Základy digitální knihovny Digitální knihovna je budována v Národní knihovně České republiky jako mechanismus archivace a zpřístupňování výsledků těch podprogramů VISK, jejichž cílem je vytvářet data. K jejímu budování došlo především v důsledku potřeby vytvořit silné zázemí pro dva digitalizační programy: Memoriae Mundi Series Bohemica (nyní VISK6) a Kramerius (nyní VISK7); nicméně jako součást technologické základny Národní knihovny České republiky bude sloužit perspektivně pro archivaci dalších dat včetně bibliografických, případně těch pořízených jako ochranné digitální kopie povinných výtisků, a to i v oblasti
282
zvukových dokumentů. Z pohledu celého programu VISK je pak digitální knihovna jeho archivním, a v případě digitálních dokumentů i zpřístupňovacím, zázemím. Z výše uvedeného vyplývá, že slouží potřebám účastníků podprogramů VISK. Už dnes zasáhly výše uvedené digitalizační programy řadu knihoven, archivů a muzeí. Množství digitalizovaných stran vzácných dokumentů v programu Memoriae Mundi Series Bohemica se koncem roku 2001 přiblíží asi 300.000 stran, zatím co v rámci Krameria bude k dispozici v digitální podobě asi 400.000 stran převážně novin. Hlavním metadatovým archivačním formátem je DOBM SGML 7 , t.č. je testován přechod do prostředí XML a k tomu směřuje i přizpůsobení souvisejících nástrojů pro tvorbu a zpřístupnění digitálních dokumentů po síti a v odůvodněných případech i lokálně. Je možné uvést i optimalizaci grafického plug-in pro manipulaci obrazových dat v prostředí webovských prohlížečů (zabudování komprese LZW, vícestránkový TIFF, vyplňování jednobitových dokumentů šedí). Mimo to probíhají práce na testování OCR starých novin (projekt VaV Optimalizace hybridní technologie reformátování ohrožených knihovních fondů), práce na archivaci CD a zabezpečení vazeb se souvisejícími zahraničními programy. Digitální knihovna je tak integrální součástí komplexního systému výroby, zpřístupnění a archivace digitálních dokumentů na bázi reformátování převážně ohrožených originálů. Tímto svým posláním se hlásí i k zásadám programu UNESCO Paměť světa. Z pohledu instalace zásadních technologií digitální knihovny byla v roce 2000 zprovozněna robotická knihovna a vyřešena její komunikace s diskovým polem. Zde se vyskytla řada problémů hardwarové kompatibility, kdy i přes deklarace výrobců spolu některé dílčí komponenty – především karty a jejich ovladače – nekomunikovaly nebo jejich komunikace byla nedostatečně spolehlivá. V prosinci 2000 bylo přistoupeno k instalaci systému AIP SAFE, jehož prostřednictvím komunikuje digitální knihovna s uživateli. Zároveň byla v jiném programu zpracována právní studie, týkající se celého spektra dokumentů, které chceme zpřístupňovat, z pohledu nového autorského zákona. Zkušební provoz digitální knihovny je zahajován v těchto dnech. 3. Rok 2001 V roce 2001 je třeba zajistit propojení do Sítě národního výzkumu a vzdělávání na dosažené úrovni, technologicky zabezpečit provoz digitální knihovny a rozšířit její kapacitu a funkce.
7
Digitization of Rare Library Materials: Storage and Access to Data / Project Management by Adolf Knoll and Stanislav Psohlavec. Authors: Adolf Knoll, Stanislav Psohlavec, Jan Mottl, Jan Vomlel, Tomáš Mayer, … Prague, National Library – Albertina icome Praha, 1999. 1 CD-ROM; viz též: http://digit.nkp.cz/rare99/enter.htm
283
3.1 Propojení do Sítě národního výzkumu a vzdělávání na dosažené úrovni V současné době lze zpřístupnění rozhodujících digitálních zdrojů z NK, budovaných prostřednictvím jednotlivých podprogramů VISK, prostřednictvím Sítě národního výzkumu a vzdělávání TEN-155 vyjádřit schematicky takto:
V obou budovách NK jsou instalovány výkonné servery a rozsáhlá disková pole; v Centrálním depozitáři Hostivař navíc robotická magnetopásková knihovna o kapacitě cca. 2,3 TB. Kromě tvorby dat a obsluhy zařízení je třeba platit poplatky za připojení, a to za pronájem optického vlákna firmě PRAGONET a za přístup do TEN-155 firmě CESNET. Vývoj cen za připojení do Sítě národního výzkumu prostřednictvím CESNET je zřejmý z připojeného grafu: 2500000 2000000 1500000 1000000 500000 0 Rok Cena
1
2
3
4
1999
2000
2001
2002
648 000,00 1 233 000,00 1 428 000,00 2 117 000,00
Rok 2000 znamenal zvýšení rychlosti připojení z 10 Mbit/s na 155 Mbit/s a zároveň zrušení omezení objemu přenesených dat. Krátce poté došlo (od poloviny roku 2000) ke změně financování účasti v Síti národního výzkumu a připojené instituce se musely zavázat, že od r. 2002 se budou podílet na provozu Sítě asi 1% veškerých svých ročních nákladů (včetně prostředků získaných z různých grantových programů). Pro Národní knihovnu ČR to bude znamenat další velmi podstatný nárůst poplatků. Spolu s očekávaným a nedávno ohláše-
284
ným zvýšením poplatků za služby PRAGONET pro připojení Klementina bude celková suma určitě vyšší, než je ta ukázaná v grafu. Dosavadní rychlost připojení je zatím optimální, nicméně zajímavé bude ji vyhodnotit na základě rutinního chodu digitální knihovny. Poplatek plánovaný na rok 2002 umožní teoreticky Národní knihovně ČR zvýšit rychlost připojení, ale to už by v cenách roku 2000 znamenalo na naší straně rozsáhlé investice v hodnotě cca. 110000 USD. 3.2 Zabezpečení provozu digitální knihovny V Centrálním depozitáři v Hostivaři jsou instalovány hardwarové a softwarové prostředky v hodnotě blížící se 15 milionům Kč. Jde o realizaci významných programových projektů výzkumu a vývoje, výzkumného záměru, zabývajícího se problematikou digitální knihovny, a v neposlední řadě také podpory Open Society Fund. Instalovaný soubor zařízení a software je třeba udržovat, což se děje především placením technické podpory příslušných systémů a jejich servisu, update instalovaného software a dalších služeb souvisejících se správou a rozšiřováním systému AIP SAFE, který integruje jednotlivé komponenty digitální knihovny a jehož prostřednictvím s ní komunikuje uživatel.
3.3 Uživatelský komfort Digitální knihovny Digitální knihovna je odkázána z webových stránek Národní knihovny ČR, zatím pouze z oddílu o projektech a programech, neboť je testována. Ke konci července v ní je již nahráno na 500 jednotek digitalizovaných dokumentů, tj. ročníků novin nebo titulů rukopisů. Po dořešení migrace ze starší verze metadatové struktury bude doplněno několik set rukopisů, ke konci roku jich lze očekávat na 700 i více. Je třeba však říci, že ne všem uživatelům bude toto množství přístupné, neboť je regulováno stupněm přístupových práv, které zohledňuje výčet titulů i kvalitu zobrazení, případně participaci na doplnění popisných metadat. Je třeba si totiž 285
uvědomit v této souvislosti i otázky autorského zákona, neboť u některých titulů dosud hrají roli autorská práva, zatím co u rukopisů dochází často k prvnímu vydání díla – byť tímto způsobem – a tudíž k němu vznikají autorská práva. Každopádně první dvě úrovně jsou velmi volné, jen pro tu vyšší z nich se musí uživatel zdarma zaregistrovat. Během roku 2001 probíhalo rozsáhlé testování dialogu s Digitální knihovnou. Na jeho základě byla stávající interface –a tím i způsob dialogu – zásadně přepracována. Přitom byla řešena řada dalších technických otázek, neboť je třeba si uvědomit, že tvar digitálního dokumentu v systému AIP SAFE je generován z archivních statických SGML struktur. V návaznosti na prověření nové interface dojde ke zpracování i její anglické verze. Zde se kvalita přístupu k různým digitálním produktům bude lišit. Nejlépe na tom budou rukopisy z fondu Národní knihovny ČR a od roku 2001 i rukopisy ostatních majitelů, neboť k nim existují dva paralelní popisy: český a anglický (tj. angličtina jako katalogizační/popisný jazyk). V ostatních případech až na výjimky bude anglická pouze interface vč. návěští popisných prvků. Uživatelský komfort je však zvyšován i jinými způsoby. Jde o tři samostatné moduly, které vytvářejí značnou přidanou hodnotu k již existujícím datům a metadatům: 3.3.1 DjVu server DjVu server je velice zajímavá technologie, neboť jsme jednou z mála institucí, která v oblasti digitálních knihoven věnuje velkou pozornost datům, a ne pouze metadatům podle poslední módy. Zjistili jsme totiž, že vhodnou znalostí a uplatněním kompresních algoritmů a nových technologií v této oblasti můžeme nebývale usnadnit komunikaci. DjVu je složený obrazový formát, jenž dokáže komprimovat obrazová data do několikanásobně menších souborů, než to dokáží stávající algoritmy, ať již jde o jednobitovou kompresi CCITT Fax Group 4 v TIFF nebo DCT v JPEG pro barevný obraz, vč. 256 odstínů šedi. Prakticky není třeba pro přečtení jedné strany velkoformátových novin stahovat 1,6 – 2,6 MB JPEG, ale postačí 100-200 KB DjVu. 8 K dispozici je vhodný plug-in pro manipulaci s obrazem, který pracuje v obou hlavních prohlížečích. Konverze do DjVu se děje v reálném čase na požádání uživatele a je velmi rychlá. Zatím o obdobném řešení nevíme, ale víme, že tvůrci DjVu měli i toto na mysli. 8
Viz Knoll, Adolf – Polišenský, Jiří: Document delivery from digital archives. Invited paper of the ELAG 2001 25th Library Systems Seminar on Integrating Heterogeneous Resources, held in Prague, 6 – 8 June 2001 viz též: Knoll, Adolf: New image formats and approaches for document delivery and their comparison with traditional methods. In: Informace na dlani 2001 (English paper at INFORUM 2001, held on 29 – 31 May 2001 in Prague). Praha, Albertina icome Praha, 2001.
286
3.3.2 MrSID server MrSID server není ještě implementován, stane se tak pravděpodobně příští rok. MrSID technologie umožní zpřístupňovat prostřednictvím digitální knihovny velmi objemné obrazové soubory, i několik set MB nekomprimovaně. Předností této technologie je ta skutečnost, že obraz existuje v jednom souboru v několika rozlišeních. Používáno je vždy je jedno z nich a navíc je po síti posílána jen požadovaná část dat, kterou si definoval uživatel ve výřezu z většího celku. Tato technologie umožní zpřístupnění digitalizovaných map a dalších velkých souborů, ve kterých je zároveň kladen velký akcent na dobré zpřístupnění detailů. 3.3.3 RetrievalWare Řada novin a časopisů má velmi zajímavý obsah a bylo by užitečné umožnit uživatelům, aby se v něm lépe orientovali. Toho má být alespoň částečně dosaženo OCR pořizováním dalších textových metadat a vyhledáváním v nich. Tato metadata budou budou uživateli skrytá, protože nebudou dokonalá, což ostatně na základě starých předloh není ani bez značného ručního úsilí ani možné. Slovo metadata vyjadřuje právě tu skutečnost, že půjde o zlepšení přístupu k obrazům příslušných stran. Slovo data na tomto místě by znamenalo, že uživatel bude mít k dispozici plné texty. 4. Závěr Digitální knihovna je velmi složitý mechanismus, ke kterému se přiřazuje řada projektů, které mají charakter výzkumu a vývoje a které přispívají k jejímu rozvoji. Digitální knihovna je dovršením našich snah na poli digitálního zpřístupnění dokumentů, je integrovanou součástí celého spektra aktivit. Je založena pro všechny dokumenty na totožných principech; před a za digitální knihovnou je mnoho programových nástrojů a know-how, jež je třeba neustále udržovat v harmonii mezi sebou a zároveň s tímto zastřešujícím celkem. Naše Digitální knihovna se liší pozitivně od jiných tím, že zahrnuje virtuální zpřístupnění fondů různého druhu a pocházejících ze stále většího počtu institucí, chrání jejich data, zabezpečuje jejich standardní zpracování a připravuje se na komunikaci s dalšími programy. Zároveň začíná značně přispívat k národní standardizaci práce se složitými digitálními dokumenty, ať již jde o jejich tvorbu nebo zpřístupnění. To otvírá velice efektivní cestu k zasazení našich dokumentů do širších prostředí, až budou tato na odpovídající úrovni. Pro správce Digitální knihovny to znamená neustálý kontakt se světovým děním jak v oblasti moderních technologií, tak i v oblasti spolupráce různých typů institucí na zpřístupnění a ochraně kulturního dědictví.
287