Příloha č. 2
Analýza problematiky dlouhodobé archivace a zpřístupnění CD ROM v podmínkách NK ČR Pracovní dokument 7.11.2006 - NKČR
Pavel Kocourek, září-říjen 2006
1
Obsah Obsah ..........................................................................................................................11 Úvod .........................................................................................................................11 Postup zpracování průzkumu médií.................................................................................12 Závěry průzkumu ........................................................................................................12 První fáze ................................................................................................................12 Průzkum signatur ZC ..............................................................................................12 Průzkum signatur GD ..............................................................................................14 Objem data a předpokládaný nárůst ..........................................................................14 Formáty dat ..........................................................................................................15 Operační systémy...................................................................................................15 Druhá fáze...............................................................................................................15 Vytváření obrazů médií............................................................................................15 Ověření zpřístupnění ISO souboru .............................................................................16 Zpracovaná data ....................................................................................................16 Problematika zpřístupnění z datového úložiště ..................................................................16 Virtualizace prostředí .................................................................................................17 Aplikace pro zpřístupnění obrazů uživatelům..................................................................17 DAM Digital Asset Management ...................................................................................17 Data z pohledu uživatele...............................................................................................17 Souhrn - Doporučení....................................................................................................18 Doporučení dalšího postupu .....................................................................................18 Přílohy.......................................................................................................................19 Použité zdroje.............................................................................................................19
Úvod Národní knihovna v rámci povinného výtisku (zákon č. 37/1995 Sb. o neperiodických publikacích) dostává každoročně více než tisíc dokumentů v elektronické formě na nosičích CD ROM a DVD a v malém počtu na disketách a to jak jako součást nebo přílohy tištěných publikací, tak jako jednotlivá média. Povinnost uchovávávat a zajišťovat rovný přístup ke všem knihovním a informačním službám daná knihovním zákonem 257/2001 Sb. vymezuje nakládání s těmito médii. …. doplňuje, zpracovává, ochraňuje, zpřístupňuje a uchovává univerzální knihovní fond dokumentů vydaných v České republice ….
Úplné zveřejnění obsahu na Internet a jeho zpřístupnění všem potenciálním uživatelům by bylo v rozporu s autorským zákonem (zákon č. 121/2000 Sb.). Proto mohou být média přístupná pouze v rámci studoven a pracovišť knihovny. V období červenec až září tohoto roku proběhl v Národní knihovně ČR v Klementinu a následně v depozitáři Národní knihovny ČR v Hostivaři průzkum fondu CD ROM a DVD médií. Cílem byla příprava podkladů pro analýzu stavu a návrhu možného postupu přenosu obsahu médií na centrální úložiště. Zpracování dat a shrnutí podkladů z průzkumu médií je spolu se nastíněním možných postupů a stanovení závěrů průzkumu předmětem tohoto dokumentu. Doporučení možného postupu je
2
navrženo s ohledem na využití centrálního úložiště na uložení a následné zpřístupnění obsahu médií koncovým uživatelům.
Postup zpracování průzkumu médií Předmětem průzkumu médií bylo ověření čitelnosti médií, zpracování dostupných dat a dalších zjistitelných parametrů. Zkoumaná média jsou uložena ve skladišti Národní knihovny ČR v Klementinu. Jejich současný rozsah čítá přibližně 15 tisíc kusů. Pro průzkum byl zvolen reprezentativní vzorek dat v množství zpracovatelném v určeném čase. Zkoumáno bylo zhruba každé desáté médium. Pro průzkum bylo využito běžného PC s operačním systémem Windows XP. Podstatná pro přenos na datové úložiště jsou zejména starší média, kde se dá výhledově předpokládat problém s čitelností nebo převoditelností dat. Podkladem kromě přístupu k médiím byly také výstupy ze systému Aleph, které obsahovaly přehledy titulů pro signatury GD (audio média) a ZC (datová média). Při průzkumu byly zjišťovány na vzorku médií atributy: • čitelnost média • podporované operační systémy • rozsah zapsaných dat • použité formáty dokumentů uložených na médiích • další (např. Specifické vlastnosti, ochrana proti kopírování)
Detailní průzkum druhého kola zahrnoval užší vzorek – bylo vyzvednuto 300 médií, které byly přesunuty na pracoviště v depozitáři Národní knihovny v Hostivaři. Pro tuto fázi muselo být zprovozněn a nainstalován počítač, na kterém zpracování druhé fáze průzkumu probíhalo. Během druhé fáze byly vytvořeny obrazy vybraných médií a uloženy na disk testovacího počítače. Dále byla testována možnost zpřístupnění média na jiné platformě, než pro kterou je určeno s pomocí virtualizace prostředí. Během období průzkumu probíhaly kontrolní schůzky, které upravovaly plán na základě průběžně zjišťovaných informací, zejména s ohledem na zvládnulnou velikost vzorku médií.
Závěry průzkumu Průzkum médií byl rozdělen do dvou fází. Základní průzkum zpracovával vzorek zvukových i datových médií, probíhal v období tří týdnů na pracovišti Klementinum. Během něj byla vybrána média pro zpracování v druhé fázi průzkumu. Průzkum užšího výběru médií zahrnoval vytváření vzorových obrazů média a ověření možného postupu. Výběr zahrnoval 300 datových médií signatury ZC. Probíhal na pracovišti v depozitáři v Hostivaři. Všechny dále uvedené statistiky vycházejí z údajů získaných z provedeného průzkumu médií.
První fáze
Průzkum signatur ZC Signatura ZC obsahuje datová média. Ta mohou představovat přílohy tištěných dokumentů nebo samostatná média typu encyklopedie, výukový program, slovník, plné texty ročníku časopisu apod.. Pro ověření čitelnosti a zjištění rozsahu dat byl použit program Total Commander. Do evidenčních tabulek byl rozsah obsažených dat zapisován v megabytech. Zkoumáno bylo zhruba každé desáté médium.
3
Průzkum signatury ZC Zkoumaná média | 578 | 9%
Nezkoumaná média | 5711 | 91%
Zkoumaný vzorek představoval necelých 10 % z celkového počtu dokumentů signatury ZC – 6291. Ve vzorku 578 médií byla v mechanice PC, určeného pro zpracování 3 nečitelná. Z těchto tří se jednalo o 1 CD ROM a dvě diskety. Jistý procento nečitelnosti může být u původních médií způsobeno porušením při manipulaci a chybovostí při výrobě nosiče. Při převodu dat na úložiště bude vhodné případná nečitelná média podrobit více pokusům čtení – čitelnost může být závislá na citlivosti dané mechaniky. Čitelnost zkoum aných m édií signatury ZC
Čitelná média | 99%
300
Nečitelná média | 1%
Počty m édií podle rozsahu dat - ZC 260 112
200 100
14
17
9
1 GB
750
65
0 > 2 GB
500
250
<100
Média s daty do velikosti 1 GB představují 93,5 % celkového počtu. Na druhou stranu 54,5 % představují média s nevyužitou kapacitou, jejichž obsah uložených dat nepřesáhl 100 MB (procentuelní výpočty zahrnují i cca 350 disket). Procentuelní zastoupení podle rozsahu dat - ZC > 2 GB | 3%
<100 | 54% 250 MB | 14%
1 GB | 4% 750 MB | 2%
500 MB | 23%
Rozdělení souboru signatury ZC podle typu médií ukazuje, že naprostou většinu médií představuje typ CD ROM. DVD médium se vyskytlo ve 113 kusech, což odpovídá zhruba 2 procentům. Tento výpočet dává jen rámcovou představu o zastoupení typů. Je částečně zkreslen neuvedením typu média u téměř 20 % médií a skutečností, že některé signatury obsahují více kusů nosičů např. disket. Typ m édia ZC DVD | 2%
disketa | 7%
CD | 91%
4
Průzkum signatur GD Signatura GD obsahuje pouze audio – hudební a zvukové nahrávky. Z každé krabice v archivu bylo vybrané médium vyzvednuto, spuštěno v programu Windows MediaPlayer, zjištěna stopáž a do evidenčních tabulek zapsána data. Následně byla média vrácena do archivu. Ověřeno bylo celkem 131 (123+8) médií. Čitelných bylo v signatuře GD 100 % médií. Všechna vybraná média ze signatury GD bylo možné přečíst na PC s operačním systémem Windows XP. Žádné ze zkoumaných médií nemělo softwarovou ochranu, která by se projevila při průzkumu. To lze považovat za náhodné. Zejména u novějších přírůstků audio médií signatury GD lze očekávat častý výskyt ochrany proti kopírování. To může komplikovat i vytváření ISO obrazů. Čitelnost zkoum aných m édií signatury GD
Čitelná média | 100%
Nečitelná média | 0%
Objem data a předpokládaný nárůst Ze zjištěných údajů se dá předpokládat, že průměrný přírůstek signatury ZC bude přibližně 500 médií ročně a 850 médií signatury GD. Průzkum nezahrnuje skutečnost, že na jedné signatuře je umístěn multipack obsahují více médií. Rozsah signatur: GD 3868 – GD 13128 (9260 médií) ZC 003005 – ZC 9567 (6526 médií) Celkový počet ke dni průzkumu 15 786
Nárůst se dá předpokládat v počtu 1200 – 1500 kusů ročně. Pro stanovení počtu signatury ZC byla použita data za období posledních pěti let a u signatury GD procentuelní poměr. Roční nárůst počtu m édií signatury ZC 1000
647
619
614
621
475
496
500 0 2001
2002
2003 2004
2005
Ø
V přírůstku médií je pravděpodobný nárůst počtu formátu DVD, který ale v rámci dostupných dat z průzkumu nelze odhadnout. [objem dat zkoumaných médií / počtem zkoumaných médií * celkový počet médií] [206 592 kB / 575 ks * 15 786 ks] = 5 670 956 MB
Na základě evidovaných údajů lze usuzovat, že objem dat uložených na celkovém počtu médií se bude pohybovat kolem 5,5 – 6 TB. Nárůst objemu dat představuje 430 – 540 GB dat ročně.
5
Formáty dat Podklady z průzkumu neobsahují detailní informace o výskytu formátů na zkoumaných médiích. Tento údaj by ze zkoumaného vzorku nebyl dostatečně vypovídající. Nejčastějším typem jsou spouštěcí a instalační média (auto-run nebo instalace obsahu či aplikace na pevný disk) Datová média obsahují nejčastěji formáty pdf, MS Office : Word, Excel, Powerpoint, a formáty určené pro webový prohlížeč : html, htm. Obrazové formáty zastupuje převážně JPG, GIF. Video formáty AVI,WMV,MPG. / DVD soubory. Zvukové : MP3, WMA. V podstatě se dá konstatovat, že se jedná o průřez nejběžnějších formátů, u kterých autor či vydavatel média předpokládal velkou rozšířenost mezi cílovou skupinou, případně zahrnul aplikaci na médium samotné.
Operační systémy Až na výjimky, které představují instalační média je většina médií čitelná na platformě MS Windows. Tato skutečnost vyplývá z určení média veřejnosti a tedy určení na nejrozšířenější platformu. V průzkumu bylo pouze jediné z CD ROM médií signatury ZC nečitelné na platformě Win XP. Do této skupiny mohou spadat média pro jiný operační systém (např MacOS, Linux) nebo také média chybná a poškozená.
Druhá fáze Do užšího výběru pro detailnější průzkum na pracovišti Hostivař bylo vybráno 300ks médií ze signatury ZC. Výběr byl náhodný s důrazem na starší média – signatury s nižším pořadovým číslem.
Vytváření obrazů médií Každé z médií bylo přečteno a vytvořen ISO obraz. Vytváření obrazů probíhalo z prostředí standardního PC, po jednotlivých médiích, obrazy byly ukládány na pevný disk. Obraz média lze vytvořit řadou jednoduchých aplikací, z nich jedna je freewarový program ISO recorder, který byl používán. ISO obraz představuje obraz disku ve formátu souborového systému ISO 9660 file. Většina operačních systémů ( včetně Linuxu, Mac OS a Windows) dovoluje přimontování obrazů jako fyzických disků. ISO 9660 definuje souborový systém pro CD ROM média. Účelem je podpora různých operačních systémů a výměna dat. Standard může být použit také u DVD médií, kde se ale také běžně vyskytuje UDF. Velikost entity v CD formátu je nazývána frame (rámec) a určuje jí 24 bytů. Data na médiu je organizována v rámcích a sektorech. CD ROM obsahuje 98 rámců po 2352 bytech. Obraz lze vytvořit pomocí řady programů označovaných jako optical disc authoring sw. Patří mezi ně například: CloneCD (CloneDVD), GEAR Pro, Nero, ISO recorder a další Zpracování média trvalo v rozmezí 5-15 minut, v závislosti na velikosti dat na něm uložených. Výjimky s vyšší časovou náročností : • problém s kopírováním dat / možná ochrana • nemožnost vytvořit obraz standardní cestou • DVD médium [počet médií x 10 minut / 60 = strojový čas pro vytvoření obrazů]
6
15786x10/60=2631 hodin
Výsledný čas představuje strojový čas pro vytvoření ISO obrazů. Ten může být samozřejmě krácen paralelním zpracováním a také navýšením výpočetního výkonu.
Například při čtyřech mechanikách, které by měl jeden pracovník obsloužit a 6 hodinách převodu denně bude doba zpracování kolekce zhruba půl roku. Zpracování fondu je tedy i v běžných podmínkách reálné. Data audio médií signatury GD lze také uložit na datové úložiště ve zvoleném formátu - například wav, do kterého by byla data konvertována.
Ověření zpřístupnění ISO souboru Pro ověření automatického načítání obrazu CD do virtuální mechaniky vytvořené programem DaemonTools posloužil program FastMount. Virtuální mechanika obsahující ISO image média představuje prostředí odpovídající fyzickému. Problematická však zůstává nutnost prvotního spuštění virtuálního prostředí před výběrem a načtením samotného ISO image zvoleného média. Tu musí řešit aplikace určená pro zpřístupnění obrazů médií.
Zpracovaná data Během druhé fáze průzkumu byly připraveny ISO obrazy všech tří set CD ROM médií. Ty mohou sloužit k otestování přenosu dat na datové úložiště a ověření jejich formy zpřístupnění. Soubory jsou pojmenovány signaturou. Rychlost pevného disku I/O několikanásobně převyšuje rychlost CD/DVD mechaniky. Proto i práce s ISO obrazem média je výhodnější. Objem uložených dat v ISO formátu z druhé fáze průzkumu představuje zhruba 100 GB.
Problematika zpřístupnění z datového úložiště Za optimální lze považovat takovou formu zpřístupnění obsahu uživatelům, která by se příliš neodlišovala od běžného ovládání média již vloženého do mechaniky počítače. Uživatel by měl mít možnost po vyhledání titulu v katalogu a jeho zvolení, dané médium načíst a spustit – proces by měl proběhnout jednoduše a z prostředí webového prohlížeče. Pro čtení souborů musí prostředí pro uživatele obsahovat příslušné aplikační vybavení podporující zmíněné formáty. Tam patří zejména MS Office a Adobe Acrobat. Řešením může být také sada filtrů, která umožní zobrazení daného formátu v prohlížeči převodem do html. Zajistit dlouhodobou trvanlivost strojem čitelných nosičů je prakticky nemožné. Media CD ROM a DVD jsou technicky nestabilní a mají doposud omezenou životnost. Za největší problém lze však z dlouhodobého hlediska považovat zachování hardwarového a softwarového prostředí, ve kterém je dané médium spustitelné a čitelné. Možným východiskem může být virtualizace prostředí.
7
Virtualizace prostředí Virtualizací se v IT označují postupy , které umožňují k logické skupině nebo podmnožině dostupných zdrojů přistupovat jiným způsobem, než jakým fyzicky existují a jsou propojeny. Virtuální pohled není omezený implementací, fyzickým umístěním nebo fyzickou konfigurací zdrojů. Virtualizaci lze provádět na různých úrovních: • celý počítač (virtuální stroj) • hardwarové komponenty (procesory, paměť atd.) • softwarové prostředí (operační systém)
Virtuální stroj je obraz počítače, který však existuje jen jako model uvnitř jiného počítače. Programy běžící uvnitř tohoto stroje se chovají, jako by běžely na skutečném počítači, ale přitom nemohou nijak ovlivnit zbytek „vnějšího“ počítače. Virtuální stroje se používají z bezpečnostních důvodů pro běh některých aplikací, aby se tyto aplikace nemohly navzájem žádným způsobem ohrozit, ani ovládnout hostitelský počítač, resp. jeho operační systém. Někdy je jako součást virtualizace chápána také emulace, která umožňuje běh aplikací určených pro jiné hardwarové prostředí - jinou architekturu počítače / procesoru. Například běh programu vytvořeného pro pro Linux na běžném PC. Mezi virtualizační řešení patří: VMware, Microsoft Virtual server, XEN. Pro testování byl využíván nejrozšířenější a volně dostupný Vmware server určený pro platformu x86.
Aplikace pro zpřístupnění obrazů uživatelům Zpřístupnění obrazů médií uložené na datovém úložišti bude vyžadovat vytvoření prostředí, které dokáže otevřít a zpřístupnit data uživateli do vhodného rozhraní. Optimální je prostředí webového prohlížeče. Problematické není zpřístupnit samotné datové soubory, které aplikace načte z prostředí, ve kterém je provozována. Pokud však ale vyžaduje aplikace na CD ROM prostředí odlišné a to například i s odlišným operačním systémem musí se takové virtuální prostředí aktivovat a aplikace načíst. Úskalí této kombinace je zejména ve posloupnosti spouštění pokud je médium určeno pro jiný operační systém. Řešit tuto problematiku může výhledově některý systém typu DAM nebo ECM.
DAM Digital Asset Management Budoucí zapojení dat médií CD ROM a DVD do systému pro správu digitálních dokumentů (digitální knihovny) bude řešeno pravděpodobně formou umístěných odkazů k metadatům. Webové stránky tvůrců řešení digiTool společnosti exLibris a DIAS zatím tuto problematiku nezmiňují. Lze tedy konstatovat, že sw řešení nedisponují v současné době řešením pro virtualizaci prostředí. Pracují pouze s digitálním dokumenty bez vazby na prostředí. Bude-li jako komponenta existovat připojení na ISO obrazy, lze předpokládat, že spoužitím webových technologií bude zapojení do DAM řešení relativně snadné.
Data z pohledu uživatele Z pohledu koncových uživatelů budou nejdůležitější pro zpřístupnění datové disky. Zájem se dá předpokládat zejména o vzdělávací dokumenty – encyklopedie, sborníky. Hudební média pravděpodobně nebudou tolik žádána, protože je uživatele musí poslouchat na místě ve studovně. Pracoviště by mělo být ošetřeno proti kopírování autorsky chráněných dat. Lze však reálně uvažovat o situaci, kdy si při bádání ve studovně pustí uživatel digitalizovanou hudbu přímo z katalogu.
8
Instalační média programů a aplikací, jejichž otevírání z datového úložiště může být problematické mohou být vynechána. Jejich spuštění je v případě licencovaného sw zpravidla spojeno s licenčním klíčem. Skutečný zájem uživatelů o média nelze v současnosti vyhodnotit, pro jejich stíženou dostupnost. Jsou půjčována pouze prezenčně ve studovnách na vyžádání.
Souhrn - Doporučení Průzkum médií CD ROM a DVD signatur GD a ZC stanovil rámcové údaje pro potřeby přenosu dat na centrální úložiště. Potřebný prostor pro uložení obrazů médií je zhruba 6 TB. Dá se předpokládat roční přírůstek dat v rozsahu 500 GB, což představuje při zjištěném průměrném rozsahu dat 1 500 médií. Průzkum nepotvrdil obavy o čitelnost médií CD ROM ani o čitelnost na současné verzi operačního systému MS Windows. V prostředí Windows XP bylo přečteno téměř 100 % zkoumaných médií. Přesto se dá předpokládat, že právě zpětná kompatibilita bude do budoucna problematická. Na druhou stranu je však doba, po kterou bude tento typ média v tomto rozsahu využíván, limitována jeho masovým rozšířením a využíváním. Nárůst on-line médií dostupných prostřednictvím internetu a bouřlivý rozvoj technologií na zpřístupnění může délku tohoto období výrazně ovlivnit. Vzhledem k tomu, že ve většině případů nebude možné oddělit obsah od formy bude možným řešením virtualizace prostředí (operační systém + aplikace). Virtualizace zajistí přenositelnost potřebných aplikací bez nutnosti zásahu do jejich kódu. ZC obsahující datová média (přílohy tištěných dokumentů nebo samostatná média typu encyklopedie, výukového programu, slovníku apod.) včetně instalačních médií programů díky své pestrosti představuje problematický soubor médií. Signatura GD, obsahující audio soubory byla ve smyslu čtení dat a podpory OS bezproblémová, jak bylo předpokládáno. Z hlediska uživatele lze za „nejzajímavější“ data považovat vzdělávací dokumenty – sborníky, encyklopedie, slovníky apod. Zájem o audio média, jejichž zpřístupnění je zatím limitováno na studovny NK ČR, může být nižší. Závisí zejména na způsobu zpřístupnění.
Doporučení dalšího postupu V současné době lze doporučit zpracování všech médií do podoby ISO obrazu. Jejich uložení na zálohované prostředí zjednoduší operabilita s daty a také umožní jejich zálohování. Případné operace budou probíhat s velkým množstvím dat, nebudou však vyžadovat manipulaci s původními fyzickými nosiči. Způsob zpřístupnění digitálních obrazů může být řešen vzhledem k datům na úložišti. Zpracování ISO obrazů celé sbírky médií signatur ZC a GD lze považovat i v provozních podmínkách za reálné. Například pracoviště se čtyřmi PC, které by měl jeden pracovník obsloužit a 6 hodinách převodu denně bude doba zpracování kolekce zhruba půl roku. Pro realizaci je třeba vytvořit pracoviště v dosahu skladiště médií, čímž se usnadní manipulace s médii. Práce mohou proběhnout na běžných PC, které mohou být po skončení migrace využity. Pracoviště by mělo obsahovat 2-4 PC s instalovaným freeware programem pro vytváření ISO obrazů, jakým byl například použitý ISO recorder.
9
V další fázi považuji za vhodné zpracovat metodiku a technickou studii na zpřístupnění obrazů médií a jejich začlenění do katalogu knihovny. Bude tak proveden logický krok pro zpřístupnění těchto dokumentů čtenářům.
Přílohy Signatury GD – audio Signatura ZC – datová média Vybraná média - 2. fáze průzkumu
Použité zdroje Ex Libris [online]. 2006 [cit. 2006-11-01]. Dostupný z WWW:
. IBM : Digital Information Archiving System [online]. 2006 [cit. 2006-11-01]. Dostupný z WWW: . Národní knihovna České republiky [online]. c2006 [cit. 2006-11-01]. Dostupný z WWW: . Wikipedia : The free encyclopedia [online]. 2006 [cit. 2006-11-01]. Dostupný z WWW: . Vmware [online]. 2006 [cit. 2006-11-01]. Dostupný z WWW: .
10
11