WebArchiv digitální knihovna českého. Petr Žabička, MZK Brno a FI MU. 1 Archivace webu situace ve světě

WebArchiv – digitální knihovna ˇ ceského webu Petr Žabiˇ cka, MZK Brno a FI MU

webových informaˇ cních zdroj˚ u. V pr˚ ubˇ ehu tˇ rí let bude na vývoj tˇ echto nástroj˚ u a na archivaci web˚ u zemí zúˇ castnˇ ených knihoven vynaloženo pˇ ribližnˇ e 3 milióny dolar˚ u. Pˇ redpokládá se, že softwarové nástroje vyvinuté v rámci tohoto projektu budou dány k dispozici i ostatním knihovnám pod nˇ ejakým typem licence zajišt’ující volný pˇ rístup ke zdrojovým kód˚ um.

S prudkým nár˚ ustem objemu informací publikovaných výhradnˇ e na Internetu se úkolem moderní depozitní knihovny stává také shromažd’ování, ochrana a zpˇ rístupnˇ ení online dostupných elektronických informaˇ cních zdroj˚ u. V souladu se svým posláním se touto cestou vydala i Národní ˇ která ve spolupráci s Ústavem výknihovna CR, poˇ cetní techniky MU pˇ ripravuje archiv ˇ ceského webu.

Je zˇ rejmé, že žádná knihovna nemá prostˇ redky na to, aby si sama vytváˇ rela archiv celosvˇ etového webu; nem˚ uže pˇ ritom ani spoléhat na to, že o dlouhodobou archivaci se postarají vydavatelé elektronických informaˇ cních zdroj˚ u. Je proto logické, že se každá vyspˇ elá zemˇ e snaží (vˇ etšinou prostˇ rednictvím své národní knihovny) vybudovat alespoˇ n národní archiv elektronických informaˇ cních zdroj˚ u – v tomto duchu se nese i pˇ ripravovaná charta UNESCO o ochranˇ e digitálního kulturního dˇ edictví.

1 Archivace webu – situace ve svˇ etˇ e V posledních letech exponenciálnˇ e roste objem informací dostupných pouze v elektronické podobˇ e na Internetu. Tyto informace jsou však ˇ casto velmi „kˇ rehké“ povahy – velmi rychle se mˇ ení, znaˇ cná ˇ cást informace po ˇ case nenávratnˇ e zaniká (nˇ ekteré studie uvádí, že pr˚ umˇ erná životnost webových stránek je asi 100 dn˚ u). Hrozí tak reálné nebezpeˇ cí, že v d˚ usledku pˇ rechodu na elektronickou formu publikování bez náležitého zajištˇ ení archivaˇ cních funkcí (jak je známe napˇ ríklad v podání klasických knihoven) nebude velká ˇ cást dnešních informací zachována pro budoucnost, a že budoucí generace budou jednou pohlížet na naši souˇ casnost jako na dobu „digitálního temna“. Vˇ etšina národních knihoven a dalších „pamˇ et’ových“ institucí, usilujících o uchování kulturního odkazu dané spoleˇ cnosti, hledá proto cesty k tomu, jak rozšíˇ rit své tradiˇ cní archivaˇ cní funkce v oblasti tištˇ ené informace i do oblasti informací digitálních. V popˇ redí zájmu jsou pˇ ritom zejména informace vznikající na webu.

Pˇ rístup jednotlivých knihoven k ˇ rešení této problematiky se ovšem velmi liší. Nˇ ekteré knihovny, jako napˇ ríklad Australská národní knihovna, se snaží archivovat zdroje výbˇ erovˇ e, tj. zajímají se jen o ty webové zdroje, jejichž kvalitu pˇ redem zhodnotí knihovník – viz projekt pandora. nla.gov.au. Díky tomuto selektivnímu pˇ rístupu ˇ cítá archiv australského webu po nˇ ekolika letech provozu pouhých 3675 webových sídel nebo jejich ˇ cástí, nicménˇ e jedná se (doufejme) o výbˇ er toho „nejd˚ uležitˇ ejšího“, co bylo v dané dobˇ e na webu publikováno. Tento pˇ rístup je však velmi nároˇ cný na lidské kapacity a proto se vˇ etšina knihoven vydala jinou cestou: cestou automatizované plošné archivace všech dokument˚ u, které splˇ nují automaticky vyhodnotitelná kritéria. K tomu využívá nejˇ castˇ eji softwarové nástroje vyvinuté v nejr˚ uznˇ ejších projektech v minulých letech (napˇ ríklad v projektech severských evropských zemí). Vznikají však i další iniciativy: napˇ ríklad ve výše zmínˇ eném konsorciu Internet Archive se po nˇ ekolikaletém zkoumání problematiky rozhodly spojit své síly americká Kongresová knihovna, Britská knihovna, Francouzská národní knihovna a nˇ ekteré severské národní knihovny. Pozadu nez˚ ustává ani Japonská národní knihovna a zahájen byl i projekt na archivaci webových zdroj˚ uvˇ cínštinˇ e.

Jedním z pr˚ ukopník˚ u na poli archivace webu je americká nezisková organizace Internet Archive (www.archive.org), jejíž Internetový archiv sahá až do roku 1996 a obsahuje v souˇ casnosti pˇ res 160 TB dat. Tato organizace se ve spolupráci s dalšími institucemi snaží (vcelku úspˇ ešnˇ e) budovat co nejrozsáhlejší archiv svˇ etového webu. Takový zámˇ er je však finanˇ cnˇ e vysoce nákladný; v letošním roce proto zahájil Internet Archive spolupráci s nejvˇ etšími svˇ etovými národními knihovnami s cílem vyvinout novou generaci nástroj˚ u pro archivaci a zpˇ rístupnˇ ení 1

pˇ redevším k pˇ renosu d˚ uvˇ erných informací, které nejsou pˇ redmˇ etem veˇ rejného zájmu).

Podobným smˇ erem se v roce 2000 vydala i Náˇ rodní knihovna CR, když ve dvouletém pilotním projektu „Registrace, ochrana a zpˇ rístupnˇ ení domácích elektronických zdroj˚ u v síti Internet“ zprovoznila za grantové podpory Ministerstva kultury a ve spolupráci s Ústavem výpoˇ cetní techniky Masarykovy univerzity infrastrukturu pro tvorbu digitálního archivu ˇ ceského webu (webarchiv.nkp.cz). Práce na archivaci ˇ ceského webu pokraˇ cují i po ukonˇ cení pilotního projektu.

2

Pokud dosavadní zkušenosti ukazují, že z hlediska dlouhodobé konzervace je opravdu nejvýznamnˇ ejší ˇ cást dokument˚ u dostupná pˇ res protokoly http a ftp, je nutné dodat, že prostˇ rednictvím protokolu ftp jsou zpˇ rístupnˇ eny také obrovské objemy dat zrcadlených ze zahraniˇ cních archiv˚ u. Proto je v pˇ rípadˇ e protokolu ftp vhodné zamˇ eˇ rit sbˇ er dokument˚ u jen na ty relevantní, tedy na dokumenty pˇ rímo odkazované ze stránek pˇ rístupných pˇ res protokol http. V pˇ rípadˇ e již zmiˇ novaných diskusních skupin je možné vzít v úvahu fakt, že archivy mnoha z nich jsou zároveˇ n pˇ rístupné ve formˇ e html-archiv˚ u dostupných také protokolem http. Pokud by se pˇ resto ukázalo, že je d˚ uležité vytváˇ ret jejich samostatný archiv, nabízí se k tomu standardní prostˇ redek – instalace news serveru, který bude zrcadlit ˇ ceské diskusní skupiny a bude si udržovat celou jejich historii.

Projekt WebArchiv

Cílem projektu WebArchiv je zajištˇ ení trvalého uchování domácích elektronických online publikovaných informaˇ cních zdroj˚ u jako souˇ cásti národního kulturního dˇ edictví. Vzhledem k povaze, rozmanitosti a množství tˇ echto zdroj˚ u je zˇ rejmé, že stanovení podmínek, které musí archivované elektronické zdroje splˇ novat, významnˇ e ovlivní budoucí hodnotu vytvoˇ reného archivu. 2.1

Výbˇ er zdroj˚ u k archivaci

Podobnˇ e jako v pˇ rípadˇ e protokol˚ u bychom mohli hodnotit jednotlivé dokumenty i co do použitého formátu. Výzkumy ve svˇ etˇ e (potvrzené i bˇ ehem naší dosavadní archivace ˇ ceského webu) ukazují, že cca 97% poˇ ctu všech archivovaných soubor˚ u tvoˇ rí trojice formát˚ u html, jpg a gif, aˇ ckoli co do velikosti zaujímají soubory v tˇ echto formátech jen asi polovinu celkového objemu dostupných dat. Pokud tedy dokážeme odpovˇ ednˇ e urˇ cit, které ze vzácnˇ eji se vyskytujících formát˚ u nemá smysl z r˚ uzných d˚ uvod˚ u archivovat, m˚ užeme snadno ušetˇ rit významnou kapacitu ukládacího prostoru, což m˚ uže pˇ redstavovat úsporu znaˇ cných ˇ cástek i do budoucna. Nesmíme totiž zapomínat na to, že nestaˇ cí informace jen jednou sklidit a uložit do archivu; pro dlouhodobé zachování dostupnosti informaˇ cního obsahu každého archivovaného digitálního dokumentu (po dobu desetiletí až staletí) bude nutné zajišt’ovat jeho pr˚ ubˇ ežnou konverzi do nových formát˚ u, což je vzhledem k celkovému objemu dat technicky i finanˇ cnˇ e velmi nároˇ cné.

Pokud padla v úvodu tohoto ˇ clánku zmínka o „online“ publikovaných zdrojích, je nutné upozornit na to, že již rozhodnutí zamˇ eˇ rit se primárnˇ e na „webové“ zdroje znamená, že se zamˇ eˇ rujeme jen na jistou podmnožinu všech existujících online zdroj˚ u. Je zˇ rejmé, že pokus archivovat online elektronické zdroje dostupné jinak než prostˇ rednictvím Internetu by byl velmi nákladný a jeho pˇ rínos pro archiv zanedbatelný. Takovéto kategorické tvrzení však již nelze pronést o ne-webových Internetových zdrojích. Vˇ etšinou totiž nelze dopˇ redu urˇ cit, která technologie zaˇ cne mít v budoucnosti vˇ etší význam, a která je jen krátkou epizodou v dˇ ejinách Internetu. Pˇ resto lze zatím stále obhájit názor, že vˇ etšinˇ e populace je reálnˇ e pˇ rístupná jen ta ˇ cást zdroj˚ u, ke kterým se dostanou prostˇ rednictvím bˇ ežného www-prohlížeˇ ce a proto právˇ e tato ˇ cást zdroj˚ u by mˇ ela být primárním pˇ redmˇ etem zájmu Národní knihovny. Pokud tedy pomineme relativnˇ e velkou množinu mailových a newsových diskusních skupin, z˚ ustává pˇ red námi dvojice protokol˚ u http a ftp (protokol gopher lze dnes již považovat za mrtvý, https je urˇ cen pro šifrovaný pˇ renos dat a lze jej proto považovat za protokol urˇ cený

ˇ 2.2 Ceský web Jak již bylo uvedeno, pˇ redmˇ etem zájmu projektu WebArchiv je archivace online publikované ˇ cásti 2

ˇ ceské produkce, tedy ˇ ceský web. V ideálním pˇ rípadˇ e by výsledkem projektu mˇ el být archiv obsahující pokud možno vše, co kdy bylo v rámci ˇ ceského webu publikováno. Proto se provádí archivace dvˇ ema cestami: plošnou archivací, kdy se s delším ˇ casovým odstupem (napˇ ríklad 2krát roˇ cnˇ e) vytváˇ rí co nejúplnˇ ejší snímky celého ˇ ceského webu, a výbˇ erovou archivací, kdy se naopak velmi ˇ casto (v pˇ rípadˇ e potˇ reby i každý den) doplˇ nuje archiv zrcadlící vybranou omezenou skupinu nejvýznamnˇ ejších ˇ ceských zdroj˚ u.

bude v portálu reprezentován i nejvýznamnˇ ejšími národními informaˇ cními zdroji, které se tak stanou i pˇ redmˇ etem zájmu projektu WebArchiv. Je zˇ rejmé, že takto pojatý systém m˚ uže mnoho server˚ u neoprávnˇ enˇ e vylouˇ cit, na druhou stranu je nutno mít na zˇ reteli to, že každý zdroj, zahrnutý do skupiny pro intenzivní výbˇ erové sklízení s sebou nese nemalý díl kvalifikované lidské práce spojené s jeho knihovnickým popisem, který m˚ uže ve vybraných pˇ rípadech jít až na úroveˇ n jednotlivých dokument˚ u. Finanˇ cní nároˇ cnost m˚ uže být v takovém pˇ rípadˇ e samozˇ rejmˇ e snížena, dojde-li k nˇ ejaké formˇ e dohody o spolupráci s pˇ ríslušným vydavatelem.

Aby bylo možné oba postupy realizovat, je nutné nejprve stanovit, jaký je vlastnˇ e rozsah ˇ ceského webu. Aˇ ckoli jej m˚ užeme zjednodušenˇ e definovat jako „všechny dokumenty publikované v doménˇ e .cz,“ je zˇ rejmé, že toto kritérium nepokrývá celou ˇ ceskou online produkci. Je vhodné rozšíˇ rit tento rozsah o mnoho dalších kategorií: dokumenty v doménách druhé úrovnˇ e registroˇ vaných subjektem sídlícím v Ceské republice; dokumenty publikované na serverech fyzicky umísˇ dokumenty v ˇ tˇ ených v CR; ceském jazyce; dokumenty ˇ ceských autor˚ u; dokumenty se vztahem ˇ k Cesku, atd.

2.4 Plošná archivace Plošná automatizovaná sklizeˇ n se snaží o co nejúplnˇ ejší pokrytí národního webu v podobˇ eˇ casových snímk˚ u (snapshots) jednou ˇ ci nˇ ekolikrát za rok. Volbou nejvhodnˇ ejšího nástroje pro plošnou archivaci webu se v souˇ casné dobˇ e zabývá nˇ ekolik projekt˚ u v r˚ uzných evropských zemích; za všechny zmiˇ nme alespoˇ n testovací projekty v Rakousku a v Dánsku (www.netarkivet.dk). Námi používaný produkt NEDLIB Harvester, vyvinutý Helsinskou národní knihovnou, ve srovnávacích testech rozhodnˇ e nezaostává. Díky tomu, že byl navržen pro potˇ reby archivace webu národními knihovnami, vyhovuje dobˇ re i našim požadavk˚ um. Nabízí velkou škálu r˚ uzných nastavení, mezi nˇ ež patˇ rí volba seznamu výchozích webových stránek, omezení rozsahu skliznˇ e pomocí URL nebo jejich ˇ cástí, povolení nebo zakázání podpory protokolu ftp, logování zamítnutých URL, akceptování omezení pro roboty na jednotlivých serverech (robots.txt), podpora sklízení URL s parametrem, stanovení maximální hloubky zanoˇ rení hypertextových odkaz˚ u v rámci jednoho serveru a další. Zvláštˇ e poslední dva parametry mohou velmi významnˇ e ovlivnit rozsah a kvalitu skliznˇ e.

V doménˇ e .cz je nyní registrovano témˇ eˇ r 135.000 domén 2. úrovnˇ e. Pˇ ridáváním dalších podmínek stoupá jak nároˇ cnost nalezení všech dokument˚ u podmínky splˇ nujících, tak i nároˇ cnost prokázání, že nalezený dokument nˇ ekterou podmínku opravdu splˇ nuje. 2.3

Výbˇ erová archivace

Jakmile jsme si stanovili (alespoˇ n pˇ ribližnˇ e) rozsah ˇ ceského webu, m˚ užeme v jeho rámci zaˇ cít hledat podmnožinu zdroj˚ u, kterou by bylo vhodné archivovat výbˇ erovˇ e – s co nejkratší periodicitou a v co nejvˇ etší úplnosti. V souˇ casné dobˇ e se nabízí nˇ ekolik zp˚ usob˚ u, jak tuto ˇ cinnost zajišt’ovat; nejperspektivnˇ ejším z nich by mohlo být využití potenciálu projektu Jednotné informaˇ cní brány CASLIN (www.jib.cz). Jedním z jejích výstup˚ u bude totiž pr˚ ubˇ ežnˇ e aktualizovaný pˇ redmˇ etovˇ e ˇ clenˇ ený informaˇ cní portál online elektronických zdroj˚ u. Správa jednotlivých obor˚ u tohoto portálu bude svˇ eˇ rena vždy té knihovnˇ e, která má v daném oboru nejvˇ etší zkušenosti. Díky tomu lze oˇ cekávat, že každý obor

Podpora URL s parametry umožˇ nuje omezit sklízení jen na ta URL, která neobsahují znak ? uvozující seznam parametr˚ u. Díky tomu lze sice do znaˇ cné míry zabránit problém˚ um spojeným s nekoneˇ cnými smyˇ ckami pˇ ri procházení server˚ u, na 3

každé vˇ etší technologické zmˇ enˇ e. Tˇ retí oblast pak pˇ redstavuje zpˇ rístupnˇ ení informací uložených v takto vytvoˇ rených (a objemem dat velmi rozsáhlých) archivech.

druhou stranu se tak nepˇ ríjemnˇ e omezuje rozsah skliznˇ e. Jako typický pˇ ríklad lze uvést server root.cz, jehož jedinou stránkou, na kterou se dá dostat pomocí URL bez parametru, je jeho hlavní stránka. Protože podobnˇ e funguje vˇ etšina elektronických periodik, vyˇ radili bychom ignorováním URL s parametry právˇ e ty zdroje, které jsou z hlediska našeho kulturního dˇ edictví nejcennˇ ejší.

3.1 Sklizeˇ nˇ ceského webu V loˇ nském roce probíhala po nˇ ekolik mˇ esíc˚ u v poˇ radí již druhá testovací sklizeˇ n domény .cz, která bude po pˇ restávce spojené s pˇ rechodem na nový server v letošním roce pokraˇ covat. Tato sklizeˇ n by mˇ ela ukázat mimo jiné i to, jaký je skuteˇ cný rozsah viditelného ˇ ceského webu. Výchozími body pro tuto sklizeˇ n byly pˇ redevším hlavní stránky internetových portál˚ u seznam.cz a quick.cz. Pˇ res r˚ uzné problémy se již podaˇ rilo stáhnout z 10.490.000 URL celkem 10.090.000 soubor˚ u o souhrnné velikosti pˇ res 240 GB. Alespoˇ n jednou pˇ ritom bylo navštíveno pˇ res 30.000 domén 2. úrovnˇ e (tj. ˇ ctvrtina domén v doménˇ e .cz).

Je samozˇ rejmˇ e pravdˇ epodobné, že mnohé dynamicky generované stránky se v archivu vyskytnou nˇ ekolikrát jen proto, že se navzájem nepatrnˇ e liší. M˚ uže se tak stát, že se opakovanˇ e archivují již navštívené stránky jen proto, že souˇ cástí URL je napˇ ríklad identifikátor sezení, nebo aktuální ˇ cas. Takový cyklus se pak opakuje tak dlouho, dokud není vyˇ cerpán povolený poˇ cet zanoˇ rení v rámci jednoho serveru (nyní se operuje s hodnotou 50, která by mˇ ela zajistit stažení všech stránek z vˇ etšiny server˚ u). Je však nutno poznamenat, že k podobným problém˚ um dochází pouze v pˇ rípadˇ e, kdy správce daného serveru ve vlastním zájmu nezakáže v souboru robots.txt všem robot˚ um pˇ rístup na problematická URL.

Analýza dosavadního pr˚ ubˇ ehu skliznˇ e ukazuje, jaké informaˇ cní bohatství ˇ ceský web vlastnˇ e skrývá. Mezi padesáti našimi objemem nebo poˇ ctem soubor˚ u nejvˇ etšími doménami druhé úrovnˇ e najdeme mimo jiné šest univerzit, jeden univerzitou provozovaný specializovaný server ˇ (linux.cz), Ceskou akademii vˇ ed a nˇ ekolik zpravodajských a vydavatelských server˚ u. Dále jsou pak na pˇ redních místech zastoupeny pˇ redevším webhostingové farmy, které sice pˇ rináší jen minimum vlastního obsahu, ale o to vˇ etší rozmanitost.

Je zˇ rejmé, že at’ už je pro archivaci webu zvolen jakýkoli produkt, bude jím vytvoˇ rený archiv poplatný jeho limit˚ um. Ani NEDLIB Harvester není v tomto smˇ eru samozˇ rejmˇ e výjimkou a tak existuje nˇ ekolik prozatím nepˇ rekroˇ citelných omezení. Jeho nejbolestivˇ ejším omezením je absence podpory javascriptu. V d˚ usledku toho v archivu zcela chybí stránky, na nˇ ež vedou jen odkazy generované javascriptem až v prohlížeˇ ci (typickým pˇ ríkladem takových odkaz˚ u jsou odkazy do archivu Neviditelného psa). Zatím ménˇ e palˇ civým nedostatkem stejného charakteru je absence podpory odkaz˚ u z prezentací ve formátu flash.

3

3.2 Provoz archivu Velikost Harvesterem tvoˇ reného archivu m˚ uže snadno dosáhnout obrovských rozmˇ er˚ u: jedno kolo stahování pˇ redstavuje v našich podmínkách stovky GB. Archiv s tak velkým potenciálem r˚ ustu není samozˇ rejmˇ e snadné ani levné provozovat. Aˇ ckoli v souˇ casné dobˇ e již jsou na trhu levné pevné disky o kapacitách okolo 200 GB, infrastruktura archivu se musí opírat o robustní a dlouhodobˇ e perspektivní ˇ rešení. Toto ˇ rešení musí brát v potaz nejen aspekty technické, ale i finanˇ cní a personální a musí být z provozního hlediska dlouhodobˇ e provozovatelné.

Dlouhodobé uchování a zpˇ rístupnˇ ení zdroj˚ u

Problematika archivace webu zahrnuje tˇ ri oblasti: první z nich je problematika automatizovaného (plošného ˇ ci výbˇ erového) sklízení informací nacházejících se na definovaném výseku webu a jejich uložení do archivu. Druhou je problematika provozování archivu, vˇ cetnˇ e konverzí formát˚ u v nˇ em uložených dokument˚ u pˇ ri

V pilotní fázi projektu bylo s výhodou využito stávajícího páskového robota Národní knihovny 4

ˇ jeho nevýhodou ovšem je problematická doCR; stupnost na nˇ em uložených dat v okamžiku, kdy by bylo nutné tato data zpˇ rístupnit veˇ rejnosti. Protože stažené dokumenty jsou spoleˇ cnˇ e s pˇ ríslušnými metadaty ukládány jako tar+gzip komprimované soubory pˇ rímo do souborového systému, nemˇ el by být problém s migrací dat na nová úložištˇ e.

možné pˇ ripojit k ní moduly pro indexování i jiných než textových dokument˚ u – jeden z takových nástroj˚ u, Convera Retrievalware, je již v NK zkušebnˇ e provozován. Jedním z budoucích cíl˚ u projektu bude proto pokus o jeho využití pro indexování nˇ ekterých netradiˇ cních typ˚ u soubor˚ u obsažených v archivu. Nadˇ ejnˇ e se jeví též kontakty s týmem Norské národní knihovny, který vyvinul a v letošním roce se chystá dát volnˇ e k dispozici vlastní systém pro indexaci a zpˇ rístupnˇ ení webového archivu založený na indexovacím stroji Apache Jakarta Lucene.

Vˇ etším oˇ ríškem samozˇ rejmˇ e bude zajištˇ ení technologické ˇ citelnosti archivovaných soubor˚ u. Je sice pravdˇ epodobné, že nejrozšíˇ renˇ ejší otevˇ rené formáty (html, txt, gif, jpg) z˚ ustanou interpretovatelné po velmi dlouhou dobu, oprávnˇ ené pochybnosti lze však mít o dlouhodobé ˇ citelnosti proprietárních formát˚ u – pˇ redevším tˇ ech z nich, které nejsou tak rozšíˇ reny jako napˇ ríklad formáty firem Adobe nebo Microsoft. I u formát˚ u Microsoftu je však zárukou jejich budoucí interpretovatelnosti spíše dostupnost alternativních program˚ u s otevˇ reným kódem, které umí s tˇ emito formáty pracovat (OpenOffice), než vlastní podpora ze strany Microsoftu.

4

To, zda bude nˇ ekterá z dosud popisovaných ovˇ eˇ rených technologií nasazena také v ostrém reálˇ ném provozu v rámci Ceské republiky, bude záviset i na vyˇ rešení autorskoprávní problematiky související s tvorbou a provozem webového archivu. Nedotaženost zákona o povinném výtisku u nás otevírá cestu r˚ uzným výklad˚ um omezení daných zákonem o autorském právu. Automatickou identifikaci a archivaci online publikovaných dokument˚ u lze srovnat s dnes bˇ ežnˇ e používanou technologií indexování webu, jak ji provádˇ ejí Internetové vyhledavaˇ ce. Bez konkrétní opory v zákonˇ e ale není jisté, zda bude možné stávající strategii plošné archivace využívat i pro zpˇ rístupnˇ ení shromáždˇ ených dat. Existující infrastruktura je nastavitelná tak, aby bylo možné zachovat alespoˇ n omezený rozsah sklízení i v pˇ rípadˇ e, že bude nutné podˇ rídit se urˇ citým zákonným omezením. Závažným d˚ usledkem takových omezení by však bylo velmi výrazné zmenšení rozsahu sbírky, tvoˇ rené pak víceménˇ e jen na základˇ e dobrovolnˇ e dodávaných dokument˚ u. Je možné prohlásit, že právo obˇ cana na informace by mˇ elo být naplnˇ eno i existencí digitální knihovny obsahující elektronicky publikované dokumenty v nezmˇ enˇ ené podobˇ e.

At’ už bude v budoucnosti vývoj tohoto archivu jakýkoli, lze ˇ ríci, že využitím NEDLIB Harvesteru získala Národní knihovna vhodný nástroj pro tvorbu konzervaˇ cního archivu ˇ ceského webu. Vytvoˇ rení a udržování takového archivu je d˚ uležitým krokem na cestˇ e k naplnˇ ení jeho smyslu, tedy ke zpˇ rístupnˇ ení obsahu archivu uživatel˚ um.

3.3

Perspektiva projektu

Zpˇ rístupnˇ ení informací v archivu

Pro zpˇ rístupnˇ ení dokument˚ u v archivu se nabízejí technologie fulltextového indexování a automatizované extrakce autorem vytvoˇ rených metadat. Na naši zakázku byl koncem roku 2001 vypsán na MFF UK roˇ cníkový týmový projekt na vytvoˇ rení indexaˇ cní a vyhledávací aplikace pro WebArchiv. Tato aplikace by mˇ ela zpˇ rístupnit stažené dokumenty v jejich kontextu, tedy s vloženou grafikou ze stejné doby a s odkazy vedoucími primárnˇ e opˇ et do archivu. Vyhledávání v archivu by mˇ elo být možné nejen na základˇ e zadání pˇ redem známého URL nebo kontrolního souˇ ctu dokumentu, ale i na základˇ e metadat extrahovaných z dokumentu nebo fulltextového vyhledávání. Aplikace bude navržena tak, aby bylo

Aˇ ckoli je díky vytvoˇ rené infrastruktuˇ re již nyní možné udˇ elat mnohé pro zachování soudobých informaˇ cních zdroj˚ u pro budoucí generace, další rozvoj této infrastruktury, stejnˇ e jako vývoj všech podp˚ urných softwarových produkt˚ u, nem˚ uže být nikdy zcela ukonˇ cen. Zde nejde jen o hledisko potˇ reb uživatele nebo provozovatele, 5

ale i o hledisko technického vývoje, mezinárodní spolupráce nebo problematiku legislativní. S tím, jak bude stoupat podíl ˇ cistˇ e elektronické produkce, bude r˚ ust i význam její dlouhodobé archivace z hlediska ochrany národního kulturního dˇ edictví. I proto je žádoucí, aby projekt WebArchiv, i pˇ res nevyjasnˇ enou legislativní situaci, ve své ˇ cinnosti pokraˇ covat.

6

WebArchiv digitální knihovna českého. Petr Žabička, MZK Brno a FI MU. 1 Archivace webu situace ve světě

Recommend Documents