ARCHIV ÈESKÉHO WEBU V ROCE 3

ARCHIV ÈESKÉHO WEBU V ROCE 3 Petr abièka Moravská zemská knihovna, Brno Projekt Webarchiv (webarchiv.nkp.cz) se letos dostává do tøetího roku své existence. Na konci loòského roku byla odevzdána závìreèná zpráva projektu výzkumu a vývoje Registrace, ochrana a zpøístupnìní domácích elektronických zdrojù v síti Internet [1], která struènì shrnuje výsledky dosaené v prvních dvou letech øeení projektu. Díky úzké spolupráci Národní knihovny ÈR (dále té NK) s Ústavem výpoèetní techniky Masarykovy univerzity v Brnì se vak vývoj nezastavil a práce nastoupeným smìrem pokraèují v rámci øeení výzkumného zámìru ÚVT MU Digitální knihovny a novì jsou podpoøeny i grantem, který NK získala pro rok 2002 v programu VISK3. V tomto èlánku se blíe podíváme na problematiku, kterou se projekt zabývá. Cílem projektu Webarchiv je, jak ji jeho název napovídá, zajitìní trvalého uchování domácích elektronických, online publikovaných informaèních zdrojù jako souèásti národního kulturního dìdictví. V èlánku [2] rozebírá L. Celbová jednotlivé okruhy problémù, které je v této souvislosti nutno øeit. Aèkoli se v tomto textu budeme zabývat spíe technickými aspekty celé problematiky, pokusíme se zmínìné rozdìlení do jednotlivých okruhù co nejvíce dodret. Budeme se tedy zabývat následujícími tématy: l Legislativní problematika l Kritéria výbìru zdrojù a strategie jejich archivace l Bibliografická správa a zpøístupnìní zdrojù l Návaznost na obdobné projekty na mezinárodní úrovni V jejich rámci pak budou popsány jak zatím dosaené výsledky projektu, tak i nyní øeené problémy a plány dalího výzkumu a vývoje. Samotná technická infrastruktura byla ji popsána v nìkolika èláncích, naposledy pak pøehledným zpùsobem v pøíspìvku Infrastruktura Webarchivu v roce 2002 [3] na konferenci Inforum 2002. Tam byli také posluchaèi seznámeni s prvními informacemi o letos probíhající úplné sklizni domény .cz, která bìí ji od 23. 4. 2002 a která by mìla dát øeitelskému týmu odpovìï na mnoho otázek souvisejících s dalím vývojem projektu. Legislativa V souèasné dobì existuje nìkolik kritických míst, která mohou, a u v pozitivním nebo negativním smyslu, ovlivnit dalí øeení projektu. V této kapitole si ukáeme, jaký vliv mohou mít rùzné výklady zákona na dalí vývoj projektu. Prvním místem, kde dochází ke støetu obecného zájmu na zachování kulturního dìdictví budoucím generacím s u nás platnou legislativou, je problematika povinného výtisku. Zákon u nás toti nezakotvuje jednoznaènì povinnost vydavatele odevzdávat povinný výtisk elektronicky publikovaných dokumentù. Zkuenost ze védska uka168

zuje dùleitost takového právního zakotvení: automatická archivace (sklízení) online publikovaných elektronických zdrojù národní knihovnou, která je jedním ze zpùsobù, jak získat povinný výtisk tohoto typu dokumentù, zde musela být na mnoho mìsícù pøeruena právì proto, e úøady se nedokázaly shodnout na tom, zda je taková èinnost legální, a patovou situaci vyøeilo a pøijetí pøísluného zákona [4]. Naopak v Dánsku, kde je podobný zákon v platnosti ji delí dobu, nemá vìtina vydavatelù o jeho existenci ani tuení a jediným efektivním øeením problému je tak opìt jedinì automatická archivace vech publikovaných dokumentù. Nedotaenost zákona o povinném výtisku u nás v tomto smìru otevírá cestu rùzným výkladùm omezení daných zákonem o autorském právu. Automatickou identifikaci a archivaci online publikovaných dokumentù lze srovnávat s bìnì pouívanou technologií indexování webu, jak ji provádìjí prohledávaèe Internetu. Pøesto ale není jisté, zda bude bez opory v zákonì moné vyuívat stávající strategii. Existující infrastruktura je vak nastavitelná tak, e bude moné zachovat alespoò omezený rozsah sklízení i v pøípadì, e by bylo nutné podøídit se urèitým zákonným omezením. Jediným dùsledkem takových omezení by pak bylo velmi výrazné zmenení rozsahu sbírky, tvoøené pak víceménì na základì dobrovolnì dodávaných dokumentù. Na druhou stranu by se díky takovému zásahu výraznì zmenila i finanèní nároènost hardwaru pro uloení takového archivu. Mnohem problematiètìjí je vak oblast zpøístupnìní takto vytvoøeného archivu. Dokud toti nebude jasnì stanoveno kdy, komu, v jakém rozsahu a za jakých podmínek mùe být takový archiv zpøístupòován, není moné vyvinout optimální nástroj pro daný úèel. Pokud bychom toti zpøístupòovali jen archiv omezeného rozsahu, tvoøený z dobrovolných pøíspìvkù, bylo by moné bez velkých investic vyuít stávající infrastruktury digitální knihovny NK. Pokud by naopak bylo umonìno bez omezení zpøístupòovat archiv celého èeského webu, vyádá si vybudování a provoz potøebné infrastruktury pomìrnì vysoké náklady. Ty by byly dány jednak rozsahem samotného archivu a tedy i rozsahem pøístupových souborù a jednak tím, e by o tuto slubu byl pravdìpodobnì mezi uivateli èeského Internetu velký zájem a to by zase kladlo vysoké nároky na hardware. Dalím kritickým momentem jsou pøípadná omezení, daná nìjakým budoucím zákonem nebo soudním rozhodnutím. Taková rozhodnutí nelze ale i pøi nejlepí vùli pøedjímat a je pravdìpodobné, e kadé takové rozhodnutí bude znamenat buï dalí finanèní zátì, nebo naopak zmaøení èásti ji investovaných prostøedkù. Je moné prohlásit, e právo obèana na informace by mìlo být naplnìno i existencí digitální knihovny, obsahující elektronicky publikované dokumenty v nezmìnìné podobì. Zajitìní integrity takové knihovny musí být proto jedním z prioritních úkolù jejího provozovatele. V pøípadì Webarchivu je tato kontrola zajitìna pouitým systémem jednoznaèných identifikátorù dokumentù na bázi kontrolního souètu MD5 [5], co je v souèasné dobì pro tento úèel nejdostupnìjí mechanismus, který vak musí být NÁRODNÍ KNIHOVNA, 13, 2002, è. 3

podpoøen dalími opatøeními jak na úrovni technické, tak organizaèní. V pøípadì podcenìní tohoto aspektu se toti mùeme dostat do témìø orwellovské situace, ve které nebude moné nijak ovìøit autenticitu v minulosti publikovaných informací a dokumentù a u proto, e z veøejného prostoru zcela zmizí, nebo proto, e budou z rùzných dùvodù pozmìnìny nebo zcela nahrazeny jiným obsahem. e nejde o plané hrozby, dosvìdèuje i nedávný pøípad serveru underground.cz, který stáhnul ze svých stránek vechny texty zabývající se drogovou problematikou v souladu s paragrafem 188a trestního zákona. Ve svém dùsledku to znamená, e veøejnost je moná doèasnì, moná trvale, pøipravena o døíve publikované informace. Pokud by ale na druhé stranì byly stejné informace zpøístupnìny prostøednictvím archivu Národní knihovny, nebyla by to Národní knihovna, kdo by podstupoval riziko trestního stíhání? Kritéria výbìru zdrojù a strategie jejich archivace Stanovení podmínek, které musí splòovat elektronické zdroje kandidující na vèlenìní do budovaného digitálního archivu, je jedním z nejkritiètìjích okamikù kadého podobného projektu. Pøi stanovování tìchto podmínek je nutno brát v úvahu jak objem finanèních prostøedkù, které jsou pro tuto èinnost k dispozici, tak i aktuální stav rozvoje celé oblasti informaèních a komunikaèních technologií. V následujících odstavcích si ukáeme, jak tyto okolnosti ovlivnily øeení projektu. Protokoly, formáty

urèit, která technologie zaène mít v budoucnosti význam a která je jen drobnou epizodou v dìjinách Internetu (tak skonèily v propadliti dìjin technologie typu push, kterým byla kdysi prorokována velká budoucnost, tak se naopak objevuje pøes aktivní odpor zábavního prùmyslu stále vìtí mnoství rùzných typù sítí peer-to-peer). Pøesto lze zatím stále obhájit názor, e vìtinì populace je reálnì pøístupná jen ta èást zdrojù, ke kterým se dostanou prostøednictvím bìného prohlíeèe. Pokud tedy pomineme relativnì velkou mnoinu mailových a newsových diskusních skupin, zùstává pøed námi dvojice protokolù http a ftp (protokol gopher lze ji povaovat za mrtvý, protokol https pak díky tomu, e je urèen pro ifrovaný pøenos dat, za protokol urèený k pøenosu neveøejných a dùvìrných informací, tedy informací, dostupných sice elektronicky, ale ne nutnì veøejnì). Pominuli-li jsme v pøedchozím odstavci diskusní skupiny, bylo to pøedevím proto, e archivy mnoha z nich jsou zároveò pøístupné na webu. Pokud by se ukázalo, e je dùleité vytváøet jejich archiv, nabízí se k tomu standardní prostøedek instalace news serveru, který bude zrcadlit èeské diskusní skupiny a bude si udrovat celou jejich historii. Podobnì jako v pøípadì protokolù bychom mohli jednotlivé dokumenty hodnotit i co do pouitého formátu. Tabulka 1 a z ní odvozené grafy 1 a 2 ukazují, jak jsou v archivu zastoupeny jednotlivé formáty souborù. Je vidìt, e trojice formátù html, jpg a gif tvoøí dohromady 96,8 % vech archivovaných souborù, aèkoli co do velikosti zaujímají jen polovinu celkového objemu uloených dat. Pokud tedy dokáeme odpovìdnì urèit, které ze vzácnì se vyskytujících formátù nemá smysl z rùzných dùvodù archivovat, mùeme snadno uetøit a tøetinu objemu ukládacího prostoru, co mùe snadno pøedstavovat úsporu statisícových èástek.

Pokud padla v úvodu tohoto èlánku zmínka o online publikovaných zdrojích, je nutné upozornit na to, e tento pojem je hyperonymem pojmu na Internetu (aèkoli se s rostoucí dominancí Internetu stávají tyto pojmy postupnì synonymickými podobnì jako pojem web za- Prostorový a èasový rozsah èíná splývat s pojmem Internet). Z toho mimo jiné vyDosavadní zkuenosti ukazují, e z hlediska dlouhoplývá, e ji rozhodnutím zamìøit se na webové zdroje dobé konzervace nejvýznamnìjí èást dokumentù je dopomíjíme jistou èást elektronických zdrojù. Z ne-Internestupná pøes protokoly http a ftp a je uloena pøedevím tových zdrojù lze zmínit napøíklad poèátkem 90. let i u nás v souborech formátù html, jpg a gif. Pøes protokol ftp je pomìrnì rozíøený a dnes ji témìø zapomenutý FidoNet, vak mimo jiné zpøístupnìno i obrovské mnoství zrcadze zdrojù Internetových pak napøíklad mezi jinými napøíklad streamované audio a viTabulka 1: Zastoupení souborù v archivu podle formátù deo, obsah rùzných sítí peerto-peer a mnohé dalí zdroje, poèet poèet prùmìrná celková celková dostupné výhradnì pøes nìktesouborù souborù velikost velikost velikost souboru souborù rý z ménì rozíøených komu[tis.] [%] [kB] [GB] [%] nikaèních protokolù. html dokumenty 4.092 58,15 16,75 65,39 28,40 Je zøejmé, e pokus archiobrázky jpg 1.719 24,43 27,09 44,42 19,29 vovat online elektronické obrázky gif 1.002 14,24 7,60 7,26 3,15 zdroje, dostupné jinak ne jiné textové dokumenty 96 1,36 318,79 29,08 12,63 prostøednictvím Internetu, by aplikace a data aplikací 78 1,11 599,18 44,74 19,43 byl velmi nákladný a jeho pøíjiné obrazové formáty 25 0,35 114,46 2,70 1,17 nos by byl mizivý. Takové jedzvukové soubory 21 0,30 1 082,90 21,94 9,53 noznaèné tvrzení ji vak nevideo soubory 4 0,06 3 953,34 14,70 6,38 lze pronést, máme-li na mysli newebové Internetové zdroje. celkem 7.037 100,00 34,31 230,23 100,00 Vìtinou toti dopøedu nelze NÁRODNÍ KNIHOVNA, 13, 2002, è. 3

169

Graf 1: Relativní èetnost souborù v archivu podle typù

lených zahranièních archivù. Proto je vhodné sklízení v pøípadì protokolu ftp zamìøit jen na relevantní dokumenty, tedy dokumenty pøímo odkazované ze stránek pøístupných pøes protokol http. Dalím kritériem, které mùe velmi významnì ovlivnit objem a kvalitu archivu, je pak stanovení rozsahu archivace. Jak ji bylo uvedeno, je pøedmìtem zájmu projektu Webarchiv archivace online publikované èásti národního kulturního bohatství, tedy, zjednoduenì øeèeno, èeský web (a u je definován jakkoli). V ideálním pøípadì by mìl být výsledkem projektu archiv obsahující ve, co kdy bylo v rámci èeského webu publikováno. Je ale zøejmé, e takový archiv by byl prakticky nerealizovatelný. Je proto nutné stanovit taková kritéria, která by umonila zachytit v daném èasovém úseku to nejvýznamnìjí, co èeský web nabízí. Na jedné stranì je moné pokusit se s delím èasovým odstupem vytváøet co nejúplnìjí a rozsahem co nejpodrobnìjí èasové snímky celého èeského webu, na stranì druhé pak budovat pravidelnì (v pøípadì potøeby i kadý den) doplòovaný archiv zrcadlící vybranou skupinu zdrojù. Místo hledání kompromisu mezi tìmito dvìma pøístupy jde øeitelský tým zároveò jak cestou extenzivní, tak i intenzivní.

Z uvedeného seznamu je patrné, e ji na poèátku stanovená velká zájmová oblast by se tímto zpùsobem dala zvìtovat témìø neomezenì. Je také vidìt, e se stoupajícím poøadím podmínek stoupá jak nároènost nalezení vech dokumentù podmínku splòujících, tak i nároènost prokázání, e nalezený dokument danou podmínku splòuje. U získání údajù o rozsahu domény .cz (pøípad 1) není triviální. Správce domény nejvyí úrovnì .cz, sdruení CZNIC (www.nic.cz), sice na svých stránkách zveøejòuje pøehledové statistiky (z tìch plyne, e celkový poèet registrovaných domén druhé úrovnì se nyní pohybuje okolo 118 000) a zpøístupòuje detaily o jednotlivých doménách, ale kompletní seznam domén druhé úrovnì nezveøejòuje. Natìstí je zatím moné tento seznam standardní cestou získávat z jednoho ze zahranièních sekundárních jmenných serverù pro doménu .cz a bude tak moné zkoumat, nakolik úèinná je druhá cesta vedoucí k získání tìchto údajù, pouívaná vemi webovými roboty, tedy i Nedlib Harvesterem. Tato metoda je zaloena na extrakci odkazù vedoucích k dalím dokumentùm bìhem postupného procházení vech webových stránek, splòujících zadaná kritéria. Celkový poèet tímto zpùsobem nalezených domén druhé úrovnì ji pøekroèil hranici 30 000. Ve 2. pøípadì je situace jetì sloitìjí: v ideálním pøípadì by bylo nutné získat a analyzovat kompletní seznamy domén nejvyí úrovnì a pak postupovat stejným zpùsobem jako finský tým, který analyzoval adresy a telefonní èísla vlastníkù jednotlivých domén a automaticky rozíøil databázi adres pro sklízení o adresy, patøící finským vlastníkùm.

Aby bylo mono tyto postupy realizovat, je nutno nejprve stanovit, jaký je vlastnì rozsah èeského webu. Aèkoli jej mùeme zjednoduenì definovat jako 1) vechny dokumenty, publikované v doménì .cz, je zøejmé, e toto kritérium nemùe pokrýt celou èeskou online produkci. Proto by bylo vhodné tento rozsah rozíøit o mnoho dalích, vzájemnì se prolínajících kategorií: 2) dokumenty v doménách druhé úrovnì, registrovaných na subjekt se sídlem v Èeské republice 3) dokumenty publikované na serverech fyzicky umístìných v ÈR 4) dokumenty v èeském jazyce 5) dokumenty èeských autorù Graf 2: Zastoupení hlavních typù souborù 6) dokumenty se vztahem k Èesku. a archivù podle velikosti 170

NÁRODNÍ KNIHOVNA, 13, 2002, è. 3

Obdobnì ve 3. pøípadì je moné se pokusit zjistit co nejpøesnìji rozsahy IP adres pouívaných naimi primárními poskytovateli pøipojení (tj. èleny sdruení Neutral Internet eXchange, www.nix.cz). O tyto adresy pak bude obohacena databáze povolených adres. Tím zajistíme, e pøi sklizni nebudou vynechány ty servery, na které není odkazováno jménem, ale jen IP adresou. Teoreticky bychom sice mohli i aktivnì skenovat tyto rozsahy IP adres a hledat tak sputìné www servery, není ale pravdìpodobné, e by takto nalezené neregistrované servery obsahovaly hodnotné informace. Ve 4. pøípadì je situace sloitìjí: procházení celosvìtového webu s cílem najít stránky v èeském jazyce je sice technicky realizovatelné, zároveò vak neefektivní. Je ale moné, e v budoucnu pùjde tento problém alespoò èásteènì vyøeit ve spolupráci s dalími institucemi zabývajícími se touto problematikou tak, e vechny dokumenty staené danou národní institucí budou podrobeny automatické analýze pro rozpoznání jazyka a odkazy na nalezené stránky v cizím jazyce by byly pøedány pøísluné národní instituci. Na rozdíl od výe uvedených bodù by v pøípadech 5 a 6 bylo velmi obtíné, ne-li nemoné, automaticky rozhodnout, zda daný dokument spadá do zájmové oblasti. Zde bude záleet pøedevím na knihovnících nebo na vydavatelích samotných, zda takový server nebo dokument zaregistrují. Prostøedky pro takovou registraci budou pøipraveny jetì bìhem letoního léta. Pøedpokládáme proto, e roziøování oblasti zájmu mimo doménu .cz bude probíhat pomalu, spíe po jednotlivých serverech, nebo pouze jednotlivých dokumentech. Urèitým usnadnìním a urychlením tohoto procesu by snad mohla být analýza tìch dokumentù uloených mimo doménu .cz, na které vedou odkazy z této domény. Zde by se mohlo efektivnì uplatnit i automatické rozpoznání jazyka dokumentu. Stanovili-li jsme si tedy alespoò pøiblinì rozsah èeského webu, mùeme v jeho rámci zaèít hledat takovou podmnoinu zdrojù, kterou by bylo vhodné archivovat v co nejvìtí úplnosti, a tedy i co nejèastìji. Zde u nevystaèíme s èistì technickým øeením, tuto podmnoinu, která bude zároveò kandidátem na zaøazení do národní bibliografie, budou muset vytipovávat lidé k tomu urèení. V souèasné dobì se nabízí nìkolik zpùsobù, jak tuto èinnost zajiovat; nejperspektivnìjím z nich by mohlo být vyuití potenciálu projektu Jednotné informaèní brány CASLIN (octopus.ruk.cuni.cz). Jedním z výstupù tohoto projektu toti je prùbìnì aktualizovaný pøedmìtovì èlenìný informaèní portál online elektronických zdrojù. Správa jednotlivých oborù tohoto portálu bude svìøena vdy té knihovnì, která má v daném oboru nejvìtí zkuenosti. Díky tomu lze oèekávat, e kadý obor bude v portálu reprezentován nejvýznamnìjími informaèními zdroji, které se tak zároveò stanou, pokud splní dalí kritéria, souèástí národní bibliografie. Je zøejmé, e takto pojatý systém mùe mnoho serverù z národní bibliografie vylouèit, na druhou stranu je nutno mít na zøeteli to, e kadý zdroj zahrnutý do skupiny pro intenzivní sklízení s sebou nese nemalý díl kvalifikované lidské práce spojené s jeho zpracováním a pøíNÁRODNÍ KNIHOVNA, 13, 2002, è. 3

padnì analytickým popisem. Finanèní nároènost mùe být v takovém pøípadì samozøejmì sníena, dojde-li k nìjaké formì dohody s pøísluným vydavatelem. Vliv technického øeení na rozsah a prùbìh skliznì Volbou nejvhodnìjího nástroje pro plonou archivaci webu se v souèasné dobì zabývá nìkolik projektù v rùzných evropských zemích, za vechny lze zmínit testování v Rakousku nebo v Dánsku (www.netarkivet.dk). U nás pouívaný produkt, NEDLIB Harvester [6], v tìchto srovnávacích testech rozhodnì nezaostává a potvrzuje se tak, e byl v pilotní fázi projektu zvolen pro archivaci èeského webu zcela oprávnìnì. Jako kadý správný program, i Harvester je samozøejmì do znaèné míry konfigurovatelný. Vedle seznamu výchozích webových stránek a omezení rozsahu skliznì pomocí URL nebo jejich èástí lze nastavit i øadu dalích parametrù. Mezi nì patøí pøedevím povolení nebo zakázání podpory protokolu ftp, logování zamítnutých URL, akceptování omezení pro roboty na jednotlivých serverech (robots.txt), podpora URL s parametrem, nebo maximální hloubka zanoøení v rámci jednoho serveru. Zvlátì poslední dva parametry mohou velmi významnì ovlivnit rozsah a kvalitu skliznì. Podpora URL s parametry umoòuje omezit sklízení jen na ta URL, která neobsahují znak ?, jen v URL uvozuje seznam parametrù. Díky tomu lze sice do znaèné míry zabránit problémùm spojeným s nekoneènými smyèkami pøi procházení serverù, na druhé stranì se tak ale nepøíjemnì omezuje rozsah skliznì. Jako typický pøíklad lze uvést server root.cz, jeho jedinou stránkou, na kterou se dá dostat pomocí URL bez parametru, je jeho hlavní stránka. Protoe podobnì funguje vìtina elektronických periodik, vyøadili bychom ignorováním URL s parametry právì ty zdroje, které jsou z hlediska naeho kulturního dìdictví nejcennìjí. K zabránìní vzniku nekoneèných smyèek, kdy harvester donekoneèna prochází automaticky generované stránky na nìjakém serveru jen proto, e naráí na stále dalí dynamicky generovaná URL ukazující ve skuteènosti na stále stejný cíl, slouí právì parametr maximální hloubka zanoøení. Ten je nyní nastaven na 50 krokù a umoòuje tak sklízet bez problémù velkou vìtinu toho, co èeský web nabízí. Je ale pravdìpodobné, e mnohé dynamicky generované stránky se v archivu vyskytnou nìkolikrát jen proto, e se navzájem nepatrnì lií. Typickým pøíkladem jsou zde opìt webové stránky knihovního systému Aleph, které obsahují ve svém URL i ve vech dalích odkazech dynamicky generovaný identifikátor sezení (session-id), take URL mùe vypadat napøíklad takto: http://aleph.mzk.cz/ALEPH/YIG1EJP2FBE7 SEA4VNNM1KV97Q5T78FFN22M3ENFSHSUDS 66S8-01211/file/start-0. Pokud se harvester na takovouto stránku vrátí s èasovým odstupem delím ne nìkolik minut, pùvodní sezení je u na stranì Alephu uzavøeno a je vygenerován nový identifikátor ve formì nového URL. To je pak opìt navtíveno s delím èasovým odstupem a opakovanì archivo171

váno. Tento cyklus se opakuje tak dlouho, dokud není vyèerpán povolený poèet zanoøení. A podrobnou analýzou výsledkù skliznì ale bude moné rozhodnout, jak èasté takové pøípady jsou a jak se pøed nimi bránit nejen v tomto, ale i v dalích podobných pøípadech. Zde je vak nutno poznamenat, e k podobným problémùm dochází pouze v pøípadì, e správce daného serveru ve vlastním zájmu v souboru robots.txt nezakáe vem robotùm pøístup na inkriminovaná URL. Web Národní knihovny je jedním z tìch, na kterých bude moné po skonèení skliznì ovìøit kvalitu algoritmù harvesteru. Tento web je toti dostateènì rozmanitý na to, aby se na nìm vyskytovala vìtina dnes bìnì pouívaných webových technologií, zároveò je ale tak malý, e bude snadné porovnat jeho skuteèný rozsah s tím, co sklidil harvester. Ji nyní je ale zøejmé, e pøi sklízení webu Národní knihovny harvester mnoho dùleitých in-

formací vùbec nenael, protoe byly skryty za rùznými druhy prohledávacích rozhraní jako pøíklad mùeme jmenovat naskenované lístkové katalogy, obsah databází Alephu a dalí. Je samozøejmé, e a u je pro archivaci zvolen jakýkoli produkt, je jím vytvoøený archiv poplatný jeho limitùm. Ani NEDLIB Harvester není v tomto smìru samozøejmì výjimkou, a tak existuje nìkolik prozatím nepøekroèitelných omezení. Tím nejvýraznìjím omezením Harvesteru je absence podpory javascriptu. Dùsledkem tohoto stavu je to, e v archivu zcela chybìjí ty stránky, na nì vedou jen odkazy generované javascriptem a v prohlíeèi (typickým pøíkladem takových odkazù jsou odkazy do archivu Neviditelného psa). Zatím ménì bolestivým nedostatkem stejného charakteru je absence podpory prezentací ve formátu flash.

Tabulka 2: Nejrozsáhlejí domény v archivu název domény 2. úrovnì

poèet souborù

3web

22 454

511

23,3

24

58

Nixnet - webhosting

aktualne

22 499

839

38,2

23

37

Webzdarma - webhosting

atlas

19 751

461

23,9

28

67

Atlas - portál, webhosting

borec

23 156

1 027

45,4

21

31


cas

22 608

1 293

58,6

22

21

akademie vìd

2 432

2 738

1 152,8

528

10

firemní stránky

compaqplus cpress

prùmìrná velikost souboru [kB]

poøadí podle poètu souborù

poøadí podle celkové velikosti

zamìøení domény

7 189

920

131,0

69

34

vydavatelství, portál

cuni

61 395

1 548

25,8

8

19

vysoká škola

cvut

62 192

9 611

158,2

7

1

vysová škola

d2

68 819

1 788

26,6

5

16

Nixnet - webhosting

5 848

1 188

208,0

87

26

firemní stránky

euweb

27 656

1 030

38,1

17

30


fbi

25 641

687

27,4

19

49

S4U - webhosting

freemusic

7 265

1 891

266,5

68

14

hudba

gamesweb

66 704

4 195

64,4

6

3

gamez

2 293

1 107

494,2

587

27

NetCentrum – hry. ISSN

gamezone

6 053

1 049

177,4

82

29

Quick - hry

hyperlink

107 380

2 990

28,5

3

6

Cpress - webhosting

hyperlinx

49 125

1 868

38,9

11

15

Cpress - webhosting

idnes

18 585

747

41,1

29

41

Dnes - zpravodajství

ihned

21 841

867

40,6

25

36

HN - zpravodajství. ISSN

jrc

2 537

2 505

1 011,3

471

11

firemní stránky - hry

kgb

60 875

1 481

24,9

9

20

S4U - webhosting

linux

6 398

1 091

174,7

78

28

linux

misto

26 643

903

34,7

18

35

Reflektor - webhosting

mp3records

12 347

3 084

255,8

41

5

hudba

2 689

1 997

760,3

359

13

hudba

datasys

mp3shop

172

celková velikost souborù [MB]

Zoner - hry

NÁRODNÍ KNIHOVNA, 13, 2002, è. 3

muni

59 510

2 879

49,5

10

9

mysteria

16 405

714

44,5

35

46


nhlpro

41 608

1 600

39,4

12

18

sport

quick

30 049

954

32,5

16

33

Quick - webhosting

senat

3 305

1 017

315,2

203

32

státní instituce firemní stránky

sumanet

vysoká škola

345

1 279

3 796,9

3189

22

techno

17 511

242

14,2

33

119

tiscali

17 291

2 918

172,8

34

8

Tiscali - portál, webhosting

unas

37 784

1 211

32,8

14

24


2 765

2 502

926,7

276

12

vysoká škola

volny

17 601

497

28,9

32

60

Volny - portál, webhosting

vse

17 978

487

27,7

30

62

vysoká škola

vutbr

25 231

1 263

51,3

20

23

vysoká škola

web3

21 020

468

22,8

26

65

Nixnet - webhosting

153 167

3 932

26,3

2

4

NetCentrum - webhosting

webz

41 469

1 648

40,7

13

17


webzdarma

74 144

2 925

40,4

4

7


worldonline

9 588

1 193

127,4

54

25

153 729

6 379

42,5

1

2

vfu

webpark

wz

hudba. ISSN

Tiscali - webhosting Webzdarma - webhosting

xko

35 017

714

20,9

15

45

diskusní fóra

xpoint

19 871

310

16,0

27

85

Cpress - diskusní fóra

zpravodaj

17 738

564

32,6

31

55

Aliaweb - webhosting

85 110

55,3

výbìr celkem 1 575 501

Dalí nepøíjemné omezení není dáno ani tak vlastnostmi softwaru, jako výkonem nyní pouívaného hardwaru. Aèkoli je nyní Harvester pøipojen k Internetu rychlostí 100 Mbit/s a mohl by tedy teoreticky za den stáhnout øádovì stovky GB dat, server, na kterém je nyní provozován, dovoluje stahovat jen asi 6 GB dat dennì. Tento problém bude moné odstranit a poøízením nového serveru v prùbìhu druhého pololetí letoního roku. Protoe zde pøichází v úvahu nìkolik hardwarových platforem (pøedevím PC server/Linux a Sun/Solaris), probìhnou bìhem léta zátìové testy uvaovaných serverù, které by mìly bìhem nìkolikadenního sklízení ukázat jejich silné i slabé stránky. Jakmile bude vybraný server napevno nainstalován, bude na nìj pøenesen provoz harvesteru provádìjícího aktuální sklizeò a pùvodní server tak bude uvolnìn pro vývoj a testování. Výsledky dosavadního sklízení V úvodu zmínìná a v dobì psaní tohoto èlánku (èervenec 2002) ji tøetí mìsíc bìící sklizeò celé domény .cz by mìla ukázat mimo jiné i to, jaký je skuteèný rozsah èeského viditelného webu. Výchozími body pro tuto sklizeò byly pøedevím hlavní stránky internetových portálù seznam.cz a quick.cz. Pøes výe zmínìné problémy se do konce èervence 2002 podaøilo stáhnout 10 057 247 souNÁRODNÍ KNIHOVNA, 13, 2002, è. 3

borù o celkové velikosti pøes 241 GB. Tabulka 2 pak ukazuje 50 domén druhé úrovnì, které byly k 10. 6. 2002 na prvních 35 místech buï podle celkového poètu z nich staených souborù, nebo podle jejich celkové velikosti. Tato necelá 2 promile poètu doposud alespoò jednou navtívených domén 2. úrovnì tak nyní pøedstavují pøiblinì ètvrtinu objemu dosavadní skliznì. Tato tabulka také naznaèuje, jaké informaèní bohatství èeský web skrývá: mezi tìmito padesáti nejvìtími doménami, zastupujícími z velké èásti webhostingové firmy, najdeme 3 servery, kterým bylo pøidìleno ISSN, 6 univerzit, 1 univerzitou provozovaný specializovaný server (linux.cz), Èeskou akademii vìd a nìkolik zpravodajských a vydavatelských serverù. Pro zajímavost: doména nkp.cz je nyní s 5680 soubory a 130 MB na 92. místì podle poètu souborù, resp. na 234. místì podle jejich objemu, a proto je z tohoto hlediska koda, e se nìkteré aktivity NK prezentují mimo tuto doménu. Dlouhodobé uchování zdrojù Velikost Harvesterem tvoøeného archivu mùe snadno dosáhnout obrovských rozmìrù: jedno kolo stahování pøedstavuje v naich podmínkách stovky GB a mùe pøekroèit i hranici 1TB. Archiv s tak velkým potenciálem rùstu není samozøejmì snadné ani levné provozovat. Aè173

koli v souèasné dobì ji jsou na trhu za nízkou cenu pevné disky o kapacitách více ne 100 GB, infrastruktura archivu se musí opírat o robustní a dlouhodobì perspektivní øeení. Toto øeení musí brát v potaz nejen problémy technické, ale i finanèní a personální a musí být z provozního hlediska i dlouhodobì únosné. Nejde tedy jen o to, uloit nìkam jednorázovì 1TB dat, ale o to, aby byla tato data trvale online pøístupná, aby byla zajitìna prùbìná roziøitelnost archivu, zálohování dat a v neposlední øadì i jeho správa a údrba. V pilotní fázi projektu bylo s výhodou vyuito toho, e takové zaøízení ji v NK existuje a je jím páskový robot, který hostí i data z mnoha dalích, pøedevím digitalizaèních projektù. Výhodou páskového robota v pilotní fázi projektu byla pøedevím jeho roziøitelnost dokoupením relativnì levných pásek bylo moné rozíøit jeho kapacitu tak, aby robot pojmul vechna data získaná Harvesterem. V letoním roce ji nebude dalí roziøování jeho kapacity tak levné, protoe ji byla vyèerpána licencí pokrytá kapacita robota a mimo dalí pásky bude nutné zaplatit i rozíøení licence. Zde se vak ukazuje výhoda vyuívání jednoho zaøízení více projekty a aktivitami v rámci NK, protoe sdruením finanèních prostøedkù se daøí dosáhnout celkovì výhodnìjích cen od dodavatelù. Dalí výhodou páskového robota je bezpeènost na nìm uloených dat, která je zajitìna vysokou mírou redundance kadý dokument je uloen na tøech rùzných páskách. Relativnì rychlou dostupnost jak pro zápis, tak pro ètení pak zajiuje pøedøazené diskové pole, které funguje jako cache pamì pro souborový systém robota. Vzhledem k velkému objemu ukládaných dat nejsou archivované dokumenty ukládány do ádné databáze, ale pøímo do souborového systému robota. Dalím dùvodem podporujícím toto øeení je i usnadnìní budoucí migrace archivu na nové platformy je nutné si uvìdomit, e budovaný archiv by mìl být trvale dostupný i ve vzdálené budoucnosti, kdy u souèasný hardware beznadìjnì zastará. Protoe se ádný souborový systém nedokáe rozumnì vypoøádat s velkým mnostvím malých dokumentù, jsou novì získané dokumenty pøed uloením do archivu spojovány programem tar do balíkù po dvou tisících a poté jsou jetì komprimovány programem gzip. Spolu s kadým dokumentem jsou do balíku uloena v samostatném souboru i metadata popisující jeho vlastnosti, okolnosti jeho staení a v pøípadì html dokumentu i vechna metadata, která v nìm byla obsaena. Prùmìrná velikost jednoho takového balíku dat je 56 MB, díky kompresi se uetøí pøiblinì 15 % prostoru relativnì nízká úroveò komprese je dána pøevahou komprimovaných formátù souborù uloených v archivu. Velký poèet souborù v balíku sice mùe pùsobit problémy pøi zpøístupnìní archivu, na druhou stranu se s takto vybudovaným archivem lépe manipuluje. Lze pøedpokládat, e po hardwarové stránce nebude dlouhodobé uchování archivu obtíné. Rùst kapacity pamìových médií pøi souèasném poklesu cen dává nadìji, e celková cena provozu archivu se nebude zvyovat. Díky ji zmínìnému ukládání dat do souborového systému by nemìl být problém ani s migrací dat, která bude provádì174

na prostým zkopírováním na nové médium. Formáty tar a gzip jsou dostateènì zdokumentované a programy pro práci s nimi dostupné vèetnì zdrojového kódu pro kadý existující operaèní systém, není tedy pochyb o tom, e archivované dokumenty zùstanou trvale pøístupné. Vìtím oøíkem samozøejmì budou samotné archivované soubory. Je sice pravdìpodobné, e nejrozíøenìjími formáty zùstanou formáty dlouhodobì interpretovatelné (html, txt, gif, jpg), lze ale mít oprávnìné pochybnosti o vech proprietárních formátech, pøedevím tìch, které nejsou tak rozíøeny jako napøíklad formáty firem Adobe nebo Microsoft. I u formátù Microsoftu je vak zárukou jejich interpretovatelnosti spíe dostupnost alternativních programù s otevøeným kódem, které umìjí s tìmito formáty pracovat (OpenOffice), ne podpora ze strany Microsoftu. Otázka, zda v budoucnosti takové formáty konvertovat, nebo zda jít cestou emulace [7], vak zatím zùstává otevøená. A u bude v budoucnosti vývoj tohoto archivu jakýkoli, lze øíci, e vyuitím NEDLIB Harvesteru získala Národní knihovna vhodný nástroj pro tvorbu konzervaèního archivu èeského webu. Bibliografická správa a zpøístupnìní zdrojù Vytvoøení takového archivu je sice dùleitým, ale zároveò jen prvním krokem na cestì k naplnìní jeho smyslu, tedy ke zpøístupnìní jeho obsahu. Prvním krokem pøi zpøístupòování archivu musí samozøejmì být alespoò rámcové stanovení pouitých postupù, s nimi spojených pracovních procesù a jejich rozsahu. Je zøejmé, e ani spoleèným úsilím vech èeských knihoven nebude nikdy moné zkatalogizovat celý archiv èeského webu tento úkol bude nutné pøenechat strojùm. Pøes znaèný pokrok v oblasti poèítaèového porozumìní pøirozenému jazyku v posledních letech bude pravdìpodobnì jetì øadu let trvat, ne bude moné zaèít uvaovat o nasazení plnì automatizovaného nástroje pro bibliografický popis archivovaných dokumentù. Fulltext Pro zpøístupnìní archivu nám tak zùstávají technologie fulltextového indexování a automatizované extrakce autorem vytvoøených metadat. Koncem roku 2001 byl na MFF UK vypsán roèníkový týmový vývojový projekt na vytvoøení indexaèní a vyhledávací aplikace pro Webarchiv. Tato aplikace by mìla zpøístupnit staené dokumenty v jejich kontextu, tedy s vloenou grafikou ze stejné doby a s odkazy vedoucími primárnì opìt do archivu. Vyhledávání v archivu by mìlo být umonìno nejen na základì URL nebo kontrolního souètu dokumentu, ale i na základì z dokumentu extrahovaných metadat nebo fulltextového vyhledávání. Tato aplikace by mìla být navrena tak, aby bylo moné k ní kdykoli pøipojit moduly pro indexování jiných, ne textových typù souborù. Jakkoli se to mùe zdát na první pohled nereálné, nástroje tohoto typu ji existují a jeden z nich, Convera Retrievalware, je dokonce v NK zkuebnì provozován. Jedním z dalích cílù NÁRODNÍ KNIHOVNA, 13, 2002, è. 3

projektu bude proto pokus o jeho vyuití pro indexování nìkterých typù souborù obsaených v archivu. Zda bude nìkterá z tìchto technologií nasazena v reálném provozu, bude samozøejmì záviset i na døíve zmínìných legislativních otázkách. Je toti zøejmé, e stávající hardwarová platforma je pro ostrý provoz takového nástroje nevyhovující. To je dáno jednak nemoností soubìhu harvestingu a indexace na jednom serveru, kapacitní problémy se ovem týkají celé nyní pouívané hardwarové infrastruktury. Pokud bychom se toti napøíklad rozhodli vyuít pro fulltextové indexování nástroj Retrievalware, bude nutné pro kadých 100 GB textových souborù mít k dispozici 150GB diskového prostoru pro tvorbu indexù, resp. 70 GB pro jejich uloení. Pokud navíc bude potøeba zpøístupnit archiv více ne jednomu souèasnému uivateli, bude pravdìpodobnì nutné výraznì zmìnit dosavadní systém uloení dat. Páskový robot by pak bylo moné vyuívat jen jako zálohovací zaøízení, protoe by nebyl schopen rychlé odezvy na vìtí poèet paralelnì pøicházejících poadavkù. Dalím problémem by se pak mohlo stát samo uloení souborù do velkých komprimovaných balíkù. Pokud se pak takový desítky megabajtù velký balík musí dekomprimovat kvùli získání nìkolikabajtového obrázku, zaène být i zde rychlost odezvy na pováenou, i kdy balík je ji uloen na disku. Je proto moné, e v budoucnosti bude nutné hledat kompromisní øeení cestou sníení poètu souborù v balíku pøinejmením na desetinu, nebo bude nutné zcela oddìlit podobu archivu na páskovém robotu od podoby na rychlejím médiu, ke které by mìly pøístup programy zpøístupòující archiv uivatelùm. Je vidìt, e poadavek na zpøístupnìní celého archivu s sebou pøináí nutnost investovat kadým rokem èástku v øádu nejménì statisícù do hardwarového vybavení a dalí velké èástky do softwaru a lidských zdrojù (vývoj, správa apod.). Do doby, ne budou takové finanèní èástky dostupné, bude nutné se snait najít ménì nákladná øeení, která by zpøístupnila alespoò to nejdùleitìjí, co archiv nabízí. Metadata Jedním z takových øeení je vyuití faktu, e nìkteøí autoøi a vydavatelé mají zájem nebo jsou ochotni vkládat do publikovaných dokumentù metadata daný dokument popisující. Nejrozíøenìjím standardem na tomto poli, pomineme-li obecná klíèová slova, jsou metadata standardu Dublin Core (www.dublincore.org). Proto byla ji v rámci pilotního projektu vybudována infrastruktura zamìøená na podporu vyuívání metadat DC u nás. Tato infrastruktura by mìla usnadnit zapojení autorù a vydavatelù do procesu tvorby a zveøejòování metadat ji v okamiku publikování dokumentu. Nejdùleitìjí èástí této intrastruktury je Dublin Core Metadata Generator. Tento nástroj, veøejnì pøístupný na serveru projektu (http://webarchiv.nkp.cz), umoòuje autorùm webových stránek poloautomaticky nebo ruènì vytvoøit, editovat, konvertovat a ve zvolené syntaxi uloit metadata respektující pravidla kvalifikovaného DubNÁRODNÍ KNIHOVNA, 13, 2002, è. 3

lin Core (ta byla v rámci pilotního projektu pøeloena do èetiny a zveøejnìna na èeských stránkách iniciativy Dublin Core). Dublin Core Metadata Generator byl pùvodnì spoleènì s dalími nástroji pøevzat s minimálními úpravami od Helsinské univerzitní knihovny, která jej vyvinula v rámci projektù Nordic Metadata I a II (http://www.lib.helsinki.fi/ meta/). Na základì výsledkù zkuebního provozu byl program postupnì upravován a do dnení podoby. Významným pokrokem zde bylo napøíklad zavedení podpory extrakce externì uloených metadat ve formátu RDF/XML. Výstupní formát HTML byl upraven tak, aby vygenerovaná metadata byla kompatibilní s XHTML 1.0, zatímco výstup generovaný ve formátu XML/RDF byl zpøehlednìn a byla aktualizována pouitá syntaxe. I samotný formuláø pro vkládání metadat doznal urèitých zmìn, z nich nejvýznamnìjí je volba kvalifikátorù prvku Subject tak, aby odpovídaly u nás pouívaným systémùm vìcného tøídìní, a také doplnìní funkce automatického vloení jedineèného èísla národní bibliografie ve formátu URN pøímo do pole Identifier, pokud bylo toto pole pøedtím prázdné. To zajiuje uivateli vìtí pohodlí a výraznì zmenuje riziko chyb hrozících jinak pøi kopírování nebo pøepisu identifikátoru. Doufáme, e právì cesta získávání URN autory dokumentù bìhem tvorby metadat popisujících tyto dokumenty v budoucnosti uèiní pouívání samostatného formuláøe pro pøidìlování URN zbyteèným. Zmínìné pøidìlení jednoznaèného identifikátoru je umonìno propojením Dublin Core generátoru s generátorem URN. Ten byl nejprve jen lokalizován, ale právì kvùli propojení s DC generátorem musel být pozdìji mírnì upraven. Ji nyní se ale chystá úprava systému pøidìlování URN tak, aby program pøidìlující URN fungoval jako samostatný URN server, pøièem budou zveøejnìny funkce pro získání URN v èasto pouívaných programovacích jazycích, co umoní snadnou integraci této funkce pøímo do publikaèních systémù vydavatelù online zdrojù. Díky tomu by se pøidìlování URN mìlo stát zcela automatickým procesem. Øadu pomùcek dostupných na serveru Webarchivu doplnil i kalkulátor MD5. Ten umoòuje spoèítat kontrolní souèet MD5 zadaného textového øetìzce. Pokud je tímto øetìzcem platné URL nìjakého dokumentu, mùe kalkulátor tento dokument stáhnout a spoèítat jeho kontrolní souèet. Protoe jsou tyto kontrolní souèty pouívány pro identifikaci dokumentù archivovaných Harvesterem, je jedna z moností vyuití Kalkulátoru zøejmá: mùe slouit jako pomùcka pøi analýze práce Harvesteru i pøi zkoumání archivu samotného. Národní bibliografie Pokud bychom z archivu vydìlili ty dokumenty, ke kterým existuje metadatový popis podle standardu Dublin Core, mohli bychom na jejich základì vybudovat mení bibliografickou databázi obsahující pøípadnì i plné texty dokumentù. Ani zde by nebylo nutné provádìt vývoj na zelené louce, protoe pøesnì taková databáze je ji v NK 175

v oddìlení analytického popisu provozována (full.nkp.cz) a aplikace, která za touto databází stojí, by se urèitì dala upravit tak, aby byla schopna pøijímat dokumenty pøedávané automaticky z WebArchivu. Ani takto získané záznamy se vak nemohou bez vyhodnocení obsahu primárního dokumentu a podrobnìjího zpracování stát souèástí Èeské národní bibliografie. Právì takovou skupinou dokumentù by ale mohly být dokumenty získané cestou intenzivního sklízení. Jak jsme si ji øekli, jde o dokumenty ze zdrojù vytipovaných samotnými knihovníky pøi tvorbì pøedmìtového portálu Jednotné informaèní brány CASLIN. Tyto zdroje, kterých by mìly být øádovì desítky, nejvýe pak stovky, by mohly být øádnì zkatalogizovány ve formátu MARC, na co by pøípadnì mohlo navázat kooperativní analytické zpracování vybraných èlánkù, opìt standardním zpùsobem v tomté formátu. Pomocí od vydavatele by zde samozøejmì mohlo opìt být vloení metadat pøímo do zdrojového textu èlánku.

Závìr Aèkoli je díky vytvoøené infrastruktuøe ji nyní moné udìlat mnohé pro zachování dneních informaèních zdrojù pro budoucí generace, vývoj této infrastruktury, stejnì jako vývoj v podstatì vech softwarových produktù, nemùe být nikdy zcela ukonèen. Zde nejde jen o hledisko potøeb uivatele nebo provozovatele, ale i o hledisko technického vývoje, mezinárodní spolupráce nebo problematiku legislativní. S tím, jak bude stoupat podíl èistì elektronické produkce, bude rùst i význam její dlouhodobé archivace z hlediska ochrany národního kulturního dìdictví.

Mezinárodní spolupráce Je patrné, e práce na poli zpøístupnìní archivu budou dlouhodobou záleitostí, která si vyádá nemalé prostøedky. Jednou z cest, jak tyto prostøedky získat, je spolupráce na mezinárodní úrovni, která se velmi osvìdèila ji bìhem øeení pilotního projektu. Spolupráce s Helsinskou univerzitní knihovnou, která zapoèala pøevzetím nástrojù vyvinutých jejími pracovníky (NEDLIB Harvester, Dublin Core Metadata Generator, URN Generator), pokraèovala dále spoluprací na jejich dalím vývoji vechny opravy a úpravy, které byly v prùbìhu øeení projektu na pøevzatých programech provedeny, byly poskytnuty i finskému týmu, který se zamìøil pøedevím na dalí vývoj Harvesteru. Dalím souvisejícím krokem na poli mezinárodní spolupráce bylo pak navázání kontaktù s týmem Technické univerzity ve Vídni, øeícím problematiku archivace rakouského webu ve spolupráci s Rakouskou národní knihovnou. Díky navázání tìchto kontaktù se pak NK spoleènì s Masarykovou univerzitou a dalími dvìma èeskými firmami mohla stát èlenem skupiny národních knihoven a dalích organizací z tøinácti evropských zemí, které spoleènì podaly Vyjádøení zájmu (Expression of Interest) o vypsání projektu s názvem Archiv evropského webu v rámci 6. rámcového programu Evropské unie. Cílem tohoto projektového zámìru je sjednotit roztøítìné národní iniciativy jednotlivých evropských zemí a podpoøit tak vytvoøení distribuovaného archivu evropského webu, zaloeného na síti národních archivù jednotlivých zemí. Zámìr projektu je vak mnohem ambicióznìjí ne to, co bylo zatím mono dosáhnout v rámci ÈR. Jeho cílem je vytvoøit spoleèné postupy, doporuèení a poloit základ jednotné infrastruktury v této oblasti. Bude-li tento zámìr akceptován, je pravdìpodobné, e ji v pøítím roce dojde v oblasti dlouhodobého uchování elektronických zdrojù k výraznému posunu jak v praktické, tak i v teoretické rovinì. 176

Literatura: [1] Registrace, ochrana a zpøístupnìní domácích elektronických zdrojù v síti Internet : závìreèná zpráva za léta 2000-2001 [online]. Praha : Národní knihovna ÈR, leden 2002, [cit. 2002-06-15]. Dostupný na WWW: . [2] CELBOVÁ, Ludmila. Stanou se online dostupné elektronické zdroje integrovanou souèástí digitálních knihoven? Národní knihovna, 2001, roè. 12, è. 2, s. 91-98. Dostupný té na WWW: . [3] ABIÈKA, Petr. Infrastruktura Webarchivu v roce 2002. In Inforum 2002. Praha : Albertina icome Praha, s.r.o., 2001. Dostupný na WWW: . [4] LIDMAN, Thomas. New Decree for Kulturarw3 [online]. Stockholm : The Royal Library, June 10, 2002, [cit. 2002-06-15]. Dostupný na WWW: . [5] ABIÈKA, Petr. Nástroje pro tvorbu metadat Dublin Core. In Automatizace knihovnických procesù - 8. Praha : ÈVUT - Výpoèetní a informaèní centrum, 2001, s. 86-91. Dostupný té na WWW: . ISBN 80-01-02-366-4 [6] ABIÈKA, Petr. NEDLIB Harvester - technika skliznì informací. Ikaros. [online]. 2000, roè. 4, è. 10 [cit. 2002-06-15]. Dostupný na WWW: . ISSN 1212-5075. [7] ROTHENBERG, Jeff. Using emulation to preserve digital documents. Hague : Koninklijke Bibliotheek, July 2000. 69 s. Dostupné té na WWW: . ISBN 90-6259145-0. NÁRODNÍ KNIHOVNA, 13, 2002, è. 3

ARCHIV ÈESKÉHO WEBU V ROCE 3

Recommend Documents