Ochrana a trvalé zpřístupnění webových zdrojů jako součásti národního kulturního dědictví
Průběžná zpráva realizace projektu v roce 2008
Jméno řešitele: Ing. Libor Coufal
Národní knihovna České republiky Klementinum 190 110 00 Praha 1
27. listopadu 2008
A
KONSTATAČNÍ ČÁST ......................................................................................................................... 3 A.1 A.2 A.3
B
REŠERŠE ........................................................................................................................................... 3 SOUČASNÝ STAV VE SVĚTĚ A V ČR................................................................................................... 4 VSTUPNÍ DATA A CÍL ......................................................................................................................... 7
ANALYTICKÁ ČÁST ........................................................................................................................... 9 B.1 B.1.1 B.1.2 B.1.3
VLASTNÍ ŘEŠENÍ ............................................................................................................................... 9 VÝZKUM APLIKACE METODY KONSPEKT PRO VYHLEDÁVÁNÍ ZDROJŮ V ARCHIVU ....................... 9 LOKALIZACE A TESTOVÁNÍ NOVÝCH (VERZÍ) SW NÁSTROJŮ ...................................................... 10 VÝZKUM MOŽNOSTI CELOPLOŠNÉHO SKLÍZENÍ BOHEMIKÁLNÍCH ZDROJŮ UMÍSTĚNÝCH MIMO DOMÉNU .CZ................................................................................................................................................. 14 B.1.4 MOŽNOSTI PRŮBĚŽNÉ ANALÝZY SKLIZNĚ .................................................................................. 15 B.1.5 PODKLADY PRO AKTUALIZACI LEGISLATIVY K POVINNÉMU VÝTISKU SÍŤOVÝCH PUBLIKACÍ...... 15 B.2 PŘÍNOS ŘEŠITELŮ ............................................................................................................................ 19 B.3. POSUN ZNALOSTÍ ............................................................................................................................ 19 C
NÁVRHOVÁ ČÁST ............................................................................................................................. 20 C.1 C.2 C.3
D
VÝSLEDKY ŘEŠENÍ .......................................................................................................................... 20 ZÁVĚR ............................................................................................................................................ 20 NÁVRHY OPATŘENÍ......................................................................................................................... 21
RESUMÉ A KLÍČOVÁ SLOVA......................................................................................................... 22 E.1 RESUMÉ A KLÍČOVÁ SLOVA V ČEŠTINĚ ........................................................................................... 22 E.2 RESUMÉ A KLÍČOVÁ SLOVA V ANGLIČTINĚ ..................................................................................... 22 /ABSTRACT AND KEY WORDS IN ENGLISH/................................................................................................... 22
2
A
KONSTATAČNÍ ČÁST
A.1 Rešerše Publikační a přednášková činnost v roce 2008: A digital archive of Czech documents published on internet. Praha : Národní knihovna ČR, 2008. 2 s. Leták. CELBOVÁ, Ludmila, et al. Archivace webu. Praha : Národní knihovna ČR, 2008 [vyjde v průběhu prosince]. CELBOVÁ, Ludmila. Český web a povinný výtisk – jde to spolu dohromady? Knihovna plus [online]. 2008, č. 1 [vyjde v průběhu prosince]. Dostupný z WWW:
. ISSN 1801-5948. COUFAL, Libor. Living web archives. In: Knihovny současnosti 2008 [online]. Brno : Sdružení knihoven ČR, 2008 [cit. 2008-11-25]. Dostupný z WWW: . Digitální archiv českých dokumentů publikovaných v prostředí sítě Internet. Praha : Národní knihovna ČR, 2008. 2 s. Leták. GRUBER, Lukáš. Creative Commons a česká legislativa. In: Creative Commons konference a anti-copyright hysteria.sk. Praha : DigiLab AVU, 2008 [cit. 2008-11-25]. Dostupný z WWW: . GRUBER, Lukáš. Creative Commons a šedá literatura. In: Seminář ke zpřístupňování šedé literatury 2008 [online]. Brno : Vysoké učení technické v Brně, 2008 [cit. 2008-1125]. Dostupný z WWW: . GRUBER, Lukáš. Licence Creative Commons a perspektiva jejich zavedení do českého prostředí. Ikaros [online]. 2008, roč. 12, č. 3 [cit. 2008-11-25]. Dostupný z WWW: . URN-NBN:cz-ik4612. ISSN 1212-5075. GRUBER, Lukáš. Úvod k licencím Creative Commons. In: Seminář IVIG 2008 [online]. Praha : Odborná komise pro informační vzdělávání a informační gramotnost na vysokých školách, 2008 [cit. 2008-11-25]. Dostupný z WWW: . GRUBER, Lukáš; SÍBEK, Tomáš. Přístup k národnímu webovému archivu. In: 9. konference Archivy, knihovny, muzea v digitálním světě 2008. Praha : Svaz knihovníků
3
a informačních pracovníků České republiky, 2008 [cit. 2008-11-25]. Dostupný z WWW: . HUTAŘ, Jan; MELICHAR, Marek; CUBR, Ladislav. Persistentní identifikátory v NK – rok poté? In: Knihovny současnosti 2008 [online]. Brno : Sdružení knihoven ČR, 2008. [cit. 2008-11-18]. Dostupné z WWW: . HUTAŘ, Jan; MELICHAR, Marek; CUBR, Ladislav. Stav implementace perzistentních identifikátorů v NK ČR a výhled do budoucnosti. In: 1. ročník semináře zaměřeného na problematiku uchovávání a zpřístupňování šedé literatury, 8. 10. 2008 [online]. Praha : Státní technická knihovna, 2008 [cit. 2008-11-25]. Dostupné z WWW: . ISSN 1803-6015. VLČEK, Ivan. Identification and archiving of the czech web outside the national domain. In: IWAW : 8th international web archiving workshop : Aaarhus, Denmark, 18th & 19th September 2008 [online]. Aaarhus : IWAW, 2008 [cit. 2008-11-25]. Dostupný z WWW: . WebArchiv : [příspěvek sestříhaný z rozhoru s Liborem Coufalem]. Odpolední Radiožurnál s Hankou Sháněčovou [rozhlasový pořad]. 23. 7. 2008. Dostupný z WWW: . WebArchiv ČR : [rozhovor s Liborem Coufalem a Petrem Krčmářem]. Třetí dimenze [rozhlasový pořad]. 21. 11. 2008. Dostupný z WWW: .
A.2 Současný stav ve světě a v ČR V roce 2008 se řešitelé projektu aktivně zapojili do účasti na dvou významných výzkumných aktivitách s mezinárodní účastí. Národní knihovna ČR je od roku 2007 členem mezinárodního konsorcia IIPC. V roce 2008 se zástupci NK ČR podíleli v rámci tohoto konsorcia zejména na činnosti v pracovní skupině Preservation, která se zaměřuje na doporučení pro trvalé uchování webových archivů vycházející z existujících standardů pro uchování digitálních dokumentů. Vzhledem k rozmístění členů pracovní skupiny mezi několika kontinenty je velmi obtížné najít vhodný způsob komunikace. V roce 2008 se podařilo zorganizovat dvě pracovní setkání, jedno v rámci dubnového výročního zasedání IIPC v Canbeře v Austrálii a druhé při příležitosti konference iPres v říjnu v Londýně. Mimo to se v průběhu roku uskutečnilo několik telekonferencí. Hlavním výstupem činnosti této nové pracovní skupiny bylo stanovení sedmi prioritních témat pro další práci: • •
diskuze cílů uchování, včetně filozofických otázek, akceptovatelné úrovně ztráty a vztahu k institucionálním akvizičním politikám, rozvoj praktických znalostí a schopností personálu v oblasti uchování, 4
• • • • •
vhodnost jednotlivých strategií pro uchování, jako jsou konverze formátů a emulace, pro webové archivy, monitorování vývoje a stavu technického prostředí webu, problematika dlouhodobého uchování v souvislosti s novým archivačním formátem WARC, metadata pro dlouhodobé digitální uchování, pracovní postupy v oblasti dlouhodobého uchování.
Národní knihovna ČR se spolu s několika dalšími institucemi zapojila do práce na dokumentaci technologických závislostí na webu. V rámci tohoto pracovního úkolu bude vytvořen datový model pro popis a ustanoven mechanismus pro pravidelné monitorování technického prostředí webu. Výsledky monitoringu budou volně k dispozici a dlouhodobě spravovány, aby mohly sloužit jako základ pro následné rozhodování a konkrétní kroky při dlouhodobém uchování. Monitoring prostředí bude zahrnovat: • • • •
běžné souborové formáty na webu, formáty pro archivaci webu, webové prohlížeče a jejich závislosti, závislosti mezi prohlížeči a formáty.
V rámci tohoto pracovního úkolu budou prozkoumány existující přístupy k modelování technických prostředí a jejich závislostí, jako je např. GDRF nebo PRONOM. Pokud se tyto přístupy ukáží jako užitečné, budou využity a popřípadě rozšířeny. Výsledky monitoringu budou nezávislé na zvolené strategii uchování a umožní podporu jak emulace, tak migrace formátů. Kromě jiného budou také identifikovat formáty, vyskytující se běžně ve webových archivech budovaných na konci 20. století, které jsou nedostatečně podporovány nebo vykazují jiné problémy, a budou obsahovat doporučení pro popis jejich závislostí. První testovací monitoring proběhne v roce 2009. Na výročním zasedání IIPC v Canbeře bylo jedním z velmi diskutovaných témat možnost sklízení webu mimo národní doménu (tzv. top level domain – TLD). Ukazuje se, že se jedná o velmi aktuální téma, zejména pro národní knihovny provádějící celoplošné sklizně svých národních domén. Národní knihovna ČR se touto tématikou zabývá již několik let a je pravděpodobně první institucí, která se v této oblasti může pochlubit praktickými výsledky. V letošním roce byl ukončen vývoj první verze přídavného modul Heritrixu WebAnalyzer a byl vyzkoušen v rámci první testovací sklizně mimo doménu .cz s velmi uspokojivými výsledky. Tyto výsledky byly v září prezentovány na každoročním semináři International Web Archiving Workshop (IWAW) 2008 v dánském Aarhusu. Prezentace se setkala s velkým ohlasem a Národní knihovna ČR byla oslovena několika zájemci o spolupráci a také s nabídkou na vedení mezinárodního projektu v rámci IIPC v roce 2009.
5
Druhou z těchto aktivit je účast na projektu Living Web Archives (LiWA). [1] Jde o mezinárodní evropský výzkumný projekt zaměřený specificky na archivaci webu. Projekt je financován Evropským společenstvím z prostředků 7. rámcového programu. Doba trvání projektu je 36 měsíců, od února 2008 do ledna 2011. Projektu LiWA se účastní 8 partnerů, výzkumných institucí a webových archivů, z pěti evropských zemí: Velké Británie, Maďarska, Německa, Nizozemska a České republiky. Koordinátorem projektu je Leibniz Universität Hannover, Das Forschungszentrum L3S [2] (Německo). Dále se projektu účastní Max-Planck-Institut für Informatik [3] (Německo), Magyar Tudományos Akadémia, Számítástechnikai És Automatizálási Kutatóintézet [4] (Maďarsko), European Archive [5] (Nizozemsko), Hanzo Archives Ltd. [6] (VB) a Stichting Nederlands Instituut voor Beeld en Geluid [7] (Nizozemsko). Za Českou republiku se projektu kromě Národní knihovny ČR účastní také druhý z partnerů projektu WebArchiv, Moravská zemská knihovna. Hlavní motivací projektu je neustálý vývoj a zdokonalování technologií používaných pro tvorbu webových stránek. Nástroje pro sklízení webu byly vyvinuty v jeho počátcích v 90. letech 20. století a byly založeny na tehdejším stavu technologií, zejména na extrakci odkazů z prostého HTML. Současné webové stránky ale ve stále větší míře využívají moderní technologie, jako jsou např. databáze, skriptovací jazyky, Flash nebo multimédia. Vývoji těchto technologií je nutné permanentně přizpůsobovat harvestery, aby bylo možno moderní webové stránky sklízet v patřičné kvalitě. Ovšem s tím, jak se webové technologie stávají stále sofistikovanějšími, narážejí harvestery na skryté hranice svých technických možností. Prostá evoluce již není dostačující a je třeba vyvinout nové, revoluční přístupy ke sklízení webu. Druhým důvodem pro vznik LiWA je to, že webové archivy jsou budovány s dlouhodobou perspektivou, typicky minimálně v řádu několika desetiletí. Během takto dlouhého období je pochopitelně logické očekávat značný posun ve společnosti, zejména pokud jde o vývoj jazyka, respektive používané terminologie. To bude mít samozřejmě vliv na používání webových archivů budoucími uživateli. Aby byla zachována jejich dlouhodobá smysluplná využitelnost, musí webové archivy začít průběžně podchycovat a dokumentovat sémantickou a terminologickou evoluci.
1 www.liwa-project.eu 2 http://www.l3s.de 3 http://www.mpg.de/ 4 http://www.sztaki.hu/?en 5 http://europarchive.org/about.php 6 http://www.hanzoarchives.com/ 7 http://instituut.beeldengeluid.nl/
6
Předmětem výzkumu projektu LiWA jsou tyto čtyři oblasti: •
• •
•
Kompletnost obsahu webových archivů – pokročilá extrakce odkazů (jiných než HTML, např. z java skriptu), archivace skrytého webu, automatické vyplňování webových formulářů, sklízení jiných protokolů než http (např. protokoly pro streamované video). Filtrace nepodstatného obsahu (šumu) – identifikace a redukce spamu, obcházení webových pastí, detekce změn a duplikátů. Časová koheze – zlepšení temporální skladby archivu pomocí metody datování, identifikace, analýza a korekce časových mezer, zajištění konzistence v rámci federovaných webových archivů. Sémantický vývoj a dlouhodobá interpretovatelnost – zajištění dlouhodobé využitelnosti webových archivů podchycením terminologické a sémantické evoluce.
Cílem LiWA je vyvinout novou generaci technologií pro archivaci webu, která zvýší kvalitu webových archivů a jejich dlouhodobou využitelnost. To se projeví v dlouhodobé interpretovatelnosti, zvýšené důvěryhodnosti a rozmanitosti obsahu webových archivů. Výstupem projektu bude sada inovativních služeb pro sklízení, uchování a obohacení obsahu webu, dále 2 demo aplikace (streaming a sociální web) a integrované referenční „open source“ řešení pro archivaci webu kompatibilní s výsledky práce IIPC.
A.3 Vstupní data a cíl Rámcovým cílem projektu je hlouběji se zabývat aspekty ochrany a trvalého zpřístupnění webových zdrojů, a to jak z hlediska vývoje informačních technologií, tak i z hlediska legislativního. Tento cíl má směřovat k efektivnímu zpřístupňování online zdrojů jak prostřednictvím sekundárních souborů informací, tak i přímým přístupem do primárních zdrojů uložených v digitálním archivu. Výzkum byl v roce 2008 zaměřen na následující oblasti: • • • •
Výzkum aplikace Konspektu pro vyhledávání zdrojů v archivu. Lokalizace a testování nových (verzí) SW nástrojů. Výzkum možností sklízení bohemikálních zdrojů umístěných mimo doménu .cz. Výzkum možností optimalizace dohledu nad probíhajícími sklizněmi.
Výzkum je postaven na práci s daty uloženými do archivu webu v letech 2000 – 2008, tzn. s daty z celoplošných sklizní z let 2001, 2002, 2004, 2005, 2006 a 2007 a z výběrových i tematických sklizní – celkový objem vstupních dat pro letošní rok 8,8 TB. Do roku 2007 byl roční nárůst dat značně limitován kapacitou úložného prostoru používaného hardware. Od roku 2007 jsme počítali s využitím kapacity datového úložiště, pořízeného Národní knihovnou ČR z grantových prostředků Ministerstva informatiky ČR. To byl také jeden z důvodů razantního rozšíření počtu výběrových sklizní během roku. Dále byly od roku 2008 plánovány dvě celoplošné sklizně české národní domény .cz ročně. Bohužel, ani v roce 2008 se nepodařilo včas zajistit dostatečnou kapacitu úložiště.
7
Ke dni podání této zprávy činí celkový objem nekomprimovaných dat WebArchivu po provedení osmi výběrových sklizní cca 11 TB, přičemž do konce roku 2008 zbývá uskutečnit ještě jednu výběrovou a jednu celoplošnou sklizeň. Vzhledem k tomu, že výzkum v oblasti archivace webu je náročný na kapacitu hardwaru (jak úložnou, tak výpočetní), a ani testování se neobejde bez testů na reálných (tedy extrémně velkých) objemech dat, byly v letošním roce zakoupeny dva servery s velkým vlastním diskovým prostorem (24x 1 TB hrubé úložné kapacity v každém serveru). Jeden z těchto serverů nahradil nejstarší z nyní používaných serverů projektu, je umístěn v Brně a používán primárně k testování sklízení webu. Druhý je pak umístěn v budově depozitáře Národní knihovny ČR v Hostivaři a bude sloužit především k testování fulltextové indexace velkých objemů dat, zároveň ale i k dočasnému ukládání dat pořízených na druhém serveru v Brně v okamžicích, kdy není dostatek volného úložného prostoru na centrálním datovém úložišti. V současné době jsou již k dispozici i 1,5 TB disky testované k použití v diskových polích a dá se předpokládat, že jejich kapacity dále porostou a bude možné v případě potřeby relativně nízkým nákladem zdvojnásobit úložnou kapacitu obou serverů. Při takto velkých objemech dat ovšem stoupá riziko dvojího selhání (selhání jednoho disku v době, kdy probíhá zotavení systému z výpadku jiného disku stejné RAID skupiny). Proto byl na obou systémech realizován RAID6 (2x12 disků) a celková úložná kapacita každého serveru je tak cca 20TB.
8
B
ANALYTICKÁ ČÁST
B.1 Vlastní řešení B.1.1 Výzkum aplikace metody Konspekt pro vyhledávání zdrojů v archivu V loňském roce byl vyvinut nástroj řešící zpřístupnění webových zdrojů podchycených v knihovnickém systému Aleph formou předmětově organizovaného rozcestníku, strukturovaného podle metodiky Konspekt. Jde o nástroj využívající OAI-PMH rozhraní Alephu k získávání záznamů o webových zdrojích ve formátu MARC. Právě OAI-PMH rozhraní na straně Alephu však bylo nejproblematičtější částí nasazení tohoto nástroje. Situaci nakonec vyřešil přechod Alephu na verzi 18 a s tím spojený přechod na zcela jinou implementaci OAI data provideru.
Obr. 1 Oborové členění zdrojů dle Konspektu XML soubor vytvořený po stažení aktualizovaných dat prostřednictvím OAI je pomoci XSL šablony posléze transformován na XHTML strukturu, která je použita ve webové prezentaci projektu. Na stránce je použita funkcionalita skrývání jednotlivých kategorií a plynulého přecházení mezi nimi, což je zajištěno kombinací JavaScriptu a kaskádových 9
stylů. Zobrazení hlavních kategorií navíc ukazuje počet zdrojů v jednotlivých kategoriích a ukazuje tak například že nejméně početná je nyní kategorie Matematika a nejvíce je zastoupena kategorie Geografie, geologie. Dokončený nástroj je v ostré verzi provozován na adrese http://webarchiv.cz/konspekt/ a jeho kód je odladěn v nejběžnějších verzích internetových prohlížečů.
B.1.2 Lokalizace a testování nových (verzí) SW nástrojů Průběžně probíhalo testování a implementace nových verzí softwarových nástrojů. Heritrix Heritrix zůstává i nadále klíčovým nástrojem pro sklízení webu. Nejvýznamnější z našeho pohledu je samozřejmě to, že došlo ke schválení formátu WARC coby ISO standardu. Nyní již existuje finální verze textu normy – DIS 28500 (popisující WARC 0.18, která ale bude přejmenována na 1.0). Ta řeší poslední připomínky, ale je již schválena všemi členy ISO. V letošním roce byly postupně testovány tři verze Heritrixu: Verze 1.14.0 • Přidána podpora WARC formátu (umožňuje uchovávání více metadat, informace o deduplikaci apod.). Tato podpora přešla ze stavu Experimental do stavu Final a to pro verzi WARC 0.17. • Přidán modul TopmostAssignedSurtQueueAssignmentPolicy. Tento modul umožňuje řazení jednotlivých front pro sklízení podle nejvyšší domény dané země. • Zlepšení výstupních zpráv vhodných k analýze. • Odstraněna chyba OutOfMemory (vyčerpání paměti), která vznikala při dlouhých frontách (zásadní při celoplošných sklizních). Verze 1.14.1 • WARC – podpora verze 0.18. • Modul extrahující odkazy ze souborů typu Flash nyní podporuje velikost větší než 64KB. • Lepší zpracování odkazů generovaných JavaScriptem – pokud se v řetězci nachází "http://", je s odkazem zacházeno jako s absolutním, místo relativního. • Podpora direktiv "Crawl-Delay" a "Allow" v souboru, který omezuje přístup robotů na stránku (robots.txt). Heritrix v2 Nová vývojová větev Heritrixu přináší tyto zásadní změny: • • •
Striktní oddělení sklízecího robota a ovládacího rozhraní (to umožňuje sklízet na více strojích a ovládat vše z jednoho webového rozhraní). Nový formát a systém práce se soubory obsahující nastavení robota (převzato z projektu Spring), umožňuje dynamickou konfiguraci. Jemnější granularita při nastavení specifických pravidel pro domény a adresy.
10
•
Nový systém řazení front, který porovnává nastavenou důležitost – tu je možné přiřadit na různých úrovních objektů.
Nová vývojová větev sebou přínáší i řadu změn, které budou znamenat ruční práci při převádění souborů s nastavením ze starší verze. Druhým nejistým faktorem je i formát tohoto souboru, který se podle okolností bude měnit ve verzi 2.2. Tím pádem je v tuto chvíli efektivnější počkat na ustálení nové verze, protože práce, která by se nyní musela investovat je větší, než konečný přínos pro projekt. WebCurator
Nadále sledujeme vývoj systému Web Curator Tool, který vznikl ve spolupráci Národní knihovny Nového Zélandu a Britské knihovny. Verze 1.3.0 • Přidána a upravena především funkcionalita týkající se správy uložených smluv, vydavatelů a celkově upraveno uživatelské rozhraní. Verze 1.4.0 • Integrován Heritrix 1.14.0 a Wayback 1.2. • Vylepšena práce s výstupními logy. • Opraveno několik zásadních chyb (i bezpečnostních děr). Netarchive Suite
Jak již bylo zmíněno v loňském roce, je tento dánský systém našim podmínkám mnohem blíže a stává se základem nové, zcela přepracované verze nástroje WA Admin. Verze 3.4.0 • Podpora přístupu skrze protokol HTTPS (zlepšení bezpečnosti). • Podpora TLD složené ze dvou částí (např. co.uk). • Oddělení Heritrixu, nyní je kontrolován skrze JMX – lze ho tedy ovlivnit i z jiné aplikace. Verze 3.6.0 • Podpora správce zabezpečení (konfigurovatelný skrze conf/security.policy a zvyšující bezpečnost především archivovaných souborů). • Zjednodušené skripty pro instalaci – je méně časově náročné instalovat software na více strojů. • Nahrazení původních profilů pro Heritrix profily, které používají modul DecidingScope (nynější standard pro Heritrix – viz výše, je možné využít WebAnalyzer). • Přidána možnost nastavení datové velikosti tematické sklizně (např. 500MB na množinu semínek). • Odstraněn limit 2GB souborů a OutOfMemory vyjímek při dlouhých frontách.
11
WA Admin v2.0 Tento systém je vyvíjen jako náhrada stávajícího systému pro správu zdrojů a vydavatelů, vyvinutého a udržovaného v minulých letech. Současný systém již nevyhovuje ani technickým, ani obsahovým požadavkům. Došlo proto k přepracování datového modelu a systém by měl umožňovat i propojení s Netarchive Suite. Ten je napsán jako sestava nezávislých modulů, které spolu komunikují pomocí JMS zpráv, neměl by proto být velký problém propojit tuto aplikaci s (WAA 2.0). Principielně bude funkcionalita WAA oddělena od NS a po vytvoření nového zdroje a nadefinování příslušných pravidel pro sklízení (podle API) bude tento celek zaslán a vložen do NS přes JMS kanál. WA Admin v2.0 je zatím ve fázi vývoje, další informace včetně obrázku datového modelu viz příloha a https://intranet.webarchiv.cz/wiki/index.php/Contract_Manager. Wayback
Během roku 2008 došlo k vydání dvou významných oficiálních verzí Waybacku a to konkrétně verze 1.2 a v závěru roku také nové verze 1.4. Mezi hlavní novinky ve verzi 1.2 patřila podpora WARC formátu a zpracování nekoprimovaných souborů. V souvislosti s WARC formátem byl přidán experimentální mód zpracování deduplikovaných záznamů. Ty jsou označeny v průběhu sklízení jako duplicitní pomocí speciálního pluginu do Heritrixu. Kompletně přepracováno bylo i parsování sklizených URL, které je možno v této verzi plně konfigurovat a koncipovat jako samostatný plugin. Velmi užitečnou funkcí, kterou vývojáři Internet Archive přidali, je zlepšení přehrávácího módu, konkrétně vykreslování javascriptu, rozdělení stránky použitím komponent a také vkládání kaskádových stylů. Spolu tímto bylo vyřešeno také mnoho chyb, které jsou detailněji popsány v release notes. K zlepšení celkového zobrazení výsledku přispěl i tzv. kalendářový pohled, ve kterém má uživatel zobrazeny výsledky podobně jako originální Wayback na stránkách IA. Tento pohled je možné do stránek přidat buď jako javascript nebo non-javascript komponentu. Stejně tak překládání URL je možné provádět na straně serveru a ne pomocí javascriptu, což vede ke zkvalitnění přepisu odkazů. V polovině roku se podařilo verzi 1.2 upravit a nasadit produkčně pro WebArchiv.cz. Zároveň byly v naší spolupráci opraveny některé zásadní chyby, které se týkaly jednak lokalizace aplikace (zpracování UTF-8, diakritika v požadavku, apod.) a také přenosových hodnot v http protokolu, tyto opravy vyústily mimo jiné do vydání mezi-verze 1.2.1. Spolu s touto verzí byl také otestován distribuovaný přístup k ARC souborům. Tím, jak jejich počet postupně roste, bude nutné řešit jejich uložení napříč několika servery. Jak se ukázalo, je tento přístup v technické rovině poměrně bezproblémový, čili jej bude možné v budoucnu snadno nasadit.
12
Další oficiální vydání Waybacku 1.4 přínáší četné změny, které jsou spojeny s migrací předchozích verzí. V této verzi došlo ke kompletnímu přepsání modulu pro generování výsledných stránek a také modulu pro přístup k samotným souborům. K rozšíření došlo také u modulu řízení práv, kde je možné lépe kontrolovat přístup k jednotlivým komponentám. Obecně lze říci, že se tato verze ve velké míře zaměřila na refaktoring stávajícího kódu a snaží se tak zvýšit efektivitu a předejít mnoha chybám. Velmi významnou součástí této verze je také konečně česká lokalizace, která je oficiálně zahrnuta. V současné době je verze 1.4 pouze v testování, nicméně tato verze bude v dalším období upravena pro WebArchiv a nasazena do produkčního prostředí. Wera
Pro fulltextové vyhledávání a zobrazování dokumentů se dříve používalo webové aplikace Wera. Mezi její klady patří možnost zobrazení časové osy daného dokumentu, která je už dnes obsažena i ve Waybacku. Wera ale není aplikace, která si fulltextový index sama vytváří. Ten se musí vytvořit pomocí nástroje NutchWAX, popsaného níže. K jejím slabým stránkám však patří problémy s javascriptem a kódováním u některých stránek. Její vývoj byl již ukončen a nadále se přechází k Waybacku jako vyhledávacímu a zpřístupňujícímu softwaru. Přes původní předpoklady se proto WERA nebude nadále používat a další výzkum se soustředí na možnosti integrace fulltextového indexu přímo do systému Wayback. NutchWAX
Tento nástroj je pouhou nadstavbou modulárního systému Nutch (software vyvinutý pro stahování a zpracování velkého množství stránek/dokumentů). NutchWAX umí fulltextově indexovat dokumenty uložené v tzv. ARC formátu (archivace probíhá nástrojem Heritrix) a v nové verzi 0.12.2 umí již zpracovávat i formát WARC. Při indexaci používá nástroj Hadoop, který je popsán níže. Indexace spočívá v přidání specifických metadat do indexovaných dokumentů. Ty jsou využívány při vyhledávání dokumentů tzv. query-nutchwax pluginem. Další důležitý plugin je urlfilter, který umí vyloučit dokumenty na základě URL a času při importu, což je první fáze indexace. NutchWAX rovněž podporuje velké množství druhů dokumentů. Např. HTML, javascript, pdf, dokumenty MS Office (Word, Excel, Powerpoint), zip, rtf ale i mp3. Samozřejmostí jsou textové dokumenty. Celý nástroj je široce škálovatelný. Pro jeho konfiguraci je však velice užitečné znát konfigurační možnosti Nutche. Hadoop
Tento nástroj plní funkci distribuovaného filesystému. Umožňuje zpracovávat velké množství dat na více stanicích současně v tzv. clusteru. Ten se skládá ze dvou druhů stanic: masters a slaves.
13
•
•
Master – tyto stanice představuje tzv. namenode, který řídí filesystém a přístup k souborům (operace open, close, rename, …), a jobtracker, který plánuje a distribuuje úlohy na jednotlivých stanicích (slaves). Slaves – sem patří tzv. datanode řídící úložiště na slavech a tasktracker vykonávající jednotlivé úlohy zadávané jobtrackerem.
Samotný Hadoop je velmi konfigurovatelný. Za jediný větší problém lze považovat jen to, že připojení mezi stanicemi se vytváří pomocí ssh protokolu a nepředpokládá se žádné zadávání hesla nebo certifikátu. Je nutné počítat i s tím, že komunikace mezi stanicemi běží na vyhrazených portech a musí se s ní při sestavování bezpečnostní politiky počítat. Na tento fakt jsme při řešení projektu naráželi v situacích, kdy jsme se pokoušeli takový cluster zprovoznit na větším množství počítačů počítačové studovny Masarykovy univerzity, kde právě komunikace přes různé firewally byla největší překážkou.
B.1.3 Výzkum možnosti celoplošného sklízení bohemikálních zdrojů umístěných mimo doménu .cz Modul Heritrixu WebAnalyzer, který byl veřejně představen na IWAW 2008 v Aarhusu, je již hotový a funkční v rámci určitých omezení, identifikovaných během vývoje a testů v Heritrixu. Je nutné zjednodušit používání modulu WebAnalyzer tak, aby i neznalý uživatel byl schopný jednoduše a rychle spustit a nakonfigurovat modul pro své potřeby. Jako nejlepší řešení se nabízí integrace ovládání tohoto modulu do ovládacího rozhraní Heritrixu. Možnosti této integrace právě zkoumáme, a pokud se ukáže, že je navržené řešení technicky průchozí, bude implementováno. Popis modulu WebAnalyzer
Základní podstata WebAnalyzeru se v současné implementaci oproti situaci před rokem nezměnila. Proces identifikace bohemikálního zdroje na základě bodového ohodnocení vychází z parametrů nastavených uživatelem. Ten si musí sám definovat bodovou hranici pro jednotlivé vlastnosti, což nemusí být vždy ideální. Proces vyhodnocování by mohl být zlepšen komplexnějším řešením, které by ulehčilo postup a logiku ohodnocení analyzovaných dokumentů. Analýzy výskytu českých slov, českých míst a českých URL fungují správně, ale řešení vyhledávání, které se v těchto případech používá, by mohlo byt dále vylepšené tak, aby se zvýšila jeho efektivita a rychlost. Konkrétní metoda optimalizace zatím není stanovena a jednotlivé možnosti jsou nyní diskutovány s dalšími odborníky. Po stanovení nejvhodnějšího řešení budou tyto analýzy implementovány na základě nového, efektivnějšího návrhu. Popis integrace do Heritrixu
Jak již bylo naznačeno v předchozí zprávě, současná verze systému používá tři moduly, které WebAnalyzeru umožňují zapamatovat si kontext ostatních stránek, ve kterém se posuzovaná stránka nachází. To znamená, že systém je schopný pomocí těchto modulů
14
archivovat bohemikální stránku spolu s jejími podstránkami a to až do určité úrovně. Hodnotu této úrovně si může uživatel nastavit před spuštěním Heritrixu v konfiguračním souboru. Tento přístup umožňuje definovat, kdy má archivace bohemikální “domény” skončit. Plány do budoucna
Současná verze systému se ukázala jako stabilní a funkční při testování menšího počtu URL. Ještě do konce roku 2008 bude spuštěn nový rozsáhlý test, který potvrdí, zda je systém opravdu stabilní a robustní při analýzách velkého počtu URL. Systém byl prezentován na letošním workshopu k archivaci webu IWAW 2008 v dánském Aarhusu (http://iwaw.europarchive.org/08/index.html). Odezva ostatních účastníků byla velmi pozitivní, protože systém je možné využít i pro účely identifikace národních webů jiných národů. Jednoznačným závěrem je na systému dále pracovat. Především je nutné navrhnout a implementovat nové ovládací rozhraní systému, které umožní jednoduchou konfiguraci a manipulaci s modulem WebAnalyzer v rámci systému Heritrix. Systém by se mohl v budoucnosti rozšířit o funkci identifikace jazyka a také by bylo vhodné standardizovat kritéria a způsob vyhodnocování analyzovaných stránek. Další podrobnosti viz https://intranet.webarchiv.cz/wiki/index.php/Analyzator_narodnosti_webstranky
B.1.4 Možnosti průběžné analýzy sklizně V této oblasti platí závěry loňského roku. Aktuální monitoring selektivních sklizní probíhá následující formou: Každé semínko má nastaven limit 10000 objektů. Po vyčerpání tohoto limitu je Heritrix pozastaven a domény, které mají nevyčerpané fronty, jsou uloženy do režimu hibernace. Administrátor má nyní možnost prohlížet v logu jednotlivé fronty a zjišťovat případné pasti a nedostatky. Po nastavení dodatečných pravidel zvýší limit o 5000 a pokračuje ve sklízení. Tento proces iterativně provádí až do limitu 30000. Tento postup je však náročný na čas operátora sklizně a jen velmi obtížně je možné jej aplikovat na celoplošnou sklizeň, čítající stovky tisíc domén. Možným řešením by mohlo být využití přístupu obdobného tomu realizovanému v nástroji WebAnalyzer – tedy logování všech informací o průběhu sklizně do databáze a vytváření zpětných vazeb nad takto získanými daty.
B.1.5 Podklady pro aktualizaci legislativy k povinnému výtisku síťových publikací Ve výroční zprávě za rok 2007 byla jako jeden z výsledků řešení projektu charakterizována legislativa týkající se publikací zpřístupňovaných na webu (síťových publikací) a zmíněna příprava podkladů ke změně české legislativy týkající se povinného výtisku publikací. Důvody, proč je potřeba aktualizovat legislativu k povinnému odevzdávání publikací se zaměřením na síťové dokumenty, jsou následující:
15
V současné době, tj. po novele autorského zákona z roku 2006, mají sice depozitní instituce možnost vytvářet kopie dokumentů pro své archivní a konzervační potřeby, nikde ale není zakotvena – tak jako v případě všech ostatních “hmotných“ druhů dokumentů – povinnost vydavatelů své produkty knihovnám odevzdávat. Na první pohled se může zdát, že tato skutečnost není významná, protože si knihovna či další vzdělávací instituce vyjmenované v autorském zákonu mohou stáhnout z webu jakýkoliv dokument (resp. zhotovit rozmnoženinu díla) kdykoliv podle svých potřeb. Právně neošetřena ovšem zůstává část dokumentů licencovaných či těch, které mají přístup k obsahu webové stránky podmíněn registrací apod. Je proto více než vhodné, aby bylo stahování takto chráněných síťových dokumentů v blízké době zaštítěno legislativou k “povinnému výtisku“. Pokud jde o dostupnost národní produkce publikací odborné i laické komunitě a rovný přístup k informacím uchovávaným ve webovém archivu, není ani tato otázka zcela vyřešena v novele autorského zákona z roku 2006. Citováno z autorského zákona: „Do práva autorského nezasahuje knihovna, archiv, muzeum, galerie, škola, vysoká škola ... zpřístupňuje-li dílo, včetně zhotovení jeho rozmnoženiny nezbytné pro takové zpřístupnění, které je součástí jeho sbírek a jehož užití není předmětem prodejních nebo licenčních podmínek, ... jednotlivcům ze strany veřejnosti prostřednictvím k tomu určených technických zařízení umístěných v jeho objektech, a to výhradně pro účely výzkumu nebo soukromého studia takových osob, a zamezí-li takovým osobám zhotovit rozmnoženinu díla...“ V podkladech k připravovanému zákonu o povinných síťových publikacích jsou pro přístup k datům rozlišovány a) rozmnoženiny volně přístupných povinných síťových publikací a b) rozmnoženiny publikací zveřejněných v síti internet pro uživatele na základě zvláštních přístupových oprávnění. Snahou řešitelů projektu WebArchiv v Národní knihovně ČR je vyhnout se nelogičnosti, kdy podle znění autorského zákona v § 37 odst. 1c) může knihovna (a další instituce) zpřístupnit rozmnoženiny všech děl pouze prostřednictvím k tomu určených technických zařízení umístěných v jeho objektech – to znamená rozmnoženiny i těch děl, k nimž vydavatel původně na webu poskytl volný přístup a samozřejmě počítá s dodržováním autorských práv při jejich využití. Toto ustanovení je sice v českém autorském zákonu uvedeno na základě doporučení evropské směrnice [8], ta ovšem značně zaostává za současným prudkým nárůstem nelicencovaných publikací na internetu. Národní legislativy řady zemí berou tento stav v potaz a umožňují širší přístup uživatelů webového archivu k nelicencovaným zdrojům, přičemž v případě Slovinska [9] se dokonce jedná o členskou zemi EU.
8 Directive 2001/29/EC of the European Parliament and of the Council of 22 May 2001 on the harmonisation of certain aspects of copyright and related rights in the information society. Official Journal of the European Communities. 2001, L167, s. 10-19. Dostupné též na www: . 9 Republika Slovenija. 2977. Zakon o obveznem izvodu publikacij (ZOIPub). In: Uradni list Republike Slovenije. 2006, Št. 69, s. 7230-7234. Dostupné též na www: .
16
Návrh změny legislativy
Návrh legislativy upravující povinné odevzdávání síťových publikací (tj. dokumentů šířených v současné době v prostředí sítě internet, zejména webu) byl připravován tak, aby mohl výhledově sloužit jak knihovnám coby institucím odpovědným za účinnou ochranu dat a poskytování přístupu k nim, tak i (budoucím) uživatelům archivu webových zdrojů. Podklady k návrhu nového zákona byly předloženy odboru umění a knihoven Ministerstva kultury ČR v únoru 2008 jako základ pro úpravu legislativy týkající se povinného odevzdávání síťových elektronických dokumentů. Creative Commons
Na základě několika setkání s odborníky na Autorské právo v prostředí informačních technologií z roku 2007, pokračovali řešitelé ve snaze zavést do českého prostředí licence Creative Commons. Creative Commons (CC) je označení pro veřejné licence, na jejichž základě definuje vlastník autorských práv podmínky užití svého díla třetí osobou. Smyslem CC je poskytnout autorům možnost zpřístupnit své dílo za liberálnějších podmínek než umožňuje pojetí tzv. copyrightu a vytvořit tak optimální podmínky pro efektivní využití informací, zejména v oblasti vědy a výzkumu. Schéma nabízí celkem šest různých podob licencí, které jsou rozlišeny dle stupně možností nakládat s dílem. Z tohoto pohledu se licence CC jeví jako srozumitelný a lehce aplikovatelný prostředek pro získání souhlasu držitele autorských práv s archivací a online zpřístupněním webového dokumentu. V dubnu byla oficiálně vytvořena pracovní skupina pro překlad a implementaci CC do českého prostředí poté, co byla provedena analýza právního rámce jejich zakotvení v českém autorskoprávním řádu. Skupinu formálně tvoří občanské sdružení Iuridicum Remedium, Národní knihovna ČR (zastoupená projektem WebArchiv), Filozofická fakulta UK, Sdružení nezávislých autorů a Společnost pro autorské právo a informační technologie. Dohled nad aktivitami skupiny má Odbor autorského práva při Ministerstvu kultury ČR. Od svého vzniku se pracovní skupině podařilo realizovat několik důležitých kroků. Nejprve byly navázány kontakty s organizací Creative Commons, která proces implementace CC licence koordinuje. Poté byl vytvořen první překlad textu licence, ve kterém byly zohledněny náležitosti českého autorskoprávního prostředí. Tento text byl poté vystaven veřejnému připomínkovému řízení na webu pracovní skupiny (www.creativecommons.cz), které již skončilo. V současné době posuzuje organizace Creative Commons (do anglického jazyka zpět přeložený) první návrh české verze licence. Přestože je pracovní skupina zhruba v třetině své cesty, předpokládáme nasazení české verze CC licence do provozu (vytváření licencí online) během příštího roku.
17
Vedle této primární činnosti bylo upořádáno několik besed, přednášek a školení za účelem propagace CC jako prostředku publikování s otevřeným přístupem. Licence Creative Commons zaznamenaly v posledních letech celosvětový bouřlivý vývoj. Obrovský nárůst objemu informací komunikovaných v elektronickém prostředí, zejména s přihlédnutím k mohutnému rozvoji internetové sítě, vedlo mnohé země k rozhodnutí implementovat CC jako specifický typ licence do národní legislativy a reagovat tak na odlišnosti elektronického publikování oproti „tištěnému“ modelu. K dnešnímu dni jsou CC implementovány a používány v 50 státech, z toho 26 evropských, přičemž v největší míře jsou aplikovány na webové zdroje.
18
B.2 Přínos řešitelů Nejvýznamnějším přínosem řešitelů pro řešení projektu v letošním roce bylo bezesporu dokončení první verze nástroje WebAnalyzer pro automatizované sklízení webu mimo národní doménu. Tento nástroj byl experimentálně otestován v českých podmínkách pro sklízení bohemikálních zdrojů mimo doménu .cz. Prezentace nástroje a výsledky testu vyvolaly značný ohlas a zájem v mezinárodní komunitě webových archivů. Pro příští rok předpokládáme jednak nasazení této verze v ostrém provozu a také práci na dalším vývoji tohoto nástroje ve spolupráci s IIPC. Dalším významným přínosem pro řešení projektu bylo zapojení do mezinárodní spolupráce v rámci IIPC a projektu LiWA. Prostřednictvím těchto aktivit mají řešitelé možnost aktivně se účastnit na vývoji nových nástrojů a řešení pro dlouhodobé uchování a zpřístupnění webových zdrojů. V legislativní oblasti byl řešiteli v NK ČR vypracován návrh (důvodová zpráva a paragrafový návrh zákona) na změnu legislativy k povinnému výtisku, resp. povinnému odevzdávání online zdrojů k archivaci. Návrh byl v první polovině roku 2008 předán na Ministerstvo kultury ČR k legislativnímu řízení. Řešitelé projektu byli také iniciátory vzniku pracovní skupiny pro český překlad licencí Creative Commons a jejich zakotvení do právního rámce ČR. První návrh české verze je připraven a je v současnosti v procesu posuzování organizací Creative Commons. Předpokládáme, že konečná česká verze bude k dispozici v prvním pololetí 2009.
B.3. Posun znalostí V roce 2008 byl vyvinut a otestován modul WebAnalyzer pro sklízení mimo národní doménu .cz. Testování tohoto modulu nám umožňuje, kromě vyzkoušení funkčnosti vlastního nástroje, také získat lepší představu o rozsahu českého webu mimo národní doménu a kapacitních a technických nárocích na jeho pravidelné sklizně. Je zvažováno nasazení nástroje tohoto typu i pro tématické sklizně. Dále pokračoval vývoj nového systému pro správu zdrojů a vydavatelů WA Admin v2.0. Na základě podrobné analýzy uživatelských požadavků byla připravena podrobná specifikace systému včetně datového modelu. Vývoj systému bude dokončen v roce 2009 a systém bude integrován do infrastruktury WebArchivu. Byla opět lokalizována a testována řada nových SW nástrojů, resp. nových verzí. Výzkumný tým nadále průběžně sleduje vývoj SW nástrojů v rámci IIPC, které jsou okamžitě po jejich uvolnění zkoumány po stránce vhodnosti začlenění do infrastruktury WebArchivu a implementovány. I přes uvolnění dvou nových verzí systému Wayback zůstávají stále nejproblematičtější aplikací nástroje pro vyhledávání.
19
C
NÁVRHOVÁ ČÁST
C.1 Výsledky řešení Výsledky dosažené a dosud neuplatněné Následující výsledky řešení dosažené v roce 2008 budou zavedeny do evidence RIV v roce 2009.
D – Článek ve sborníku VLČEK, Ivan. Identification and archiving of the czech web outside the national domain. In: IWAW : 8th international web archiving workshop : Aaarhus, Denmark, 18th & 19th September 2008 [online]. Aaarhus : IWAW, 2008 [cit. 2008-11-25]. Dostupný z WWW: .
B – Odborná kniha CELBOVÁ, Ludmila, et al. Archivace webu. Praha : Národní knihovna ČR, 2008 [vyjde v průběhu prosince].
S - Prototyp, metodika, vzorek, software, výsledky apl. výzkumu promítnuté do práv. předpisů a norem, užitný vzor VLČEK, Ivan. WebAnalyzer [software].
C.2 Závěr V rámci řešení projektu výzkumu a vývoje byly plánované úkoly pro rok 2008 splněny a podařilo se významně pokročit v řešení problematiky ochrany a trvalého zpřístupnění webových zdrojů.
20
C.3 Návrhy opatření 1. Pokračovat v řešení projektu v roce 2009 s cílem trvalého uložení a zpřístupnění českých webových zdrojů v souladu s platnou legislativou. 2. Pokračovat v přípravě začlenění licencí Creative Commons do českého právního řádu. 3. Aktivní účast na vývoji nových nástrojů a řešení pro dlouhodobé uchování a zpřístupnění webových zdrojů v rámci konsorcia IIPC a projektu LiWA. 4. Další testování aplikace pro sklízení zdrojů mimo doménu .cz s cílem jejího nasazení v rámci celoplošných sklizní v průběhu roku 2009. 5. Testování automatizovaných přístupů k tematickým sklizním včetně výzkumu možností efektivního zpřístupnění. 6. Využití zobrazení zdrojů pomocí metody Konspektu pro zpřístupnění archivovaných zdrojů. 7. Dokončení vývoje nového WA Admin, který by měl umožnit snazší a dokonalejší správu zdrojů, automatizaci procesů a propojení se softwarovými nástroji pro sklízení. 8. Testování fulltextové indexace na velkých objemech dat. 9. Pokračovat v rozvoji infrastruktury WebArchivu s využitím vlastními silami vyvinutých i převzatých nástrojů.
21
D
RESUMÉ A KLÍČOVÁ SLOVA
E.1
Resumé a klíčová slova v češtině
Projekt se zabývá problematikou, která je nejen v České republice, ale i v zahraničí stále předmětem výzkumu a vývoje. Jedná se o proces archivace, který lze vnímat jako pracovní proces, při kterém jsou webové zdroje vybírány, shromažďovány, chráněny a konečně poskytovány uživatelům. V institucích odpovědných za uchování kulturního dědictví (knihovny, muzea) se stále hledá optimální cesta k realizaci provozního řešení archivace webových zdrojů ve své teritoriální či odborné oblasti. Vedle komplexní problematiky informačních technologií je třeba zejména pro zpřístupnění dat z digitálního archivu řešit také legislativní problematiku. V roce 2008 se řešitelé projektu aktivně zapojili do činnosti pracovních skupin Preservation a Access v rámci IIPC a do nového evropského výzkumného projektu Living web archives (LiWA). Byl vyvinut modul WebAnalyzer pro automatizované sklízení webu mimo národní doménu. Průběžně pokračovalo testování a implementace nových verzí softwarových nástrojů. Byly připraveny podklady k řešení legislativy povinného odevzdávání síťových dokumentů a pro implementaci licencí Creative Commons do českého právního řádu. Klíčová slova archivace webu; výzkum a vývoj; softwarové nástroje; sklízení; sbírky; povinný výtisk; Creative Commons
E.2
Resumé a klíčová slova v angličtině /Abstract and key words in English/
The project deals with a topic which is still subject of research and development, not only in the Czech Republic but also in other countries. The archiving process can be seen as a working process in which web resources are selected, acquired, preserved and made accessible to users. Institutions responsible for preserving cultural heritage (libraries, museums, etc.) are still in a process of developing the best production solutions for archiving web resources in their respective geographical or subject areas. In addition to the complex technological issues, legal issues must be also dealt with, especially in the area of public access to the archived digital data. In 2008, the members of the project team actively participated in the Preservation and Access working groups within IIPC as well as in a new European research project Living web archives (LiWA). A new module for automated harvesting of the web outside national domain was developed. Testing and implementation of new versions of deployed software tools continued throughout the year. Background materials for a new legal-deposit legislation incorporating online publications and for implementing Creative Commons licences were also prepared. Key words web archiving; research and development; software tools; harvesting; collections; legal deposit; Creative Commons
22