Ochrana a trvalé zpřístupnění webových zdrojů jako součásti národního kulturního dědictví
Průběžná zpráva realizace projektu v roce 2010
Jméno řešitele: Ing. Libor Coufal
Národní knihovna České republiky Klementinum 190 110 00 Praha 1
12. listopadu 2010
A
KONSTATAČNÍ ČÁST......................................................................................................................... 3 A.1 A.2 A.3
B
REŠERŠE ........................................................................................................................................... 3 SOUČASNÝ STAV VE SVĚTĚ A V ČR................................................................................................... 5 VSTUPNÍ DATA A CÍL ......................................................................................................................... 7
ANALYTICKÁ ČÁST ........................................................................................................................... 8 B.1 B.1.1 B.1.2 B.1.3 B.1.4
VLASTNÍ ŘEŠENÍ ............................................................................................................................... 8 VÝVOJ APLIKACE METODY KONSPEKTU PRO VYHLEDÁVÁNÍ ZDROJŮ V ARCHIVU......................... 8 VÝVOJ NÁSTROJE PRO SPRÁVU INTERNÍHO WORKFLOW WA ADMIN V2.2 A V2.3......................... 9 LOKALIZACE, TESTOVÁNÍ A VÝVOJ NOVÝCH (VERZÍ) SW NÁSTROJŮ.......................................... 10 VÝZKUM MOŽNOSTI CELOPLOŠNÉHO SKLÍZENÍ BOHEMIKÁLNÍCH ZDROJŮ UMÍSTĚNÝCH MIMO DOMÉNU .CZ ................................................................................................................................................. 14 B.1.5 VÝVOJ METODIKY TÉMATICKÝCH SKLIZNÍ ................................................................................. 16 B.1.6 VÝZKUM MOŽNOSTÍ OPTIMALIZACE DOHLEDU NAD SKLIZNĚMI ................................................. 16 B.1.7 ZVYŠOVÁNÍ ROBUSTNOSTI INFRASTRUKTURY WEBARCHIVU .................................................... 20 B.2 PŘÍNOS ŘEŠITELŮ ............................................................................................................................ 21 B.3. POSUN ZNALOSTÍ ............................................................................................................................ 21 C
NÁVRHOVÁ ČÁST ............................................................................................................................. 22 C.1 C.2 C.3
E
VÝSLEDKY ŘEŠENÍ .......................................................................................................................... 22 ZÁVĚR ............................................................................................................................................ 22 NÁVRHY OPATŘENÍ ......................................................................................................................... 23
RESUMÉ A KLÍČOVÁ SLOVA......................................................................................................... 24 E.1 RESUMÉ A KLÍČOVÁ SLOVA V ČEŠTINĚ ........................................................................................... 24 E.2 RESUMÉ A KLÍČOVÁ SLOVA V ANGLIČTINĚ ..................................................................................... 24 /ABSTRACT AND KEY WORDS IN ENGLISH/................................................................................................... 24
F
PŘÍLOHY ............................................................................................................................................. 25 F.1 F.2 F.3
ZPRÁVA „IDENTIFICATION AND ARCHIVING OF THE CZECH WEB OUTSIDE THE NATIONAL DOMAIN“ WA ADMIN 2.0: STRUČNÝ OBRAZOVÝ PRŮVODCE CESTOVNÍ ZPRÁVY
2
A
KONSTATAČNÍ ČÁST
A.1 Rešerše Publikační a přednášková činnost v roce 2010: COMMUNIA. The Public domain manifesto [online]. Turín : COMMUNIA, 2010 [cit. 201011-04]. Do češtiny přeložil Lukáš Gruber. Dostupný z WWW:
. COUFAL, Libor. Archivace Twitteru. In Před polednem : zpravodajský blok [online]. Praha : ČT24, 19. 4. 2010 [cit. 2010-11-04]. Dostupný z WWW: . COUFAL, Libor. Integration of WebAnalyzer into Heritrix. In Harvesting Working Group meeting, IPC General Assembly : 3-7 May 2010. Singapur : IIPC, 2010 [cit. 2010-11-04]. Program zasedání dostupný z WWW: . COUFAL, Libor. Licence Creative Commons a jejich využívání ve školství a vzdělávání. In LinuxExpo/Open Source Conference [online]. Praha : Exponet, 20. 4. 2010 [cit. 2010-1104]. Dostupný z WWW: . COUFAL, Libor. Možnosti automatizované akvizice el. online časopisů pomocí nástrojů pro archivaci webu. In 20. seminář akvizičních pracovníků [online]. Praha : Sdružení knihoven ČR, 17. 6. 2010 [cit. 2010-11-04]. Dostupný z WWW: . COUFAL, Libor. Preserving web archives : one size fits all? In iPres 2010 : 7th international conference on preservation of digital objects : September 19-24, 2010, Vienna, Austria [online]. Vídeň : iPres, 2010 [cit. 2010-11-04]. Diskuzní panel členů pracovní skupiny Preservation Working Group při IIPC (International Internet Preservation Consortium). Program dostupný z WWW: . GRUBER, Lukáš. All rights reserved/Some rights reserved : beseda o free culture [online]. Praha : Centrum studijních a informačních služeb FF UK, 2010 [cit. 2010-11-04]. Beseda o autorském právu, šíření informací a volném užívání děl. Dostupný z WWW: . GRUBER, Lukáš. Asistence při přípravě výstavy Free Culture. Praha : Centrum současného umění, 2010. Výstava zaměřená na alternativní využití autorského práva a licence Creative Commons. GRUBER, Lukáš. Boj o veřejný prostor a nová média. In 12 hodin budoucnosti : maratón myšlenek, idejí, tezí : DOX 9. 10. 2010 [online]. Praha : Centrum současného umění, 2010 [cit. 2010-11-04]. Beseda na téma komercializace médií. Seznam zúčastněných dostupný z WWW: .
3
GRUBER, Lukáš. Licence Creative Commons. In Jak využít Open Access ve vaší publikační činnosti [online]. Praha : VŠE, 2010 [cit. 2010-11-04]. Přednáška konaná dne 19. 10. 2010 v rámci Open Access Week. Popis přednášky dostupný z WWW: . GRUBER, Lukáš. Licence Creative Commons. In Open Access a Creative Commons : seminář konaný dne 28. 4. 2010 [online]. Brno : Centrum PARTSIP, 2010 [cit. 2010-1104]. Popis semináře dostupný z WWW: . GRUBER, Lukáš. Manifest o volných dílech. Ikaros [online]. 2010, roč. 14, č. 6 [cit. 201011-04]. Dostupný z WWW: . ISSN 1212-5075. GRUBER, Lukáš. Víkendová příloha k pořadu Společná pastva [online]. Praha : Český rozhlas, 24. 4. 2010 [cit. 2010-11-04]. Dostupný z WWW: . VLČEK, Ivan. Integration of WebAnalyzer into Heritrix. In Heritrix Expert User Summit : 24th and 25th February 2010. San Francisco : Internet Archive, 2010. VLČEK, Ivan. WebAnalyzer. In IIPC Working Group meetings : 22-24 September 2010. Vídeň : IIPC, 2010 [cit. 2010-11-04]. Program dostupný z WWW: .
4
A.2 Současný stav ve světě a v ČR Technologie používané v oblasti webu se stávají stále sofistikovanějšími. Webové stránky v současnosti běžně obsahují velké množství multimédií, zejména streamovaného videa a audia, či prvků, vyžadujících interakci uživatele. Navigace je vytvářena pomocí skriptovacích jazyků nebo technologie Flash. Současně s tím roste také komplexnost a velikost webových stránek. To vše znesnadňuje nebo přímo znemožňuje používání dosavadních postupů a nástrojů pro archivaci webu, vyvinutých na základě původních „primitivních“ webových technologií a klade vyšší nároky na nezbytné technické vybavení a úložné kapacity, jakož i lidské zdroje. Je důležité, aby projekty archivace webu dokázaly na tento rapidní vývoj průběžně reagovat a zdokonalovat používané nástroje a postupy nebo vyvíjet nástroje a postupy zcela nové. V této souvislosti roste také význam mezinárodní spolupráce a koordinace, ať už v rámci konsorcia webových archivů IIPC nebo mezinárodních projektů. Řešitelský tým získal za dobu fungování projektu díky dosaženým výsledkům a zapojení do práce v IIPC a mezinárodních projektech velmi dobré renomé a uznávané postavení nejen v rámci mezinárodní komunity webových archivů, ale i v oblasti dlouhodobého digitálního uchování. Řešitelé projektu se pravidelně aktivně účastní činností v pracovních skupinách IIPC i mezinárodních projektech a jsou zváni k vystoupením a účasti na mezinárodních konferencích, seminářích a přednáškách. Velmi dobře funguje také úzká spolupráce a výměna zkušeností se zahraničními webovými archivy. IIPC V letošním roce opět proběhla dvě zasedání International Internet Preservation Consortium (IIPC). V květnu se uskutečnilo každoroční valné shromáždění konsorcia v Singapuru a v záři jednání pracovních skupin jako doprovodná akce konference iPres 2010 ve Vídni. Na konferenci iPres byl do hlavního programu zařazen diskusní panel za účasti zástupců IIPC o perspektivách dlouhodobého uchování webových archivů, jedním z diskutujících byl hlavní řešitel projektu Libor Coufal. Národní knihovna ČR se v IIPC opět podílela zejména na práci pracovních skupin Preservation a Harvesting. V pracovní skupině Preservation NK ČR vede pracovní úkol zaměřený na analýzu rizik škodlivého softwaru (malware) a jejich potenciální dopad na data uložená ve webových archivech a podílí na dalších úkolech, vedených jinými členy konsorcia. V pracovní skupině Harvesting NK ČR pracuje na možnostech mezinárodního využití modulu WebAnalyzer, vyvinutého v rámci projektu. Během prezentací WebAnalyzeru v této pracovní skupině a následných diskuzí získali řešitelé cenné poznatky, připomínky a zpětnou vazbu pro další vývoj modulu. Pracovní skupina Access řeší mimo jiné problematiku kontroly kvality archivace a zpřístupnění, která je velmi aktuální také pro náš projekt. LiWA Národní knihovna ČR je prostřednictvím svého projektu WebArchiv také jedním z partnerů v tříletém evropském projektu Living Web Archives (LiWA), kterého se účastní 8 partnerů z pěti evropských zemí. Projekt je zaměřen na vývoj nových nástrojů a technologií pro archivaci webu, které by mimo jiné měly umožnit obohatit webové archivy o multimediální
5
nebo interaktivní obsah. Projekt v letošním roce spěje ke svému konci, ukončen bude v lednu 2011. Communia Communia je projekt založený na mezinárodní spolupráci vědeckých, výzkumných a paměťových institucí s cílem informovat veřejnost, propagovat a vytvářet doporučení pro Evropskou komisi v oblasti zpřístupňování děl v digitální podobě, které se nacházejí v režimu tzv. public domain. Jedná se v převážné míře o díla, která nejsou předmětem ochrany autorských práv (např. volná díla), a tudíž jsou volně k dispozici k veřejnému užívání. Projekt je založen na součinnosti pracovních skupin, které jsou rozděleny dle kontextu, v jakém nahlížejí na problematiku public domain. Národní knihovna, zastoupená projektem WebArchiv, je od roku 2009 členem pracovní skupiny tvořené institucemi s úkolem uchování kulturního dědictví. Mezi aktivity projektu v letošním roce patřilo zejména vydání dokumentu Public Domain Manifesto1, ve kterém jsou formou veřejné deklarace shrnuty ideologická stanoviska na úlohu public domain v kontextu budování informační společnosti. Národní knihovna vytvořila český překlad dokumentu pod názvem Manifest o volných dílech.2 V současné době kulminují práce na závěrečné zprávě projektu, který je zamýšlen jako soubor metodologických doporučení v oblasti public domain pro Evropskou komisi při vytváření politické koncepce pro oblast informační společnosti a médií na léta 2010-2020. Projekt Communia oficiálně končí 28.2.2011. Creative Commons V letošním roce se Národní knihovna opět zapojila do propagace veřejných licencí Creative Commons s cílem zvýšit objem volně dostupných a využitelných informací na internetu. Mezi hlavní činnosti patřil podíl na putovní výstavě Free Culture, věnované novému pojetí ochrany autorských práv v síťovém prostředí internetu, kde hrají licence Creative Commons významnou roli. Výstava byla mimo jiné instalována i v prostorách Národní knihovny.
1
http://www.publicdomainmanifesto.org/node/8
2
http://www.publicdomainmanifesto.org/sites/www2.publicdomainmanifesto.org/files/Public_Domain _Manifesto_cz.pdf
6
A.3 Vstupní data a cíl Rámcovým cílem projektu je hlouběji se zabývat aspekty ochrany a trvalého zpřístupnění webových zdrojů, a to jak z hlediska vývoje informačních technologií, tak i z hlediska legislativního. Tento cíl má směřovat k efektivnímu zpřístupňování online zdrojů jak prostřednictvím sekundárních souborů informací, tak i přímým přístupem do primárních zdrojů uložených v digitálním archivu.
Výzkum byl v roce 2010 zaměřen na následující oblasti: • • • • •
vývoj aplikace Konspekt pro vyhledávání zdrojů v archivu lokalizace a testování nových (verzí) SW nástrojů výzkum možností sklízení bohemikálních zdrojů mimo .cz a tematických sklizní výzkum možností optimalizace dohledu nad sklizněmi zvyšování robustnosti infrastruktury WabArchivu
7
B
ANALYTICKÁ ČÁST
B.1 Vlastní řešení B.1.1 Vývoj aplikace metody Konspektu pro vyhledávání zdrojů v archivu Stávající řešení předmětového rozcestníku využívajícího metodu Konspektu načítalo do html stránky vždy všechny zdroje a z nich část pak skrývalo pomocí javascriptu. To přestalo být pro stálý růst počtu nasmlouvaných zdrojů únosné, protože doba načítání byla příliš dlouhá. Nový rozcestník již není statická HTML stránka, ale dynamicky PHP skript, který si stahuje data z MySQL databáze WA Adminu. Zdroje se nově člení i podle podkategorií Konspektu a ke každému zdroji se zobrazuje náhled hlavní stránky. Zdroje lze prohledávat i podle klíčových slov. Aktualizace se provádí jednou denně, data se stahují pomocí OAI-PMH z URL http://aleph.nkp.cz/OAI a ke každému nasmlouvanému zdroji se stahuje krátký popis, seznam klíčových slov a podkategorie, ke které náleží. Funkčnost nového Konspektu byla ověřena v nejběžnějších webových prohlížečích. Ostrá verze rozcestníku je provozována na adrese http://webarchiv.cz/konspekt/. Pro automatické generování náhledů používáme programy wkhtmltopdf a Selenium. Zpočátku jsme uvažovali i o použití webových služeb pro generování náhledů, ale ty jsou buď placené, nebo nespolehlivé. Program wkhtmltopdf používá upravené jádro webkitu a ke své práci vyžaduje knihovny X serveru, samotný X server ale nemusí běžet. Selenium je nástroj, který umožňuje skriptování ovládání webových prohlížečů, většinou se používá pro automatické testování webových aplikací, ale lze ho také využít pro generování náhledů, protože ovladač pro Firefox umožňuje ukládání náhledů ve formátu PNG. Při generování náhledů Seleniem na serveru se používá utilita Xvfb, která spustí virtuální X server v paměti. Uvažujeme i o použití náhledů pro testování kvality sklizně, tak jako to např. dělá Britská Národní knihovna. Kličová slova se získávají z katalogizačních záznamů ve formátu MARC z následujícíh polí: pole
podpole
600
a
610
a, b
650
a
651
a
U výsledného řetězce musí být odstraněny nadbytečné znaky (interpunkce ISBD) na jeho samotném začátku či konci, jako je čárka, závorka či středník. 8
Méně používané podkategorie jsou kvůli přehlednosti a zjednodušení mapovány na obecnější podkategorii, např.: podkategorie
obecná podkategorie
94(520) - Dějiny Japonska
94(5) - Dějiny Asie. Orient
811.112 - Západogermánské jazyky
811.11 - Němčina
821.112.2 - Německá literatura, německy psaná
821.11 - Germánské literatury
Vygenerované náhledy webových stránek budeme navíc nahrávat na server obalkyknih.cz, takže se náhledy webových stránek budou zobrazovat i v knihovních katalozích, linkování bude zajištěno pomocí čísla národní bibliografie (ČNB).
Obr. 1 Nový předmětový rozcestník (Konspekt) Zdrojový kód je uložen na adrese:
svn://raptor.webarchiv.cz/webarchiv/projects/novy-konspekt/trunk. B.1.2 Vývoj nástroje pro správu interního workflow WA Admin v2.2 a v2.3 Tento systém byl vyvinut jako nástroj pro správu celého workflow spojeného se sklízením webových dokumentů. Jeho hlavní uživatelé jsou knihovníci (kurátoři) a tento rok nástroj prošel řadou úprav a rozšíření (pro základní technický popis viz zpráva za rok 2009). Mezi nejvýznamnější změny patří: •
podpora mazání záznamů v databázi – systém automaticky kontroluje příslušné závislosti a mazání je umožněno pouze uživateli, který má přiřazenu roli "admin". Při mazání je uživatel vždy znovu dotázán a upozorněn na případné dopady, aby nedošlo k nechtěnému mazání. 9
•
•
• • • • • •
nový modul pro kontrolu kvality – jedná se o první implementaci prototypu pro usnadnění kontroly kvality. Kurátorům umožňuje při procházení archivu vyplňovat formulář QA pro daný zdroj a zanášet případné problémy. Následně se uživateli s rolí crawl-operator nevyhovující zdroje zobrazují v záložce a může vytvářet testovací sklizně apod., aby odstranil reportované problémy. nově přidány záložka a tabulka Konspekt – zdroje byly rozšířeny mj. o položku podkategorie, která přináší mnohem vyšší granularitu do kategorií konspektu, kterých je jen 24 (podkategorii je přes 250). Na základě tohoto členění vznikla tabulka konspekt, ve které je možno zdroje filtrovat a třídit kurátor může zdroj navrhnout určitý zdroj jako významný v dané podkategorii a správce podkategorie následně rozhodne o jeho významnosti kvůli zefektivnění procesu oslovování jsou v záložce Oslovení zvýrazněny zdroje, jejichž vydavatel má v databázi zanesen více než jeden zdroj zdokonalen dashboard zobrazování statistik - pro kurátora i celkově - možnost měnit zobrazení podle měsíců a let vylepšené UI s použitím JQuery-UI (taby, tlačítka) u zdrojů jsou zobrazeny ikon, indikující stavy a různé další informace
Zdrojové kódy jsou v subversion repozitáři na adrese: svn://raptor.webarchiv.cz/webarchiv/projects/WAdmin/trunk B.1.3 Lokalizace, testování a vývoj nových (verzí) SW nástrojů. Průběžně probíhalo testování a implementace nových verzí softwarových nástrojů.
Heritrix 1 Heritrix zůstává i nadále klíčovým nástrojem pro sklízení webu. V tomto roce vyšla pouze verze 1.14.4, která opravuje několik drobných chyb a valná většina úsilí je investována do vývoje Heritrixu verze 3.
Verze 1.14.4 • • •
podpora ftp transakcí ve WARC formátu (WARC byl celkově opraven) podpora lokalizovaných domén IDN opraveno několik chyb vyskytujících se na Windows
Dokumentace: http://crawler.archive.org/
Heritrix 3 Koncem roku 2009 vyšla třetí oficiální verze Heritrixu, který je od základu přepracován v návrhu i použitých technologiích. • odstraněna podpora JMX a nahrazena architekturou vzdáleného přístupu REST • přechod na maven 2 10
• • • • •
• •
XML konfigurace založená na frameworku Spring checkpointing, který je možný provádět za běhu a bez pauzy sklizně Apache 2 licence podpora milionů semínek podpora skriptování - crawl operátor se může kdykoliv připojit na konzoli heritrixu a spustit skript, který bude ovlivňovat chod robota (v současné chvíli je podporováno Groovy, Javascript, Beanshell) přechod na HTTPS protokol z důvodu bezpečnosti (GUI je přístupné jen přes zabezpečenou vrstvu) nový koncept Action directory, který umožňuje ovlivňovat chování robota pouhou manipulací s adresářem
Dokumentace: https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+Home Web Curator Tool V letošním roce byla zveřejněna další verze (1.5.0) systému Web Curator Tool. Tato verze stále obsahuje odlišnou správu zdrojů, kvůli které nebude systém pravděpodobně nikdy nasazen v projektu WebArchiv (rozdílnost legislativních podmínek umožňuje britské knihovně stránky sklízet a zpřístupňovat až na základě písemného souhlasu – tomuto omezení je podřízen celý návrh). Na druhou stranu je v nové verzi několik prvků, kterými se lze inspirovat. Především je to implementace modulu pro Quality Assurance, který umožňuje zachycení chybějících url na stránce a částečnou automatizaci získávání odkazů z komplexních ovládacích prvků (JavaScript atd.). K tomu je využito Selenium testovacího frameworku, který je použit v této podobě: WCT využívá Selenium API, které v případě potřeby kontaktuje Selenium Grid přes Selenium RC. Grid se rozhodne, jak s dotazem naloží, pokud se jedná o video, pak spustí mPlayer a video se pokusí stáhnout, pokud se jedná jen o komplexnější HTML, pak ve virtuálním stroji spustí browser, který se automatizovaně pokusí získat všechny dostupné URL. Je třeba zmínit, že tento modul je ve fázi raného vývoje, ale je dostupný pod licencí opensource (i když současné nasazení je přizpůsobené primárně pro Britskou národní knihovnu). Modul je dokonce vhodnějším kandidátem na budoucí testování místo LinkExtractoru, vyvíjeného v LiWA projektu – ten je totiž bohužel realizován pouze jako webová služba. Za zmínku dále stojí podpora archivu Roseta a automatické vyplnění DC metadat uložených u každého zdroje. Dokumentace:
http://webcurator.sourceforge.net/ Netarchive Suite K vývoji nástroje NetarchiveSuite se připojily národní knihovny Francie a Rakouska. Z tohoto důvodu se vývoj posunul i ve věcech jako je zpřístupnění a použití jiných nástrojů (dánský archiv není zpřístupněn a jako db je použita DerbyDB)
11
Verze 3.10 • • • • •
přibyla lokalizace fr a it opravena chyba v použití databáze MySQL deduplikace se stala nepovinnou a lze ji kdykoliv vypnout přibyly různé přehledy (např. všechna semínka sklizně, možnost filtrace atd.) podpora Waybacku
Verze 3.12.1 • •
možnost ukládání pastí (global crawler traps) do databáze přepracována správa BitArchive modulu, informace se ukládají do databáze (defaultně je to DerbyDB)
Verze 3.13.1 •
integrace francouzského kódu usnadňující sklízení francouzské domény
Dokumentace: http://netarchive.dk/suite/ WA Harvester V současné chvíli jsou v NK ČR započaty práce na vývoji vlastního nástroje WA Harvester, který by měl usnadňovat rutinní práci operátora sklizně. Bude se jedna to zjednodušenou verzi NetArchive Suite, která by měla umožnit případně v budoucnosti přechod na zmíněnou NS. Důvod vývoje vlastního nástroje je odlišného způsobu sklízení měsíčních sklizní, použití Heritrixu 3 (NS stále využívá verzi 1), provádění testovacích a QA sklizní. Dokumentace: http://raptor.webarchiv.cz:8000/trac/wiki/WAHarvesterSpecifikace Wayback Nová verze Waybacku běží na adrese http://wayback.webarchiv.cz/, podle IP adresy návštěvníka transparentně pomocí reversní proxy a modulu pro přepisování URL směruje na jeden z následujících přístupových bodů, které běží na stroji far a které nejsou zvenku dostupné: • •
pro veřejnost na http://localhost:7080/public, ve kterém jsou zpřístupněny jenom nasmlouvané zdroje zabezpečený na http://localhost:7080/secure, ve kterém jsou zpřístupněny všechny stránky a přístup tedy musí být omezen jen na počítače v referenčním centru NK.
Pro označování přístupných dokumentů jsme používali nástroj AutoContractMarker, který se s ohledem na množství dokumentů v databázi ARCRepos ukázal jako nevyhovující. Nový Wayback umožňuje vyloučit dokumenty na základě URL uvedených v souboru, 12
který je v pravidelných časových intervalech čten. Po mírné modifikaci zdrojových kódů umožňuje Wayback i opačnou funkcionalitu a to povolovat přístup k dokumentům na základě jejich jména domény. Seznam povolených domén se generuje současně s aktualizací konspektu, tzn. jednou denně. Tyto modifikace usnadní případný přechod na jiné řešení indexace dokumentů než náš proprietární ARCRepos postavený nad MySQL. Současná verze Waybacku podporuje dva typy indexů, které řeší převod kanonizované URL na příslušný ARC soubor a offset do něj: •
•
Soubor ve formátu CDX, což je textový soubor seřazený abecedně podle kanonického URL, na každém řádku je kanonické URL a metadata (odkaz na ARC soubor a offset do něj, čas stažení, haš z obsahu atd.) oddělené mezerami. BDB index, používá databázi Berkeley DB Java Edition (BDBJE), podporuje automatickou indexaci, ukládaná metadata jsou totožná s CDX indexem. BDBJE funguje tak, že zapisuje záznamy do tzv. "logovacích" souborů, které mají omezenou velikost a po překročení velikosti se zavře aktuální soubor a vytvoří se další logovací soubor. Otázkou je rychlost vyhledávání, neboť při dotazu musí databáze projít všechny logovací soubory. BDB indexy s automatickou indexací jsme použili pro testování kvality sklizní.
Automatická indexace probíhá následovně: 1. Určené vlákno v pravidelných časových intervalech sleduje změny v nakonfigurovaných adresářích a nově objevené ARC soubory předává dalšímu vláknu. 2. Druhé vlákno čte nalezené ARC soubory a extrahuje z nich metadata (kanonizované URL, čas, originální URL, MIME type, HTTP stavový kód, MD5 hash, adresa přesměrování a jméno ARC souboru.) a ukládá je do souborů. 3. Třetí vlákno čte metadata vygenerovaná druhým vláknem a zapisuje je do indexu. Pokusná indexace 1000 ARC souborů do BDB indexu trvala zhruba dvě hodiny, takže migrace na nový index za předpokladu 150 000 ARC souborů by zabrala cca 2 týdny. Ostatní modifikace Waybacku, které byly provedeny v rámci projektu: • • • • •
Lepší detekce znakové sady Na každou stránku se vkládá javascript, který zajistí, že vyskakující okna vytvořená javascriptem se otvírají v archivovaném webu. Možnost skrytí časové osy. Nabídnutí odkazu do Internet Archive, pokud stránka není u archivovaná ve WebArchivu. Integrace google analytics do zobrazovaných stránek a Awstatu do Apache Tomcatu pro sledování statistik.
13
Přechodem na nový Wayback se také odstranil problém s přesměrováním, kdy se místo korektního přesměrování zobrazila prázdná stránka. NutchWAX Pro fulltextovou indexaci používáme nástroj NutchWAX ve verzi 0.12.9. Vyhledávání ve fulltextu je dostupné na: • Webové rozhraní na http://war.webarchiv.cz/search, které využívá open search a výsledky z XML transformuje do HTML za pomocí XSL šablony. • Open search rozhraní na http://war.webarchiv.cz:8080/WebarchivSearcher/opensearch.html • Jednotná informační brána, název zdroje je WebArchiv – vyhledávání v plných textech. • Metalib Masarykova univerzity pod názvem Webarchiv.
Obr. 2 Úplné zobrazení nalezeného výsledku fulltextového vyhledávání v JIB
B.1.4 Výzkum možnosti celoplošného sklízení bohemikálních zdrojů umístěných mimo doménu .cz Sklizeň mimo .cz s původní verzí Heritrix 1.12 a WebAnalyzerem 1.1 obsahovala chyby, důsledkem kterých se sklizeň vždy po 2 týdnech běhu zastavila s chybovou hláškou o vyčerpání operační paměti. Všechny chyby byly odstraněny přechodem na verzi Heritrix 1.14, která je mnohem stabilnější. Při integraci WebAnalyzeru 1.1 nebylo nutné dělat velké změny a sklizeň s Heritrixem 1.14 spolehlivě fungovala bez jakýchkoliv chybových či varovných zpráv. Proto můžeme tuto verzi považovat za funkční a stabilní. Další verzí WebAnalyzeru bude verze WebAnalyzer 2.0, na níž se momentálně pracuje. Požadavky, které spadají do oblasti vývoje WebAnalyzer 2.0 jsou shrnuty v následujícím seznamu:
14
•
•
• •
•
zjednodušení uživatelského rozhraní – nové webové rozhraní WebAnalyzeru bude zahrnuto přímo v systému Heritrix a poskytne uživateli snadnou konfiguraci nástroje WebAnalyzer vylepšení architektury – nová architektura má zjednodušit přidávání nových modulů a jejich samotnou konfiguraci pro různé potřeby jednotlivých zemí, které budou mít zájem provádět sklizeň mimo národní domény vylepšení reportovacího nástroje – nástroj bude mít za úkol zachycovat a generovat statistiky ze sklizně a analýzy jednotlivých webových zdrojů rozšíření kritérií pro analýzu webových dokumentů – analýza bude moci využít nové kritéria, které mají pomoci při procesu identifikaci národních webových zdrojů mimo národní doménu. Následuje výpis nových kritérií: o rozpoznávání slov pocházejících z konkrétních národních slovníků – tento modul bude moci rozpoznávat v analyzovaném dokumentu slova pocházející ze slovníků: afrikánština, brazilština (brazilská portugalština), bulharština, katalánština, chorvatština, čeština, dánština, holandština, angličtina, finština, francouzština, němčina, řečtina, maďarština, indonézština, irština, italština, latina, norština, polština, portugalština, rumunština, ruština, španělština, švédština o rozpoznávaní vulgárních slov – modul, který dokáže na stránce rozpoznat vulgární slova o rozpoznávání typických národních URL adres – Modul, který bude kontrolovat, zda se na analyzované stránce nachází odkaz na typickou národní stránku. Například pro ČR to je www.seznam.cz o rozpoznávání zakázaných URL adres – modul, dokáže rozpoznat v analyzovaném dokumentu existenci odkazu na pornografický, vulgární a rasistický obsah. o rozpoznávání jazyka domény – modul dokáže zjistit v jakém jazyce je napsána analyzována doména. Můžeme identifikovat například české domény dreveneStoly.com e-dreveneStoly123.com a podobné víceslovné české domény s různým prefixem a postifixem. o rozpoznávání jazyka – modul, který je schopen rozpoznat v jakém jazyce je dokument napsaný. Rozpoznávání funguje s přesností na 95%. Pro tento modul jsme využili open source nástroj lc4j, který dokáže kategorizovat dokumenty na základě předem naučené znalosti. Dokumentace WebAnalyzeru – Tento požadavek má za úkol vytvořit kompletní dokumentaci k systému WebAnalyzer
Některé ze zmíněných požadavků jsou kompletně zanalyzovány a máme také připraveny první prototypy některých nových kritérií. Dokončení vývoje WebAnalyzeru 2.0 však zabere ještě mnoho času. Současně s WebAnalyzerem 2.0 se pracuje také na verzi WebAnalyzer 3.0. Vývoj WebAnalyzeru 3.0 byl podmíněn vydáním nové verze Heritix 3.0 který měl kompletně nové jádro, což vyžadovalo několik úprav a změn v integrační části WebAnalyzeru. Změny v integraci si vynutily rozdělit vývoj WebAnalyzeru na dva separátní projekty pro Heritix 1.14 a pro Heritrix 3. Integrace s Heritrixem 3 byla kompletně otestována a po 8
15
dnech běžící sklizně jsme nezaznamenali žádné varovné ani chybové hlášky a proto považujeme tuto verzi za stabilní. Dále jsme pro tuto verzi WebAnalyzeru 3.0 definovali následující seznam požadavků, který vznikl na základě nových možností, které poskytuje Heritrix 3 jako například distribuce sklizně: •
•
Distribuce WebAnalyzeru – WebAnalyzer bude možno nahrát na více paralelně běžících instancí Heritrixu 3, čímž se podstatně zrychlí komplexní analýza webových zdrojů. Tento požadavek má velkou prioritu, protože analýza celého Internetu bude mít vysoké časové i výkonnostní nároky. AI modul – modul s umělou inteligencí, který bude schopen automaticky rozpoznávat národnost analyzovaného webového dokumentu na základě výsledků analýzy. Analýza tohoto modulu ještě nezačala a na její přípravě bude nutná spolupráce s dalšími institucemi IIPC. Rozhodování v aktuální verzi WebAnalyzeru funguje na základě součtu nasbíraných bodů ze všech kritérií. Pokud je součet větší než hranice, kterou si sám nadefinovat uživatel, dokument se vyhodnotí jako validní. Tento proces neposkytuje velmi flexibilní řešení, a proto chceme vytvořit modul, který by se o rozhodování národní příslušnosti postaral sám.
WebAnalyzer 3.0 lze použít pro sklizeň s Heritrixem 3, ale analýza ani implementace popsaných požadavků dosud nezačala. Projekt čeká na schválení konsorcia IIPC.
B.1.5 Vývoj metodiky tématických sklizní Momentálně je připravován návrh projektu pro IIPC. Před předáním oficiálního zadání je však třeba otestovat dostupný výkon, který nabízí WebAnalyzer během samotné komplexní analýzy. Taková analýza může vyžadovat obrovské množství času, a proto se musíme na základě výsledků výkonnostních statistik rozhodnout, zda se projekt IIPC bude soustředit na rychlost nebo na rozšíření modulů. Test má za úkol zjistit, jak dlouho trvá analýza určitého vzorku webových dokumentů s konkrétní velikostí měřenou v GB. Po dokončení testu budeme mít lepší představu o tom, jak dlouho by trvala analýza celého Internetu. Výsledky analýzy budou dostupné v polovině listopadu 2010.
B.1.6 Výzkum možností optimalizace dohledu nad sklizněmi WAdmin V roce 2010 byl implementován modul pro kontrolu kvality (viz výše). Tento modul umožňuje systematicky zaznamenávat kvalitu archivovaných dat u jednotlivých sklizní v archivu. Následně je zanesen do systému pro sledování problémů Trac záznam, popisující problém, a ten je řešen pomocí QA sklizně. Kurátor může výsledky nové sklizně ověřit v testovací instanci Waybacku, která běží na serveru a indexuje pouze testovací a QA sklizně.
16
WA Harvester Idea tohoto systému je automatizace právě těch rutinních částí, které kurátora/operátora sklizně zdržují, a umožnit mu tak se věnovat aktivitám, které vyžadují kreativní přístup. Zatím je systém ve fázi prototypování a formulace specifikace. Bude obsahovat QA modul a modul pro tvorbu testovacích sklizní. Dále byly prozkoumány možnosti automatizace kontroly kvality pomocí nástrojů jako je Sellenium a HTMLUnit. Z této analýzy vznikl zatím jednoduchý modul LinkExtractor (zatím spustitelný pouze externě), který dokáže extrahovat odkazy ze stránek s větší úspěšností, než Heritrix. WebAnalyzer Ukázky grafů, které se automaticky vygenerují ve formě reportu:
17
Nástroj pro automatické vygenerování grafů by měl své opodstatnění i v ostatních typech sklizní, které spadají pod pravidelné činnosti projektu WebArchiv. S nástrojem by bylo možno kdykoli sledovat detailní stav sklizně a statistiky dat, které by byly vyhodnoceny jako přínosné v rámci samotné sklizně. Generátor grafů je momentálně součástí systému WebAnalyzer a jeho přímé použití mimo WebAnalyzer není možné. Bylo by ale možné jej integrovat do Heritrixu v podobě nového zásuvného modulu, což by umožnilo využití těchto funkcí při všech typech sklizní. 18
Pro účely prezentace a vytváření konečného reportu z dokončené sklizně je ve WebAnalyzeru vytvořen nástroj, který pomáhá vytáhnout ze statistické databáze všechna data potřebná pro výslednou zprávu ze sklizně. Data, které nástroj poskytne, ručně vložíme do vytvořené Excel šablony, ze které pak vznikne závěrečná zpráva ze sklizně WebAnalyzeru. Grafy v této šabloně vypadají následovně:
19
B.1.7 Zvyšování robustnosti infrastruktury WebArchivu Stávající způsob uložení archivovaných dat sice zajišťuje jejich bezpečnost, data však není možné zpřístupňovat v okamžiku, kdy dojde k odstávce fyzického serveru, který je přímo připojen k úložišti prostřednictvím FC rozhraní. Ten je jako jediný zkonfigurovaný pro přístup k těmto datům. Po dohodě se správcem datového úložiště NK došlo proto k vytvoření druhé kopie archivovaných dat v Klementinu (KNAS). Tato druhá kopie je zpřístupňována prostřednictvím virtuálního serveru a je proto odolnější proti výpadkům. Ostré služby, běžící nově také na virtuálních serverech, přestávají tak být závislé na přístupu k datům skrze jedno fyzické zařízení. Prostřednictvím KNAS jsou data zpřístupňována v režimu read-only a navíc je tímto způsobem usnadněno jejich zálohování na pásky, využívající TSM Národní knihovny. Původní datové úložiště zatím zůstává zachováno jako server, jehož prostřednictvím jsou data na úložiště NK vkládána a spravována. Na serveru far byl přeinstalován operační systém na 64bitový, aby bylo možné rozšířit úložiště o svazek větší než 16 TB. Následně pak mohlo být rozšířeno místo na použitém úložišti, aktualizovány ovladače pro úložiště. Dále byl proveden rozsáhlejší update operačních systémů na serverech (servery har, tar i war byly povýšeny na aktuální a podporovanou verzi systému). Při změně infrastruktury bylo nutné upravit systém WA Admin, z toho důvodu, že ve všech nahlášených QA problémech v tracu je odkaz na stroj Raptor. Následně bylo třeba upravit aplikaci tak, aby nebyla vázána na starý stroj a přesunout všechny potřebné zdroje na virtuální server Intranet. S tím bylo spojeno i zprovoznění testovacího Waybacku, který bězí na Harvesteru, aby nedošlo k interferencím na produkčním Waybacku.
20
B.2 Přínos řešitelů Přínos řešitelů vyplývá z popisu vlastního řešení v kapitole B.1. Nejcennější je přínos řešitelů v těchto oblastech: •
•
•
•
Dokončení vývoje nástroje Konspekt Generator řešícího zpřístupnění webových zdrojů podchycených v Alephu formou předmětově organizovaného rozcestníku, strukturovaného podle metodiky Konspektu a využívající k získávání záznamů OAIPMH rozhraní Alephu. Aplikace je pravidelně automaticky aktualizovaná a zobrazuje uživateli název webu, jeho URL adresu, odkaz do archivu, anotaci, klíčová slova a náhled webu (tzv. thumbnail). Nová verze systému pro správu zdrojů a vydavatelů WA Admin 2.3, která obsahuje řadu nových funkcionalit a vylepšení. Systém byl otestován a je nasazen v ostrém provozu. Další vývoj a testování nástroje WebAnalyzer pro automatizované sklízení webu mimo národní doménu. V současnosti je připravován projekt dalšího vývoje tohoto nástroje, který umožní jeho mezinárodní využití. Zvýšení robustnosti a zabezpečení infrastruktury projektu, lepší ochrana dat a celkové zvýšení komfortu poskytovaných služeb.
B.3. Posun znalostí K největšímu posunu znalostí došlo v těchto oblastech: • • •
Aplikace mezinárodní metody Konspekt na organizaci dat z webových archivů a jejich zpřístupnění. Možnosti automatizované identifikace a sklízení webu podle obecně definovaných kritérií, např. mimo národní doménu nebo tématicky. Zpřístupnění webových archivů prostřednictví plnotextového vyhledávání.
21
C
NÁVRHOVÁ ČÁST
C.1 Výsledky řešení Výsledky dosažené a dosud neuplatněné Následující výsledky řešení dosažené v roce 2010 budou zavedeny do evidence RIV v roce 2011. R - Software ROSECKÝ, Václav. Konspekt Generator [software]. BROKEŠ, Adam. WA Admin 2.3 [software].
J – Článek v odborném periodiku COUFAL, L. Web po 20ti letech: co z něj zbude pro budoucí generace? Knihovna. 2009, roč. 20, č. 2. Dostupný z WWW: . ISSN 1801-3252
C.2 Závěr V rámci řešení projektu výzkumu a vývoje byly plánované úkoly pro rok 2010 splněny a podařilo se významně pokročit v řešení problematiky ochrany a trvalého zpřístupnění webových zdrojů.
22
C.3 Návrhy opatření 1. Pokračovat v řešení projektu v roce 2011 s cílem trvalého uložení a zpřístupnění českých webových zdrojů v souladu s platnou legislativou. 2. Aktivní účast na vývoji nových nástrojů, metodik a řešení pro dlouhodobé uchování a zpřístupnění webových zdrojů v rámci konsorcia IIPC. 3. Pokračování testování a vývoje aplikace WebAnalyzer pro sklízení zdrojů mimo doménu .cz a její nasazení v rámci celoplošných sklizní v průběhu roku 2011. 4. Další vývoj aplikace WA Admin, zejména modulu pro kontrolu kvality sklízení a integrace s ostatními nástroji. 5. Vývoj nástroje WA Harvester pro automatizaci technických činností sklízení webu. 6. Testování fulltextové indexace na velkých objemech dat. 7. Pokračovat v rozvoji infrastruktury WebArchivu s využitím vlastními silami vyvinutých i převzatých nástrojů.
23
E
RESUMÉ A KLÍČOVÁ SLOVA
E.1
Resumé a klíčová slova v češtině
V roce 2009 byla dokončena aplikace Konspekt Generator pro zpřístupnění webových zdrojů formou předmětového rozcestníku, využívajícího systém Konspekt. Pokračoval další vývoj systému WA Admin v2.3 pro interní správu workflow sklízení zdrojů a modulu WebAnalyzer pro automatizované sklízení webu mimo národní doménu. Začal vývoj nového nástroje WA Harvester pro automatizaci technických činností sklízení. Průběžně pokračovalo testování a implementace nových verzí softwarových nástrojů. Byla zlepšena robustnost a bezpečnost architektury WebArchivu. Klíčová slova archivace webu; výzkum a vývoj; softwarové nástroje; sklízení; sbírky; WA Admin; WebAnalyzer; WA Harvester
E.2
Resumé a klíčová slova v angličtině /Abstract and key words in English/
Konspekt Generator, a new aplication facilitating access to web resources through a subject directory using the Conspectus classification was completed in 2010. Work continued on a further development of WA Admin v2.3, a tool for internal workflow management, and WebAnalyzer, a module for automated harvesting of the web outside national domain. Development of a new tool, WA Harvester, that will allow automation of the technical part of harvesting has also commenced. Testing and implementation of new versions of deployed software tools continued throughout the year. The robustness and security of the WebArchive architecture has been improved. Key words web archiving; research and development; software tools; harvesting; collections; WA Admin; WebAnalyzer; WA Harvester
24
F
PŘÍLOHY
F.1
WA Admin v2.3: dokumentace změn a vývoje
F.2
Specifikace systému WA Harvester
25