Zpráva o řešení projektu VaV Národní geovědní bibliografie (SPII 4h3/22/07)
ke kontrolnímu dni 11.12.2008
Autoři: RNDr. Hana Breiterová, Richard Binko
Předkládá ředitel České geologické služby Zdeněk Venera
Česká geologická služba | Czech Geological Survey K l á rov 1 3 1 / 3 , 1 1 8 2 1 Praha 1, Tel.: (+420) 257 089 500, Fax (+420) 257 531 376 w w w. g e o l o g y c z p ro s i n e c 2 0 0 8 Pra h a
1. Úvod Práce na projektu Národní geovědní bibliografie (dále NGB) začaly v roce 2007 se zpožděním, proto se jejich část přesunula do roku 2008. Během tohoto období jsme se soustředili na práci s daty. Bylo potřeba analyzovat data z externích zdrojů z hlediska jejich struktury, retrospektivy, formátu a způsobu sběru a interní data zkontrolovat a harmonizovat tak, abychom měli připravené konsolidované soubory. Na začátku roku 2008 byla uspořádána schůzka kooperujících organizací. Na tomto místě je třeba napsat, že z projektu odstoupila Fakulta životního prostředí UJEP v Ústí nad Labem. Došlo ke změně na místě proděkana a nový proděkan nepovažuje spolupráci za důležitou a pro organizaci přínosnou. Cílem schůzky byla prezentace projektu, jeho cíle a nastínění možností řešení. Pro zaručení hladkého chodu projektu byl předložen návrh na vytvoření týmu NGB, do kterého každá ze zúčastněných organizací jmenuje svého zástupce. Byla prezentována aplikace GeoPub sloužící pro evidenci publikační činnosti vědeckých a výzkumných pracovníků v ČGS. Datový sklad těchto výstupů je jedním ze zdrojů pro NGB. Na závěr bylo domluveno, že bude rozeslán dotazník, který by měl zmapovat fakta o způsobu evidence publikační činnosti a o formátu dat, dále nominaci osoby do týmu Národní geovědní bibliografie vždy za danou organizaci s uvedením spojení. Dotazník byl rozeslán v únoru a údaje z něj byly použity pro následnou analýzu.
2. Plánovaný harmonogram na rok 2008 dle dodatku smlouvy analýza a harmonizace dat
do 30.6.
analýza technického a technologického zázemí partnerů
do 30.6.
kontrolní den – průběžný stav řešení
do 30.6.
výběr systémů oběhu dat
do 30.9.
popis funkčností systému pro sběr dat
do 30.9.
kontrolní den – průběžný stav řešení
do 30.9.
vývoj systému pro sběr dat závěrečný kontrolní den a předání závěrečné zprávy
do 10.12.
3. Harmonizace dat V průběhu celého roku 2008 byla věnována pozornost harmonizaci dat. Soustředili jsme se na následující zdroje: datový sklad publikační činnosti pracovníků ČGS, databázi geologické bibliografie a databáze archivních dokumentů.
3.1 GeoPub V prvním pololetí roku 2008 byla věnována zvýšená pozornost aplikaci pro evidenci publikační činnosti ČGS GeoPub a datovému skladu. Aplikace byla vytvořena v roce 2006 jako výstup interního projektu ČGS, zadané údaje byly použity pro generování citací do zpráv o plnění Výzkumného záměru 2006 a 2007 a pro
export údajů pro RIV 2006. Během provozu vyplynuly některé nedostatky aplikace: nedostatečné zabezpečení záznamů, neexistence povinných polí pro minimální záznam, neodlišení impaktovaných a neimpaktovaných periodik a v neposlední řadě rovněž těžkopádnost a složitost zapisování údajů. Při tvorbě nového výzkumného záměru vyplynula i nedostatečná retrospektiva dat (od 2006). Tyto poznatky vedly k rozhodnutí celou aplikaci přeprogramovat a do nové aplikace promítnout zkušenosti, které jsme získali během provozu staré aplikace a administrace záznamů. Byli osloveni autoři, kteří s aplikací pracují, a jejich připomínky jsme při práci vzali v úvahu. Nová aplikace byla spuštěna v květnu 2008. Má mnohem vyšší zabezpečení záznamů proti nepovolaným zásahům. Vkládat, editovat a mazat záznam může pouze autor z ČGS a administrátor. V minulé aplikaci mohl kdokoli editovat jakýkoli záznam. Ukázalo se, že se nelze spoléhat pouze na etické povědomí lidí, protože možnost někomu „upravit“ záznam je velmi lákavá. Kvalita uložených záznamů byla zabezpečena tím, že byla stanovena povinná pole, která je nutno vyplnit, aby záznam mohl být vytvořen a uložen. To snižuje pravděpodobnost duplicitního vkládání, které bylo ve starší aplikaci velmi časté. Rovněž jsme museli vyřešit odlišení impaktovaných periodik (RIV nerozeznává impaktovaná a neimpaktovaná periodika – zná pouze recenzovaná). Rozdělení recenzovaných periodik na dvě podskupiny jsme vyřešili údaji přímo v databázi, dnes je možné vyhledat články v recenzovaných periodikách i podle kritéria Impact Faktoru. Pro zajištění správných údajů o periodikách byla připravena tabulka s ověřenými údaji (ISSN, vydavatel, země vydavatele, impaktovanost), odkud jsou tyto údaje automaticky vyplněny při volbě periodika z této tabulky. Tuto tabulku doplňuje o další položky administrátor. Malou retrospektivu jsme vyřešili konverzí starších souborů, které byly za ČGS posílány do RIV během let 1999-2005. Záznamy byly přidány do datového skladu. V důsledku v průběhu času stále se měnící metodiky hodnocení RIV, měnících se kategorií a mnoha dalších aspektů byla data ve špatném stavu. Bylo potřeba je harmonizovat, odstranit duplicity, sjednotit zdroje, doplnit chybějící údaje. Nyní na konci roku 2008 můžeme prohlásit, že data jsou zkontrolovaná a konsolidovaná. Záznamy jsme podrobili důkladné analýze i z hlediska korektního zařazení do příslušné kategorie výstupů a obsahové analýzy jednotlivých polí. Tato skutečnost je akcentována i v novém materiálu Rady pro výzkum a vývoj „Koncepce Informačního systému výzkumu, vývoje a inovací na období let 2009-12“ schválený usnesením vlády č. 1335 ze dne 3.11.2008. Vývoj této aplikace nekončí. Během provozu vyvstaly nové požadavky na systém ze strany uživatelů a administrátorů, které je ještě potřeba řešit.
3.2 Geologická bibliografie Databáze článkové geologické bibliografie je zpracovávána podle standardů AACR2/UNIMARC v knihovním systému Clavius od roku 2004. Do této doby byla databáze v systému ISIS ve formátu MAKS. Databáze byla konvertována v roce 2004 do nového knihovního systému, do formátu UNIMARC. Tato konverze se neobešla bez chyb, které bylo nutno napravit. Systematická práce na opravách databáze článků začala již v roce 2007. Po získání projektu Národní geovědní bibliografie jsme práce zintenzívnili tak, aby při budování centrálního datového skladu byla data již harmonizovaná, čili harmonizaci dat bylo třeba dokončit nejpozději do III. Q 2008. Tento termín se podařilo dodržet a v současné době databáze obsahuje 21 872 záznamy, které budou sloužit jako základ centrálního datového skladu Národní geovědní bibliografie.
3.3 Zprávy a posudky V souvislosti se skutečností, že datový sklad ČGS obsahuje záznamy nejen o článcích, kapitolách z knih a článcích ve sbornících, ale i mapy a nepublikované zprávy, jsme se rozhodli provést revizi databází těchto materiálů. V roce 2008 byla v datovém skladu mapového archívu ČGS provedena revize úplnosti pořízených prezentačních souborů ve srovnání se stavem náhledových rastrových ekvivelentů poskytovaných na veřejném portále ČGS. Bylo provedeno sjednocení názvů souboru na prezentačním portále ČGS a v mapové databázi produkční linky v důsledku přechodu na novou verzi aplikačního serveru. Vzhledem ke změnám ve velikosti zpracovávaných naskenovaných dávek dokumentů byla provedena úprava procesního schématu výroby prezentačních formátu mapového archivu a byla do aplikace přidána možnost ukládání dávek na libovolně velká zálohovací media.
4. Analýza dat Analýza byla provedena na základě údajů z dotazníku, který byl rozeslán všem kooperujícím organizacím, z několika hledisek. Byl sledován formát dat, retrospektiva, aktualizace, způsob evidence, šíře evidovaných aktivit.
4.1 Formát dat Byly zjištěny celkem 3 různé formáty. Formát UNIMARC – Akademie věd, bibliografie České geologické služby, formát MARC 21 – databáze Přírodovědecké fakulty MU a formát dle metodiky RIV - Národní muzeum, Moravské zemské muzeum, Přírodovědecká fakulta UK, datový sklad ČGS. Formáty UNIMARC a MARC 21 jsou běžně používané knihovní standardy, konverze mezi nimi je dořešená. Bude třeba vyřešit konverzi formátu RIV. Specifikace polí jednotlivých formátů bude řešena v následujícím období.
4.2 Retrospektiva Retrospektiva je velmi různá. Největší retrospektivu má bibliografie ČGS – 1989. Záznamy z Akademie věd jsou doplněny od r. 1993, někde od 1994. Přírodovědecká fakulta UK uvádí retrospektivu od 1998, Národní muzeum několik let, ostatní organizace se k retrospektivě nevyjádřily, nicméně na webových stránkách Přírodovědecké fakulty MU je možno vyhledávat publikace od roku 1993. Datový sklad ČGS obsahuje záznamy od roku 1999.
4.3 Aktualizace Data jsou aktualizována průběžně – část AV, bibliografie ČGS, datový sklad ČGS nebo dávkově – obě přírodovědecké fakulty, obě muzea, některé ústavy AV.
4.4 Způsob evidence Zde jde o zjištění, zda autoři vkládají své záznamy do databáze sami, zda jsou data zpracována knihovníky nebo jestli data podléhají kontrole. Sledování tohoto hlediska považuji
za velmi důležité z hlediska kvality záznamů. Téměř ve všech institucích záznamy vkládají sami autoři a následuje kontrola knihovníky, popřípadě jinými pověřenými osobami.
4.5 Šíře evidovaných aktivit Je velmi rozdílná. Z analýzy vyplynulo, že všechny organizace bez rozdílu evidují výstupy pro RIV. Některé evidují i další výstupy, ne však všechny – Moravské zemské muzeum a Přírodovědecká fakulta MU. V těchto organizacích je na uvážení autorů, které další výstupy zadají do evidence. Naopak v ústavech AV, Přírodovědecké fakultě UK a v ČGS jsou evidována veškeré výstupy a aktivity vědeckých a výzkumných pracovníků.
5. Analýza technologického zázemí partnerů Na znalosti technologického zázemí závisí volba systému oběhu dat. V mnoha institucích byly vyvinuty aplikace sloužící ke sběru dat v průběhu roku. Z těchto aplikací jsou potom generovány různé výstupy a data lze vyhledávat na webových stránkách. Týká se AV – systém ASEP ve formátu UNIMARC, Přírodovědecké fakulty ze svých interních aplikací předávají data do univerzitního systému ALEPH ve formátu MARC 21, Česká geologická služba vyvinula webovou aplikaci GeoPub ve fromátu RIV. Národní muzeum a Moravské zemské muzeum sbírají data nárazově pro evidenci RIV, data jsou uložena v souborech tak, jak byla do RIV poslána, což nebrání jejich využití pro účely Národní geovědní bibliografie.
6. Analýza způsobu oběhu dat Na základě analýzy možností oběhu dat byly popsány požadavky na jednotlivé funkčnosti systému a na základě těchto požadavků byl vybírán dodavatel programátorských prací.
6.1. Metody systémů získání a zobrazení dat Centrální – data jsou ukládána do centrální úložiště a dávkově aktualizována. Vyhledání a konsolidace dat by probíhala v ČGS v rámci stávajícího technologického vybavení (datový a aplikační server Oracle) Podmínky: Pravidelná dodávka dat do centrální databáze v předem domluveném formátu. Tato činnost vyžaduje personální zajištění, které řeší sběr a zpracování dat. Řešení duplicit probíhá hned při úvodním zpracování před vlastním importem záznamů do centrální databáze. Běžná administrace datového skladu a aplikační vrstvy probíhá v rámci správy IS ČGS. Distribuovaná – data zůstanou v původních databázích (u poskytovatelů) a systém, centrální aplikace v ČGS do nich pouze nahlíží. Vyžaduje to těsnější propojení se spolupracující organizací (technicky i kapacitně). Jde o složitější řešení, kde musí pro každého poskytovatele existovat specifická aplikace, která na jedné straně umí číst datový formát poskytovatele a předávat je dál ve formátu požadovaným centrální prohlížecí aplikací. Klient zadá dotaz do centrální aplikace, která se na pozadí on-line dotáže všech poskytovatelů a postupně jak bude dostávat odpovědi je bude zobrazovat klientovi. Klient pak má přehled o výsledcích rozdělených podle poskytovatelů. Toto řešení vůbec neřeší duplicitní záznamy, ale na druhou stranu umožní spolupracujícím organizacím přímo sdílet zdrojová data bez dalších kapacitních nároků. Podmínky: Nutná úzká spolupráce IT pracovníků poskytovatele a ČGS. Jako problematické se ukázalo sdílení dat i z hlediska povolení od vedoucích partnerských organizací, z nichž většina je součástí mnohem většího celku. Obtížnější údržba systému –
nutné personální zajištění na straně všech partnerů. Systém není zcela v souladu zadání řešení v projektové dokumentaci. Kombinace obou výše popsaných metod, založená na technologických a personálních možnostech jednotlivých poskytovatelů.
6.2 Závěr Každá z metod má své výhody a nevýhody. Každá metoda předpokládá dlouhodobé personální zajištění s ohledem na druh metody. Z diskuse s některými partnery, kteří budou dodávat data do NGB, i z vlastních zkušeností vyplývá, že kapacitně schůdnější je zajistit pravidelné posílání dat do centrálního skladu, než zajistit kapacitu dbající na kompatibilitu všech úrovní v případě distribuované metody. Dle zadání projektu hraje zcela klíčovou úlohu řešení duplicit nebo multiplicit záznamů, které vznikají kooperací autorů napříč poskytovateli. S ohledem na tato fakta byla po vážném zhodnocení vybrána metoda centrální.
7. Výběr dodavatele Poptávkové řízení proběhlo ústně na půdě ČGS. Byly osloveny popř. byly analyzovány produkty těchto firem: MGE Data, spol. s r.o., Help Service - Remote Sensing, spol. s r.o. a Multidata, spol. s r.o.. Ústních jednání se zúčastnili vždy zástupci firmy na straně jedné a Hana Breiterová jako vedoucí projektu a Richard Binko jako správce sítí ČGS na straně druhé. Analýzu produktů provedli Hana Breiterová a Richard Binko.
7.1 Popis dodavatelů MGE Data Firma byla oslovena v únoru 2008, jednání proběhlo na půdě ČGS. Firma se v ČGS již úspěšně podílela na řešení jiných projektů VaV (Digitální mapový archív, Portál SGS, aplikace pro portál Geohazardů). Firma MGE Data navrhovala řešení, které vyžadovalo ze strany ČGS dosud nepoužívané IT zázemí. Help Service - Remote Sensing Zde byl analyzován její stávající produkt MICKA. Jde o ukázkovou distribuovanou metodu. Jak již bylo psáno výše, tato metoda vůbec neřeší duplicitní záznamy. Multidata Firma Multidata je spoluautorem hojně využívané „Jednotné informační brány“, která zpřístupňuje velké souborné katalogy knihoven a univerzit v České republice, souborné katalogy zahraničních knihoven, v současné době tvoří oborové informační brány. S těmito nástroji denně pracují stovky uživatelů a jsou to nejen knihovníci, ale i běžní uživatelé z řad vědecké i nevědecké veřejnosti. Jednotná informační brána umožňuje používat jednoduché i pokročilé vyhledávání, umí vyhodnotit duplicitní záznamy a zobrazit lokaci katalogu, ze kterého záznam pochází.
7.2 Závěr Po zvážení jednotlivých parametrů, které hodnotily vhodnost dodavatele na základě dosavadních zkušeností a s ohledem na navrhované řešení byl jako dodavatel vybrána firma
Multidata, spol. s r.o.. S dodavatelem proběhlo několik předběžných ústních jednání v měsících květnu, červnu a červenci t.r. Při těchto jednáních byly diskutovány detailní požadavky ze strany ČGS a navrhovány různé možnosti technického řešení. Časový plán bude v souladu s plánem uvedeným v projektové dokumentaci.
8. Popis systému a následný časový harmonogram Na straně řešitele projektu (ČGS) bude ve stávající IT infrastruktuře vybudováno centrální úložiště (datový sklad) pro všechny záznamy. Toto úložiště bude mít výstup ve formátu UNIMARC a bude vybudováno do konce roku 2008. Do tohoto úložiště budou importovány všechny záznamy z geologické bibliografie, které budou tvořit základ pro další práce. V současné době je implementován zárodečný software na jenom PC a do něj bylo importováno 100 záznamů. Dále bude vytvořena klientská aplikace pro administrátora pro importy záznamů, ve které bude řešen sběr a konverze dat, porovnání duplicit. Pro vytvoření a následné vyladění konverzních mechanismů z formátu RIV budou využity záznamy z datového skladu ČGS. Současně budou tyto záznamy a záznamy z bibliografie dobrým materiálem pro vývoj a testování klíče na rozpoznávání duplicit. Konverze MARC 21UNIMARC je běžně používaná, k testování použijeme externí záznamy. Původně jsme s prvními dodávkami externích záznamů počítali již v roce 2008, ale účelnější se jeví využít pro vývoj softwaru data z ČGS, která dostatečně pokrývají šíři aktivit vědeckých pracovníků. Vývoj klientské aplikace vč. konečného vyřešení konverzí a klíče pro rozpoznávání duplicitních záznamů proběhne v roce 2009. Některé varianty duplicitního klíče byly probírány již v průběhu osobních jednání při specifikaci funkcí systému. Následně bude řešeno vyhledávání a reportování výsledků (2010). Tato část bude přístupná z Internetu. Pro tuto aplikaci bychom rádi využili novou technologii virtuálních serverů včetně open source technologií. S používáním těchto technologií mají největší zkušenosti kolegové z BRGM, proto se pracovníci IT oddělení ČGS zúčastnili pracovního setkání ve Francii, Cílem pracovní schůzky bylo získání detailnějších informací a provozních zkušeností při používání open source a virtualizačních technologií v IT.