JSOU ZAHRANIÈNÍ INFORMAÈNÍ ZDROJE ZPØÍSTUPÒOVANÉ V ÈR DUPLICITNÍ? Marie Paráková, Ústøední knihovna UK Petr Boldi, ÚISK FF UK Èlánek byl zpracován v øíjnu 2001 na základì studie výstupu z grantu LI 002043 Zabezpeèení vìdy a výzkumu v humanitních oborech základními informaèními zdroji. 1 Úvod Trvale se sniující dostupnost primárních i sekundárních informací roztrpèovala informaèní pracovníky ve vech knihovnách v Èeské republice. Ve snaze zabránit tomuto propadu vznikla v roce 1999 iniciativa Ústøední knihovnické rady podporovaná Ministerstvem kultury ÈR a na svìt pøiel program, jeho oficiální název byl Optimalizace dostupnosti informací ze svìtových periodických zdrojù v èeských knihovnách. Této mylenky se ujalo Ministerstvo kolství, mládee a tìlovýchovy ÈR, které je odpovìdné za výzkum a vývoj Radì vlády ÈR, je cítila potøebu doplnit vzniklé vakuum v oblasti zajitìní a pokrytí tìchto aktivit informacemi. Výsledkem bylo otevøení programu LI Informaèní zdroje pro výzkum a vývoj, který mìl 3 podprogramy: A. podporu/vytvoøení multifunkèních knihovnických center B. získání konkrétních zdùvodnìných titulù informaèních zdrojù/dokumentù C. získání multilicencí/velkoploných licencí pro pøístup k informaèním zdrojùm. Program byl otevøen jako víceletý, pokrývající léta 20002003. Pro potøeby tohoto èlánku je zajímavý podprogram o multilicencích pro pøístup k informaèním zdrojùm. Pøestoe vznik tohoto programu nebyl procesem náhodným, ale velmi promyleným, jen vycházel jak z potøeb iroké uivatelské základny, tak z podnìtu centrálního øídícího orgánu, nebylo pøi sepisování grantových pøihláek mnoho prostoru pro obsáhlou diskusi nad nabídkou komerèních firem. Ze iroké nabídky dodavatelských firem byly vybrány informaèní zdroje, které ji byly v minulosti ovìøeny na malých vzorcích uivatelù jako lokální øeení pro konkrétní instituce, nebo nové celky vytvoøené producenty dat, které svým profilem vyhovovaly naim uivatelùm. V grantové soutìi pak uspìly pøedevím ty projekty, které pokrývaly co nejirí uivatelskou základnu a odpovídaly souèasným potøebám výzkumu a vývoje. Tehdy se zrodila mylenka porovnat nìkteré vybrané multioborové zdroje, které splòovaly podmínku uvádìní
NÁRODNÍ KNIHOVNA, 13, 2002, è. 1
plných textù èasopiseckých èlánkù a u nich bylo moné oèekávat pøekrytí titulù èasopisù. Tato kvantitativní analýza byla provedena u databázových celkù eIFL Direct, Periodical Contents Index, ProQuest 5000 a Springer Link. Výsledky studie byly prezentovány na konferenci Inforum 2001 v Praze a vzhledem k zájmu, který vyvolaly, jsme pøistoupili k rozíøení studie i na velmi významný bibliografický zdroj, jen je ve svìtì vìdy a výzkumu chápán jako vrchol a záruka kvality excerpovaných èasopiseckých titulù citaèní rejstøíky Science Citation Index a jejich elektronická podoba nazvaná Web of Science. U tohoto zdroje nás zajímala skuteènost, jakou vazbu mají bibliografické údaje o èláncích na výe uvedené plnotextové zdroje. Studie zaèíná popisem jednotlivých zdrojù, pokraèuje vlastní kvantitativní analýzou, kde je popsána pøedevím metodika sbìru vstupních údajù, proces porovnávání vèetnì vytvoøení pracovní terminologie a zveøejnìní výsledkù s uvedením omezujících faktorù, které mohou zpùsobit pøípadné zkreslení výsledkù. Závìr obsahuje obecné shrnutí vech postøehù a návrhù, které by mohly vést k eliminaci omezujících faktorù. 2 Popis jednotlivých databází/databázových celkù Vìtina údajù o poètech excerpovaných titulù je pøibliná a platná k datu vzniku studie tj. pøelomu dubna/ kvìtna 2001. eIFL Direct Electronic Information for Libraries1) Producent: projekt EBSCO Publishing (USA) & OSI http://www.epnet.com (EBSCO Publishing) http://www.osi.hu (Open Society Institut) http://www.nkp.cz/eifl/ (stránky èeské licence eIFL) Obsaené druhy dokumentù: èlánky z èasopisù, monografické publikace (pøíruèkové dokumenty) Formáty záznamù: bibliografické citace, plný text Retrospektiva: od r. 1990 Pøibliný poèet excerpovaných zdrojù: 3300 (periodika), 1300 (pøíruèkové publikace) Pøístup ke slubì: http://search.epnet.com Øeitel projektu pro ÈR: PhDr. Hana Nová, Národní knihovna ÈR Trvání licence: 20002003 (program MMT ÈR Informaèní zdroje pro výzkum a vývoj) eIFL Direct zpøístupòuje databáze spoleènosti EBSCO Publishing obsahující pøiblinì 3300 titulù èasopisù s plnými texty (pøevánì od r. 1990), novin a zpráv informaèních agentur a pøes 1300 publikací pøíruèkového charakteru s plnými texty z oblasti humanitních vìd a lékaøství. eIFL Direct je urèen v kadé z úèastnických zemí pøedevím pro akademické, výzkumné a národní knihovny. Pøedmìt pokrytí: medicína, ekonomie a obchod, vzdìlání, zemìpis, historie, humanitní vìdy, knihovnictví a informaèní vìda, filozofie, politologie a veøejná správa, psychologie, sociální vìdy, teologie a religionistika.
31
Systém je dále ve studii uvádìn jako databáze EBSCO. Kompletní pøehled titulù na: maglists/maglist.htm
http://www.epnet.com/
Periodical Contents Index Full Text (PCI Full Text) Producent: ProQuest Information and Learning (USA), divize Chadwyck-Healey (Velká Británie) http://pcift.chadwyck.co.uk Obsaené druhy dokumentù: èlánky z èasopisù Formáty záznamù: bibliografické citace, plný text Retrospektiva: od r. 17701990 (1995) Poèet excerpovaných zdrojù: (100 v plném textu k dubnu 2001; 120 k øíjnu 2001) Pøístup ke slubì: http://www.proquest.cz Øeitel projektu pro ÈR: Mgr. Marie Paráková, Ústøední knihovna UK Trvání licence: 20002003 (program MMT ÈR Informaèní zdroje pro výzkum a vývoj) Periodical Contents Index je jedinou historickou databází poskytující bibliografické záznamy z oblasti spoleèenských a humanitních vìd. Pokrývá více ne 3000 èasopisù od poèátku jejich vydávání a do r. 1990 (1993) a obsahuje cca 11 000 000 záznamù. Databáze pokrývá vùdèí èasopisy po celém svìtì, tj. i v rùzných jazycích. Nadstavbou PCI je sluba PCI Full Text, která poskytuje i plné texty èasopisù (faximilní kopie). V souèasnosti2) obsahuje plné texty 120 èasopisù (v dobì studie 100) a roènì by mìlo pøibývat dalích 75 titulù. Databáze je z èasového hlediska uzavøená pouze se posouvá, prùbìnì se inovuje ovládání, indexace a pokrytí plným textem. Pøedmìt pokrytí: antropologie a etnologie, archeologie a starobylé civilizace, umìní a architektura, ekonomie a obchod, vzdìlání, zemìpis, historie, americká historie, humanitní vìdy, hebraistika, právo, knihovnictví a informaèní vìda, lingvistika a filologie, literatura, hudba a veøejné vystupování, filozofie, politologie a veøejná správa, psychologie, sociální vìdy, teologie a religionistika. Kompletní pøehled titulù na: http://pcift.chadwyck.co.uk/ titles/titles.html ProQuest 5000 Producent: ProQuest Information and Learning (døíve Bell & Howell Information and Learning), USA http://www.proquest.com Obsaené druhy dokumentù: èlánky z novin a èasopisù, knihy, tiskové, vládní zprávy, cizí databáze Formáty záznamù: bibliografické záznamy, plný text Retrospektiva: od r. 1971 (bibliografické záznamy), od r. 1987 (plný text) Pøibliný poèet excerpovaných zdrojù: 8378 (cca 4000 v plném textu) Pøístup ke slubì: http://www.proquest.cz
32
Øeitel projektu pro ÈR: Mgr. Marie Paráková, Ústøední knihovna UK Trvání licence: 20002003 (program MMT ÈR Informaèní zdroje pro výzkum a vývoj) ProQuest 5000 je hlavním databázovým produktem spoleènosti ProQuest Information & Learning. Nabízí pøístup k záznamùm pøiblinì 4000 èasopisù v plném textu a dalím zdrojùm ze irokého spektra oborù. Systém nabízí èlánky v nìkolika dostupných formátech jako HTML text, HTML text s grafikou, formát PDF a naskenovaný text èlánku. U kadého èlánku je alespoò anotace. Do konce roku 2001 mohou uivatelé v Èeské republice vyhledávat i ve specializovaných odborných databázích jiných producentù Agricola (zemìdìlství), ERIC (výchova a vzdìlání) a Medline (oblast medicíny). Pøedmìt pokrytí: humanitní obory, spoleèenské vìdy, filozofie, teologie a religionistika, medicína, mezinárodní problematika, vojenství, vzdìlání, ekonomika a obchod, bankovnictví, úèetnictví, výpoèetní technika, telekomunikace, marketing, management. Kompletní pøehled titulù na: http://pcift.chadwyck.co.uk/ titles/titles.html Springer Link Producent: Springer (Nìmecko) http:/www.springer.de Obsaené druhy dokumentù: èlánky z èasopisù (elektronické verze), knihy (edice), zprávy pro odbornou veøejnost, software Formáty záznamù: bibliografické citace, anotace, plný text (elektronická verze èasopisu ve formátu PDF) Pøístup ke slubì: http://link.springer.de Poèet excerpovaných zdrojù: 480 (èasopisy), 17 (kniních edic) Øeitel projektu pro ÈR: PhDr. Anna Patoèková, Státní technická knihovna, Praha Trvání licence: 20002003 (program MMT ÈR Informaèní zdroje pro výzkum a vývoj) LINK je online slubou, která nabízí elektronické verze èasopisù a knih nakladatelské skupiny Springer. Úsilí nakladatele smìøuje k tomu, aby elektronické verze vybraných èasopisù v rámci LINKu byly uveøejnìny døíve, ne vyjde jejich titìná verze. Tituly pro zpøístupnìní online jsou vybírány odbornými editory èasopisù skupiny Springer. Pøedmìt pokrytí: medicína, farmacie, fyzika, pøírodní vìdy, výpoèetní technika. Web of Science (WoS) Producent: Institut for Scientifical Information (ISI), USA http://www.isinet.com Obsaené druhy dokumentù: èlánky z èasopisù, patenty, edá literatura
NÁRODNÍ KNIHOVNA, 13, 2002, è. 1
Formáty záznamù: bibliografické citace, abstrakt (u cca 60 % záznamù) Pøístup ke slubì: http://bimbam.cuni.cz Retrospektiva: od r. 1974 Pøibliný poèet excerpovaných zdrojù: cca 8500 Øeitel projektu pro ÈR: PhDr. Ivana Kadlecová, Akademie vìd ÈR Trvání licence: 20002003 (program MMT ÈR Informaèní zdroje pro výzkum a vývoj) Sluba Web of Science umoòuje pøístup k unikátním databázím citaèních rejstøíkù ISI, které jsou zcela jedineèné pro sledování citaèních vazeb. Jednotlivé báze citaèních rejstøíkù: 1. Science Citation Index Expanded citaèní rejstøík z oblasti pøírodních vìd a techniky 2. Social Science Citation Index multidisciplinární báze z oblasti spoleèenských vìd 3. Arts & Humanities Citation Index citaèní rejstøík z oblasti humanitních vìd 3 Kvantitativní analýza pøekrytí excerpèních zdrojù databází 3.1 Metodika porovnávání excerpèních zdrojù Z dùvodu stálého rùstu excerpèních zdrojù musel být stanoven den, ke kterému jsou dané údaje platné, a to k 25. 4. 2001. Nìkteré seznamy titulù nezachycují aktuální stav databází k 25. 4. (pomalá aktualizace seznamù titulù), nicménì zmìny, které by tímto vznikly, nemohou ovlivnit celkové výsledky kvantitativního porovnání jednotlivých databázových celkù. Seznamy databázových sektorù EBSCO v projektu eIFL DIRECT Comprehensive MEDLINE Full Text a Health Source byly pøidány do srovnání pozdìji (5. 5. 2001), ale tyto seznamy byly aktualizovány stejnì jako ostatní tj. na pøelomu dubna a kvìtna. 3.2 Získávání a zpracování podkladových dat Vekeré podkladové seznamy jsme získali z webovských stránek jednotlivých producentù databází. Tyto seznamy existují v rùzných formách a také v rùzné kvalitì. Nejúplnìjí data poskytuje spoleènost EBSCO Information Services, která seznamy nabízí ve tøech formátech: HTML, PDF a XLS (tabulka formátu MS EXCEL). Po stránce struktury vypadají záznamy následovnì: název titulu ISSN vydavatel èasové pokrytí titulu v databázi: abstrakt, plný text, naskenovaný formát (PDF). Tyto seznamy existují pouze pro jednotlivé databázové sektory. Proto bylo nutné slouèit vechny seznamy do jednoho a vyøadit duplicity v jednotlivých seznamech tak, aby byl titul v celkovém seznamu databází EBSCO obsaen pouze jednou. U databáze ProQuest je seznam titulù generován do formátu HTML podle poadavkù uivatele na zobrazení. Systém umoòuje zobrazení v tìchto výstupních sestavách:
NÁRODNÍ KNIHOVNA, 13, 2002, è. 1
Název titulu ISSN Dalí informace k titulu v databázi: datum první citace v databázi datum prvního abstraktu v databázi datum, od kdy je v databázi plný text datum, od kdy je v databázi grafika datum, od kdy je v databází plný text s grafikou data, od kdy jsou citace sledovány systémem Wilson nebo MEDLINE data, od kdy jsou abstrakty sledovány systémem Wilson nebo MEDLINE Dále bylo moné zvolit si výstupní formát: HTML, text (ASCII) a Comma-delimited ASCII. Jak u databáze EBSCO, tak u databáze ProQuest, je moné zobrazit seznam titulù ve struèné podobì pøímo v databázi. Databáze PCI Full Text má svùj seznam plnotextových titulù (obsahoval ve sledovaném období 100 poloek) ve formátu HTML. V tomto seznamu jsou pouze následující poloky: název titulu zemì a místo publikování datum, od kdy je titul sledován pøedmìtové zamìøení titulu. Tento seznam bylo nutné doplnit o dalí údaje o jednotlivých titulech, které jsou v databázi obsaeny v samostatných souborech. Springer LINK je spíe sbírkou dokumentù vydávaných skupinou Springer. Seznam èasopisù je k dispozici pouze jako jednoduchý soupis ve formátu HTML; stejnì jako u databáze PCI Full Text bylo nutné doplnit z dalích stránek potøebné údaje. Producent citaèních rejstøíkù Web of Science zveøejòuje seznam excerpovaných titulù ve formátu HTML (stránky po 500 titulech). Seznam obsahuje: název titulu periodicitu titulu ISSN jméno vydavatele spoleènì s jeho adresou. Jednotlivé seznamy bylo potøeba doplnit do stanoveného formátu potøebného pro zpracování studie: název titulu, ISSN, data sledování titulù v databázích. Srovnání bylo zamìøeno na pøekrytí titulù èasopisù, take vekeré dalí typy databázových sektorù (faktové databáze, databáze typu news apod.) byly vynechány. Rovnì jsme ze seznamù vyøadili neperiodickou literaturu (encyklopedické a referenèní zdroje). 3.3
Metodika porovnávání databází
3.3.1 Srovnání databází programem GNU Diff pro zjitìní duplicit Pro první srovnání duplicit byl pouit program GNU Diff pod operaèním systémem Linux, který umoòuje porovnávání rùzných textových souborù. Pro potøeby studie byly pøipraveny textové soubory s názvy titulù a ISSN. Metoda tohoto zpracování byla zvolena pøedevím pro obsáhlost jednotlivých seznamù titulù v databázích, v nìkterých pøípadech i pro jejich obtínou zpracovatelnost.
33
Ukázka výstupu programu GNU Diff: Qatar - Saudi Arabia Economic Studies Qatar Country Monitor Quaker Studies Qualitative Health Research Qualitative Inquiry Quality Assurance Quality in Higher Education Quality Quarterly Journal of Austrian Economics Quarterly Journal of Business & Economics Quarterly Journal of Economics
| QST < < Qualitative Health Research Qualitative Inquiry < < Quality | Quarterly Journal of Nuclear Medicine | Quarterly Journal of Speech, The | Quill, The
3.3.2 Vizuální kontrola duplicit Program GNU Diff byl naprogramován jako pomùcka pro porovnávání programového kódu tj. porovnává v souborech identické znaky v sekvenci za sebou. U porovnávání titulù periodik jsou jeho slabou stránkou pod-
kladová data. Jednotliví producenti databází mají kadý svou metodiku zpracování seznamù a i v nich se identické tituly mohou objevit pod rùznými variantami názvù.
Pøíklady variant názvù (identické tituly): Antioch Review Intervention in School and Clinic Graphic Arts Monthly; the magazine of the printing industry Z výe uvedených dùvodù bylo nutné vizuálnì porovnat programové výstupy se zdrojovými soubory za úèelem nalezení duplicit s jinou variantou názvu. 3.3.3 Ovìøování titulových duplicit porovnáváním dalích identifikaèních znakù Po pøevedení duplicitních titulù do samostatných souborù byla provedena dalí identifikace titulù periodik porovnáním názvu, ISSN a, nebylo-li dostupné ISSN, místa vydání. Hlavní dùraz byl pøitom kladen na ISSN, které se vyskytovalo ve vech seznamech titulù od producentù databází (existuje-li). Z tìchto seznamù byl pøipraven seznam titulových duplicit, tj. seznam shodných titulù periodik, které se vyskytují v obou porovnávaných databázích. Z dùvodu rùzné metodiky zpracování se nìkteré tituly periodik neshodovaly ve vech identifikaèních znacích tj. stejná varianta názvu, ale odliné ISSN. Vechny takto nalezené tituly byly pøevedeny do samostatných oddílù na konci kadého seznamu pod oznaèením podezøelé duplicity. U tìchto titulù periodik nebylo moné z dùvodu chybìjících údajù v seznamech titulù producentù ovìøit, e nalezené tituly jsou skuteènì identické. V nìkterých pøípadech mùe jít o chybu zpracování (první èíslo v ISSN se u dvou nalezených lií moný pøeklep) a u dalích se pravdìpodobnì jedná o jiný titul se shodným názvem nebo o zmìnu ve vydávání titulu (zánik a obnovení, pøevod pod jiného vydavatele apod.). Termín duplicita vydání znamená shodu jak v titulu, tak v dalích identifikaèních znacích a pøekrytí v jednotlivých èíslech roèníku. 34
Antioch Review, The Intervention in School & Clinic Graphic Arts Monthly
Pokud se nìkteré tituly odliují èástí názvu (podnázev, oznaèení regionálního vydání), ale v ostatních identifikaèních znacích se shodují, je na to upozornìno v poznámce. V databázi ProQuest 5000 se vyskytují tituly, u kterých je plný text dostupný jako volitelný placený doplnìk. To znamená, e není k dispozici ve standardní nabídce. Tato skuteènost je také uvedena v poznámce. 3.3.4 Porovnání èasového pøekrytí jednotlivých titulù Po kontrole duplicit bylo provedeno porovnání èasového pøekrytí jednotlivých titulù srovnáním èasového rozsahu excerpce v jednotlivých databázích. Jak ji bylo výe uvedeno, lií se jednotlivé seznamy také údaji o èasovém pokrytí jednotlivých titulù v databázi. U nìkterých databází (EBSCO, ProQuest) se uvádí podrobnì rozepsané datum napø. 1. 1. 1996, zatímco u dalích (PCI Full Text) se vyskytuje oznaèení Spring 1991. Jednotlivé tituly mají také odlinou periodicitu a z tohoto dùvodu bylo zvoleno porovnávání pøekrytí na jednotlivé roky (nejmení uvádìnou jednotkou je 0,5 roku). To se týká titulù, které jsou v jedné nebo druhé databázi pouze v urèitém uzavøeném období a pro které pouíváme oznaèení uzavøené duplicity (napø. od roku 1994 do roku 1997). Pøekrytí na roky jsme odvozovali z èasových údajù u posledních vydání titulù následovnì: 1. u titulù v období do letních mìsícù (Summer) jako pøekrytí 0,5 roku 2. u titulù v období od záøí/øíjna (Fall/Winter) jako pøekrytí 1 rok. Toto odvozování pøekrytí je pouze pracovní, nebo by bylo potøeba u kadého titulu zjistit údaje o èíslování jedNÁRODNÍ KNIHOVNA, 13, 2002, è. 1
notlivých roèníkù a období, ve kterém nový roèník zaèíná. U nìkterých vydavatelù pøechází roèník z roku na rok (napø. roèník zaèíná v roce 2000 a konèí v roce 2001), pøièem bìnìjí je situace, kdy se kalendáøní rok pøekrývá s roèníkem. V databázích existují také tituly, které se pøekrývají od urèitého roku a v obou databázích pøekrytí pokraèuje. Pokud je titul nadále v databázi sledován, je v poli do pouit znak jako oznaèení pokraèujícího sledování titulu v databázi. Pro oznaèení tìchto duplicit byl zvolen termín perspektivní pøekrytí a je uvádìn od data, od kterého se titul v obou databázích vyskytuje. Pøíklad: Pokrytí databáze A databáze B
Banking Strategies Banking Strategies
od
do
1992 1996
Pøekrytí je v tomto pøípadì uvedeno od roku 1996.
3.3.5 Limitující faktory dostupnosti titulù U nìkterých titulù se mohou vyskytnout i dalí omezení. Nejèastìjí variantou bylo: a) Full Text Embargo (databáze EBSCO) b) Full Text Availability Delayed after
Days due to Publisher Restriction (databáze ProQuest) V prvním pøípadì (Full Text Embargo) se jedná o opatøení, kterým vydavatel periodika dává povolení k uveøejnìní v databázi a po urèitém èase. Ten se zpravidla pohybuje v øádech nìkolika mìsícù. Z hlediska urèování duplicit tak dochází v jedné z databází ke zpodìní, ale toto omezení nemá zásadní vliv na srovnávání. V pøípadì Full Text Availability Delayed after
dochází na základì licenèní smlouvy s vydavatelem k vymazání plného textu po stanoveném poètu dní. Tento fakt ovlivòuje srovnání na duplicity tím, e plný text daného titulu se pøekrývá vdy pouze po daný poèet dní. Po urèené dobì je v databázi u pouze citace/abstrakt.
Pøíklad: Pokrytí
od
do
databáze A Car and Driver
1/1/98
current
databáze B Car and Driver
1/1/98
current
v tomto pøípadì není pøekrytí
1998
ale pouze 14 dní
[Full Text Availability Delayed by 14 Days due to Publisher Restriction]
Pøekrytí se neustále opakuje (je u kadého nového vydání), ale poøád jde o pøekrytí 14 dnù. Proto také není tato duplicita zaøazena do perspektivních duplicit.
3.3.6 Metodika porovnávání výsledkù Jak je výe zmínìno, pøekrytí titulù je vyjádøeno v letech (tzv. uzavøené duplicity) nebo v roce, kdy pøekrytí zaèíná (a dále pokraèuje). Vekerá srovnávání jsme provádìli pøedevím s tzv. duplicitami vydání tj. skuteènými titulovými duplicitami. Pøípady, kdy jsme srovnávali i tzv. titulové duplicity, jsou oznaèeny. Do výsledkù srovnání nejsou zahrnuty tzv. podezøelé duplicity. Tyto údaje jsou shrnuty do tabulek. Pro porovnání pøekrytí jsme zvolili následující statistický vzorec pravdìpodobnosti (pøíznivé pøípady ke vem moným):
prùnik plnotextových titulù v obou databázích (tj. spoleèné tituly v obou databázích) poèet sjednocených (tj. seètených) plnotextových titulù v obou databázích (výchozí stav na zaèátku studie) Výsledkem je procentuální vyjádøení vzájemného pøekrytí obou databází. 4
Výsledky srovnání databází s plnými texty
4.1 Springer LINK Periodicals Content Index FullText Celkem duplicit vydání: 0
který jsme upravili pro tento úèel na:
Vysvìtlení prvkù vzorce: NÁRODNÍ KNIHOVNA, 13, 2002, è. 1
Pøi srovnání se potvrdila pùvodní teze, e mezi tìmito databázemi není titulové pøekrytí. Vycházeli jsme z pøedpokladu naprosto odliného zamìøení obou databází pøírodní vìdy (Springer LINK) a spoleèenské vìdy (Periodicals Content Index FullText). 35
4.2 Springer LINK EBSCO Celkem duplicit vydání: 59 Celkem titulových duplicit: 59 Na rozdíl od pøedchozího srovnání jsme zde porovnávali úzce profilovanou databázi s databází veobecného zamìøení. Springer LINK není klasickou databází èlánkù z excerpovaných titulù spíe se jedná o sbírku vybraných titulù vlastní vydavatelské skupiny Springer-Verlag. Celkovì bylo nalezeno 59 duplicit vydání. Z tohoto poètu je 51 titulù producentem databáze oznaèeno jako novì pøidané tituly, které zatím nemusí být dostupné. U databází EBSCO je u 51 titulù z celkového poètu 59 roèní embargo na zveøejnìní plného textu; toto ochranné opatøení tak zajiuje Springer LINKu zákazníky. Zajímavostí je, e databáze EBSCO obsahují i tøi tituly tohoto vydavatelství, které nejsou excerpovány ve Springer LINKu. To je pravdìpodobnì z dùvodu snahy Springeru zveøejòovat prostøednictvím této sluby pouze významné tituly, o které je mezi odbornou veøejností zájem. 4.3 Springer LINK ProQuest Celkem duplicit vydání: 0 Celkem titulových duplicit: 0 V pøípadì tohoto srovnání nebyly nalezeny ani duplicity vydání, ani titulové duplicity. Pravdìpodobným dùvodem je jednak odliné zamìøení obou databázových systémù (exaktní vìdy a databáze multioborového zamìøení), jednak geografické pokrytí. Skupina Springer publikuje vlastní tituly, které vycházejí v Evropì, zatímco ProQuest excerpuje tituly pøedevím ze Spojených státù. 4.4 Periodicals Content Index FullText ProQuest Celkem duplicit vydání: 0 Celkem titulových duplicit: 57 V této èásti studie dolo k zajímavé situaci byly srovnávány dva informaèní zdroje, které v souèasnosti patøí jednomu producentovi spoleènosti ProQuest Information & Learning. Databáze Periodicals Content Index FullText je produktem spoleènosti Chadwyck-Healey z Velké Británie, která se pøed nedávnem stala divizí výe uvedené spoleènosti ProQuest. Z hlediska zamìøení databází (spoleèenskovìdní a multioborové) byly duplicity vydání moné. Zajímavé je, e zdroje se pøekrývají pouze titulovì tj. 57 titulù je stejných, ale lií se jejich roky vydání. Dùvodem je historické zamìøení databáze Periodicals Content Index FullText, která v dobì realizace studie pokrývala tituly plným textem do roku 1990.3) Srovnání také ovlivnil poèet titulù s plným textem v dobì srovnání 100 titulù Periodicals Content Index FullText. Ve vìtinì pøípadù je èasový odstup mezi sledovanými tituly 12 roky. Tento rozdíl v nejbliích letech patrnì pøestane platit z dùvodu rozhodnutí spoleènosti pokrýt plným textem tituly a do roku 1995 v co nejirím rozsahu.4) 36
V budoucnu je tak moné oèekávat pøekrytí nìkolika let v obou databázích (první polovina 90. let). 4.5 Periodicals Content Index FullText EBSCO Celkem duplicit vydání: 30 Podezøelých duplicit: 1 Pøekrytí: poèet let 1 rok 1,5 roku 2 roky 31 let
poèet titulù 23 5 1 1
Celkem titulových duplicit: 49 Pøi srovnávání Periodicals Content Index FullText s databázemi EBSCO ji byly nalezeny duplicity vydání. Celkem se jedná o 30 titulù (a jednu podezøelou duplicitu, která se do koneèného výsledku nezahrnuje). Pøekrytí je v pøípadì 23 titulù 1rok (cca 80 % vech nalezených duplicit), 5 titulù se pøekrývá v 1,5 roce a jeden po 2 roky. Poslední titul Sloan Management Review (ISSN 0019848X) se pøekrývá 31 let a mùeme ho chápat jako výjimku. Databáze EBSCO zaèíná tituly excerpovat na poèátku 90. let, zatímco PCI FullText v tomto období excerpci konèí. I zde je nutné poèítat s vìtím budoucím pøekrytím z dùvodu probíhajícího rozíøení zábìru PCI FullText do roku 1995 a pokrytí zbývajících titulù plným textem. 4.6 ProQuest EBSCO Celkové pøekrytí databází duplicity vydání: 14,05 % Celkem duplicit vydání: 1193 Jak ProQuest, tak EBSCO jsou svým zamìøením informaèní zdroje univerzální multioborové, poèet titulù s plným textem je øádovì stejný a oba producenti jsou ze Spojených státù, co také ovlivòuje excerpèní základnu titulù. Tyto údaje naznaèovaly u pøedem, e zde pùjde o velké pøekrytí pøedevím v duplicitách vydání. Výsledky srovnání jsou pomìrnì pøekvapivé pøekrývá se pouze 14 % celkového obsahu obou databází. Tento výsledek jsme dále rozdìlili na dvì èásti uzavøené duplicity a duplicity vydání. Èást I. uzavøené duplicity
Obr. 1 Délky pøekrytí u uzavøených duplicit NÁRODNÍ KNIHOVNA, 13, 2002, è. 1
Celkem uzavøených duplicit: 214 Jak je z grafu vidìt, nejvíce titulù 74 se pøekrývá po dobu 3 let, 47 po dobu 2 let a 42 po dobu 1 roku. Ostatní tituly (cca 23 % vech) mají délku pøekrytí jinou. Nejdelí nalezenou délkou pøekrytí bylo 10 let (1 titul). Èást II. perspektivní duplicity
Obr. 2 Nárùst perspektivních duplicit v letech Celkem perspektivních duplicit: 979 Tato èást je zajímavá tím, e ukazuje nárùst novì excerpovaných titulù v obou databázích u duplicit vydání. Jak je z grafu patrno, nejvíce spoleènì odebíraných titulù pochází z let 19961997 (177, resp. 175 titulù). Od roku 1997 se poèet novì sledovaných identických titulù, které jsou v obou databázích, neustále sniuje. Poèet titulù uvedený za rok 2001 (17 novì pøidaných titulù) nelze brát jako koneèný, protoe údaj pochází z pøelomu dubna/kvìtna tj. první tøetiny roku. Pøi spekulativní tezi, e v dalích dvou tøetinách roku bude pøekrytí novými tituly pøiblinì stejné, bychom dospìli k èíslu 51 titulù v roce 2001. Zde se vak jedná o pouhou spekulaci, kterou by bylo vhodné ovìøit na konci roku 2001. 5
Srovnání na monost vyuití v kombinaci s citaèními rejstøíky WOS
5.1 Zámìr a metodika Do druhé èásti srovnání byla zaøazena i sluba Web of Science, pøestoe svým charakterem neodpovídá dalím srovnávaným zdrojùm a v základní verzi se jedná o citaèní rejstøíky, které neobsahují plné texty èasopisù.5) Tato èást mìla provìøit, zda lze na základì citace nalezené v rejstøících Web of Science (dále WOS) vyhledat plný text v nìkteré z pøístupných databází. Zde se tedy nejednalo o zjiování duplicit, ale o porovnání excerpèní základny citaèního a plnotextového zdroje za úèelem jejich vyuití v kombinaci. Výchozí seznam titulù u WOS jsme získali stejným zpùsobem tj. z webovských stránek producenta. U jednotlivých titulù jsou uvedeny následující údaje: název titulu periodicita ISSN vydavatel a jeho adresa. Seznam titulù obsahující celkem 8674 poloek byl pro zpracování zcela nevhodný. Seznam je ve formátu HTML, údaje jsou uvedeny v odstavcích pod sebou. Seznam je rozdìlen na 18 souborù po 500 polokách. Z tohoto dùvodu byl programovacím skriptem z tìchto seznamù utvoNÁRODNÍ KNIHOVNA, 13, 2002, è. 1
øen jediný seznam obsahující ISSN. Tento seznam jsme pak srovnávali s ostatními seznamy titulù (resp. jejich ISSN) ji zmínìným programem GNU Diff. U titulù, které èísla ISSN neobsahovaly (cca 30 titulù), bylo provedeno ruèní dohledání údajù a jejich porovnání s dalími seznamy. 5.2 Obecná zjitìní Citaèní rejstøíky WOS pokrývají jak tituly z USA (cca 33,5 % sledovaných titulù), tak i z Evropy (cca 39,3 % sledovaných titulù), Asie a z oblasti Pacifického oceánu (cca 15,7 % sledovaných titulù), a z dalích lokalit (11,5 %).6) Tituly, je sleduje Institut for Scientific Information, jsou vybírány podle rùzných citaèních analýz, kterými se zjiuje pøínos jednotlivých titulù pro daný obor. Z tohoto pohledu mìla studie také ukázat, zda lze nalézt v dostupných databázích s plnými texty také prestiní periodika sledovaná citaèními rejstøíky. Zjistili jsme, e vechny srovnávané databáze obsahují tituly, které jsou excerpovány i citaèními rejstøíky WOS. Èasto je ale pøístup k plnému textu v tìchto databázích omezen na základì dohody s vydavateli jednotlivých titulù. Toto opatøení je nazýváno jako moving wall. Jeho podstatou je dohodnuté èasové období (napø. 12 mìsícù), které urèuje rozestup mezi aktuálnì vydaným èíslem a èíslem uveøejnìným v databázi s plnými texty. Restrikce takto zaruèuje vydavatelùm odbìr jejich titulù a databáze jsou pro potenciální uivatele zajímavé spíe jako ucelený retrospektivní zdroj. 5.3 Výsledky srovnání WOS EBSCO Celkem identických titulù: 1307 Databáze EBSCO s èasovou restrikcí: 808 volnì dostupné: 459 V databázích spoleèností EBSCO jsme nalezli nejvíce titulù excerpovaných citaèními rejstøíky WOS. Z tohoto poètu (1307) je asi 37 % titulù (459) dostupných bez èasových restrikcí. Na vìtinu titulù (808 tj. 63 %) je ale uplatnìna èasová restrikce (moving wall ), která se pohybuje v délce od 3 do 36 mìsícù. Rozloení délky èasových restrikcí ukazuje následující graf:
37
Jak vyplývá z grafu, nejvíce se objevuje èasový posun titulù v délce 12 mìsícù (81,68 %, tj. 660 titulù). S velkým odstupem následuje èasová restrikce v délce 6 mìsícù (9,78 %, tj. 79 titulù) a 3 mìsícù (6,68 %, tj. 54 titulù). Zbylé tituly (1,86 %, tj. 15 titulù) mají èasové restrikce jiné od 4 do 36 mìsícù. Nalezli jsme zde nìkolik titulù, které ji nejsou dále v databázích EBSCO excerpovány. Celkem 4 tituly jsou v seznamech uvedeny pod oznaèením uzavøené období sledování plných textù. 5.4 Výsledky srovnání WOS ProQuest Celkem identických titulù: 500 Neovìøené tituly (podezøelé duplicity): 2 Databáze ProQuest s èasovou restrikcí (vymazání plného textu): 5 volnì dostupné: 495 ProQuest 5000 obsahoval nejvíce titulù bez èasových restrikcí 459. U zbývajících èasopisù následuje vymazání plného textu po 30 dnech (1 titul), 180 dnech (1 titul) a 730 dnech (3 tituly). Charakter èasových restrikcí je oproti databázím EBSCO úplnì jiný. Pøi vyuívání obou databází v kombinaci je tedy teoreticky moné získat plný text dostupných periodik vdy. I u ProQuestu jsme nalezli tituly, které ji nejsou dále excerpovány celkem 59 titulù. 5.5 Výsledky srovnání WOS PCI FullText Celkem identických titulù: 70 V pomìru k celkovému poètu titulù s plným textem v databázi PCI FullText (100 titulù), obsahuje WOS nejvíce èasopisù, které jsou excerpovány citaèními rejstøíky celkem 70 titulù. V pøípadì PCI FullText je ojedinìlé retrospektivní zamìøení databáze (17701990). Vzhledem k tomu citaèní databáze WOS pokrývají pouze urèitý èasový úsek jednotlivých titulù v databázi. Pøiblinou délku mùeme odvodit z let zahájení excerpce do citaèních rejstøíkù Social Science Citation Index (SSCI) (oblast spoleèenských vìd) a Arts & Humanities Citation Index (AHCI) (oblast umìní a humanitních oborù), které jsou pøes WOS pøístupné ji od roku 1974. Z tohoto hlediska mùe být u jednotlivých titulù pokryt pøiblinì èasový úsek 26 let. Nìkolik titulù v dobì zpracování studie i v dobì vzniku tohoto èlánku7) nebylo úplnì pokryto plným textem. Chybìjící pokrytí je v rozmezí nìkolika málo let (napøíklad pokrytí: 19671973, 19761977) a je výsledkem rychlé pøemìny pùvodnì citaèní databáze v databázi s plnými texty, kdy se zpøístupòovaly nejprve nejádanìjí roèníky jednotlivých titulù. 5.6 Výsledky srovnání WOS Springer LINK Celkem identických titulù: 45 Springer LINK je, jak ji bylo uvedeno výe, slubou vydavatelské skupiny Springer a zpøístupòuje pouze vlastní tituly. Tato role tzv. agregátora mìla vliv i pøi srovnání s citaèními rejstøíky vech 45 titulù je vydáváno nakladatelskou skupinou Springer.
38
6
Limitující faktory spolehlivosti výsledkù
6.1 Chyby pøi zpracování statistická chyba Metoda zpracování seznamù program GNU Diff a následná vizuální kontrola nebyla optimální. Byla ale zvolena z dùvodù obtíné pøevoditelnosti dat, pøedevím ze seznamù titulù Web of Science. Je tedy tøeba poèítat s obvyklou statistickou chybou 5 %. Pro dalí srovnání této povahy se nám jeví jako vhodnìjí pouít pøevod seznamù titulù do vytvoøené databáze, pøípadnì zpracování seznamù titulù programovým skriptem (pøevod do vhodného vstupního formátu pro databázi). 6.2 Spolehlivost podkladových dat producentù Aèkoliv jsme získali jednotlivé seznamy titulù ve stejném období (25. 4. a 5. 5.), seznamy neodráejí aktuální stav databází k tomuto období, nebo nejsou oznaèeny pøesným datem aktualizace. Výjimkou je databáze EBSCO, která mìla své seznamy titulù oznaèeny jako aktuální k pøelomu dubna a kvìtna 2001. U dalích seznamù titulù je ji spolehlivost nií. U Web of Science a Springer LINK je seznam pravdìpodobnì aktualizovaný v mìsíci dubnu, u databáze PCI FullText je aktuálnost seznamù nejasná. Seznam titulù databáze ProQuest podle nìkterých dalích informací pochází z prosince roku 2000. V pøípadì nìkterých podezøelých duplicit se ISSN od sebe liilo pouze jedním èíslem, co je pravdìpodobnì zpùsobeno pøeklepem v jednom ze seznamù. Máme dùvod se domnívat, e i v podkladových seznamech se vyskytují chyby. 6.3 Dynamika pohybu titulù v databázích Jednotlivé databáze se neustále roziøují o nové tituly a tento nárùst je velmi rychlý. Pøíkladem je databáze ProQuest, která k 15. 10. 2001 obsahuje celkem 8800 titulù,8) co pøedstavuje nárùst o 422 titulù oproti stavu k 25. 4. 2001 (8378 titulù). Novì excerpované tituly jsou pøebírány na základì licenèních smluv s jednotlivými vydavateli periodik. Tyto smlouvy by mohly rovnì ukázat na nìkterá skrytá omezení v pøípadì jednotlivých databází (trvání smlouvy, dodatky k zveøejnìní plných textù atd.), ale vzhledem k povaze dokumentù o nich mùeme pouze pøemýlet. 7 Závìry studie Pøi realizaci pùvodního zámìru, kterým bylo zjistit, zda a k jakému pøekrývání titulù dochází u vybraných informaèních zdrojù, se objevily urèité skuteènosti a teze, jejich vzetí v úvahu by v mnohém usnadnilo provádìní obdobných analýz. 1. Ke zjiování titulových duplicit nelze pouít pouze automatický zpùsob zpracování, ale je tøeba tuto metodu doplnit o kontrolu dat a vyhodnocení zjiovaných skuteèností, tzn. ruèní dohledání a doplnìní chybìjících údajù. 2. Pro kvantitativní analýzu pøekrytí titulù byly vytipovány následující údaje jako rozhodující: název titulu,
NÁRODNÍ KNIHOVNA, 13, 2002, è. 1
ISSN a období, po které je nebo byl titul sledován. Naprosto jednoznaènou rozliovací schopnost má pouze ISSN. Z tohoto hlediska se nám jeví jako úèelné a smysluplné vytvoøit standardizovaný strukturovaný záznam a to ve tvaru: název titulu, vydavatel, místo vydání, ISSN, období excerpce v databázi vyjádøené rokem a mìsícem. Ze sledovaných producentù databází se tomuto stavu nejvíce pøibliuje firma EBSCO, která neuvádí pouze místo vydání. I pøi dodrení tohoto standardizovaného strukturovaného záznamu zùstane do budoucna problémem nejednotný postup pøi oznaèování roèníkù èasopiseckých titulù nìkteré se kryjí s kalendáøním rokem, ovem existují i takové tituly, u nich roèník pøechází z roku na rok (zaèíná v urèitém období roku 2000 a konèí v roce 2001). 3. Pøi automatickém zpracování je velkým nedostatkem uvádìní variantních názvù identických titulù èasopisù. Variantnost se projevuje v (ne)uvádìní èlenù, rozepsaném slovním vyjádøení zástupných znakù (and, versus, &) a podnázvù. Ideálním stavem by bylo vyuití stávající databáze ISSN jako východiska pro standardizovaný zápis poadovaných údajù. Dalí podmínkou by byla jejich pravidelná aktualizace. 4. Urèitou hrozbou pro sledované informaèní zdroje je absence titulù z dalích geografických oblastí. Ameriètí producenti se soustøeïují pøedevím na angloamerickou provenienci a opomíjejí jiná významná teritoria (Evropa, Asie atd.). Po vyhodnocení vech dosaených výsledkù jsme nuceni konstatovat, e oproti pùvodnímu odhadu je titulový pøekryv u plnotextových databází minimální nebo vùbec ádný. Nejvyí hodnoty vykazují dvì obdobné databáze ProQuest 5000 a eIFL Direct, co jsme jistì pøed zahájením studie pøedpokládali, nebo se jedná o zdroje podobné svým zamìøením. Procentuální vyjádøení pøekryvu titulù v tìchto databázích vykazuje hodnotu 14 %, co není z hlediska vyuitelnosti nijak podstatné pøekrytí. Výbìr informaèních zdrojù z hlediska kvantitativní analýzy plnì odpovídá cílùm a zadání programu LI Informaèní zdroje pro vìdu a výzkum. Porovnání dostupnosti plného textu na základì bibliografické citace z Web of Science vyznívá nejlépe ve prospìch databáze eIFL Direct, ve které lze nalézt 1305 identických titulù. Upozoròujeme na skuteènost, e studie obsahuje pouze výsledky kvantitativní analýzy a nelze tudí od této skuteènosti odvozovat kvalitu databáze. Ke stanovení kvality databáze by bylo tøeba zohlednit jetì dalí hlediska, jako napø. uivatelské rozhraní, doplòkové sluby, nárùst nových titulù a jejich pokrytí plným textem.
3) Nyní se postupnì pokrývají plným textem tituly a do roku 1995. 4) V dobì vzniku tohoto èlánku je ji 144 titulù dostupných s plným textem. 5) U citaèních bází se objevuje celosvìtová tendence dodávat v rámci doplòkových slueb i plný text. 6) The Web of Science DEMO [CD-ROM]. Institut for Scientific Information, 1997. 7) Øíjen 2001. 8) Jedná se i o tituly, které nejsou pokryty plným textem. Pouité zdroje: ISI Master Journal List [online]. Institut for Scientific Information, 2001 [cit. 2001-04-25]. Dostupné z:
. JSTOR : Moving Wall [online]. JSTOR, 2001, last updated January 07, 2001 [cit. 2001-10-05]. Dostupné z: . Konsorcium SPRINGER LINK [online]. Praha : Státní technická knihovna 2001, poslední aktualizace 20.6.2001 [cit. 2001-10-18]. Dostupné z: . Kubíková, Vìra: Program Informaèní zdroje pro výzkum a vývoj. In Knihovny souèasnosti 2000. Brno: Sdruení knihoven ÈR, 2000, s.11-15. PCI Full Text Title Lists [online]. Bell & Howell Information and Learning Company, 2001 [cit. 2001-04-25]. Dostupné z: . ProQuest [online]. Bell & Howell Information and Learning Company, 2001 [cit. 2001-04-25]. Dostupné z: . Název spoleènosti zmìnìn na ProQuest Information and Learning. ProQuest® 5000 International Title List. Bell & Howell Information and Learning Company, 2001 [cit. 200104-25]. Dostupné z: . Název spoleènosti zmìnìn na ProQuest Information and Learning. Springer LINK [online]. Springer, 2001 [cit. 2001-0425]. Dostupné z: . The Web of Science DEMO [CD-ROM]. Institut for Scientific Information, 1997.
Poznámky: 1) Nìkteré databáze mohou mít i dalí èásti, pokud k nim ale uivatelé v ÈR nemají pøístup, nejsou zmínìny a studie se jimi dále nezabývá. 2) Øíjen 2001.
NÁRODNÍ KNIHOVNA, 13, 2002, è. 1
39