Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
VÝPOČETNÍ TECHNIKA A SPECIALIZOVANÉ PROGRAMY PRO PODPORU VAV ČINNOSTÍ I Květoslav Bártek
Moravská vysoká škola Olomouc, o. p. s. Olomouc 2010
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Projekt „Aplikovatelný systém dalšího vzdělávání ve VaV“ (dále jen APSYS) OP VK č. CZ.1.07/2.3.00/09.0134 je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.
Text neprošel jazykovou úpravou. © Moravská vysoká škola Olomouc, o. p. s. Autor:
Mgr. Květoslav BÁRTEK, Ph.D.
Recenzovali:
prof. Dr. Ing. Miroslav POKORNÝ prof. Dr. Zdeněk SOUČEK, DrSc. Mgr. Antonín SEDLÁČEK
Olomouc 2010 ISBN 978-80-87240-31-1
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Obsah Úvod ........................................................................................................................................................... 5 1
Vyhledávání informací, e-zdroje, zdroje pro VaV ..................................................................... 6 Cíl ................................................................................................................................................... 6 1.1
Zdroje informací pro vědu a výzkum ................................................................................. 6
1.2
Rozdělení informačních zdrojů .......................................................................................... 7
1.3
Elektronické informační zdroje – EIZ ................................................................................ 9
1.4
Metadata .......................................................................................................................... 10
Shrnutí kapitoly ............................................................................................................................ 12 Literatura ke kapitole .................................................................................................................... 13 2
Informační databáze pro VaV.................................................................................................... 15 Cíl ................................................................................................................................................. 15 2.1
Databáze ......................................................................................................................... 15
2.2
Knihovny .......................................................................................................................... 17
2.3
Elektronické informační zdroje ........................................................................................ 18
2.4
Digitální knihovny ............................................................................................................ 23
2.5
Informační zdroje/databáze s otevřeným přístupem ....................................................... 26
2.6
Citační rejstříky ................................................................................................................ 30
Shrnutí kapitoly ............................................................................................................................ 35 Literatura ke kapitole .................................................................................................................... 36 3
Základní principy vyhledávání informací v databázích a na World Wide Web ................... 38 Cíl ................................................................................................................................................. 38 3.1
Vyhledávání dokumentů .................................................................................................. 38
3.2
Popis dokumentu ............................................................................................................. 39
3.3
Dialogové vyhledávání, operátory a Booleovský model ................................................. 42
3.4
Základní metody vyhledávání v Internetu ....................................................................... 43
3.5
Hodnocení výsledků vyhledávání .................................................................................... 44
3.6
Internetový vyhledávač Google ....................................................................................... 46
3.7
Další typy ......................................................................................................................... 48
Shrnutí kapitoly ............................................................................................................................ 48 Literatura ke kapitole .................................................................................................................... 49 4
Pokročilé způsoby vyhledávání informací v Internetu .......................................................... 51 Cíl ................................................................................................................................................. 51 4.1
Vyhodnocování výsledků................................................................................................. 51
4.2
Pokročilé techniky vyhledávání ....................................................................................... 52
4.3
Zvyšování přesnosti a úplnosti vyhledávání ................................................................... 55
4.4
Použití metavyhledávačů ................................................................................................ 55
Modul: Exaktní metody řešení projektů VaV
4.5
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Prohledávání „hlubokého webu“ ..................................................................................... 59
Shrnutí kapitoly ............................................................................................................................ 60 Literatura ke kapitole .................................................................................................................... 61 Literatura ................................................................................................................................................. 63 Seznam obrázků ..................................................................................................................................... 65 Seznam tabulek ...................................................................................................................................... 66
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Úvod Význam informací stále roste, ať se již pohybujeme ve světě vědy, businessu či v soukromém životě. Stejně tak roste i význam svobodného a snadného přístupu k nim. Dostupnost relevantních informací se stává každodenní nutností a samozřejmostí. Tento "informační hlad" se projevuje i rostoucím množstvím informačních zdrojů. Pryč jsou doby, kdy v celé republice vycházely tři deníky a vysílala jedna televize. Nabídka dříve "klasických" informačních zdrojů se rozšířila na tisíce. Relativně novým typem informačního zdroje je prostředí Internetu a další elektronické informační zdroje. Jedná se o dynamicky se rozvíjející systémy, např. rozsáhlost internetu se odhaduje na systém čítající podle některých odhadů až 20 miliard webových stránek1, výstižnější pohled je optikovou datové velikosti Internetu. Podle jedné z nejnovějších studií2 provedené firmou IDC se dnes množství dat na internetu pohybuje kolem 487 miliard gigabajtů informací. Pokud bychom všechna data z internetu vytiskli a svázali do knih, vytvořily by pás desetkrát delší než vzdálenost Pluta od Země. Podle studie společnosti Cisco bude provoz na internetu ke konci roku 2013 dosahovat hodnoty 56 exabajtů za měsíc. To přibližně odpovídá obsahu 10 miliard DVD3. Pro dokreslení situace - počet uživatelů Internetu čítá zhruba 1,75 miliardy lidí4. Vyhledat v této záplavě informací ty správné se může zdát být (a někdy také je) velmi obtížné, stejně tak jako využití potenciálu, který nabízejí dnešní moderní technologie a dostupný software. Studijní text je rozdělen do dvou tematických celků. Cílem první části textu je seznámit čtenáře se základními pojmy, základními i pokročilými principy vyhledávání a získávání informací z různých typů informačních zdrojů a tím přispět ke zkvalitnění jeho vědecko-výzkumné práce. Čtenář se seznamuje s rozdílnými přístupy vyhledávacích aplikací k prohledávání databází a internetu. Ve druhé části se budeme zabývat specializovanými aplikacemi využitelnými ve vědeckovýzkumné práci. Připomeneme základní principy práce s textovými editory, představíme aplikace pro práci s grafickým materiálem a možnosti jejich použití při vytváření odborných textů. Budeme se také věnovat statistickému software, který sehrává ve výzkumné praxi klíčovou a nezastupitelnou roli. Ohromná dynamika s jakou se Internet vyvíjí i jeho hypertextová struktura klade na uživatele obrovské nároky jak po straně technologické, tak i po stránce řekněme osobnostní. Dokumenty, které jsou dnes dostupné na určité URL, tam již zítra být nemusí. Pro ilustraci, za dobu potřebnou k sepsání tohoto textu se jistý článek přemístil v rámci jednoho serveru minimálně třikrát. A vyhledat jej následně v novém, aktuálním umístění již vyžadovalo určitou míru trpělivosti, nemluvě o udržení aktuálnosti všech odkazů použitých v textu. Ale trpělivý čtenář po prostudování textu jistě nebude mít problém takto "ztracený" dokument dohledat. Proto také text obsahuje minimální množství úkolů, neboť předpokládáme, že si všechny pro Vás zajímavé odkazy projdete. Nezbývá nám než všem čtenářům popřát mnoho trpělivosti a ať se nenechají pohltit informační lavinou, již Internet představuje.
1
The size of the World Wide Web [on line]. [cit. 2009-12-01]. Dostupný z WWW: <www.worldwidewebsize.com/>.
2
Internet data heads for 500bn gigabytes [on line]. [cit. <www.guardian.co.uk/business/2009/may/18/digital-content-expansion>.
3
Deset překvapivých čísel o internetu [on line]. [cit. 2009-12-01]. <www.chip.cz/clanky/trendy/2009/12/deset-prekvapivych-cisel-o-internetu>.
4
2009-12-01].
Dostupný
z WWW:
Dostupný
z WWW:
Internet usage statistics [on line]. [cit. 2009-12-01]. Dostupný z WWW: <www.internetworldstats.com/stats.htm>.
-5-
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
1 Vyhledávání informací, e-zdroje, zdroje pro VaV CÍL Po prostudování kapitoly budete schopni:
definovat pojmy informační zdroje, Open Access, metadata rozlišit jednotlivé typy informačních zdrojů, vyjmenovat charakteristiky hodnotící informační zdroje.
KLÍČOVÁ SLOVA Informační zdroj, primární a sekundární informační zdroje, e-zdroje, Open Access, metadata, klíčová slova, fulltext, indexování.
1.1 Zdroje informací pro vědu a výzkum Vědecká práce a její kvalita je do značné míry závislá na kvalitě informací, s nimiž pracujeme. Běžně jsme zvyklí pracovat s klasickými tištěnými textovými dokumenty. Textovými dokumenty většinou nazýváme knihy, časopisy, články, diplomové práce, disertace, zákony, rozsudky ad. S rostoucím vlivem výpočetní techniky však roste i nabídka a vliv elektronických dokumentů a dalších informačních zdrojů. Nejen že roste nabídka, ale mnoho dokumentů se díky výpočetní technice stává mnohem dostupnější širší vědecké komunitě a práce s nimi se jeví být rychlejší a pohodlnější.
1.1.1
Informační zdroje
Informačním zdrojem (pramenem) rozumíme systém, který je reálným nebo potencionálním nositelem, zprostředkovatelem nebo šiřitelem informací. Tomuto vymezení vyhovují knihovny, databázová centra, informační střediska, televize, rozhlas apod.
-6-
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
1.2 Rozdělení informačních zdrojů 1.2.1
Primární a sekundární informační zdroje (prameny)
Místo běžně používaného termínu „dokument“ se často setkáváme s termíny informační pramen (information resource) - primární informační pramen. Označení dokument se většinou používá ve zúženém významu hmotného nosiče informací5. Popis informačního pramene se pak nazývá sekundární informační pramen. Terciární informační prameny podávají informaci o existenci sekundárních informačních pramenů6.
Druhy primárních informačních pramenů7:
5
6 7
knihy o o o
monografie (publikace pojednávající o jednom tématu) sborník příručky (podávají základní a přehledně zpracovaný obraz o stavu poznání určitého oboru) o učebnice o encyklopedie (abecedně nebo systematicky uspořádaný výklad termínů) o slovníky (jazykové, výkladové) periodika o noviny (obsahují aktuální informace, jejich periodicita je 1 den až 1 týden) o časopisy (vychází s periodicitou 1 týden až půl roku) o ročenky (vychází jednou za rok) speciální literatura o normy o patenty o firemní literatura (materiály, které vydávají podniky, obchodní organizace a společnosti, aby informovaly veřejnost o svých výrobcích, službách nebo činnosti) šedá literatura (dokumenty, které nelze získat v běžné distribuci) o diplomové, disertační a habilitační práce (odborné a vědecké práce, které jsou podkladem pro udělení akademické, vědecké a pedagogické hodnosti) o výzkumné zprávy (prezentují výsledky řešení výzkumného úkolu)
Kde hledat informace [on line]. [cit. 2009-12-08]. Dostupný
.
z WWW:
tamtéž Informační prameny [on line]. [cit. 2009-12-18]. .
-7-
Dostupný
z WWW:
Primární informační prameny
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Sekundární informační prameny8:
1.2.2
katalogy knihoven bibliografie o soupisy literatury o určitém tématu referátové časopisy o záznamy o primárních dokumentech zpracované v tištěné formě (předchůdci bibliografických databází) bibliografické (dokumentografické) databáze o záznamy o primárních dokumentech (případně doplněné abstrakty) zpracované v elektronické formě Current Contents o informují o obsazích jednotlivých čísel vybraných časopisů nakladatelské katalogy
Informační zdroje dle dostupnosti
přímo dostupné – zdroje mají veřejný charakter, přístup nebývá přímo zpoplatněn (může se jednat o zaplacení členského poplatku v knihovně a v rámci knihovnou nabízených služeb je umožněn přístup k placeným informačním zdrojům nebo se jedná o plně bezplatné služby). K přístupu k těmto službám je možno využít různých elektronických vyhledávacích nástrojů. dostupné zprostředkovaně – komerční a profesionální databázová centra, přístupná většinou přes internet, kdy internet slouží pouze jako metoda přístupu k databázi.
Termín „otevřený přístup“ (Open Access) 9 v sobě zahrnuje význam trvalého a bezplatného online přístupu k dokumentům, zejména k úplným textům, pro všechny uživatele. Otevřený přístup se vyznačuje dvěma podstatnými rysy: dokumenty jsou dostupné bezplatně, když nemusejí být bezplatně vytvářeny, a vlastník copyrightu dává jednoznačně svolení k jejich neomezenému čtení, stahování, kopírování, sdílení, ukládání, tištění, vyhledávání a hypertextovému propojování. (Hardy in Bratková) Při hodnocení informačního zdroje je vhodné brát v úvahu zejména následující charakteristiky:
8
9
Typ informací udává, zda se jedná o informaci bibliografickou nebo o úplný text dokumentu (sekundární nebo primární informace), zda jde o informaci faktografickou, obrazovou, zvukovou, multimediální atd.
Informační prameny [on line]. [cit. 2009-12-18]. .
Dostupný
BRATKOVÁ, E. Otevřený přístup, digitální knihovny a citační služby, s. 1-21.
-8-
z WWW:
Sekundární informační prameny
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Vhodnost určité informace závisí na informační potřebě. Rozsah zdroje říká, kolik záznamů nebo jiných jednotek zdroj obsahuje. Cena informací ze zdroje zpravidla přímo závisí na jeho rozsahu. Úplnost zdroje určuje, kolik ze všech dostupných informací, jimiž se zdroj zabývá, je ve zdroji uloženo. Je velmi podstatná např. pro patentové nebo právní informace. Retrospektiva zdroje udává, jak daleko do minulosti uchovávané informace sahají. Má význam např. u časových řad. Perioda aktualizace - ukazuje, jak často jsou do zdroje ukládány nové informace. Producent spoluurčuje důvěryhodnost zdroje, je významný např. u databází. Čím renomovanější producent, tím vyšší cena. Dostupnost zdroje udává, zda je zdroj dostupný volně (popř. jen za mírný poplatek) nebo zda se jedná o komerční zdroj. K této charakteristice patří také, zda rešerši provádí provozovatel a za jak dlouho jsou informace dodány, nebo zda rešerši provádí zájemce o informace sám. Cena informací získaných ze zdroje se určuje různými způsoby. V případě dialogově přístupné databáze může být účtováno za každý poskytnutý záznam nebo za dobu pobytu v databázi, jindy to může být paušální platba.
1.3 Elektronické informační zdroje – EIZ S rozvojem informačních a komunikačních technologií (ICT) se rozvíjejí i informační zdroje dostupné prostřednictvím ICT. Boldiš10 uvádí následující důvody pro narůstající oblibu a vliv elektronických informačních zdrojů: 1) elektronické informace jsou snadno přenositelné – elektronické formáty umožňují snadnější manipulaci, kopírování a další šíření, 2) EIZ zrychlují komunikační cyklus vědy – je urychlen a zlevněn tradiční publikační proces od autora přes vydavatele až po tiskárnu, 3) v EIZ dochází ke komprimaci a zhodnocování informací – databáze umožňují vědcům přístup k množství článků, které jsou již do značné míry utříděny, 4) ekonomická výhodnost – publikování dokumentů v elektronické podobě je násobně levnější jak na straně výroby, distribuce, ale i snadnějšího přístupu ke značně vysokému počtu relevantních informací.
10
BOLDIŠ, P. Úvod do problematiky elektronických informačních zdrojů,
-9-
Modul: Exaktní metody řešení projektů VaV
1.3.1
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Typy elektronických informačních zdrojů a) Informační databáze (bibliografické a nebibliografické databáze) – více ve 2. kapitole, b) Elektronické časopisy – jedná se buď o digitalizované časopisy, nebo o časopisy vzniklé přímo jako elektronická média. Obrovskou výhodou elektronických časopisů jsou nízké náklady, rychlost (vydání i distribuce) a distribuce samotná11, c) Sborníky a preprinty – sborníky jsou velmi rozšířeným zdrojem odborných informací, většinou přinášející výsledky výzkumů dříve než jsou publikovány v odborných časopisech. Preprinty jsou dokumenty, které ještě většinou neprošly recenzním řízením, jsou ale určitou formou zpřístupněny a teprve budou publikovány v časopise či ve sborníku. Příkladem může být např. arXiv.org12, který provozuje knihovna Cornell University. Obsahuje preprinty zaměřené na přírodní vědy i ekonomické oblasti.
Podrobněji se problematikou elektronických informačních zdrojů zabýváme v následující kapitole.
1.4 Metadata Metadaty jsou nazývána data o datech, data sdružená s objekty, která zbavují jejich potenciální uživatele nutnosti předběžné znalosti existence či charakteristik těchto objektů. To jinými slovy znamená, že standardní bibliografické záznamy, zkrácené výtahy, abstrakty nebo jakékoliv jiné zástupné formy představují metadata. V knihovnách jsou příkladem metadat katalogizační záznamy, ať již v klasické lístkové nebo elektronické podobě. 13 Pojem metadat je v současnosti používán především v souvislosti s elektronickými zdroji (ačkoliv by to tak být nemělo) a vztahuje se k “datům” v nejširším slova smyslu – datové soubory, textové informace, grafika, hudba, čili cokoliv vyjádřitelné v digitální formě. Většina vyhledávacích strojů je založena na práci s textem, dokáží z něj vyhledat jednotlivá slova, provést s nimi popř. nějaké manipulace, zařadit je do indexu (tzv. indexování) a pak s jeho pomocí vyhodnocovat dotazy. Pokud tedy existuje zájem na tom, aby byly dokumenty (soubory) vyhledatelné, je důležité přidávat textový popis k objektům, které mají jak textovou tak i netextovou povahu. Metadata mohou sloužit k více účelům. V prvé řadě mají popisnou funkci, musí charakterizovat původní objekt dostatečně přesně, aby uživatel byl schopen porozumět jeho obsahu, stejně tak účelu, zdroji a specifickým podmínkám
11
The Scientist [on line]. [cit. 2010-01-06]. Dostupný z WWW: <www.the-scientist.com>.
12
ArXiv [on line]. [cit. 2010-01-10]. Dostupný z WWW: <arxiv.org>.
13
BARTOŠEK, M. Vyhledávání v Internetu a DUBLIN CORE, s. 1-4.
- 10 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
pro užívání. Funkce metadat:
1.4.1
shrnutí – sumarizace obsahu vyhledávání – prohledávání metadat s cílem vyšší přesnosti výsledků doporučení – umožňuje uživateli určit, která data potřebuje vybírání – pomoc při rozhodování, kterou z instancí zdroje vybrat pro načtení (např. je-li k dispozici ve více formátech) přístup – zajištění přístupu k datům (uvedení jejich přesné lokace) omezení – zamezení přístupu pro některé uživatele (digitální podpisy, autentizace, copyright…)
Vyhledávání a metadata
Metadata nepředstavují nic nového obzvlášť pro informační pracovníky zabývající se vyhledáváním. Ti již dlouhá léta pro přesné vyhledávání používají řízené slovníky, omezují vyhledávání pomocí deskriptorů (viz dále), autorů, názvů apod. V prostředí booleovského vyhledávání umožňují metadata nalézat informace, aniž by byly výsledky znehodnocovány množstvím nerelevantních objektů. Pro fulltextové vyhledávací stroje jsou typické komplexní algoritmy, které přiřazují váhu - ve smyslu relativní významnosti - jednotlivým slovům. Váhy jsou založeny na takových elementech, jako je unikátnost slova v rámci souboru dokumentů, četnost termínu v dokumentu, jeho pozice (např. za významnější jsou považována slova v názvu nebo blíže počátku dokumentu). Tyto faktory vstupují do výpočtu relevance dokumentu vůči zadanému dotazu. Metadata tento proces významně ovlivňují a modifikují. Metadata, která popisují obsah dokumentu, by měla charakterizovat hlavní téma, a proto také odpovídající slova mají vyšší váhu než táž slova v běžném textu. Tím by mělo být zajištěno, že ve výsledcích vyhledávání se na prvních místech objeví dokumenty, které obsahují dotazované termíny jako součást svých metadat. Navíc je možno díky metadatům rozvíjet nové přístupy, pomocí nichž lze např. při vyhodnocování dotazu shlukovat (klastrovat) dokumenty, které spolu nějak souvisí. Souvislost může být obsahová, dokumenty mohou na sebe vzájemně odkazovat apod. Tyto shlukové přístupy se objevují u různých strojů s různou mírou úspěchu (více ve 4. kapitole). Metapopis objektu, zdroje, atd. se skládá z určitého počtu předdefinovaných elementů, které reprezentují specifické vlastnosti popisovaného objektu, přičemž každý element nabývá jedné nebo více hodnot.
- 11 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Základní elementy a hodnoty
Element Title Creator Publisher Identifier Format Relation
1.4.2
Tabulka 1.1
hodnota název dokumentu jméno a příjmení1, jméno a příjmení2, … vydavatel www stránka txt/doc/odt/rtf/pdf identifikace sekundárního zdroje a specifikace jeho vztahu k danému zdroji
Klíčová slova
Pro naše účely se podrobněji zmíníme o specifických metadatech – klíčových slovech. Klíčová slova14 jsou jednotlivá slova nebo slovní spojení, která charakterizují daný dokument, přesněji jeho obsahovou stránku. Stanovení vhodných klíčových slov probíhá na základě analýzy dokumentu. U odborného textu je vhodné volit klíčová slova z názvu dokumentu, kapitol, odstavců apod. Často se pro stanovení klíčových slov využívá i abstraktu, úvodu nebo závěru daného dokumentu. Problematika stanovení správných a vhodných klíčových slov úzce souvisí s mírou relevantních výsledků následně provedeného vyhledávání. Užití správných klíčových slov na straně autora textu (resp. katalogizátora) a formulace dotazu na straně vyhledávače je komplikováno výskytem synonymních výrazů. Při vlastním vyhledávání tak mohou pomáhat tzv. řízené slovníky (slovníky podléhajícím určitým pravidlům) jehož příkladem může být např. tezaurus (použití tezauru se věnujeme v dalších kapitolách). Tezaurus je založen na výběru jednoho z možných synonym, kterým budou ostatní synonyma nahrazována. Takováto klíčová slova se nazývají deskriptory, zbývající synonyma jsou nedeskriptory. Tezaurus je slovník, který obsahuje deskriptory i nedeskriptory. Dále jsou v tezauru zachyceny i vztahy mezi deskriptory. Jsou to hierarchické vztahy podřízenosti a nadřazenosti pojmů a rovněž vztahy vzájemné asociace.
SHRNUTÍ KAPITOLY Informačním zdrojem (pramenem) rozumíme systém, který je reálným nebo potencionálním nositelem, zprostředkovatelem nebo šiřitelem informací. Tomuto vymezení vyhovují knihovny, databázová centra, informační střediska, televize, rozhlas apod. Informační pramen je pojem mnohem širší než běžně používaný pojem dokument, který se užívá v souvislosti s hmotným zdrojem. Rozlišujeme primární, sekundární a terciální informační prameny, podle dostupnosti pak přímo dostupné a dostupné zprostředkovaně. Termín „otevřený přístup“ (Open Access) v sobě zahrnuje význam trvalého a bezplatného online
14
SKLENÁK, V. Data, informace, znalosti a Internet, s. 34.
- 12 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
přístupu k dokumentům, zejména k úplným textům, pro všechny uživatele. Elektronické informační zdroje (EIZ) jsou informační prameny dostupné prostřednictvím informačních a komunikačních technologií. Mezi základní typy EIZ řadíme informační databáze, elektronické časopisy a sborníky a preprinty. Metadata jsou data o datech, popisují informační zdroj. Velkou roli sehrávají při vyhledávání, jedná se o specifická metadata tzv. klíčová slova. Klíčová slova jsou slovní spojení či slova, která charakterizují určitý dokument. Stanovení klíčových slov probíhá na základě analýzy dokumentu – je vhodné je volit z názvu dokumentu, z jeho abstraktu nebo slova a slovní spojení často se vyskytující v analyzovaném textu.
LITERATURA KE KAPITOLE Základní literatura: [1]
BARTOŠEK, M. Vyhledávání v Internetu a DUBLIN CORE. Brno: Zpravodaj ÚVT MU, 1999, roč. IX, č. 4, s. 1-4. ISSN 1212-0901
[2]
BOLDIŠ, P. Úvod do problematiky elektronických informačních zdrojů [on line]. 18. 4 2003. [cit. 2009-11-23]. Dostupné z WWW: .
[3]
BRATKOVÁ, E. Otevřený přístup, digitální knihovny a citační služby. In: INFORUM 2006 : 12. ročník konference o profesionálních informačních zdrojích, Vysoká škola ekonomická, Praha, 23.-25. května 2006. 1. vyd. elektronické vyd. 2006, Praha: Albertina icome Praha; s. 1-21. ISBN 18012213.
[4]
HOŘÍNKOVÁ KOUŘILOVÁ, L., PAZDERSKÝ, M. ŠKYŘÍK, P. Vyhledávací nástroje na internetu I. [on line]. [cit. 2009-11-23]. Dostupné z WWW: .
[5]
SKLENÁK, V. a kol. Data, informace, znalosti a Internet. 1. vyd. Praha: C.H. Beck, 2001. 507 s. ISBN 80-7179-409-0.
[6]
Věda.cz [on line]. [cit. cit. 2010-01-06]. Dostupný z WWW: www.veda.cz.
[7]
ArXiv [on line]. [cit. 2010-01-10]. Dostupný z WWW: <arxiv.org>.
[8]
Kurz práce s informacemi [on line]. [cit. 2010-01-07]. Dostupný z WWW: .
[9]
Kde hledat informace I [on line]. [cit. 2010-01-08]. Dostupný z WWW. .
[10]
Informační prameny [on line]. [cit. 2010-01-18]. Dostupný . - 13 -
z WWW:
Modul: Exaktní metody řešení projektů VaV
[11]
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Informační prameny [on line]. [cit. 2010-01-18]. Dostupný .
- 14 -
z WWW:
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
2 Informační databáze pro VaV CÍL Po prostudování kapitoly budete schopni:
definovat pojmy bibliografické databáze, fulltextové databáze, digitální knihovna, citační rejstřík, impact factor, rozlišit mezi pojmem digitální knihovna a citační rejstřík, vyjmenovat několik databází pro ekonomii, společenské vědy a technické vědy.
KLÍČOVÁ SLOVA Bibliografické databáze, fulltextové databáze, faktografické databáze, digitální knihovny, repozitáře, elektronické časopisy, preprinty, citační rejstříky,impact faktor.
2.1 Databáze Pod označením databáze se pro vědu a výzkum jsou míněny elektronické informační zdroje, které zpřístupňují informace o tzv. primárních zdrojích15. Tak jako v klasických (kamenných) informačních katalozích můžeme rozlišovat systémy pro vyhledávání informací do dvou skupin. a) bibliografické systémy, b) fulltextové systémy – vyhledávání slov, frází a jejich kombinací vytvořené pomocí operátorů Booleovské algebry. Informace, dokumenty a objekty, které jsou uchovávány v profesionálních databázích, jsou placeným zbožím. Roční přístup do profesionálních databází pro organizace se může pohybovat i v milionech korun. Klient však získává ověřenou kvalitu a celosvětově jednotný, relevantní obsah.
2.1.1
Typy databází a) Bibliografická databáze (dokumentografické) – přináší základní informace o primárních dokumentech v podobě bibliografického záznamu (autor, název článku, časopis, rok apod.) a v současnosti většinou doplněné abstraktem. Bibliografická databáze nejčastěji
15
KOHOUTOVÁ, S. BOLDIŠ, P. Základy práce s informačními databázemi.
- 15 -
Modul: Exaktní metody řešení projektů VaV
b)
c)
d)
e) f)
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
sleduje odborné časopisy a její záběr je v řádu stovek až tisíců titulů. Rešerše v takovéto databázi může přinést přehled o problematice a je podkladem pro získání plných textů článků. Databáze s plnými texty, fulltextové databáze (EBSCOhost, ProQuest ad.) – poskytuje bibliografické záznamy a také některé plné texty. Tyto databáze zdarma uveřejňují pouze některé plné texty, u mnoha zajímavých článků je z důvodu licenční politiky vydavatele k dispozici pouze abstrakt. Dalším omezením může být tzv. embargo – smluvní zpožďování aktuálních čísel časopisů a to i o více než půl roku. Plnotextové databáze navíc mohou být orientovány všeobecně (výše uvedené) nebo oborově specializované (JSTOR, Patria Plus, IEEE Computer Society Digital Library). Plný přístup do těchto databází bývá většinou možný pouze přes univerzitní nebo vědecké knihovny. Existují i databáze různých odborných publikací (např. placený zdroj informací pro inženýry, zaměřený na průmysl a inovace Knovel – http://why.knovel.com) nebo databáze časopisů, zveřejňovaná přímo jejich vydavatelem (např. Springer LINK), kde výše uvedená omezení být nemusí. Faktografická databáze – shromažďuje statistiky a další data, která jsou využitelná pro výzkum. Často jde o chemické databáze (např. přehled sloučenin) nebo o databáze ekonomické (ekonomické ukazatele, statistiky EUROSTAT apod.). druhově specializované – patentové katalogy, rejstříky, adresáře
Poslední tři kategorie se někdy označují jako databáze parametrické. Rozdělení elektronických zdrojů, vazby a souvislosti mezi jednotlivými pojmy ukazuje následující myšlenková mapa.
- 16 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Informační zdroje a vazby mezi nimi
Obrázek 2.1
2.2 Knihovny Postupem času vzniklo mnoho velkých a významných knihoven např. Britská knihovna16 nebo Kongresová knihovna17 ve Washingtonu. Největší knihovnou v ČR je Národní knihovna18. Velké a významné knihovny vznikají při univerzitách či vysokých školách. Známé je také Centrum inovačních a komunikačních služeb VŠE19. Pro usnadnění přístupu zpočátku pouze k vzácným dokumentům začaly při těchto i dalších knihovnách vznikat tzv. digitální knihovny. Největší digitální knihovnou světa je World Digital Library20. Jedná se o mezinárodní projekt, do nějž jsou zapojeny knihovny po celém světě, které tvoří virtuální knihovnu. Zastoupení v projektu má i Česká republika s pěti významnými historickými dokumenty21. Další obdobné projekty zahrnující velké množství dokumentů je Google Book Search (7 milionů digitálních knih) a Projekt Guttenberg (nejstarší projekt – 1971). Evropskou Unií podporovaný projekt Europeana zpřístupňuje přes 4,5 milionu knih.
16
The British Library [on line]. [cit. 2010-02-05]. Dostupný z WWW: <www.bl.uk>.
17
Library of Congress [on line]. [cit. 2010-02-05]. Dostupný z WWW: <www.loc.gov/>.
18
Národní knihovna České republiky [on line]. [cit. 2010-02-05]. Dostupný z WWW: <www.nkp.cz>.
19
20 21
Centrum informačních a knihovnických služeb VŠE [on line]. 2010 [cit. 2010-02-05]. Dostupný z WWW: . World Digital Library [on line]. [cit. 2010-02-05]. Dostupný z WWW: <www.wdl.org>. Pět významných historických dokumentů ČR [on line]. [cit. 2010-02-05]. Dostupný z WWW: <www.wdl.org/en/search/gallery?ql=en&a=-8000&b=2009&c=CZ&r=Europe>.
- 17 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
2.3 Elektronické informační zdroje Ucelený přehled vybraných, oborově rozdělených EIZ je možno nalézt na např. na http://193.84.33.165/eiz/. Nás samozřejmě zajímají vědy přírodní a technické, sociální a ekonomické, proto se podívejme, co jednotlivé kategorie nabízejí.
2.3.1
Přírodní a technické vědy Zde nalezneme celkem 13 databází, z nichž jmenujme aspoň některé: EIS Digests of Environmental Impact Statements (vydavatel je ProQuest)
Charakteristika databáze: databáze sledující ekologické dopady konstatované vládou USA. V této databázi jsou sledovány pozitivní i negativní vlivy projektů. Informace jsou přebírány z Federal Environmental Impact Statements. Plné texty k záznamům lze obdržet tištěné nebo na mikrofiších. Retrospektiva je od roku 1985, současný počet záznamů je přes 5000, ročně jich přibývá přes 500. Safari22 Charakteristika a zaměření databáze: Safari je kolekce elektronických knih, které zahrnují oblast informačních technologií a aplikovaných věd. Obsah databáze: 3250 titulů elektronických knih, knihy v elektronickém formátu, plné texty. IEEE Digital Library23 Charakteristika a zaměření databáze: IEEE Digital Library je plnotextový informační zdroj pro technické obory zahrnující oblast informačních technologií a počítačové vědy. Obsah databáze: 22 titulů výzkumných a technických časopisů IEEE (Magazines, Transactions), více než 1500 vybraných sborníků z nejvýznamnějších počítačově orientovaných konferencí IEEE Časové vymezení: časopisy od r.1988 až do současnosti, sborníky od r.1995 do současnosti. ACM Digital Library 24 Charakteristika a zaměření databáze: ACM Digital Library je plnotextová databáze pro technické obory zahrnující oblast informačních technologií a počítačové
22
Safari Books Online [on line]. <my.safaribooksonline.com/?portal=informit>.
23
CS Digital Library [on line]. <www.computer.org/portal/web/csdl/home>.
24
[cit. [cit.
2010-02-14].
Dostupný
z WWW:
2010-02-15].
Dostupný
z WWW:
The ACM Digital Library [on line]. [cit. 2010-02-15]. Dostupný z WWW: <portal.acm.org/dl.cfm>.
- 18 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
vědy. Rozsáhlá webová knihovna plných textů dokumentů a publikací vydávaných Association for Computing Machinery (sborníky z konferencí, časopisy - Journals, Magazines, Transactions). Časové vymezení: na konkrétním titulu).
časopisy
od
r.1950
až
do
současnosti
(závisí
Lecture Notes in Computer Science25 (vydavatel je- Springer) Charakteristika a zaměření databáze: Lecture Notes in Computer Science je plnotextová databáze pro technické obory zahrnující oblast informačních technologií, umělé inteligence, bioinformatiky a jejich aplikací. Lecture Notes in Computer Science (LNCS) zahrnuje i LNAI (Lecture Notes in Artificial Intelligence) a Lecture Notes in Bioinformatics (LNBI). Jádrem jsou publikované odborné příspěvky z konferencí. Časové vymezení: retrospektiva od roku 1973.
2.3.2
Ekonomické databáze
Zde nalézáme 13 databází zaměřených na ekonomii, obchod, finance a nalézáme zde i publikace orientované na domácí ekonomiku, následuje přehled vybraných databází s popisem a zaměřením:
DSI Full Campus Solution26
DSI Full Campus Solution
Zaměření databáze: ekonomie, obchod Charakteristika databáze: jedna z nejobsáhlejších statistických databázových kolekcí na světě. Obsahuje základní statistické údaje o ekonomikách jednotlivých států (OECD, EU aj.), makroekonomické informace (daně, HDP, ceny, příjmy, populace, zaměstnanost apod.), OECD´s International Trade Statistics, Eurostat Statistics a další Obsah databáze: statistické ročenky, informace veřejné správy a soukromých organizací.
EconLit27
EconLit
Zaměření databáze: ekonomika, historie ekonomiky, ekonomické teorie,
25
Springers [on line]. [cit. 2010-02-20]. <www.springer.com/computer/lncs?SGWID=0-164-0-0-0>.
26
Campus Solutions [on line]. 2010 [cit. 2010-02-25]. Dostupný z WWW: <www.statistischedaten.de/dsishop/en/the-great-statistical-collections/campus-solution/96>.
27
Journals Indexed in EconLit [on line]. <www.aeaweb.org/econlit/journal_list.php>.
[cit.
- 19 -
Dostupný
2010-02-38].
Dostupný
z WWW:
z WWW:
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
finance Charakteristika databáze: EconLIT odpovídá publikacím Journal of Economic Literature a Index of Economic Articles a pokrývá časopisecké články, kapitoly knih a přednášky z konferencí o historii ekonomiky, ekonomických teoriích, mezinárodní, regionální a městské ekonomice a souvisejících oborech. Roční přírůstek 27 000 záznamů. Obsah databáze: více než 521 000 záznamů a vybraných abstraktů ze světové ekonomické literatury od roku 1969.
Finlit28 Zaměření mikroekonomika
databáze:
podnikový
Finlit
management,
podniková
ekonomika,
Charakteristika databáze: databáze produkovaná Ministerstvem financí ČR, obsahující anotované záznamy článků ze světových i domácích ekonomických periodik. Obsah databáze: bibliografické záznamy s anotacemi Časové vymezení: od roku 1991
Firemní monitor II - Monitor tisku ČR29
Firemní monitor II
Zaměření databáze: firmy v ČR, podnikání Charakteristika databáze: jedna z nejrozsáhlejších databází monitorujících tiskové zprávy zaměřené na firmy v ČR. Sleduje více než 150 titulů novin a časopisů a přináší zprávy týkající se aktivit firem, podnikání a ekonomiky v retrospektivě od 1. 1. 1993. Obsahuje všechny zprávy, které se vztahují k aktivitě konkrétních podnikatelských subjektů. Zajišťuje i vazbu na originální pramen formou přesné citace a je vybavena i dalšími údaji usnadňujícími vyhledávání. Zprávy ve formě abstraktů nebo plných textů jsou doplněny věcnými i formálními údaji pro snazší orientaci v rozsáhlém souboru dat. Obsah databáze: faktografické informace, plné texty
Market Research 30 Zaměření
28
databáze:
ekonomika,
průzkum
trhu,
demografie,
obchod,
Pouze pro registrované uživatele CIKS VŠE. Databáze FinLit je součástí rozhraní Souborného katalogu VŠE.
29
Albertina: Firemní monitor [on line]. <www.albertina.cz/czech/index.html>.
[cit.
2010-03-02].
Dostupný
z WWW:
30
Market Research Monitor [on line]. 2010 [cit. <www.euromonitor.com/market_research_monitor.aspx>.
2010-03-02].
Dostupný
z WWW:
2005
- 20 -
Market Research
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
marketing, lidské zdroje Charakteristika databáze: světový adresář marketingových zpráv, studií a přehledů. Umožňuje vyhledat relevantní výzkumné zprávy pro specifické trhy, najít zdroje o spotřebitelských trendech na nových trzích, a také identifikovat společnosti provádějící průzkum trhu, které mají zkušenosti s danou geografickou oblastí nebo odvětvím. Obsah databáze: cca 40 000 abstraktů zpráv od 850 světových vydavatelů Časové vymezení: od roku 1984
OVEL - Obchodní věstník31
OVEl
Zaměření databáze: politika, ekonomie, finance, obchod Charakteristika databáze: Obchodní věstník v elektronické podobě publikuje informace o zápisech a změnách v obchodním rejstříku, o konkurzech, likvidacích podniků, účetních závěrkách, obchodních veřejných soutěžích, svoláních valných hromad apod. Obsah databáze: faktografické informace
2.3.3
Společenské vědy Information Science and Technology Abstracts (ISTA)
32
ISTA
Zaměření databáze: informační věda, informační technologie, knihovnictví Charakteristika databáze: záznamy o mezinárodní literatuře v oblasti knihovnictví a informatiky z více než 450 periodik a s více než 255 000 záznamy. Zpracovávaná témata zahrnují problematiku vytváření abstraktů a indexů, klasifikace, informační management, vyhledávání informací online, vedení knihoven, telekomunikace apod. Časové vymezení: retrospektiva do roku 1966
ERIC33
ERIC
Zaměření databáze: vzdělávání Charakteristika databáze: ERIC je databází produkovanou U.S. Department of Education, ERIC - Education Resources Information Center, OCLC Public Affairs
31
Obchodní věstník [on line]. .
32
Information Science & Technology Abstracts [on line]. [cit. 2010-03-18]. Dostupný z WWW: <www.ebscohost.com/thisTopic.php?topicID=91&marketID=1>.
33
[cit.
2010-03-13].
ERIC [on line]. [cit. 2010-03-18]. Dostupný z WWW: <www.eric.ed.gov/>.
- 21 -
Dostupný
z WWW:
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Information Service. Zahrnuje abstrakty článků ze 775 časopisů a z tisíců výzkumných zpráv. Pokrývá široké spektrum aspektů vzdělávání, jako např. vzdělávání dospělých, odborné školství, poradenství, řízení vzdělávání, výuka jazyků, čtení a komunikační schopnosti, osnovy pro nadané nebo postižené děti, metody hodnocení. Kompletní soubor obsahuje 1 091 000 záznamů s ročním přírůstkem 31 000, k dispozici je rovněž tezaurus. Časové pokrytí: retrospektiva od roku 1966.
2.3.4
Elektronické informační Palackého (KUP)
zdroje
dostupné v Knihovně
Univerzity
Počet EIZ v této knihovně překračuje sto, přístup k nim je buď přímo z knihovny, nebo přes webové rozhraní počítače v univerzitní síti. Jako většina knihoven nabízí KUP vzdálený přístup (VPN).
Pro oblast ekonomiky a financí je to 6 databází:
Accounting & Tax – specializovaná databáze na daňovou politiku a činnost firem, Banking Information Source – specializovaná databáze pro bankovnictví a ekonomiku, Business Source Complete – vědecká obchodní databáze, Science Direct – plné texty přírodovědných (částečně i společenskovědních) časopisů, Sociological Abstracts – bibliografická databáze pro sociology, Springer Link – plné texty přírodovědných (částečně i společenskovědních) časopisů.
Pro oblast výpočetní techniky a informačních věd je zahrnuto 6 databází:
Knovel – faktografická databáze z oboru přírodních věd, techniky, zdraví a hygieny, farmacie a potravinářství, Library, Information Science & Technology Abstracts (LISTA) – bibliografická databáze pro knihovnictví, ProQuest Computing – specializovaná databáze pro informační technologie, ProQuest Telecommunications – specializovaná databáze pro informační technologie, Science Direct – plné texty přírodovědných (částečně i společenskovědních) časopisů, Springer Link – plné texty přírodovědných (částečně i společenskovědních) časopisů.
- 22 -
Ekonomiky a finance
Výpočetní technika a informační vědy
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Pro humanitní vědy je dostupný následující výběr databází:
Academic Research Library – specializovaná databáze pro společenskovědní a humanitní obory, Career and Technical Education – specializovaná databáze pro vzdělávání, C.E.E.O.L. – plné texty společenskovědních a humanitních časopisů ERIC - Educational Resource Information Centre – databáze pro pedagogiku, JSTOR – archiv plných textů vědeckých časopisů, Periodicals Archive Online (PAO) – plné texty společenských a humanitních časopisů, Periodicals Index Online (PIO) – bibliografie odborných časopisů společenských a humanitních oborů, ProQuest Social Science Journals – databází pro společenskovědní a humanitní obory, Science Direct – plné texty přírodovědných (částečně i společenskovědních) časopisů, Social Services Abstracts – bibliografická databáze zaměřená na oblast sociální práce, SocINDEX with Full Text – plnotextová databáze pro sociologii, Sociological Abstracts – bibliografická databáze pro sociology, Springer Link – plné texty přírodovědných (částečně i společenskovědních) časopisů.
TAMTAM (Anopress) – plné texty mediálních zdrojů ČR
2.4 Digitální knihovny Jedná se o službu, která zpřístupňuje organizovanou sbírku elektronických objektů, umožňuje vyhledávání, identifikaci, zpracování digitálních objektů dále zajišťuje uložení, údržbu a ochranu objektů v digitalizovaných skladištích34. Nejedná se tedy o webový přístup do knihovního fondu dané knihovny, ale o přístup k digitálním dokumentům (obecně objektům). Pro digitální knihovny bývá typické zejména35:
34
35
systematická správa, popis, vyhledávání z jednoho místa v různorodých zdrojích (texty, zvuky, obrázky, 3D objekty, videa…). zaměření na kvalitu, systematické budování určité kolekce, sbírky velké výhody oproti tradiční knihovně - nonstop přístup ke sbírkám, efektivní vyhledávání, sdílení dat.
HORÁLEK, J. Informace a Internet, [on line]. 2010 [cit. 2010-03-29]. Dostupný z WWWW. ŠEDINOVÁ, P., KŘIVÁNEK, P., ŠKYŘÍK, P. Elektronické informační zdroje II, s. 1-4.
- 23 -
Humanitní vědy
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Digitálním (elektronickým) objektem je myšlena datová struktura tvořená dvěma základními částmi: obsahem a klíčovými metadaty. Úložiště digitálních objektů se nazývají repozitáře. Objekty ukládané v digitálních knihovnách mohou být36: a) tzv. born digital – objekty, které jako digitální již vznikly b) digitalizované – objekty, které byly převedeny do elektronické podoby (skenováním, přepisem) V další části textu si představíme vybrané digitální knihovny. Digitální knihovna Univerzity Tomáše Bati ve Zlíně 37 poskytuje přístup k plným textům více než 1000 digitalizovaných knih vydavatelství Springer 38, Wiley, Elsevier ad. Knihy jsou děleny do tematických kolekcí. Jednou z digitálních knihoven zaměřených čistě na ekonomii a její historii v zemích českých je Zlatý fond českého ekonomického myšlení 39. Zde jsou shromážděna díla vztahující se k historickému vývoji českého ekonomického myšlení do roku 1933 (stav v roce 2009).
Národní knihovna ČR40 Elektronické informační zdroje přístupné přes NKP
Prostřednictvím NKP mají uživatelé přístup k Elektronické knihovně časopisů,
36
PAPIK, R., SOUČEK, M. Zpřístupňování textových informací z profesionálních zdrojů. Databázová centra, databáze a digitální knihovny, [on line]. Naposledy změněno 12.5.2006 [cit. 2010-03-25]. Dostupný z WWW: .
37
Digitální knihovna Univerzity Tomáše Bati ve Zlíně [on line]. 2008 [cit. 2010-03-25]. Dostupný z WWW: <www.knihovna.utb.cz/digital/>.
38
SpringerLink [on line]. [cit. 2010-03-25]. Dostupný z WWW: <www.springerlink.com>.
39
Zlatý fond českého ekonomického myšlení [on line]. [cit. 2010-03-25]. Dostupný z WWW: <www.econlib.cz/zlatyfond/>.
40
Elektronické informační zdroje ve Studovně periodik [on line]. 2010 [cit. 2010-03-29]. Dostupný z WWWW. <www.nkp.cz/pages/page.php3?page=peri_dtb.htm>.
- 24 -
Obrázek 2.2
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
spravované Národní knihovnou ČR 41. EZB nabízí přístup ke všem plnotextovým odborným elektronickým časopisům, které má knihovna k dispozici v rámci předplatného nebo které jsou volně dostupné na internetu. Časopisy jsou rozděleny do 4 kategorií podle dostupnosti. Databáze obsahuje více než 44 000 časopisů, z nichž je téměř 22 000 volně dostupných. Volně dostupné zdroje jsou k dispozici v adresáři Directory of Free Access Journals.
Plnotextové databáze časopisů v NKP: české: Anopress TAM TAM (viz výše) zahraniční: EBSCO, GeoScienceWorld, Literature Online, Science Direct, Springer Link, Wiley EBSCO je zdroj obrovského množství vědeckých informací pro společenské a humanitní obory. Zahrnuje dvě základní databáze: Academic Search Complete Jedna z největších vědeckých multidisciplinárních plnotextových databází vytvořených speciálně pro akademické instituce. Obsahuje řadu recenzovaných časopisů, které nejsou dostupné v jiné podobné databázi. Počet plnotextových zdrojů přesahuje 5000. K této databázi mohou přistoupit i aktivní uživatelé vybraných knihovních institucí (např. Vědecká knihovna v Olomouci, nebo je možný přístup z vnitřní sítě Univerzity Palackého). Business Source Complete Vědecká obchodní databáze zpřístupňující bibliografické a plnotextové informace. Kromě odborných časopisů zahrnuje řadu dalších informačních pramenů (knihy, případové studie, konferenční materiály, finanční data, průmyslové zprávy, investiční zprávy atd.). Obsahuje více než 3000 plnotextových časopisů, z nichž více než 1600 je recenzováno. V prostředí EBSCOhost jsou zpřístupněny další databáze společnosti EBSCO. WebArchiv42 je digitální archiv „českých“ webových zdrojů, které jsou zde shromažďovány za účelem jejich dlouhodobého uchování. Na provozu se mj. podílí právě i NK ČR. Typy zdrojů umístěné ve WebArchivu:
41 42
digitální dokumenty volně dostupné prostřednictvím sítě Internet, publikace odborného, uměleckého a zpravodajsko-publicistického zaměření, periodika, monografie, konferenční příspěvky, výzkumné a jiné zprávy,
Elektronická knihovna časopisů [on line]. 2010 [cit. 2010-03-28]. Dostupný z WWW: <ezb.nkp.cz>. WEB archiv – archiv českého webu [on line]. 2010 [cit. 2010-04-02]. Dostupný z WWW: <www.webarchiv.cz>.
- 25 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
akademické práce…. Textové a do jisté míry také obrazové a zvukové dokumenty existující pouze v digitální podobě.
2.4.1
Specializované firmy43
Jednou z prvních specializovaných firem zabývajících se poskytováním informací byla „The Mercantile Agency“. Agentura se zabývá pořizováním a prodejem zpráv o hospodářské situaci firem. Dnes známá jako Dun&Bradstreet Corporation4445. Jejím nejznámějším produktem je dnes International Bussines Information Reports (BIR). Celkový počet firem v databázích D&B je více než 155 milionů, z toho celých 101 milionů firem je aktivních. Z tohoto počtu je skoro celých 48 milionů firem evropských a necelých 24,5 milionu firem tvoří firmy ze Severní Ameriky. Databáze poskytují tři nejdůležitější hodnocení - D&B Rating (udává rizikový faktor a finanční sílu firmy), D&B Failure Score (skóre úpadku podnikatelských subjektů) a D&B Paydex (sledující platební morálku subjektů)46. Mezi velmi významné instituce patří různá databázová centra, která dnes poskytují své služby přes Internet. Velmi významnou firmou je Dialog Information Service47. „Produkty této firmy nabízejí precizní vyhledávácí nástroje a přístup do jedinečných a relevantních databází obsahujících více než 1,4 miliardy klíčových údajů určených pro koncové uživatele z oblasti obchodu, vědy, z řad akademiků i vládních organizací.“48
2.5 Informační zdroje/databáze s otevřeným přístupem49 Volně dostupné online časopisy, které mohou zachovávat tradiční charakteristiky klasických časopisů, jsou určeny k bezplatnému využívání koncovými uživateli. Někteří vydavatelé zajišťují volný přístup ke všem článkům (např. Public Library of Science - PLoS50). PLoS obsahuje články převážně medicínského
43
SKLENÁK, V. Data, informace, znalosti a Internet, s.22-29..
44
D&B [on line]. 2010 [cit. 2010-03-28]. Dostupný z WWW: <www.dnb.com>.
45
D&B Česká republika a Slovenská republika [on line]. 2010 [cit. 2010-03-28]. Dostupný z WWW. .
46
D&B Česká republika a Slovenská republika [on line]. 2010 [cit. 2010-03-28]. Dostupný z WWW. .
47
Dialog [on line]. [cit. 2010-04-05]. Dostupný z WWW: <www.dialog.com>.
48
Dialog and the invention of online information services [on line]. [cit. 2010-04-05]. Dostupný z WWW: <www.dialog.com/about>.
49
BRATKOVÁ, E. Otevřený přístup, digitální knihovny a citační služby, s. 1-21.
50
Public Library of Science [on line]. [cit. 2010-04-05]. Dostupný z WWW: <www.plos.org>.
- 26 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
zaměření v kombinaci s dalšími vědními disciplínami (matematická statistika, genetika, biologie ad.). Další systém - DOAJ51 (Directory of Open Access Journals) zajišťuje registraci online volně dostupných časopisů. V sekci Business and Management je možno nalézt 101 časopisů a v sekci Economics nalezneme 92 časopisů. Sekce Law obsahuje 77 záznamů a Political Science celých 123 titulů. K nejdůležitějším typům informačních zdrojů s otevřeným přístupem patří: a) b) c) d)
Předmětově profilované a institucionální repozitáře Online časopisy s otevřeným přístupem Povrchový web Předmětově profilovaným archivem pro kognitivní vědy je např. CogPrints, pro knihovní a informační vědy pak E-LIS.
Zvláštním typem archivů jsou institucionální repozitáře (Institutional repositories, IR). Seznam IR dokládá jejich světový registr ROAR52 (Register of Open Access Repositories). V tomto registru nalezneme zatím (rok 2009) pouze 4 české repozitáře. Digitální knihovna Univerzity Pardubice – je primárně určena k ukládání a zpřístupňování bakalářských, diplomových a disertačních prací zpracovaných v rámci akreditovaných studijních programů na Univerzitě Pardubice. Digitální knihovna obsahuje:
bibliografické záznamy (u některých je připojen plný text práce) závěrečných prací z let 1992 – 2007 uložené v kolekci Vysokoškolské kvalifikační práce plné texty závěrečných prací obhájených po roce 2008 uložené v kolekcích jednotlivých kateder a zároveň v kolekci Vysokoškolské kvalifikační práce články publikované v Scientific papers of the University of Pardubice
DML- CZ – je fulltextová digitální knihovna zaměřená na oblast matematiky, v budoucnu by měla být součástí plánované světové digitální matematické knihovny (World Digital Mathematics Library – WDML).
51
Directory of Open Access Journals [on line]. 2010 [cit. 2010-04-05]. Dostupný z WWW: <www.doaj.org>.
52
Registry of Open Access Repositories [on line]. 2010 [cit. 2010-04-11]. Dostupný z WWW. <archives.eprints.org/>.
- 27 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Úvodní stránka Časopisu pro pěstování matematiky
Obrázek 2.3
Do DML- CZ jsou zařazovány materiály tří různých forem53: a) Tištěné dokumenty: časopisy, monografie a sborníky vydané před rokem 1990 a existující pouze v tištěné podobě. Tyto dokumenty jsou skenovány, obrazy stránek jsou dále zpracovávány. b) Retro - born digital dokumenty: materiály od roku 1990. Tyto dokumenty již existují v digitální podobě. c) Digitální dokumenty přebírané on-line: jde především o přebírání aktuálně vydávaných časopisů. dKNAV – knihovna Akademie věd České Republiky54 Nabídka této digitální knihovny je opravdu velmi široká a postihuje mnoho vědeckých oblastí. Za zmínku stojí především: AUCO Czech Economic Review – (3 ročníky, 47 článků) Data a výzkum – SDA Info – (1 ročník, 6 článků) Journal of Hydrology and Hydromechanics - (1 ročník, 6 článků)
53
54
BARTOŠEK, M. Česká digitální matematická knihovna, [on line]. [cit. 2010-04-11]. Dostupný z WWW: , s. 1-11. Knihovna Akademie věd .
ČR
[on line].
[cit.
- 28 -
2010-04-11].
Dostupný
z WWW.
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Stránka s nabídkou možností k vybranému článku
Obrázek 2.4
Ke každému článku dostaneme na kartě Summary souhrnné informace – abstrakt příspěvku, bibliografické údaje. Odtud je také možné článek uložit na harddisk. Na kartě Details jsou k dispozici bibliografické záznamy. Užitečnou možností je také vygenerování bibliografické citace na kartě Export a to do mnoha různých formátů (od TEXu, přes HTML, XML, až po ASCII).
VŠB Technická Univerzita v Ostravě55
VŠB – TUO
V současné době obsahuje bibliografické záznamy publikačních výstupů členů jednotlivých kateder. Pro registrované členy je zpřístupněna také kolekce závěrečných prací studentů.
Úvodní stránka digitální knihovny VŠB
Obrázek 2.5
Tyto elektronické archivy jsou softwarově zabezpečeny prostřednictvím volně dostupných programů DSpace nebo Eprints.org.
55
DSpace VŠB – TUO [on line]. 2007 [cit. 2010-04-11]. Dostupný z WWW: .
- 29 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
2.6 Citační rejstříky Pojem citační rejstřík56 představuje specializovaný bibliografický soupis článků z různých vědních oborů, jejichž účelem je mapování vývoje vědeckého poznání zachycováním citačních vazeb mezi jednotlivými vědeckými články. Citační rejstříky resp. citační indexy a impakt faktor patří mezi nástroje nauky nazývané scientometrie, která se zabývá studiem vývoje vědy.
2.6.1
Základní východiska vytváření citačních rejstříků 57
Každý autor používá při vzniku článku, příspěvku do sborníku aj. obvykle řadu pramenů. Může na ně navazovat, používat jako argumenty pro podporu svých výsledků apod. Předpokládá se, že je-li práce některého autora citována jiným autorem, znamená to, že je v určité oblasti přínosná a že její autor má tudíž jisté odborné renomé. Také se předpokládá, že je-li citován článek z některého časopisu, má tento časopis určitou odbornou úroveň.
Citační rejstříky zaznamenávají rozkvět v 70. letech minulého století a od té doby vzniklo mnoho různě oborově zaměřených citačních rejstříků. Vydáváním citačních rejstříků se zabývá společnost ISI. Jedním z prvních citačních rejstříků byl „Science Citation Index – SCI“, zaměřený na přírodní vědy a techniky. Indexuje cca 6000 časopisů, což představuje 17 mil. záznamů s retrospektivou do roku 1973. Do oblasti sociálních věd (především ekonomie, sociologie, filozofie a práva) směřuje specializovaný rejstřík „Social Science Citation Index (SSCI)". Obsahuje přes 3 mil. záznamů a indexuje přes 1700 časopisů.
2.6.2
Model vytváření citačních rejstříků
Na základě výběrových kritérií, stanovených společností ISI jsou sledovány nejvýznamnější oborové časopisy. Z nich jsou zpracovávány záznamy článků a v nich citované literatury. Tyto záznamy (vlastního článku - citující i citované) dohromady mezi sebou vytvoří síť odkazů. Na základě citačních analýz článků z těchto časopisů se sestavuje zvláštní index - tzv. Impact Factor. Na základě takovéto "citační sítě" je možné sledovat:
56
WEB of Science a JCR [on line]. <www.veda.cz/article.do?articleId=8886>.
57
Co je impakt faktor a citační index? [on line]. 2008 [cit. 2010-04-11]. Dostupný z WWW: <www.vse.cz/obecne/impactfk.php3>.
2004
[cit.
- 30 -
2010-04-11].
Dostupný
z WWW:
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
a) inovační krok ve výzkumu a současné vývojové tendence (které téma je nejvíce rozvíjeno, kam směřuje výzkum) b) nejvýznamnější autority (databáze odpovídá na otázku: Kdo je nejvýznamnějším- tj. nejcitovanějším odborníkem na XY?) c) vliv jednotlivých článků na současný výzkum v oboru (podle počtu odkazů je možné nalézt články, které nejvíce ovlivnily další vědce). d) citovanost jednotlivých autorů/institucí Citační rejstříky jsou tak jedinečným nástrojem pro sledování stavu poznání a výzkumu ve světě. V každém záznamu je přesně popsán zdroj článku, počet článků, které v něm jsou citovány a také počet článků, které citovaly tento článek. Součástí většiny záznamů bývá i anglicky psaný (často autorský) abstrakt. Jedním z nejdůležitějších údajů v záznamu je přesná adresa pracoviště autorů – tzv. afilace, na jejímž základě je možné autory kontaktovat.
2.6.3
Citační rejstříky ISI v České republice
V České republice jsou v rámci služby Web of Science (WoS) přístupné tři hlavní citační rejstříky - Science Citation Index Expanded, Social Sciences Citation Index a Arts & Humanities Citation Index (A&HCI). Přístup v rámci tzv. "národní licence" je možný díky grantu, jehož nositelem je Akademie věd ČR. Přestože je licence na přístup do Web of Science označován jako "celonárodní", přístup k němu mají pouze členové (spoluřešitelé) konsorcia. Z nich jmenujme alespoň několik vybraných:
Akademie věd ČR Moravská zemská knihovna Národní knihovna ČR, Praha Státní technická knihovna, Praha Státní vědecká knihovna v Olomouci (SVKOL) Univerzita Palackého v Olomouci (KUP) Vysoká škola ekonomická v Praze
WoS lze využívat dvěma způsoby. Buď jako běžnou databází dokumentů, v níž lze vyhledávat dle autora příspěvku, názvu, tematického zaměření, roku vydaní a dalších parametrů, nebo podle četnosti citovanosti příspěvku, citujícího.
2.6.4
Použití WoS
Přístup do Web of Science je, jak již bylo řečeno, prostřednictvím KUP nebo SVKOL. V hlavním menu (viz obrázek 2.6) je umožněno zejména:
Search - základní vyhledávání, je umožněno ve třech (v základním zobrazení, další pole lze přidat) vyhledávacích polích zároveň. Dotaz lze jednak specifikovat pomocí booleovských operátorů (následující - 31 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
kapitola) vkládaných mezi jednotlivá vyhledávací pole a dále každému vyhledávacímu poli můžeme nastavit parametr oblast, ve které bude vyhledávání probíhat (téma, autor, název publikace, rok vydání, editor, autorský kolektiv, konference, jazyk, formát dokumentu, poskytovatel dotace a číslo grantu). Cited Reference Search - slouží k hledání autorů a jejich prací, které citují konkrétní práci nebo jiného autora. Je možné zjišťovat i citace vlastních článků (obr. 2.7, 2.8 a 2.9).
Advanced Search - pokročilé vyhledávání, je umožněno editovat dotaz pomocí operátorů a polí. Obojí lze vkládat z výběru na pravé straně okna (obr. 2.10) Search History – historie vyhledávání, Marked List – seznam označených záznamů.
Ve spodní části okna pak nastavujeme omezení vyhledávání z hlediska času a prohledávaných oborů databází.
Okno základního rozhraní
Obrázek 2.6
- 32 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Výpis výsledků zadaného dotazu s vybraným záznamem
Obrázek 2.7
Detail záznamu (dostupný odkazem View Record viz obr. 2.7)
Obrázek 2.8
Na stránce (obr. 2.8) jsou zobrazeny detaily vyhledaného záznamu obsahující autory a spoluatory dokumentu, abstrakt, jazyk, klíčová slova, kontaktní adresy, oborové kategorie a identifikační čísla dokumentu. Zajímavou možností je vytvoření citační mapy – grafický výstup zobrazující citující, citované dokumenty (obr. 2.9). Položka Cited by uvádí počet a stručný výpis sledovaných dokumentů, ve kterých je vyhledaný dokument citován (zde 8 citujících.autorů). Položka References odkazuje na bibliografii vztahující se k dokumentu (zde 14 citovaných zdrojů). - 33 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Vytvořená citační mapa
Obrázek 2.9
Okno pokročilého vyhledávání
Obrázek 2.10
Výsledky vyhledávání Zde je k dispozici možnost jednotlivé vyhledané záznamy označovat. Označené záznamy se ukládají na stránku Marked List. Z něj je možno (obr. 2.12) záznamy odeslat na mail vytisknout, nebo zpracovat pomocí aplikace ProCite58, EdNote59 nebo RefMan60.
58
ProCite [on line]. [cit. 2010-04-11]. Dostupný z WWW: <www.procite.com/>.
59
Announcing: EndNote® X for Windows® & Mac® OS X – Intel® CoreTM [on line]. [cit. 2010-04-11]. Dostupný z WWW: <www.endnote.com/enXinfo.asp>.
60
Reference Manager [on line]. [cit. 2010-04-11]. Dostupný z WWW: <www.refman.com/>.
- 34 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Výpis výsledků vyhledávání
Obrázek 2.11
Výsledky ve výpisu, obzvlášť pokud jich je větší množství, je možno zpřesňovat či třídit. V levém sloupci (obr. 2.11) vybíráme z položek ty vhodné a stisknutím tlačítka Refine upravíme výsledky vyhledávání.
Zpracování označených záznamů
Obrázek 2.12
SHRNUTÍ KAPITOLY Pod označením databáze se pro vědu a výzkum jsou míněny elektronické informační zdroje, které zpřístupňují informace o tzv. primárních zdrojích. Databáze rozdělujeme na Bibliografická databáze (dokumentografické) – přináší základní informace o primárních dokumentech v podobě bibliografického záznamu (autor, název článku, časopis, rok apod.). Databáze s plnými texty, fulltextové databáze – poskytují bibliografické záznamy a také některé plné texty. Dále databáze různých odborných - 35 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
publikací. Faktografické databáze shromažďují statistiky a další data, která jsou využitelná pro výzkum. Druhově specializované – patentové a v neposlední řadě katalogy, rejstříky a adresáře. Digitální knihovna je služba, která zpřístupňuje organizovanou sbírku elektronických (digitálních) objektů, umožňuje vyhledávání, identifikaci, zpracování digitálních objektů dále zajišťuje uložení, údržbu a ochranu objektů v digitalizovaných skladištích. Význam pojmu digitální knihovna je mnohem širší než pouhé úložiště elektronických knih a časopisů. Pojem citační rejstřík představuje specializovaný bibliografický soupis článků z různých vědních oborů, jejichž účelem je mapování vývoje vědeckého poznání zachycováním citačních vazeb mezi jednotlivými vědeckými články. V České republice jsou v rámci služby Web of Science (WoS) přístupné tři hlavní citační rejstříky - Science Citation Index Expanded, Social Sciences Citation Index a Arts & Humanities Citation Index (A&HCI). Na základě citačních analýz článků z časopisů se sestavuje zvláštní index - tzv. Impact Factor. Na základě „citační sítě“ lze sledovat: a) b) c) d)
pokrok ve sledované vědecké oblasti a další směřování, významné autority dané oblasti, vliv článků na obor (citovanost), citovanost autorů a institucí.
Přístup do citačních rejstříků zahrnutých ve WoS je bezplatně umožněn např. z vnitřní sítě Univerzity Palackého v Olomouci nebo ve Státní vědecké knihovně v Olomouci.
LITERATURA KE KAPITOLE Základní literatura: [1]
BARTOŠEK, M. Česká digitální matematická knihovna. Inforum 2008 [online]. [cit. 08.07.2010]. Dostupný na World Wide Web: <www.inforum.cz/pdf/2008/bartosek-miroslav-cze.pdf>.
[2]
BRATKOVÁ, Eva. Otevřený přístup, digitální knihovny a citační služby. In INFORUM 2006: 12. ročník konference o profesionálních informačních zdrojích, Vysoká škola ekonomická, Praha, 23.-25. května 2006 [online]. Praha: Albertina icome Praha, 2006 [cit. 2009-11-18]. Dostupný z WWW:<www.inforum.cz/inforum2006/pdf/Bratkova_Eva.pdf>.
[3]
Co je impakt faktor a citační index? [on line]. 2008 [cit. 2010-04-11]. Dostupný z WWW: <www.vse.cz/obecne/impactfk.php3>.
[4]
DSpace VŠB – TUO [on line]. 2007 [cit. 2010-04-11]. Dostupný z WWW: .
[5]
Economists
online
[on line].
[cit.
2010-04-05].
- 36 -
Dostupný
z WWW:
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
<www.economistsonline.org/home>. [6]
Elektronické informační zdroje ve Studovně periodik [on line]. 2010 [cit. 201003-29]. Dostupný z WWWW. <www.nkp.cz/pages/page.php3?page=peri_dtb.htm>.
[7]
KOHOUTOVÁ, S. BOLDIŠ, P. Základy práce s informačními databázemi. [on line]. [cit. 2010-04-29]. Dostupný z WWWW.
[8]
NEREUS - otevřený archiv pro obor ekonomie pro výzkumníky z Evropy (Jacques Hellemans). Ikaros [online]. 2006, roč. 10, č. 5/2 [cit. 2009-10-23]. Dostupný na World Wide Web: <www.ikaros.cz/node/3421>. ISSN 12125075.
[9]
Nereus [on line]. [cit. <www.nereus4economics.info/>.
[10]
PAPIK, R., SOUČEK, M. Zpřístupňování textových informací z profesionálních zdrojů. Databázová centra, databáze a digitální knihovny, [on line]. Naposledy změněno 12.5.2006 [cit. 2010-03-25]. Dostupný z WWW: .
[11]
Portál o českých knihovnách [on line]. 2010 [cit. 2010-04-05]. Dostupný z WWW: <www.knihovny.cz>.
[12]
ŠEDINOVÁ, P., KŘIVÁNEK, P., ŠKYŘÍK, P. Elektronické informační zdroje II: Elektronické informační zdroje – využití pro život II: část II. [cit. 2009-11-23]. Dostupný z WWW: .
[13]
Vědecká knihovna v Olomouci [on line]. [cit. 2010-04-05]. Dostupný z WWW: .
[14]
WEB of Science a JCR [on line]. 2004 [cit. 2010-04-11]. Dostupný z WWW: <www.veda.cz/article.do?articleId=8886>.
2010-04-05].
- 37 -
Dostupný
z WWW:
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
3 Základní principy vyhledávání v databázích a na World Wide Web
informací
CÍL Po prostudování kapitoly budete schopni:
popsat postup tvorby rešerše, rozlišit mezi vyhledáváním zdrojům na základě popisu obsahu nebo na základě klíčových slov, zadat jednoduchý vyhledávací dotaz i dotaz vytvořený použitím operátorů, vyhodnotit zobrazené výsledky vyhledávacího dotazu, používat základní techniky vyhledávání v systému Google.
KLÍČOVÁ SLOVA Popis dokumentu, dotazy, hity, rešerše, informační prameny, informační potřeba, informační požadavek, identifikace dokumentu, charakteristika obsahu, indexování, dialogové vyhledávání, operátory, relevance, pertinence, úplnost vyhledávání, přesnost vyhledávání.
3.1 Vyhledávání dokumentů V této části se budeme zabývat vyhledáváním textových dokumentů v konkrétních informačních fondech za účelem vytvoření rešerše. Rešerší se rozumí průzkum zkoumané oblasti, vyhledání a vytvoření souboru dostupných dokumentů. Rešerše můžeme rozlišit na:
retrospektivní – nově zadané téma do databáze ve formě dotazu za účelem zjištění stavu poznání s určitou retrospektivou. průběžné – v pravidelných intervalech se zadává stejný dotaz do databáze za účelem zjištění aktuálního stavu poznání a udržení přehledu ve sledované oblasti.
Při vytváření rešerše je dobré se držet doporučované strategie: 1) výběr databáze – zvolení databáze, nad níž bude vyhledávání prováděno, 2) výběr selekčních prvků – stanovení klíčových slov, předmětových hesel apod. pro zadání do vyhledávacích polí, 3) dotaz – query; formulace vhodného dotazu kombinací a pozičním - 38 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
umístěním selekčních prvků, 4) vyhledání výsledků, 5) posouzení relevance výsledků 6) vyladění dotazu - reformulace původního dotazu nebo formulace nového dotazu, 7) uložení výsledků - zobrazení, tisk či stažení vyhledaných dokumentů na záznamové médium. Dokumenty jsou v průběhu vstupního zpracování před do informačního fondu charakterizovány, výsledkem je popis dokumentu.
uložením
3.2 Popis dokumentu Tato subkapitola je zpracována podle publikace Data, informace, znalosti a Internet autorského kolektivu vedeného Ing. Vilémem Sklenákem, CSc. Tuto publikaci zájemcům o podrobnější informace z této oblasti vřele doporučujeme. Předpokladem uchování a manipulace s dokumentem je jeho popis obsahující všechny potřebné údaje. Místo termínu „dokument“ se často používá označení informační pramen (primární informační pramen). Popis informačního pramene se pak nazývá sekundární informační pramen. Informační požadavek se vyjádří pomocí dotazovacího jazyka, výsledkem je dotaz - query. Dotaz určuje nějakou podmnožinu dokumentů uchovávaných v informačním fondu. Různé dotazovací jazyky se často velmi liší jak vyjadřovacími možnostmi, tak i syntaxí. Vyhledávání dokumentů chápeme jako porovnávání popisu dokumentu s položeným dotazem. Pokud popis dokumentu vyhovuje dotazu, je dokument považován za vybraný a je zařazen do výstupu. Sklenák a kol.61 uvádí následující schéma celé situace.
61
SKLENÁK, V. a kol. Data, informace, znalosti a Internet, s. 26 - 31.
- 39 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Vyhledávání dokumentů (podle V. Sklenáka a kol.)
Obrázek 3.1
informační požadavek
dokument
popis dokumentu
dotaz
porovnání popisu dokumentu a dotazu
vybrané dokumenty - hity
Popis dokumentu tvoří obvykle dvě části. První část, nazývaná identifikace nebo jmenný popis, obsahuje formální údaje – jméno autora, rok vydání nebo nakladatele. Druhá část obsahuje nějakou charakteristiku obsahu dokumentu. Pokud např. požadujeme všechny články daného autora vydané v daném roce, a uchovávané v daném informačním fondu, není problém provést vyhledání tak, abychom získali všechny dokumenty vyhovující takovému požadavku a žádné jiné. Údaje potřebné pro vyhledávání mohou být beze zbytku vyjádřeny jak v popisu dokumentu, tak i v dotazu. Pro každý dokument lze jednoznačně určit, zda danému informačním požadavku vyhovuje nebo ne. Jiná je situace, pokud vyhledáváme dokumenty podle obsahu. Z různých příčin, zejména díky tomu, že dostupné prostředky neumožňují jednoznačně a beze zbytku vyjádřit obsah dokumentu, dochází při popisu dokumentu i při formulaci dotazu ke značnému zjednodušení a často i ke zkreslení obsahu. V důsledku toho se do výstupu dostávají dokumenty, které nevyhovují informačnímu požadavku, a zároveň se ale do výstupu nedostanou všechny dokumenty, které informačnímu požadavku vyhovují. Sekundární prameny jsou zpravidla nějakým způsobem odvozeny od bibliografického záznamu. Bibliografický záznam obsahuje údaje nutné pro to, aby mohl potřebným způsobem zastupovat primární dokument. Je výsledkem analýzy dokumentu, která se zabývá jak formálními znaky dokumentu, tak i jeho obsahem. - 40 -
Identifikace a charakteristika obsahu
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Protože je bibliografický záznam určen pro komunikaci informací, nutně musí vyhovovat příslušným národním i mezinárodním normám. Údaje v bibliografickém záznamu mají až na výjimky povahu kódů.
Struktura a obsah bibliografického záznamu: Soupisné údaje – jsou údaje typu autor, název dokumentu, notační znak selekčního jazyka klasifikačního typu (NKP používaná notace MDT), výraz předmětového selekčního jazyka. Selekčním jazykem rozumíme souhrn více či méně formalizovaných výrazů, které se používají při popisu dokumentů. Selekčními se nazývají proto, že pomocí nich se provádí výběr dokumentů. Rozlišujeme identifikační a věcné selektivní jazyky. Identifikační selekční jazyky se týkají údajů sloužících pro identifikaci dokumentů, vyjadřují se jimi údaje jako autor, název ISBN, nakladatel atd. Kódem rozumíme řetězec alfanumerických znaků (jména osob, názvy dokumentů, čísla, datum, klíčová slova apod.), které lze pomocí počítačů třídit a separovat bez ztráty informace. K již zmiňované ztrátě informace ohledně obsahu dokumentu dochází proto, že obsah vyjádříme pomocí selekčního jazyka. Vyčleněné údaje – datum schválení (výroční zprávy), datum obhajoby (diplomové práce), datum účinnosti (normy a zákony) Lokační údaje – signatura (tj. adresa dokumentu v primárním fondu), sigla (zkratka instituce vlastnící dokument) ad. Popisné údaje – další údaje o autorech, nakladatelství, vydání (pořadí či datum), rozsah (počet stran), ISBN, ISSN ad. Charakteristika obsahu – anotace, referát – popis obsahu souvislým textem resp. specifikuje téma, o kterém pojednává. Dalšími způsoby jsou systematické selekční jazyky (spočívají v pokrytí celé oblasti vědění, které se dokumentu týkají, hierarchicky uspořádaným systémem tříd a vyvinuly se z potřeby vhodným způsobem uspořádat knihy). Základem systematických selekčních jazyků je desetinné třídění. To spočívá v kategorizaci veškerého vědění do 10 hlavních tříd, každá třída se dále dělí na další podtřídy (10 podskupin) atd. Používaným představitelem desetinného třídění je systém MDT (Mezinárodní desetinné třídění). Mezi předmětové selekční jazyky patří předmětová hesla; příklady takových hesel jsou: Morava – dějiny - přehledy Podstatné je, že pro strukturu předmětových hesel platí pravidla, která navíc závisí na národním jazyku. Důležité je např. pořadí substantiva a adjektiva. Tuto nevýhodu předmětových hesel nemají klíčová slova. Klíčová slova jsou volena tak, aby co nejvýstižněji charakterizovala obsah dokumentu. Velmi složité je stanovení vhodných klíčových slov. Určují se na základě analýzy dokumentů. Pro odbornou literaturu je vhodné vybírat klíčová slova z názvu dokumentu nebo z názvu kapitol a odstavců. Hlavním důvodem pro automatickou charakteristiku obsahu je prudce rostoucí počet textových dokumentů dostupných v elektronické podobě. Není prakticky možné všechny dostupné dokumenty indexovat intelektuálně a už vůbec ne v dostatečně krátké době. Indexování dokumentu znamená totéž co - 41 -
Struktura a obsah citace
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
charakteristika obsahu dokumentu. Automatické indexování (jedna z metod) vychází z předpokladu, že jestliže se některé slovo vyskytuje v textu dostatečně často, pak se dokument týká pojmu odpovídajícímu tomuto slovu. Naopak, pokud se slovo v dokumentu týká pojmu odpovídajícím nějakému slovu, pak se toto slovo v dokumentu vyskytuje s velkou frekvencí. Pokud tedy použijeme slova s vysokou frekvencí jako klíče, dostaneme velmi pravděpodobně všechny relevantní dokumenty. Jinými slovy, použití slov s vysokou frekvencí jako klíčů podporuje úplnost vyhledávání. Zásadní problém však může nastat s přesností vyhledávání. Služební údaje – přírůstkové číslo, kód zpracovatele ad.
3.3 Dialogové vyhledávání, operátory a Booleovský model Klíčovou roli v efektivním vyhledávání dokumentů hrají operátory. Mezi nejpoužívanější operátory patří booleovské, poziční či proximitní (vzdálenostní někdy též distanční). Relativně velmi snadným se stalo vyhledávání všech bibliografických záznamů splňujících danou podmínku vyjádřenou pomocí booleovských spojek (operátorů) AND, OR a NOT. Příkladem takového zápisu je výraz: Počítač AND síť kde počítač a síť jsou klíčová slova. Na základě takto formulovaného dotazu budou vyhledány všechny dokumenty (bibliografické záznamy), mezi jejichž klíčovými slovy je zároveň (konjunkce) počítač i síť. Hledá tedy výskyt obou slov v jednom dokumentu. Logické spojky se obvykle aplikují na výroky. Výrokem pak v algebraickém smyslu rozumíme tvrzení, o jehož pravdivosti můžeme jednoznačně rozhodnout. Atomárním výrokem je samostatné tvrzení, u nějž není použito logických spojek. Naopak složeným výrokem nazveme výrok stávající z několika výroků, mezi nimiž jsou použity logické spojky (logické operátory). výraz: Počítač OR síť vybere takové dokumenty, mezi jejichž klíčovými slovy je počítač NEBO síť (ve smyslu neostré disjunkce – je nalezeno aspoň jedno klíčové slovo, mohou být obě). výraz: Počítač NOT síť vybere dokumenty, mezi jejichž klíčovými slovy je počítač a zároveň neobsahuje síť. Jedná se o tzv. negativní vymezení. Dále můžeme využít tzv. pozičních operátorů: ADJ (systém vyhledává 2 termíny vedle sebe v libovolném pořadí) NEAR (systém vyhledává 2 termíny umístěné ve stejné větě)
- 42 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
WITH (systém vyhledává 2 termíny umístěné ve stejném poli) FOLLOWED BY (systém vyhledává slova v přesném pořadí) Rozdíl mezi Booleovskými operátory a pozičními operátory je v nalezeném kontextu; booleovský operátor najde výskyt dvou slov kdekoli v dokumentu (např. v titulku a v textu), poziční operátor najde pouze dokumenty, kde jsou obě slova do určené vzdálenosti od sebe a je tedy větší pravděpodobnost jejich souvislosti. Poziční operátory se používají zejména při vyhledávání vlastních jmen či názvů.
3.4 Základní metody vyhledávání v Internetu62 Při vyhledávání informací, článků, sborníků a jiných dokumentů na Internetu vycházíme z představy prohledávání obrovského souboru katalogů kamenných knihoven. V každé z těchto knihoven však bývají informace o dokumentech tříděny a zpracovávány odlišnými metodami. Uživatel tak nemá šanci nikdy získat úplný soubor všech relevantních dokumentů obsahujících požadované informace. Dalším problémem je, že internet funguje jako obrovská nástěnka. Kdokoli sem může umístit v podstatě libovolnou informaci či dokument bez ohledu na její pravdivost. Jednou ze záruk legitimity zdroje je jeho URL. Pro úplnost připomeňme, že zkratka URL znamená Unique Resource Locator, v překladu tedy unikátní umístění zdroje. Jedná se o způsob jednoznačného zápisu umístění souboru do Internetu či intranetu. Je-li tedy dokument umístěn na serverech příslušné organizace, pak jej můžeme v drtivé většině považovat za důvěryhodný. Riziko nedostatečné důvěryhodnosti vyhledaného zdroje či dokumentu můžeme snížit vyhledáváním následujících prvků63. Chyby – faktografické chyby, typografické chyby, nedbalá úprava Zastaralé informace – webové stránky by měly být naplněny aktuálním obsahem, dokumenty a informace by měly být opatřovány datem, verzí či jiným označením identifikujícím jejich aktuálnost. Názory vydávané za fakta – mnoho online dostupných informací jsou názory nebo recenze produktů apod. Tendenční publikování a střet zájmů, nezávislost – zde je důležité sledovat charakter a vztah vyhledané informace a jejího umístění, např. porovnání zázračné účinnosti léčiva firmy Paxxter ve srovnání s konkurencí umístěné na serveru firmy Paxxter nemusí nést známky důvěryhodnosti (shoda či podoba jmen je čistě náhodná). Roli zde také může sehrát komerční zájem třetí strany (reklama, poškození konkurence, sponzoring). Klamání – jak již bylo zmíněno ve vztahu ke snadné dosažitelnosti a možnosti publikování na WWW, hledající uživatel v Internetu si musí zachovávat zdravou míru
62
SKLENÁK, V. a kol. Data, informace, znalosti a Internet, s. 214-228.
63
Tamtéž, s. 224
- 43 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
obezřetnosti a skepticismu.
3.5 Hodnocení výsledků vyhledávání problematika hodnocení výsledků vyhledávání. Zde sledujeme následující čtyři parametry64.
relevance – zkoumáme, do jaké míry odpovídají výsledky vyhledávání informačnímu požadavku. O formální relevanci hovoříme, pokud zjistíme, že výsledky hledání neodpovídají položenému dotazu, přestože je dotaz správně formulován i zadán. Obsahová relevance je stav, kdy výsledky vyhledávání odpovídají zadanému dotazu. pertinence – obsahová shoda se subjektivní informační potřebou uživatele, úplnost – určuje, jak velká část nalezených dokumentů je relevantních, přesnost – sledujeme, jak velká část relevantních dokumentů byla vyhledána.
Vztahy mezi soubory vyhledaných dokumentů ukazuje následující obrázek.
Relevance (dle Papík65)
Obrázek 3.2
Reálný vztah mezi úplností a přesností je pak zřetelně vidět na dalším grafu.
64
PAPÍK, R. Vyhledávání informací I. Umění či věda?, s.18 – 25.
65
Tamtéž.
- 44 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Úplnost (dle Kowalski In Papík66)
Obrázek 3.3
Vyhledávání na www je možné nazírat ještě dle umístění informačního zdroje:
Informační zdroje s přímou dostupností – mají většinou veřejný charakter, s bezplatným přístupem Informační zdroje přístupné zprostředkovaně – internet pracuje jako metoda přístupu. Zde se jedná o profesionální a komerční databázová centra (Dialog, DataStar, STN International ad.)
Chcete-li vyhledávat pouze v českém Internetu, můžete se celkem slušně spolehnout na některé české fulltexty. To české znamená, že jsou provozovány na doméně „.cz“ a že se soustřeďují na prohledávání webů a dalších adres, které jsou provozovány v doméně „.cz“.67 Kvalitní české vyhledávače:
Jyxo68 Morfeo69
Při vyhledávání v česky psaných materiálech postačí následující postup. 1) Vyzkoušet Jyxo. Tato stránka nabíhá nejrychleji a nejrychleji zobrazuje výsledky, uvádí se, že Jyxo je nejkvalitnější český vyhledávač. 2) Potřebujete-li další výsledky, zkuste dále hledat na www.morfeo.cz 3) Pokud však hledáte vyčerpávající informace, zadejte dotaz do google, bing nebo yahoo. Problematika úspěšného vyhledávání fulltextem v celosvětovém internetu je
66
PAPÍK, R. Vyhledávání informací I. Umění či věda?, s. 18-25.
67
HLAVENKA, J. Mistrovství ve vyhledávání na Internetu, s. 21 - 22..
68
Jyxo [on line]. [cit. 2009-12-15]. Dostupný z WWW: <www.jyxo.cz>.
69
Morfeo [on line]. [cit. 2009-12-15]. Dostupný z WWW: <www.morfeo.cz>.
- 45 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
rozsáhlá a obtížná. Jde jednak o to kde hledat a také jak hledat. Tam, kde vám český vyhledávač poskytne deset výsledků, jich „zahraniční“ poskytne dvacet tisíc.
3.6 Internetový vyhledávač Google Google – je americký vyhledávač, zřejmě s největší databází a i v mnoha dalších ohledech světová jednička. Prohledává cca 3,3 mld. webových stránek. Důležitější však je, že vyniká výbornou schopností relevance (správné výsledky zobrazuje jako první), „hodnota“ stránky je postavena na tom, kolik jiných stránek na ni odkazuje. Google je založen na unikátním chráněném systému ohodnocování obsahu stránek PageRank. Tento systém je obdobou systémů, které jsou vyvíjeny a používány citačními rejstříky. Pokud máte hlubší zájem seznámit se s algoritmy, s nimiž vyhledávače pracují, doporučujeme např. diplomovou práci Jana Provazníka z Masarykovy Univerzity70. Odkaz je tedy něco jako volební hlas. Když zadáte vyhledat v Google „výzkum“, zobrazí se nahoru ty stránky, které dostaly nejvíce „hlasů“. Další nemalou výhodou je, že prohledává i jiné typy dokumentů než jsou webové stránky (v HTML). Prohledává formáty čistě textové (.txt), dokumenty v Acrobat Readeru (.pdf), excelovské tabulky (.xls), dokumenty ve Wordu (.doc, .rtf), v PowerPointu (.ppt) a mnohé další. O kvalitách systému a oblíbenosti google.com hovoří i jeho ekonomické výsledky. Společnost Google se totiž dnes již nezaměřuje pouze na poskytování vyhledávacích služeb, ale nabízí rozličné internetové služby a nástroje. Svou nabídku navíc neustále rozšiřuje a stává se tak společností udávající trendy v oblasti webových vyhledávačů. Mezi využívané služby patří překladač Google Translator, překládající do mnoha světových jazyků, Google Docs (o tomto modulu se více zmíníme v dalších kapitolách) a další. Možná se ptáte jak to, že se tedy na trhu mohou udržet i ostatní vyhledávače? Na tuto otázku nastíníme odpověď v následující kapitole. Uveďme nyní pár konkrétních čísel o společnosti Google: Celkové roční tržby Googlu v roce 2008 činily 21,6 miliardy USD. Tím se Google dostal na 9. místo mezi technologickými firmami. Zisk firmy činil 4,23 miliardy USD, čímž mu patří 8. příčka. Zisk přepočítaný na jednoho zaměstnance vychází na 209 624 USD. Touto hodnotou je absolutní jedničkou71. K samotnému vyhledávání se používají různé typy vyhledávacích služeb. Po spuštění internetového prohlížeče (Internet Explorer, Firefox, Opera ad.) stačí zadat URL vyhledávače např. již zmiňovaný www.google.com a dojde k načtení úvodní stránky. Pak už jen do pole určeného k zadávání hledaného výrazu vepíšeme
70 71
PROVAZNÍK, J. Inteligentní Webcrawler. Deset překvapivých čísel o internetu [on line]. 2009 [cit. 2009-12-15]. Dostupný z WWW: <www.chip.cz/clanky/trendy/2009/12/deset-prekvapivych-cisel-o-internetu>.
- 46 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
pojmy charakterizující oblast našeho zájmu. Pro příklad nechoďme daleko a podívejme se, jak bude vypadat výsledek vyhledávání spojení klíčových slov internetové vyhledávače.
Výpis hitů v prostředí Google
Obrázek 3.4
Jak vidno, dostali jsme 879 000 výsledků – odkazů, které byly vyhledávačem nalezeny. Množství nalezených odkazů je vskutku ohromné a ani omezení vyhledávání pouze na české stránky počet vyhledaných odkazů o mnoho nesníží (zhruba o 10 000 záznamů). Uklidnit nás sice může, že velká část vyhledaných odkazů je pro náš účel irelevantních, nicméně těžko zjistíme, které by to mohly být. Nezbývá nám tedy nic jiného než původní velmi obecný dotaz blíže specifikovat. Vycházejme z předpokladu, že nás zajímají pouze kvalitní internetové vyhledávače. Logickou volbou by se proto mohlo zdát rozšíření původního dotazu na nejlepší internetové vyhledávače a dalo by se předpokládat, že počet výsledků razantně klesne. Není tomu však tak. Počet záznamů vzroste přes milion… Podotýkám, že dosud nesledujeme počet relevantních výsledků hledání, nýbrž počet vyhledaných odkazů. Celý problém spočívá v tom, že Google vyhledává všechna slova v takto formulovaném dotazu ve všech dokumentech nezávisle na sobě (vyhledá tedy i dokumenty obsahující pouze jedno z hledaných slov). Pokud nám tedy jde o vyhledání celého slovního spojení, můžeme dotaz upravit tak, že všechna tři slova uzavřeme do uvozovek. Vyhledávač tak bude vyhledávat pouze přesné slovní spojení „nejlepší internetové vyhledávače“. Po provedení takto zadaného dotazu dostáváme již lépe vypadající výsledek – 610 záznamů. To ale stále ještě nehovoříme o použitelnosti vyhledaných odkazů. Existují dva způsoby72, jakými vyhledávače dávají správnou odpověď na vyhledávací dotaz. První méně používaný, je vyhledávání založené na obsahu (concept based searching), druhý, častější, je použití klíčových slov (keyword
72
HLAVENKA, J. Mistrovství ve vyhledávání na Internetu, s. 31.
- 47 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
searching) – to jsme použili i my v našem příkladě. Obsahové hledání má pochopit co máme svým dotazem na mysli, nikoli co přesně hledáme. Koncept klíčových slov pak pracuje odlišně. Vyhledávač prochází obvykle celý dokument, každou webovou stránku až do konce. Do své databáze ukládá přesné kopie slov, která v něm našel – nikoliv všechna slova, ale jen slova klíčová. Ta mohou napovědět „o čem dokument je“ a pomoci tak při vyhledávání. Vynechají se tak slova jako jsou předložky, spojky, případně další velice obecná slova, jako „velký“ apod. Vyhledávač používající klíčová slova se nesnaží příliš pochopit, co webová stránka znamená (tj. její obsah, smysl) a totéž platí i o našem dotazu. Koncept klíčových slov pracuje s tím, co napíšeme a s tím, co je v dokumentu. Při vyhledávání pomocí klíčových slov, které je dnes nejrozšířenější, je tedy nutné zadávat klíčová slova co nejkonkrétněji. Další důležitou zásadou zkvalitnění výsledků hledání je zadání určujícího slova na první pozici. Určujícím slovem je míněn obecný objekt, slova v dalším pořadí by měla blíže objekt vymezovat. Např. hledáme-li ekonomické publikace je vhodnější zadat: publikace ekonomie. Relevantní výsledky na prvních místech se sice v mnohém lišit nebudou, na dalších stránkách výpisu však již může dojít k značným rozdílům.
3.7 Další typy Google ignoruje běžná slova jako např. kde, a, jak a další číslice a písmena, která zpomalují vyhledávání a nijak nezlepšují výsledky. Pokud je takové běžné slovo pro váš výsledek důležité, můžete určit, aby jej vzal vyhledávač na vědomí. Stačí před takové slovo napsat znak „+“. Někdy je při pokládání otázky nejlepší nechat Google, aby doplnil chybějící údaje. Do vyhledávacího pole Google stačí přidat znak hvězdičky (*) do věty či otázky, která má být doplněna. (více o vyhledávání v dalších kapitolách) Do vyhledávače nezadávejte v jednom hledání více synonym. Některé vyhledávače mohou zahrnout do výsledku pouze dokumenty, kde budou obsažena všechna synonyma z dotazu.
SHRNUTÍ KAPITOLY Vyhledávání informačních zdrojů je prvním krokem při vytváření rešerše. Rešerší se rozumí průzkum zkoumané oblasti, vyhledání a vytvoření souboru dostupných dokumentů. Rešerše mají povahu retrospektivní nebo průběžnou. Při vyhledávání samotném se pracuje s pojmy informační požadavek a informační potřeba. Informační požadavek se vyjádří pomocí dotazovacího jazyka, výsledkem je dotaz – query. Vyhledávání dokumentů je v podstatě porovnávání popisů dokumentů s formulovaným dotazem. Popis dokumentu má většinou dvě části. Identifikace – obsahuje formální údaje (autor, nakladatel…) a charakteristika obsahu. Popis dokumentu (informačního pramene) se nazývá také sekundárním - 48 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
informačním pramenem. Indexování dokumentu je v podstatě totéž co charakteristika obsahu a uplatňuje se např. při vyhledávání pomocí metadat (stanovování klíčů a klíčových slov). Pro obrovské množství informačních zdrojů se indexování dokumentů provádí „strojově“. Pro samotné vyhledávání (při konstrukci dotazu) se využívají tzv. operátory. Nejčastěji to jsou booleovské operátory a poziční či proximitní. Při hodnocení výsledků vyhledávání sledujeme následující parametry: Relevance – odpovídají výsledky informačnímu požadavku? Pertinence – existuje shoda obsahu s informační potřebou? Úplnost – jak velká část vyhledaných dokumentů je relevantních? Přesnost – jak velká část relevantních dokumentů byla vyhledána? Na základě toho jakým způsobem je dokument popsán je možno rozlišit i formy práce vyhledávacích strojů určených pro vyhledávání na Internetu. Méně používaný způsob je založený na vyhledávání v obsahu (concept based searching) a druhý, častější, využívá klíčových slov (keyword searching). Největším, nejpoužívanějším a nejznámějším světovým internetovým vyhledávačem je bezesporu Google. Jedná se o komplexní vyhledávací (nejen) službu spojenou např. i s webovými kancelářskými aplikacemi. Pole působnosti tohoto systému je opravdu velmi široké.
ÚKOLY 1.
Projděte si webové stránky z literatury ke kapitole a z poznámek pod čarou. V případě, že je odkaz neplatný, nebo nevrací příslušný dokument, se pokuste zdroj vyhledat buď přímo na daném serveru, nebo pomocí vyhledávače.
LITERATURA KE KAPITOLE Základní literatura: [1]
HLAVENKA, J. Mistrovství ve vyhledávání na internetu. 2. aktualiz. vyd. Brno: Computer Press, 2004. ISBN 80-722-6759-0.
[2]
PAPÍK, R. Vyhledávání informací I. Umění či věda? Národní knihovna: knihovnická revue [online]. 2001, roč. 12, č. 1 [cit. 2009-11-18], s. 18-25. Dostupný z WWW: . ISSN 12140678.
[3]
PROVAZNÍK, J. Inteligentní Webcrawler. Diplomová práce. Brno:
- 49 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Masarykova Univerzita, Fakulta Informatiky, 2005. [4]
SKLENÁK, V. a kol. Data, informace, znalosti a Internet. 1. vydání. Praha: C. H. Beck, 2001. str. 507. ISBN 80-7179-409-0.
[5]
Deset překvapivých čísel o internetu [on line]. 2009 [cit. 2009-12-15]. Dostupný z WWW: <www.chip.cz/clanky/trendy/2009/12/deset-prekvapivychcisel-o-internetu>.
[6]
Morfeo [on line]. [cit. 2009-12-15]. Dostupný z WWW: <www.morfeo.cz>.
[7]
Jyxo [on line]. [cit. 2009-12-15]. Dostupný z WWW: <www.jyxo.cz>.
- 50 -
Modul: Exaktní metody řešení projektů VaV
4 Pokročilé v Internetu
způsoby
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
vyhledávání
informací
CÍL Po prostudování kapitoly budete schopni:
vytvořit dotaz pomocí techniky vnořování booleovských operátorů, rozlišit mezi sufixovým, prefixovým a infixovým rozšířením a pomocí této techniky dotaz vytvořit, rozlišit mezi běžným vyhledávačem a metavyhledávačem, vyjmenovat nejznámější metavyhledávače a některé jejich možnosti a funkce.
KLÍČOVÁ SLOVA Tezaurus, operátory, vnořování operátorů, vyhledávání fráze, vyhledávání dle formátu, prefixové rozšíření, sufixové rozšíření, infixové rozšíření, metavyhledávače, kontextové mapy, shlukování, povrchový web, hluboký web.
4.1 Vyhodnocování výsledků Pokud vyhledávač vypíše příliš mnoho výsledků v řádu tisíců a více, zadejte dotaz znovu a konkretizujte jej73. Pokud je výsledků méně než by se dalo očekávat, nebo nejsou žádné, je nutné provést kontrolu překlepů. Některé české vyhledávače (např. jmenovaný Jyxo) nabízí automatickou kontrolu překlepů, kdy nabízí nejpravděpodobnější podobu hledaného spojení. Díky lingvistickému modulu, který podporuje ohýbání slov, vyhledává i slova časovaná či skloňovaná. Google pro případ překlepu nabízí alternativní výsledky. Pokud se na prvních místech výpisu zobrazují irelevantní výsledky, je nutné zadat dotaz znovu a jinak zformulovaný. Ve vyhledávání synonym bývá dobrým pomocníkem tzv. tezaurus. Tento nástroj se vyskytuje ve většině textových editorů. K vyvolání tezauru v programu MS Word slouží klávesová kombinace SHIFT+F7. Když výsledky vypadají slibně, je užitečné je procházet dál, dokud se nezačnou výsledky odchylovat od předpokladu. Dobré je vždy projít či zběžně prohlédnout alespoň prvních pět stránek záznamů.
73
HLAVENKA, J. Mistrovství ve vyhledávání na Internetu, s. 34.
- 51 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Důležitým hlediskem pro úspěšné vyhledání požadovaného dokumentu je samozřejmě i místo, kde vyhledáváme. Jestliže např. hledáme knihovní informaci, je dobré hledat ji přímo v knihovním vyhledávači. Někdy také bývá problematické vyhledat klíčová slova na již vyhledané stránce. Abychom nemuseli pročítat celý obsah webové stránky, stačí stisknout kombinaci kláves CTRL+F (tato klávesová zkratka funguje i v prostředí textového editoru Word…). Dojde k zobrazení vyhledávací lišty (v závislosti na použitém typu internetového prohlížeče a verzi buďto bezprostředně nad textovou částí webu nebo pod ní), která je schopná slovo vyhledat a v textu zvýraznit.
4.2 Pokročilé techniky vyhledávání Již jsme se zmiňovali o booleovských operátorech v souvislosti s vyhledáváním v databázích. Také jsme si již všimli, že vyhledávač Google vyhledává v režimu „AND“. Znamená to, že při zadání dvou a více klíčových slov vyhledává stránky obsahující nejméně jedno z nich. Ne všechny vyhledávače takto fungují a je třeba tuto skutečnost předem ověřit. Zda vyhledávač umí pracovat s kompletní booleovskou logikou, poznáte snadno – stačí vložit nějaký komplikovanější dotaz a zjistit, co to s ním udělá. Použití operátoru „OR“:
OR
Pokud chceme vyhledat stránky obsahující jeden ze dvou a více zadaných výrazů (kdy nepožadujeme, aby se vyskytovaly na jedné stránce). Je nutné zadávat všechny znaky operátoru velkými písmeny. Použití operátoru „NOT“:
NOT
V případech, kdy potřebujeme vyhledávání zúžit resp. vyloučit některé výrazy, které by mohly vést k mnoha irelevantním výsledkům, je vhodné využití operátoru „NOT“. Ten umožní vyhledávání výrazů, které se v dotazu nacházejí před ním; stránky obsahující výrazy, které se nacházejí za ním, budou z výsledků vyhledávání vyloučeny. Ve vyhledávači v Google je možné operátor „NOT“ nahradit znaménkem minus („-“), které se umístí bezprostředně před slovem, které má být ve vyhledávání vyloučeno. Použití operátoru „AND“:
AND
Jak jsme již uvedli, pokud mezi vyhledávaná slova nezadáme žádný operátor, dojde (alespoň ve vyhledávači Google) k automatickému použití operátoru „AND“. Tento princip se však netýká všech výrazů, nevztahuje se např. na spojky, předložky apod. Mohou však nastat případy, kdy jsou tyto výrazy nutné pro relevanci výsledků vyhledávání. Pak je třeba použití operátoru „AND“ vynutit. To je možné pomocí znaménka plus „+“. Např.: laurin +a klement. Vnořování booleovských operátorů Tak jako v matematice nám u složitějších výrazů pomohou závorky. Dotaz se - 52 -
Booleovský operátor
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
začíná zpracovávat od nejvnitřnějších závorek směrem ven. Např.: (řetězec1 OR řetězec2) AND NOT (řetězec3 OR řetězec4) Vyhledá stránky s výskytem řetězec1 nebo řetězec2, ale vyloučí všechny stránky s výskytem řetězec3 nebo řetězec4. Kdyby nebyly přítomny závorky, vyhodnocování by probíhalo zleva doprava a výsledky by se samozřejmě také lišily. Operátory pro blízkost a příbuznost Označovány bývají jako proximitní operátory. Nejedná se vlastně ani o booleovské operátory, ale někdy se používají. NEAR – říkáte vyhledávači, aby našel v dokumentu, ve kterých se slova nalézají blízko sebe. ADJ – určuje, že slova musí těsně přiléhat (adjecent). Zkuste zadat do vyhledávače: vaše příjmení ADJ vaše křestní jméno. Výsledkem by měl být výpis stránek, kde se vyskytuje blízko sebe Vaše příjmení a jméno, ale i Vaše jméno a příjmení.
4.2.1
Vyhledání celé fráze
Přestože jsme si tuto techniku ukázali v předchozí kapitole, její použití si zasluhuje větší pozornost. Technika generuje relevantní výsledky, neboť vyhledává slova ve stejném pořadí, v němž jsou v syntaxi dotazu. Zkuste zadat do vyhledávače: „vaše jméno vaše příjmení“ a výsledky porovnejte s předchozími. Zatímco předchozí techniky mohou vracet minimum relevantních výsledků, touto technikou byste se měli dostat k velmi přesným výsledkům. Pokud tedy víte, že určitá slova se ve stránkách, které vyhledáváte, musí nalézat v přesném pořadí, zadejte je jako frázi. V syntaxi fráze je jedno zda použijete velká či malá písmena, tento fakt však může být i nevýhodný, neboť vyhledávač nerozlišuje mezi vlastními jmény a podstatnými jmény či přídavnými jmény. Vyhledávač ignoruje některé znaky vložené mezi hledaná slova. Jedná se o: tečky, dvojtečky, středník, čárky, pomlčky, závorky, < >, [ ], ad. V případech, kdy použijete vyhledávání pomocí frází a přesto tušíte, že výsledky vyhledávání se budou pohybovat v tisících, můžete samozřejmě použít operátory další, např. NOT či „-“. Vložením mezi dvě hledané fráze můžete obdržet velmi přesné výsledky.
4.2.2
Vyhledávání v určitých typech souborů
Zajímavou a užitečnou možností je prohledávání určitých typů souborů. Můžete vyhledávat pouze mezi soubory typu .PDF, .PS, tabulkami ve formátu . XLS, - 53 -
Operátory pro blízkost a příbuznost
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
další textové formáty jako .DOC, .RTF, prezentace .PPT a mnohé další. Google sice nabízí převod z těchto formátů do HTML, ale jistější je ponechávat soubory ve formátech, v nichž byly vytvořeny a uloženy na www, uložit je na harddisk a otevřít je příslušným programem. Užití si opět vyzkoušejte na své vlastní osobě. Chcete-li zjistit jaké dokumenty ve formátu např. .PDF, vztahující se k vaší osobě, jsou na Internetu dostupné zadejte do vyhledávacího řádku Google:
„vaše jméno“ filetype:pdf o (možno použít i zjednodušenou variantu „vaše jméno“ :pdf)
Chcete-li hledání rozšířit i na další typy dokumentů stačí zadat:
„vaše jméno“ filetype:pdf OR filetype:doc
Příkaz se dá kombinovat i s místním omezením vyhledáváním:
„vaše jméno“ filetype:pdf
Hledáme-li vědecké publikace na Internetu, měli bychom se zaměřit převážně na formáty .PDF a .PS, neboť vědecké týmy a výzkumné týmy publikují v těchto formátech mnohem častěji než v HTML. Je to způsobeno tím, že uvedené formáty umožňují snadný přenos dokumentů s trvalým formátováním textů, obrázků a vynikají bezproblémovým tiskem.
4.2.3
Operátory v textovém režimu
Nyní se zaměříme na další operátory – operátory zadávané v textovém režimu. Používají se v případech, kdy ani pokročilé techniky vyhledávání nedokázaly vyfiltrovat z tisíců záznamů opravdu nutné a přesné. Operátory se zadávají do textového políčka a mají velmi snadno zapamatovatelnou syntaxi. operátor: hodnota Operátor: je název speciálního vyhledávacího příkazu Hodnota je pak vlastní hodnota operátoru. Příklady:
Příklady
link: URL – zjistí na kterých internetových stránkách se nalézá odkaz (link) na hledanou adresu. Jako výsledek se tak mohou zobrazit i ty stránky, které mají společné pouze to, že je na nich umístěn odkaz na určitou stránku. site: URL – výsledky vyhledávání se omezují pouze na danou adresu a adresy v ní vnořené. Tento operátor má význam v případě, že vyhledáváme pouze například v českém internetu, v určité doméně, nebo je seznam výsledků vyhledávání příliš dlouhý (např. v důsledku toho, že český výraz v dotazu má význam i v jiných jazycích). Pokud se tedy chcete zaměřit pouze třeba na prohledávání slovenských stránek zadáte za hledaný výraz site:sk. Allintitle:hledaný_výraz nebo intitle:hledaný_výraz omezují výskyt (modifikují) hledaného výrazu na titulek webové stránky (bílý nápis na nejvrchnější - 54 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
liště internetového vyhledávače). Rozdíl mezi těmito příkazy nám napovídá již český překlad. Allintitle vyhledává v titulku všechna zadaná slova, intitle pak aspoň jedno z nich. Podobným způsobem pracují další operátory – Allinurl: hledaný_výraz nebo inurl:hledaný_výraz prohledávají adresy webových stránek (URL).
oba
modifikátory
4.3 Zvyšování přesnosti a úplnosti vyhledávání Dosud jsme se zabývali vyhledáváním přesných řetězců či frází. Pracovali jsme pouze se slovy v určitém gramatickém tvaru. V praxi se však dané slovo může v dokumentu vyskytovat v jiném gramatickém tvaru a tudíž by nemuselo být dotazem formulovaným již uvedenými postupy vyhledáno. Jedna z možností jak tento problém vyřešit je opakované použití operátoru OR spolu se zadáním klíčového slova v různých gramatických tvarech. Tento způsob je poněkud těžkopádný, většina vyhledávacích strojů umožňuje vyhledávání značně zjednodušit pomocí tzv. pravostranného rozšiřování slov74 (suffix), jehož princip spočívá v nahrazení konce výrazu (např. přípony) speciálním znakem. Většinou se jedná o znak „* “. Dotaz zadaný pomocí suffix: ekonomic*, vyhledává výrazy např. ekonomické, ekonomická, ekonomickou, ekonomických, ekonomickým ad. Mimo použití pravostranného rozšíření slova se používá i levostranné rozšíření slova (prefix). Jeho princip je analogický s předchozím, většinou však výsledky příliš nezpřesňuje. Jistě si dokážete sami vytvořit představu, jak značné množství různých výrazů bude vyhledáno zadáním dotazu: *ická. Mnohem častěji se proto využívá tzv. infixové rozšíření, tedy rozšíření, kdy speciálním znakem nahrazujeme znak či řetězec uprostřed slova. Někdy je také možné určit pozici, na níž může být libovolný znak. Pro tyto účely je často vyhrazen speciální znak „? “. Dotaz zadaný m?kroekonomie vede k vyhledání dokumentů obsahující výrazy makroekonomie a mikroekonomie.
4.4 Použití metavyhledávačů V závěru této kapitoly si představíme spíše zřídka využívanou metodu vyhledávání informací a dokumentů. Jedná se o použití tzv. metavyhledávačů (metasearcher). Jedná se o převážně komerční vyhledávací systémy pracující na základě rozesílání formulovaného dotazu na více „adres“, tedy o simultánní přístup k více vyhledávačům. Obdržené odpovědi jsou tedy výsledkem vyhledávání různého množství vyhledávacích strojů 75. Sofistikovanější systémy jsou schopné výsledky utřídit, seřadit nebo odstranit z výsledků duplicity. Výhody těchto systémů jsou zřejmé. Jednak uživatel nemusí opakovat vyhledávání pomocí různých
74
SKLENÁK, V. a kol. Data, informace, znalosti a Internet, s. 44 - 46.
75
Tamtéž.
- 55 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
vyhledávačů ručně, navíc má přístup i k vyhledávačům, o nichž možná nemá ani tušení. Mezi tyto systémy se řadí např. MetaCrawler, Ask Jeeves (www.ask.com), Ahoy! (ten se zaměřuje na vyhledávání osobních stránek). Jedním z nejstarších metavyhledávačů je mamma.com, umožňující zadávat dotazy formulované pomocí booleovských operátorů (AND, OR, NOT). Jiný přístup k vyhledávání nabízí systém dogpile.com. Nabízí výpisy výsledků v pořadí, v jakém jsou doručovány jednotlivými vyhledávači. Prochází také různé typy databází – katalogy, fulltexty, obrazové databáze, zvukové a mp3 databáze a zvládá i booleovské operátory. Nevýhodou metavyhledávačů je, že bývají velmi často a úspěšně blokovány76. Internetový metavyhledávač je v podstatě server s unikátní adresou, v důsledku čehož lze metavyhledávač snadno identifikovat a jakoukoliv příchozí komunikaci z této unikátní adresy snadno blokovat. Řešením se tudíž nabízí možnost přistupovat k vyhledávacím strojům prostřednictvím klienta-metavyhledávače. Tedy programu nainstalovaném přímo v našem počítači. Rozeslaný dotaz se pak zdá být zaslán přímo uživatelem. Tyto programy však, jak jsme již zmínili, bývají často placené. Dobrým začátkem by pro naše potřeby mohl být např. systém Copernic. Představme si podrobněji některé online metavyhledávače. Jedním ze známějších metavyhledávačů je MetaCrawler77, o němž již byla řeč v předchozích odstavcích. Výsledky vyhledávání jsou kombinací placených odkazů a nekomerčních výsledků. Pořadí zobrazených výsledků závisí na povaze hledaných informací. Pokud se zajímáme o komerční informace (např. ceny poskytovatelů připojení k internetu) zobrazí se placené odkazy na prvních místech. Pokud naopak hledáme informace odborného charakteru (např. technologie připojení k internetu) budou jako první zobrazovány výsledky ve formě odborných článků a dalších zdrojů nekomerčního charakteru. Velmi užitečnou službu nabízí další z metavyhledávačů – KartOO78 . Umožňuje pracovat ve dvou režimech. V klasickém výpisu hitů (viz obr. 4.1) na zadaný dotaz Moravská vysoká škola.
76 77
78
HLAVENKA, J. Mistrovství ve vyhledávání na Internetu, s. 69. About MetaCrawler [on line]. 2010 [cit. 2010-01-05]. Dostupný <www.metacrawler.com/metacrawler/ws/about/_iceUrlFlag=11?_IceUrl=true>. KartOO [on line]. [cit. 2010-01-05]. Dostupný z WWW: <www.kartoo.com>.
- 56 -
z WWW:
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Výpis hitů v KartOO
Obrázek 4.1
Nebo dokáže výpis zobrazit v podobě jakési kontextové mapy (grafu, kde uzly představují jednotlivé hity) se zobrazenými vazbami mezi dokumenty umístěné na nejrelevantnějších serverech (obr. 4.2).
Mapa odkazů v KartOO
Obrázek 4.2
Při najetí kurzoru myši nad zobrazený dokument je uvedena jeho bližší charakteristika. Nad jednotlivými vazbami mezi dokumenty jsou uvedeny výrazy upřesňující vyhledávání, a které jsou automaticky doplnitelné do vyhledávacího pole (tzv. topics, obr. 4.3). Srozumitelné grafické rozhraní této služby umožňuje v položce - 57 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
OPTIONS snadné nastavení filtrů a tím zpřesňovat vyhledávání a personalizuje nastavení vzhledu dle osobních požadavků a potřeb uživatele. Je např. možný výběr z několika druhů zobrazení kontextové mapy vyhledaných výsledků. Pro zobrazení grafického rozhraní může být vyžadována instalace Flash modulu.
Přizpůsobení aplikace KartOO přes OPTIONS
Dogpile79 je jednou z nejvyužívanějších metavyhledávacích služeb na světě. Dotazy rozesílá a využívá možností vyhledávacích systémů Google, Yahoo!, Bing (dříve MSN Search nebo Live) a Ask. Studie 80 zveřejněná v roce 2007 a provedená výzkumníky z Dogpile.com ve spolupráci s vědci z Quennsland University of Technology a Pennsylvania State University uvádí, že používané vyhledávací stroje (resp. výsledky vyhledávání) jsou, přes všeobecně rozšířený názor, natolik rozdílné, že použitím uvedených čtyř vyhledávacích služeb dostávají koncoví uživatelé relevantní, nicméně odlišné výsledky svých dotazů. Ve zprávě se také uvádí, že pouhých 11,7 % výsledků bylo sdílených (jeden vyhledávač využívá výsledky jiného vyhledávače) naopak velmi vysoké procento (88 %) výsledků uvedených na prvních stránkách výpisů bylo pro jednotlivé vyhledávače unikátní – rozdílné výsledky mezi jednotlivými vyhledávači. Ve zprávě se dále uvádí, že použitím pouze jednoho vyhledávače se koncový uživatel může připravit v průměru až o 70 % relevantních výsledků. Spojením těchto čtyř silných vyhledávačů pomocí tohoto metavyhledávače šetří uživatelé nejen svůj čas, ale dostávají se pohodlně ke komplexním a relevantním výsledkům zadaných dotazů, což je asi jeden z nejsilnějších argumentů pro využívání metavyhledávačů obecně.
79 80
Dogpile [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: <www.dogpile.com>. Different Engines, Different Results [on line]. 2007 [cit. 2010-01-05]. Dostupný z WWW: <www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf>.
- 58 -
Obrázek 4.3
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Vyhledávací platforma Vivísimo81 přistupuje k vyhledávacím službám opět poněkud odlišně oproti konkurenci. Jedná se o reprezentanta vyhledávačů, které výsledky vyhledávání seskupují do smysluplných kategorií shluků (clusterů). Kategorie jsou dynamicky vytvářeny pro každý zadaný dotaz zvlášť. Představitelem tohoto řešení je metavyhledávač Clusty82 (součást Vivísimo).
Shluky na téma MVŠO v Clusty.com
Obrázek 4.4
4.5 Prohledávání „hlubokého webu“ Dosud jsme se zabývali technikami prohledávání tzv. povrchového webu (surface Web), tedy běžnému uživateli, pro kterého pojem „hluboký web“ zní spíše jako název sci-fi filmu, dostupného elektronického prostoru. Hledání v povrchovém webu se přirovnává k rybolovu tažením sítě po hladině oceánu. Běžné vyhledávací stroje (Google a spol.) však nejsou schopné prozkoumávat hluboký web (deep – invisible – hidden – dark Web). Hluboký web tvoří specializované databáze, stránky s omezeným přístupem k obsahu, stránky, na které nevedou žádné odkazy z jiných stránek, stránky s nutnou registrací apod. Pro srovnání, hluboký web je podle dostupných údajů 400 až 550krát rozlehlejší než web povrchový83.
81
Vivisimo [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: <www.vivisimo.com>.
82
Clusty [on line]. 2009 [cit. 2009-12-15]. Dostupný z WWW: .
83
Deep Web FAQ [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: .
- 59 -
Modul: Exaktní metody řešení projektů VaV
4.5.1
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Vyhledávací nástroje pro hluboký web Scirus84:
Scirus
Dle dostupných informací na webu společnosti vyhledávač indexuje 400 milionů vědecky zaměřených stránek. Zprostředkovává přístup k patentovým informacím, univerzitním webovým stránkám, recenzovaným článkům atd. Umožňuje základní i pokročilé vyhledávání, filtrování výsledků podle typu zdroje (časopis, preferovaný web, jiné weby), typu dokumentu (pdf, html apod.), relevance (tu vypočítává podle frekvence vyhledávaného termínu a počtu odkazů na stránku), a podle data. Nabízí podobná klíčová slova k reformulaci dotazu. Systém byl vyvinut firmou Elsevier, v roce 2004 získal ocenění WebAward 2004. (Vítů, M. www.ikaros.cz/google-scholar-se-rozviji -ma-scirus-konkurenci).
Complete Planet85: Zprostředkovává vyhledávání ve více než 70000 databázích a specializovaných vyhledávacích strojích. Vyhledávání probíhá velice jednoduchým způsobem. Zadáte klíčová slova a poté zvolíte způsob, jakým budou vyhledány. K dispozici je vyhledávání buď všech zadaných slov, libovolného slova ze zadaných, klíčová slova tvořící frázi nebo booleovský dotaz. Vyhledávač tedy podporuje použití booleovských operátorů (AND, OR, AND NOT), operátorů „+“, „-“, „&“, dále pokročilé booleovské operátory (NEAR, BEFORE, AFTER), stemování – nahrazování symbolů ve vyhledávaném řetězci zástupnými znaky („*“) a další pokročilé možnosti.
Další možnosti:
Complete Planet
Další možnosti
Turbo 1086 Direct Search87
SHRNUTÍ KAPITOLY Kromě nám již známých technik použití booleovských, pozičních a proximitních operátorů při vyhledávání můžeme také s úspěchem aplikovat techniky vnořování booleovských operátorů pomocí závorek. Zpracování dotazu probíhá od vnitřních závorek směrem ven. Velmi efektivní se jeví být i vyhledávání celé fráze uzavřené do uvozovek, kdy dochází k vyhledání tímto způsobem zadaného řetězce v prohledávaných
84
Scirus [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: <www.scirus.com>.
85
CompletePlanet [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: .
86
T10 [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: .
87
Direct Search [on line]. [cit. 2010-01-05]. Dostupný z WWW: <www.freepint.com/gary/direct.htm>.
- 60 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
dokumentech. Další možností zpřesnění vyhledávání je omezení dotazu pouze na určitý druh digitálních objektů podle formátu (přípony souboru). Pro případy, že nevíme v jakém gramatickém tvaru se hledané slovo či řetězec v dokumentech vyskytuje, používáme tzv. suffixové, prefixové nebo infixové vyhledávání. Při tomto způsobu zadávání dotazů nahrazujeme určitou část slova zástupnými znaky, které povolují vyhledávači dosadit za zástupný znak libovolné znaky a tím umožnit vyhledání klíčového slova v různých gramatických tvarech. Metavyhledávače pracují na základě rozesílání formulovaného dotazu na více „adres“. Jde tedy o simultánní přístup k více vyhledávačům. Řadí se sem systémy MetaCrawler, Ask Jeeves, KartOO, Dogpile, Vivísimo, nebo Clusty. Některé tyto vyhledávače poskytují služby, které běžné vyhledávače zatím běžně neposkytují. Dokáží vytvářet kontextové mapy, jakési grafické vyjádření provázanosti vyhledaných výsledků a odkazů na Internetu, nebo vytvářejí obsahově podobné skupiny odkazů. Tomuto způsobu zobrazování výsledků se říká shlukování klastrování (cluster). Běžné vyhledávací stroje jsou schopné prohledávat pouze tzv. povrchový web. Existují však nástroje prohledávající i web hluboký (deep web). Hlubokým webem bývá označována sféra stránek s omezeným přístupem, specializovaných databázových systémů, stránek na něž nevedou žádné odkazy apod. Odhaduje se, že hluboký web může být i 500 krát obsáhlejší než povrchový web. Známým nástrojem pro hledání na hlubokém webu je Scirus nebo Complete Planet.
LITERATURA KE KAPITOLE Základní literatura: [1]
HLAVENKA, J. Mistrovství ve vyhledávání na Internetu. 2. vyd. Brno: Computer Press, 2004. ISBN 80-7226-759-0.
[2]
SKLENÁK, V. a kol. Data, informace, znalosti a Internet. 1. vyd. Praha: C. H. Beck, 2001. 507 s. ISBN 80-7179-409-0.
[3]
Deep Web FAQ [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: .
[4]
Scirus [on line]. <www.scirus.com>.
[5]
Vivisimo [on line]. 2010 <www.vivisimo.com>.
[6]
http://www.kartoo.com
[7]
Dogpile [on line]. <www.dogpile.com>.
2010
2010
2010-01-05].
Dostupný
z WWW:
[cit.
2010-01-05].
Dostupný
z WWW:
[cit.
2010-01-05].
Dostupný
z WWW:
[cit.
- 61 -
Modul: Exaktní metody řešení projektů VaV
[8]
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
About MetaCrawler [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: <www.metacrawler.com/metacrawler/ws/about/_iceUrlFlag=11?_IceUrl=true>
- 62 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Literatura Základní literatura: [1]
BARTOŠEK, M. Vyhledávání v Internetu a DUBLIN CORE. Brno: Zpravodaj ÚVT MU, 1999, roč. IX, č. 4, s. 1-4. ISSN 1212-0901
[2]
BOLDIŠ, P. Úvod do problematiky elektronických informačních zdrojů [on line]. 18. 4 2003. [cit. 2009-11-23]. Dostupné z WWW: .
[3]
BRATKOVÁ, E. Otevřený přístup, digitální knihovny a citační služby. Otevřený přístup, digitální knihovny a citační služby. In INFORUM 2006: 12. ročník konference o profesionálních informačních zdrojích, Vysoká škola ekonomická, Praha, 23.-25. května 2006 [online]. Praha: Albertina icome Praha, 2006 [cit. 2009-11-18]. Dostupný z WWW:<www.inforum.cz/inforum2006/pdf/Bratkova_Eva.pdf>.
[4]
HOŘÍNKOVÁ KOUŘILOVÁ, L., PAZDERSKÝ, M. ŠKYŘÍK, P. Vyhledávací nástroje na internetu I. [on line]. [cit. 2009-11-23]. Dostupné z WWW: .
[5]
SKLENÁK, V. a kol. Data, informace, znalosti a Internet. 1. vyd. Praha: C.H. Beck, 2001. 507 s. ISBN 80-7179-409-0.
[6]
Věda.cz [on line]. [cit. cit. 2010-01-06]. Dostupný z WWW: www.veda.cz.
[7]
ArXiv [on line]. [cit. 2010-01-10]. Dostupný z WWW: <arxiv.org>.
[8]
Kurz práce s informacemi [on line]. [cit. 2010-01-07]. Dostupný z WWW: .
[9]
Kde hledat informace I [on line]. [cit. 2010-01-08]. Dostupný .
z WWW.
[10]
Informační prameny [on line]. [cit. 2010-01-18]. .
z WWW:
[11]
BARTOŠEK, M. Česká digitální matematická knihovna. INFORUM 2008.
[12]
BRATKOVÁ, Eva. Otevřený přístup, digitální knihovny a citační služby. In INFORUM 2006: 12. ročník konference o profesionálních informačních zdrojích, Vysoká škola ekonomická, Praha, 23.-25. května 2006 [online]. Praha: Albertina icome Praha, 2006 [cit. 2009-11-18]. Dostupný z WWW:<www.inforum.cz/inforum2006/pdf/Bratkova_Eva.pdf>.
[13]
Co je impakt faktor a citační index? [on line]. 2008 [cit. 2010-04-11]. Dostupný z WWW: <www.vse.cz/obecne/impactfk.php3>.
[14]
DSpace VŠB – TUO [on line]. 2007 [cit. 2010-04-11]. Dostupný z WWW: .
[15]
Economists online [on line]. <www.economistsonline.org/home>.
[16]
Elektronické informační zdroje ve Studovně periodik [on line]. 2010 [cit. 29]. Dostupný z WWWW. <www.nkp.cz/pages/page.php3?page=peri_dtb.htm>.
[cit.
- 63 -
2010-04-05].
Dostupný
Dostupný
z WWW: 2010-03-
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
[17]
NEREUS - otevřený archiv pro obor ekonomie pro výzkumníky z Evropy (Jacques Hellemans). Ikaros [online]. 2006, roč. 10, č. 5/2 [cit. 2009-10-23]. Dostupný na World Wide Web: <www.ikaros.cz/node/3421>. ISSN 1212-5075.
[18]
Nereus [on line]. [cit. 2010-04-05]. Dostupný z WWW: <www.nereus4economics.info/>.
[19]
Portál o českých knihovnách <www.knihovny.cz>.
[20]
ŠEDINOVÁ, P., KŘIVÁNEK, P., ŠKYŘÍK, P. Elektronické informační zdroje II: Elektronické informační zdroje – využití pro život II: část II. [cit. 2009-11-23]. Dostupný z WWW: .
[21]
Vědecká knihovna v Olomouci [on line]. [cit. 2010-04-05]. Dostupný z WWW: .
[22]
WEB of Science a JCR [on line]. <www.veda.cz/article.do?articleId=8886>.
[23]
HLAVENKA, J. Mistrovství ve vyhledávání na internetu. 2. aktualiz. vyd. Brno: Computer Press, 2004. ISBN 80-722-6759-0.
[24]
PAPÍK, R. Vyhledávání informací I. Umění či věda? Národní knihovna: knihovnická revue [online]. 2001, roč. 12, č. 1 [cit. 2009-11-18], s. 18-25. Dostupný z WWW: . ISSN 1214-0678.
[25]
PROVAZNÍK, J. Inteligentní Webcrawler. Diplomová práce. Brno: Masarykova Univerzita, Fakulta Informatiky, 2005.
[26]
SKLENÁK, V. a kol. Data, informace, znalosti a Internet. 1. vydání. Praha: C. H. Beck, 2001. str. 507. ISBN 80-7179-409-0.
[27]
Deset překvapivých čísel o internetu [on line]. 2009 [cit. 2009-12-15]. Dostupný z WWW: <www.chip.cz/clanky/trendy/2009/12/deset-prekvapivych-cisel-o-internetu>.
[28]
Morfeo [on line]. [cit. 2009-12-15]. Dostupný z WWW: <www.morfeo.cz>.
[29]
Jyxo [on line]. [cit. 2009-12-15]. Dostupný z WWW: <www.jyxo.cz>.
[30]
HLAVENKA, J. Mistrovství ve vyhledávání na Internetu. 2. vyd. Brno: Computer Press, 2004. ISBN 80-7226-759-0.
[31]
SKLENÁK, V. a kol. Data, informace, znalosti a Internet. 1. vyd. Praha: C. H. Beck, 2001. 507 s. ISBN 80-7179-409-0.
[32]
Deep Web FAQ [on line]. 2010 [cit. 2010-01-05]. Dostupný .
[33]
Scirus [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: <www.scirus.com>.
[34]
Vivisimo [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: <www.vivisimo.com>.
[35]
http://www.kartoo.com
[36]
Dogpile [on line]. 2010 [cit. 2010-01-05]. Dostupný z WWW: <www.dogpile.com>.
[37]
About MetaCrawler [on line]. 2010 [cit. 2010-01-05]. Dostupný <www.metacrawler.com/metacrawler/ws/about/_iceUrlFlag=11?_IceUrl=true>.
[on line].
- 64 -
2010
2004
[cit.
[cit.
2010-04-05].
2010-04-11].
Dostupný
Dostupný
z WWW:
z WWW:
z WWW:
z WWW:
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Seznam obrázků Obrázek 2.1: Informační zdroje a vazby mezi nimi .................................................................................. 17 Obrázek 2.2: Elektronické informační zdroje přístupné přes NKP .......................................................... 24 Obrázek 2.3: Úvodní stránka časopisu pro pěstování matematiky ......................................................... 28 Obrázek 2.4: Stránka s nabídkou možností k vybranému článku ........................................................... 29 Obrázek 2.5: Úvodní stránka digitální knihovny VŠB .............................................................................. 29 Obrázek 2.6: Okno základního rozhraní .................................................................................................. 32 Obrázek 2.7: Výpis výsledků zadaného dotazu vybraným záznamem ................................................... 33 Obrázek 2.8: Detail záznamu (dostupný odkazem View Record viz obr. 2.7) ........................................ 33 Obrázek 2.9: Vytvořená citační mapa ...................................................................................................... 34 Obrázek 2.10: Okno pokročilého vyhledávání ......................................................................................... 34 Obrázek 2.11: Výpis výsledků vhledávání ............................................................................................... 35 Obrázek 2.12: Zpracování označených záznamů ................................................................................... 35 Obrázek 3.1: Vyhledávání dokumentů (podle V. Sklenáka a kol.) .......................................................... 40 Obrázek 3.2: Relevance (dle Papík) ........................................................................................................ 44 Obrázek 3.3: Úplnost (dle Kawasaki In Papík) ........................................................................................ 45 Obrázek 3.4: Výpis hitů v prostředí Google ............................................................................................. 47 Obrázek 4.1: Výpis hitů v KartOO ............................................................................................................ 57 Obrázek 4.2: Mapa odkazů v KartOO ...................................................................................................... 57 Obrázek 4.3: Přizpůsobení aplikace KartOO přes OPTIONS ................................................................. 58 Obrázek 4.4: Shluky na téma MVŠO v Clustry.com ................................................................................ 59
- 65 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Výpočetní technika a specializované programy pro podporu VaV činností I
Seznam tabulek Tabulka 1.1: Základní elementy a hodnoty .............................................................................................. 12
- 66 -