MASARYKOVA UNIVERZITA V BRNĚ FILOZOFICKÁ FAKULTA KABINET INFORMAČNÍCH STUDIÍ A KNIHOVNICTVÍ
Miroslav Buchta
Vymezení a struktura hlubokého webu Magisterská diplomová práce
Vedoucí práce: Mgr. Břetislav Šimral 2008
Prohlašuji, že jsem magisterskou diplomovou práci vypracoval samostatně s využitím uvedených pramenů a literatury.
…………………………………………….. Podpis autora práce
PODĚKOVÁNÍ Mgr. Břetislavovi Šimralovi za cenná doporučení během vzniku této práce.
Anotace Diplomová práce se zabývá částí webu, kterou neindexují vyhledávací nástroje – hlubokým webem. Popisuje a specifikuje jeho charakter a určující vlastnosti vůči povrchovému webu. Teorie zahrnuje vymezení webu, jeho rozsahu a struktury, popis vyhledávacích nástrojů a databází. Hlavní část - kapitola o neviditelném webu – pojednává o rozdělení hlubokého webu ve vztahu k hledání odborných informací. Teorie je dokazována na případových studiích vyhledávacích služeb a databází, na nichž jsou prezentovány jejich dílčí vlastnosti. Závěrečná část se věnuje „zviditelněním" a zpřístupněním informací v hlubokém webu a jeho budoucností. Summary The diploma thesis concentrates on the part of the web not indexed by searching engines - the deep web. It describes and specifies its nature and main characteristics in comparison with the surface web. The theoretical part contains the definition of the web, its scale and structure, as well as the description of searching engines and databases. The body of the thesis - the chapter about the invisible web - deals with the categorization of the deep web, which is based on the search for special information. The theory is being proved on the several case studies of searching services and databases, in which their partial features are presented. The final part engages in the "visualization", gradual disclosure of information in the deep web and its future.
Klíčová slova: hluboký web, neviditelný web, vyhledávací stroje, Google, metavyhledávací stroje, akademický neviditelný web Keywords: deep web, hidden web, invisible web, Google, search engines, metasearch engines, crawler, crawling, academic invisible web
1 Úvod .............................................................................................................................. 3 2 Vymezení a struktura webu ........................................................................................... 6 2-1 Internet vs. World Wide Web ................................................................................ 7 2-2 Vymezení webu - Teorie motýlku.......................................................................... 8 2-3 Důsledky teorie motýlku ........................................................................................ 9 2-4 Kolik je na webu informací.................................................................................. 11 2-5 Databáze ............................................................................................................... 13 2-5-1 Výhody používání databází........................................................................... 13 2-5-2 Jak vybrat správnou databázi? ...................................................................... 14 2-5-3 Druhy databází podle oborů.......................................................................... 14 3 Vyhledávače ................................................................................................................ 15 3-1 Časová osa............................................................................................................ 15 3-2 Jak vyhledávače fungují ....................................................................................... 16 3-3 Indexování internetu............................................................................................. 17 3-3-1 Binární strom ................................................................................................ 18 3-4 Vyhledávací roboti ............................................................................................... 18 3-5 Kolik indexují tradiční vyhledávače?................................................................... 20 3-6 Porovnání vyhledávačů ........................................................................................ 23 3-6-1 Jeden vyhledávač nestačí .............................................................................. 24 3-7 Vyhledávání v češtině? ........................................................................................ 25 3-8 Metavyhledávače.................................................................................................. 26 3-8-1 Jednotná informační brána............................................................................ 26 3-8-2 MetaCrawler a Dogpile................................................................................. 27 3-8-3 Clusty ............................................................................................................ 29 3-9 Google a googlování – fenomén doby ................................................................. 30 3-9-1 Page Rank jako reputační systém ................................................................. 31 3-9-2 Vyhledávání v Google .................................................................................. 31 3-9-2-1 Booleovské vyhledávání........................................................................ 32 3-9-3 Google a jeho služby..................................................................................... 32 3-9-3-1 Google News ......................................................................................... 32 3-9-3-2 Google Book Search a Scholar.............................................................. 33 3-9-3-3 -Google Finance .................................................................................... 33 4 Neviditelný web........................................................................................................... 34 4-1 Definice neviditelného webu................................................................................ 34 4-2 Historie neviditelného webu ................................................................................ 35 4-3 Vymezení neviditelného webu ............................................................................. 35 4-4 Struktura hlubokého webu ................................................................................... 37 4-4-1 Opaque web .................................................................................................. 38 4-4-2 Soukromé a proprietární weby...................................................................... 39 4-4-3 „Pravý“ neviditelný web ............................................................................... 39 4-5 Velikost neviditelného webu ................................................................................ 40 4-5-1 Kritika Bergmanovy kalkulace ..................................................................... 41 3-7 Akademický neviditelný web............................................................................... 43 5 Hledání v neviditelném webu ...................................................................................... 44 5-1 Proč hluboký web? ............................................................................................... 45 5-1-1 Specifický obsah ........................................................................................... 45 5-1-2 Vyhledávací rozhraní .................................................................................... 46
1
5-1-2 Přesnost a úplnost ......................................................................................... 46 5-1-3 Vyšší odbornost ............................................................................................ 47 5-1-4 Informace jsou zdarma dostupné .................................................................. 47 5-2 Vyhledávače neviditelného webu ......................................................................... 47 5-2-1 Operační model vyhledávače ve skrytém webu............................................ 48 5-2-2 Turbo10......................................................................................................... 49 5-2-3 Incywincy...................................................................................................... 52 5-2-4 CompletePlanet ............................................................................................. 53 5-3 Databáze v hlubokém webu ................................................................................. 55 5-3-1 Intute ............................................................................................................. 55 5-3-2 Infomine........................................................................................................ 58 5-3-3 Scirus ............................................................................................................ 61 5-3-4 DOAJ - Directory of Open Access Journals ................................................ 63 5-3-5 OAIster.......................................................................................................... 65 5-3-5-1 OAI-PMH .............................................................................................. 66 5-4 Zviditelnění obsahu v hlubokém webu ................................................................ 67 5-5 Budoucnost neviditelného webu .......................................................................... 68 6 Závěr............................................................................................................................ 71 Seznam použitých zdrojů................................................................................................ 73 Seznam obrázků, tabulek a grafů.................................................................................... 77
2
1 Úvod Náš svět je utvářen technologiemi a proměny světa informací jsou s přibývajícím časem čím dál rychlejší. Počítače pronikají do všech sfér lidské činnosti. Vyhledávání na webu je nejpopulárnější on-line aktivita.1 Vyhledat se dá všechno: digitalizované obrázky, mapy, knihy. Stále více a více materiálů je digitalizováno, aby jejich obsah mohl být následně zpřístupněn uživatelům prostřednictvím výsledků vyhledávacích nástrojů. Mnoho lidí však netuší, že obsah povrchového webu představuje jen zlomek toho, co je ukryto v hlubinách. Ve své práci se zaměřím na internetový fenomén, o kterém se ví, že existuje, ale málokdo si pod ním umí představit něco konkrétního – hluboký web. Protože jeho hlavní přínos a potenciál vidím ve vědě a výzkumu, zaměřím se na zdroje, které jsou relevantní pro akademickou obec. Pokusím se kvantifikovat objem informací, které jsou přístupné v povrchové části webu, ale též i odhadnout, kolik informací, k nímž se bežné vyhledávače ve většině případů neumí dostat, je ukryto v hlubokém webu. Nejdříve bych rád vysvětlil termín „hluboký web“. K tomu mi poslouží jedna z nových teorií, která vymezuje strukturu webu a staví ji do ostrého světla oproti předchozím teoriím. Díky ní lépe pochopíme vztahy mezi hlubokým a povrchovým webem. Dále bych se chtěl zaměřit na tradiční vyhledávače, okrajově též na jejich historii a způsob, jakým pracují. Právě popis metody sběru dat na webu je totiž velmi důležitý k odůvodnění existence hlubokého webu. Stěžejní část této práce věnuji vymezení a struktuře neviditelného webu. Všechno se dá kvantifikovat, dokonce i množina informací mimo dosah běžných vyhledávačů. Podrobně se zaměřím na řadu omezení, které vedou k tomu, že značná část informací není na webu běžně dostupná. Vybral jsem několik případových studií, na kterých se pokusím ilustrovat přínosy hlubokého webu ve vztahu k vědě a výzkumu. Rozhodl jsme se zařadit nejen vyhledávače hlubokého webu, ale též databáze, které zpřístupňují obrovské množství relevantních informací a jejichž obsah je ve většině případů zdarma. U každého projektu jsem věnoval prostor i historii a pozadí jeho vzniku, stejně jako praktické části, kde se zabývám způsobem, jakým probíhá vyhledávání v těchto zdrojích z pohledu uživatele. Po představení jednotlivých případových studií následuje zhodnocení možných východisek. Jak se dá zpřístupnit obsah hlubokého webu? Jak vidím budoucnost hlubokého webu? Jaká je aktuální situace a jaké trendy můžeme očekávat? O tom všem bude pojednávat závěrečná část. 1
comScore Media Metrix, březen 2007
3
Předvídat budoucnost není o moc jednoduší než zachycovat budoucnost, která se odehrává v přítomném okamžiku a ve chvíli se stává minulostí.2 V okamžiku kdy popíšete některou vyhledávací službu, může se k nepoznání změnit nebo úplně zaniknout. Firmy působící v oblasti vyhledávání (ale i internetové firmy obecně) provází nejen rychlý růst, ale často též o to rychlejší pád.3 V angličtině, stejně jako v českých textech se používá výraz neviditelný web (Invisible Web). Tento výraz - jak si ukážeme dále - zdůrazňuje roli vyhledávačů, pro které jsou zdroje v hlubokém webu neviditelné. Zahrnují však stránky, které mohou být navštíveny, ale nejsou zaindexované v rejstříku vyhledávačů. Z tohoto důvodu někteří autoři místo toho preferují výraz „deep web“ - hluboký web. Neviditelný web je tedy nevhodné pojmenování, protože informace nejsou neviditelné, jenom nejsou zaindexované. Proto i v této práci budu převážně používat výraz hluboký web. „Mnoho odborných a vědeckých pracovníků /…/ pracuje s omezeným výběrem informačních zdrojů, které slouží k uspokojení jejich informačních potřeb. Ne příliš kvalitní výběr relevantních informačních zdrojů a jednostranná inklinace k využívání internetových zdrojů vede k deformaci „informačního chování". Uživatelé se orientují v mnohých případech jen na prostředí internetu a na zdroje získatelné zdarma neznajíc svět profesionálních a ověřitelných zdrojů. Místo s informacemi a znalostmi se tak pracuje s "informačním smogem". Důležité je volba relevantních zdrojů informací, které jsou použitelné ve výzkumu i v praxi. Metodologie identifikace a volby relevantních informačních zdrojů, formy přístupu k informačním systémům a způsoby využívání informací a znalostí jsou předpoklady kompetitivních informačních dovedností ve "společnosti znalostí".“ 4
2
ZBIEJCZUK, Adam. Web 2.0 – charakteristika a služby. Diplomová práce [online]. Brno: Masarykova Univerzita, Fakulta sociálních studií, Katedra mediálních studií a žurnalistiky, 2007 [cit. 2008-02-11]. Dostupné na WWW:
. Vedoucí práce Mgr. David Kořínek. 3 Kuželíková, Lucie - Nekuda, Jaroslav - Poláček, Jiří. Sociálně-ekonomické informace a práce s nimi. Elportál, Brno : Masarykova univerzita. ISSN 1802-128X. 2008. 26. dubna. 4 PAPÍK, Richard. Metody vyhledávání vědeckých informací: viditelný x neviditelný web.[online].2004. [cit. 2008-02-11]. Dostupné na WWW:
.
4
5
2 Vymezení a struktura webu „Internet je obrazem společnosti. Jestli se vám nelíbí, co v zrcadle vidíte, oprava zrcadla nepomůže.“ Vinton Cerf V této kapitole se pokusím definovat web, vysvětlit, v čem spočívá rozdíl oproti zažitému označení „internet“, a představit teorii motýlku. Tato kapitola je důležitá pro vysvětlení hlubokého webu v kapitole 4, která na ni navazuje.
Obr. 1: 3D znázornění webu. Zdroj: www.opte.org
6
2-1 Internet vs. World Wide Web Internet není to samé co web. Internetem se rozumí největší celosvětová počítačová síť sítí, nedozírný celosvětový prostor počítačů propojený sadou síťových protokolů (TCP/IP). Internet je svého druhu vedení, které slouží k propojení a poskytování řady služeb (elektronická pošta, chat, www stránky, sdílení souborů, on-line hraní, vyhledávání, katalogy a pod.). Web je jedním z mnoha rozhraní internetu. Termín World Wide Web (www, nebo pouze zkráceně web) bývá překládán jako celosvětová pavučina a označuje aplikace internetového protokolu HTTP. Web je soustava propojených hypertextových dokumentů. 5 Web je starý 19 let 6, zatímco historie internetu se datuje mnohem dále – až ke vzniku projektu počítačového výzkumu agentury DARPA.7 Internetové protokoly a rozhraní kromě webu zahrnují také e-maily, fóra diskusních skupin, internetové mailingové seznamy, peer-to-peer sítě pro výměnu souborů a databáze přístupné přes webové rozhraní. 8
5
World Wide Web. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: . 6 V roce 1989 přišel Tim Berners-Lee s projektem vytvoření distribuovaného hypertextového systému, čímž byl zahájen projekt WWW. 7 Internet. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: . 8 SHERMAN, Chris – PRICE, Gary. The Invisible Web. Independent Pub Group 2001. s.7. ISBN 09-1096551-X.
7
Obr. 2: Znázornění webu kolem vyhledávače Google. Zdroj: Wikipedie Internet je tedy nohem více než web. Definice nám říká, že www je: „Distribuovaný hypertextový internetový informační systém, v němž dokumenty obsahují odkazy na jiné místní nebo vzdálené dokumenty. Informační nástroj využívající text, grafiku, zvuk, video. Webové dokumenty jsou vytvořeny nejčastěji v jazyku HTML, pro přenos sítí se používají protokoly HTTP, FTP a další. Klientský program používaný pro zobrazování webových stránek a pro pohyb v informačním prostoru WWW se nazývá prohlížeč.“9
2-2 Vymezení webu - Teorie motýlku Svět informací dostupných na internetu zřejmě není tak dokonale propojen, jak by se mohlo zdát. Cílem společné studie IBM Research, Compaq Corporate Research Laboratories a AltaVista Company bylo zmapování a vymezení hranic webu. Studie dospěla k závěru, že regionální hranice často znemožňují a omezují volný pohyb po webu.10 Mapa kyberprostoru ukazuje, že web se podobá motýlku (bowtie) s dělicími hranicemi, které znemožňují navigaci mezi regiony, činí ji obtížnou 9
TDKIV – Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: . 10 Researchers Map the Web. [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: .
8
a – v některých případech – i nemožnou. Předchozí výzkumy přitom předpokládaly, že web je vysoce propojen a navzájem provázán.11 Předchozí studie, založené na menších vzorcích webů, naznačovaly existenci vysokého stupně provázanosti jednotlivých webů. V rozporu s těmito původními zjištěními ukázala studie – založená na analýze více než 500 miliónů stránek, že World Wide Web je v podstatě rozdělen do čtyř rozsáhlých oblastí, přičemž každá oblast obsahuje přibližně stejný počet stránek. Výsledky studie také ukázaly, že existují obrovské soustavy webů nepřístupných pomocí odkazů, což je ten nejobvyklejší způsob pohybu uživatelů po internetu. Tzv. „teorie motýlku“ vysvětlila dynamické chování webu a jeho komplexní uspořádání. 12
Obr. 3: Schematické znázornění teorie motýlku. Zdroj: IBM
2-3 Důsledky teorie motýlku Teorie motýlku pomůže do značné míry vysvětlit povahu hlubokého webu. Z výzkumu vyšel najevo obraz webu v podobě vázacího motýlku. Čtyři různé oblasti představují přibližně 90 % celkového objemu informací na internetu. Zbývajících (přibližně) 10 % webu je od zbytku obsahu úplně odpojeno. Silně propojený obsah s dobrými vazbami je uzlem motýlku. Ten si můžeme představit jako srdce celého internetu, které obsahuje přibližně jednu třetinu všech webových stránek. Uživatelé tak mohou velmi jednoduše procházet mezi těmito stránkami prostřednictvím hypertextových odkazů v rámci tohoto „vysoce 11
SHERMAN, Chris. New Web Map Reveals Previously Unseen ‘Bow Tie’ Organizational Structure. [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: . 12 „Previous studies, based on small samplings of the Web, suggested that there was a high degree of connectivity between sites as evidenced by recent reports on the "small world Web" and 19 degrees of separation. Contrary to those preliminary findings, the new study -- based on analysis of more than 500 million pages -- found that the World Wide Web is fundamentally divided into four large regions, each containing approximately the same number of pages. The findings further indicate that there are massive constellations of Web sites that are inaccessible by links, the most common route of travel between sites for Web surfers. Developing the "Bow Tie" Theory explained the dynamic behavior of the Web, and yielded insights into the complex organization of the Web.“
9
propojeného jádra“. Na jedné straně motýlku jsou původní / vstupní webové stránky, které tvoří téměř jednu čtvrtinu webu. Z těchto vstupních stránek se uživatelé relativně snadno dostanou k jádru webu, s nímž jsou spojeny. Z jádra k okraji, tj. ke vstupním stránkám se však dostat nemohou. Na druhé straně jsou s jádrem spojeny výstupní (zaniklé) stránky tvořící přibližně ¼ webu. Tento obsah v „zaniklé“ části internetu může být přístupný z jádra, ale nemůže odkazovat zpět. Jinými slovy, z výstupní části webu (z pravé části motýlku) se uživatelé nedostanou k jádru, kde se ukrývá většina vysoce propojeného obsahu. Čtvrtou a poslední oblastí obsahu webu jsou odpojené stránky. Jedná se o zcela izolovanou část internetu, která tvoří cca. jednu pětinu zbývajícího obsahu. Odpojené stránky mohou být spojené se vstupními a/nebo výstupními stránkami, ale nejsou dosažitelné z jádra „motýlku“. 13 Studie identifikovala čtyři hlavní různé oblasti webu.
Obr. 4: Jiné grafické znázornění teorie motýlku. Teorie motýlku nejen že vysvětlila dynamické chování webu, ale pomohla lépe nahlédnout do jeho struktury. Dala tak k dispozici podklad pro efektivnější strategie crawlování (procházení) obsahu internetu vyhledávacími nástroji. Crawling – jak si ukážeme dále - je metoda používaná vyhledávači k organizaci obsahu na webu. Studie tak byla svého druhu významným počinem, který pomohl řídit topografii webu. Následující tabulka vychází z výzkumu Sajiho Gopinatha: 14
13
GOPINATH, Saji. Structural and conceptual changes in the information landscape: The new challenges for information professionals [online]. [cit. 2008-02-13]. Dostupné na WWW: <www.dspace.iimk.ac.in/bitstream/2259/251/1/07-saji-paper.pdf>. 14
Tamtéž
10
Struktura obsahu
Propojitelnost
Přístupnost
Starší teorie
Nová teorie
Pavučina
Motýlek Pouze uzly v jádru jsou spojené. Existuje mnoho spojení k jádru a mnoho spojení z jádra. Je také mnoho odpojených stránek a propojených výběžků.
Všechny uzly (webové stránky) jsou propojené Některé stránky mohou být přístupné z jakékoli další stránky na omezený počet kliknutí.
Je vysoká pravděpodobnost (téměř 0,75) že žádná spojení mezi náhodně vybranými částmi webových stránek neexistují.
Tabulka 1: Srovnání teorie motýlku a pavučiny.
2-4 Kolik je na webu informací V publikaci „How much information? 2003“, kterou publikovala Kalifornská univerzita v Berkeley,15 se uvádí, že nově vytvořené informace jsou ukládány na čtyři fyzická média – papír, film, magnetické a optické nosiče. V roce 2002 bylo vyprodukováno a uloženo 5 exabytů infomací. Z toho 92 % bylo uloženo na magnetická záznamová média, převážně na pevné disky počítačů.16 Na základě této prognózy se můžeme pouze domnívat, že část těchto informací (zejména těch relevantních) je přístupná i prostřednictvím sítě internet. Internet je totiž nejrychleji rostoucím médiem všech dob 17 a počet jeho uživatelů se neustále zvyšuje. V roce 1987, kdy vznikl pojem internet, bylo v síti 27 tisíc počítačů. V roce 2006 již tento počet přesáhl 1 miliardu. 18 Kolik je 5 exabytů? 19 miliónů knih v Kongresové knihovně obsahuje přibližně 10 TB informací a 5 exabytů je tedy ekvivalentem půl miliónu knihoven velikosti Kongresové knihovny.19
15
LYMAN, Peter - HAL R. Varian. How Much Information? 2003. [online]. [cit. 2008-02-14]. Dostupné na WWW: . 16 Tamtéž 17 ZBIEJCZUK, Adam. Web 2.0 – charakteristika a služby. Diplomová práce [online]. Brno: Masarykova Univerzita, Fakulta sociálních studií, Katedra mediálních studií a žurnalistiky, 2007 [cit. 2008-02-11]. Dostupné na WWW: . Vedoucí práce Mgr. David Kořínek. 18 Internet. In Wikipedie: Otevřená encyklopedie [online]. c2007 [cit. 2007-12-04]. Dostupné na WWW: . 19 Tamtéž
11
Velikost internetu v roce 2002 (v terabytech). Medium TB Povrchový web 167 Hluboký web 91 850 E-maily 440 606 Instant messaging 274 Celkem 532 897 Tabulka 2: Velikost internetu. Zdroj: How much information 2003 Nielsen/Netratings uvádí, že v roce 2002 čítala celosvětová internetová populace 580 miliónů uživatelů. Odhad Mezinárodní telekomunikační unie (The International Telecommunications Union) předpokládá dokonce o 15 % vyšší počet uživatelů – 665 miliónů. 20 V rámci zmiňované studie výzkumníci analyzovali obsah 9806 webových stránek, aby odhadli velikost a obsah průměrné stránky. Testovací vzorek 9806 stránek byl vybrán ze seznamu 61 miliónů náhodně vybraných URL z databáze Internet Archive (www.archive.org). U stránek bylo následně ověřeno, že se nacházejí v DNS registru, a poté byly staženy na lokální počítače. U každé stránky byla změřena celková velikost, celkový počet souborů a u každého typu souborů také celková velikost a jejich počet. Tento vzorek byl stažen z povrchové části webu – jednalo se převážně o veřejně přístupné statické stránky. Velikost zkušebního vzorku se rovnala 33,1 GB a počet vybraných stránek (9806) představoval 0,02 procenta z 42,8 miliónů webových serverů (NetCraft Survey; 200321). Z těchto hodnot vědci s 95% pravděpodobností odhadli celkovou velikost povrchového webu na 167 TB.22 Nelze s jistotou tvrdit, nakolik byla tato studie spolehlivá, co do výběru vzorků a použité metodologie. Výzkumníci stanovili celkový počet souborů různých formátů a na základě toho určili, jak jsou rozděleny typy souborů. Obrazová ifnrmace – formáty obrázků, tvořily 23,2 procent obsahu povrchového webu, HTML soubory 17,8 % a PHP skripty 13 %.
20
Citováno dle záznam 13 Tamtéž 22 Z této hodnoty bylo vyvozeno, že velikost „neviditelného“ webu je mezi 66 800 a 91 850 TB. Vzhledem k tomu, že vycházeli ze studie BrightPlanet, kterou dále v textu zpochybňuji, uvádím tyto údaje pouze v poznámce. 21
12
Graf 1: Rozložení povrchového webu podle typu souborů. Zdroj: Brightplanet
2-5 Databáze Databáze jsou uspořádané sbírky elektronických informací či bibliografických záznamů, které jsou přístupné prostřednictvím počítače. Jednotlivé záznamy (records) databází jsou složeny z polí (fields). Ta jsou tvořena bibliografickými a věcnými údaji: autor, název článku, název zdrojového dokumentu, ročník, číslo, počet stran, rok vydání, klíčová slova a abstrakt. Záznamy v databázích se vyhledávají pomocí těchto polí. V následujících řádcích jsem se pokusil sumarizovat výhody používání databází a současně navrhnout optimální vyhledávací strategii.
2-5-1 Výhody používání databází Používání databází provází řada výhod: o
informace v elektronických databázích jsou jednoduše a rychle dostupné,
o
nabízí se přístup k informacím z celého světa,
o
v databázích je uloženo velké množství informací,
o obsahují záznamy všech možných druhů publikací (kapitoly knih, noviny nebo sborníky),
13
o vyhledávat lze rychle a efektivně (ovšem za předpokladu, že uživatel s databázemi umí pracovat), o
obsahují nejen aktuální údaje, ale i retrospektivu,
o záznamy jsou často doplněné o abstrakt (krátký obsah článku) včetně plného textu, o výstupy databází jsou v elektronickém formátu, s kterým se následně dá pohodlně pracovat.
2-5-2 Jak vybrat správnou databázi? Protože každá databáze obsahuje různé typy informačních pramenů (časopisy, noviny, disertace, monografie, plné texty), je při výběru potřeba posoudit více hledisek. Nabízí se otázka, jak staré informace hledáme, neboli – jakou má daná databáze retrospektivu. S tím souvisí otázka pravidelné aktualizace, tedy jak často a v jaké kvalitě jsou do požadovaného zdroje ukládány nové informace. K posouzení a výběru správné databáze si všímáme také rozsahu požadovaných informací. Okruhy vhodných databází lze vymezit teritoriálně (angloamerická produkce, Evropská unie apod.) i jazykově (naprostá většina databází obsahuje informace v angličtině). Pro úspěšnost vyhledávání je nutné použít více zdrojů databází, přičemž platí, že závisí na výběru správných databází. Pokud chceme něco najít, je nutné nejdříve určit klíčová slova, která co možná nepřesněji vystihují hledané téma. Následně vybereme vhodný vyhledávací nástroj. Je potřeba vzít v úvahu rozsah a obsah databáze. Prostudujeme nápovědu u databáze (help, search tips), formulujeme dotaz pomocí klíčových slov a zhodnotíme výsledky vyhledávání. Pokud je to ještě potřeba, opravíme dotaz a zkusíme nové vyhledávání – případně i v jiné databázi.
2-5-3 Druhy databází podle oborů Databáze bývají zaměřeny většinou podle oborů. Z pohledu nejen humanitních a sociálně-ekonomických věd jsou důležité databáze obsahující určité druhy dokumentů (periodika, disertace atd.) nebo určité druhy dat (statistická data). Jednooborové databáze sledují zdroje vztahující se k jedné disciplíně, zatímco víceoborové se týkají informací z více oborů. Bibliografické databáze dat obsahují bibliografické informace, které mohou být doplněny o abstrakt. Informace v plnotextových databázích jsou uspořádané do podoby plných textů a doplněny o bibliografické údaje. Bibliografické databáze obsahují především přesnou bibliografickou citaci informačního zdroje. Ve většině případů je k dispozici i abstrakt (krátká anotace), z níž se můžeme dozvědět o míře použitelnosti daného dokumentu. Tento druh databází je průběžně aktualizován a používá se v nich jednotná terminologie (např. deskriptory, klíčová slova…). Faktografické
14
databáze slouží pro získání konkrétních údajů, které mohou mít textový nebo numerický charakter, popřípadě kombinaci obou 23. Při práci s faktografickými databázemi nepotřebujeme získat primární dokument, protože konkrétní data jsou již primární informace, většinou statistického charakteru. Jejich hlavním úkolem tedy není bibliografická identifikace, ale poskytnutí přímé odpovědi (údaje - data) na konkrétní dotaz. Fulltextové databáze: jedná se o báze dat obsahující plné texty primárních dokumentů. Většinou pracují pouze s textovou informací a s obrazovou již poměrně omezeně.Tyto databáze jsou také specifické tím, že používají efektivní vyhledávací algoritmy pro práci s dokumenty a výhodnější pomocné datové struktury pro vyhledávání, např. hypertext. Další vlastností fulltextových databází je skutečnost, že se na výstupu zobrazí plný text – dostanete kompletní text primárního dokumentu, ve kterém můžeme provádět vyhledávání. Kromě výše uvedených databází se můžeme setkat též s databázemi katalogů a rejstříků. Databáze přístupné přes webové rozhraní představují významnou část neviditelného webu.
3 Vyhledávače Běžné (tradiční, konvenční, univerzální) vyhledávací nástroje ovlivňují způsob, jakým uživatelé vnímají web. Nevstřebáváme to, co skutečně existuje na internetu, nýbrž to, co indexují vyhledávače. I když se tradiční vyhledávače snaží přinášet uživatelům relevantní výsledky, potřebují také vydělávat. Řada z nich má podstatnou část příjmů z reklamy, proto ve výsledcích zvýhodňují informativní (nekomerční) stránky před komerčními. Některé také zvýhodňují stránky, které vznikly před dlouhou dobou a jsou často odkazované. Vyhledávání probíhá tak, že po zadání dotazu (klíčového slova) si vyhledávač projíždí tzv. reverzní indexy – seznamy slov, informací a dat posbíraných roboty (crawlery). Některé vyhledávače zohledňují gramatické tvary podstatných jmen, přídavných jmen i sloves. Může tak dojít k transformaci podstatného jména na přídavné jméno.
3-1 Časová osa V této podkapitole si na časové ose ukážeme, jak se vyvíjely nejznámější vyhledávače. Historie vyhledávačů se datuje od roku 1945. Dnes existují stovky vyhledávačů. 24
23
Viz záznam 4 SHERMAN, Chris – PRICE, Gary. The Invisible Web. Independent Pub Group 2001.s.15. ISBN 09109-6551-X. 24
15
Historie vyhledávačů – časová osa 1945 Vannever Bush připravuje „MEMEX“ 1965 Ted Nelson vytváří hypertext 1972 Vzniká Dialog – první komerční systém 1986 OWL představuje GUIDE (hypermedia browser) 1990 Archie pro FTP vyhledávání, Tim Berners-Lee vytváří Web 1991 Gopher: WAIS distribuované vyhledávání 1993 ALIWEB, WWWWander, JumpsStation, WWWWorm 1994 EINet Galaxy, WebCrawler, Lycos, Yahoo! 1995 Infoseek, SavvySearch, AltaVista, MetCrawler, Excite 1996 Hotbot, LookSmart 1997 NorthernLight 1998 Google 2000 Stovky vyhledávacích nástrojů
Tabulka 3: Časová osa nejznámějších vyhledávačů
3-2 Jak vyhledávače fungují Je těžké určit, který vyhledávač je nejlepší. „Skutečné techniky hledání, třídění, uchovávání a zpřístupňování informací na webu jsou bedlivě střeženým tajemstvím autorů (úspěšných) komerčních vyhledávacích systémů. Stačí si vyjmenovat dva základní požadavky na takový vyhledávač, aby bylo zřejmé, že skloubení jejich protichůdných poslání nebude žádný med. Dobrý vyhledávač by tedy měl v prvé řadě nalézt to, co hledáme, ale zároveň poskytnout vyhledané výsledky velmi rychle.“25 Vyhledávače se zásadně liší ve způsobu indexace dokumentu, její četnosti, rozsahu a v hodnocení relevance výsledků pomocí algoritmu pto řazení výsledků. 26 Lewandowski a Höchstötter 27 se pokusily o definování kvality vyhledávačů na základě čtyř kritérií: 1. Kvalita indexu: „platí přímá úměra – čím větší je databáze, tím větší je šance na nalezení nejlepší odpovědi, pochopitelně však tím déle vyhledání seznamu výsledků potrvá.“ 28 Kvalitní index je nezbytný pro získávání kvalitních výsledků. Svou roli hraje pokrytí webu geografické vymezení hledání (Vaughan; Thelwall: 2004) 29 a aktuálnost indexu (Lewandowski; Wahlig; Meyer-Bautor: 2006),
25
Kuželíková, Lucie - Nekuda, Jaroslav - Poláček, Jiří. Sociálně-ekonomické informace a práce s nimi. Elportál, Brno : Masarykova univerzita. ISSN 1802-128X. 2008. 26. dubna. 26 Different Engines, Different Results: A Research Study by Dogpile.com. [online] Queensland University of Technology and Pennsylvania State University. 2007 [cit. 2008-04-06]. Dostupné na WWW: < www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf >. 27 LEWANDOWSKI, Dirk. The Retrieval Effectiveness of Web Search Engines: Considering Results Descriptions. Journal of Documentation [online]. 2008 [cit. 2008-04-07]. Dostupné na WWW: . 28 Kuželíková, Lucie - Nekuda, Jaroslav - Poláček, Jiří. Sociálně-ekonomické informace a práce s nimi. Elportál, Brno : Masarykova univerzita. ISSN 1802-128X. 2008. 26. dubna. 29 Tzv. country bias
16
2. Kvalita výsledků: vyhledávač, který poskytne uživateli kvalitní výsledky, je nesporně lepší, než vyhledávač, který vyhledá nesouvisející informace. Vyvstává však otázka, jak se dá kvalita výsledků změřit. Každý totiž hledá něco jiného a za jiným účelem, 3. Uživatelské rozhraní: vyhledávač by měl kombinovat vhodně zvolené uživatelské prostředí a vhodně navržený dotazovací jazyk, 4. Použitelnost vyhledávače: vyhledávač by měl pracovat efektivně a nemarnit čas uživatele. Některé vyhledavače berou v úvahu stáří webu, stránky, uživatelského účtu a podobně. Tyto údaje mají svou váhu v posuzování důvěryhodnosti osoby, stránky či dokumentu. Starší mají obvykle lepší pozici, ale zároveň mohou být upřednostněny (např. u vyhledavačů specializovaných na novinky či blogy) i nové dokumenty. Čerstvé příspěvky, které jsou zároveň citovány na mnoha jiných webech (příbuzných blozích) mohou krátkodobě uspět ve výsledcích vyhledávání lépe, neboť bývají odkazovány z hlavní stránky. V okamžiku kdy se dotyčný článek dostane do archivu a z titulní strany zmizí, není již odkazován ze stránky s vysokým PR a jeho pozice se tedy zhorší.30 Některé vyhledávače se také pokouší určit, jak často je vhodné servery kontrolovat (zpravodajský server často, statické stránky občas). Totéž se někdy provádí i s jednotlivými stránkami. Svou roli samozřejmě hraje dobré technické zázemí toho kterého vyhledávače. Čím výkonnější datacentrum, tím rychlejší bude celý proces hledání. Pro zajímavost uveďme, že serverová farma firmy Google tvoří nejvýkonnější superpočítač na světě, neboť podle posledních odhadů obsahuje 719 racků, 63 272 počítačů, 126 544 procesorů, 253 088 GHz výpočetního výkonu, 126 544 GB operační paměti a 5062 TB kapacity pevných disků.31 Stejně tak důležitý je software, který umí naplno využít potenciál hardwaru: primární úlohu mají indexovací nástroje, tj. implementace algoritmů pro optimální třídění dat a jejich následné procházení co nejkratší cestou k cíli.32
3-3 Indexování internetu Index je v podstatě archiv nebo informační banka, kterou si budují vyhledávače. V indexu probíhá faktické vyhledávání. Větší vyhledavače mají zaindexované miliardy stránek. Proces hledání probíhá přes reverzní indexy slov a vrací výsledky postavené na odpovídajících vektorech. Vyhledávače umí vyhledat i dokumenty s příbuznými slovy na základě sémantických a tzv. stemming (zohlednění tvarů jmen a sloves) algoritmů.
30
Google Patent 20050071741: Získávání informací založené na datech o jejich stáří Podle informací uveřejněných firmou Google při jejím vstupu na burzu v dubnu 2004. 32 Viz záznam 25 31
17
3-3-1 Binární strom V databázi pojmů je na každý výraz napojená množina odkazů na texty obsahující požadované klíčové slovo. Abychom našli ten správný pojem, je potřeba porovnat velké množství termínů tzv. sekvenčním procházením. „Pokud tyto pojmy šikovně uspořádáme do stromu, jehož uzly obsahují zkoumané pojmy, a to tak že pojmy v abecedě před pojmem aktuálně vybraného uzlu „zavěsíme“ do levé části podstromu a naopak pojmy v abecedě za pojmem „zavěsíme“ vpravo, pak k nalezení libovolného pojmu nám bude postačovat počet porovnání odpovídající odmocnině „šířky stromu“.“ 33
Obr. 5: Pojmy setříděné v binárním stromu V datové struktuře binárního stromu je uspořádáno 31 pojmů v pěti patrech a pro nalezení libovolného termínu by stačilo maximálně pět porovnání. S narůstajícím počtem termínů by počet maximálně nutných porovnání zůstal lineární.34 „V praxi se nevyužívají přímo binární stromy, ale (pokud vůbec daný indexovací nástroj ze stromovité struktury vychází) nejrůznější „vylepšené“ verze, které lze snáze upravovat „za pochodu“, s vícero větvemi a dalšími rozšířeními.“35
3-4 Vyhledávací roboti Internetové vyhledávače používají webové crawlery (crawler – robot, někdy zvaný též spider, gatherer, scutter).36 Crawler je softwarový program nebo skript, který automatizovaně prochází webové stránky, vyhledává na nich hypertextové odkazy, indexuje obsah stránek a umožňuje tak jejich následné zpracování.37 Crawlery vytváří kopie navštívených stránek pro pozdější zpracování
33
Tamtéž Tamtéž 35 Tamtéž 36 Web crawler. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: 37 Internetový robot. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: < http://cs.wikipedia.org/wiki/Internetov%C3%BD_robot > 34
18
vyhledávačem, který prohledávání.38
indexuje
stažené
stránky
za
účelem
rychlejšího
Jak vlastně vyhledávače fungují a k čemu slouží indexace? Google využívá paralelně několik crawlerů ke stažení dokumentů, které mu určí URL Server. Crawlery udržují stovky otevřených spojení k webserverům, aby se nezdržovaly čekáním na odpovědi. Dokumenty, které stáhne crawler, jsou uloženy do depozitáře. Každá stránka obdrží identifikátor. Ten je přidělen, když je získáno nové URL. Další složkou vyhledávače Google je Indexer, který dělí dokumenty dle počtu výskytů klíčových slov, pozice a relativní velikosti písma. Tyto záznamy jsou ukládány do částečně setříděného indexu - tzv. Barrels. Kromě toho Indexer filtruje odkazy a ukládá je do zvláštního souboru, který následně zpracuje URLresolver. Jeho úkolem je převést relativní cesty na absolutní URL. Texty odkazů jsou zahrnuty v indexu k danému dokumentu, na nějž odkazují. Tyto údaje potom slouží pro výpočet PageRanku. Komponenta zvaná Sorter (třídič) třídí index do zpětného indexu. Vyhledávač běží na webovém serveru a za pomoci slovníku, zpětného indexu a pageRanků odpovídá na dotazy 39.
Obr. 6: Struktura Googlu. Zdroj: Wikipedie 38
Viz záznam 33 Google (vyhledávač). In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-05]. Dostupné na WWW: 39
19
Crawlery získávají obsah pouze z veřejně přístupných indexovatelných webů, na které např. odkazuje hypertextový odkaz. Crawlery také ignorují vyhledávací formuláře a stránky vyžadující autorizaci či registraci. Crawlery ale hlavně ignorují nepřeberné množství vysoce kvalitního obsahu.
3-5 Kolik indexují tradiční vyhledávače? Existuje obrovské množství různých vyhledávačů. ComScore Media Metrix uvádí, že na světě je 298 on-line vyhledávačů (data za březen 2007).40 Vyhledávání informací je nejoblíbenější činnost na Internetu, neboť 96,7 procent41 lidí, kteří jsou on-line, používá vyhledávače. Vyhledávání je nejpopulárnější online aktivita. Web je nekonečně rozsáhlý prostor s milióny nových stránek přidávaných každý den, takže nikdo vlastně neví, jaký je v tomto okamžiku přesný počet webových stránek. Google a Yahoo přestaly uvádět počet indexovaných stránek na sklonku roku 2005. Podle odhadů Cyberatlasu a MIT z dubna 200542 bylo ve veřejně přístupné části World Wide Webu 45 miliard statických webových stránek. Dále byla na webu 5 miliard statických stránek dostupných v rámci soukromých intranetových webů. Více než 200 miliard stránek bylo dostupných jenom jako dynamický obsah databází – neviditelný web. Výzkumníci na Università di Pisa a University of Iowa odhadli objem indexované části webu na 11,5 miliard stránek.43 Odvolali se na další výzkum, který navíc odhadoval podíl neviditelného webu – tedy počet neindexovaných webových stránek - na více než 500 miliard.44 Když se podíváme zpátky, objem informací na internetu od roku 1995 dramaticky vzrostl. Sullivan zkoumal počet textových dokumentů, které v rozmezí prosince 1995 a září 2003 indexovaly vyhledávače Google, AlltheWeb, Inktomi, Teoma a AltaVista.45 Z grafu je patrné, že indexy vyhledávačů kontinuálně rostou.
40
comScore Media Metrix, březen 2007. Cit. dle 23 Tamtéž 42 Different Engines, Different Results: A Research Study by Dogpile.com [online]. Queensland University of Technology and Pennsylvania State University. 2007 [cit. 2008-04-06]. Dostupné na WWW: < www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf >. 43 A. Gulli and A. Signorini. Building an open source metasearch engine. In: 14th WWW, 2005. 44 SHERMAN, Chris. Search Engine Watch Newsletter. 2005 [cit. 2008-04-06]. Dostupné na WWW: . 45 SULLIVAN, Danny. Search Engine Sizes [online]. 2005 [cit. 2008-04-06]. Dostupné na WWW: . 41
20
Graf 2: Roustoucí indexy vyhledávačů - prosinec 1995- září 2003.46 Zdroj: Search Engine Watch
Graf 3: Miliardy indexovaných textových dokumentů únorc 2002- září 2003 Zdroj: Search Engine Watch
Studie vedená A. Gullim a A. Signorinim47 dokazuje, že je značná část webu neindexována a plně jej nepokrývá žádný z uvedených vyhledávačů. Tento výzkum odhadoval viditelný web (URL adresy, ke kterým se vyhledávače
46
GG = Google, ATW = AllTheWeb, INK = Inktomi (nyní Yahoo!), TMA = Teoma (nikoli Ask), AV = AltaVista (nyní Yahoo!) 47 Gulli and A. Signorini. Building an open source metasearch engine. In 14th WWW, 2005. Cit. dle 25
21
dostanou) na více než 11,5 miliard stránek. Počet indexovaných stránek v době výzkumu odhadl na zhruba 9,4 miliard. Vyhledávač
Google Yahoo! Ask Live (beta) Indexovaný Web Celkový Web
Počet uváděn ý společn ostí (Miliar dy) 8.1 4.2 2.5 5.0 N/A
Odhadovaný počet (Miliardy)
Pokrytí indexovan ého webu (%)48
Pokrytí celkov ého objem u webu (%)
8.0 6.6 5.3 5.1 9.4
76.2 69.3 57.6 61.9 N/A
69.6 57.4 46.1 44.3 N/A
N/A
11.5
N/A
N/A
N/A ~ údaj není k dispozici Tabulka 4: Počet indexovaných stránek. Zdroj: A. Gulli, A. Singorini, 2005
Novější výzkum firem Google.com, Yahoo.com, Cyberatlas a univerzity MIT z podzimu 200749 přinesl pravděpodobnější výsledky a nabídl následující zjištění: o
Google.com indexuje 12,5 miliard veřejných webových stránek,
o 71 miliard statických webových stránek je veřejně přístupných. Tyto stránky mohou být snadno nalezeny vyhledávači. (například www.honda.com, www.australia.gov.au), o 6.5 miliard statických stran leží v neviditelné části internetu. Jsou nepřístupné jako soukromý obsah intranetů, tyto stránky jsou také součástí korporátních webů (např. employees.honda.com, secure.australia.gov.au), o více než 220 miliard stránek je ukryto v dynamicky generovaném obsahu rozsáhlých databází a pro vyhledávací nástroje je zcela neviditelných,
48
“Indexovaný web” je ta část webu, ke které se dostanou vyhledávače GIL, Paul. What is "The Invisible Web [online]. 2007 [cit. 2008-04-06]. Dostupné na WWW: .
49
22
o Google, považovaný za nejpopulárnější vyhledávač, umí pokrýt pouze zlomek celkového obsahu internetu. Google indexuje pouze 12.5 miliard stránek, aniž by dosáhl na 220 miliard stránek v neviditelném webu, což je méně než 6 % dostupného obsahu na Internetu, o jestliže Google operuje pouze s 6% webového obsahu, kde je ukryto těch zbývajících 94 %?
3-6 Porovnání vyhledávačů V dubnu a červnu 2005 spolupracovala společnost Dogpile (vlastněna a řízena ogranizací InfoSpace) s výzkumníky z University of Pittsburgh50 a Pennsylvania State University na výzkumu, který měl zjistit do jaké míry se překrývají a jakým způsobem se řadí a hodnotí výsledky různých vedoucích webových vyhledávačů.51 Studie vznikla také za účelem změřit přínos použití metavyhledávačů k prohledávání internetu. Studie nazvaná „Different Engines, Different Results“ vyhodnotila výsledky od 10 316 náhodných uživatelů vyhledávačů Google, Yahoo! a Ask Jeeves. Výsledky výzkumu ukázaly, že testované vyhledávače dávají výsledky pro daný dotaz zobrazené na první stránce shodné pouze ze 3,2 %.52 V červnu 2005 byly v rámci studie vyhodnoceny výsledky vyhledávacích dotazů 12 570 náhodných uživatelů, kteří v dané době zadali dotaz do některého z vyhledávačů Google, Yahoo!, MSN Search a Ask Jeeves. Výsledkem studie bylo, že pouze 1,1 % výsledků zobrazených na první stránce se shodovalo s výsledky ostatních vyhledávačů na daný dotaz. Pouze 2,6 % výsledků zobrazených na první stránce se překrývalo s výsledky vyhledávačů Google, Yahoo! a Ask Jeeves na daný dotaz. Dogpile.com v dubnu 2007 spolu s výzkumníky z Queensland University of Technology a Pennsylvania State University následně provedl nový výzkum překrývání prvních stran. V rámci studie byly vyhodnoceny 4 nejpopulárnější vyhledávače – Google, Yahoo!, Windows Live (dříve MSN Search) a Ask (před tím Ask Jeeves) – a zapojeno 19 332 uživatelů zadávajících vyhledávací dotaz. Výsledky této studie upozornily na skutečnost, že existují obrovské rozdíly jak mezi všemi čtyřmi, tak i mezi jednotlivými vyhledávači navzájem. Míra překrytí mezi prvními stránkami zobrazených výsledků vyhledávání ze všech 4 vyhledávačů byla pouze 0,6 % v průměru na daný dotaz. Tato studie chtěla poskytnout přesvědčivý důkaz, proč metavyhledávací nástroje nabízí koncovým uživatelům větší šanci na naleznutí nejlepších výsledků pro jejich téma. Studie kromě jiného také přišla s tvrzením, že uživatelé vnímají vyhledávače tak, že mají podobnou funkci, přináší podobné 50
SPINK, Amanda. Public Searching of the Web [online]. Springer Publishers. 2004. [cit. 2008-04-06]. Dostupné na WWW: . 51 Different Engines, Different Results: A Research Study by Dogpile.com. Queensland University of Technology and Pennsylvania State University. 2007 [cit. 2008-04-06]. Dostupné na WWW: < www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf >. 52 Tamtéž
23
výsledky a indexují značnou část webu. Nicméně podle obou studií je patrné, že výsledky každého vyhledávače jsou stále do značné míry jedinečné.53 Zvláštní studie realizovaná společností comScore Media Metrix shledala, že mezi 54 – 62 procenty všech hledání na čtyřech nejpoužívanějších vyhledávačích je výsledkem kliknutí na první stránku výsledků.54
3-6-1 Jeden vyhledávač nestačí To, že výsledkem více než poloviny všech hledání na internetu je kliknutí na první stránku, by mohl být nezvratný důkaz, že rešeršér nenajde vždy to, co chce najít jen s jediným vyhledávačem. Američtí uživatelé internetu používají průměrně 3,04 vyhledávače za měsíc.55 Zdá se, že toto chování ilustruje potřebu uživatelů po efektivnějším vyhledávacím řešení. Metavyhledávače jsou možným řešením na tento problém, neboť mohou najít lepší výsledky a ty zobrazí na jednom místě. Cílem metavyhledávacích nástrojů je zmírnit podstatné rozdíly jednotlivých vyhledávačů, čímž mají zajistit nejlepší výsledky hledání. Metavyhledávač neprochází web a nebuduje databázi, ale vysílá vyhledávací dotaz do každého vyhledávače zvlášť. Nejlepší výsledky tak mají být zobrazeny společně na jedné stránce. O metavyhledávačích se dozvíme v podkapitole 3-8. Dogpile publikoval podrobné výsledky svého výzkumu. Pouze 0,6 % všech 776 435 prvních stran bylo stejných napříč uvedenými vyhledávači.56 Výsledky výzkumu můžeme sumarizovat do těchto bodů:
o Procento unikátních výsledků hledání jednoho vyhledávače je 88,3%. o Procento shodně zobrazených výsledků hledání sdílené dvěma vyhledávači je 8,9%. o Procento shodně zobrazených výsledků hledání sdílené libovolnými třemi vyhledávači je 2,2%. o Procento shodně zobrazených výsledků mezi 4 vyhledávači je 0,6 %.
Výsledky studií
% unikátních vyhledávač % výsledků vyhledávači
výsledku sdílených
na
jeden dvěmi
červen 2005 (%) 84.9
88.3 %
11.4
8.9 %
duben 2007
53
Tamtéž comScore qSearch Data, January 2007, Custom Success Rate Analysis. Cit. Dle 25 55 comScore Media Metrix, March 2007, U.S. cit dle 25 56 Viz záznam 43 54
24
% výsledků sdílených třemi vyhledávači % výsledků sdílených všemi 4 vyhledávači
2.6
2.2 %
1.1
0.6 %
Tabulka 5: Srovnání výsledků studie Dogpile. Zdroj: www.dogpile.com Studie také předpokládala, že tento trend se bude dále rozvíjet spolu s tím, jak jednotlivé vyhledávače budou modifikovat technologie crawlování a hodnocení relevance stránek.57
3-7 Vyhledávání v češtině? Společnost Ataxo publikovala zprávu, ve které srovnává relevanci výsledků lokálního vyhledávání v Česku nejpoužívanějších vyhledávačů (Seznam.cz, centrum.cz, Atlas.cz a Google.com).58 Lokálním vyhledáváním se podle Ataxa rozumí situace, kdy uživatel „hledá něco někde“. „Na základě vyhodnocení relevance více než 2 000 výsledků lokálního vyhledávání dochází studie k závěru, že relevance výsledků Googlu je u lokálního vyhledávání výrazně lepší než relevance výsledků hledání sledovaných českých vyhledávačů, ačkoliv Google nepracuje s českou gramatikou. Hlavní přednosti Googlu se ukazují v tom, že velmi zřídka podává výsledky, které jsou nerelevantní, a že zároveň dosahuje nejvyššího procenta výsledků, které přesně odpovídají dotazu uživatele,“ uvádí zpráva. Pojďme se nyní podívat, jak zobrazují výsledky jednotlivé vyhledávače. Přirozené (nesponzorované) výsledky se u všech zmíněných vyhledávačů (Seznamu, Centra, Atlasu a Googlu) ukazují jako modře podtržené titulky s dvěma či třemi řádky doprovodného popisu. Zatímco Google v popisu stránky zobrazuje její obsah a shrnutí (přibližně 150 znaků), který je uveden ve zdrojovém kódu stránky jako „meta description“, případně katalogový popisek nebo úryvek stránky, české vyhledávače mají popisek stránky obvykle delší (až 300 znaků) a přejímají ho buď z katalogu nebo používají úryvek ze stránky. Při vyhledávání v češtině Google někdy zobrazí speciální výsledky jako zprávy (nedávno spuštěné Google News či Google Finance, ke kterým se ještě dostaneme), encyklopedie či obrázky. Podle podrobné studie firmy Ataxo se zobrazení výsledků u jednotlivých služeb liší jen v detailech. Podstatnější je relevance výsledků vyhledávání, neboť v případě českých vyhledávačů jsou přirozené výsledky na první pohled nerozlišitelné od placených odkazů (Atlas.cz) a na prvních pozicích zobrazují placené odkazy (Seznam, Centrum). Hodnocení relevance výsledků vyhledávání 57
Tamtéž DOLEŽAL, Pavel. Nejkvalitnější výsledky hledání v Česku poskytuje Google [online].30. 4. 2007 [cit. 2008-01-29]. Dostupné na WWW: . 58
25
je téměř nemožné, vezmeme-li v úvahu mnohoznačnost hledaných frází, nedostupnost objektivního měřítka informační kvality obsahu a skutečnost, že požadavky uživatelů se často velmi liší. Studie firmy Ataxo 59 dochází k překvapivému závěru: ačkoliv Google nepracuje s českým skloňováním a dalšími specifiky češtiny, jeho výsledky vyhledávání jsou v oblasti lokálního vyhledávání o poznání relevantnější než výsledky českých vyhledávačů. Rozdíly mezi ostatními vyhledávači nejsou velké, výsledky Atlasu z uživatelského hlediska nicméně velmi trpí nevhodným smíšením s placenými odkazy.
3-8 Metavyhledávače Princip práce metavyhledávacích nástrojů se liší od způsobu vyhledávání tradičními vyhledávači. Metavyhledávače totiž dotazy posílají simultánně do více vyhledávačů (rešeršních nástrojů), využívají existující indexy a databáze jiných vyhledávačů, aniž by používaly vlastní roboty a crawlery. Shromážděné výsledky jsou zobrazeny na jednom místě, v jednom výpisu a s odstraněnými duplikáty. Podle definice se jedná o „druh vyhledávací služby v prostředí internetu, která umožňuje uživateli na základě jednoho dotazu paralelní prohledávání databází několika vyhledávacích služeb.“60 Existuje celá řada metavyhledávačů, z nichž za všechny můžeme jmenovat Metacrawler, Clusty či Kartoo (ten nabízí i vizualizaci výsledků vyhledávání). Ty však pouze agregují výsledky běžných vyhledávačů. Z hlediska vědy a výzkumu jsou podstatné metavyhledávací služby, které umí z jednoho prostředí prohledávat knihovní katalogy, plnotextové databáze a citační rejstříky.61 Při použití metavyhledávacích nástrojů odpadá nutnost prohledávat různé zdroje separátně v prostředí různých vyhledávačů. Definici metavyhledávačů vyhovuje Jednotná informační brána (JIB).
3-8-1 Jednotná informační brána JIB je propojena se 113 českými i zahraničními zdroji, jako jsou například katalogy knihoven, souborné katalogy, plnotextové databáze, Google či Wikipedie. Jelikož některé uvedené zdroje jsou licencované (plný seznam je na webu JIB 62), přístup k nim je možný z prostředí knihoven nebo institucí, které mají zaplacený přístup.63 Bez ohledu na místo pobytu či registraci v knihovně však může každý využívat volně přístupné zdroje. Zdroje zpřístupněné v JIB tedy můžeme rozdělit na volně dostupné (zdarma) a licencované (dostupné pouze z 59
Tamtéž TDKIV – Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: . 60
61
Viz záznam 25 www.jib.cz 63 Tamtéž 62
26
určitých předem nadefinovaných IP adres).64 Jednotná informační brána vznikla jako společný projekt Národní knihovny ČR a Ústavu výpočetní techniky Univerzity Karlovy v roce 2002, od roku 2004 se jedná o projekt národní. Tyto instituce také zajišťují její provoz. Mezi výhody projektu patří snadný přístup k informacím z různých zdrojů z jednoho prostředí. Jedná se o otevřený systém, který lze rozšiřovat či mu naopak zužovat „rešeršní základnu“ v závislosti na licenčních právech toho kterého zdroje. Knihovny mohou v projektu získat výhodu v podobě odpadnutí nutnosti řešení technických problémů způsobených nekompatibilitou. Vyhledávání v JIB je realizováno přes graficky přívětivý formulář. V možnostech snadného hledání si můžeme vybrat skupiny zdrojů, chceme-li hledat české či zahraniční knihy, české nebo zahraniční články a česká periodika. V pokročilých možnostech vyhledávání lze v rolovacím menu určit výběrová pole (předmět, autor, název, ISBN, ISSN, rok vydání) a použít booleovské operátory. Dále lze v JIB vyhledávat podle zdroje (encyklopedie, plnotextové databáze), poskytovatele či kategorie (portály, historické fondy atd.). Kromě toho si v JIB můžeme vytvořit osobní profil, uložit formulace dotazů a výsledky vyhledávání do tzv. E-schránky či vybrat vlastní skupiny preferovaných zdrojů a s těmi nadále pracovat.
Obr 7: Vyhledávací rozhraní JIB. Zdroj. www.jib.cz
3-8-2 MetaCrawler a Dogpile MetaCrawler65 vznikl v roce 1994 na University of Washington. Tento metavyhledávací nástroj využívá databází a vrací výsledky z populárních vyhledávačů Google, Yahoo!, Live Search, Ask, About, MIVA (dřívě FindWhat.com), LookSmart a dalších.
64 65
Více informací: http://info.jib.cz/ http://www.metacrawler.com/
27
Stejně jako MetaCrawler i Dogpile66 patří společnosti Infospace a oba produkty jsou víceméně stejné co se týče použitého vyhledávacího rozhraní. V uživatelském rozhraní těchto metavyhledávacích nástrojů si můžeme nastavit vlastní předvolby. Ty zahrnují možnost filtrování explicitně sexuálního a hrubého obsahu ve třech úrovních (žádný, střední a těžký), zvýraznění klíčových slov (hledaných výrazů) tučným písmem a zobrazení posledních hledání. Kromě toho si můžeme nastavit způsob zobrazení výsledků na základě relevance, podle použitého vyhledávacího nástroje, zdroje (obrázek, audio či video) a/nebo dle data. Vyhledávání v Dogpile a MetaCrawleru se neomezuje jenom na základní hledání s použitím operátorů booleovské logiky, ale v rozšířených možnostech lze vybrat i jazyk stránek a (národní) doménu. Dogpile přeposílá dotazy do obecně známých vyhledávačů, jako jsou Google, Yahoo! Search, Live Search, Ask.com, About, MIVA, či LookSmart . Novinky Dogpile vyhledává v serverech ABC News, Yahoo News, FoxNews a Topix. Dogpile se kromě toho zaměřuje také na multimediální obsah - video, audio a obrázky.
Obr 9: Titulní stránka Metacrawler. Zdroj: www.metacrawler.com
66
www.dogpile.com
28
3-8-3 Clusty Mezi metavyhledávací nástroje patří i Clusty67 z produkce firmy Vivísimo. Výsledky získané hned z několika vyhledávacích služeb zobrazuje vlastním způsobem a s přidanou hodnotou. Podle zadaného tématu se výsledky seskupují do tzv. clusterů (shluků), což zvyšuje užitnou hodnotu vyhledávání. Díky tomu, že výsledky získáme roztříděné a vidíme je v souvislostech, lze na danou problematiku nahlížet z více hledisek a dostaneme se k dalším zdrojům. V levém panelu si můžeme vybrat požadovanou kategorii (shluk), v záložce „sources“ zjistíme, jaké výsledky nabízí ten který vyhledávač a záložka „sites“ nám výsledky roztřídí podle národních domén (com, edu, cz). Uživatelské rozhraní Clusty je velmi jednoduché a patří k tomu nejlepšímu na poli metavyhledávání. Clusty poslouží nejen jako „náhrada“ vyhledávače obecně , ale i jako plnohodnotný nástroj, který vám zpříjemní a usnadní proces vyhledávání. Základní vyhledávání umožňuje použití operátorů AND, OR, NOT (-) a frázové hledání zadáním dotazu do vyhledávacího pole s použitím uvozovek. Možnosti pokročilého vyhledávání lze vybrat formou dialogu, můžeme použít např. site:jménodomeny, které vrátí výsledky se specifickou doménou, např. site:cz najde české stránky, dále pak site:jménostránky.cz vrátí výsledky ze specifické stránky, např. site:ihned.cz bude prohledávat pouze tuto adresu a filetype:soubor – bude hledat požadovaný formát souborů (.doc, .xls., .ppt, atd.) např. filetype:pdf vyhledá dokumenty pouze v PDF formátu.
Obr 8: Vásledky vyhledávání Clusty. Zdroj: www.clusty.com
67
www.clusty.com
29
3-9 Google a googlování – fenomén doby Google dal světu synonymum pro vyhledávání – dnes se v běžné mluvě často používá „googlovat“ ve smyslu hledat na internetu. To také svědčí o úspěchu korporace, která začala s vyhledávačem a dnes nabízí celou rodinu produktů Společnost Google se během posledních let stala nepřehlédnutelnou. V dubnu 2007 byla ve výzkumu Brandz označena za nejdražší značku vůbec (její hodnota byla odhadnuta na 66 miliard dolarů)68 a její zisky se vyšplhaly ze 7 milionů dolarů v roce 2001 na sumu přesahující 4 miliardy USD. Klíčovou aktivitou Googlu je vyhledávání informací. Když firma v roce 1998 začínala v garáži s několik počítači, světová síť Internetu obsahovala už miliony stránek, ale Google indexoval pouhých 25 000 stránek. Google postavil svůj úspěch na prostém faktu, že zjednodušil proces vyhledávání a poskytl uživatelům požadované informace z široké škály zdrojů, v jazyce a místě, které si vyberou. Vše se přitom děje prostřednictvím jednoho prostého vyhledávacího pole. Jádrem vyhledávače Google je tzv. PageRank. Jedná se o algoritmus vyvinutý v rámci výzkumného projektu na Stanfordské univerzitě zakladateli společnosti Sergejem Brinem a Larrym Pagem, po němž nese jméno. Držitelem patentu PageRank je Stanfordská universita a Google má pouze práva na exkluzivní používání do roku 2011.
Obr 9: Hlavní stránka Googlu doplněná o další služby. Zdroj: www.google.com
68
Google Rises to the Top of the BRANDZ™ Ranking with a Brand Value of $66,434 Million. Business Wire [online]. 23. 4. 2007 [cit. 2008-02-11]. Dostupné na WWW: .
30
3-9-1 Page Rank jako reputační systém Google prochází a indexuje co největší množství stránek (v současnosti není počet stránek uveřejňován, ale v roce 2006 jich bylo přes 25 miliard),69 které prozkoumá jak z hlediska obsahu tak kvůli odkazům. Analýza zpětných odkazů funguje na podobném principu jako citace při hodnocení vědeckých prací, neboť každá stránka je hodnocena tím, kdo a jak na ni odkazuje. Hodnocení stránek pomocí algoritmu PageRank nepočítá přímé odkazy na stránku. Odkaz ze stránky A na stránku B interpretuje jako hlas odevzdaný stránce B stránkou A. Jedná se tak o největší reputační systém vůbec,70 neboť význam té které stránky je hodnocen podle počtu obdržených hlasů a reputace stránek, které takto svůj hlas odevzdaly. Ačkoli se to zdá jednoduché, je PageRank rovnicí o více než 500 milionech proměnných a dvou miliardách členů. Častým problémem na internetu je příliš velké množství dat, spojené s nemožností kvalifikovaně rozhodnout, která z nich jsou užitečná a která nikoliv. Je proto nutné nasazení reputačních systémů, které agregují velké množství ohlasů a na jejich základě pak přidělují hodnocení. V jádru takto funguje i PageRank, základní nástroj vyhledávače Google, který určuje relevanci stránky na základě její reputace: množství a váhy (odkaz z důležité stránky má větší váhu než z málo navštěvované) odkazů na ni směřujících.71
3-9-2 Vyhledávání v Google Google je především vyhledávač, ale do jeho rodiny patří řada dalších služeb a pod hlavičkou Googlu vzniká množství projektů. Vyhledávací rozhraní Googlu nabízí i mnohá vylepšení, která stojí za to zmínit:72 • kešování obsahu – zobrazení obsahu nalezené stránky přímo na webu Googlu; v případech, kdy originální obsah není dostupný • hledání podobných stránek – vyhledávač sám sestaví dotaz z obsahu vybrané stránky • automatizovaný překlad webových stránek – obsah nalezených stránek lze přeložit mezi angličtinou a arabštinou, čínštinou, francouzštinou, italštinou, japonštinou, korejštinou, němčinou, španělštinou a portugalštinou • hledání v různých databázích typu telefonní seznam či patenty podle jejich identifikátorů • číselné operace – vyhledávací pole lze použít jako jednoduchou kalkulačku či převodník fyzikálních jednotek a různých světových měn
69
Viz záznam 15 BATTELLE, John. 2006. The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture. New York: Portfolio. ISBN 1-59184-141-0. 71 Viz záznam 58 72 Podrobný popis výše zmíněných funkcí lze nalézt na www.google.cz/intl/cs/help/features.html. Citováno dle záznam 25 70
31
• přímý přístup k praktickým informacím – například hledání burzovních informací, předpověď počasí či informace pro cestovatele
3-9-2-1 Booleovské vyhledávání Řada vyhledavačů (nejen Google) umožňuje používat při vyhledávání operátory booleovské logiky, jako AND, OR a NOT. Standardně chápou výrazy jako spojené operátorem AND, čili výsledná stránka musí být relevantní pro všechna zadaná klíčová slova. Příklad: Vyhledávání Green Book vrátí stránky s výrazy Green a Book Vyhledávání "Green Book" vrátí stránky s frází "Green Book" Vyhledávání Green Book - John vrátí stránky s výrazy Green a Book, ovšem vyřadí všechny, kde je obsaženo slovo John Některé vyhledavače umožňují upřesňovat zadání pomocí dalších operátorů, např.: řada čísel: 12...18 vrátí vyhledávání čísel mezi 12 a 18. Nedávno upravené: inflation {frsh=100} najde všechny nedávno aktualizované dokumenty. MSN umožňuje zvýhodnit lokální dokumenty, Google zase stránky pouze v určitém jazyce. Příbuzné stránky: related:www.komora.cz najde stránky obsahově podobné webu Hospodářské komory ČR. Typ souboru: Inflation filetype:PDF najde PDF dokumenty o inflaci. Doména: GDP inurl:.edu Stránky se zmínkou o HDP na topdoménách .edu, které jsou vyhrazeny vzdělávacím institucím.
3-9-3 Google a jeho služby Ačkoli je Gooogle neustále vylepšován, většiny změn si návštěvník na první pohled nevšimne. Hranice webu se posouvají a internet nabízí i obsah, který byl dříve nedostupný nebo se na internetu obtížně hledal. Google svou pozornost upřel zejména na zpravodajství, knihy a mapy.
3-9-3-1 Google News Google News (http://news.google.com/) zveřejňuje nejčastěji hledané zprávy a seřazuje je tak, aby ty nejdůležitější byly zobrazeny jako první. Čerpá přitom z více než 400 zpravodajských kanálů v českém jazyce. Uživatel tak může mít pohled na věc z různých perspektiv. Tato zpravodajská služba nemá žádné lidské editory, výsledky jsou sestaveny pomocí počítačových algoritmů a nehrozí tak ideologické zaujetí. Události jsou na Google News aktualizovány každých 15
32
minut. Zpravodajský portál Googlu byl doplněn o Google News Archive Search, který vyhledává zprávy hluboko v minulosti – v archivu za minulá dvě století.
Obr 10: Hlavní stránka Google News. Zdroj: www.google.com
3-9-3-2 Google Book Search a Scholar Služba Google Book (http://books.google.com) umožňuje vyhledávat knihy v nejrůznějších světových jazycích. Její index nyní obsahuje knihy ve více než 100 jazycích. Google spolupracuje s více než 10 000 nakladateli i s nejvýznamnějšími vědeckými knihovnami na digitalizaci plných textů knih. V případě, že vydavatel k tomu dal svolení nebo se na knihu nevztahují autorská práva, je možné zobrazit náhled či celý text. Pokud je kniha veřejně k dispozici, lze si ji uložit ve formátu PDF a vytisknout. U každé knihy jsou k dispozici alespoň základní bibliografické údaje. Tato služba zatím není dostupná v češtině, pouze vyhledávací rozhraní a nápověda jsou lokalizované. Digitalizované knihy v programu Google Book Search můžeme vyhledávat i prostřednictvím Jednotné informační brány (www.jib.cz). Jen na okraj zmiňuji také Google Scholar. Ten slouží k vyhledávání akademických prací (diplomové práce, odborné studie, abstrakty a články) z jednoho místa. Scholar podporuje běžné vyhledávací operátory a v rozšířených možnostech také omezení výsledků jen na konkrétního autora, název práce nebo dobu publikování. Google Scholar pak mezi výsledky hledání zobrazí i odkaz na knihovnu, jež daný zdroj zpřístupňuje, nebo odkazy na související články.
3-9-3-3 -Google Finance Na webu Google Finance (http://finance.google.com/) najdeme kromě informací o akciích a profilů společností také aktuální grafy doplněné souvisejícími zprávami z databáze Google News. Služba zobrazuje příjem firmy, kontaktní informace a profily zástupců firem. Google Finance spolupracuje s dodavateli jako Reuters Group PLC, Morningstar, Dun & Bradstreet Corp’s Hoovers a Revere Data LLC. Google Finance je podobný Yahoo Finance (případně MSN Money), kde dost
33
možná najdeme více informací, ale také více reklamy. Všechny údaje jsou zveřejňované s prodlevou 15 minut od Nasdaq Stock Market a 20 minut od New York Stock Exchange.
4 Neviditelný web Internet, nedozírný celosvětový prostor počítačů propojených síťovým protokolem TCP/IP, se dělí na povrchový a neviditelný (invisible, hidden, deep web nebo také dark matter). Vyhledávání informací na internetu si můžeme představit jako vláčení sítě pod hladinou oceánu. Zatímco do „sítí“ vyhledávačů se chytí hodně informací, stále jich velké množství zůstává ukryto v hlubinách. Většina informací je totiž „schována“ v dynamicky generovaných stránkách, ke kterým se standardní vyhledávače nemohou dostat. A protože velká část informací na internetu není přístupná většině vyhledávacím nástrojům, je potřeba použít některý ze speciálních nástrojů, který nás ke skrytému obsahu dovede.
4-1 Definice neviditelného webu Viditelný web je to, co vidíte ve výsledcích běžných vyhledávačů. Ty k odhalování webu používají programy - roboty („crawlery“, anglicky často také spider – pavouk) procházející a indexující stránky na webu prostřednictvím hypertextových odkazů. Jsou to softwarové programy nebo skripty, které mechanicky a automatizovaně procházejí world wide web. Pokud narazí na databázi zdrojů, kde je nutné se zaregistrovat či zahájit vyhledávání zadáním klíčového slova, jsou crawlery bezradné a databáze jsou pro ně neviditelné. Jedna z definic neviditelného webu postuluje: „Internetové informační zdroje, jejichž obsah není dostupný prostřednictvím standardních vyhledávacích strojů. Může se jednat o informace, které jsou uloženy v databázích a generují se dynamicky až na základě interakce uživatele se systémem (např. online katalogy knihoven nebo bibliografické báze dat) nebo o informace, ke kterým je přístup chráněn heslem a jsou dostupné pouze autorizovaným uživatelům, často pouze na komerční bázi (plné texty časopisů apod.). Běžné vyhledávací nástroje (vyhledávací stroje) nemohou podobný typ informací ve svých databázích registrovat, buď pro technická omezení nebo proto, že je jejich robotům vstup do těchto zdrojů zakázán. Vyhledávací služby sice poskytnou informaci o existenci podobného informačního zdroje, ale nevyhledají informace, které jsou v něm obsaženy. Některé vyhledávací služby však již tyto informace dokáží zpracovávat (např. vyhledávací stroj Scirus - Elsevier Science).“ 73
73
TDKIV – Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: .
34
Tu část internetu, kterou vyhledávače z různých důvodů nemohou indexovat, nazýváme neviditelným webem. Jinými slovy, neviditelný web je část internetu těžce dosažitelná pro indexující roboty vyhledavačů (a proto z jejich pohledu neviditelná). Obsah neviditelného webu jsou tedy všechny informace v elektronické a sdílené podobě, které nemůžeme objevit pomocí vyhledávačů a jejich odkazů ve vyhledaných výsledcích. Jedná se o prohledávatelné databáze, kde musíme zadat konkrétní dotaz. Výsledky v těchto speciálních databázích jsou doručovány v podobě dynamicky generovaných stránek a jsou dostupné jen po dobu, co si je prohlížíme (databáze neukládají výsledky všech možných dotazů na všechny možné termíny). Zjednodušeně řečeno je neviditelný web ta část obsahu World wide webu, která není součástí povrchového webu indexovaného vyhledávacími stroji. Může se zdát, že všechny zdroje jsou přístupné prohledáváním povrchového webu. Mnoho zdrojů je uzamčeno v databázích, ze kterých jsou webové stránky generovány prostřednictvím vyhledávacího dotazu. Tyto stránky sice mají unikátní URL adresu, ale není možné se k nim dostat, neboť nejsou uloženy jako statické stránky a není na ně odkazováno. Hluboký web zahrnuje také zdroje, které vyžadují registraci a/nebo jsou zpoplatněny
4-2 Historie neviditelného webu Pojem neviditelný web poprvé použila americká knihovnice Jill H. Ellsworth v roce 1994.74 Označila tak informace, které nebylo možné najít pomocí tehdejších vyhledávačů.75 Různé zdroje uvádí, že mezi první vizionáře používající výraz „neviditelný web“ patřili Bruce Mount a Mathew B. Koll ze společnosti Personal Library Software, když se pokoušeli popsat vyhledávač nazvaný AT1. Termín invisible web použili v tiskové zprávě k uvedení jejich nástroje k prohledávání hlubokého webu. Specificky termín „deep web“ spolu s bližším vysvětlením poprvé použil Michael K. Bergman ve své studii 76, kde rovněž provedl patrně první přesnější odhad velikosti a struktury hlubokého webu. Historie neviditelného webu je pevně spjata s rozvojem webu a zejména s historií vyhledávacích nástrojů.
4-3 Vymezení neviditelného webu Jedním z paradoxů neviditelného webu je skutečnost, že je velmi snadné porozumět tomu, proč existuje, ale je velmi těžké ho definovat konkrétními a 74
BERGMAN, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing [online]. 2003. [cit. 2008-02-11]. Dostupné z: . 75 "It would be a site that's possibly reasonably designed, but they didn't bother to register it with any of the search engines. So, no one can find them! You're hidden. I call that the invisible Web." 76
Viz záznam 74
35
specifickými pojmy.77 Je jisté, že v hlubokém webu se skrývá nemírné informační bohatství. Obsah neviditelného webu je totiž z velké části tvořen z hodnotných akademických databází. Zdroje v neviditelném webu můžeme rozdělit do následujících kategorií:78 Dynamický obsah – dynamicky generované stránky, které požadovanou informaci vrátí jenom na základě přímého dotazu (vyplnění vyhledávacích polí) a které jsou dostupné prostřednictvím formuláře. Takový obsah je „uzamčen“ v databázích - jedná se o informace a data uložená komerčních databázových centrech, digitálních knihovnách a v on-line katalozích. Kromě toho tam patří také institucionální zdroje citlivé na ochranu, elektronické časopisy, knihy a sborníky, na které se vztahují autorská práva a jejich obsah je rovněž zpoplatněn Neprolinkovaný obsah – stránky, na které není odkazováno, jsou nedostupné pro crawlery, indexující web. Do tohoto druhu obsahu můžeme zařadit stránky, na které nevedou žádné přímé a neobsahují ani zpětné odkazy. Soukromé weby – zdroje chráněné heslem, vyžadující registraci a login. Autorizovaný obsah, který může i nemusí být zpoplatněn. V takovém případě je obsah těchto stránek vyhledávačům zcela nepřístupný. Kontextuální weby – stránky s obsahem, který se mění podle toho, v jakém kontextu k němu uživatel přistupuje. Stránky ke kterým bychom se nedostali bez zadání přesné navigační sekvence, stránky omezené pro určité IP adresy apod. Obsah s omezeným přístupem – weby, které omezují přístup k obsahu na základě technologických omezení. Jsou to stránky, které využívají Robots Exclusion standard,79 jsou zabezpečené testem CAPTCHA,80 nebo mají zakódovaný příkaz no-cache, který zabraňuje vyhledávači vytvořit kešovanou kopii. Skriptovaný obsah - Stránky, na něž se dostaneme prostřednictvím odkazů vytvořených v JavaScriptu. Do oblasti neviditelného webu v této kategorii patří i „dynamický“ obsah, který je z webového serveru stažen přes Flash nebo AJAX. 77
SHERMAN, Chris – PRICE, Gary. The Invisible Web. Independent Pub Group, 2001. s. 55. ISBN 09109-6551-X. 78 Deep Web. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: < http://en.wikipedia.org/wiki/Deep_web>. 79 Robots.txt - Jedná se o textový soubor, který povolí nebo zakáže přístup crawlerů a dalších botů. Tento soubor se musí nacházet v kořenovém adresáři daného webu. 80 CAPTCHA je Turingův test, který se používá pro odlišení uživatelů od robotů. Je to akronym pro Completely Automated Public Turing test to tell Computers and Human Aparts. „Test spočívá zpravidla v zobrazení obrázku s deformovaným textem, přičemž úkolem uživatele je zobrazený text opsat do příslušného vstupního políčka. Předpokládá se, že lidský mozek dokáže správně rozeznat i deformovaný text, ale internetový robot při použití technologie OCR nebude schopen text správně rozpoznat. Důvod, proč se CAPTCHA vůbec používá, je ten, že bez něj by se do různých diskusních fór pomocí spamových robotů dostalo velké množství spamu, který ve velké míře chrlí některé spamové servery. Nevýhodou obrázkové CAPTCHA je nepřístupnost pro zrakově postižené uživatele. “ Citováno dle záznamu 66
36
Obsah ve specifickém formátu – Obsah, který není v obvyklém formátu, s kterým umí operovat vyhledávače. Textový obsah může být například kódovaný do multimediálních souborů (obraz nebo video) či uložený ve specifických formátech.
4-4 Struktura hlubokého webu Internet můžeme také rozdělit do 4 vrstev. V první vrstvě jsou statické webové stránky, ke kterým se uživatelé dostanou velmi snadno, neboť jsou indexovány vyhledávači. Jedná se o hlavní stránky webových prezentací apod. Ve druhé vrstvě jsou uloženy stránky se speciálním obsahem, třetí a čtvrtá vrstva tvoří hluboký web. Struktura hlubokého webu je tvořena dynamickým obsahem databází a privátními stránkami.
Obr 11: Strukrura webu podle obsahu Chris Sherman a Gary Price rozdělili obsah hlubokého webu do následujících oblastí:81 Opaque web, soukromé a proprietární weby a pravý neviditelný web. Pojďme se na ně podívat blíže. 81
Viz záznam 65
37
4-4-1 Opaque web Opaque web neboli temný, neprůhledný web. Obsah tohoto druhu neviditelného webu je v porovnání se skutečným neviditelným webem mnohem těžší najít. Přitom obsah temného webu mohou vyhledávací nástroje sbírat a indexovat, ale z mnoha důvodů se tak neděje. Jednou z příčin, proč obsah temného webu není indexován vyhledávači, je fakt, že hloubka sběru dat není dostatečná; jinými slovy, vyhledávače jdou při procházení daného webu příliš po povrchu. Domnívám se, že kromě finančních důvodů (je rozdíl v ceně indexace jedné, padesáti, nebo pěti tisíc stránek dané webové prezentace) zde vyhledávače naráží na technické limity. Omezení, proč vyhledávač zaindexuje jen určitý počet stránek, je dáno kromě jiného i tím, že část obsahu webu není provázána hypertextovými odkazy a obsah je generován na základě specifické navigační sekvence, potažmo skriptem běžícím na webovém serveru. Crawlery javaScriptové příkazy většinou ignorují a materiál v JavaScriptovém vyskakovacím okně nemůže být indexován.82 Počet indexovaných stránek se však neustále zvyšuje (což dokládají další kapitoly) a je reálná naděje, že hlubiny temného (opaque) webu se budou postupně odkrývat. Kromě hloubky procházení jde též o frekvenci procházení. Zatímco těm největším vyhledávačům jistě nebude činit problémy projít denně desítky miliónů stránek, menší vyhledávače v takovém objemu zřejmě neindexují. Navíc se může stát a stává se, že během jedné hodiny jsou staré stránky nahrazeny novými, nezaindexovanými. Dokud vyhledávač nově vzniklý obsah nezaindexuje, tvoří tento neviditelnou část webu. Dalším důvodem jsou odpojené a nefunkční URL odkazy. Jsou dva způsoby, proč a jak vyhledávač navštíví danou stránku.83 V prvním případě někdo zaregistruje adresu stránek prostřednictvím speciálního formuláře přímo ve vyhledávači a ten následně web zaindexuje. Druhým způsob je běžná práce vyhledávačů - crawler najde URL odkaz přes který se dostane k webu. V případě, že na stránku nevedou žádné odkazy, se vyhledávač na stránku sám nedostane – nemá jak. Společná studie IBM, Compaq a AltaVista84 z roku 2000 uvádí, že celkový počet odpojených URL adres není zanedbatelný – jedná se zhruba o 20 % potenciálně indexovatelného webu. Jiný zdroj však uvádí, že se jedná o přibližně 10 % takto odpojeného obsahu.85
82
LHOTÁK, Martin. Neviditelný web - co vyhledávací stroje nenajdou encyklopedie [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: .
83
Viz záznam 65, s. 72 Tamtéž 85 Viz kapitolu: 1-3 Důsledky teorie motýlka 84
38
4-4-2 Soukromé a proprietární weby Technicky vzato se jedná o obsah, který může být zaindexován, ale z vůle majitelů stránek (webmasterů) se tak nemůže stát. Důvodů je několik. Stránky mohou být chráněné heslem, využívat ochranu proti robotům (případně obsahují „noindex“ meta tag). Můžeme se domnívat, že stránky chráněné heslem nejsou tak informačně bohaté a slouží pouze omezené skupině lidí. V případě proprietárního webu se jedná o obsah, který může být informačně hodnotný a může mít potenciál pro vědu a výzkum. Do této kategorie spadá oblast webů, které jsou přístupné na základě registrace a vyžadují vyplnění formuláře. Nemusí jít nutně o placený obsah – registrace je v mnoha případech zdarma a návštěvník tak „platí“ svými osobními údaji nebo jen e-mailovou adresou. Součástí proprietárního webu jsou samozřejmě také weby placené. Některé na základě paušálního poplatku, jiné za cenu jednorázového přístupu. Tradiční poskytovatelé informací typu Dialog, LexisNexis či DowJones do oblasti proprietárních webů nespadají. Tyto služby sice mají zpoplatněný přístup přes webové rozhraní, ale nabízejí informace, které jsou součástí jejich vlastních databází, jež existovaly dlouho před tím, než byl vynalezen web.86
4-4-3 „Pravý“ neviditelný web Webové stránky, jejichž obsah nemůže být z technických důvodů procházen vyhledávači a indexován, nazýváme opravdu neviditelným (truly invisible).87 Pokud se na stránkách vyskytuje obsah v některém z problémových formátů, pak jej crawlery vyhledávačů nezaindexují. Dlouhou dobu byl takto neviditelný formát PDF, ale dnes jej např. Google indexuje zcela běžně. Ten dokonce všechny tyto formáty převádí na HTML formát s tím, že ve výstupu nabídne „zobrazit jako text /HTML. Mezi problematické formáty patří např. PostScript, Shockwave, Flash, spustitelné soubory, streamované video a komprimované soubory. Pravý neviditelný web ovšem tvoří také dynamicky generované stránky. Nejedná se o ani tak o technický problém, ale často o neochotu následovat odkaz obsahující skript či příkaz. Crawlery často ignorují skripty v URL odkazech, protože bývají zneužívány ke spamování vyhledávače a pod. Informace uložené v relačních databázích řadíme rovněž do sféry „pravého“ neviditelného webu. Jedná se totiž o materiál generovaný na základě specifického dotazu. Crawlery nejsou naprogramované na zadávání dotazů v konkrétním dotazovacím jazyce a nerozumí ani databázové struktuře daného webu. Přitom propojení HTML obsahu a relačních databází je již dlouhou dobu velmi populární. Značná část webů je
86 87
Viz záznam 65, s. 74 Tamtéž
39
vytvořena kombinací značkovacího jazyka HTML a skriptového jazyka PHP a napojená na relační databáze (MySQL, MS SQL atd.).
4-5 Velikost neviditelného webu Velikost neviditelného webu je velmi obtížně měřitelná, což dokazuje i to, že nejvýznamnější studie této oblasti se rozcházejí a jsou v akademických kruzích vzájemně zpochybňovány. Kalifornská univerzita v Berkeley publikovala studii s názvem „Kolik je tam informací?“ (How much information is there?) 88, která odhaduje, že hluboký web může obsahovat 91000 TB dat, přičemž povrchový internet je velký pouhých 167 TB. Pro srovnání, Kongresová knihovna (Library of Congress) obsahuje přibližně 11 TB informací. Podle výzkumu Michaela K. Bergmana89 (BrighPlanet, 2000) je množství informací v hlubokém webu asi 400 až 550krát větší než na běžně dostupném internetu.
Hlavní rysy neviditelného webu: o hluboký web obsahuje asi 7500 terabytů informací oproti 19 TB v povrchovém webu a 550 biliónů jednotlivých dokumentů oproti jednomu bilionu na povrchu, o 60 největších databázových center soustřeďuje asi 750 TB informací, což 40x přesahuje velikost běžně dostupného internetu, o
hluboký web je nejrychleji rostoucí oblastí nových informací na internetu,
o informace v neviditelném webu jsou mnohem detailnější a tématické oblasti užší, o více než polovina obsahu neviditelného webu se nachází v předmětových databázích a 95 % jeho obsahu není zpoplatněna a je veřejně přístupná. Metodologickou stránku Bergmanovy kalkulace kritizoval prof. Dirk Lewandowski z Heinrich Heyne Universität v Dusseldorfu.90 Podle něho se jedná o nadhodnocený výpočet. Ke kritice se připojil také Chris Sherman a Gary Price v knize Invisible Web: Uncovering Information Sources Search Engines can‘t
88
LYMAN, Peter - HAL R. Varian. How Much Information? 2003. [online]. [cit. 2008-02-14]. Dostupné na WWW: .
89
Viz záznam 74 LEWANDOWSKI, Dirk – MAYR Philipp. Exploring the Academic Invisible Web. [online]. 2008 [cit. 2008-04-08]. Dostupné na WWW: 90
40
see.91 Podle něho jsou ve studii uváděny i specializované adresáře, které běžné vyhledávače dokáží indexovat. Kritizovaná studie BrightPlanet také do svého výpočtu prý zahrnovala nerelevantní zdroje obsahující pomíjivá data o počasí a výsledky astronomických měření, které z hlediska výzkumu nemají prakticky žádný potenciál. Novější zdroje uvádí, že neviditelný web je 2 – 50krát větší než viditelný.92 Je však potřeba si uvědomit, že zatímco čísla týkající se kvantity je obtížné přesně určit a mohou růst, poměr hlubokého a povrchového webu se výrazně nemění.
4-5-1 Kritika Bergmanovy kalkulace Cílem této podkapitoly není kritizovat Bergmanovu vědeckou práci, která byla bezpesporu velmi záslužná, ale spíše ilustrovat obtížnost měření velikosti hlubokého webu. Michael K. Bergmann je v oblasti neviditelného webu jedním z nejcitovanějších vědců. Jeho výpočet velikosti neviditelného webu byl v tomto směru vůbec prvním pokusem. Přesto jeho kalkulace trpí závažnými nedostatky. Jak již bylo uvedeno, podle Bergmana je neviditelný web asi 550krát větší než povrchová část internetu a obsahuje přibližně 550 miliard dokumentů. Bergmanův výpočet vychází ze seznamu 60 databází ukrytých ve skrytém webu. Tento seznam sestavil manuálně na základě výběru z různých adresářů poté, co byly odstraněny duplicity. Bergmanův seznam „Top 60“ zdrojů přitom obsahoval 85 miliard dokumentů s celkovou velikostí 748,504GB.93 První dva zdroje přitom dohromady obsahovaly celkem 585,40GB, což je více než 75 procent celkového množství všech zdrojů uvedených v „TOP 60“. 94 Dalším Bergmanovým předpokladem bylo, že v hlubokém webu existuje přibližně 100 000 databází. Toto číslo vyhází z jeho srovnávací analýzy napříč největšími adresáři neviditelných zdrojů. Bergman dále ve výpočtu použil průměrnou hodnotu, kdy jedna neviditelná datábaze měla obsahovat 5,43 miliónu dokumentů. Na základě toho Bergman vypočítal celkovou velikost neviditelného webu (průměrná velikost jedné databáze vynásobená počtem databází) a vyšlo 543 miliard dokumentů. Ve vztahu k tehdejší odhadované velikosti povrchového webu v čase výzkumu (2001), která činila 1 miliardu dokumentů (Lawrence a Gilles, 1999), Bergman stanovil, že neviditelný web je 550krát větší než povrchový web. Tato čísla byla následně upravena (Sherman, 2001), ale nikdo nevyvětlil, v čem udělal Bergmann základní chybu. Odpovědí byl výzkum Dirka Lewandowskeho a Philippa Mayra.95 Ti určili, že chybou v kalkulaci bylo použití průměrné hodnoty pro odhad celkové velikosti. Zatímco průměrná velikost jedné databáze byla velmi vysoká (5,43 miliónu dokumentů), střední hodnota (medián) velikosti všech databází byla relativně nízká – pouze 4 950 dokumentů. Pokud se podíváme na na 91
SHERMAN, Chris – PRICE, Gary. The Invisible Web, Uncovering Information Sources Search Engines Can’t see. Independent Pub Group 2001, ISBN 09-109 6551-X. 92
Tamtéž. Viz záznam 78 94 Viz záznam 79 95 Tamtéž 93
41
Bergmanův TOP60 seznam zdrojů, pak vidíme, že křivka s velikostí databází je velmi skosená.
Graf 4: Velikost datábází v Bergmanově TOP60 Dalším úskalím Bergmanova výpočtu je skutečnost, že pracoval s velikostí dat v GB namísto s počtem záznamů v té které databázi. Toto se jeví jako obzvláště problematické, neboť velikost jednotlivých záznamů se liší – a záleží na použitých typech dat a dokumentů (obrázky, bibliografické záznamy, plné texty záznamů, tabulky, atd.). Bergman tedy udělal první chybu statistickou, když použil průměr místo střední hodnoty a podruhé chyboval v určení velikosti dat v GB. Nás by však mělo spíše zajímat, jaká část neviditelného webu obsahuje akademicky relevantní obsah.96 Když se podíváme na Bergmanův seznam TOP60 zdrojů, shledáme, že opravdu 90 procent by mohlo být označeno jako akademický obsah, nicméně jestliže bychom ze seznamu vynechali databáze obsahující syrová data, zúží se podíl akademického obsahu na pouhá 4 procenta, která korespondují s obsahem uloženým v povrchové části webu (Lawrence a Gilles, 1999). Převážná část Bergmanova neviditelného webu je tvořena syrovými daty, jako jsou satelitní obrázky Země. Pouhé záznamy v těchto databázích mohou být větší než některé (rozsáhlé) textové databáze.
96
Viz záznam 78
42
3-7 Akademický neviditelný web Při studiu neviditelného webu se nelze vyhnout souvislostem spojeným s obsahem databází, neboť problém neviditelného webu je hlavně problémem obsahu databází.97 Je důležité mít na paměti, že pro akademický sektor jsou vybrané zdroje v povrchovém webu stejně hodnotné, jako ty ukryté v hlubokém webu. Akademický neviditelný web se skládá převážně z databázích relevantních akademické sféře. Akademický neviditelný web se skládá z databází, které by knihovníci indexovali - pokud by to bylo možné – a je tvořen především textovými dokumenty (v různých formátech, jako jsou PDF, PPT, DOC). Z výše uvedeného vyplývají následující premisy:98 o Neviditelný web se týká databází o Zdroje v povrchovém webu jsou stejně důležité jako zdroje ve skrytém webu o Akademický neviditelný web obsahuje relevantní obsah pro univerzity o Akademický neviditelný web obsahuje databáze, které by knihovníci měli indexovat
Do oblasti akademického neviditelného webu patří všechny relevantní zdroje pro vědecké procesy a jeho obsah tvoří zejména literatura (článků, disertací, reportů, elektronických knih atd.) a výzkumná data. 99 Poskytovatelé obsahu akademického neviditelného webu jsou dodavatelé či producenti databází, kteří klasifikují bibliografické záznamy podle předmětu, tezauru apod. V tomto případě se jedná o lidské indexování. Komerční vydavatelé nabízejí převážně plnotextový obsah. Knihovny naopak vytváří bibliografické záznamy v katalozích OPAC (Online Public Access Catalogue). Jejich obsahem jsou katalogizační a bibliografické záznamy primárních dokumentů a informačních pramenů a jsou přístupné přes webové rozhraní. Definice OPAC nám říká, že se jedná o „veřejně dostupný on-line katalog určený uživatelům knihovny. Kromě vlastního vyhledávání záznamů dokumentů obvykle také zpřístupňuje řadu dalších služeb, např. umožňuje správu uživatelského konta, přístup k dalším informačním zdrojům apod.“100 Kromě výše uvedeného Lewandowski do akademického neviditelného webu zařadil také zdroje v korporátních repozitářích společností (např. Association for Computing Machinery) a jiné veřejně přístupné digitální knihovny a repotitáře (např. Citebase, OpenROAR). Lewandowski také uvedl, že spousta materiálů v 97
Tamtéž Tamtéž 99 Tamtéž 100 TDKIV – Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: . 98
43
uvedených zdrojích nemusí být součástí akademického neviditelného webu, ale ve skutečnosti nejsou pokryty vyhledávacími nástroji.101 V roce 199 byl proveden výzkum,102 který určil, že pouze 6 % všech webových severů obsahuje vědecký obsah. Rozdělení informací povrchového webu je podle tohoto výzkumu následující. Zhruba 83 % webových serverů prý obsahuje komerční obsah (například domovské stránky společností). Rozdělení ostatních serverů je patrné z následujícího grafu.
Obr 12: Rozdělení serverů. Zdroj: Lawrence - Gilles
5 Hledání v neviditelném webu V následující kapitole si shrneme důvody, proč hledat v hlubinách skrytého webu. Kromě toho, že hluboký web nabízí specifické výsledky z tematicky zaměřených zdrojů, umožňuje též lepší kontrolu nad nalezenými výsledky. Asi každý zná situaci, kdy na přímý vyhledávací dotaz obdržel nepřebernou množinu výsledků a následně se probral jen prvními několika málo zdroji, aniž by to bylo k užitku. V databázích neviditelného webu si můžeme přesně určit, jaké výsledky budeme chtít vrátit (v časovém rozmezí, podle druhu zdroje atd.). Velmi důležitá je taky skutečnost, že velká část zdrojů v neviditelném webu je tvořena akademicky hodnotnými zdroji. Jak výstižně popsal Chris Sherman v článku „Invisible web“, primárně jde o čas a zvolení správného nástroje: „Dobrý knihovník by nikdy nezačal s hledáním telefonního čísla (specializovaná informace z neviditelného webu) listováním v Encyclopedii Britanica (obecně známý zdroj). Profesionální a zběhlý rešeršér by se minimálně mohl obávat toho, 101
Viz záznam 65 Lawrence, S. - Giles, C.L. (1999), "Accessibility of information on the web", Nature, Vol. 400, s. 107109.
102
44
že ztratí příliš mnoho času a nenajde informace, které jsou jinak snadno dostupné použitím správného nástroje.“ 103
5-1 Proč hluboký web? Proč by si měl uživatel vybrat zdroje v neviditelné webu k uspokojení svých informačních potřeb? Obecně využitelné a univerzální vyhledávací nástroje nebo adresáře jsou uživatelsky přívětivé a snadno se používají. Protože jsou tak přístupné a zdánlivě všemocné, nabízejí zdroje určené především pro masu uživatelů a snaží se nabídnou „pro každého něco“. Zdroje v neviditelném webu jsou více zaměřené na danou problematiku, jdou více do hloubky a k tématu nabídnou lepší výsledky.104 Jedná se o konflikt mezi rychlostí hledání a přesností výsledků. Vyhledávací nástroje v tomto směru nabízí kompromis mezi hledáním správné odpovědi, hledáním nejlepší odpovědi a hledáním nejsnazší odpovědi.105 Akademické instituce, univerzity a vzdělávací organizace však potřebují co nejpřesnější odpovědi a vyčerpávající informace. Výsledky hledání v tradičních vyhledávačích často nabízí povrchní zdroje, referáty, populárně naučné články či seminární práce, které z hlediska výzkumu a vědy nemají žádný význam. V následujícím členění jsem se inspiroval v knize Invisible Web.
5-1-1 Specifický obsah Databáze v hlubokém webu mají specifický obsah a nabízí vyčerpávající výsledky. Zdroje v neviditelném webu jsou tematicky zaměřené a nabízí „výživné“ informace ke konkrétnímu problému. Do oblasti neviditelného webu spadají databáze akademických institucí, databáze plných textů odborných článků a vědeckých pojednání. Svou roli zde hraje čas – výzkumníci na univerzitách nejsou časem omezeni. Důležitější než rychlost hledání je přesnost nalezených výsledků.106 Pokud existuje časové omezení, výzkumník si určí vlastní dobu hledání a raději dá přednost relevantním výsledkům před nejrychleji vráceným výsledkům z tradičních vyhledávačů. Pokud použije konveční způsob hledání informací v běžných vyhledávačích (typu Google) a precizuje vyhledávací dotaz, nemusí to znamenat, že ztratí mnoho času probíráním se houštinou nalezených výsledků z povrchového webu. V kvalitních databázích jsou uložené vyčerpávající informace, ke kterým se crawlery univerzálních vyhledávačů nedostanou.
103
Viz záznam 8 Viz záznam 65, s.92 105 Tamtéž 106 Tamtéž 104
45
5-1-2 Vyhledávací rozhraní Specifické vyhledávací rozhraní nabízí lepší kontrolu nad nalezenými výsledky. Speciální databáze v hlubokém webu disponují specifickým vyhledávacím rozhraním. Univerzální a tradiční vyhledávače jsou často vybaveny pouze jedním vyhledávacím formulářem pro základní hledání a rozšířeným vyhledávačem pro přesnější zadání dotazu. Vyhledávací rozhraní speciálních databází kombinují několik polí pro zadání přesného dotazu. Naše vyhledávání můžeme omezit na základě relevance, data, retrospektivy apod. Můžeme hledat podle autorů, názvů vědeckých prací, podle oborů a jiných kritérií. Speciální vyhledávací rozhraní té které databáze nabídne daleko přesnější výsledky, ušetří čas probíráním se množinou odkazů a umožní pracovat jen s relevantním materiálem. Zdroje v neviditelném webu umožňují konkrétnější a přesnější hledání a nad zobrazeným výsledky tak máme lepší kontrolu.
5-1-2 Přesnost a úplnost Měřítkem výkonu vyhledávacích nástrojů jsou podle Shermana a Pricea107 dva základní faktory: Přesnost a úplnost.108 Úplnost (recall) podle nich reprezentuje poměr celkového počtu relevantních záznamů získaných v důsledku specifického vyhledávacího dotazu a celkového počtu relevantních dokumentů v celém indexu daného vyhledávače. 100% „úplnost“ znamená, že vyhledávač vrátí všechny relevantní dokumenty ze svého indexu, které korespondují se zadaným dotazem. Úplnost je vyvážená přesností. Přesnost (Precision) je poměr počtu vyhledaných relevantních dokumentů a celkového počtu vyhledaných dokumentů. Jestliže vyhledávač vrátí 100 výsledků a pouze 20 jich je relevantních, přesnost odpovídá percentilu 20% (100/20). Přesnost však není objektivně měřitelná, protože informační hodnota se liší podle informačních potřeb a každý hledá něco jiného. Pro někoho může být relevantní takový dokument, který pro ostatní nemá žádnou informační hodnotu. Vyhledávače se snaží simultánně dosáhnout co nejlepšího poměru přesnosti a úplnosti, ale v praxi se jim to příliš nedaří. Velikost indexů vyhledávačů se neustále zvyšuje – indexují více a více relevantních dokumentů pro daný dotaz, čímž se zvyšuje úplnost. Když se zvyšuje úplnost, sníží se tím přesnost, protože pro hledající je těžší lokalizovat relevantní dokument v rostoucí množině redundantních výsledků.109 Zdroje v neviditelném webu (s omezením hledání dle tématu či předmětu) nabízejí vyšší přesnost, zatímco se zvyšuje celková úplnost. Rešeršér se nemusí prodírat džunglí 1 000 000 vyhledaných
107
Viz záznam 65, s. 94 Jedná se o běžně používané pojmy v informační vědě. Použil jsem srozumitelný výklad Shermana a Pricea 109 Tamtéž 108
46
záznamů, z čehož vyplývá vysoká přesnost nalezených záznamů a vyšší informační hodnota pro hledajícího.
5-1-3 Vyšší odbornost Zdroje v neviditelném webu nabízí vyšší úroveň odbornosti. Mnoho zdrojů v neviditelném webu se pyšní skvělou reputací mezí knihovníky a odbornou veřejností. Dostanete se k mimořádně rozsáhlým kolekcím informačních zdrojů, k hodnotným a prestižním databázím a k unikátním specializovaným zdrojům. Nejde však jen o exkluzivní obsah; v hlubokém webu jsou specializované databáze, které umožňují vytvářet citační analýzy trendů v oborech, sledovat nejnovější literaturu či dokonce vytvářet citační mapy.110
5-1-4 Informace jsou zdarma dostupné Informace nejsou nikde jinde dostupné. Takové je myšlení většiny uživatelů vyhledávačů typu Google. Růst webu spolu s relativně snadným způsobem hledání on-line informací vytváří mylný předpoklad, že to, co není dostupné online přes běžné vyhledávače, neexistuje. Obrovské množství informací je zpřístupněno přes webová rozhraní, ale z mnoha (v této práci podrobně rozebraných) důvodů není přístupné robotům vyhledávacích strojů. Tyto informace jsou on-line dostupné a často dokonce úplně zdarma.
5-2 Vyhledávače neviditelného webu Vyhledávače v hlubokém webu jsou vlastně metavyhledávače, které se „naučily“ pokládat dotazy specializovaným databázím. Samy o sobě tak žádný obsah neindexují, pouze položený dotaz „překládají“ dalším vyhledávacím formulářům a následně agregují navrácené výsledky.111 Mezi vyhledávače neviditelného webu se nově řadí i Google, který využil technologického know-how firmy Transformic, kterou akvíroval v roce 2005. Google nyní indexuje hluboký web v testovacím provozu.112 Přístup některých vyhledávačů (na teoretické úrovni) a modelů vyhledávačů v prostředí hlubokého webu je založen na skutečnosti, že crawler dostane specifickou sadu instrukcí a definic, kdy každá popisuje specifický vyhledávací 110
Např. Web Of Knowledge – jedna z nejdražších databází v kolekci Masarykovy univerzity. Viz záznam 25 112 MADHAVAN, Jayant - HALEVY, Alon. Crawling through HTML forms [online]. 2008 [cit. 2008-0411]. Dostupné na WWW: . 111
47
dotaz. Crawler by pak měl použít tento popis k rozpoznání relevantního dotazovacího formuláře a naučit se položit dotaz.113 Architektura vyhledávače v hlubokém webu je patrná z následujícího schématu.114
Obr 13: Architektura crawleru v hlubokém webu Komponenta zvaná „Form Analyzer Finder“ je filtr, který umožňuje vyhledat a analyzovat správný formulář pomocí některé z přednastavených doménových specifikací.115
5-2-1 Operační model vyhledávače ve skrytém webu Základní rozdíl mezi tradičním crawlerem a crawlerem v prostředí neviditelného webu si ukážeme na následujícím srovnání. Na obrázku vidíme postup kroků, kdy uživatel vyplňuje formulář, aby se dostal ke skrytému obsahu databází. Vedlejší
113
ÁLVAREZ, M. - RAPOSO, J. – CACHEDA, F. – PAN, A. A Task-specific Approach for Crawling. Department of Information and Communications Technology, University of A Coruña, 2006. Engineering Letters. Vol. 13, no. 2, s. 204-215. 114 Tamtéž 115 Viz záznam 102
48
obrázek zase ukazuje stejnou interakci, avšak automatizovanou za použití crawleru.
Obr 14: Porovnání lidského přístupu a vyhledávače hlubokého webu
5-2-2 Turbo10 Turbo10116 je metavyhledávací nástroj, který „loví“ informace v hlubokém webu. Indexuje zdroje pomocí asi 800 vyhledávacích nástrojů, do kterých posílá vyhledávaný dotaz. Výstup hledání je seznam nalezených zdrojů, jako první se zobrazují nejdříve nalezené. Výsledky je možné upřesnit pomocí souvisejících klíčových slov (shluků), což velmi usnadňuje hledání. Počet vyhledaných výsledků je mnohem nižší, než u jiných vyhledávačů - na dotaz „inflation“ vrátil Turbo10 23 relevantních výsledků, zatímco Google zobrazil 48 700 000 často nepoužitelných výsledků. Turbo10 je uživatelsky příjemný a jednoduchý nástroj. Jediné, co je potřeba, je zadat výraz do vyhledávacího okna. Do seznamu nástrojů si můžeme přidat libovolné zdroje a vytvořit si tak vlastní kolekci – pokud chcete vyhledávat v Encyklopedii Britannica, jedním kliknutím si ji přidáte do své sbírky. Pro snazší pohyb mezi vyhledanými výsledky slouží fialový grafický posuvník s marketingovým označením „Search-o-Meter“. Ten umožňuje rychlejší orientaci ve výsledcích tak, jak je vrací nejrychlejší vyhledávače.
116
http://turbo10.com
49
Obr 15: Vyhledávací rozhraní Turbo10. Zdroj: www.turbo10.com Vyhledávací stroj Turbo10 funguje na základě třech hlavních subsystémů:117 Adapter Manageru, Trawler Serveru a Browseru (prohlížeče). Metavyhledávače většinou měří relevanci výsledků na straně serveru, což má za následek jisté zpomalení, neboť vyhledávač musí čekat na všechny použité stroje před tím, než se výsledek zobrazí v prohlížeči. Turbo10 vrací výsledky, měří relevanci výsledku i „shlukuje“ zdroje na straně webového prohlížeče - klienta. První výsledky se tady zobrazí ve chvíli, kdy odpoví nejrychlejší vyhledávač. Server posílá asynchronní výsledek do prohlížeče a program na straně klienta kešuje výsledky v paměti. Protože všechny výsledky jsou nahrány v jednu chvíli, zobrazení tématických shluků a stránek s výsledky nevyžaduje opětovné zaslání vyhledávacího dotazu. Na straně serveru: Trawler Server vysílá zadané klíčové slovo do všech vyhledávacích strojů souběžně. Jakmile se vrátí nejrychlejší odpověď, je výsledek vyslán a zobrazen v okně našeho vyhledávače. Trawler Server udržuje množinu „přípojek“ na zdroje v hlubokém webu – tzv. bazén, který slouží pro spojení s vyhledávacími stroji. Ten je jednou denně manuálně kontrolován a aktualizován. Následně jsou kontrolovány i vazby na zdroje v neviditelném webu. V Adapter Manager (správce přípojek) se analyzují cílové vyhledávače, testují existující vazby a připojují nové. Jestliže je některá z vazeb „přerušená“, pak ji správce automaticky opraví. Činí tak na základě jediné informace: URL adresy webu, který obsahuje vyhledávací okno.118 Všechny další informace Turbo10 117
HAMILTON, Nigel. The Mechanics of a Deep Net Metasearch Engine . [online]. 2003 [cit. 2008-04-20]. Dostupné na WWW: < http://turbo10.com/papers/deepnet.pdf >. 118 Tamtéž
50
shromažďuje automaticky. Metodika tohoto vyhledávače pracuje s další důležitou komponentou zvanou Form Finder, neboli vyhledávač formulářů. Identifikuje jednotlivé parametry vyhledávacích formulářů, jako jsou kategorie dotazů, nastavení cookie metod a zařazení formuláře. Ve chvíli, kdy „Form Finder“ nalezne vhodný formulář, vyšle testovací vyhledávací dotaz k získaní výsledku a zdroj si zalinkuje. Další součástí Turbo10 je tzv. Back Link Finder, který vrací výsledky z cílových vyhledávačů. Pracuje poměrně náročným a dobře utajovaným způsobem. Nicméně je jisté, že výsledky a jejich obsah jsou následně porovnávány v komponentě zvané Centroid, která určuje validitu testovacích dotazů.119 Nejsložitější komponentou vyhledávače Turbo 10 je tzv. Extractor Finder, který si můžeme představit jako úložiště sématických a strukturálních informací ve výsledkové listině hledaného dotazu. Opět se jedná se o velmi složitou metodiku. Náročnost celého procesu ilustruje následující schéma.
Obr 16: Tři hlavní subsystémy Turbo10: Adapter Manager, Trawler Server a Browser. Prohledávání neviditelného webu prostřednictvím Turbo10 je zdarma. Zajišťuje přístup k on-line vládním informacím, obchodním a univerzitním databázím. V době psaní této práce shromažďoval Turbo10 přesně 802 vyhledávačů a pořád existovala možnost přidat své vlastní zdroje. Přidat vlastní vyhledávací nástroj je jednoduše možné ve třech krocích. Nejdříve je potřeba zadat přesné URL, kde se nachází vyhledávací okénko vašeho zdroje, zadat vyhledávací dotaz a kliknou na alespoň dva výsledky. Jestliže je proces úspěšný, je váš zdroj bezprostředně připojený.
119
tamtéž
51
5-2-3 Incywincy Incywincy indexuje více než 150 miliónů stránek a vyhledává prostřednictvím tisíců vyhledávačů.120 Jeho specialitou je, že umí vyhledávat formuláře, které jsou pro běžné vyhledávací nástroje nedostupné. Nabídne výpis stránek a k jednotlivým záznamům řazeným dle relevance přidá formulářové okno pro zadání konkrétního dotazu. Incywincy využívá index adresáře ODP (Open Directory Project) – proto si můžeme vybrat, kterou konkrétní oblast chcete prohledávat. V nastavení (preferences) si zase vybereme konkrétní vědní oblast, například Science – Social Science - Demography and Population Studies. Výsledky se potom řadí právě podle vámi zvolené kategorie. Kromě webu umí vyhledávat nejen formuláře, ale také obrázky. Vyhledávání zjednodušují funkce jako omezení duplicit a výběr souvisejících vyhledávačů. Incywincy při vyhledávání nabídne i výběr konkrétní oblasti, do které patří hledané klíčové slovo. Výsledky je možné zužovat do nabídnutých shluků. Pomocí tohoto vyhledávače dostanete množství hodnotných výsledků, které byste v běžném vyhledávači nikdy nenašli. Incywincy je skvělý nástroj pro hledání v hlubinách neviditelného webu a nezbývá, než ho vřele doporučit. Incywincy využívá Net Research Server (NRS) ve verzi 5.0. Jedná se o produkt zajišťující kompletní služby v oblasti prohledávání internetových portálů, který vyvíjí a dodává firma LoopIP LLC.121
120 121
Incywincy.com Tamtéž
52
Obr 17: Vyhledávač Incywincy. Zdroj: www.incywincy.com
5-2-4 CompletePlanet Nyní si představíme projekt společnosti BrightPlanet – adresář hlubokého webu a vyhledávač společnosti CompletePlanet.122 Jedná se jak o veřejný vyhledávač, tak o rozvojový projekt, na kterém si BrightPlanet testuje nové funkcionality a následně je integruje do komerčních produktů. BrightPlanet se totiž primárně zaměřuje na nabízení placených produktů pro podnikovou sféru. CompletePlanet zpřístupňuje tématické informace z hlubokého webu a vyhledává ve více než 70 000 databázích a speciálních vyhledávacích strojích. BrightPlanet využívá nástroj SQSTR (Semantic Query, Storage, Transformation, and Reporting), který v sobě kombinuje různé vyhledávací algoritmy. Je umístěn v jádře Deep Query Manageru (DQM), což je komerční systém pro sběr informací na internetu a firemním intranetu – jakási obdoba crawleru doplněná o analytické nástroje. Complete Planet vznikl jako platforma pro testování DQM. BrightPlanet proslula především již zmiňovanou studí Michaela Bergmana, na kterou se na svém webu stále odvolávají i přesto, že byla zpochybněna její metodologická stránka. Společnost na svých stránkách uvádí, že rozdíl mezi DQM a CompletePlanet.com a jiných vyhledávačů spočívá v tom, že na webu
122
http://www.completeplanet.com
53
CompletePlanet (a jiných) není možné sdílet a manipulovat s výsledky vyhledávání, zatímco DQM toto umožňuje.123
Obr18: Vyhledávací rozhraní CompletePlanet. Zdroj: Brightplanet.com
Na úvodní stránce je zobrazena tématická struktura. V kategorii Finance & Economics je zařazeno zhruba tisícovka databází, ale v podkategorii Stock Market je jich pouze 19 - každá hlavní kategorie totiž obsahuje podoblasti, které vás tematicky navedou. Lze tak vyhledávat klíčová slova přímo v dané kategorii. Pokud nevíme, jaké téma chceme prohledávat, vyzkoušíme možnosti rozšířeného vyhledávání. Můžeme tak hledat v textech, názvu nebo popisu toho kterého dokumentu či podle klíčových slov. Můžeme si vybrat aktuální dokumenty, stejně jako zdroje staršího data. Dostaneme se k velmi hodnotným dokumentům v takových databázích, které nemohou být indexovány vyhledávači povrchového webu, a přitom mají nemalý potenciál pro vědu a výzkum.
123
http://aip.completeplanet.com/
54
5-3 Databáze v hlubokém webu V této kapitole si na případových studiích představíme databáze, které zpřístupňují hluboký web. Svou pozornost upřeme na nejvýznamnější zdroje odborných informací. Hodnotícím kritériem výběru níže uvedených databází byla právě užitečnost pro akademickou sféru – všechny zdroje mají potenciál ve vědě a výzkumu.
5-3-1 Intute Jedná se o víceoborovou databázi. Intute je on-line akademická brána, která zdarma zpřístupňuje nejlepší webové informační zdroje pro výuku a výzkum v přírodních, technických a hlavně společenských vědách. Jedná se o projekt britských univerzit a jejich partnerských organizací. Všechny odkazy na výhradně kvalitní a prověřené zdroje jsou navíc doplněny o stručný komentář. Dimenze ekonomických věd je v Intute velmi silně zahrnuta. Intute představuje vynikající nástroj, s jehož pomocí snadno objevíme ty nejlepší internetové zdroje. V současné době obsahuje Intute 123 106 záznamů.124
Projekt Intute byl spuštěn v polovině roku 2006, aby navázal na iniciativu Resource Discovery Network (RDN). Od začátku bylo hlavním cílem Intute zajistit vyučujícím, výzkumníkům a studentům přístup ke kvalitním internetovým zdrojům. Jádrem projektu Intute je konsorcium sedmi významných univerzit. Intute byla založen organizací JISC125 s podporou dalších dvou organizací.126 Mezi partnerské instituce Intute však patří všechny nejvýznamnější univerzity a výzkumná střediska ve Velké Británii.127 Intute nabízí řadu užitečných nástrojů a služeb, z nichž ty nejzajímavější si nyní – v abecedním pořadí - stručně představíme. AHRC Projekty (Arts and Humanities Research Council) spadají do oblasti humanitních věd. Jedná se o velmi obsáhlý katalog vědeckých projektů, které mají vlastní webovou stránku. AHRC katalog shromažďuje pouze informačně hodnotné zdroje, které musely projít náročným výběrem. Jelikož se jedná o katalog, jsou jednotlivé zdroje přehledně roztříděny dle vědecké kategorie (například History and Philosophy and Science) či geografického zaměření (German, Slavonic). Po rozkliknutí kategorie se 124
http://www.intute.ac.uk/ Joint Information Systems Committee 126 Jednalo o Arts and Humanities Research Council (AHRC) a Economic and Social Research Council (ESRC) 127 Seznam partnerů je na adrese http://www.intute.ac.uk/partners.html 125
55
dostaneme k výpisu zdrojů se stručnou anotací a přímým odkazem k danému zdroji. Další službou jsou Electronic Journals, která zahrnuje vzrůstající počet on-line a volně dostupných elektronických časopisů nejen z oblasti humanitních věd. Výčet zdařilých služeb v nabídce Intute doplňují také moderní blogy s novinkami v jednotlivých vědních sférách a výpisy nejnovějších RSS zdrojů. Za zmínku stojí rovněž agregát novinek z nepřeberného množství odborných serverů – Intute Newsround, který sbírá titulky aktuálních článků z tisíců zdrojů po celém světě. Ty jsou aktualizovány každou hodinu a jsou též plně prohledávatelné. Tato agregační služba je velmi užitečná v případě, že hledáme „horká“ a aktuální témata.
Obr 19: Hlavní stránka Intute. Zdroj: www.intute.co.uk Kromě užití funkce „vyhledávání“ lze databázi zdrojů v Intute procházet podle oborů. Ty jsou řazeny abecedně, a jelikož každý zdroj byl zatříděn podle předmětového hesláře sestaveného odborníky, je procházení velmi intuitivní a přehledné. Intute „Další vzdělávání“ (Further Education Database, FE Database) je on-line služba, která zdarma zpřístupňuje ty nejlepší zdroje na webu. Specialisté jednotlivých oborů vybírají a kategorizují webové stránky obsažené v databázi Intute a přidávají popis každého zdroje. FE databáze nyní obsahuje více než 4000 záznamů.128 Kromě možnosti přímého vyhledávání klíčových slov můžeme použít také procházení podle oborů. Pokud by nestačilo hledání v základní databázi, Intute nabízí službu Harverster. Ta prochází více zdrojů, ale v popisu služby je uvedeno, že obvykle vrací výsledky v horší kvalitě, neboť některé zdroje nemusí být evaluovány pracovníky Intute. Harverster je v podstatě 128
Tento počet se však neustále rozrůstá
56
vyhledávací software, který indexuje všechny zdroje obsažené ve všech databázích Intute, které jsou aktualizovány každý měsíc. Kvantita v tomto případě ovšem neznamená kvalitu. Zatímco zdroje v základním databázi jsou ručně ověřené a jako přidanou hodnotu nabízejí přídavný popis od knihovníků, zdroje v obsáhlejší databázi Harvesteru přebírají popis automaticky přímo z daného zdroje. Z tohoto důvodu Intute negarantuje kvalitu nalezených výsledků. Intute zpřístupňuje hluboký web zajímavým způsobem – pomocí softwaru Intute Include, který si kdokoli může nainstalovat na svůj webový server. Tato služba může být zajímavá pro knihovny, neboť umožňuje umístění přizpůsobeného vyhledávacího okénka na jejich stránky a výsledky vyhledávání jsou vráceny tamtéž. Výhodou této služby je fakt, že jde dokonale přizpůsobit jak vzhled a funkce vyhledávacího formuláře, tak i podoba výsledků jednotnému lokálnímu HTML či CSS stylu výchozí stránky.
Obr 20: Ukázka přizpůsobeného vyhledávacího okna. Zdroj: www.intute.co.uk Intute na svém webu vybízí k používání nástroje OpenSearch, což je otevřený XML formát, který je používán na tvorbu vyhledávacích modulů do webových prohlížečů. Jeho vývoj zahájila a nadále podporuje firma Amazon.129 Autor webu, který obsahuje možnost vyhledávání, může jednoduše vytvořit vlastní modul ve formátu OpenSearch, vystavit jej na svém webu a dát tak uživatelům možnost, aby si jej přidali do svého webového prohlížeče. Tím jim bude zpřístupněno vyhledávání na daném webu či službě.130 Web je obrovský prostor, a jak už bylo několikrát zmiňováno, tradiční vyhledávače sbírají jen malý počet excelentního 129
http://www.opensearch.org/ Open Search. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: < http://cs.wikipedia.org/wiki/OpenSearch >. 130
57
obsahu. A různé druhy obsahu vyžadují různé druhy vyhledávačů. OpenSearch obsahuje sadu specifikací, mezi něž patří dva nejdůležitější: OpenSearch Descriptions a OpenSearch Response, které slouží k popisu vyhledávacího stroje a k popisu nalezených výsledků. V základním vyhledávání Intute podporuje operátory booleovské logiky (AND, OR, NOT). Mezi termíny je standardně použit operátor AND. Zástupný znak je “*”, který v hledaném výrazu nahradí libovolný řetězec. V pokročilém hledání si v rozbalovacím menu můžeme vybrat, ve kterých polích (všechna pole, titul, popis, klíčová slova), ve kterých vědních oblastech (např. pouze v Social sciences) a v jakých zdrojích (blogy, případové studie, e-books) bude Intute hledat. Výsledky se zobrazí buď abecedně nebo podle relevance.
5-3-2 Infomine Infomine 131 je virtuální knihovna internetových zdrojů, které jsou relevantní pro akademickou sféru. Za vznikem této kolekce stojí úsilí knihovníků převážně z University of California, Wake Forest University, California State University a z University of Detroit. Při vývoji Infomine byl vůbec poprvé použit iVia Virtual Library Software, což je volně šiřitelný program pro portály a virtuální knihovny.132 Infomine nabízí bohaté možnosti vyhledávání a procházení rozsáhlé kolekce zdrojů. Mezi její charakteristické vlastnosti patří popisy zdrojů na dvou úrovních, automaticky a knihovníkem.133 Digitální knihovna Infomine obsahuje více než 120 000 akademicky hodnotných zdrojů a zpřístupňuje různé druhy dokumentů (periodika, referenční zdroje, e-booky, diskusní skupiny atd.). Odborníci na konkrétní oblasti průběžně doplňují odborné dokumenty o nové a rozšiřují tak kolekci zdrojů. Například oblast „Business and Economics“ zahrnuje mnoho odvětví, z nichž za všechny lze jmenovat např.: finance, bankovnictví, management, podnikání, marketing, lidské zdroje, účetnictví, národní hospodářství, environmentální ekonomie, mezinárodní obchod, veřejné finance atd. Záznamy uložené v Infomine jsou jak placené, tak i zdarma. Možnost výběru pouze neplacených informaci je ve vyhledávacím formuláři.
131
www.infomine.com http://ivia.ucr.edu/ 133 BARTOŠEK, Miroslav. Od SE k Digitálnim knihovnám [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: < http://www.ics.muni.cz/mba/eiz/eiz7.pdf>. 132
58
digital libraries, eprint/ preprint archives
maps & mapping
books etexts, text archives
instructional uses, textbooks, manuals, courses, curriculum teaching
reference resources
virtual libraries, search engines
directories
database, data set, time series image- base
ejournals periodicals serials news letters Databáze Biological, Agricultural &Medical Sciences7569
2624
1899
631
407
364
491
480
610
63
Business Economics 3036
1829
365
291
170
173
73
74
45
16
Cultural Diversity 1246
788
97
75
53
50
71
48
47
17
Ejournals 17875
16327
681
140
96
240
194
114
34
49
GovernmentInformation 7121
1662
1621
1339
571
260
298
252
1055
63
Maps & GIS 2780
119
419
131
76
68
55
66
1818
28
PhysicalSciencesEngineeringComputing &Math 5708
2538
1028
357
275
387
271
223
496
133
SocialSciences& Humanities 9684
4398
960
845
734
753
587
839
297
271
Visual &PerformingArts 1840
493
361
222
186
159
130
184
45
60
16826
5330
2848
1948
1888
1525
1732
2979
478
Celkem
Tabulka 6: Rrozložení zdrojů podle oborů. Zdroj www.infomine.com Infomine obsahuje databázi více než 16 000 elektronických časopisů, které zahrnují webové magazíny, volně přístupné časopisy a newslettery. Všechny zdroje jsou pečlivě kontrolovány vzhledem k jejich relevanci pro akademické účely. Pro přístup k těmto materiálům často záleží na tom, jestli má daná univerzita zaplacen přístup, jestli je nějaké omezení pro vybrané IP adresy a jestli požadovaný zdroj umožňuje využití proxy serveru pro pohodlný přístup k informacím mimo doménu té které univerzity. Infomine rovněž obsahuje vyhledávací rozhraní, které kombinuje klasické vyhledávací nástroje (s využitím Google, AltaVista, AllTheWeb a HotBot) a metavyhledávací rozhraní. To používá nejen MetaCrawler, který dotazy přeposílá do About.com, AltaVista, DirectHit, Excite, Google, GoTo.com, Infoseek, Looksmart, Lycos, Realnames, Thunderstone a Webcrawler, ale také Vivisimo využívající Ask Jeeves, Yahoo!, Lycos, HotBot a další. Vyhledávací rozhraní
59
kromě toho obsahuje záložku Subject indexes. Po jejím rozkliknutí můžeme prohledávat indexy takových prestižních katalogů internetových zdrojů, jako jsou BUBL, Librarians' Index to the Internet, Open Directory a National Science Digital Library. Infomine dále nabízí přímé vyhledávání v mailingových seznamech a diskusních (diskutujících) skupinách. K tomu používá CyberFiber, kterážto služba prohledává více než 120 000 zdrojů134 a Google Groups. Infomine využívá předmětové třídění dle hesláře LCSH (Library of Congress Subject Headings) a klasifikaci LCC (Library of Congress Classifications).
Obr 21: Hlavní stránka Infomine. Zdroj: www.infomine.com Infomine třídí obsah na základě cílové skupiny. Tuto vlastnost lze také zahrnout při zadávání vyhledávacího dotazu. Tzv. Audience level odkazuje na skutečnost, že různé zdroje mají různou hodnotu pro různé skupiny uživatelů. Akademické zdroje jsou nejužitečnější pro výzkumníky a vysokoškolské studenty, zatímco jiné zdroje jsou vhodné pro školáky a jejich učitele. Základní vyhledávání funguje na bázi přednastaveného formuláře, kde lze vyhledávat podle autora, názvu, popisu a předmětového hesla. Hledat lze samozřejmě také klíčová slova a můžeme využít též plnotextové hledání. Rovněž si můžeme určit způsob zobrazení výsledků a vyhledávání omezit na (ne)placené zdroje a záznamy vytvořené experty s využitím – či bez pomoci – robotů. Infomine uvádí, že záznamy vytvořené ručně jejich experty nabízejí tu nejvyšší kvalitu, ale relativně malý počet – desítky tisíc.135 Automaticky vytvořené záznamy mají kvalitu horší, ale představují větší počet – milióny. Hledání může do jisté míry usnadnit také možnost výběru druhu 134 135
http://www.cyberfiber.com/ Podle informací na webu Infomine
60
zdroje, chceme-li abstrakty, databáze článků, společnosti, digitální knihovny, elektronické knihy či magazíny, preprinty, patenty atd. Možnosti zobrazení výsledků jsou již v základním vyhledávání – uživatel si může vybrat, zda chce zobrazit pouze tituly nebo plný popis, třídit výsledky podle relevance a abecedně dle titulů, případně kolik výsledků se má zobrazit na jednu stránku (30 / 50 /100). V pokročilém vyhledávání lze navíc vybrat i danou oblast a kategorii (například ekonomické, sociální nebo humanitní vědy). Ve vyhledávání můžeme použít booleovské operátory, zástupné znaky (*) a konkrétní fráze v uvozovkách. Celou kolekci lze také procházet vybráním určité oblasti z hlavní stránky Infomine. Uživatel si vybere „oblast zájmu“ a danou kategorii může procházet podle předmětu, klíčových slov, jmen autorů, údajů z názvů a též podle druhu zdroje. V procházení jednotlivých položek jde určit, zda chceme zobrazit pouze expertní záznamy, vybrané ručně odborníky, nebo automaticky indexované zdroje.
5-3-3 Scirus Vyhledávač Scirus 136 nabízí odborné informace, které nejsou dostupné prostřednictvím běžných vyhledávačů. Scirus nyní prohledává více než 450 miliónů137 webových stránek obsahujících výhradně vědecké a prověřené informace. K vyhledání výzkumných zpráv, článků, knih, diplomových prací, disertací, patentů, preprintů a časopisů využívá Scirus řadu uznávaných databází, digitálních knihoven a repozitářů. Protože Scirus zpřístupňuje opravdu vyčerpávající množství informací, doporučuje se vyzkoušet možnosti pokročilého vyhledávání, které vám umožní pracovat s menším počtem relevantnějších výsledků z určitého vědního oboru (ekonomické a společenské vědy).
Scirus byl vyvinut nizozemským vydavatelstvím Elsevier za účelem „oddělit informace relevantní pro vědu, výzkum a vzdělávání od ostatního obsahu webu. V roce 2001 a 2002 byl Scirus vybrán službou Search Engine Watch jako nejlepší speciální vyhledávač a získal i ocenění WebAward 2004.“ 138 Scirus dále v roce 2007 získal prestižní cenu "Best Specialty Search Engine" od asociace WMA.139 Scirus je poháněn vyhledávací technologií Fast Search & Transfer (FAST), která funguje na bázi vertikálního (nebo také tématického) hledání. Scirus je založen „na modelu paralelního vyhledávání ve volně přístupných webových zdrojích a zdrojích pro registrované uživatele (v tomto případě zdrojů informací odborného charakteru).“140 Zaměřuje se na zdroje s výhradně vědeckým obsahem a indexuje je. Vyhledávání je založeno na principu „obrácené pyramidy“. Základ obsahuje 136
www.scirus.com Údaj z 12.4.2008. V červenci 2007 to bylo 415 miliónů stránek. 138 VÍTŮ, Martin. Google Scholar se rozvíjí - má Scirus konkurenci? Ikaros [online]. 2005, roč. 9, č. 3 [cit. 2008-04-12]. Dostupný na WWW: . ISSN 1212-5075. 137
139
Web Marketing Association
140
VOJTÁŠEK, Filip. Online služba Scirus indexuje volně přístupné webové a komerční zdroje. Ikaros [online]. 2001, roč. 5, č. 9 [cit. 2008-04-12]. Dostupný na World Wide Web: . ISSN 1212-5075.
61
„seed list“ s manuálně kontrolovanými URL. Scirus dále používá robota, který ovšem neprochází web jako klasické vyhledávače pomocí hypertextových dotazů, ale zaměřuje se pouze na weby s vědeckým obsahem. Pokud například prochází stránku www.newscientist.com, soustředí se pouze na zdroje v této doméně a ignoruje odkazy, které nejsou v „seed listu“. Robot prochází weby s akademickým obsahem a hledá nové dokumenty a aktualizuje ty stávající. Dokumenty jsou následně shromážděny v Indexu. Zatímco se tak děje, Scirus nahrává a doplňuje data ze specifických zdrojů z partnerských projektů (OAI – Open Archive Initiative).141 Tyto zdroje v současnosti zahrnují arXiv.org, NASA, CogPrints, Project Euclid a různé servery s preprinty. Další fází vyhledávání je klasifikace, která má za úkol rozčlenit dokumenty do některé z 20 disciplín - tematických oblastí (Medicína, Fyzika, Sociologie atd.) a podle druhu dokumentu (článek a pod.). Po dokončení fáze klasifikace je index zdrojů připraven k prohledávání. Vrací výsledky jak z celého webu, tak ze zdrojů s omezeným přístupem, která spadají do oblasti hlubokého webu.142
Obr 22: Hlavní stránka Scirus. Zdroj. www.scirus.com Základní vyhledávání podporuje možnost použití operátorů AND, OR, NOT. Na výběr je možnost hledání v preferovaných zdrojích a podle přesné fráze. S výsledky lze dále pracovat, například zmenšit počet záznamů podle nalezených klíčových slov a omezit záznamy dle typu zdroje. Pokročilé vyhledávání v jednotlivých polích (nabízí se možnost prohledání kompletní dokumentů, názvů článků, názvů časopisů, klíčových slov, ISSN) se též řídí booleovskou logikou a výsledky se dají omezit podle data, typu informace a požadovaného formátu (PDF, Word a pod.). Dále je možné určit preferované zdroje, a to jak databáze, tak 141 142
http://www.openarchives.org/ http://www.scirus.com/press/pdf/WhitePaper_Scirus.pdf
62
webové archivy. Zástupným znakem je „*“. Výhodné je vybrat konkrétní vědní oblast, například „Economics, Business and Management“, potažmo další. Výsledky jsou tříděny jako internetové zdroje, zdroje časopisů a podle relevance či data.
5-3-4 DOAJ - Directory of Open Access Journals DOAJ zdarma zpřístupňuje plné texty vědeckých a odborných článků z celého světa. Kvalita obsahu adresáře je zaručená, protože ještě před zařazením zdroje do databáze jsou časopisy a jejich obsah ověřeny odborníky na konkrétní vědní obory. Adresář DOAJ pokrývá všechny vědecké oblasti ve všech světových jazycích. V současné době zpřístupňuje 3 340 časopisů, z čehož 1 127 časopisů je prohledávatelných na úrovni článků. Služba DOAJ celkem zahrnuje 181 342 článků.143 Myšlenka vytvoření databáze volně přístupných vědeckých časopisů byla poprvé diskutována na First Nordic Conference on Scholarly Communication v Lundu (Copenhagen) v roce 2002.144 Motorem vzniku tohoto adresáře byl jasný závěr: vznik takové databáze by byl mimořádným přínosem pro vědeckou a vzdělávací komunitu na celosvětové úrovni. Cílem iniciativy DOAJ je zviditelnění všech volně dostupných vědeckých časopisů a zároveň zvýšení jejich využitelnosti ve všech sférách vědy a výzkumu. Časopisy procházejí systémem kontroly kvality, aby byl garantován vědecký obsah. Projekt DOAJ je financován příspěvky z několika institucí, jako jsou například Open Society Institute (http://www.osi.hu/infoprogram/), SPARC (http://www.arl.org/sparc/), SPARC Europe (http://www.sparceurope.org/), BIBSAM (http://www.kb.se/bibsam/) a Axiell (http://www.axiell.se/). Kromě toho projekt sponzoruje Univerzita v Lundu, Švédská národní knihovna a EBSCO. Podle definice „Open Access Journals“ se jedná o volně dostupné časopisy, které uživatel může stahovat, kopírovat, distribuovat, tisknout, prohledávat a může také odkazovat na plné texty článků.145 Výběrová kritéria zahrnují několik bodů, z nich za všechny můžeme jmenovat „pokrytí“. Musí se jednat o akademický (vědecký) obsah, typem zdroje musí být periodika, která publikují plné texty odborných článků. Mezi akceptované zdroje patří periodika z akademického, vládního, komerčního a neziskového sektoru, přičemž cílovou skupinou těchto časopisů musí být primárně vědecko-výzkumná komunita. Veškerý obsah v adresáři DOAJ musí být zdarma přístupný, přijatelná je pouze bezplatná registrace uživatelů. Na články zařazené v databázi DOAJ se nesmí vztahovat žádné informační embargo. Všechna periodika v DOAJ by měla mít vlastní ISSN (International Standard Serial Number, http://www.issn.org). Pokud je do databáze přidán nový zdroj, je ihned zkatalogizován na úrovni nadpisu článku. Aby byl obsah nově přidaného periodika prohledávatelný, musí obsahovat metadata, která zadává (a za která je 143
www.doaj.org http://www.lub.lu.se/ncsc2002 145 Budapest Open Access Initiative [online]. [cit. 2008-04-12]. Dostupné na WWW: 144
63
odpovědný) vlastník časopisu. K identifikaci dokumentů využívá DOAJ dobře etablovaný systém DOI. Dle definice je DOI „prostředek pro trvalou identifikaci a propojení dokumentů (objektů), na které se vztahuje intelektuálního vlastnictví. Identifikuje především objekt samotný, nikoliv jeho umístění na síti. Vzhledem k tomu, že se vztahuje k obsahu dokumentu, nikoliv k jeho formě, je DOI údaj shodný pro dokumenty zpřístupňované současně v různých formátech (např. PDF, HTML apod.). Liší se rovněž od dalších běžně používaných identifikátorů, jako jsou např. ISBN, ISRC apod., neboť je navázán na určité služby a sám funguje na síti jako prostředek, jehož cílem je poskytovat uživateli určitou službu (např. lokalizovat dokument). DOI pro konkrétní objekt vypadá např. takto: 10.1007/s00203-002-0481-8 (článek z časopisu nakladatelství Springer). Ve spojení se zprostředkující službou (http://dx.doi.org/10.1007/s00203-002-0481-8) přesměruje prohlížeč na dokument nalézající se na síti.“ 146
Obr .23: Rozhraní adresáře DOAJ. Zdroj: www.doaj.org Hledání v DOAJ je velmi pohodlné. Pokud víme, co hledáme, můžeme využít abecední výpis všech titulů. Práci s tímto zdrojem nám dále do velké míry usnadní využití vyhledávacího rozhraní. V základním vyhledávání je možné přímo z hlavní stránky vyhledat časopisy na základě klíčových slov a procházet je podle jména v abecedním pořádku nebo podle vědního oboru. Ve výsledcích se zorientujeme snadno – kliknutím na nalezený záznam se dostaneme k plnému textu článku v elektronické podobě. V případě pokročilého vyhledávání se dají články najít jednoduše tak, že v sekci „Find Articles“ zadáme do polí několik klíčových slov oddělených operátory AND, OR, NOT. Více než dvě slova jsou 146
TDKIV – Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: .
64
automaticky chápána jako fráze. Na výběr máme možnost prohledávat všechna pole najednou, ale také záznamy v polích názvů článku i podle názvu časopisu, autora, ISSN, klíčových slov nebo v anotace.
5-3-5 OAIster OAIster 147představuje vyhledávací službu vědecky orientovaných zdrojů a odborných informací, které běžné vyhledávače nenajdou. Aktuálně poskytuje přístup k více než 15 miliónům záznamů (tento počet neustále narůstá, za poslední rok se téměř zdvojnásobil) z více než 950 databází členských organizací, které poskytují data (univerzity, výzkumná centra, různé instituce). OAIster využívá OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Zdroje vyhledatelné v OAIsteru spadají do oblasti hlubokého webu. Vlastníci těchto zdrojů je sdílejí se světem prostřednictvím OAI-PMH. OAIster tyto zdroje dále zpřístupňuje přes jednoduché vyhledávací rozhraní. Slusžba OAIster vznikla zásluhou grantu nadace Andrewa W. Mellona v roce 2002.148 Původním záměrem bylo založit vyhledávací službu založenou na zdrojích od knihovníků - z veřejně přístupných digitálních knihoven. Za vznikem OAIsteru stojí spolupráce s University of Illinois v Urbana-Champaign, jejíž „metadata harvester“ byl používán první dva roky fungování projektu. Pracovníci OAIsteru pak vyvinuli mechanismus, který dokázal exportovat a transformovat posbíraná data (tento middleware pak zdarma nabídli k používání). Myšlenka OAIsteru spočívá v prostém faktu, že na jedné straně existují ti, kteří chtějí data sdílet (poskytovatelé dat) a na druhé straně ti, kteří by zdroje rádi nabízeli (poskytovatelé služeb). Na začátku byly dvě kritéria - všechny informační zdroje musely být jednak veřejně přístupné a nesměly mít žádná přístupová omezení a za druhé musely korespondovat s webovým obsahem a být přístupné přes webové rozhraní.
OAIster je velmi užitečný při hledání akademických dokumentů, které jsou jinak velmi těžko dostupné. Disponuje přehledným rozhraním, výsledky se dají třídit podle různých kritérií, a hlavně podle institucí. OAIster zpřístupňuje nejen digitalizované či oscanované dokumenty a knihy, ale i audio a video soubory, obrázky a soubory datových setů (např. statistická data). OAister vyhledává napříč všemi zdroji spolu s podporou hledání v databázi konkrétní instituce. Význam projektů jako je OAIster spočívá v systematickém zpřístupňování informací na internetu.149 Základní OAIster podporuje použití booleovských operátorů. V základním nastavení se prohledávají všechna pole popisující digitální zdroj (entitě records). Fráze není nutné zadávat do uvozovek (dvě a více slov jsou považovány za frázi). 147
www.oaister.org NÉMA, Jan. OAIster - virtuální katalog OAI zdrojů invisibility [online]. 2004 [cit. 2008-04-08]. Dostupné na WWW: < http://dspace.muni.cz/handle/ics_muni_cz/79>. 149 Tamtéž 148
65
Po kliknutí na nalezený záznam budete nasměrováni přímo na požadovaný zdroj. Doporučuje se vyhledávání „zkonkretizovat“. Zadejte slova (s použitím AND, OR, NOT) nebo frázi (řetězec slov bez uvozovek) do polí „Search within fields“. V rozbalovacích menu si vyberte, kde budou klíčová slova hledána. Na výběr máte hledání ve všech záznamech (entire records), v názvech, ve jménech autorů a v předmětných polích. Můžeme omezit hledání dle typu zdroje (např. pouze text, obrázky). Jako nahrazovací znak slouží „*“ (např. klíčové slovo civ* vám vrátí civ, civil, civic, civilization a civilian). Vyberte si pro vás nejvhodnější způsob třídění výsledků (podle názvu, autora, datového intervalu atd.).
Obr. 24: OAIster. Zdroj: www.oaister.org
5-3-5-1 OAI-PMH OAI-PMH je protokol pro metadatovou interoperabilitu. Podle Žabičky150 se jedná o jednoduchý protokol, který poskytovatelům služeb umožňuje automatizované získávání metadat, jež nabízejí poskytovatelé dat. Pro své vlastnosti lze snadno implementovat do stávajících systémů digitálních knihoven, čemuž pomáhá množství volně dostupných softwarových komponent. „OAI-PMH je postaven na čtyřech základních vlastnostech: využití jednoznačných identifikátorů, použití společného metadatového standardu (nekvalifikovaný Dublin Core), komunikace prostřednictvím protokolu http a na důsledném využití 150
ŽABIČKA, Petr. OAI- PMH: Protokol pro metadatovou interoperabilitu. In Automatizace knihovnických procesů. Vyd. 1. Praha : ČVUT Výpočetní a informační centrum, 2003. ISBN 80-0102738-4, s. 42-50.
66
formátu XML. Společným jmenovatelem těchto vlastností je jednoduchost jak ve smyslu snadnosti implementace, tak i použití protokolu.“ 151 Jelikož protokol vznikl díky knihovníkům v oblasti preprintů, je nejčastěji používán v prostředí digitálních knihoven, archivech odborných prací a vědeckých institucí.152 Význam otevřeného přístupu (Open Access) spočívá v možnosti trvalého a bezplatného přístupu k on-line informacím. „Otevřený přístup se vyznačuje dvěma podstatnými rysy: dokumenty jsou dostupné bezplatně, i když nemusejí být bezplatně vytvářeny, a vlastník copyrightu dává jednoznačné svolení k jejich neomezenému čtení, stahování, kopírování, sdílení, ukládání, tištění, vyhledávání a hypertextovému propojování.“ 153
5-4 Zviditelnění obsahu v hlubokém webu Podle informací dostupných v článku „The Ultimate Guide to the Invisible Web“ 154 velikost hlubokého webu nelze s jistotou určit. Novější odhady uvádí, že Google indexuje 8 miliard stránek. Yahoo ve stejnou dobu uvedlo, že indexuje 19 miliard stránek. Vyhledávače uvádí, že indexují 16-20 procent webu. Reálnou představu o velikosti hlubokého webu by snad bylo možné vytvořit tehdy, pokud by vyhledávače zveřejnily seznam nezaindexovaných URL, na základě čehož by bylo možné stanovit výchozí bod pro pozdější měření. Snadněji lze porovnávat velikost indexů vyhledávačů než odhadovat velikost neviditelného webu. Pokusy o jakékoli odhady jsou bezvýsledné – pokud by knihovna či muzeum dostala kolekci miliónu obrázků a rozhodla se je umístit do webové databáze a každý obrázek by měl svou dynamickou stránku, která by se dala zobrazit jen na základě dotazovacího formuláře, vznikl by tímto způsobem milion nových stránek v hlubokém webu.155 Pro internetové zdroje existuje spousta možností, jak zviditelnit svůj obsah. Jednou z možností může být vytvoření jednoduché stránky s obsahem celé databáze – a tuto stránku provázat hypertextovými odkazy. To by však bylo proveditelné jen v případě (velmi) malé databáze, stejně jako publikování vybraných částí skrytého obsahu (generovaného prostřednictvím dotazu či formuláře) do statické části webu, kterou indexují vyhledávače. I zde je ovšem omezení - dost dobře to nepůjde u často aktualizovaného obsahu. Konverze formátů může také pomoci ku zviditelnění. Například stránky v technologii Macromedii Flash by měly mít „statickou“ obdobu, svou HTML verzi obsahu. Stejně tak jakýkoli obsah v problematických formátech by mohl být konvertovaný 151
Tamtéž Viz záznam 104, s.6 153 BRATKOVÁ, Eva. Digitální knihovny a citační služby. [online]. 2006, roč. 10, č. 5/2 [cit. 2008-0402]. Dostupný na WWW: Ikaros. ISSN 1212-5075. 154 The Ultimate Guide to the Invisible Web[online]. 2008 [cit. 2008-04-11]. Dostupný na WWW: 155 MANSOURIAN, Yazdan. The invisible web: an empirical study of ‘cognitive invisibility [online]. 2008 [cit. 2008-04-08]. Dostupné na WWW: 152
67
do formátů, jež jsou dostupné většině vyhledávačů. Multimediální obsah - audio či video, podcasty – by měly být popsány stručnou textovou informací a zalinkovány pro vyhledávače. Odkazy jsou v tomto směru klíčové. Velmi přínosné může být zveřejnění mapy stránek, aby všechny hlavní sekce byly prolinkovány se svým dynamicky generovaným obsahem ukrytým za vyhledávacím polem či formulářem. Pokud někdo napíše o zdroji v neviditelném webu a přidá i odkaz, zdroj se stane přístupný vyhledávacímu stroji. Pokud přidá i popis stránky, pak uživatel pozná již ve výpisu výsledků, nakolik pro něho může být daná databáze užitečná, a vydá se ji prozkoumat. Užitečným pomocníkem je využití služby pro ukládání a sdílení odkazů – např. del.icio.us. K odkazům si uživatelé této služby přidávají i tagy a popisují odkaz. V tomto případě hovoříme o tzv. Folksonomii. Tento termín vznikl spojením slov folk a taxonomie, a označuje uživateli vytvářenou strukturu založenou na klíčových slovech. Výhody a nevýhody využití folskonomie a služeb jako del.icio.us výstižně popsal Adam Zbiejczuk „Tyto výhody oproti klasickému uspořádání záložek jsou ale jen jednou částí del.icio.us. Druhá spočívá v tom, že pokud podobným způsobem svoje záložky uspořádá velké množství lidí, získáte systém. Obsah (v tomto případě stránky) je kategorizován klíčovými slovy, jež přidělují jednotliví uživatelé, čili zdola nahoru, mluvíme o tzv. folksonomii. Tento způsob kategorizace vyžaduje jen velmi malé náklady na straně provozovatele služby, a přitom obvykle vede k lepším výsledkům, než jakých lze dosáhnout strojovou metodou. Oproti hierarchické taxonomii je zde ještě několik dalších přínosů. Pomocí tagů lze zařadit tutéž stránku do více různých kategorií, zařazení se také může flexibilně měnit s časem, není dané jednou pro vždy. Samozřejmě tento způsob řazení má i své nevýhody: problém se synonymy (tag bude jednou Holland a jindy Netherlands), mnohoznačností (naopak tag football vás zavede jak na klasický, tak americký fotbal, o obecných výrazech jako např. net ani nemluvě) nebo jednotným/množným číslem (výsledky pro book a books budou odlišné). Mezi kritiky folksonomie patří i varování před spamem a také prostá nedůvěra ve schopnosti uživatelů, kteří zahlcují systém redundantním obsahem i tagy.“ 156
5-5 Budoucnost neviditelného webu Vyhledávače se neustále vylepšují. Přinášejí vylepšené techniky indexování a snaží se zvýšit pokrytí webu, kromě jiného i tím, že už umí skenovat skripty (JavaScript) a flashové prezentace za účelem objevení dalších URL pomocí kterých by se indexovalo více a více nových stránek. Problematika vyhledávání na internetu zažívá překotný vývoj. S přibývajícím časem se rovněž ukazuje, že označení neviditelný web je víceméně nevhodné. Přilnavější výraz je hluboký web (deep web). Jenom proto, že něco je ukryto v jedné databázi a nevyskytuje se v jiných databázích, tak to není neviditelné. Toto logikou by se knihovní katalogy
156
Viz záznam 2
68
a databáze mohly nazývat neviditelnou knihovnou. 157 Hranice mezi hlubokým a povrchovým webem se začala rozostřovat, když vyhledávací nástroje začaly indexovat a zpřístupňovat obsahy knih, sborníky z konferencí, dizertace a odborné články. Google Book Search, Google Scholar, Live Search Avcademic a další služby jdou vstříc tomuto fenoménu a indexují čím dál větší množství formátů – zejména akademického obsahu. Zatímco tento obsah často není úplně zadarmo kvůli autorským právům, vyhledávání (nikoli „vyhledávání a zpřístupnění“) je v naprosté většině případů zdarma. Situace se mění každým dnem. V průběhu psaní této práce Google na svém oficiálním blogu oznámil, že umí sbírat data a crawlovat obsah prostřednictvím HTML formulářů.158 Google se tak dostal do prostředí hlubokého webu. Ve výsledku to může znamenat, že padla další bariéra a hluboký web se zviditelní. Velká výzva pro vyhledávače po celém světě byla pokořena. Podle Alona Halevyho a Jayanta Madhavana z Googlu, kteří stojí v čele týmu odpovědného za indexování a crawlování hlubokého webu, Google již v minulosti zkoušel indexovat web přes HTML formuláře, aby objevil nové, dosud ukryté informace a URL odkazy. Ve svém příspěvku uvádí 159, že HTML formuláře byly chápány jako brány k obrovskému objemu dat mimo běžný dosah vyhledávacích nástrojů. Pojmy jako hluboký web, skrytý web či neviditelný web prý byly používány k označení obsahu, který je skryt uživatelům tradičních vyhledávačů. Crawlováním přes HTML formuláře bude Google schopen nabídnout uživatelům dokumenty, ke kterým by se dříve nedostali a zajistit jim tak vyčerpávající výsledky a lepší zkušenost s vyhledáváním. 160 Google není první, kdo na poli indexace neviditelného obsahu vyvíjí úsilí, ale jako hlavní hráč je v tomto směru průkopníkem a osobně předpokládám, že ostatní významné vyhledávače budou Google následovat, aby byly konkurenceschopné. Vrácené výsledky pak Google sbírá a přidává do svého indexu. Ironií je, že před více než rokem sám Google varoval před indexací tímto způsobem. Teď takto generuje a sbírá výsledky sám.161 Google experimentuje s vyplňováním formulářů na „ malém počtu obzvláště užitečných webů“. Google bot nyní vyplňuje formuláře pro přístup k dynamicky generovaným stránkám, které dosud byly pro většinu vyhledávačů zcela nedostupné. Google tak získává schopnost indexovat hluboký web. Korporace však slíbila, že nehodlá indexovat stránky, které vyžadují informace o uživateli, a že bude i nadále respektovat robot exclusion protokol. 157
COHEN, Laura. The Future of the Deep Web [online]. 2008 [cit. 2008-04-08]. Dostupné na WWW: . 158 Viz záznam 149 159
Tamtéž Tamtéž 161 SULLIVAN, Danny. Google Now Fills Out Forms & Crawls Results[online]. 2008 [cit. 2008-04-15]. Dostupné na WWW: 160
69
Experiment Googlu znamená dobrou zprávu pro uživatele, kteří časem získají plný přístup ke všem dokumentům na webu.162 HTML formuláře byly a jsou branou k rozsáhlému informačnímu bohatství, které bylo (a v omezené míře dosud je) „ušetřeno“ dosahu vyhledávacích robotů. Podle Michaela Bergmana to znamená, že skončí éra neviditelného webu - ve chvíli, kdy si tradiční vyhledávače poradí i obsahem ukrytým za formuláři v dynamicky generovaných databázích.163 Za úsilím Googlu stojí akvizice společnosti Transformic z roku 2005.164 Tato malá firma vyvíjela specializovaný vyhledávací nástroj pro hluboký web. “Mezi rokem 1995 a 2005 bylo využívání vyhledávacích nástrojů dominantním mechanismem pro vyhledávání informací obecně. Vyhledávače však uvízly v mrtvém bodě, neuměly si totiž poradit s obsahem skrytým za HTML formuláři,” uvádí Anand Rajaraman 165, který byl s technologií dnes využívanou Googlem seznámen, když pracoval s Alonem Halevym, dnešním zaměstancem Googlu odpovědným za crawlování hlubokého webu. Anand Rajavan identifikoval dva klíčové problémy při indexaci hlubokého webu: 1. jak určit, do kterých webových formuláře stojí za to proniknout a 2. jestliže se rozhodneme crawlovat obsah “za formulářem”, jak vyplníme hodnoty ve formuláři, abychom se dostali k informacím? V případě, že máme pole s checkboxy, přepínacími tlačítky a rolovacími menu, řešení je jasné. Ale v případě, kdy máme zadávat vstup v podobě volného textu, řešení bude velmi náročné. Musíme totiž porozumět sémantice daného webu a vstupních políček, abychom zadali validní vstupy. “Technologie společnosti Transformic vyřešila oba problémy. Vždy nám bylo jasné, že Google by byl skvělým domovem pro naši technologii. Tým Transformicu po uplynulé sva roky velmi tvrdě pracoval na zdokonalení a zahrnutí naši technologie do crawleru Googlu,” uvádí na svém blogu spoluzakladatel Transformicu Aland Rajanan. 166
162
Bergman, M. Another Deep Web Barrier Falls.[online]. 2008 [cit. 2008-04-15]. Dostupné na WWW: < http://www.mkbergman.com/?p=436>. 163
Tamtéž
164
Jiné zdroje však uvádí, že akvizice byla uskutečněna později, v roce 2006. The Washington Post uvedl, že akvizice byla provedena 15.9.2006 – ale zřejmě se jedná o překlep a jako pravděpodobnější datum akvizice se jeví rok 2005, neboť Dr. Halevy pracoval pro Google již před 15.9.2006, což dokládají četné studie a prezentace které pro ně dělal. Více na http://www.seobythesea.com/?p=305 165
RAJARAMAN, Anand. The story behind Google's crawler upgrade. 2008 [cit. 2008-04-20]. Dostupné na WWW: . 166 Tamtéž
70
6 Závěr V této práci jsme se pokusil shrnout nejen přínosy a nevýhody hlubokého webu, ale též i vymezit jeho strukturu a velikost. Učinil jsem řadu dílčích závěrů, které bych se nyní rád pokusil formulovat. Je těžké popisovat oblast, která zažívá tak překotný rozvoj, jako hluboký web. Jeho rozvoj totiž kopíruje neustále se zrychlující rozvoj webu jako takového. Proto jsem do práce zařadil výzkumy staršího data a nejčerstvější informace popisující aktuální situaci. Z malého množství zdrojů, co jsou k tématu dostupné, jsem se pokusil do práce přenést to podstatné. Zaměřil jsem se na fenomén Googlu a popis jeho služeb, protože tento vyhledávač je největším světovým hráčem a v době psaní této práce začíná s indexací hlubokého webu. Může to znamenat, že se nám otevřou dosud netušené možnosti sdílení informací. I když se hranice hlubokého webu posouvají, stále bude ukrývat značné „informační bohatství”. Jestliže původním cílem této práce bylo vymezení struktury neviditelného webu, hned prvním dílčím závěrem je, že pojem neviditelný web dobově neobstál. Terminologie by měla být přesná a nezpochybnitelná – neviditelný web platil v počátku, který tato práce datuje k prvním studiím velikosti hlubokého webu Michaela Bergmana. Tehdy byl neviditelný web opravdu neviditelný, dnes už však víme, že je do jisté míry viditelný a jako přilnavější označení se jeví hluboký nebo též skrytý. Tzv. pavučina sítí také historicky neobstála. World Wide Web není tak úzce propojen. Možná se stane, že neviditelný web zpřístupní korporace typu Googlu. Tuto prognózu dokládá nemalé úsilí tohoto vyhledávače proniknout ke skrytému obsahu a nabídnout jej ve svých výsledcích. Výhody hlubokého webu se nejlépe ukazují na příkladech. I z tohoto důvodu jsem zařadil sérii případových studií, které popisují jednotlivé služby – ať už vyhledávače, nebo databáze. Jediným hodnotícím kritériem bylo, zda je daný
71
zdroj relevantní pro akademickou sféru. Zaměřil jsem se na proces vyhledávání a zdroje popisoval z uživatelského hlediska. Všechny zmíněné vyhledávače a databáze jsou užitečné brány k informacím a dají se využít ve vědě a výzkumu. Na případových studiích jsem chtěl kromě jiného i ukázat, že „odkrývání“ neviditelného webu není nic složitého – s použitím vhodných nástrojů. Proto jsem do case studies zařadil zdroje, o kterých se domnívám, že jsou uživatelsky přívětivé a nabízejí relevatní výsledky. Čím dál více dokumentů je dostupných přes webové rozhraní. Svědčí o tom vzrůstající indexy vyhledávačů a obsah databází. Lynne Brindleyová, ředitelka British Library, předpovídala přechod od tištěného k digitálnímu publikování v roce 2020. „Říká - mnoho lidí si všímá národního přechodu k digitálnímu vysílání. Méně známý je fakt, že podobný trend již probíhá ve světě publikování: kolem roku 2020 bude 40 % britských výzkumných monografií bude dostupných jen v elektronické podobě, dalších 50 % bude dostupných v obou formátech (tištěném i digitálním) a jen zbývajících 10 % nových titulů bude dostupných v tištěné podobě.“ 167
167
Christensen L.: British Library predicts 'switch to digital by 2020'. Dostupné na http://www.bl.uk/news/2005/pressrelease20050629.html . Cit. Dle NEKUDA, Jaroslav. Elektronická skripta na ESF MU. Zpravodaj ÚVT MU. ISSN 1212-0901, 2008, roč. XVIII, č. 3, s. 1-3.
72
Seznam použitých zdrojů o ÁLVAREZ, M. - RAPOSO, J. – CACHEDA, F. – PAN, A. A Task-specific Approach for Crawling. Department of Information and Communications Technology, University of A Coruña: 2006. Engineering Letters. Roč. 13, č. 2, s. 204-215. o BARTOŠEK, Miroslav. Od SE k Digitálnim knihovnám [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: < http://www.ics.muni.cz/mba/eiz/eiz7.pdf>. o BATTELLE, John. 2006. The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture. New York: Portfolio. ISBN 1-59184-141-0. o Bergman, M. Another Deep Web Barrier Falls.[online]. 2008 [cit. 2008-0415]. Dostupné na WWW: < http://www.mkbergman.com/?p=436>. o BERGMAN, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing [online]. 2003. [cit. 2008-02-11]. Dostupné z: . o BRATKOVÁ, Eva. Digitální knihovny a citační služby. [online]. 2006, roč. 10, č. 5/2 [cit. 2008-04-02]. Dostupný na WWW: Ikaros. ISSN 1212-5075. o COHEN, Laura. The Future of the Deep Web [online]. 2008 [cit. 2008-0408]. Dostupné na WWW: o Different Engines, Different Results: A Research Study by Dogpile.com. [online] Queensland University of Technology and Pennsylvania State University. 2007 [cit. 2008-04-06]. Dostupné na WWW: < www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf >. o DOLEŽAL, Pavel. Nejkvalitnější výsledky hledání v Česku poskytuje Google [online].30. 4. 2007 [cit. 2008-01-29]. Dostupné na WWW: . o GIL, Paul. What is "The Invisible Web [online]. 2007 [cit. 2008-04-06]. Dostupné na WWW: .
73
o Google Rises to the Top of the BRANDZ™ Ranking with a Brand Value of $66,434 Million. Business Wire [online]. 23. 4. 2007 [cit. 2008-02-11]. Dostupné na WWW: . o GOPINATH, Saji. Structural and conceptual changes in the information landscape: The new challenges for information professionals [online]. [cit. 200802-13]. Dostupné na WWW: <www.dspace.iimk.ac.in/bitstream/2259/251/1/07saji-paper.pdf>. o HAMILTON, Nigel. The Mechanics of a Deep Net Metasearch Engine [online]. 2003 [cit. 2008-04-20]. Dostupné na WWW: < http://turbo10.com/papers/deepnet.pdf >. o Kuželíková, Lucie - Nekuda, Jaroslav - Poláček, Jiří. Sociálně-ekonomické informace a práce s nimi. Elportál, Brno : Masarykova univerzita. ISSN 1802128X. 2008. 26. dubna o Lawrence, S. and Giles, C.L. Accessibility of information on the web. In: Nature, č. 400, s. 107-109. o LEWANDOWSKI, Dirk – MAYR Philipp. Exploring the Academic Invisible Web. [online]. 2008 [cit. 2008-04-08]. Dostupné na WWW: . o LEWANDOWSKI, Dirk. The Retrieval Effectiveness of Web Search Engines: Considering Results Descriptions. Journal of Documentation [online]. 2008 [cit. 2008-04-07]. Dostupné na WWW: . o LHOTÁK, Martin. Neviditelný web - co vyhledávací stroje nenajdou encyklopedie [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: . o LYMAN, Peter - HAL R. Varian. How Much Information? 2003. [online]. [cit. 2008-02-14]. Dostupné na WWW: . o MADHAVAN, Jayant - HALEVY, Alon. Crawling through HTML forms [online]. 2008 [cit. 2008-04-11]. Dostupné na WWW: . o MANSOURIAN, Yazdan. The invisible web: an empirical study of ‘cognitive invisibility [online]. 2008 [cit. 2008-04-08]. Dostupné na WWW: .
74
o NEKUDA, Jaroslav. Elektronická skripta na ESF MU. Zpravodaj ÚVT MU. ISSN 1212-0901, 2008, roč. 18, č. 3, s. 1-3.
o NÉMA, Jan. OAIster - virtuální katalog OAI zdrojů invisibility [online]. 2004 [cit. 2008-04-08]. Dostupné na WWW: < http://dspace.muni.cz/handle/ics_muni_cz/79>. o Papík, Richard. Viditelný web versus neviditelný web - rešerše na internetu. In: Nová generace webových technologií: informace v 21. století. Vyd. 1. vyd. 2005. Praha: VOX; s. 205-236. ISBN 80-86324-46-x. o PAPÍK, Richard. Metody vyhledávání vědeckých informací: viditelný x neviditelný web.[online].2004. [cit. 2008-02-11]. Dostupné na WWW: . o Papík, Richard: Jak využít informace ve prospěch firmy. In: Konkjuktura.cz. 2005, roč. 5, č. 1, s. 1-8. ISSN 1213-8169. o Papík, Richard; Michalík, Petr; Michalík Pavel; Nováček, Libor. Internet ekonomické, marketingové a finanční aplikace : strategie vyhledávání a prezentace. Praha : Ekopress, 1998. 220 s. ISBN: 80-86119-03-3. o RAJARAMAN, Anand. The story behind Google's crawler upgrade. 2008 [cit. 2008-04-20]. Dostupné na WWW: . o Researchers Map the Web. [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: . o SHERMAN, Chris – PRICE, Gary. The Invisible Web. Independent Pub Group 2001. s.7. ISBN 09-109-6551-X. o SHERMAN, Chris. New Web Map Reveals Previously Unseen ‘Bow Tie’ Organizational Structure. [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: . o SHERMAN, Chris. Search Engine Watch Newsletter. 2005 [cit. 2008-04-06]. Dostupné na WWW: . o SPINK, Amanda. Public Searching of the Web [online]. Springer Publishers. 2004. [cit. 2008-04-06]. Dostupné na WWW: .
75
o SULLIVAN, Danny. Google Now Fills Out Forms & Crawls Results[online]. 2008 [cit. 2008-04-15]. Dostupné na WWW: . o SULLIVAN, Danny. Search Engine Sizes [online]. 2005 [cit. 2008-04-06]. Dostupné na WWW: . o TDKIV – Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: . o The Ultimate Guide to the Invisible Web[online]. 2008 [cit. 2008-04-11]. Dostupný na WWW: . o VÍTŮ, Martin. Google Scholar se rozvíjí - má Scirus konkurenci? Ikaros [online]. 2005, roč. 9, č. 3 [cit. 2008-04-12]. Dostupný na WWW: . ISSN 1212-5075. o VOJTÁŠEK, Filip. Online služba Scirus indexuje volně přístupné webové a komerční zdroje. Ikaros [online]. 2001, roč. 5, č. 9 [cit. 2008-04-12]. Dostupný na World Wide Web: . ISSN 1212-5075. o ZBIEJCZUK, Adam. Web 2.0 – charakteristika a služby. Diplomová práce [online]. Brno: Masarykova Univerzita, Fakulta sociálních studií, Katedra mediálních studií a žurnalistiky, 2007 [cit. 2008-02-11]. Dostupné na WWW: . Vedoucí práce Mgr. David Kořínek o ŽABIČKA, Petr. OAI - PMH: Protokol pro metadatovou interoperabilitu. In Automatizace knihovnických procesů. Vyd. 1. Praha : ČVUT Výpočetní a informační centrum, 2003. ISBN 80-01-02738-4, s. 42-50
76
Seznam obrázků, tabulek a grafů Obr. 1: 3D znázornění webu Obr. 2: Znázornění webu kolem vyhledávače Google. Obr. 3: Schematické znázornění teorie motýlku Obr. 4: Jiné grafické znázornění teorie motýlku Tabulka 1: Motýlek Tabulka 2. Zdroj How much information 2003 Graf 1: Rozložení povrchového webu podle tyou souborů Tabulka 3: Časová osa nejznámějších vyhledávačů Obr. 5: Pojmy setříděné v binárním stromu Obr. 6: Struktura Googlu. Zdroj: Wikipedie Graf 2: Roustoucí indexy vyhledávačů - prosinec 1995- září 2003. Zdroj: Search Engine Watch Tabulka 4: Počet indexovaných stránek. Zdroj: A. Gulli, A. Singorini, 2005 Tabulka 5: Srovnání výsledků studie Dogpile. Zdroj: www.dogpile.com Obr 7: Vyhledávací rozhraní JIB Obr 9: Titulní stránka Metacrawler. Zdroj: www.metacrawler.com Obr 8: Vásledky vyhledávání Clusty. Zdroj: www.clusty.com Obr 9: Hlavní stránka Googlu doplněná o další služby. Zdroj: www.google.com Obr 10: Hlavní stránka Google News. Zdroj: www.google.com Obr 11: Strukrura webu podle obsahu Graf 4: Velikost datábází v Bergmanově TOP60 Obr 12: Rozdělení serverů. Zdroj: Lawrence - Gilles Obr 13: Architektura crawleru v hlubokém webu Obr 14: Porovnání lidského přístupu a vyhledávače hlubokého webu Obr 15: Vyhledávací rozhraní Turbo10. Zdroj: www.turbo10.com Obr 16: Tři hlavní subsystémy Turbo10: Adapter Manager, Trawler Server a Browser. Obr 17: Vyhledávač Incywincy. Zdroj: www.incywincy.com Obr 18: Vyhledávací rozhraní CompletePlanet. Zdroj: Brightplanet.com Obr 20: Ukázka přizpůsobeného vyhledávacího okna. Zdroj: www.intute.co.uk Tabulka 6:Rrozložení zdrojů podle oborů. Zdroj www.infomine.com Obr 21: Hlavní stránka Infomine. Zdroj: www.infomine.com Obr 22: Hlavní stránka Scirus. Zdroj. www.scirus.com Obr .23: Rozhraní adresáře DOAJ. Zdroj: www.doaj.org Obr. 24: OAIster
77