VYŠŠÍ ODBORNÁ ŠKOLA INFORMAČNÍCH SLUŽEB V PRAZE
Deep web versus surface web Studijně-rozborová práce
Libuše Šimová Praha, červen 2014
Předmluva Studijně rozborová práce byla vypracována pro studijní účely jako součást výstupu z předmětu Úvod do informačního managementu, vyučovaném PhDr. Lindou Egemovou, pedagogem na Vyšší odborné škole informačních služeb v Praze. Tato práce si klade za cíl poukázat na existenci hlubokého webu, jeho využití jako zdroj informací, popsat způsoby, jak informace v hlubokém webu nalézt a také jak se v tomto prostředí pohybovat. V úvodní kapitole je poprvé zmíněn termín hluboký web (neboli deep web) a zároveň popsán princip indexování webu. Druhá kapitola je zaměřena na povrchový web, jsou zde také uvedeny nástroje používané při vyhledávání v této oblasti. Podstatná část této práce je obsažena ve třetí kapitole, která se zabývá tématem hlubokého webu. Je zde představena problematika hlubokého webu, zejména příčiny jeho vzniku, dále pak je zde srovnána jeho velikost oproti povrchovému webu a v neposlední řadě jsou zde zmíněny způsoby a nástroje pro vyhledávání v hlubokém webu. V závěru práce jsou pak shrnuty poznatky z této problematiky, cíle práce a možný budoucí vývoj.
I. SOUHRN Obsah 1
Úvod ................................................................................................................. 4
2
Povrchový web .................................................................................................. 4
3
Hluboký web ..................................................................................................... 5
4
Závěr ................................................................................................................. 7
3
1. Úvod Internet je v dnešní době vymoženost, která nám ulehčuje práci. Během pár
001-002
minut si vyhledáme informace, které bychom v minulosti jen těžko a zdlouhavě vyhledávali v literatuře či za pomoci jiných zdrojů. Použití internetu se tedy zdá, jako efektivní při vyhledávání informací. Ne vždy to ale znamená, že rychle nalezené informace jsou relevantní a správné. Informace ve webovém prostředí jsou totiž, a to mnozí uživatelé nevědí, v různých úrovních zpřístupnění. Dají se tedy vyhledat mnohem kvalitnější a relevantnější informace než se na první pohled může zdát. A to pomocí hlubokého webu. Existuje mnoho nástrojů k vyhledávání různých informací. Abychom ale byli
003-007
schopni je efektivně vyhledávat, je dobré znát princip, jak vůbec vyhledávače fungují. Internetové vyhledávače se skládají ze tří částí – robota, indexu a vyhledávacího stroje. Každá tato část je sama o sobě důležitá a každá má také svojí úlohu v tomto systému.
2. Povrchový web Povrchový web je ta část internetového prostoru, která je každému běžnému
008
uživateli přístupná, tzn. dá se do něj dostat pomocí běžným vyhledávačů jako je například Google. Stačí zadat dotaz a během chvíle dostanete výsledky. Ty ovšem nemusí být ověřené, úplně ba dokonce ani aktuální. Vyhledávání na internetu se dá přirovnat k tažení síti po moři. Jeho velikost se totiž odhaduje něco kolem 2-3 miliard indexovatelných dokumentů, což se opravdu dá přirovnat k oceánu. Část je chycena v síti, ovšem ta větší část zůstává skryta v hlubinách. Pro
vyhledávání
informací
na
povrchovém
webu
existuje
několik
vyhledávacích nástrojů. Všechny mají samozřejmě své výhody ale také nevýhody. Mezi takové nástroje patří vyhledávací stroje, metavyhledávače, předmětové katalogy a virtuální knihovny. Před použitím některého z těchto nástrojů si musí uživatel uvědomit, co vlastně chce vyhledávat. Vyhledávací stroje jsou snadno dostupné a postačí běžnému uživateli. Metavyhledávače umožňují na základě jednoho dotazu vyhledávat v několika vyhledávačích najednou. Předmětové katalogy jsou zase 4
009-015
vhodné, pokud náš záběr hledání je příliš široký nebo nemáme konkrétní představu. Nesmíme opomenout virtuální knihovny, které jsou uložištěm velkého množství elektronických informačních zdrojů.
3. Hluboký web Hluboký web je částí internetového prostoru, kterou běžné vyhledávače
016-017
neindexují a tedy ani neprohledávají. Tato oblast poskytuje systematicky uspořádané informace v databázích nebo databázových centrech. Informaci bývají poměrně spolehlivé, relevantní a kvalitnější oproti povrchovému webu. Nalézají se zde především informace uložené v různých databázích, adresáře, dokumenty v jiných formátech než HTML, oficiální zprávy a další významné dokumenty. Existuje mnoho příčin, proč vyhledávače určitou část webu přehlíží a
018-024
neprohledávají. Jedním z důvodu, proč tomu tak je, je například dynamický obsah. Údaje, které jsou zobrazovány v online dokumentu, se mění automaticky až v okamžiku požadavku uživatele. A to nejsou roboti schopni indexovat. Další problémem je například vstup chráněný heslem nebo časově omezený přístup, kdy se může jednat o zkušební verze stránek nebo nutnost po nějaké době uhradit poplatek. Častým problémem bývá také obsah v nestandardním formátu, který se na mnohých stránkách vyskytuje. Uvádí se, že hluboký web je asi 500krát obsáhlejší než povrchový web. Přesná
025-026
čísla nejsou ale bohužel dostupná, neexistuje totiž způsob jak hluboký web přesně změřit. Podle uvedených údajů se dá hovořit o 7500 terabytech informací (oproti 19 terabtyům povrchového webu). Tento markantní rozdíl je ohromující. Je až s podivem, proč je takové množství informací nevyužito. Obsah hlubokého webu je velice relevantní pro každou informační potřebu. Více jak polovina obsahu je totiž obsažena v tematicky zaměřených databázích. S postupným pokrokem se vyhledávače vyvíjejí a zlepšují. Technologie jsou na lepší úrovni a to umožňuje lepší a lepší vyhledávání informací. Dříve byl internet využíván k úzkému okruhu činností, například
5
027-029
zveřejňování výsledků výzkumů. Dnes je ovšem používán k uspokojování mnoha jiných potřeb. A proto se vyhledávače musely přizpůsobit. Důvodů, proč se o hluboký web zajímat, je velmi mnoho. Povrchový web je
030-031
sice snadně přístupný a obsahuje víc než velké množství informací, dnes se však platí za relevantnost a aktuálnost. Což se u informací z povrchového webu nedá hovořit. Proto je existence specializovaných databází, které obsahují unikátní informace, zásadní. Pro racionálně uvažujícího jedince je tedy nesmyslné přehlížet tuto možnost využití obrovského množství informací. Prohledávání hlubokého webu není složité, pokud znáte ty správně prostředky.
032
Také základním krokem vstříc hlubokému internetu je, vůbec si uvědomit, že existuje. Důležité je využívání databází, které ukrývají nepřeberné množství specifických informací. Například mnohé knihovny napomáhají k objevování těch informací, tím že zprostředkovávají vzdálený přístup k databázím. Pokud se tedy stanete jejím zaregistrovaným členem, můžete i vy využívat těchto služeb. Prostřednictvím různých databází, databázových center, aplikací nebo jiných vyhledávacích prostředků. Pokud se dokážeme orientovat v databázích a databázových centrech, jsem na půli cesty k vítězství. Většinou jsou tato centra postavena na komerčních základech, platí se za ně. Už to nám může z části zaručit kvalitu vyhledaných informací. Největším databázovým centrem je například Dialog nebo STN International. Firma BritghPlanet nabízí základní aplikaci s názvem Deep Web Harvester, která poskytuje mnoho možností práce s hlubokým webem. Jako další vyhledávací nástroje mohou být jmenovány Turbo10, Lycos Invisible Web Catalog nebo Infomine Multiple Database Search. Všechny tyto nástroje umožňují pohyb v hlubokém webu. Dalšími významnými elektronickými zdroji jsou pak například databáze EBSCO, ProQuest nebo Web of Science.
6
033-038
4. Závěr Budoucnost hlubokého webu je víc než jasná. Stane se stále více a více využívaným zdrojem kvalitních informací. Zčásti to bude ale podmíněno vývojem technologií, úrovní vyhledávačů a ochotou uživatelů trochu složitěji vyhledávat informace. Pokud se tyto překážky odstraní, nebrání hlubokému webu stát se běžnou součástí našich životů.
7
039 - 041
II. STUDIE Obsah 1.
Úvod...........................................................................................................................................9 1.1
2.
1.1.1
Roboti ..........................................................................................................................9
1.1.2
Index ......................................................................................................................... 10
1.1.3
Vyhledávací stroj ....................................................................................................... 10
Povrchový web ........................................................................................................................ 11 2.1
3.
Indexování webu .................................................................................................................9
Nástroje pro vyhledávání na povrchovém webu ................................................................. 11
2.1.1
Vyhledávací stroje (search engines) ........................................................................... 11
2.1.2
Metavyhledávače (meta search engine) ...................................................................... 12
2.1.3
Předmětové katalogy (subject trees) ........................................................................... 12
2.1.4
Virtuální knihovny ..................................................................................................... 13
Hluboký web............................................................................................................................ 14 3.1
Problematika hlubokého webu ........................................................................................... 14
3.1.1
Dynamický obsah ...................................................................................................... 14
3.1.2
Generovaný obsah...................................................................................................... 14
3.1.3
Vstup chráněný heslem .............................................................................................. 15
3.1.4
Časově omezený přístup ............................................................................................ 15
3.1.5
Nové stránky.............................................................................................................. 15
3.1.6
Obsah v nestandardním formátu ................................................................................. 15
3.2
Srovnání velikosti povrchového a hlubokého webu ............................................................ 15
3.3
Vyhledávače včera a dnes .................................................................................................. 16
3.4
Proč je dobré vědět o deep webu ........................................................................................ 17
3.5
Způsoby prohledávání hlubokého webu ............................................................................. 18
3.6
Nástroje pro vyhledávání v hlubokém webu ....................................................................... 18
3.6.1
Databázová centra ...................................................................................................... 18
3.6.1.1 Dialog .................................................................................................................... 18 3.6.1.2 STN International................................................................................................... 19
4.
3.6.2
Aplikace .................................................................................................................... 19
3.6.3
Vyhledávací systémy ................................................................................................. 19
Závěr........................................................................................................................................ 21
8
1. Úvod 001
Internet slouží pro většinu uživatelů převážně jako prostředek pro výměnu nebo
hledání nových informací. Právě internet je v dnešní době jeden z hlavních zdrojů pro získávání různých druhů informací. Stačí vědět jak a kde správně hledat. Pro běžného uživatele to v praxi znamená pomocí zadání jednoduchého dotazu do některého z oblíbených vyhledávačů, jako jsou Google, Yahoo nebo Seznam. Po zadání dotazu jim vyhledávače v relativně krátkém čase poskytnou nalezené výsledky. Tyto výsledky nejsou ovšem vždy uspokojivé a relevantní vzhledem k původnímu požadavku. 002
Uživatel v mnoha případech nemá ani tušení, že tyto vyhledávače ve svém
vyhledávání zcela ignorují určitou část internetu. Informace ve webovém prostředí jsou totiž dostupné v různých úrovních zpřístupnění. Z tohoto pohledu můžeme rozeznávat tzv. povrchový web (z angl. surface web), který je veřejně přístupný a běžně indexovaný vyhledávači a tzv. hluboký web (z angl. deep web), který vyhledávací stroje nejsou schopny indexovat.
1.1 Indexování webu 003
Pro pochopení jak internetové vyhledávače fungují, je důležité znát jejich princip
zpracovávání informací v prostředí webu. Internetové vyhledávače se skládají ze 3 komponentů – robota, indexu a vyhledávacího stroje (search engine).
1.1.1 Roboti 004
Robot (také crawler, spider) pracuje na principu pravidelného shromažďování WWW
dokumentů, ze kterých se poté vytváří index. Tento program prochází podle určitého algoritmu WWW servery a jejich jednotlivé dokumenty a analyzuje jejich obsah. Robota zajímá zvláště plný text, méně pak obrázky, zvukové stopy a jiné obtížně indexovatelné mediální formy (Sklenák, 2001). Dalším principem práce robotů je sledování a ukládání odkazů mezi stránkami. Robot začne na jedné stránce a sleduje všechny odkazy, které na ní jsou. A takto pokračuje dále. Tím vytváří jakousi síť známých stránek a tento proces je označován jako indexování. (Bergman, 2001)
9
1.1.2 Index 005
Indexování je proces vyjádření obsahu dokumentu pomocí prvku selekčního jazyka,
obvykle s cílem umožnit zpětné vyhledávání (Balíková, 2003) Indexováním také rozumíme způsob organizace údajů nashromážděných díky činnosti robota tak, aby bylo možné následné rychlé a efektivní vyhledávání. Index si lze představit jako dlouhý seznam klíčových slov, přičemž ke každému slovu je připojen seznam WWW dokumentů, ve kterých se dané slovo objevuje. 006
V praxi to funguje tak, že vyhledávač dostane dotaz, prohledá svůj indexovaný obsah
webu a porovnává klíčová slova s obsahem stránek. Výsledky jsou závislé na typu použitého vyhledávače, proto uživatel dostane vždy trochu jiné výsledky. Indexování se může na první pohled zdát jako účinný systém, přesto existence hlubokého webu dokazuje, že tomu tak zcela není. Stačí vytvořit webovou stránku, na níž nepovede odkaz z žádné jiné stránky. I přesto že taková stránka může obsahovat ty nejpřesnější a nejobsáhlejší informace k vyhledávanému tématu, tak ani nejznámější vyhledávač jako je Google ji nenajde.
1.1.3 Vyhledávací stroj 007
Vyhledávací stroj nabízí uživatelské rozhraní, ve kterém uživatel zadává dotazy. Ty
jsou nadále vyhodnocovány pomocí indexu a posléze jsou uživateli poskytnuty nalezené odkazy. Nejčastěji používaným dotazovacím jazykem je jazyk booleovského typu. Booleovský přístup je založen na přesné shodě mezi slovem použitým v dotazu a slovem uvedeném v indexu. V případě víceslovného dotazu se využívají vyhledávací pomůcky, tzv. Booleovské operátory. Většina vyhledávacích strojů řadí nalezené odkazy podle některých charakteristik textu. Mezi takové charakteristiky může například být struktura dokumentu (jeho název, popis, klíčová slova), nebo frekvence (slovo vyskytující se v textu častěji může poukazovat na vyšší relevantnost vzhledem k dotazu obsahujícímu dané slovo) (Sklenák, 2001).
10
2. Povrchový web 008
Pod termínem povrchový web si můžeme představit tu část internetového prostoru,
která je běžným vyhledávačem, jako je například Google Search, indexována a zpřístupněna. Tento prostor je všem uživatelům dobře znám, záleží jen na schopnosti dobře formulovat dotaz. Na druhou stranu se tu nacházejí informace, které jsou často neověřené, neúplné, nespolehlivé či již neaktuální. Jeho velikost se odhaduje okolo 2-3 miliard indexovatelných dokumentů, tzn. dokumentů, které mohou být podchyceny v databázích vyhledávacích služeb založených na automatizovaném sběru dat. Vyhledávání na internetu se dá přirovnat k tažení sítě po moři. Zatímco část informací může být chycena v síti, tak stále větší množství informací, které je skryto v hloubce, je opomenuto. Důvod je prostý, většina informací na webu je „pohřbena“ na dně tohoto pomyslného oceánu například díky dynamicky se generovaným stránkám (informace se generují z databáze).
2.1 Nástroje pro vyhledávání na povrchovém webu 009
Pro vyhledávání informací na webu lze použít několik vyhledávacích nástrojů. Každý
z nich má své výhody ale i nevýhody. Jejich použití se odvíjí od základního požadavku na vyhledání. Je ovšem dobré vědět o těchto možnostech.
2.1.1 Vyhledávací stroje (search engines) 010
Klasické fulltextové vyhledávače jsou základním nástrojem pro každé vyhledávání na
webu. Jsou snadno dostupné, stačí mít přístup k internetu, který je v případě potřeby vyhledávat informace, samozřejmostí. Dalším atributem je jejich snadné ovládání. Stačí jednoduše do textového pole zadat dotaz a požádat o výsledek. A právě tato jednoduchost činí z vyhledávačů nejoblíbenější nástroje. Většina vyhledávačů také samozřejmě poskytuje i rozšířený režim vyhledávání, který umožňuje vytvářet složitější dotazy. Vyhledávačů existuje nepřeberné množství a ve své základní funkčnosti se příliš neliší. Výběr záleží pouze na uživateli 011
Vyhledávací stroje umožňují automatizovaný sběr, který provádějí roboti. Ti
prostřednictvím hypertextových odkazů prohlížejí jednotlivé webové stránky. Nalezeným slovům jsou přiřazena slova, která společně s webovými stránkami tvoří celou databázi možných odpovědí na dotaz uživatele (viz 1.1.3). Vyhledávací stroje se využívají v případě konkrétní představy uživatele. Nedostatkem tohoto nástroje ovšem je, že ve výsledcích se 11
mohou objevit ne příliš relevantní či kvalitní informace. Mezi nejznámější a stále funkční vyhledávací stroje patří například Google, Yahoo!, Bing, dále pak Lycos, Excite nebo Morfeo.
2.1.2 Metavyhledávače (meta search engine) 012
Metavyhledávač je druh vyhledávací služby v prostředí internetu, která umožňuje
uživateli na základě jednoho dotazu paralelní prohledávání databází několika vyhledávacích služeb (Sklenák, 2003). Je to z toho důvodu, že sami nevyhledávají, ale k vyhledání odpovědi na dotazy používají právě ony běžné vyhledávače. Nemusí tedy samy vést vlastní databázi indexovaných webových stránek. Místo toho se obracejí na určité množství vyhledávačů nebo jiných zdrojů a informace od nich v určité míře zpracují. Funguje to tak, že při zadání dotazu, metavyhledávače vyšlou uživatelský dotaz do několika zdrojů. Každý z těchto zdrojů má svůj vyhledávací systém a vyhledávací jazyk (Vyhledávání, 2004) 013
Výhodou metavyhledávačů je, že není potřeba se učit rozdílné způsoby dotazování u
jednotlivých vyhledávacích systémů a zároveň ušetří uživateli nutnost používat a srovnávat informace z mnoha vyhledávačů. Metavyhledávače dokáží nahromadit velké množství výsledků a ty porovnat, seřadit podle kvality či relevance, vyřadit duplicity a podobně. Nevýhodou může však být, že nevyužívají všechny možnosti formulování rešeršního požadavku. Mezi metavyhledávače se řadí Yippy (dříve Clusty), Dogpile, Globalsearch, Zoo.com (dříve MetaCrawler), Search.com nebo Ixquick.
2.1.3 Předmětové katalogy (subject trees) 014
Tyto katalogy fungují na principu hierarchie (dělí se na kategorie a podkategorie) a
jsou budovány ručně. Pokrývají proto menší číst webového prostoru. Katalogy jsou organizovány od obecnějších až po konkrétní webové stránky. Je vhodné je použít v případě, že záběr hledání je příliš široký nebo uživatel nemá konkrétní představu o hledané informaci. Největší výhodou těchto katalogů je kvalita, která je dána zejména ručním vytvářením. Na druhou stranu mívají ovšem omezený obsah a například procházení jednotlivých kategorií může být časově náročné. Problémem může být ovšem platnost některých odkazů a méně častá aktualizace. Mezi nejznámější předmětové katalogy patří Yahoo!, Seznam, Atlas, Centrum, LookSmart nebo Open Directory Project.
12
2.1.4 Virtuální knihovny 015
Virtuální knihovna je integrovaný systém zahrnující soubor elektronických
informačních zdrojů a služeb umožňující získávání, zpracovávání, vyhledávání a využívání informací
v
tomto
systému
uložených.
Digitální
knihovny
jsou
zpřístupňovány
prostřednictvím počítačových sítí. Účelem budování digitální knihovny je poskytnout uživatelům možnost jednotného přístupu k digitálním anebo digitalizovaným dokumentům, případně i k sekundárním informacím o tištěných primárních zdrojích, uložených ve fondu knihovny (Celbová, 2003). Jde o databáze, které se zaměřují na odbornou literaturu, vědecké informace a podobně. Jsou tvořeny informačními odborníky, což zajišťuje určitou úroveň kvality informací. Mezi virtuální knihovny se řadí například Internet Public Library nebo dříve funkční Scirus.
13
3. Hluboký web 016
Základní definice tvrdí, že hluboký web je ta část webu, kterou běžné vyhledávače
neindexují a tedy ani neprohledávají (Bergman, 2001). Často je označován jako neviditelný web. To však není úplně přesné. Tyto informace jsou samozřejmě k nalezení, ovšem ne běžným způsobem vyhledávání například přes vyhledávač Google. Tato oblast internetu poskytuje na rozdíl od neuspořádaných a neúplných informací, které jsou známé z povrchového webu, systematicky uspořádané informace v databázích nebo databázových centrech. Ty bývají z velké části relevantní a poměrně spolehlivé. 017
Nalézají se zde především informace uložené v databázích (téměř 54 %), adresáře,
specializované vyhledávače, dokumenty v jiných formátech než HTML (například PDF, PS, Adobe Flash, komprimované soubory), výzkumné zprávy a studie, příspěvky z konferencí, oficiální zprávy a další významné a neveřejné dokumenty. Dále se sem dají zařadit tzv. „osamocené“ webové stránky, z kterých není odkaz na jiné a na které není odkaz, dynamicky generované stránky (například katalogy knihoven, kalkulátory a také stránky chráněné heslem. (Bergman, 2001)
3.1 Problematika hlubokého webu 018
Existuje mnoho příčin, proč vyhledávače určitou část webu nevidí a tím pádem jí
neprohledávají. Některé tyto faktory jsou popsány v následující části.
3.1.1 Dynamický obsah 019
Vyhledávání by mělo v přiměřeném čase přinést přiměřené výsledky. V některých
případech ale může získání kvalitních výsledků být příliš náročné (na výkon či čas). Vyhledávače proto záměrně vynechávají části webu, jejichž řetězce URL jsou příliš dlouhé a složité. I když je šance, že se v nich skrývají kvalitní výsledky, hrozí, že se roboti na takových stránkách dostanou do nekonečné smyčky nebo že najdou duplikovaný obsah.
3.1.2 Generovaný obsah 020
Na webu existuje velký počet databází, které v sobě obsahují nepřeberné množství
informací. Nacházejí se zde odpovědi na většinu dotazů, ovšem ty musí být správně formulovány. Klasické vyhledávače žádné dotazy nekladou, pouze vyhledávají zadaná
14
klíčová slova. Tato oblast právě bývá často skryta. Do této kategorie pak patří například stránky, k jejichž přístupu je třeba provést nějakou akci, nejčastěji vyplnit nějaký formulář.
3.1.3 Vstup chráněný heslem 021
Dalším typem jsou webové stránky, k jejichž přístupu je nutná autorizace
uživatelským jménem či heslem. Může jít jak o placené tak i neplacené služby (Bergman, 2001) ve své původní studii odhadoval, že 95 % obsahu hlubokého webu je přístupná zdarma. Do této kategorie se dají zařadit akademické knihovny, firemní databáze nebo diskusní fóra.
3.1.4 Časově omezený přístup 022
Některé stránky mohou být přístupné pouze po nějakou dobu. Může jít např. o různé
zkušební verze stránek, po jejichž vyprchání je potřeba zaplatit určitý poplatek pro další používání. Vyhledávače tedy sice znají URL, ale stránka jim zabrání k přístupu k obsahu. Nemůžou v něm tedy ani vyhledávat.
3.1.5 Nové stránky 023
Vyhledávače většinou upřednostňují stránky s větší návštěvností nebo počtu odkazů na
ně. Právě nově vytvořené stránky, které mají oba tyto parametry ještě nízké, vynechávají. Stránky, které vyhledávače nezobrazují, ovšem uživatelé nenavštěvují, tudíž není zvýšena jejich návštěvnost.
3.1.6 Obsah v nestandardním formátu 024
Převážná většina vyhledávačů preferují pouze textový formát obsahu stránek, může se
stát, že některé informace uložené v jiných formátech (video, obrázky, flashové prezentace) snadno přehlédnou.
3.2 Srovnání velikosti povrchového a hlubokého webu 025
Pro rekapitulaci, povrchový web (neboli surface web) je tedy ta část internetu, která
může být nalezena přes odkazy z domovské domény, které byly zaindexovány pomocí robotů (crawlerů). Naproti tomu hluboký web (neboli deep web) je ta část internetu, ke které nelze přistupovat pomocí odkazů, které poskytnou vyhledávače jako je například Google. Jediným způsobem, jak může uživatel získat přístup k této oblasti je tím, že provede cílený dotaz do 15
vyhledávacího formuláře té určité databáze. Laicky řečeno, musí hledat v rámci té konkrétní webové stránky. Hluboký web je tvořen běžně nedostupnými dokumenty a daty uloženými v různých databázích. Uvádí se, že je asi 500krát obsáhlejší než povrchový web, v každém případě přesná čísla nejsou dostupná, protože neexistuje způsob jak hluboký web přesně zmapovat a změřit. 026
Podle uvedených údajů hluboký web obsahuje 7500 terabytů informací (oproti 19
terabytům informací v povrchovém webu), dále obsahuje téměř 550 miliard jedinečných dokumentů oproti 1 miliardě dokumentů v povrchovém webu a existuje zde více než 200 000 domén. Šedesát největších domén v hlubokém webu obsahuje dohromady 7500 terabytů informací, což samo o sobě přesahuje velikost povrchového webu čtyřicetkrát. Domény bývají také většinou s užším, ale zato hlubším zaměřením než běžné stránky. Celková kvalita obsahu v hlubokém webu je tisíc až dvou tisíckrát větší, než ta v povrchovém webu. Co se týče obsahu hlubokého webu, tak ta je velice relevantní pro každou informační potřebu, trh či doménu. Více jak polovina obsahu se nachází v tematicky zaměřených databázích a zároveň celých 95 procent jsou veřejně přístupné informace. Není potřeba žádných poplatků (Bergman, 2001).
3.3 Vyhledávače včera a dnes 027
Problematika vyhledávačů se datuje již od roku 1990, s postupným růstem popularity
internetu. Většinou byly přidávány statické stránky, i přesto uživatelé potřebovali najít způsob jak vyhledat webové stránky, které obsahovaly potřebné informace. Vyhledávače jako Google, AltaVista nebo Yahoo vytvořily technologie, které procházely webové stránky a indexovaly je, a zároveň se snažily najít nejrelevantnější stránky obsahující odpověď na to, co uživatelé hledali. 028
Dotazy, které byly původně pokládány vyhledávačům na konci 90. let, byly velmi
jednoduché. Studenti, kteří hledali studijní materiály, nahradili encyklopedie internetem, Například i badatelé vytvořili elementární webové stránky, aby mohli sdílet jejich objevy. V té době byl internet nekomerční a používán za účelem výzkumu.
16
Internet v dnešní době se výrazně liší. Miliony webových stránek jsou, mimo dřívějšího účelu výzkumu, zveřejňovány z mnoha důvodů. Společnosti vyvíjející vyhledávací stroje vytváří vyhledávače, které jsou schopny rychle indexovat miliony webových stránek v krátkém časovém období. Vyhledávače neuloží celý obsah webové stránky, pouze navedou na pozici umístění obsahu. 029
Vyhledávače při indexování webových stránek obvykle ukládají nejčastěji
frekventovaná slova, umístění těchto slov a na závěr i určitá metadata (název webové stránky, URL webové stránky, klíčová slova atd.). Vyhledávače jako Google jsou dobré jak ve vyhledávání informací na povrchovém webu, tak i co se týče poskytování odpovědí na základní otázky. Nicméně mnoho společností a organizací požaduje odpovědi na složitější otázky. Komplexnější otázky vyžadují více, než jsou vyhledávací stroje schopny poskytnout. (BrightPlanet, 2014)
3.4 Proč je dobré vědět o deep webu 030
Důvodů, proč se zajímat o deep web, můžeme nalézt hned několik. Obsahuje
například informace, které jsou mnohdy v lepší kvalitě než v povrchovém webu nebo nejsou běžně k nalezení. Mezi výhody se také počítá existence specializovaných databází, které obsahují unikátní a relativně aktuální informace. Dá se předpokládat, že obsah hlubokého webu bude narůstat, stále větší část webu budou pokrývat vyhledávací stroje, budou vznikat nové brány a sbírky a z pohledu informačního profesionála bude šetřit čas uživatelů, a vytvářet „kolekce“ informací (Sherman, 2001). 031
Jedním hlediskem důležitosti hlubokého webu je tedy, že hluboký web je důležitý
hlavně pro svůj obsah jinde nevyhledatelných informací. Ignorovat hluboký web by tedy pro racionálně uvažujícího jedince bylo velmi nevýhodné. Druhým pohledem, je samotné srovnání objemu obou částí webu. Několika násobný rozdíl ve velikosti je výrazný. Tato propast mezi volně přístupnými a těmi skrytými (díky neschopnosti vyhledávačů) se však každým dnem prohlubuje. Je tedy také možné, že pokud se pokrok ve vyhledávání neposune o krok dále, tak bude o to obtížnější nějaké relevantní informace nalézat. Bohužel konkrétní důkazy o rozdílnosti kvality informací, co se týče hlubokého a povrchového webu, nebyly prozatím nijak doloženy. Vše se opírá pouze o studie a odhady.
17
3.5 Způsoby prohledávání hlubokého webu 032
Prohledávání hlubokého webu není složité, pokud znáte správné prostředky. Cílem je
objevit databáze, které budou odpovídat na otázky, které nás zajímají. Běžné vyhledávače hluboký web neindexují, ale přesto mohou najít například vstupní brány do hlubokého webu. Stručný návod, jak využít potencionálu hlubokého webu, sepsal systémový analytik a učitel informačních systémů na Rutgers University, Lee Ratzan. Základní strategií pro vyhledávání v hlubokém webu je mít uvědomit si, že hluboký web vůbec existuje. Například důležité je používat vyhledané databáze k cílenému hledání (tzn. zadávat cílené dotazy do databáze), nebo zaregistrovat se na stránkách se speciálním zaměřením a využívat jejich archivů. Dále lze využít mnoha knihoven, které svým zaregistrovaným čtenářům nabízejí zdarma vzdálený přístup ke komerčním a databázovým zdrojům. Některé knihovny využívají předplacených služeb a poskytují bezplatné vyhledávání v databázích (Ratzan, 2006).
3.6 Nástroje pro vyhledávání v hlubokém webu 033
Existuje mnoho cest jak se do hlubokého webu dostat a využít jeho nekonečné
možnosti. Ať už prostřednictvím různých databází, databázových center, aplikací nebo jiných vyhledávacích systémů.
3.6.1 Databázová centra 034
Hlavní zdroj tvořící největší část hlubokého webu jsou profesionální databáze. Je tedy
proto nutná schopnost orientace v těchto databázích a databázových centrech. Databázová centra většinou stojí na komerčních základech a obsahují velká množství ověřených informačních pramenů nahromaděných v jednotlivých tematicky zaměřených databázích. Organizace, jejichž služby se využívají, obvykle mají navázány smluvní vztahy s příslušnými databázovými centry a mají zároveň domluvené platební podmínky. V následující části je zmíněny dvě největší databázová centra.
3.6.1.1 Dialog 035
Toto databázové centrum zpřístupňuje téměř 1000 databází. Bývá teda právem
označováno za nejrozsáhlejší databázový systém vůbec. Obsažené databáze pokrývají téměř všechna odvětví, silné postavení má toto databázové centrum také v oblasti zpřístupňování ekonomických informací a databází patentů. Vzniklo před více než 40-ti lety a označuje se také za nejstarší databázové centrum vůbec. Společnost má přímé zastoupení ve 27 zemích 18
světa. Dohromady nabízí ve svých obsazích téměř 470 milionů abstraktů vědecké literatury, 185 milionů záznamů patentů, 27 milionů záznamů ochranných známek, 546 milionů záznamů pro oblast ekonomických informací a dalších hodnotné informační zdroje (Fabián, 2012)
3.6.1.2 STN International 036
STN International je mezinárodní instituce, poskytující ucelenou nabídku více než 200
databází zejména pro přírodní a technické obory, které obsahují okolo 400 milionů dokumentů (Fabián, 2012)
3.6.2 Aplikace 037
Jde zejména o aplikace vyvíjené primárně za účelem získávání a zpracování informací
z hlubokého webu. Jeden takový produkt nabízí firma BrightPlanet (BrightPlanet, 2012). Tato aplikace využívá více než 70 000 databází a speciálních vyhledávačů. Poskytuje několik možností řešení této problematiky, podle přání klienta. Její základní aplikace Deep Web Harvester poskytuje mnoho možností práce s hlubokým webem. Program je napojen na několik zdrojů v hlubokém webu, umožňuje zadávání dotazů podle upravených kritérií, pokročilé filtrování, používání technologie RSS, prohledává data s nestandardním obsahem jako třeba prezentace ve formátu Powerpoint a podobně.
3.6.3 Vyhledávací systémy 038
Mezi nástroje, které umožňují přístup do hlubokého webu patří například Turbo10
(umožňuje klást dotazy více než 800 vyhledávačům, které jsou zaměřeny na deep web), BusinessResearch (nástroj zaměřený na aplikační výzkum), Science Research Portal (umožňuje prohledávat hluboká web v oblasti vědeckých informací), Lycos Invisible Web Catalog (jde o jednu z nejlepších služeb pro orientaci v prostředí deep webu, mapuje více než 10 000 databází), Infomine Multiple Database Search (rozcestník k více než 15 000 databázím, určeným především pro akademickou komunitu, součástí jsou i odkazy na ečasopisy, knihy, knihovní katalogy apod.), AlphaSearch (služba, která nabízí jedny z nejkvalitnějších odkazů, zaměřuje se na zdroje označované jako vstupní brány) nebo WebData (databázový portál nabízející k jednotlivým databázím anotace, recenze a hodnocení
19
kvality). Mezi další významné elektronické zdroje patří například databáze EBSCO, ProQuest, Web of Science, SCOPUS, nebo EZB (Goldsborough, 2006).
20
4. Závěr 039
Dnešní uspěchaná doba si žádá rychlé a pohotové jednání. To se týká i vyhledávání
informací. Internet se stal důležitou součástí života každého z nás a zdá se, že jeho prostřednictvím se dají informace lehce získat. Stačí k tomu internetové připojení, výběr konkrétního vyhledávače (př. Google, Yahoo, Seznam) a pár kliknutí. S tímto si ovšem vystačí pouze obyčejný uživatel internetu. Například internetový vyhledávač Google je považován za velmi snadno dostupný a jednoduchý prostředek. Pokud ale budeme chtít vyhledat nějakou specifickou informaci, nebo požadovat, aby informace byla relevantní, budeme se muset ponořit hlouběji do útrob internetu. Tedy do oblasti nazývané hluboký web. Tato oblast je prozatím ne příliš probádaná, a podle uskutečněných studií a průzkumů skýtá velké množství neobjevených informací. K tomu, abychom se k těmto informacím dostali je ale zapotřebí mít určité znalosti a je dobré znát nástroje, kterými se dají tyto informace získat. 040
Cílem této práce bylo přiblížit problematiku hlubokého webu, poukázat na možné
příčiny jeho vzniku a představit metody získávání informací v této oblasti. Z dostupných informačních zdrojů jsem se pokusila co nejvíce popsat tuto oblast. Mým záměrem bylo co nejvíce přiblížit, jak se dá v hlubokém webu vyhledávat a s jakými nástroji pracovat. Myslím si, že tato práce bude určitým přínosem v tomto tématu. 041
Malé povědomí veřejnosti o hlubokém webu a dalších věcí s ním souvisejících je
hlavní překážkou, která brání v dalším rozvoji. Ještě nějakou dobu bude asi trvat, než se tato problematika stane rozšířenějším tématem a dojde k nějakým větším změnám. Podle mého názoru se informace ukryté v hlubokém webu stanou velmi cennou komoditou na trhu do budoucna. Na druhé straně se předpokládá určitý vývoj technologií, které umožní snadnější vyhledávání s mnoha zdroji a přístup k těmto informacím. Další problém, který stojí ve využívání informací v hlubokém webu je jazyková bariéra. Existuje totiž mnoho informací v mnoha jazycích. Ideální stav by byl, kdyby vyhledávač dokázal přesně přeložit hledaná slova do světových jazyků. Je sice známo, že se Google snaží pomocí své služby Google překladače, ale to jen v omezené míře a s malou úspěšností. A to je nedostačující. Velmi by také pomohlo, kdyby vyhledávače dokázaly naplno pracovat s databázemi. Podle mého názoru hluboký web ukrývá velký potencionál, co se týče zdroje informací a je jen otázkou času, kdy bude využíván stejnou měrou jako povrchový web.
21
Seznam bibliografický referencí:
BALÍKOVÁ, Marie. Indexace. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR, 2003- [cit. 2014-0616]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000001549&local_base=KTD.
BERGMAN, Michael, 2001. The Deep Web: Surfacing Hidden Value [online]. [cit. 2014-06-16]. Dostupné z: http://quod.lib.umich.edu/j/jep/3336451.0007.104?view=text;rgn=main
BrightPlanet [online]. 2012 [cit. 2014-06-16]. Dostupné z: http://www.brightplanet.com/
CELBOVÁ, Ludmila. Digitální knihovna. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR, 2003[cit. 2014-06-17]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000000854&local_base=KTD
Deep Web Harvester. Brightplanet [online]. 2012 [cit. 2014-06-15]. Dostupné z: http://www.brightplanet.com/solutions/deep-web-harvester/
FABIÁN, Ondřej. Elektronické informační zdroje [online]. Brno: Centrum NAKLIV, KISK FF MU, 2012. [cit. 2014-06-14]. Dostupné z: http://eknihy.knihovna.cz/static/files/elektronicke-informacni-zdroje.pdf
GOLDSBOROUGH, R. Going beyong the Web's surface. Teacher Librarian [online]. 2006, 33(5), 52. ISSN 1481-1782. Komerčně dostupné z databáze EBSCO: http://www.ebscohost.com/
Meta vyhledávače. Vyhledávání [online]. 2004 [cit. 2014-06-16]. Dostupné z: http://vyhledavace.zkrat.net/meta.html
RATZAN, Lee. Mining the Deep Web: Search strategies that work. ComputerWorld: Networking and Internet [online]. December 11, 2006 [cit. 2014-06-15]. Dostupný z: http://www.computerworld.com
22
SHERMAN, C., PRICE, G. The invisible Web: Uncovering Sources Search Engines Can't See. Library Trends [online]. 2003, 52(2), 286-298 [cit. 2014-06-14]. ISSN 00242594. Komerčně dostupné z databáze EBSCO: http://www.ebscohost.com/
SKLENÁK, Vilém. Metavyhledávací stroj. In KTD. Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR, 2003[cit. 2014-06-17]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000000628&local_base=KTD
SKLENÁK, Vilém. Data, informace, znalosti a Internet. 1. vyd. Praha: C.H. Beck, 2001. ISBN 80-717-9409-0.
23
Název: Deep web versus surface web Podnázev: Studijně rozborová práce Autor: Libuše Šimová Název instituce: Vyšší odborná škola informačních služeb Adresa instituce: Pacovská 350/4, 140 00 Praha 4 Měsíc a rok vydání: červen 2014 Abstrakt: Tématem práce je problematika hlubokého webu, práce uvádí rozdíly mezi hlubokým webem a povrchovým webem a v neposlední řadě zmiňuje způsoby, kterými se dá v hlubokém webu pohybovat. Cílem je poukázat na existenci hlubokého webu, jeho využití jako zdroje informací. Práce je rozdělena na tři části. První část zmiňuje termín hluboký web a zároveň popsán princip fungování indexace webu. Druhá část se zaměřuje na povrchový web a nástroje pro jeho prohledávání. Ve třetí části je nejvíce prostoru poskytnuto hlubokému webu, jeho popisu a výčtu nástrojů, pomocí nichž se dá do něj proniknout. V závěru práce jsou pak shrnuty poznatky z této problematiky, cíle práce a možný budoucí vývoj. Klíčová slova: Internet, hluboký web, povrchový web, deep web, surface web, indexace, vyhledávače, databáze, nástroje pro hluboký web Úplný bibliografický záznam: ŠIMOVÁ, Libuše. Deep web versus surface web: studijně rozborová práce. 1.vyd. Praha: Vyšší odborná škola informačních služeb, červen 2014. 23s.
24