Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze
Jan Vintr
Srovnání internetových vyhledávačů Google a Seznam Bakalářská práce
2009
Prohlašuji, že jsem bakalářskou práci na téma Srovnání internetových vyhledávačů Google a Seznam zpracoval samostatně a použil pouze zdrojů, které cituji a uvádím v seznamu použité literatury V Praze dne 17.8.2009
Podpis
Poděkování Na tomto místě bych rád poděkoval Mgr. Karlovi Maškovi za odborné vedení práce a věcné připomínky.
Bibliografický záznam VINTR, Jan. Srovnání internetových vyhledávačů Google a Seznam. Praha: Vysoká škola ekonomická, Fakulta informatiky a statistiky, 2009. 45 s. Vedoucí bakalářské práce Mgr. Karel Mašek.
Anotace Tato bakalářská práce se zabývá srovnáním internetových vyhledávačů Google a Seznam. Na začátku mé práce rozebírám vyhledávání informací a problematiku hlubokého webu. Také se zaměřuji na vyhledávací nástroje (katalog, fulltext, metavyhledávače, vyhledávací centrály, sémantický web) a jejich popis. Další kapitola se zabývá typy zadávání vyhledávacích dotazů a rozlišením mezi základním vyhledáváním a pokročilým vyhledáváním. Tyto techniky jsou zde popsány pouze obecně, konkrétněji je rozebírám v následujících kapitolách. Vysvětlil jsem také význam pojmu vyhledávací portál. Dále jsem zjistil, že nejpoužívanějšími portály v ČR jsou Google a Seznam. Nejdříve jsem představil vyhledávání pomocí portálu Google, zpracování výsledků hledání a služby, které poskytuje. Poté jsem stejným způsobem popsal portál Seznam. V poslední kapitole jsem srovnal oba portály jak v oblasti vyhledávání, tak v oblasti služeb, jež poskytují. Na závěr jsem dospěl ke zjištění, že Seznam postačí průměrnému uživateli k prohledání českého internetu stejně jako Google. Portál Google je vhodnější pro náročnější uživatele, kteří preferují pokročilejší funkce v oblasti vyhledávání,.
Annotation This bachelor thesis deals with comparing of internet browsers Google and Seznam. At the beginning of my thesis I analyse the searching of information and issues of deep web. I also focuse on searching tools (catalogue, fulltext, metasearchers, searching centrals, semantic web) and their definition. Next chapter deals with types of submitting the searching queries and difference between basic searching and advanced searching. These techniques are described here only generally, I analyse them in detail in following chapters. I explained the meaning of a term „searching portal“ as well. Furthermore I discovered that the most used portals in Czech republic are Google and Seznam. First of all I presented searching by using the Google portal, processing of results of searching and functions that it provides. Then I described the Seznam portal by using the same way. In the last chapter I compared both portals both in the field of searching and in the field of services which they provide. In conclusion I came to a verdict that Seznam serves common user for searching the czech internet as well as Google. The Google portal is more suitable for advanced users who prefer advanced functions in the area of searching.
Obsah: Úvod.................................................................................................................................9 1. Vyhledávání informací................................................................................................10 1.1. Hluboký (neviditelný) web...................................................................................10 2. Vyhledávací nástroje...................................................................................................12 2.1. Katalog..................................................................................................................12 2.2. Fulltextové vyhledávače (search engines)............................................................13 2.3. Metavyhledávače..................................................................................................15 2.4. Vyhledávací centrály............................................................................................17 2.5. Sémantický web....................................................................................................17 3. Vyhledávání.................................................................................................................19 3.1. Základní vyhledávání...........................................................................................19 3.2. Pokročilé vyhledávání..........................................................................................20 4. Vyhledávací portály.....................................................................................................21 5. Google.........................................................................................................................22 5.1. Základní vyhledávání...........................................................................................22 5.2. Pokročilé vyhledávání..........................................................................................24 5.3. Výsledky vyhledávání..........................................................................................26 5.4. Hlavní vyhledávací služby....................................................................................28 5.4.1. Adresář...........................................................................................................28 5.4.2. Knihy.............................................................................................................29 5.4.3. Obrázky.........................................................................................................30 5.4.4. Mapy..............................................................................................................30 5.5. Další služby..........................................................................................................31 6. Seznam.........................................................................................................................33 6.1. Základní vyhledávání...........................................................................................33 6.2. Pokročilé vyhledávání..........................................................................................33 6.3. Výsledky vyhledávání..........................................................................................34 6.4. Hlavní vyhledávací služby....................................................................................37 6.4.1. Firmy.cz.........................................................................................................37 6.4.2. Mapy.cz.........................................................................................................38 6.4.3. Obrázky.cz.....................................................................................................39 6.4.4. Články.cz.......................................................................................................39
7
6.4.5. Zboží.cz.........................................................................................................40 6.5. Další služby..........................................................................................................41 7. Srovnání Google a Seznam..........................................................................................43 7.1. Zhodnocení...........................................................................................................45 Závěr...............................................................................................................................47 Seznam použitých zdrojů................................................................................................48 Seznam obrázků..............................................................................................................51
8
Úvod V dnešní době je Internet jedním z nejvíce využívaných prostředků k vyhledávání informací. Pro nejsnadnější a nejefektivnější nalezení požadované informace slouží vyhledávače. V České republice patří mezi nejoblíbenější vyhledávače Google a Seznam. Podle statistik uveřejněných na stránkách monitorujících návštěvnost je u nás portál Seznam používanější než Google. Všeobecně však panuje názor, že Google vyhledává relevantnější výsledky a nabízí větší množství služeb v oblasti vyhledávání. Ve své bakalářské práci se proto zabývám těmito dvěma portály, rozebírám jejich možnosti v oblasti vyhledávání a nakonec je srovnávám. Cílem mé práce není popsat vyhledávací služby a srovnat portály Google a Seznam z hlediska technického, ale z hlediska uživatelského. Zaměřuji se především na oblast českého internetu. V prvních kapitolách rozebírám všeobecné možnosti vyhledávání, uvádím, kde nejsou běžné vyhledávače schopny pracovat, jaké vyhledávací nástroje existují, jakým způsobem je možné zadávat dotazy a jak lze dělit vyhledávání. Následně vysvětluji pojem „vyhledávací portály“ a uvádím statistiku jejich oblíbenosti v ČR. Poté se zabývám výše zmíněnými portály Google a Seznam. Oba popisuji samostatně, ale kladu důraz na stejný postup, aby vynikla jejich podobnost i rozdílnost ve zkoumaných oblastech. V poslední kapitole provádím kompletní srovnání všech uvedených informací. Jako jeden z primárních zdrojů pro portál Google jsem použil knihu Tipy a návody pro vyhledávač, G-mail, Youtube, Earth a další aplikace1, z ní jsem použil základní informace, které jsem následně prakticky ověřoval. Zbytek práce čerpá především z internetových zdrojů.
1
ISKRA, Jiří. Tipy a návody pro vyhledávač, G-mail, Youtube, Earth a další aplikace. Brno: Computer
press, 2008. 231s.
9
1. Vyhledávání informací Na Internetu se vyskytuje velké množství informací v různé podobě. Každý den mnoho nových informací vznikne a mnoho starých zanikne. Celý internet je proto prakticky nemožné prohledat. Vyhledávací služby se snaží převést množství neutříděných informací do přehledné formy a pomoci uživateli najít to, co hledal. Tyto služby však dovedou pracovat pouze s informacemi
obsaženými
na „povrchovém webu“. Existuje také
„hluboký
(neviditelný) web“, který nedovedou prohledat.
1.1.
Hluboký (neviditelný) web
Je to část internetu, kterou běžné vyhledávací nástroje nedokážou prohledat. Je mnohokrát větší než povrchový web a také obsahuje kvalitnější a detailnější informace. Je to nejrychleji rostoucí část internetu. Většinu tohoto webu tvoří specializované databáze, jejichž stránky jsou dynamicky generovány; existují pouze po dobu prohlížení. Další částí jsou stránky, na které se musí uživatel přihlásit zadáním svého uživatelského jména a hesla. Dále obsahuje odpojené stránky, na něž nevedou žádné odkazy z jiných stránek atd. I když běžné vyhledávače nedokážou hluboký web prohledat, existují specializované služby, které se snaží tento nedostatek odstranit. Fungují podobně jako katalogy. Nejprve je třeba vybrat databázi, ve které se bude vyhledávat a teprve poté je možné zadat vyhledávací dotaz. Mezi služby zabývající se prohledáváním hlubokého webu patří např. DirectSearch, Lycos Invisible Web Catalog atd.
10
Typologie hlubokého webu2: •
Neprůhledný web většinou sem patří soubory, které by mohly vyhledávací stroje indexovat, ale z určitých (většinou finančních) důvodů tak nečiní. Důvodem bývají hloubka a frekvence indexování internetu a frekvence aktualizace (jak často robot navštěvuje stejné stránky).
•
Soukromý web robot by dokázal obsah indexovat, ale správce stránky mu to neumožňuje; často je zapotřebí udat uživatelské jméno a heslo.
•
Speciální nebo vlastnický web správce stránky umožňuje vstup až po splnění určitých podmínek. Je zapotřebí vyplnit registrační formulář a je vyžadována finanční úhrada.
•
Skutečně neviditelný web roboti jej nedokážou indexovat, protože na to nejsou naprogramovaní, např. pdf, flash, komprimované soubory, postscript apod.
Fakta o neviditelném webu 3:
2
•
je až 500krát větší než povrchový web
•
obsahuje 1000-2000krát kvalitnější informace
•
až 95% hlubokého webu je veřejně přístupných bez poplatků
Neviditelný
web
[online].
Infogram.
2009-[cit.
2009-07-03].
Dostupná
z
www:
2009-[cit.
2009-07-03].
Dostupná
z
www:
.
3
Neviditelný
web
[online].
Infogram.
.
11
2. Vyhledávací nástroje Jsou jednou z nejdůležitějších součástí internetu. Díky těmto nástrojům můžeme za pár sekund získat obrovské množství informací. Všechny tyto nástroje byly vytvořeny ze stejného důvodu, a to hledání informací. Rozdíl mezi nimi spočívá v odlišném způsobu vyhledávání daných informací.
2.1.
Katalog
Je to jeden z prvních nástrojů na prohledávání internetových stránek. Stránky jsou řazeny podle obsahu do kategorií. Kategorie jsou dále děleny na podkategorie a hierarchicky členěny do stromové struktury. U každé podkategorie je číslo, které označuje, kolik odkazů obsahuje. Odkaz na stránky obsahuje název, adresu a popis stránky. Charakteristika katalogu podle slovníku4: Directory – listing, catalogue search server – katalog, katalogový vyhledávač, seznam Typ vyhledávacího serveru,
který tematicky organizuje webové stránky do
katalogu. Služba s databází vytvářenou redaktory. Odkazy na webové stránky jsou řazeny podle tematických oblastí. Při procházení katalogem se postupuje od obecného až ke konkrétní stránce. Čím je stránka důležitější, tím hlouběji se v katalogu nachází. V katalogu se vyhledává i podle dotazu zadaného do vyhledávacího pole. Tento dotaz se porovnává s kategorií, s popisem stránky, titulkem stránky a adresou stránky. Vyhledávání v katalogu ignoruje obsah stránky.
4
VITOVSKÝ, Antonín, Anglicko-český a česko-anglický výkladový slovník Internetu. Praha : AV
software-Antonín Vitovský, 2004. 1. vyd. 300 s. ISBN 80-901428-7-7. S. 70.
12
Katalogy jsou udržovány ručně. Stránky sem přidávají editoři nebo samotní provozovatelé stránek přes speciální formulář. Pokud je stránka přidána provozovatelem stránek, musí být zkontrolována editorem. Ten kontroluje popis, název a kategorii, do které má být stránka zařazena. Výhody: - vhodné pro uživatele, kteří neví, co přesně hledají - větší kvalita výsledků díky ručnímu třídění Nevýhody: - rozsah katalogu je omezený - individuální struktura kategorií
2.2.
Fulltextové vyhledávače (search engines)
Fulltextové vyhledávače jsou nejpopulárnějším prostředkem pro vyhledávání na internetu. Stačí pouze zadat klíčové slovo a během několika sekund se zobrazí výsledky hledání. Každý fulltextový vyhledávač se skládá ze 3 základních částí:: 1) robot Robot je program, který simuluje člověka procházejícího stránku po stránce. Robot však pouze načte zdrojový kód a z něj vyextrahuje klíčová slova a adresu stránky. Každý robot má seznam stránek, které má prohledat a na těchto stránkách získává z odkazů další adresy na další stránky. Prochází stránky periodicky, aby se index aktualizoval. 2) indexování Indexování je zpracování klíčových slov a adres, které robot vyextrahoval. Každý vyhledávač indexuje stránky jiným způsobem. Během indexování se
13
provádějí
některé
transformace
slov,
což
napomáhá
rychlejšímu
vyhledávání5: •
sjednocení velikosti písmen
•
eliminace stop slov; jsou vyloučena slova, která nemají na vyhledávání vliv (spojky, předložky, atd.)
•
„stemming“ – převod na kořenový tvar slova
3) dotaz uživatele Po zadání dotazu jsou vyhledávaná slova porovnávána s klíčovými slovy v indexu a je zobrazen výsledek hledání. Výsledky jsou řazeny podle Booleovského modelu a Vektorového modelu. Booleovský model rozlišuje pouze dva stavy, 0 a 1, tedy zda slovo v dokumentu je nebo není. Vektorový model také uvažuje, kolikrát se dané slovo v dokumentu vyskytuje. Podle toho, kolikrát a na jakých místech se vyskytuje, se vypočítá váha této stránky. Každý vyhledávač má mechanismus pro počítání vah jiný. Charakteristika vyhledávače ve slovníku6: Search engine – vyhledávací stroj, vyhledávač Software, který hledá, stahuje a indexuje webové stránky a jiné dokumenty. Někdy se tímto pojmem označuje pouze ta část fulltextového vyhledávače, která má na starosti hledání zadaného výrazu v databázi vyhledávače a řazení výsledku podle relevantnosti (relevancy). Webové stránky shání pro vyhledávač robot (bot) a indexer je zaindexovává (řadí) do databáze. Cílem vyhledávacího stroje je poskytnout co možná nejrelevantnější výsledky vyhledávání.
5
Vyhledávače, jak fungují [online]. Dušan Janovský. 2009-06-22-[cit. 2009-07-16]. Dostupná z www:
. 6
VITOVSKÝ, Antonín, Anglicko-český a česko-anglický výkladový slovník Internetu. Praha : AV
software-Antonín Vitovský, 2004. 1. vyd. 300 s. ISBN 80-901428-7-7. S. 203.
14
Výhody: -
uživatel ví, co hledá, ale neví, kde to má hledat
-
velká databáze
-
časová nenáročnost
Nevýhody: -
různá kvalita nalezených zdrojů
-
různé použití dotazů (u jiných fulltextových vyhledávačů)
2.3.
Metavyhledávače
Metavyhledávače jsou nástroje k vyhledávání v několika vyhledávačích a katalozích najednou. Dotaz je automaticky zkopírován do mnoha dalších vyhledávačů a poté jsou zobrazeny dostupné výsledky. Charakteristika metavyhledávače ve slovníku7: Metacrawler,
metasearcher,
meta
search
engine
–
metavyhledávač
Metavyhledávače dávají dohromady výsledky mnoha jiných vyhledávačů (fulltext search server) a katalogů (directory). Zadaný dotaz rozešle na jiné vyhledávače (jejich počet může být několik set). Metavyhledávací servery jsou vyhledávacími servery často blokovány.
7
VITOVSKÝ, Antonín, Anglicko-český a česko-anglický výkladový slovník Internetu. Praha : AV
software-Antonín Vitovský, 2004. 1. vyd. 300 s. ISBN 80-901428-7-7. s. 146.
15
Struktura metavyhledávače8: 1) odbavovací modul Tento modul volí vyhledávače, do kterých budou dotazy odesílány. Vyhledávače jsou vybírány automaticky nebo si je volí uživatel. Tento modul je jedním z nejvíce
komplikovaných,
jelikož
automaticky
neaktualizuje
stavy
vyhledávačů, jež používá; může se tedy např. stát, že se některá data změní či zaniknou a odbavovací modul to nezaznamená. 2) správce agentů rozhraní Rozesílá a formuluje dotazy na jednotlivé vyhledávače. Převádí formát dotazu metasystému na formát vyhledávače. 3) tvůrce odpovědi Zpracuje odpovědi od všech vyhledávačů, vyřadí duplicity atd. Na základě výše uvedeného systému pracují jen některé metavyhledávače, ostatní používají zjednodušený přístup. Ten spočívá v tom, že předkládají výsledky tak, jak je dostávají od dílčích vyhledávačů. Výhody: - pro přístup k více vyhledávačům používá pouze jedno rozhraní - paralelní vyhodnocení dotazu - nemusí indexovat Nevýhody: - menší výkonnost - převezme jen několik odkazů z každého vyhledávače
8
Jak pracuje metavyhledávač [online]. Lupa.cz. 2002-01.30-[cit. 2009-07-28]. Dostupná z www: < http://
www.lupa.cz/clanky/jak-pracuje-metavyhledavac/ >.
16
2.4.
Vyhledávací centrály
Vyhledávací centrála funguje na principu zadání dotazu a odeslání konkrétnímu vyhledávači. Na první pohled by se mohlo zdát, že se jedná o metavyhledávač. Hlavní rozdíl je však v tom, že metavyhledávač dotaz převede a odešle více vyhledávačům. Vyhledávací centrála nemá žádného robota ani jiný systém na vyhledávání. Pouze odesílá dotaz vybranému vyhledávači. Výhody: - pouze jedno rozhraní - vyhledávání v dílčích vyhledávačích (obrázky, lidé, ..) - dotaz zadán pouze jednou Nevýhody: - vyhledávání probíhá vždy pouze na jednom vyhledávači, ten nemusí najít vždy ty nejrelevantnější výsledky
2.5.
Sémantický web
Na internetu jsou webové stránky vytvářeny lidmi. Pro člověka je přirozeně snadné pochopit informaci a uvědomit si souvislost této informace s nějakou další. Pokud informaci zpracovávají stroje (počítače), může nastat problém. Informace jsou na webu prezentovány rozdílně, a proto se nedají přímo porovnat nebo shrnout. Počítače naleznou stránky s výskytem zadaného dotazu, ale informace, které stránky obsahují, mohou být duplicitní, doplňující nebo dokonce protikladné. Ve výsledku tedy není možné dostat jednoznačnou informaci, musí se získat z dílčích výsledků.
17
Charakteristika sémantického webu dle wikipedie9: Sémantický web se má stát novým evolučním stupněm stávajícího webu. Jedná se o web, kde jsou informace strukturovány a uloženy podle standardizovaných pravidel, což usnadňuje jejich vyhledání a zpracování. Sémantický web dává informacím význam, díky kterému jsou logicky zpracovatelné počítačem. Nejedná se o separátní web, ale o rozšíření současného webu. Hlavním cílem je, aby se v něm počítače i lidé orientovali stejně dobře. Existují tři způsoby, jak vytvořit sémantický web. Prvním je „Natural Language Processing“. Tato metoda je založena na imitaci čtenáře. Text je rozložen na věty a věta je rozdělena na podmět, sloveso a předmět. Z nich je nakonec určen význam. Zmíněná metoda
je
zatím
pouze
ve
fázi
výzkumu.
Druhým
jsou
tzv. „mikroformáty“. Jsou to strojově čitelné informace, které se vloží do zdrojového kódu stránek HTML a XHTML. Pomocí těchto informací se zapisují kontakty, události a mnoho dalších dat. Třetím způsobem je používání speciálních standardů.10
9
Sémantický web [online].
Wikipedia. 2009-06-09-[cit. 2009-07-07]. .Dostupná z www:
. 10
Sémantický web Google se učí kombinovat [online]. Chip.cz. 2009-[cit. 2009-07-28]. Dostupná z www:
.
18
3. Vyhledávání Při vyhledávání na internetu se nejčastěji používají fulltextové vyhledávače v kombinaci s katalogem. Do těchto vyhledávačů se zadávají dotazy, které svým zaměřením můžeme rozdělit do tří skupin: 1) Navigační dotazy – tento typ dotazů uživatelé používají, pokud se chtějí dostat na nějakou konkrétní stránku. Většinou ví, že stránka existuje nebo předpokládají její existenci, např. české dráhy – uživatel hledá stránku www.cd.cz. 2) Informační dotazy – plní funkci vyhledávání konkrétní informace, která se na webu vyskytuje ve statické podobě. Většinou jsou to obecné informace, které se týkají např. obuvi, počasí, automobilů atd. 3) Transakční dotazy – tento druh dotazů je specifický tím, že uživatelé očekávají další akci. Nejběžnější dotazy jsou stahování (písniček, obrázků atd.), přístup do databází, nalezení specializovaného serveru (herní server). Všechny fulltextové vyhledávače pracují na stejném principu, a proto se odlišují hlavně v prohledávání indexu. Existují dva způsoby prohledávání indexu: základní vyhledávání a pokročilé vyhledávání.
3.1.
Základní vyhledávání
Základní vyhledávání se používá pro zadávání jednoduchých dotazů. Klíčová slova se zadávají za sebou do vyhledávacího pole. Jednotlivé vyhledávače s těmito dotazy pracují různě. Z toho důvodu může nastat situace, že vyhledávač nenalezne relevantní odkazy. Přesto je tento způsob vyhledávání nejpopulárnější, jelikož je nejjednodušší a nejrychlejší. Pro náročnější uživatele je určeno pokročilé vyhledávání.
19
3.2.
Pokročilé vyhledávání
Pokud uživatel ví, co přesně hledá, a chce mít co nejkvalitnější výsledky, pak použije pokročilé vyhledávání. Pokročilé vyhledávání může být realizováno přes speciální formulář nebo speciální syntaxi, která se zadává do vyhledávacího řádku. Ne všechny vyhledávače však formulář a speciální syntaxi používají.
20
4. Vyhledávací portály Termín „vyhledávací portál“ je označení stránky, pomocí které můžeme dále vyhledávat informace nebo jen prohlížet informace obsažené na této stránce. Tyto portály jsou často nastavovány jako domovské stránky. Aby zvýšily svoji oblíbenost, nabízejí řadu služeb a možností přizpůsobení individuálním potřebám uživatelů. Jsou to zejména funkce: • možnost personalizace stránky • vyhledávání na internetu • e-mail • přístup na stránky přes mobilní telefon V České republice patří mezi nejpreferovanější vyhledávací portály Seznam a Google11 (viz obrázek 1).
Obrázek 1: Statistiky vyhledávačů
11
Vyhledávače: Seznam stagnuje Google nastupuje [online]. Patrick Zandl. 2008-11-28-[cit. 2009-07-17.
Dostupná z www: .
21
5. Google Google používá jako základní vyhledávací nástroj fulltextové vyhledávání. K dispozici je však také katalog a aplikace sémantický web. Tato aplikace však zatím funguje jen při zadání dotazu v anglickém jazyce. Google na prohledávání zahraničního webu i českých stránek používá svého vlastního robota, tzv. Googlebota.
5.1.
Základní vyhledávání
Je realizováno pomocí vyhledávacího pole, do kterého se zadá hledané slovo nebo slova. Toto pole má funkci tzv. našeptávače, ten již po zadání písmene nabízí možnosti hledaných slov a počet možných výsledků. Další funkcí je tzv. kontrola pravopisu. Tato kontrola funguje tak, že pokud je zadávané slovo s napsáno překlepem, Google sám nabídne slovo, o němž si myslí, že je správné. I s překlepem však může být nalezen výsledek, jelikož ani tvůrci stránek nejsou neomylní. Existují však hesla, pro něž existují opravy a nemají s pravopisem nic společného. Google má databázi s možnými překlepy a s touto databází kontroluje zadané slovo. Je schopný tedy opravit například i špatně zadaný název výrobku. Vedle kontroly pravopisu má Google další funkci, která pomáhá uživateli najít co nejlepší výsledky. Je to překlad stránek. Při vyhledávání cizojazyčného dotazu se zobrazí stránky ve vyhledávaném jazyce. Překlad provádí stroj, tudíž výsledek je nedokonalý (např. chybné skloňování, záměna výrazu za jiný či ponechání neznámého výrazu v původním jazyce), ale pro základní orientaci na stránce to většinou stačí (viz obrázek 2 a obrázek 3).
22
Obrázek 2: Originál stránky
Obrázek 3: Přeložená stránka
23
5.2.
Pokročilé vyhledávání
Google pracuje i s víceslovným vyhledáváním. Pokud zadáme více slov, je použita metoda zvaná Boolean. Vyhledávač se snaží najít všechna zadaná slova. Jedná se o stejný princip, jako kdyby mezi ně uživatel vložil logický operátor AND. Slova jsou hledána bez ohledu na pořadí. Nejdříve se snaží najít stránky obsahující všechna zadaná slova. Nejlépe vyhledává, pokud jsou zadaná slova v 1. pádě nebo v 1. osobě, respektive v takových tvarech, v jakých byste je mohli očekávat na samotných internetových stránkách. Vedle logického operátoru AND používá i jednotlivé znaky + (plus), - (minus) a operátor OR. OR se používá z toho důvodu, že Google nehledá primárně synonyma a stejná slova psaná odlišně. Logické operátory jsou psány před slova, která jsou ve vyhledávaném dotazu klíčová. Pokud je před slovo umístěn znak +, znamená to, že musí být slovo nalezeno. V případě znaku - naopak nemá být obsaženo ve výsledcích hledání. Navíc ignoruje velká písmena a interpunkci. Výjimku tvoří pouze logický operátor AND a OR. Pokud jsou tato klíčová slova zadána malými písmeny, Google je bude ignorovat. Existují i slova, která Google vynechává. Jsou to především všeobecná a často používaná slova (např. zájmena), ale také samotná slova a číslice. Při zadávání přesnějších a podrobnějších dotazů nemůže být použito moc velké množství slov. Maximální počet slov akceptovatelný při vyhledávání je deset. Aby Google vyhledal přesnou frázi, je nutné dát požadované slovo do uvozovek. Vedle logických operátorů dokáže vyhledávač při hledání pracovat i se speciální syntaxí. Speciální syntaxe se zapisuje s dvojtečkou a je následována hledaným výrazem. Může být kombinovaná s logickými operátory. Speciální syntaxe používané Googlem12: •
intitle: vyhledává klíčové slovo v titulku stránky
•
allintitle: používá se při hledání více slov, která se vyskytují v titulku, ale neznáme jejich pořadí.
12
ISKRA, Jiří. Tipy a návody pro vyhledávač, G-mail, Youtube, Earth a další aplikace. Brno: Computer
press, 2008. 231s.
24
•
intext: prohledává pouze text na stránce. Ignoruje tedy všechny hypertextové odkazy, titulek a internetové adresy.
•
allintext: používá se při hledání více slov, která se vyskytují v textu, ale neznáme jejich pořadí.
•
inanchor: slouží pro vyhledávání v textu hypertextového odkazu
•
allinanchor: používá se při hledání více slov, která se vyskytují v hypertextovém odkazu, ale neznáme jejich pořadí.
•
link: pro hledání podle konkrétní adresy stránky
•
site: vyhledává pouze v rámci jedné domény. Tato syntaxe však není vhodná pro vyhledávání na strukturně složitém webu. To znamená, že hledaná stránka by byla vnořená až do několikáté podsložky.
•
inurl: vyhledává pouze v adrese url
•
filetype: pro vyhledávání určitého typu souboru (např. pdf, doc, xls, ...)
•
related: vyhledávání podobně zaměřených stránek
•
cache: hledá archivovanou kopii stránky uvedenou v dotazu
•
info: tato jednoduchá funkce vrátí stránku s informacemi o hledané adrese URL, ale také odkaz na archivovanou verzi těchto stránek a seznam stránek, který se zadanou adresou jakkoli souvisí.
•
define: na rozdíl od ostatních nehledá výsledky v podobě odkazů, ale najde definice zadaného slova. Pod definicí je zeleně uveden i odkaz na stránku.
Tyto speciální syntaxe jsou také použity při vyhledávání přes formulář Pokročilé vyhledávání (viz obrázek 3). Jeho nespornou výhodou je, že není třeba zadávat žádné speciální syntaxe, pouze se vyplní políčka. Google totiž převede sám vyplněné údaje na potřebnou syntaxi a zadá ji do pole vyhledávání. Většina polí pokročilého vyhledávání je stejně kvalitní jako samotná syntaxe zapsaná ve vyhledávacím poli, pouze u pole Formát souboru je omezená nabídka formátů. Při zadání samotné syntaxe filetype: je možné použít daleko více formátů.
25
Obrázek 4: Formulář pokročilého vyhledávání
5.3.
Výsledky vyhledávání
Stránka, kterou zobrazí Google po vyhledání dotazu, neobsahuje pouze výsledky v podobě odkazů, ale i mnoho dalších informací. Textové pole pro vyhledávání se nachází hned na horní straně stránky; pod ním je umístěno záhlaví se statistikou hledání. V levé části záhlaví je označena oblast, ve které jsme vyhledávali (web, obrázky, skupiny ...). Vedle ní se zobrazí informace, které výsledky si právě prohlížíme z celkového počtu nalezených výsledků na určitý dotaz a doba vyhledávání dotazu. Co se týče samotných výsledků, Google rozlišuje sponzorované odkazy a ostatní. Sponzorované odkazy jsou označeny a jsou umístěny pod záhlavím před ostatními výsledky (maximální počet 3) a dále po pravé straně (maximální počet 8). Pokud je použita volba „Zkusím štěstí“, pak jsou sponzorované odkazy ignorovány. Když Google najde relevantní výsledky i v jiné oblasti, než jsme hledali (obrázky, knihy, ...), zobrazí je také (viz obrázek 5). Jednotlivé výsledky se skládají z těchto položek: •
Titulek výsledku – je zároveň i odkazem na vyhledanou stránku a je v něm zobrazen titulek vyhledané stránky. Jestliže stránka nemá titulek, je zobrazena www adresa. 26
•
Popis stránky – nachází se pod titulkem. Google přebírá text přímo z popisu stránky (text označený značkou Meta v kódu HTML); pokud nastane situace, že popis nenalezne, převezme text ze samotné stránky. Hledaná slova jsou v tomto popisu vždy označena tučně.
•
Adresa URL – je zobrazena pod popisem stránky
•
Velikost stránky – je zobrazena hned vedle adresy URL, má význam pro uživatele s pomalým připojením
•
Archiv – Google si všechny stránky ukládá jako lokální kopie na své servery. Na tyto kopie se lze podívat právě přes tento odkaz. Ne všechny stránky však mají svoje kopie; někdy je nechá autor stránek smazat.
•
Podobné stránky – vyhledává podobné stránky podle klíčového slova či podle obsahu stránky
Výsledky jsou řazeny podle mnoha kritérií, jedním z nich je „Page Rank“. Vedle něj existují ještě jiné, možná důležitější ranky, ale ty jsou neveřejné. Google počítá Page Rank podle toho, jak důležité stránky na danou stránku odkazují. Vzorec13: PR(A) = (1-d)/m + d * ( PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) ) PR(A) – Page Rank stránky A T1 – Tn jsou stránky, ze kterých vedou odkazy na stránku A d – dampening faktor ( nastavený pravděpodobně na 0,85) m – celkový počet zaindexovaných stránek C(T) – počet odkazů vedoucích ze stránky T Page Rank stránky se vypočítá z Page Ranků stránek, které na tuto stránku odkazují. Každá stránka této stránce předá část svého Page Ranku.
13
Google Page Rank, vysvětlení a odpovědi [online]. Dušan Janovský. 2009-06-22-[cit. 2009-08-06].
Dostupná z www: < http://www.jakpsatweb.cz/seo/pagerank.html>.
27
Obrázek 5: Výsledky hledání
5.4.
Hlavní vyhledávací služby
5.4.1. Adresář Pomocí této funkce může být internet prohledáván jako katalog. Hlavní stránka je rozdělena na tematické kategorie (viz obrázek 6). Jednotlivé odkazy nejsou řazeny podle abecedy, ale podle Page Ranku.
28
Obrázek 6 :Adresář
5.4.2. Knihy Tato funkce je zaměřena na knihy. Dá se díky ní zjistit, kde knihy koupit či půjčit. Google dále umožňuje číst v některých knihách, které jsou uveřejněny na internetu (viz obrázek 7). Ne všechny knihy jsou však k dispozici celé; Google musí respektovat autorská práva. Z tohoto důvodu nabízí 4 typy zobrazení: úplné zobrazení, omezený náhled, zobrazení fragmentů a náhled není k dispozici. Některé knihy je možné stáhnout do svého počítače nebo uložit do vlastní knihovny na svém účtu.
29
Obrázek 7: Kytice od Karla Jaromíra Erbena
5.4.3. Obrázky Vyhledává pouze obrázky; místo odkazů na stránky jsou výsledkem vyhledávání náhledy obrázků. Existují dvě kritéria pro označování obrázků a přiřazování k jednotlivým heslům. Je to název obrázku a text, který se vyskytuje v jeho blízkosti. Podle toho je odvozeno, v jakém kontextu se obrázek vyskytuje a jsou mu přiřazena klíčová slova. Díky volbě Zobrazení je možné omezit velikost zobrazených obrázků ve výsledcích vyhledávání (extra velké, velké, normální, malé). I při vyhledávání obrázků lze zapnout volbu Rozšířené hledání, kde může být ovlivněn typ obsahu, velikost obrázku, typ souboru, barva obrázku a doména.
5.4.4. Mapy Vyhledává na mapách v rámci celého světa. Nabízí možnost vyhledat: všechny výsledky, místa, firmy, obsah vytvořený uživateli, související mapy. Používá zobrazení mapy klasické, satelitní a hybridní (spojení klasické a satelitní mapy). Důležitou funkcí je vyhledávač tras. Zadává se pouze počáteční a koncová adresa a Google sám
30
naplánuje celou cestu. Ve výsledku je zobrazena modrou čarou. V postranním panelu jsou zapsány detailní informace o cestě, např. její délka, jednotlivé změny směru jízdy, odbočky a důležitá místa. Pro větší přehlednost jsou jednotlivé odbočky číslovány. Je zde i možnost vynechat dálnice. Cíl cesty lze přidávat a měnit, stejně tak i zastávky na cestě. Počáteční bod je zobrazen zeleně, zastávka na cestě žlutě a koncový bod je červený. Další možností je ukládání vlastních map. Po vyhledání trasy je možné této mapě přiřadit nadpis, popis a uložit si ji. Při vyhledávání firem stačí pouze zadat co (název firmy, odvětví) a kde (město). Lze využít i vyhledávání pomocí souřadnic.
5.5.
Další služby
Skupiny – na internetu mohou lidé komunikovat různými způsoby. Funkce Skupiny umožňuje komunikaci v rámci tzv. diskusních skupin. Komunikace může probíhat dvěma způsoby - v rámci e-mailových skupin nebo na specializovaných stránkách. Diskuse je vždy zaměřena na konkrétní téma a může se dále hierarchicky dělit. Google ukládá tyto diskuse, otázky a odpovědi. Google dále nabízí možnost prohledávat diskuse v rámci největší diskusní sítě Usenet. Témata jsou řazena do větších celků kvůli přehlednosti. Lze v nich vyhledávat pomocí Google nebo je procházet podle témat. Scholar – oproti Books nabízí vyhledávání pouze v odborné literatuře. Výsledek vyhledávání může být ve formě citace, klasického odkazu nebo konkrétního originálního článku. Zprávy – zde Google zpracovává informace z mnoha zpravodajských serverů. Jsou zde obsaženy zprávy z domova i ze světa. Na levé straně stránky se nachází panel, kde si lze zvolit požadovanou sekci. Obsah může být pozměněn přidáním nebo odebráním jednotlivých sekcí. U každé sekce jde navíc upravit, kolik zpráv se má zobrazit. Blogy –
díky této aplikaci je možné prohledávat blogy (internetové deníčky) nebo si založit svůj vlastní.
31
Video a Youtube – aplikace Video je dostupná pouze v angličtině. Jsou zde různá videa z různých serverů. Všechna videa se dají stáhnout do PC. Aplikace Youtube přibyla z důvodu, že Google koupil stránky Youtube. Dokumenty –
tato aplikace je zaměřena na tvorbu, editaci a vyhledávání textových
dokumentů. Dokumenty se tak dají udržovat aktuální a sdílet s ostatními. Úvodní stránka vypadá jako průzkumník a lze na ní organizovat dokumenty. Samozřejmě zde nechybí vyhledávání v dokumentech. Dokumenty se dají vytvářet tabulkové, formuláře, textové a prezentace. Ovládání je prakticky stejné jako u Microsoft Office. Je možné, aby na jednom dokumentu pracovalo více lidí. Přes příkaz Sdílet je možné upravit práva těchto lidí. Buď mohou upravovat dokument, nebo pouze číst.
32
6. Seznam Seznam používá jako základní
vyhledávací nástroj fulltextové
vyhledávání.
U fulltextového vyhledávání používá 3 různé technologie: „Seznambota“ pro vyhledávání na českých stránkách, pro vyhledávání v zahraničním internetu používal dříve Google, od 1.7.2009 používá Microsoft Live Search (Bing) 14 a pro vyhledávání obrázků Picsearch15.
6.1.
Základní vyhledávání
Vyhledávací pole je vybaveno funkcí tzv. našeptávače, který po zadání písmena nebo písmen nabízí slova, která si myslí, že budou hledána. Seznam používá kontrolu pravopisu. Ta spočívá v tom, že pokud je zadané slovo napsáno s překlepem, nabídne jiné slovo, které považuje za správné. Tato slova nejsou v žádném slovníku, Seznam je opravuje automaticky na základě toho, jak sami uživatelé opravují chyby. Pokud je hledaný dotaz tvořen doménou nebo adresou url, pak se zobrazí tzv. navigační tip. Ten počítá s tím, že byl řetězec napsán omylem do vyhledávacího pole namísto adresního řádku prohlížeče a automaticky nabídne odkaz na zadanou adresu.
6.2.
Pokročilé vyhledávání
Seznam slova skloňuje a časuje, po zadání je převede na základní tvar a hledá všechny jejich tvary. Upřednostňuje však zadaný tvar. Nerozlišuje také velikost písmen a diakritiku. Slova, která jsou zadána s diakritikou, jsou vyhledávána i bez ní. Naopak 14
Seznam bude pro vyhledávání využívat službu od Microsoftu [online]. 2009-02-10-[cit. 2009-07-29].
Dostupná z www: . 15
Planeta Seznam: Nejen Google umí vyhledávat [online]. Zive.cz. 2009-04-09-[cit. 2009-07-05].
Dostupná z www: .
33
slovům zadaným bez diakritiky je doplněna, pokud je má Seznam ve slovníku. Tato funkce automatického doplňování se nedá vypnout. Seznam při vyhledávání používá pouze logický operátor AND, který se nezapisuje, ale je doplňován automaticky. Operátor OR není vůbec používán a to z toho důvodu, že Seznam zjistil analýzou dotazů uživatelů, že jej používá pouze malé procento lidí 16. Operátory + (výsledek musí obsahovat slova zadaná za tímto operátorem) a – (výsledek nesmí obsahovat slova zadaná za tímto operátorem) jsou podporovány buď samostatně bez ostatních operátorů, nebo pouze v syntaxi s operátorem titulku (title:). Pokud je hledána fráze, kdy se slova nemají skloňovat ani časovat, stačí hledanou frázi uzavřít do uvozovek. V tomto případě je vyhledáváno přesné pořadí slov. Fráze je možné kombinovat s osamocenými slovy a vyhledáváním v titulku, ale ne s operátory + a –. Používá i speciální syntaxi, ta se zapisuje formou „Operátor“ a „Hledaný výraz“. Syntaxe se liší pro vyhledávání na internetu, ve firmách, v obrázcích, atd. Při vyhledávání na internetu je možné použít operátory17: •
site: slouží k vyhledávání stránek, které obsahují zadanou doménu nebo subdoménu.
•
host: vyhledává stránky podobně jako site: Na rozdíl od site: při zadání domény ignoruje subdomény.
•
filetype: dokáže najít soubory v zadaném formátu. Formáty, které dokáže vyhledat, jsou pouze ty, jež obsahují textové řetězce (pdf, doc, rtf, ppt a html).
6.3.
Výsledky vyhledávání
Stránka s výsledky hledání v záhlaví obsahuje pole s vyhledávaným dotazem, pod kterým se nachází oblasti vyhledávání. Pokud je vyhledávaný dotaz nalezen ve více oblastech, u každé z nich se zobrazí počet nalezených odkazů. Po pravé straně se 16
Zadávání dotazů- Seznam nápověda [online]. Seznam.cz. 2009-[cit. 2009-07-05]. Dostupná z www: <
http://napoveda.seznam.cz/cz/hledani-fulltext-zadavani-dotazu-jak-hledat-ve-fulltextovem-vyhledavanifaq-dotazy.html>. 17
Jak zadávat dotazy- Seznam nápověda [online]. Seznam.cz. 2009-[cit. 2009-07-05]. Dostupná z www:
< http://napoveda.seznam.cz/cz/hledani-fulltext-jak-zadavat-dotazy-do-vyhledavani.html>.
34
zobrazí informace, které výsledky si právě prohlížíme z celkového počtu nalezených výsledků na určitý dotaz. První a poslední zobrazené výsledky na stránce bývají nejčastěji obsazeny reklamními odkazy nebo upozorněním, že zadaný dotaz byl nalezen i v jiné oblasti vyhledávání. Pravá část stránky je vyhrazena pouze pro reklamní odkazy. V zápatí stránky je odkaz na statistiky související se zadaným dotazem. Lze si tak prohlédnout statistiky hledanosti daného výrazu (viz obrázek 8), např. rozšířená shoda, přesná shoda a nejhledanější dotazy obsahující zadaný výraz.
Obrázek 8: Statistiky Zbytek stránky je obsazen výsledky vyhledávání, které se skládají z položek: • Titulek – je vytvořen z html kódu stránky • Náhled stránky – je generován automaticky screenshoot robotem. Tato činnost se provádí paralelně s indexováním stránky. Náhled je průběžně obnovován, někdy se však vyskytnou stránky, které náhled nemají nebo jim náhled neodpovídá. • Úryvek – vzniká automaticky a pro různé vyhledávané dotazy se liší. • URL – odkaz směřující na vyhledanou stránku. • Region – vyskytuje se u stránek, které jsou zapsány v katalogu firem a zároveň je jejich umístění uvedeno na Mapy.cz
35
• Více – vypíše stránky z dané domény • Podvýsledek – zobrazení dalších výsledků souvisejících s danou doménou Výsledky jsou řazeny podle mnoha kritérií, jedním z nich je hodnocení popularity stránky S-rank. Tato kritéria jsou použita jak u řazení výsledků fulltextového vyhledávání, tak i u výsledků v katalogu. S-rank neurčuje pořadí ve výsledku hledání; může se stát, že na prvním místě bude stránka s nižším S-rankem. S-rank se počítá váženou nelineární kombinací různých veličin, v nichž výrazně převažují off-page faktory18. Výpočet S-rank není veřejně přístupný, jeho přibližnou hodnotu lze zjistit stáhnutím aplikace „Seznam Lištička“.
Obrázek 9: Výsledky vyhledávání
18
je označení pro parametry internetových stránek, podle kterých je částečně určována hodnota
internetové stránky v rámci vyhledávání a podle nichž je pak internetová stránka umisťována v pořadí výsledků vyhledávání ve vyhledávačích.. Offpage faktory-Wikipedie, otevřená encyklopedie [online]. Wikipedie. 2009-06-24[cit. 2009-08-06]. Dostupná z www: < http://cs.wikipedia.org/wiki/Offpage_faktory>.
36
6.4.
Hlavní vyhledávací služby
6.4.1. Firmy.cz Používají při vyhledávání primárně katalog (viz obrázek 10). U katalogu je možné si zaplatit, aby byla stránka na prvním místě ve výsledcích hledání. Lze vyhledávat podle názvu firmy nebo podle činnosti firmy. Výsledkem jsou jak nalezené firmy, tak i sekce katalogu, které dané klíčové slovo obsahují. Vyhledávání lze omezit i na region. Firmy se zapisují do Firmy.cz firemním zápisem. Jsou 3 typy firemních zápisů: Záznam (bezplatný zápis umožňující uložit základní informace o firmě), Start (zkušební placený zápis s rozšířenými informacemi za výhodnou cenu) a Praktik (klasický placený zápis s rozšířenými informacemi). Podle tohoto zápisu se zobrazují ve výsledcích firmy v různém pořadí.
Obrázek 10: Firmy.cz
37
6.4.2. Mapy.cz Obsahují 2 700 000 adres a 10 000 obcí v ČR. Jsou propojeny se službou Firmy.cz, Wikipedie a Wikimapy. Lze vyhledávat i turistické známky, hrady, zámky, vrcholy, řeky atd. Obsahují různé mapové podklady: • základní – kreslený mapový podklad podobný mapám v autoatlase. Součástí jsou i průjezdové části měst, na kterých jsou zobrazeny semafory, jednosměrné ulice a ostatní dopravní značky. • turistická – nachází se na ní základní informace o prostoru, vyhlídková místa, turistické oblasti zájmu. Lze na ní kombinovat volitelné vrstvy jako stínování, turistické trasy a cyklostezky. • letecká – kombinace satelitního a leteckého snímkování • historická – zobrazuje mapu České republiky, jak vypadala před více než 150 lety Další funkcí Mapy.cz je plánovač tras. Začátek a konec trasy je možné zadávat podle názvu obce, GPS souřadnic nebo pomocí alternativních operátorů. Je možné zvolit nejrychlejší cestu, nejkratší cestu nebo cestu bez placených úseků. Mapy.cz používají speciální operátory19: • Loc: - vyhledá polohu zadaného místa či souřadnic • Id:premise - přímo odkazuje na vizitku firmy zobrazenou na mapě • Near: - vyhledá výraz v blízkosti dané polohy (např. penzion near:blansko) • Wikipedie - při zadání s hledaným výrazem zobrazí zápis na Wikipedii • Route(fast x short, toll x tollfree): - tento operátor umožňuje plánování trasy přímo zadáním začátku a konce trasy do vyhledávacího pole. Operátory uvedené v závorce ovlivňují výslednou trasu, její délku, poplatky a rychlost.
19
Operátory a pokročilé funkce [online].
Seznam.cz. 2009-[cit. 2009-07-05]. Dostupná z www:
.
38
6.4.3. Obrázky.cz Tato služba vyhledává pouze obrázky. Lze vyhledávat obrázky podle velikosti (velké, malé, střední) nebo podle barevnosti (černobílé, barevné). V nastavení je možné nastavit filtr citlivého obsahu nebo tzv. BoBovo oko. Filtr citlivého obsahu je automaticky zapnut, aby odfiltroval obrázky se sexuální tematikou. BoBovo oko je způsob zobrazení stránky tak, že na ní lze vidět pouze tolik výsledků, aby bylo vidět i stránkování (viz obrázek 11).
Obrázek 11: BoBovo oko
6.4.4. Články.cz Vyhledává zadaný dotaz pouze ve zpravodajských portálech na internetu. Články.cz jsou zatím ve zkušebním provozu, ale nabízejí větší možnost pokročilého vyhledávání než fulltextový vyhledávač Seznam.cz. Články.cz používají tyto speciální operátory20: • Title: - vyhledávají v titulcích • Source: - vyhledávají ve zdrojích, ze kterých články pocházejí 20
Hledání
článků
[online].
Seznam.cz.
.
39
2009-[cit.
2009-07-05].
Dostupná
z www:
• Section: - vyhledávají pouze články z určité rubriky • Since a Till: - jsou to časové operátory, hledají od určitého data do určitého data • Filtr:(free, paid, broadcaste, newspaper)- filtrování výsledků Výsledky lze řadit od nejnovějších, podle shody s klíčovým slovem a podle data (viz obrázek 12).
Obrázek 12: Výsledky hledání v Články.cz
6.4.5. Zboží.cz Pomocí této služby lze vyhledávat informace o hledaném zboží a jeho cenách mezi internetovými
obchody
zaregistrovanými
do
této
služby.
Poskytují
pouze
zprostředkování prodeje, nikoli samotný prodej. Zboží.cz nabízí řadu filtrů. Lze vyhledávat zboží nové nebo bazarové. Výsledky mohou být řazeny podle shody s klíčovým slovem nebo podle ceny. Při vyhledávání výrobku je dále možné vymezit rozpětí jeho ceny a také region, kde se má prodejna hledaného zboží vyskytovat. U nového zboží v rozšířeném filtru je možné omezit výsledky podle dostupnosti (skladem, v kamenné pobočce, do týdne) nebo podle požadované kvality služeb obchodu. Rozšířený filtr je i u bazarového zboží. Filtruje výsledky podle stáří inzerátu a 40
podle důvěryhodnosti. I zde funguje speciální syntaxe pouze pro Zboží.cz (viz obrázek 13): •
Nokia -nabijecka – vyhledá výrobky obsahující slovo Nokia, ale nevyhledá nabíječky.
•
„Nokia 6220“ – vyhledá přesně tuto frázi
•
Notebook toshiba|acer – vyhledá zboží, které obsahuje slovo acer nebo slovo toshiba
•
notebook [asus F7SR]|[hp Pavilion]- najde ve zboží výrobky obsahující slovo asus F7SR nebo hp Pavilion.
Obrázek 13: Výsledky pokročilého vyhledávání Zboží.cz
6.5.
Další služby
Spráce, Sreality, Sbazar, Sauto – všechny tyto služby jsou zaměřeny na vyhledávání v oblasti inzertních služeb. Encyklopedie – zaměřuje se na vyhledávání zadaného výrazu pouze na stránkách českých encyklopedií.
41
Spolužáci.cz – služba umožňující nalezení bývalých i současných spolužáků. Je přehledně řazena podle okresů, ve kterých lze vyhledat konkrétní školu a poté třídu. Třídy jsou rozlišeny podle roku ukončení studia. Je zde možné diskutovat v rámci třídy nebo celé školy, vkládat fotky, studijní materiály, přispívat na nástěnku apod.
42
7. Srovnání Google a Seznam Vyhledávací nástroje Oba vyhledávače používají především fulltextové vyhledávání. Katalog je u Seznamu použit jen u speciální vyhledávací služby Firmy.cz. Google používá katalog pro prohledávání celého internetu přes speciální stránku. Google při vyhledávání používá svého robota a index. Seznam má též svého robota a index, ale pouze pro český internet. Při hledání v zahraničním webu nebo při vyhledávání obrázků využívá služeb jiných vyhledávačů.
Základní vyhledávání Oba vyhledávače mají našeptávač a funkci pro kontrolu pravopisu. Našeptávač od Googlu navíc zobrazuje počet možných výsledků. Další funkcí Googlu je překlad stránek, tato funkce u Seznamu není. Seznam má funkci navigační tip.
Pokročilé vyhledávání Při zadání víceslovných dotazů vyhledávače automaticky používají logický operátor AND. Snaží se najít všechna slova z dotazu, Seznam navíc zadaná slova skloňuje a časuje. Stejně tak oba ignorují velká písmena a při zadání dotazu do uvozovek hledají přesnou frázi. Seznam slova hledá bez diakritiky, o proti tomu Google s diakritikou. Z logických operátorů používá Seznam pouze AND, +, -; Google navíc používá ještě OR. Speciální syntaxe je u Seznamu jiná pro fulltext a jiná pro ostatní specializované vyhledávače, které používá. Google má proti tomu syntaxi u fulltextu na vysoké úrovni a používá i formulář pokročilého vyhledávání.
43
Výsledky vyhledávání Google i Seznam viditelně označují sponzorované odkazy. Lze přepínat mezi oblastmi vyhledávání. Pokud je výsledek nalezen i v jiné oblasti hledání, je zobrazen. Hlavní rozdíly mezi výsledky vyhledávání Googlu a Seznamu jsou, že Seznam zobrazuje náhled stránky, region a odkaz na více stránek z dané domény. Google navíc uvádí velikost stránky a archiv. Všechny ostatní náležitosti výsledků jsou stejné. Odkazy jsou řazeny podle mnoha kritérií, která jsou však veřejně nepřístupná.
Vyhledávací služby Google i Seznam nabízejí nepřeberné množství vyhledávacích i jiných služeb. Většina služeb je vytvořena pro specifické účely. Mezi hlavní služby v oblasti vyhledávání patří vyhledávání obrázků a vyhledávání na mapách. Tyto služby mají oba srovnávané portály, a to na přibližně stejné úrovni. Co se týče dalších služeb, u obou portálů jsou rozmanité, vesměs poměrně kvalitní a schopné uspokojit očekávání průměrného uživatele.
Vlastní vyhledání v praxi Nastavení obou vyhledávačů : - pouze český internet - fulltextové vyhledávání - základní vyhledávání Při tomto pokusu jsem zadával přibližně dvacet náhodně vybraných klíčových slov a hodnotil jsem pouze výsledky zobrazené na první stránce hledání. Ve většině případů byly všechny odkazy na první stránce relevantní k zadanému dotazu. Zmíním zde proto jen ty, které byly u obou vyhledávačů odlišné.
44
Nejvíce odlišné výsledky se zobrazily po zadání dotazu „Blansko piza“. Seznam nenašel ani jednu pizzerii v Blansku. První odkazy vedly na stránky stopkoureni.cz, kde byla zmíněna osoba žijící v Blansku. Ostatní odkazy vedly na autobazary v Blansku a poslední odkaz na pizzerii v Boskovicích. Seznam však nabízel možnost kontroly pravopisu a změny dotazu na „Blansko pizza“. Toto zadání již vedlo k požadovaným odkazům na Blanenské pizzerie. Google při stejném zadání ihned našel většinu odkazů vedoucích na pizzerie v Blansku. Na ostatních odkazech se minimálně o některé z pizzerií v Blansku mluvilo. Také se zobrazila možnost kontroly pravopisu, ale po jejím zadání zůstaly odkazy téměř nezměněné. Dalším případem bylo zadání dotazu „abeceda“. Seznam sice našel stránky, na kterých bylo uvedeno slovo abeceda, ale ani jednu, kde by bylo vysvětleno, co to abeceda je, popřípadě jak vypadá. Google zobrazil hned první odkaz na stránky s vysvětlením, co to abeceda je a jak vypadá. To je však zapříčiněno tím, že Seznam se snaží ve výsledcích vyhledávání fulltextem zamezit zobrazení výsledků z Wikipedie, pro kterou má speciální vyhledávací oblast Encyklopedie. Když jsem vyhledával mytologickou postavu Parise, tak po zadání dotazu „paris“ do fulltextového vyhledávače nebyl nalezen ani jeden relevantní odkaz. O proti tomu Google našel alespoň jeden odkaz na tuto mytologickou postavu. Rozdílné vyhledávání je způsobeno také tím, že Google neskloňuje a nečasuje slova a vyhledává je i s diakritikou. Při zadání dotazu „mlád“ našel Google všechny odkazy vedoucí na písničku Být stále mlád. Seznam pouze jeden odkaz na písničku a zbytek odkazů již byl velice různorodý, a to právě díky skloňování a odstranění diakritiky.
7.1.
Zhodnocení
Na základě zjištěných skutečností jsem sestavil tabulku, kde jsem ohodnotil funkce a služby obou portálů podle stupnice 1-5. Přičemž 1 je nejlepší a 5 nejhorší (danou funkci vůbec nenabízí). Ze služeb jsem samostatně hodnotil pouze ty, jež jsou u obou portálů (obrázky a mapy) a ohodnotil jsem i další služby v oblasti vyhledávání.
45
fulltext našeptávač kontrola pravopisu překlad stránek navigační typ skloňování a časování logické operátory speciální syntaxe průměr Celkové hodnocení katalog fulltext relevance výsledků obrázky mapy další služby průměr
GOOGLE 1 1 3 5
SEZNAM 1 1 5 4
5 1 1 2,43
3 2 3 2,71
GOOGLE 2 2,43 2 1 1 1 1,57
SEZNAM 3 2,71 2 1 1 1 1,79
Na základě mého hodnocení jsem zjistil, že portál Google nabízí kvalitnější způsob vyhledávání, a to především v oblasti pokročilého vyhledávání. Z mého průzkumu vyplývá, že průměrnému českému uživateli nabízí Google i Seznam vyhledávání o téměř stejné kvalitě. Běžnému uživateli tedy plně postačí Seznam; náročnější uživatel více ocení Google, jelikož nabízí rozšířené možnosti v oblasti pokročilého vyhledávání, jak bylo řečeno výše.
46
Závěr Moje bakalářská práce se zabývá srovnáním internetových vyhledávačů Google a Seznam. Na začátku mé práce jsem vysvětlil pojem hluboký web a popsal vyhledávací nástroje. Dále jsem obecně rozebral vyhledávání a následně jsem představil možnosti a služby, které nabízejí internetové portály Google a Seznam. Na konci mé práce jsem srovnal a zhodnotil oba zmíněné vyhledávače. Internet je zdrojem obrovského množství informací, pro snazší orientaci v něm nám slouží vyhledávací nástroje. Mezi nejpopulárnější vyhledávací nástroje patří fulltext a katalog, to je zapříčiněno tím, že ostatní nástroje nejsou tak propracovány pro vyhledávání na českém internetu. Hlavními znaky, které odlišují fulltextové vyhledávače, jsou specifika vyhledávání v nich. To platí i pro vyhledávací portály Seznam a Google, které jsou nejpoužívanějšími v ČR. Základem vyhledávání na těchto portálech jsou logické operátory, speciální syntaxe a mnohé specializované služby v oblasti vyhledávání. S vyhledáváním jsou neodmyslitelně spjaty i jeho výsledky, jak z pohledu informací, které nám dávají na první pohled, tak z hlediska kvality informací, které jsou zobrazeny po jejich otevření. Kvalita výsledků je však vždy závislá na způsobu zadání dotazu uživatelem. Cílem mé práce bylo srovnat vyhledávače Google a Seznam v oblasti vyhledávání. Zaměřil jsem se především na vyhledávání na českém internetu, a to z pohledu uživatele. Na základě celkového srovnání, mého praktického pokusu a následného ohodnocení jsem dospěl k závěru, že průměrnému českému uživateli nabízí Seznam i Google možnosti na podobné úrovni a v oblasti vyhledávání jsou oba dostačující. Náročnějším uživatelům bude pravděpodobně více vyhovovat Google, jelikož poskytuje kvalitnější pokročilé vyhledávání
47
Seznam použitých zdrojů HLAVENKA, Jiří. Mistrovství ve vyhledávání na internetu. 2. vyd. Praha: Computer press, 2004. 196 s. ISKRA, Jiří. Tipy a návody pro vyhledávač, G-mail, Youtube, Earth a další aplikace. Brno: Computer press, 2008. 231s. LAPÁČEK, Jiří. Seznam.cz-vyhledávání, e-mail a další služby portálu. 1. vyd. Brno: Computer press, 2004. 127 s. VITOVSKÝ, Antonín, Anglicko-český a česko-anglický výkladový slovník Internetu. Praha : AV software-Antonín Vitovský, 2004. 1. vyd. 300 s. ISBN 80-901428-7-7 Google Page Rank, vysvětlení a odpovědi [online]. Dušan Janovský. 2009-06-22-[cit. 2009-08-06]. Dostupná z www: < http://www.jakpsatweb.cz/seo/pagerank.html>. Google – Wikipedie, otevřená encyklopedie [online]. 2009-05-19-[cit. 2009-07-06]. Dostupná z www: . Hledání článků [online]. Seznam.cz. 2009-[cit. 2009-07-05]. Dostupná z www: . Jak pracuje metavyhledávač [online]. Lupa.cz. 2002-01.30-[cit. 2009-07-28]. Dostupná z www: < http://www.lupa.cz/clanky/jak-pracuje-metavyhledavac/ >. Jak zadávat dotazy- Seznam nápověda [online]. Seznam.cz. 2009-[cit. 2009-07-05]. Dostupná z www: < http://napoveda.seznam.cz/cz/hledani-fulltext-jak-zadavat-dotazydo-vyhledavani.html>. Neviditelný web [online]. Infogram. 2009-[cit. 2009-07-03]. Dostupná z www: .
48
Offpage faktory-Wikipedie, otevřená encyklopedie 24[cit.
2009-08-06].
[online].
Dostupná
Wikipedie. 2009-06z www:
<
http://cs.wikipedia.org/wiki/Offpage_faktory>. Operátory a pokročilé funkce [online]. Seznam.cz. 2009-[cit. 2009-07-05]. Dostupná z www: < http://napoveda.seznam.cz/cz/operatory-a-pokrocile-funkce.html>. O Google: algoritmy, vlastnosti Google, jak optimalizovat [online]. Dušan Janovský. 2009-04-18-[cit.
2009-07-15].
Dostupná
z www:
. Planeta Seznam: Nejen Google umí vyhledávat [online]. Zive.cz. 2009-04-09-[cit. 200907-05]. Dostupná z www: . Sémantický web [online]. Wikipedia. 2009-06-09-[cit. 2009-07-07]. .Dostupná z www: . Sémantický web Google se učí kombinovat [online]. Chip.cz. 2009-[cit. 2009-07-28]. Dostupná
z
www:
kombinovat.html >. Seznam bude pro vyhledávání využívat službu od Microsoftu [online]. 2009-02-10-[cit. 2009-07-29]. Dostupná z www: . Seznam.cz – Wikipedie, otevřená encyklopedie [online]. 2009-05-20-[cit. 2009-07-20]. Dostupná z www: . Vyhledávací
nástroje
[online].
2009-[cit.
.
49
2009-07-20].
Dostupná
z
www:
Vyhledávače: Seznam stagnuje Google nastupuje [online]. Patrick Zandl. 2008-11-28[cit. 2009-07-17. Dostupná z www: . Vyhledávače, jak fungují [online]. Dušan Janovský. 2009-06-22-[cit. 2009-07-16]. Dostupná z www: . Zadávání dotazů- Seznam nápověda [online].
Seznam.cz. 2009-[cit. 2009-07-05].
Dostupná z www: < http://napoveda.seznam.cz/cz/hledani-fulltext-zadavani-dotazu-jakhledat-ve-fulltextovem-vyhledavani-faq-dotazy.html>.
50
Seznam obrázků Obrázek 1: ..Statistiky vyhledávačů ............................................................................21 Obrázek 2: Originál stránky ......................................................................................23 Obrázek 3: Přeložená stránka ....................................................................................23 Obrázek 4: Formulář pokročilého vyhledávání .........................................................26 Obrázek 5: Výsledky hledání ....................................................................................28 Obrázek 6: Adresář ....................................................................................................29 Obrázek 7: Náhled Kytice od Karla Jaromíra Erbena ...............................................30 Obrázek 8: Statistiky .................................................................................................35 Obrázek 9: Výsledky vyhledávání .............................................................................37 Obrázek 10: Firmy.cz ..................................................................................................38 Obrázek 11: BoBovo oko ............................................................................................40 Obrázek 12: Výsledky hledání v Články.cz ................................................................41 Obrázek 13: Výsledky pokročilého vyhledávání Zboží.cz ..........................................42
51