Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačního a znalostního inženýrství
TÉMA BAKALÁŘSKÉ PRÁCE
Problémy vyhledávání informací v prostředí internetu (relevance výsledků)
Student: MykhailoMischaniuk Vedoucí bakalářské práce: doc. Ing. Vilém Sklenák, CSc.
ROK 2012
1
PROHLÁŠENÍ
Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, z nichž jsem čerpal.
V Praze dne
................................ .......................... Podpis
2
PODĚKOVÁNÍ
Děkuji doc. Ing. Vilému Sklenákovi, CSc, vedoucímu mé práce, za vstřícnost a pomoc při jejím vedení.
3
ABSTRAKT V ČESKÉM JAZYCE
Práce se snaží rozebrat problém, který se objevuje v prostředí internetu, v souvislosti s hledáním informací. Tento problém se týká relevance, tedy jak jsou výsledky vyhledávání pro člověka použitelné. Hlavní část práce se týká porovnání dvou nejsilnějších hráčů v oblasti vyhledávání na internetu v českém prostředí, Seznamu a Google. Porovnání je popsáno formou několika testů a analýzou získaných výsledků. Rovněž se v práci věnuji tomu jak využít prostředků vyhledávání, aby se dosáhlo co nejrelevantnějších výsledků, a tomu jak tvůrci webových stránek používají prostředky, aby využili relevanci ve svůj prospěch.
KLÍČOVÁ SLOVA
Relevance, SEO, užitečnost, internetové vyhledávání, vyhledávač, podíl vyhledávačů, operátory, rozšířené vyhledávání, kritéria, hodnocení, Seznam, Google
4
ABSTRACT IN ENGLISH LANGUAGE
Thepapertries to solvetheissue, whichappears in the Internet environment, whichis identifyinginformation. Thisproblemis relevance - howsearchresults are useful to humans. Themain part isdevoted to comparingthetwostrongestplayers in thesearch on the Internet in the Czech environment, Seznam and Google. Thecomparisonisdescribed by severaltests and analysisoftheresults. Alsotheworkexamineshow to use resourcesofsearch on the internet to achievethe most relevantresults, and howthecreatorsof web pages are usingthemeans to takeadvantageofthe relevance to theirside.
KEYWORDS
Relevance, SEO, usefulness, web search, searchengine, proportion, operator, extendedsearch, conditions, evaluation, Seznam, Google
5
OBSAH 1.
Úvod ................................................................................................................................................................ 7
2.
Jak pracují internetové vyhledávače ............................................................................................................... 8
3.
Podíl vyhledávačů na českém trhu .................................................................................................................. 9
4.
Google roste, Seznam oslabuje ..................................................................................................................... 11
5.
DEFINICE RELEVANCE .................................................................................................................................... 13 5.1.
6.
7.
Hodnocení relevance ........................................................................................................................... 13
Kritéria hodnocení ......................................................................................................................................... 17 6.1.
Pozitivní Faktory .................................................................................................................................. 17
6.2.
Negativní faktory ................................................................................................................................. 19
Zlepšení relevance a Testy ............................................................................................................................ 21 7.1.
Základní fakta vyhledávaní .................................................................................................................. 21
7.2.
Základní rady pro dotazy ..................................................................................................................... 21
7.3.
Pokročilé techniky vyhledávání pomocí operátorů ............................................................................. 23
7.4.
PokročilÉ vyhledávÁní .......................................................................................................................... 35
8.
SEO ................................................................................................................................................................ 37
9.
Trendy ........................................................................................................................................................... 38 9.1.
Personalizace ....................................................................................................................................... 38
9.2.
Předvídání otázek ................................................................................................................................ 38
9.3.
Konkrétní dotazy s konkrétními odpověďmi ....................................................................................... 38
Závěr...................................................................................................................................................................... 40 Zdroje .................................................................................................................................................................... 41
6
1. ÚVOD Každý ví, že internet obsahuje obrovské množství informací, proto se ve své práci věnuji problému, který se s daným tématem střetává, a to relevanci získaných výsledků přes internetové vyhledávače, a jak tuto relevanci zlepšit a lépe nalézt to, co vyhledáváme. Důvod, proč jsem si vybral dané téma, je ten, že sám s internetem hodně pracuji a vyhledávám denně mnoho informací. Postupem času jsem se naučil používat vyhledávače na lepší úrovni, abych rychle našel, co hledám. Tyto znalosti jsem si právě chtěl prohloubit psaním této práce. Rychlost vyhledáváni je právě to, co je v daném segmentu velice ceněnou vlastností. Pokud člověk dlouho vyhledává přes vyhledávače, dá se s jistotou říci, že buď vyhledává špatně, nebo danou informaci s použitím vyhledávače nenajde. Pokud chceme informaci najít rychle, určitě bude důležité, aby se objevila ve zdroji na prvních místech ve výsledku vyhledávání. To je právě cílem mé práce - poukázat na to, který ze dvou největších vyhledávačů v ČR je na tom lépe, v čem zaostávají a jakými způsoby se dá nápomoci tomu, abychom dostali ve výsledku na první místa to, co hledáme. Cíle jsem dosáhl tím, že jsem porovnával vyhledávače pomocí testů s určitými klíčovými slovy a frázemi. Výsledky jsem posléze analyzoval pomocí probraných úrovní hodnocení. Rovněž jsem probral nejlepší techniky, kterými se dá vyhledávání zlepšit. K většině z nich jsou připojené příklady. Problémem a omezením, na něž musím však poukázat, je to, že i když zde jsou některé ukazatele kvality, velké hledisko je dáno subjektivním pocitem. Totiž to, co pro někoho může být důležité, je právě naopak pro někoho jiného neužitečné. Platí i z opačného pohledu.
7
2. JAK PRACUJÍ INTERNETOVÉ VYHLEDÁVAČE Žijeme v době informačních technologii. Každý z nás dnes nějakým způsobem využívá internet. Pro většinu lidí je internet zdrojem informací. Protože je jich plný, jedním ze zásadních problémů, který se tu nabízí, je najít tu správnou informaci, a to v co nejkratším čase. Proto existují internetové vyhledávače, které nám pomohou najít to, co potřebujeme. Úvodní kapitola proto pojednává o tom, jak tyto vyhledávače fungují. Je třeba zásadně odlišit dvě skupiny vyhledávačů. K jedné skupině patří ty, které prohledávají určitou stránku, určitý portál, nebo stránku služeb. Dá se říct, že takových je na internetu nespočet, protože téměř všude, kam přijdeme, existuje nějaká možnost vyhledávání. Druhou skupinou jsou takové vyhledávače, které prohledávají celý internet. Těmi se zde budeme zabývat.(1) Když se řekne vyhledávač, často se rozumí webová stránka, v níž se nabízí pole pro vložení dotazu. To se pak vyhledává v databázích HTML souborů, které byly předem vytvořené speciálním programem. Tomuto programu se říká robot (nebo také crawler nebo spider). Robot pracuje zcela automaticky a dělá vlastně to, že pomocí hypertextových odkazů prochází na internetu webové stránky. Začne tím, že dostane seznam některých populárních stránek nebo nějaký katalog. Na každé stránce si uloží všechny hypertextové odkazy, které na daných stránkách najde, čímž vlastně dostane odkazy na další místa v internetu, která rovněž projde, a znovu podle odkazů postupuje dál. Při tomto procházení se naskytuje několik problémů. Roboti musí byt hodně rychlí. Přírůstek internetových stránek ve světě je tak velký, že vyhledávače mají co dělat, aby udržely krok. Z průzkumu v roce 2009 se ukázalo, že stránek na internetu je kolem 3 miliard a největší vyhledávač jich má zaindexováno jen 1,2 miliardy. To vlastně také souvisí s dalším problémem, kterým je to, že robot se musí na stránky vracet, aby je udržoval aktuální. Občas se stane, že se dostaneme na stránku, která už třeba neexistuje. (2)(3) Prohledávání stránek robotem je prvním krokem k tomu, jak pracují vyhledávače. Dalšími kroky jsou zpracování těchto stránek a jejich nabídnutí k dotazům. Zpracování internetových stránek probíhá tak, že se stránky zaindexují a vytvoří se váha. Indexace probíhá tak, že se vytváří seznam významových slov a k nim se přiřazují stránky, kde se dané slovo vyskytuje. Vytvoření váhy webové stránky a slova je už ale náročnější proces a každý vyhledávač vytváří váhu jinak. Podle ní se pak řadí výsledky ve vyhledávači, mluvíme tudíž o relevanci výsledků. Právě kvůli indexování dostáváme výsledky ve vyhledavačích v rámci několika desetin sekundy. Nabídnutí stránek k dotazům je potom poslední částí činnosti vyhledávačů. Tato část je pro uživatele nejviditelnější. Dotazy se zadávají pomocí vstupního formuláře a dostáváme seznam stránek, kde se daná hesla vyskytují. Pokud je vyhledávač kvalitní, tak uživateli nabídne na prvních místech nejrelevantnější výsledky, tj. takové, které by měly být dostačující. Pro přehlednost se u každé stránky ve výpisu nabízí i další informace kromě URL, jako například text kolem zadávaného hesla nebo popis stránky anebo obrázek. (4)(5)
8
3. PODÍL VYHLEDÁVAČŮ NA ČESKÉM TRHU V této kapitole se podíváme na to, jak si u nás vedou určité vyhledávače. Téma se týká především porovnání Seznamu a Google, které jsou u nás nejrozšířenější. Jak je vidět na Obr. 1. Jsou tu i jiné používané vyhledávače, avšak jejich podíl je natolik minimální, že nemá smysl se o nich příliš zmiňovat.
Obr. 1 Podíly vyhledavačů za rok 2010
Seznam.cz má v českých zemích dlouholetou tradici. Byl založen roku 1996, tudíž v době, kdy internet jako takový začínal nabírat na své popularitě. Google v tomto ohledu na území ČR zaostává. Jeho oficiální pobočka byla zde otevřená až roku 2006. Graf, který vidíme nahoře, končí začátkem roku 2011. Jak je vidět, Google.cz má celkem velmi stoupající tendenci, za rok nabral necelých 10 % na podílu. Tohle je však asi jediný ukazatel, který se dá jasně vyčíst z grafu, tedy to, že Google jako takový prodělává nárůst na úkor Seznamu. Bohužel se nedá s jistotou říct, kdo má větší podíl podle toho, jak vypadají křivky v grafu. Důvodů je několik. Některé zdroje uvádějí, že Google předběhl Seznam. Souhrnný podíl Google vyšplhal v lednu na 51%, podíl Seznamu klesl pod 50%. Vychází se z toho, že do vyhledávání v rámci Google jsou započítány i jiné portály, například Centrum.cz, se kterým se Google spojil v říjnu 2010. (6)(7) Bohužel i na tato data se nedá přesně spolehnout. Záleží totiž na metodice, se kterou byla data sebrána a jak jsou interpretována. Problém popisuje mluvčí Seznamu Veronika Rozumková, která říká: „Pokud by se vzaly v potaz pouze přístupy českých uživatelů přes vyhledávače podle Toplistu, byl by podíl Seznamu téměř 58 procent a Google 42 procent. Tyto údaje ale naopak nezahrnují přístupy českých uživatelů z vyhledávačů na zahraniční weby.“
9
Jiná monitorovací služba Navrcholu.cz však překročení 50% hranice Google nepotvrdila. Podle ní si Seznam stále drží místo nejpoužívanějšího vyhledávače v České republice. Ti, kdo s jistotou vědí, jak to s podíly je, jsou právě dané společnosti. Google však svá data neprozrazuje. (8)
10
4. GOOGLE ROSTE, SEZNAM OSLABUJE Jeden z důvodů, proč je Seznam.cz hodně populární v ČR a proč ještě dlouho bude, je vidět na následujících obrazcích (Viz Obr. 2 a Obr. 3)
Obr. 2 Homepage Seznamu
Obr. 3 Homepage Google
11
Na obrázcích je vidět to, že i když je Google světově nejlepší vyhledávač, Seznam nabízí něco navíc. Je to totiž komplexní portál, v němž se nachází i funkce vyhledávaní na internetu. Seznam má náskok v tom, že je u většiny koncových uživatelů nastavený jako domácí stránka. Proč by měl laický uživatel používat Google? Proč by měl otvírat nové okno v prohlížeči, jen kvůli tomu, aby začal vyhledávat? Vždyť Seznam mu totéž nabízí, ačkoliv kvalitu vyhledávání obvykle většina populace není schopna rozlišit. Tudíž dobrým marketingovým tahem bylo nabídnutí odkazu pro nastavení Seznamu jako domácí stránky. Dneska se tento odkaz nachází dole na stránce. Pamatuji si však časy, kdy nápis bylo vidět hned pod polem pro zadání dotazu. Google takovou možnost však nenabízí, a proto si ho uživatel musí umět nastavit sám. Co se týče nedávné historie, byly časy, kdy si uživatel zavolal pracovníka, aby mu doma nastavil internet. Ten mu většinou jako domácí stránku zadal Seznam.cz. Tento fenomén podle mě zapůsobil obrovským způsobem na českou počítačově negramotnou populaci, jelikož ta začala celkově přirovnávat internet k Seznamu. Dneska je však jiná doba a lidé jsou se znalostmi internetu někde jinde než před 10 lety. To je snad i jeden z důvodů, proč Seznam slábne. Pokud bude mít Google na své domovské stránce jen vyhledávaní, bude se v ČR těžce prosazovat, neboť jen málokdo zná iGoogle a dokáže si v něm nastavit vše, co potřebuje. Technicky vzdělaných je ve společnosti málo. Stává se například, že děti mají nastaven iGoogle a nemohou si ho vynachválit, avšak jejich rodičům Seznam naprosto vyhovuje. Tento efekt bych mohl přirovnat ke Gaussově křivce neboli normálnímu rozdělení. Podle něj je průměrných lidí většina a technicky nadaných a technicky negramotných uživatelů je menšina. Služby, které nabízí Seznam a které „nutí“ uživatele, aby ho měli nastavený jako domovskou stránku, jsou například: Adresář firem, Lidé, Mapy, Finance, Práce, Ubytování, TV program, Horoskopy, Počasí, Kurzy měn, bulvární Novinky, přístup k emailu atd. Výhoda Google spočívá v tom, že jeho search engine je „lepší“ než ten u Seznamu a dává relevantnější výsledky. To se budu snažit dokázat v dalších kapitolách. (9)(10)
12
5. DEFINICE RELEVANCE Relevance neboli důležitost či významnost je koncept, který je studován v různých oborech. Obecná definice říká, že relevantní je určitý prostředek, může to být například informace, okolnost, věc nebo cokoliv jiného, který nás nějakým způsobem přibližuje k vytyčenému cíli. Pokud nás k němu nevede, je to pro nás irelevantní. V dalším textu se budeme zabývat relevancí informace, tím jak je informace důležitá pro člověka, který se snaží něco nalézt na internetu. Je však nutné poukázat na to, že s tímto pojmem se můžeme setkat i v mnoha jiných oborech. Například v lékařství. Člověku, který je náchylný k nemocem, bude relevantní příjem Vitamínu C, protože zvyšuje odolnost vůči infekcím, ostatní vitamíny pro něj mohou byt méně relevantní nebo úplně irelevantní. (11) Trochu jiný pohled na definici relevance ve vyhledávacích systémech říká, že výsledek, který vyhledávač nabídne, je pro člověka relevantní, pokud mezi několika prvními výsledky nalezne informaci, která ho uspokojí (a to ať už ve výsledku bude přímo potřebný dokument nebo dokument na něj odkazující). (12)
5.1.
HODNOCENÍ RELEVANCE
Jeden z kroků, který Google podniká k tomu, aby zlepšil relevanci vyhledávaní, je ten, že stránkám přiřazuje, do jaké kategorie patří, tedy hodnocení relevance. Tyto kategorie jsou ‘Vital’, ‘Useful’, ‘Relevant’, ‘SlightlyRelevant’ and ‘Off-TopicorUseless’. (Viz Obr. 4)(13)
Obr. 4 Kategorie relevance
5.1.1. VITAL
Vital kategorie je přiřazena ve zvláštních situacích, a to tehdy, když se vyhledávané klíčové slovo dá považovat za zastoupení určité dominantní entity, jako například některé známé organizace, místa, osoby, restaurace, produkty apod. Jako příklad bych uvedl slovo „Books“. V tomto případě se na prvním místě objeví stránka Google books, - služba od společnosti Google. Na druhém místě je stejné zastoupení, ale v českém jazyce. A na třetím je odkaz na Wikipedii. (Viz Obr. 5)
13
Podobných přiřazení je spousta, například „Apple“. Zde dostaneme na prvním místě stránku firmy Apple, nebo „Mapy“ - na prvním místě dá stránku mapy.cz atd. Na první pohled jsou to obecná slovíčka, ale za léta používaní si je lidé začali k něčemu přiřazovat, a tím pádem se to musí promítnout i do vyhledávacích služeb. Je třeba rovněž poznamenat, že „Vital“ hodnocení nemůže být připojeno k dotazům, které se například skládají z několika slov nebo mohou být rozporuplné. Google předpokládá, že by měla být tato hodnocení pro uživatele extrémně užitečná. Tím vzniká ovšem problém, jelikož oficiální „Vital“ stránky nemusí byt vždy to, co člověk právě hledá.
Obr. 5 Vital kategorie
5.1.2. USEFUL „Useful“ hodnocení je přiřazeno tehdy, když je website považován za užitečný pro většinu uživatelů. Znamená to, že stránky musí mít vysokou kvalitu, být důvěryhodné a dobře organizované. K určitému dotazu může byt připojeno více hodnocení „Useful“, avšak pouze jedno „Vital“. Jako příklad jsem zadal do vyhledávače Google slovo „zprávy“. Na prvním místě se objeví odkaz na stránku Idnes.cz . Idnes je zpravodajsky server, který k dnešnímu dni navštíví měsíčně více než 3,8 milionu čtenářů. (14). Je to frekventovaný a hodně známý website, z čehož se dá usuzovat, že má vlastnosti výše popsané. 14
Na dalších místech se objevuji odkazy na podobné stránky, které jsou v dané tématice v ČR hodně známé, jako jsou zprávy televize Nova, Lidovky atd. a všechny se na první desítce určitě dají považovat za „Useful“.
5.1.3. RELEVANT Jak vidíme, Google dává do prostředního místa relevantní výsledky. Jsou to výsledky, které jsou považované za užitečné pro hodně uživatelů. Relevantní stránky by měly obsahovat méně podstatné informace než stránky označené jako „Useful“, ale pořad by měly mít dobrou kvalitu a hodnotu. Znamená to, že takto označené stránky mohou mít poněkud zastaralé informace, nebo nebudou pokrývat dané téma do takové hloubky jako stránky označené „Useful“. Celkově vzato, stránky označené jako „Relevant“ musí být nápomocné pro uživatele a musí mít přiměřeně detailní informace o tématu a měly by být považovány za průměr mezi stránkami s dobrou kvalitou. Jako příklad bych v této kategorii zmínil klíčové slovo „auto“. Na prvních dvou místech se objeví weby, které jsou nejspíše označeny jako „Relevant“. (Viz.Obr. 6). Důvod je ten, že každý z nich se zaměřuje na užší okruh tematiky. V prvním případě jde o ojetá auta a možnost jejich prohlížení v autobazaru, v druhém případě je to obecnější stránka o autech obecně. Dá se říct, že obě stránky pokrývají téma, které bylo vyhledávané, jsou tudíž přijatelné.
Obr. 6 Relevant kategorie
5.1.4. SLIGHTLY RELEVANT Stránky takto označené nemusí být pro uživatelé moc užitečné, ale stále mají nějakou hodnotu, poněvadž se tématu dotýkají alespoň okrajově. Mají ale horší kvalitu než ty, které by patřily do předešlých kategorií a mohou obsahovat zastaralé informace. Rovněž do této kategorie náleží stránky, které jsou zkopírované nebo jsou považované za duplikát. I když mohou být dobře uspořádané a hodnotné pro uživatele, spíše se použije toto pojmenování, než aby je hned označovali za Spam. 15
Jako příklad je dobré zmínit stránky, které se objevují u dotazu většinou na vzdálenějších místech od začátku stránky. Když tedy vezmeme předešlé klíčové slovo „auto“, na 10. straně v Google se už nebudou moc objevovat stránky o autech jako takových, ale spíše o doplňcích do auta. (Viz Obr. 7)
Obr. 7 Kategorie Slightly Relevant
5.1.5. OFF-TOPIC
Stránky označené za off-topic jsou užitečné pro minimum uživatelů, nebo vůbec pro nikoho. To nemusí znamenat, že stránky mají špatnou kvalitu, ale že si tyto stránky nějakým způsobem našly cestu do SERPu (Search Engine Result Pages). I stránky jako off-topic mohou obsahovat „zákeřný“ materiál, tj. linky a reklamy bez skutečného obsahu, anebo mohou nabízet stáhnutí nedůvěryhodných souborů. Stránky off-topic jsou často značené jako „spam“.
16
6. KRITÉRIA HODNOCENÍ Pro řazení výsledků ve vyhledávacích službách jsou používány algoritmy, které vycházejí z různých kritérií. Těchto kritérií je velké množství. Způsob, jakým je postaven algoritmus, se často utajuje jako know-how firmy. Tudíž přesný algoritmus a přesný výpis kritérií není známý. Cílem této kapitoly je podívat se na ty nejdůležitější faktory, které působí na to, jaké pořadí bude určitá stránka zaujímat v celkovém hodnocení. V New York Times inženýři pro kvalitu vyhledávaní v Google uvedli, že pro vyhodnocování relevance výsledků je použito vice než 200 kritérií, která jsou dále kombinována. Nejdůležitější faktory v následujících podkapitolách jsou vybrány podle dotazníku, který byl položen třiceti sedmi odborníkům v oblasti optimalizace pro vyhledávače. (15)
6.1.
POZITIVNÍ FAKTORY
6.1.1. KLÍČOVÁ SLOVA V TITULKU STRÁNKY Jedním z nejvýznamnějších efektů je zahrnutí v elementu title, tj. že se vyhledávané klíčové slovo objeví v titulku určitých stránek. Navíc se má za to, že určitý efekt je rovněž tehdy, když jsou klíčová slova blíže k začátku stránky. Například je rozdíl, když určitý web napíše název firmy až za klíčová slova. Klíčová slova se obecně analyzují v různých částech webové stránky, i přestože nejvýrazněji se to projeví v titulku. Dalšími místy jsou například text stránky, název domény, URL stránky, popis obrázku, úrovně nadpisů, metadata apod.
6.1.2. LINK POPULARITY CÍLOVÉHO WEBU Jinak řečeno se zde zkoumá počet a důležitost odkazů, které vedou na daný web z jiných webů na internetu. Proč je tento faktor tak důležitý, se dá pochopit na metafoře, kde se stránka přirovnává k městu. Pokud do velkoměsta vede hodně dálnic a železničních tratí, má několik letišť a přístavů, tak se považuje za důležitý uzel. Malé vesničky, kam vede jen jedna silnice, jsou známé jen menšímu počtu osob. Velké a známé stránky, na které ostatní odkazují, by se proto měly objevovat na vyšších místech.
6.1.3. TEXT VE ZPĚTNÉM ODKAZE (ANCHOR TEXT) Anchor text je viditelná, klikací část hyperlinku. Je to ta část, kterou uživatel vidí a pod níž se schovává skutečný link. Například hyperlink odkazující z Wikipedie na stránku seznam.cz je v této formě:
17
Seznam.cz Anchor text je tedy Seznam.cz. I když anchor teoreticky vůbec nemusí vypovídat o tom, co je v linku, prakticky je to tak, že pokud takhle někdo odkazuje na něčí stránku, většinou zkráceně popisuje, kam se člověk dostane nebo co na dané stránce najde. Tudíž vypovídající hodnota anchor textu je obrovská.
6.1.4. LINK POPULARITY V RÁMCI VNITŘNÍ STRUKTURY WEBU Podobně jako v bodě 2 se zde jedná o počet a důležitost odkazů, které vedou na určitou stránku, a to v rámci struktury webu. Samozřejmě i zde velké vyhledávače jako Google dávají spíše větší důraz na reputaci a váhu stránky než na počet odkazů, kde se dají hodně snadno zneužít.
6.1.5. STÁŘÍ WEBU Spíše než registrace domény se zde má na mysli zpřístupnění indexovatelného obsahu pro vyhledávače. Google dává tomuto faktoru velkou váhu. Tím zhoršuje konkurenceschopnost nově vznikajících webů a možnost dostat se na vyšší pozice. Specialisté však uvádějí příklady vzkvétajících webů, které prosperovaly z toho, že byly dobře napojeny na důvěryhodné, populární weby.
6.1.6. TEMATICKÁ RELEVANCE ODKAZŮ, KTERÉ SMĚŘUJÍ NA WEB Jinak řečeno se Google snaží určit, zda web, odkazující web a klíčové slovo jsou stejného tématu. Dělá to tak, že porovnává na webech podobné fráze. Vliv na relevanci mají nejen klíčová slova konkrétního tvaru, ale i jeho gramatické tvary, synonyma, a dokonce i slova úzce spjatá s určitým tématem. K tomuto účelu využívá Google technologii LSI (Latentní sémantické indexovaní). Zjednodušeně řečeno je to technologie, která funguje na statistickém přístupu. Tudíž na základě počtu výskytu hledá navzájem souvislá slova a dokumenty. Například pokud se na webech často vyskytují společně slova hudba, rock a pop, díky algoritmu LSI, při zadáni slova rock, se bude prohledávat nejen na stránkách, které obsahuji slovo rock, ale i na těch, které obsahuji slovíčka hudba a pop. (24)
18
6.1.7. LINK POPULARITY WEBU SOUVISEJÍCÍCH WEBŮ
V
RÁMCI
SKUPINY
TEMATICKY
Stejně jako v jiných bodech tykajících se linku popularity i zde má velký význam to, pokud na určitý web někdo odkazuje z místa, které se zabývá podobným tématem. Například budeme-li mít velký web, který se zabývá určitým tématem a na něm bude odkaz na malý web, ať už rozšiřující danou tematiku nebo z jakéhokoliv jiného důvodu, může to být pro malou stránku velmi prospěšné a může ji to vytáhnout na první místa ve výsledku vyhledávání.
6.1.8. ČETNOST PŘIBÝVÁNÍ NOVÝCH ODKAZŮ NA WEB Tohle může být velmi důležité pro nové weby. Pokud za určitý čas přibude velké množství odkazů na daný web, může ho to posunout na vyšší pozice. Samozřejmě sofistikované vyhledávače jako Google hodnotí, zda odkazy jsou z relevantních webů. V opačném případě by to také mohlo i stránku poškodit.
6.1.9. KLÍČOVÁ SLOVA, KTERÁ JSOU POUŽITÁ V TEXTU STRÁNKY Jsou to klíčová slova, která se v HTLM kódu nachází mezi elementem body, tedy ve vlastním obsahu stránky. Tvůrci webových stránek by zde však měli dát pozor na to, že pokud se četnost klíčových slov přežene, může to mít spíše negativní efekt.
6.2.
NEGATIVNÍ FAKTORY
6.2.1. ČASTÁ NEPŘÍSTUPNOST SERVERU ROBOTŮM Pokud se robot nedostane na stránku, má to negativní vliv na její pořadí. Například pokud server na 48 hodin vypadne, může se stát, že stránka z indexu úplně vypadne.
6.2.2. PODOBNOST NEBO DUPLICITA OBSAHU K JIŽ ZAINDEXOVANÝM STRÁNKÁM Cílem Google je co nejvíce eliminovat duplicitní nebo podobné weby. Ještě donedávna se stávalo, že člověk při vyhledávání narazil na stránky se stejným obsahem. Dneska se už ale používají algoritmy, které jsou schopny tuto skutečnost odhalit. Google si u stejných stránek vybere jednu a tu zaindexuje, ostatní ignoruje. Pokud se jedná o obsah velmi podobný, stránky jsou sice zaindexovány, ale ve výsledku je pak stejně vybrána jedna.
19
Z tohoto důvodu by právě tvůrci webových stránek měli dát pozor na kopírování obsahu na jiná místa, protože by jejich web mohl být lehce vynechán. (16)
6.2.3. ODKAZOVÁNÍ NA NEKVALITNÍ A SPAMOVACÍ WEBY Pokud stránka odkazuje na nekvalitní weby nebo na weby, které jsou označené jako spam, poškozuje sama sebe. To se značně projeví na její popularitě. Opět faktor, který je spíše více podstatný pro webové tvůrce než pro člověka, který na internetu něco hledá. Pro něj je takové propojeni přínosem. Jelikož člověk, který ze svého webu odkazuje na špatné sousedy, se vlastně tím sám zařazuje do tohoto sousedství.
6.2.4. POUŽITÍ STEJNÝCH TITULKŮ NA VELKÉM MNOŽSTVÍ STRÁNEK Poukazuje na důležitost používat na stránkách různé titulky, poněvadž vyhledávač dobře rozpozná duplicitu, kterou pak hodnotí velice přísně.
6.2.5. ÚČAST V ODKAZŮ
ODKAZOVACÍCH
SLUŽBÁCH
NEBO
NA
PRODEJI
Existuji systémy, které za poplatek budou odkazovat na určité stránky. Samozřejmě najdeme případy, kde se to provádí sofistikovaně a weby na tom mohou vydělat tím, že se dostanou na vysoké pozice v nejvíce frekventovaných klíčových slovech. Těchto případů je ale málo, jelikož podobné stránky jsou snadno identifikovatelné a Google je schopen jim zamezit v přidávání PageRanku.
20
7. ZLEPŠENÍ RELEVANCE A TESTY V této kapitole se podíváme na techniky, které pomohou člověku nalézt ve vyhledavačích to, co hledá, tudíž dostat na první pozice nejrelevantnější výsledky. Rovněž u vybraných technik se podíváme na to, jak se s nimi poperou vyhledávače Seznam a Google. Většinou testy vycházejí z informací z předešlých kapitol, musím však upozornit na subjektivní hledisko, které u daného tématu hraje velkou roli.
7.1.
ZÁKLADNÍ FAKTA VYHLEDÁVANÍ
Všechna slova, která jsou zadána do dotazu, jsou důležitá. Ve většině případů budou použita všechna zadaná slova. Nezáleží na velikosti písmen. Pro dotaz New York Times budou stejné výsledky jako pro dotaz new york times. Interpunkce je ignorována, společně například se znaky @#$%^&* ()=+[]\ Dotazy lze zadávat s diakritikou i bez ní. Ve většině případů to přinese stejné výsledky.
7.2.
ZÁKLADNÍ RADY PRO DOTAZY
7.2.1. ČÍM JEDNODUŠŠÍ, TÍM LEPŠÍ Pokud člověk například hledá určitou společnost, stačí zadat její název, nebo občas napsat aspoň nějakou část, na kterou si vzpomíná. Pokud hledáme pizzerii v nějakém městě, stačí uvést „pizza“ a název města, nebo PSČ. Ve většině případu postačí základní dotaz bez použití operátoru, aby se člověk dostal tam, kam potřebuje.
7.2.2. MYSLETE NA TO, JAK BUDE VYPADAT NAPSANÁ STRÁNKA, KTEROU HLEDÁTE Vyhledávač není člověk, je to program, který v dotazu páruje klíčová slova a stránky na internetu. Tudíž je dobré zadávat dotazy tak, jak se nejspíš objeví na stránkách. Například není dobré psát „Bolí mě hlava“ nýbrž „bolest hlavy“, protože takhle se nejspíš dostaneme na stránky, které řeší daný problém. Dotaz „v které zemi se nachází Tadž Mahal“ je dobře srozumitelný pro člověka a nepřinese příliš dobré výsledky jako dotaz „Tadž Mahal stát“. ( Viz Obr. 8 a Obr. 9). Jak je vidět, první seznam výsledků v sobě zahrnuje téměř všechna slova napsaná v dotazu. To znamená, že se ztěžuje čitelnost, protože se nenašla stránka, na níž by byla celá věta pohromadě. Proto se bere každé slovo jednotlivě a ztrácí se celkový smysl dotazu. A v tomto případě to také znamená, že požadovaný výsledek se nachází níže od počátku, a to až na 4. místě.
21
Obr. 8 Výsledky pro dotaz „V jaké zemi se nachází tadž mahal“
Obr. 9 Výsledky pro dotaz „tadž mahal stát“
7.2.3. POPIŠTE NEJNIŽŠÍM POČTEM SLOV, CO HLEDÁTE Jak bylo nastíněno v minulém bodě, počítá se každý výraz. Vyhledávač se bude snažit najít výsledky, v nichž se nacházejí všechna klíčová slova z dotazu. Když jich zadáme hodně, může se stát, že se vyřadí dobré výsledky, které by nás rychleji přivedly k hledané informaci. Dobrou strategií je začít vyhledávat s malým počtem slov, posléze dotaz dále upřesňovat přidáváním dalších výrazů. A navíc první výsledky nám napovědí, jak bychom měli dále dotaz upřesnit.
22
Například dotaz „počasí praha“ je jednoduchý a rychlý dotaz, který nejspíše přinese lepší výsledky než dotaz „předpověď počasí praha česká republika“. Mimo to, že je dotaz dlouhý a jeho napsání zabere více času, obsahuje v sobě také irelevantní výrazy, které dotaz příliš nerozšiřují, protože vyhledávač, až na pár výjimek pozná, že Praha se nachází v České republice, stejně tak i jednotlivé slovo počasí často znamená předpověď počasí. Rozšířením dotazu by v tomto případě bylo nejspíše datum nebo část Prahy (Obr. 10)
Obr. 10 Rozšíření dotazu
7.2.4. VOLTE POPISNÁ SLOVA Čím více je klíčové slovo jedinečné, tím relevantnější výsledky nejspíše dostaneme. Podobně jako nadbytečná slova, která dotaz jen prodlužují, stejně i obecná slova, která toho moc nepopisují a mohou se objevit v několika různých případech, jsou spíše na škodu. Takovými slovy jsou například web, dokument, informace, společnost atd. Je dobré dát také pozor na slova, která sice situaci dobře popíšou, ale většina lidí slovo nepoužívá. Například místo dotazu „obrázek na pozadí“ je lepší napsat „tapeta na plochu“. (17)
7.3.
POKROČILÉ TECHNIKY VYHLEDÁVÁNÍ POMOCÍ OPERÁTORŮ
Jak Seznam, tak i Google nabízejí možnost vyhledávat pomocí operátorů. Podívejme se na nejdůležitější z nich a na jejich použití, případně porovnání výsledků. (18)
7.3.1. VYHLEDÁVÁNÍ PODOBNÝCH SLOV POMOCÍ ZNAMÉNKA ~ Znaménko ~ se napíše tak, že se přepne do anglické klávesnice a zmáčkne se tlačítko nalevo od tlačítka 1 v kombinaci se Shiftem. Pomocí tohoto operátoru jsme schopni zobrazit výsledek s podobnými slovy. Například zadáním dotazu ~telefon se zobrazí výsledky obsahující slova mobil, phone, telephone, tel., kontakt, atd. (Viz Obr. 11) Výborným využitím operátoru je zadáni dotazu ~diskuze. V tomto případě se najdou výsledky také se slovem diskuse společně se slovy fórum atd. Tento operátor můžeme použít v Googlu, avšak v Seznamu není podporován a vydá jen výsledky se slovem “Telefon“ a jeho odvozenými tvary.
23
Obr. 11 Podobná klíčová slova
7.3.2. VYHLEDÁVÁNÍ DOTAZU JAKO CELKU Pokud dotaz vložíme do uvozovek, začne se vyhledávat tak, jak je napsán. Bude se totiž dodržovat pořadí a tvary slov. Použití uvozovek je nejspíše nejčastější formou pokročilého vyhledávání, avšak i zde bychom měli být opatrní. Na uvozovky bychom měli myslet spíše až ve druhé řadě. Google sám o sobě klade velký důraz na to, aby byla slova pohromadě, a jenom v pádných důvodech se od toho odchýlí. Tím se může stát, že pokud bez přemýšlení použijeme uvozovky, můžeme přijít o nejrelevantnější výsledky, které bychom jinak ocenili více. Příklad takového, ne příliš vyhovujícího použití uvozovek, je dotaz „Knihy Harry Potter“ (Viz Obr. 12). Dejme tomu, že při hledání s takovými klíčovými slovy se nejspíše snažíme najít názvy jednotlivých dílů, nebo kde tyto knihy koupit. Lepšího výsledku se dosáhne, když se uvozovky nepoužijí. (Viz Obr. 13)
24
Obr. 12 Horší výsledek s použitím uvozovek
Obr. 13 Relevantnější výsledky s dotazem bez uvozovek
Tohle je však jeden z mála případů, kdy jsou uvozovky spíše na škodu. Na internetu se nachází obrovské množství informací, a pokud hledáme něco méně známého a zabírá nám to hodně času, mohou být uvozovky neocenitelným nástrojem. Podívejme se na to, jak si poradily Seznam a Google při vyhledáváni dotazu „vyřízení hypotéky“. Pominu-li reklamu na horních pozicích, výsledky vypadaly následovně. (Viz Obr. 14 a Obr. 15)
25
Obr. 14 Dotaz "Vyřízení hypotéky" na Seznamu
Obr. 15 Dotaz "Vyřízení hypotéky" na Google 26
Při zadání tohoto dotazu objeví člověk několik různých, avšak podobných témat. Osobně bych očekával, že se dostanu na stránky, které mi napoví jak postupovat nebo mi nabídnou pomoc, případně poskytnou potřebné informace ohledně procesu vyřízeni hypotéky. Při analýze výsledku ze Seznamu jsem si všiml, že na prvních dvou místech nabídl fórum a diskusi a to s podobným dotazem, jak dlouho trvá vyřízení hypotéky. Kvůli tomu, že mi tyto stránky poskytnou odpověď jen na to, jak dlouho vyřízení trvá, mi připadá jako zhoršení relevance. Rovněž to, že výsledky jsou zobrazeny v diskusi, a nikoliv na nějaké stránce, která se tomuto tématu věnuje, považuji za mínus. Třetí místo však už poskytuje stránku, na které je podrobně popsáno jak si nejen hypotéku zajistit, ale i všechno ostatní s ní spojené – beru to jako skvělý výsledek. Na čtvrtém místě je však výsledek naprosto mimo, jelikož se jedná o bazar s různými produkty, jako jsou spotřebiče, auta apod. Podle mě by nezkušený uživatel hned stránku zavřel a šel dál. Já jsem si však všiml, že mě vyhledávání hodilo na katalog od Seznamu a dole v políčku se vypsal můj dotaz. Po odkliknutí na „hledat“ mě to pošle na službu věnující se vyřízení hypotéky. Jenom nerozumím tomu, proč tento krok systém neudělal za mě hned na začátku. Další stránky jsou podobné: jak dlouho trvá vyřízení, stránka na finančního poradce zabývajícího se hypotékami a článek v novinách o tom, kolik mě bude stát vyřízení hypotéky. Google umístil na první místo pěknou stránku, na níž člověk najde všechny potřebné informace týkající se vyřízení hypotéky. Myslím si, že jde o obrovské plus pro Google. Ale i další výsledky nejsou pozadu. Na druhém místě je informace o době vyřízení, pak něco o potřebných dokladech, nabídka pomoci finančního poradce a výše poplatků. Tematicky, kromě první stránky, jsem dostal podobné výsledky na Seznamu i na Google. Kromě jedné stránky se všech dalších 6 různí. S tím rozdílem, že Google nabídl jen relevantní a užitečné výsledky a Seznam uvedl jeden špatný výsledek. Nenabídl něco, co pokryje úplnou informaci o tématu. To se v Google objevilo již na prvním místě, v Seznamu nikoliv. Ano, nabídl na 4. místě dobrý výsledek, avšak z informačního hlediska je tam toho málo ve srovnání s prvním výsledkem od Google.
7.3.3. AUTOMATICKÉ DOSAZOVÁNÍ SLOVA POMOCI * Tohle je skvělý příklad zvýšeného využití vyhledávače Google. Pokud člověk v několikaslovném názvu zapomene určité slovo, je to pro něj nejlepší pomoc. Já jsem si na zkoušku zadal do vyhledávacího políčka *inteligence. Asi každého hned napadne, že jsem se nejspíš snažil najít název Umělá inteligence. To se taky potvrdilo na prvních dvou místech, jak je možné vidět na Obr. 16. Ale k mému překvapeni, se v dalších výsledcích objevily i výrazy jako business inteligence, vysoká inteligence, centrální inteligence i spojení nedostatek inteligence.
27
Obr. 16 Vyhledávání s dosažením slova
Podle mě, je to skvělý prostředek, který Seznam bohužel nenabízí.
7.3.4. VYHLEDÁVÁNÍ JEDNOHO OPERÁTORU OR
NEBO
DRUHÉHO
SLOVA
POMOCÍ
V tomto případě jsem na zkoušku do vyhledávače zadal „iPhone t-mobile OR vodafone“. Mohlo by se to hodit, pokud člověk vyhledává jednu nebo druhou věc a vyhledávač mu nabídne nejrelevantnější výsledky. V mém případě jsem chtěl objevit stránky od mobilních poskytovatelů a porovnat jejich nabídky iPhonu. To mi Google nádherně uvedl hned na prvních dvou místech. (Viz Obr. 17) Jediné, na co by si měl dát člověk pozor, je to, že stejně jako operátor AND musí se operátor OR psát s velkými písmeny. Když se napíše or s malými, bude se místo operátoru vyhledávat normální klíčové slovo.
Obr. 17 Vyhledávání pomoci operátoru OR
Tento způsob vyhledávání včetně rozšířeného vyhledávání v Seznamu rovněž nefunguje, takže ani nemá smysl zadávat výrazy do vyhledávače.
28
7.3.5. VYNECHÁNÍ SLOVA POMOCÍ OPERÁTORU – Tohle je podle mě jeden z nejvíce užitečných operátorů. Pokud něco hledáte a vidíte, že se vám stále objevuji výsledky s určitými slovy a vy je nepotřebujete, použijete operátor „-„ a za ním napíšete dané slovo. Vyhledávač vám nabídne výsledky bez tohoto slova. Dejme tomu, že vyhledáváte hru Stronghold. Mate rádi jedničku, ale nesnášíte rozšíření s názvem Stronghold Crusader. Když do vyhledávače zadáte dotaz „Stronghold –Crusader“, dostanete lépe vyhovující výsledky. Podobně i u dotazu „diskusní -fórum“ dostaneme odkazy na diskusní témata, diskusní servery, diskusní semináře apod. (Viz Obr. 18)
Obr. 18 Vynecháni slova pomoci operátoru –
Stejně jako na Google se dá tímto způsobem vyhledávat i na Seznamu. Při zadáni dotazu „diskusní -fórum“ se výsledky v obou vyhledavačích liší na prvních místech. Jenom těžko bychom však mluvili o tom, který vyhledávač přinesl relevantnější výsledky, protože relevantní mohou byt všechny. Pokud nějaké slovo vynecháme, tak vyhledávač těžko pozná, co hledáme, spíše si je jistý tím, co nehledáme.
29
7.3.6. VYHLEDÁVÁNÍ S OPERÁTOREM + Operátor +, případně operátor AND říkají, že znak, či slovo musí být ve výsledcích obsažené. Velmi často používané znaky, jako například písmeno a, Google v normálním vyhledávání ignoruje. Pokud však pocítíme potřebu vyhledat tento znak, použijeme operátor +. Jako příklad něco konkrétního. Zadal jsem dotaz „video +a hudba“. V tomto případě dostanu výsledky, ve kterých je obsaženo slovo a. (Viz Obr. 19) Pokud však vynechám operátor +, budu zde dostávat úplně jiné výsledky. (Viz Obr. 20) Vyzkoušel jsem tento operátor i na Seznamu. Bylo vidět, že nějaký rozdíl je a že to nejspíše funguje správně. Avšak v porovnání s Google bylo vidět, že výsledky se opět liší.
Obr. 19 Výsledky s operátorem +
Obr. 20 Výsledky bez operátoru +
30
7.3.7. VYHLEDÁVÁNÍ POMOCÍ OPERÁTORU DEFINE Pokud hledáte popis nebo definici něčeho, může se hodit použít operátor define. Například když do vyhledávače napíšete „define:popocatepetl“, na prvním místě se objeví popis slova podle Wikipedie a pod ním odkazy na další slovníky. (Viz Obr. 21)
Obr. 21 Definice slova
V tomto případě je použitelnost Seznamu a Googlu vskutku zajímavá. Seznam totiž nabízí možnost vyhledávání v Encyklopediích. Avšak po zadání dotazu a výběru Encyklopedie, jsem dostal výsledky, které mi přišly zvláštní. (Viz Obr. 22). Jak je vidět na prvních několika místech (a stejně to pokračuje i na další stránce) objevily se podobné odkazy na stránku Wikipedia. Zřejmě vyhledávač prohledal Wikipedii a nabídl místa, v nichž vyhledávané slovo objevuje. V tomto případě získá uživatel hned na prvních místech informace, které hledal. Avšak Seznam nabídl i hodně dalších výsledků, které možná nebudou natolik důležité. Google nabídl pouze jeden výsledek s obsahem daného termínu, a to odkazem přímo na stránku Wikipedia. Pokud budeme postupovat na další stránky Seznamu, narazíme na jiné encyklopedie než jen na Wikipedii jako u Googlu. To může byt docela velká výhoda. Lépe by mně v tomto případě víc vyhovoval výsledek, v němž by nabídl Seznam na prvních místech několik různých encyklopedií, které by obsahovaly zmíněný hledaný termín. Nevýhodu Google v tomto případě spatřuji v tom, že odkázal jen na Wikipedii a neodkázal na jiné encyklopedie.
31
Obr. 22 Vyhledávání v encyklopediích Seznamu
7.3.8. VYHLEDÁVÁNÍ TYPU SOUBORU POMOCÍ OPERÁTORU FILETYPE Velmi užitečný operátor, pokud vyhledáváme určité typy souboru. Například různé typy dokumentu by se hodilo hledat v souborech pdf nebo docx, prezentace v ppt atd. Seznam v tomto smyslu trochu zaostává za Googlem, jelikož je schopen vyhledávat pouze v souborech, které standardně indexuje (html stránky a dokumenty ve formátu pdf, doc a rtf, txt a ppt). (Viz Obr. 23) Google opět nabízí mnohem víc. Například jsme schopni vyhledávat názvy zabalených souborů rar nebo spustitelných souborů exe. Nebo dokonce když napíšeme filetype:jpg, zobrazí se výčet odkazů na jpg obrázkové soubory. Pro vyhledávání obrázků je ale lepší použít samostatnou službu Obrázky.
32
Obr. 23 Vyhledávání pdf souboru
7.3.9. VYHLEDÁVÁNÍ V TITULCÍCH STRÁNEK Pomoci operátoru allintitle nebo intitle lze vyhledávat v titulcích stránek. Rozdíl je v tom, že pokud použijeme operátor allintitle, budou se prohledávat jen titulky. A s operátorem intitle začne přednostně prohledávání titulků. Syntax ve vyhledavačích Seznam a Google je trochu rozdílný. Seznam nepodporuje operátor allintitle. Chceme-li vyhledávat vice slov v titulku, stačí napsat u každého slova operátor intitle. Například „intitle:Dobře intitle:zprávy“. (Viz Obr. 24)
Obr. 24 Hledání v titulcích stránek
Podobným způsobem se dá vyhledávat v URL pomocí operátoru allinurl a inurl a v textu stránky pomocí allintext a intext.
33
7.3.10.
VYHLEDÁVÁNÍ NA KONKRÉTNÍCH STRÁNKÁCH
Pokud narazíme na stránku, kde není políčko pro vyhledávání, můžeme použít vyhledávač s operátorem site. Jako příklad funkčnosti jsem vyhledával na stránkách csfd.cz s pomocí Google, i přesto, že ČSFD nabízí vlastní vyhledávání. Samotný dotaz vypadá takto: „Pan prstenu site:csfd.cz“. (Viz Obr. 25)
Obr. 25 Vyhledávání na konkrétních stránkách.
7.3.11.
VYHLEDÁVÁNÍ PODOBNÝCH STRÁNEK
Velmi užitečná funkce je vyhledávání podobných stránek pomocí operátoru related. Zkusme například vyhledávat online encyklopedii – stránky podobné Wikipedii. Pomocí dotazu „related:wikipedia.org“ se na prvních místech objeví odkazy jako Britannica, Enciclopedia.com a Dictionary.com. (Viz. Obr. 26)
Obr. 26 Vyhledávání podobných stránek
34
7.4.
POKROČILÉ VYHLEDÁVÁNÍ
Pokud člověk zapomene na některé operátory, je dobré se naučit používat rozšířené vyhledávání, které nabízí většinu nejdůležitějších pomůcek. Ty by jinak byly zaměněny v základním vyhledávání s pomocí operátorů. Dnes Google nabízí velmi rozsáhlé rozšířené vyhledávání, zatímco pokročilé vyhledávání u Seznamu je o něco jednodušší. (Viz Obr. 27 a Obr. 28)
Obr. 27 Pokročilé vyhledávání v Google
35
Obr. 28 Pokročilé vyhledávání v Seznamu
Po krátkém prozkoumání se člověk naučí dobře zacházet s pokročilým vyhledáváním, avšak ne vždy to nahradí operátory. Na první pohled jsem si hned všiml, že s pokročilým vyhledáváním nenajdu soubory rar, nebo podobné stránky atd. Výhodou je že člověk si nemusí operátory pamatovat. Seznam i Google nabízejí laický popis u každého řádku. Zcela jistě velmi nápomocné.
36
8. SEO Teď se podíváme na relevanci z druhé strany, z pohledu tvůrců webových stránek, kteří se snaží ovlivnit relevanci ve svůj prospěch. SEO (Search engine optimalisation, optimalizace pro vyhledávače) jsou techniky, pomocí nichž se tvůrci webových stránek snaží, aby se jejich stránka při vyhledávání aspoň zdánlivě souvisejícího obsahu umísťovala co do nejvyšších pozic. Obecně řečeno, čím výše se stránka ve vyhledávači objeví, tím více uživatelů se na ni dostane. To znamená více zákazníků a více výdělků, což je cílem většiny komerčních stránek. To ale může platit i pro neziskové stránky, kde obecným cílem, když už vynaložili úsilí na vytvoření stránek, je dostat na ně největší počet lidí. Pokud je stránka špatně optimalizovaná, může to znamenat, že ji vyhledávače buď vůbec, nebo špatně zaindexují. Zda tyto techniky pomohou uživatelům v nalezení relevantnějších informací, je sporné, jelikož existují etické a neetické metody optimalizace SEO, které budou probrány dále. Vychází se z toho, jak vyhledávače fungují. Přesné algoritmy řazení výsledků, jak již bylo probráno v předešlých kapitolách, jsou společnostmi utajované, proto se vychází ze základních principů, z toho, co se postupem času vypozoruje. Nejdůležitější body algoritmu jsou probrány v kapitole o kritériích relevance. Proto je velmi důležitá pro optimalizaci stránek znalost těchto nejdůležitějších faktorů algoritmu a při vytváření webu je dobré na ně myslet a nejlépe nezapomenout na nic důležitého. Rozlišujeme dvě skupiny metodik SEO, totiž etické a neetické. Obecně mezi etické zahrnujeme takové, které stránkám v každém případě prospějí a které se odvíjejí od znalosti funkčnosti částí algoritmu a jejich zapojení do struktury webu. Mezi neetické patří ty, které stránku mohou také poškodit, a to z toho důvodu, že se vyhledávače proti takovým technikám brání. I když krátkodobě mohou být tyto techniky pro stránku přínosem. (19) Mezi takové neetické techniky spadá například spam a šíření odkazů. Jelikož stránka hodně prosperuje na tom, když na ní někdo odkazuje z jiného místa, existuje obrovské množství nápadů a rad jak toho využít. Ne vždy se to však musí považovat za spam, některé možnosti jsou často také úsilím tvůrců o své zviditelnění. Musí se však dát pozor, jakým způsobem se toto zviditelnění uskutečňuje. Na stránkách 404m.com (20) se například nachází množství rad na takové zviditelnění odkazů. Když se ale člověk podívá na některé z nich, ne všechny jsou etického rázu. Jako příklad uvádím bod 15: „Kupte si smazanou doménu, která měla ranky. Přes archive.org si stáhněte původní obsah, znovu jej nahrajte a přidejte svoje odkazy. Zvláště dobré jsou „fanouškovské“ stránky, na které vede spousta spontánních odkazů. Jestliže chcete řešení zdarma, můžete hledat zrušené weby na freehostingu.“. Co se spamu týče, bod 3 na stejné stránce přímo do toho pobízí. Cituji: „Komentáře na fórech – Na fórech se dá spamovat o sto šest. Někdy je nutné být trochu opatrnější a jindy jsou odkazy na kvalitní a hlavně tematický obsah doslova žádané.“
37
9. TRENDY V této kapitole se podíváme na určité nápady nebo vyhlídky do budoucna, co se týká zlepšení funkcionality vyhledávačů.
9.1.
PERSONALIZACE
Dnešní vyhledávače fungují na principu majority. Pokud člověk zadá dotaz do vyhledávače, dostane výsledky, které podle algoritmu vyhledávače budou přínosné většině lidí. Co kdyby ale vyhledávače zohledňovaly priority a preference lidí, které přes ně vyhledávají? Co kdyby vyhledávač poznal například, jaké máte rádi jídlo, když vyhledáváte restaurace, nebo jaký typ sportu preferujete, anebo jaké máte vzdělaní? Obrovské množství informací o člověku se dnes najde na sociálních sítích. Mezi nejznámější takovou síť patří Facebook. Představa, že by se Facebook spojil s Googlem, určitě patří k dalším fázím vyhledávací evoluce. (21)
9.2.
PŘEDVÍDÁNÍ OTÁZEK
Zkusme se zamyslet, proč člověk vlastně vyhledává. Protože určitou informaci v danou chvíli potřebuje. Faktem je, že vždy mu nezáleží na tom, v jaké podobě informaci získá. Představte si, že potřebujete vědět, kdy letí další letadlo do Londýna. Můžete zatelefonovat na letiště nebo si tam dojet nebo se zeptat kamaráda nebo otevřít stránky ČSA nebo si to zadat do vyhledávače atd. Způsobů, jak určitou informaci získat, je obrovské množství. Nejdůležitějším aspektem vyhledávání informace je to, že ji získáme v nejkratším čase s nejméně vynaloženým úsilím. Představte si situaci, že by vám vyhledávač v tomto trošku napomohl. Například procházíte zpravodajské články, kde si přečtete, že současně všude mrzne. V tomto případě by vás mohlo zajímat, jaké bude počasí přes týden. Vyhledávač by sám podle článku rozpoznal, jaké dotazy s největší pravděpodobností se dají očekávat a poskytl by na ně odpovědi. Tím by takto článek poněkud rozšířil. Podobně by se mohlo zjednodušit propojení vyhledávačů s textem článku. Například po dvojkliku na slovo nebo frázi by se otevřelo okno s výpisem výsledků na daný dotaz. Dnešní copy/paste se může zdát poněkud zdlouhavé. Ale to je možná spíše otázka prohlížečů než vyhledávačů. (22)
9.3.
KONKRÉTNÍ DOTAZY S KONKRÉTNÍMI ODPOVĚĎMI
Jak bylo popsáno v předešlých kapitolách, dnešní vyhledávače nepracují s konkrétními dotazy. Konkrétní dotaz spíše výsledky zhorší, než zlepší, protože bude mít v sobě spoustu podřadných klíčových slov. Kdyby ale vyhledávače byly schopné poskytovat konkrétní odpovědi na konkrétní dotazy, šlo by o zásadní změnu v internetu jako takovém. Představte si, že zadáte dotaz „Hledám čínskou restauraci v Praze poblíž zastávky metra „Náměstí Míru”. Vyhledávač vám okamžitě poskytne výpis restaurací. 38
S tímto bodem úzce souvisí zapojeni zvuku do vyhledávačů. Tudíž možnost „povídání si“ s vyhledávačem. Uživatel položí slovní dotaz, vyhledávač mu najde nejlepší odpovědi. Takovým „prototypem“ v této oblasti je software od firmy Apple s názvem Siri, který byl roku 2011 zakomponován do nového IPhone 4S. Program totiž dokáže odpovědět na spoustu otázek, které člověk vysloví. Na zmíněnou otázku je software například schopen odpovědět a najít požadovaná místa přes aplikaci pro mapy. (23)
39
ZÁVĚR
Tato práce byla pojata ve dvou rovinách. První z nich se věnovala obecně relevanci nabídnutých výsledků ve vyhledávači a v druhé jsem se zaměřil na dva největší vyhledávací systémy u nás. Dospěl jsem k závěru, že vyhledavač Google je lepší než Seznam, pokud jde o vyhledávání informací na internetu. Nabízí výsledky, které uživatelé lépe využijí, ale i přesto není u nás tak populární jako Seznam. Důvody jsem v práci rovněž probral. Patří mezi ně například vzhled homepage Google, neznalost laické společnosti apod. Za svůj přínos považuji, že jsem se snažil dokázat lepší využitelnost Google. Vysvětlit, že existuje cesta k dosažení lepších výsledků a získání potřebných informací, a především lze ušetřit čas při jejím hledání. Je nutné se také zmínit, že Seznam disponuje výhodami, jež jsou pro běžné uživatelé hodně užitečné, v nichž by se Google měl zlepšit. Práce by se dala rozšířit tím, že by se do porovnávání zapojili další velcí světoví hráči, jako jsou Yahoo, Bing od Microsoftu atd.
40
ZDROJE [X]
Autor: Název článku; URL článku (datum přistoupení)
1. Aleš Houdek, Zlata Houšková, Karolina Jonáková: Jak pracují internetové vyhledávače; http://daidalos.ff.cuni.cz/prilohy/pc/inet07.php (11.3.2012) 2. Aleš Houdek, Zlata Houšková, Karolina Jonáková: Jak pracují internetové vyhledávače; http://daidalos.ff.cuni.cz/prilohy/pc/inet07.php (11.3.2012) 3. Webopedia; How Do Web Search EnginesWork; http://www.webopedia.com/DidYouKnow/Internet/2003/HowWebSearchEnginesWork.asp (20.3.2012) 4. Wikipedia; Internetový vyhledávač; http://cs.wikipedia.org/wiki/Internetový_vyhledávač (25.3.2012) 5. Aleš Houdek, Zlata Houšková, Karolina Jonáková: Jak pracují internetové vyhledávače; http://daidalos.ff.cuni.cz/prilohy/pc/inet07.php (11.3.2012) 6. Red Eko; Google se spojil s Centrum Holdings a dotahuje Seznam; http://rocenka.aktualne.centrum.cz/2010/clanek.phtml?id=685461 (18.4.2012) 7. Táňa leMoigne; Novinky a informace z kuchyně Google Česká republika; http://googlecz.blogspot.com/2011/01/11111-1.html (18.3.2012) 8. Martin Vyleťal; Google nad Seznamem zatím nezvítězil; http://www.lupa.cz/clanky/googlenad-seznamem-zatim-nezvitezil/ (18.3.2012) 9. Cayman; Kdy bude Google jednička ve vyhledávání v ČR?; http://www.caymanislander.info/2010/01/kdy-bude-google-jednicka-ve-vyhledavani.html (19.4.2012) 10. Wikipedia; Normální rozdělení; http://cs.wikipedia.org/wiki/Normální_rozdělení (19.4.2012) 11. Wikipedia; Relevance; http://en.wikipedia.org/wiki/Relevance (20.3.2012) 12. Houdek, Aleš; Způsoby hodnocení relevance vyhledaných dokumentů ve vyhledávacích strojích; http://www.ikaros.cz/zpusoby-hodnoceni-relevance-vyhledanych-dokumentu-vevyhledavacich-strojich (22.3.2012) 13. Rory; The Google Relevance Rating System; http://www.seoconsult.com/seoblog/searchengine-optimisation/the-google-relevance-rating-system.html (24.3.2012)
41
14. Mediální skupina Mafra; Zpravodajský portál iDnes.cz; http://www.mafra.cz/cs/default.asp?y=mafra_all%5Ccs_produkty-a-sluzby_idnes-cz.htm (26.3.2012) 15. Rand Fishkin; Google Search Engine Ranking Factors V2; http://interval.cz/clanky/googlesearch-engine-ranking-factors-v2/#inner-links-text-jimz-je-tvoren-zpetny-odkaz (28.3.2012) 16. Jak psatweb.cz; O Google; http://www.jakpsatweb.cz/google.html (1.4.2012) 17. Google; Operators and more search help; http://support.google.com/websearch/bin/answer.py?hl=en&answer=136861 (5.4.2012) 18. Jiří Rostecký; Tipy a triky pro správné vyhledávání na Googlu http://objevit.cz/tipy-a-trikypro-spravne-vyhledavani-na-googlu-t349 (5.4.2012) 19. Wikipedia; Search Engine Optimization; http://cs.wikipedia.org/wiki/Search_Engine_Optimization (8.4.2012) 20. Admin 404m.com; Jak získat follow odkazy; http://404m.com/2011/09/10/50-zpusobu-jakziskat-zpetny-odkaz/ (26.4.2012) 21. Domeček z karet, MartiN; Kde leží budoucnost vyhledávačů? http://www.domecekzkaret.cz/kde-lezi-budoucnost-vyhledavacu (26.4.2012) 22. Domeček z karet, MartiN; Kde leží budoucnost vyhledávačů? http://www.domecekzkaret.cz/kde-lezi-budoucnost-vyhledavacu (26.4.2012) 23. Jill Duffy; 30 Questions and Commands for Siri; http://www.pcmag.com/article2/0,2817,2394834,00.asp (26.4.2012) 24. Tibor Peták; LSI – latent semantic indexing; http://blog.seochat.sk/2008-05-03/lsi-latentsemantic-indexing/ (8.4.2012)
42