Bankovní institut vysoká škola Praha
SEO – Optimalizace pro internetové vyhledávače
Bakalářská práce
Jan Bambas
Květen, 2010
-1-
Bankovní institut vysoká škola Praha Katedra informačních technologií a elektronického obchodování
SEO – Optimalizace pro internetové vyhledávače
Bakalářská práce
Autor:
Jan Bambas Informační technologie, správce IS
Vedoucí práce:
Ing. Daniela Krupičková
Praha
Květen, 2010
-2-
Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a za použití literatury uvedené ve zdrojích.
V praze, 30.5.2010
Jan Bambas, autor práce
-3-
Anotace Bakalářská práce je zaměřena na tématiku SEO – optimalizace pro internetové vyhledávače. Úvodní část práce nastiňuje hlavní cíle optimalizace, analyzuje současný stav vyhledávačů na komerčním poli a věnuje se základním technickým i obsahovým předpokladům pro optimalizaci. Z odborného hlediska jsou dále v práci popsány nejpoužívanější on-page a off-page optimalizační faktory a metody včetně krátkých praktických příkladů. Poslední část popisuje problematiku nepovolených optimalizačních metod, jejich význam a možnosti zneužití optimalizace.
Annotation This bachelor thesis is focused on the topic of SEO – search engine optimization. The introductory part describes the main goals of optimization, analyzes current state of commercial search engines and deals with basic technical and content prerequisites for optimization. The most commonly used on-page and off-page factors and methods are then described from technical point of view along with short practical examples. Last part describes the problematic of forbidden optimization methods, their significance and the potential of optimization abuse.
-4-
Obsah 1 Úvod ................................................................................................................................ 7 2 Optimalizace pro vyhledávače – význam a předpoklady ................................................ 8 2.1 SEM – Search Engine Marketing ............................................................................... 8 2.1.1 Vztah mezi SEM a SEO ........................................................................................ 8 2.2 Internetové vyhledávače ............................................................................................. 9 2.2.1 Fulltextové vyhledávače vs. katalogy ................................................................. 10 2.2.2 Přehled nejvýznamnějších fulltextových vyhledávačů pro české návštěvníky .. 11 2.2.2.1 Seznam.cz ..................................................................................................... 12 2.2.2.2 Google (.com, .cz) ........................................................................................ 12 2.2.2.3 Centrum.cz, Atlas.cz..................................................................................... 12 2.2.2.4 Jyxo.cz .......................................................................................................... 13 2.2.3 Podíl fulltextových vyhledávačů......................................................................... 13 2.3 Rank – známkování stránek ..................................................................................... 15 2.3.1 PageRank (PR) .................................................................................................... 15 2.3.2 S-rank .................................................................................................................. 16 2.3.3 Jyxorank .............................................................................................................. 16 2.3.4 Jak zjistit rank stránky ........................................................................................ 17 2.4 Předpoklady pro SEO ............................................................................................... 17 2.4.1 Technologické předpoklady ................................................................................ 18 2.4.1.1 Použití skriptů ve zdrojovém kódu ............................................................... 18 2.4.1.2 Technické parametry webserverů ................................................................. 19 2.4.1.3 Validita HTML ............................................................................................. 19 2.4.2 Obsahové předpoklady........................................................................................ 20 2.4.2.1 Příprava obsahu webu................................................................................... 20 2.4.2.2 Návrh obsahové struktury............................................................................. 20 2.4.2.3 Duplicitní obsah ........................................................................................... 22 2.4.2.3.1 Duplicitní obsah v důsledku nesprávně navržené architektury webu .... 22 2.4.2.3.2 Duplicitní obsah v důsledku plagiátorství .............................................. 23 2.4.2.4 Zamezení indexace irelevantního obsahu ..................................................... 23 2.4.2.4.1 Soubor robots.txt .................................................................................... 24 2.4.2.4.2 Omezení indexace pomocí HTML ......................................................... 25 2.4.2.4.3 Soubor sitemap.xml - mapa stránek ....................................................... 27 3 On-page optimalizace .................................................................................................... 29 3.1 Keywords - klíčová slova ......................................................................................... 29 3.2 Doménové jméno ..................................................................................................... 30 3.3 URL .......................................................................................................................... 31 3.3.1 Požadavky na URL ............................................................................................. 32 3.4 Title - titulek stránky ................................................................................................ 33 3.5 Description – popisek stránky .................................................................................. 34 3.6 Stop slova ................................................................................................................. 34 3.7 Nadpisy..................................................................................................................... 34 3.8 Zvýraznění řezem písma .......................................................................................... 35 3.9 Popisky obrázků ....................................................................................................... 35 3.10 Popisky HTML elementů ......................................................................................... 36 3.11 Text odkazu - anchor text ......................................................................................... 36 4 Off-page optimalizace ................................................................................................... 38 4.1 Off-page vazby ......................................................................................................... 38 4.2 Metody off-page optimalizace.................................................................................. 38 -5-
4.2.1 Přirozený linkbuilding, linkbaiting ..................................................................... 38 4.2.2 Výměna a koupě odkazů ..................................................................................... 39 4.2.3 Registrace do katalogů ........................................................................................ 39 4.2.4 Účast v diskusních fórech ................................................................................... 40 5 Black Hat SEO – nepovolené metody ........................................................................... 41 5.1 Penalizace ................................................................................................................. 41 5.2 Komentářový SPAM ................................................................................................ 42 5.3 Skrytý obsah ............................................................................................................. 42 5.4 Cloaking ................................................................................................................... 42 5.5 Doorway page, stuffing ............................................................................................ 43 5.6 Odkazové farmy ....................................................................................................... 43 5.7 SPAM report ............................................................................................................ 43 6 Závěr .............................................................................................................................. 45 7 Seznam použitých zdrojů ............................................................................................... 47
-6-
1
Úvod V současné době je internet všeobecně nejpopulárnějším zdrojem informací.
Přispěl k tomu mohutný rozvoj informačních technologií v posledním desetiletí, který měl za následek masivní rozšíření internetu do mnoha firem a domácností. S rozvojem internetu se ve velkém měřítku rozrostl počet webových prezentací a systémů, které dohromady tvoří základ pro jednu z nejvýznamnějších internetových služeb. Tím se stal internet zároveň prostorem, který se dostal na velice vysoký potenciál z hlediska realizace výdělečné činnosti a eventuelních zisků s ní spojených. S tím analogicky souvisí rozšíření možností pro využití propagace, reklamy a marketingu všeobecně. Předmětem této práce je využití optimalizací pro internetové vyhledávače (angl. Search Engine Optimization – zkráceně SEO), jež se staly nedílnou součástí internetového marketingu a tvorby webových stránek - webdesignu. Vzhledem k tomu, že vyhledávače jsou aktuálně nejpoužívanějším prostředkem pro získávání informací z internetu, je optimalizacím pro vyhledávače kladen patřičný důraz v rámci webové propagace. V několika posledních letech se na trhu objevila řada firem, v jejichž nabídce jsou služby zaměřené na SEO. Kvalita těchto služeb se ve výsledku odráží v první řadě na růstu návštěvnosti optimalizovaných webů a v druhé řadě na růstu míry konverze návštěvníků v zákazníky – tedy růstu reálných finančních příjmů. A vzhledem k tomu, že zisk je primárním cílem drtivé většiny provozovatelů webů, měly by být SEO služby pro propagaci stránek co nejefektivnější. V této práci je všeobecně popsána problematika, která s využitím SEO úzce souvisí. V úvodní kapitole je nastíněn základní význam SEO a hlavní cíle; jsou zde popsány jednotlivé vyhledávače a způsob jejich činnosti - vyhledávání, indexování a hodnocení stránek. Dále jsou v úvodu uvedeny základní předpoklady, které jsou z hlediska optimalizace významné a neměly by být opomíjeny. V dalších částech jsou jednotlivě rozepsány konkrétní metody, které by měly být v rámci kvalitní optimalizace zohledňovány. Ty jsou rozděleny na tři části – on-page metody (realizované přímo při tvorbě stránek), off-page metody (uplatňované vně optimalizovaného webu) a nepovolené metody, jež jsou předmětem zneužívání SEO.
-7-
2
Optimalizace pro vyhledávače – význam a předpoklady
2.1
SEM – Search Engine Marketing Search engine marketing (SEM) je jedním z moderních strategických
prostředků marketingu. Jeho cílem je přitahovat zákazníky na webové stránky za pomoci internetových vyhledávačů, především za účelem prodeje nabízených služeb a produktů. SEM patří v současnosti mezi nejefektivnější marketingové metody v oblasti internetu a jeho význam stále stoupá. Růst významu je opodstatněn ohromným rozvojem internetu v poslední dekádě, způsobeným zejména vysokým nárůstem počtu uživatelů. Zároveň se masivně rozvinuly možnosti využití internetu v oblastech podnikání, obchodování a propagace. Změnil se i přístup uživatelů, kteří se trendu přizpůsobili a vyhledávají služby čím dál frekventovaněji prostřednictvím internetu na úkor dřívějšího hledání „fyzického“. Internetové vyhledávače se tak staly nejpopulárnějším prostředkem pro hledání a získávání informací. Jejich síla tkví zejména v univerzálnosti vyhledávání – nejsou odborně specializované ani
nijak strukturované a jsou schopny rychle poskytnout
výsledky z prakticky libovolné oblasti veřejně zpřístupněných elektronických zdrojů. Nárůst popularity vyhledávačů se přímo úměrně odrazil na marketingovém přístupu těch subjektů, které informace k vyhledávání poskytují, tedy provozovatelů webů. ve většině případů je jejich primární snahou dosáhnout vysoké a pravidelné návštěvnosti na webových stránkách a získat tak co nejvyšší potenciál pro prodej služeb, produktů a informací. Právě tento cíl odpovídá hlavní myšlence search engine marketingu. Existuje mnoho konkrétních postupů a metod, jak požadovaného stavu docílit.
2.1.1
Vztah mezi SEM a SEO Search engine marketing lze obecně rozdělit na dvě základní části –
sponzorovaný a nesponzorovaný. Rozdělení je v praxi takové, že s vyhledavači buď spolupracujeme formou umisťování placených odkazů anebo se snažíme bezplatně přizpůsobit obsah stránek tak, aby vyhledávač automaticky při řazení výsledků umisťoval vyhledávanou stránku na co nejlepší pozici. Neplacená část se nazývá Search Engine Optimization (SEO) a zahrnuje všechny metody a praktiky, které vedou k uzpůsobení -8-
stránek tak, aby byly upřednostňovány ve výsledcích vyhledávání bez nutnosti použití finančních prostředků. SEO se však nezaobývá jen konkrétními optimalizačními technikami, věnuje se zejména optimalizaci obsahu stránek, protože právě obsah je ve skutečnosti tím nejdůležitějším, co návštěvníky na stránky přiláká. [12] Způsobem jak zlepšit svou pozici ve vyhledávačích se weboví vývojáři zabývali již od vzniku prvního vyhledávače, respektive od vzniku vyhledávače, který začal řadit výsledky vyhledávání podle jiných kritérií, než podle abecedy nebo datumu. V České republice však byla tato oblast marketingu v minulosti dosti opomíjena. Částečně to bylo způsobeno tím, že vyhledávače se u nás začaly více rozšiřovat daleko později než v zahraničí. Používání vyhledávačů u nás v posledních letech neustále roste, avšak stále existuje ještě řada lidí, kteří při vyhledávání procházejí častěji katalogy a neznají možnosti internetových vyhledávačů. [14]
2.2
Internetové vyhledávače Internetový vyhledávač je speciální software, který umožňuje na základě
uživatelem zadaného dotazu vyhledávat webové stránky s takovým obsahem, který co možná nejvíce odpovídá právě zadanému dotazu (je vůči dotazu tzv. relevantní). V uživatelském rozhraní tvoří jeho základ jednoduché textové pole pro zadání výrazu k hledání, na nějž vyhledávač po zpracování reaguje zobrazením tzv. SERP (Search Engine Results Page) – stránky se seznamem nalezených relevantních výsledků. Výsledky jsou na SERP seřazené podle určitých kritérií a faktorů, na jejichž základě je postaven algoritmus vyhledávání. Každý vyhledávač má tyto algoritmy rozdílné a jejich zdrojové kódy nezveřejňuje, nicméně i tak lze z výsledků vyhledávání odhalit základní principy, na kterých jsou algoritmy postaveny. Vyhledávač principielně pracuje tak, že automaticky prohledává obsah webu, stáhne jej, zaindexuje a uloží do své databáze. Mezi prohledávaný obsah patří webové stránky, textové dokumenty, PDF dokumenty a jiné soubory, které jsou pro vyhledavač z hlediska jejich obsahu indexovatelné. Vzhledem k tomu, že při hledání výrazů prochází vyhledávač celý dokument, jedná se o tzv. fulltextové vyhledávání. Při odeslání dotazu pak zadaný text vyhledá ve své databázi a provede nad ním výběrový dotaz, jehož výsledky zobrazí uživateli. Indexování obsahu využívá vyhledávací software zejména k rychlé orientaci v databázi, tudíž výsledky vyhledávání má uživatel téměř okamžitě k dispozici.
-9-
Pokud některá stránka není vyhledávačem z jakéhokoliv důvodu stažena nebo zaindexována, je nemožné, aby se zobrazila na stránce s výsledky vyhledávání (SERP). „Každý fulltextový vyhledávač se skládá ze dvou částí. První část je robot (také se nazývá crawler, spider, bot nebo pavouk) a druhá část je webové rozhraní. Robot má na starosti procházení webu, stahování souborů a jejich indexaci. Robota by šlo dále dělit ještě na getter, který stahuje soubory a na indexer, který má za úkol soubory zpracovávat a ukládat do databáze. Robot se po webu pohybuje úplně samostatně, nelze mu nařídit jak často má na stránku chodit (vyhledávači lze samozřejmě zaplatit za pravidelnou indexaci), ale pouze to, které stránky nesmí indexovat. Pamatuje si, kde byl a v jeho algoritmu je naprogramováno, kdy se na danou stránku má opět vrátit.“ [4]
2.2.1
Fulltextové vyhledávače vs. katalogy Vyhledávače se dělí na dva základní druhy, a to katalogové a fulltextové. První
skupina vyhledávačů funguje na principu ruční (ve výjimečných případech automatické) registrace do webových katalogů, oproti tomu vyhledávače fulltextové fungují na základě automatického prohledávání obsahu internetu za pomocí softwarových robotů. Základním předpokladem k tomu, aby se vyhledávače o optimalizovaném webu dozvěděly, je předložit jej nějakým způsobem vyhledávacím robotům k indexaci. Vzhledem k tomu, že vyhledávače prohledávají obsah internetu prostřednictvím existujících odkazů směrovaných pouze z indexovaných webů, je zapotřebí nejprve takový odkaz vytvořit. K tomu slouží právě internetové katalogy, do kterých lze web manuálně registrovat a tím tak vytvořit zpětný odkaz, přes který se teprve vyhledávací robot na potřebný cíl dostane. Na první pohled se zdá, že platí, čím více katalogových registrací vytvoříme, tím více získáme zpětných odkazů a lepší pozice ve vyhledávačích. Avšak není tomu úplně tak. Je zapotřebí brát zejména ohled na fakt, že největší váhu mají odkazy především z webů s podobnou tématikou a nikoli ze všeobecných katalogů bez tematického zaměření. Nicméně odkazové katalogy jsou i tak snadnou, oblíbenou a efektivní cestou k předložení stránek vyhledávacím robotům. Optimalizace pro katalogové vyhledávače je jednoduchá. V podstatě záleží pouze na třech faktorech – titulku, popisu webu a klíčových slovech. O to důležitější je jejich řádná příprava, vyhledávač totiž při hledání prochází pouze tyto tři údaje. Důležité
- 10 -
je, aby popisek obsahoval dostatečný počet klíčových slov, nejlépe v prvním pádu a osobě, ale aby byl zároveň koncipovaný tak, aby zaujal případné návštěvníky. [20] Katalogy nejsou tak frekventovaně využívané, podle poslední dostupné statistiky z května roku 2005 používalo v té době katalogy k vyhledávání již jen 8 % uživatelů a tendenční vývoj byl klesající. Doby, kdy byly katalogy hlavními zdroji návštěvností, jsou již dávno pryč. Přispělo tomu hlavně přepnutí vyhledávání na fulltext.[14] Fakt, že nejvíce lidí přichází na weby z vyhledávačů však neznamená, že jsou katalogy bezvýznamné. Naopak při hledání určitých informací je pro uživatele mnohem jednodušší a rychlejší vyhledat požadovanou informaci za pomoci prolistování internetových katalogů. Nespornou výhodou katalogů je právě jejich hierarchické rozdělení a kategorizace, ve které se snáze orientuje oproti stránce SERP, na které jsou výsledky zobrazeny neroztříděné. Velký význam mají stále katalogy zejména v vyhledávání na základě uživatelem zadané lokality (např. pokud uživatel hledá službu v konkrétním městě), vyhledávače však tento deficit pozvolna a jistě dorovnávají. Nejvýznamnějšími internetovými katalogy webových stránek jsou v České republice Seznam.cz (zahrnující zejména Seznam Katalog, Zbozi.cz a Firmy.cz), Centrum.cz a Atlas.cz; ve světovém měřítku je největším katalogem Yahoo! (Yahoo.com). Dále je třeba zmínit projekt ODP – Open Directory Project, který je upravován za pomoci dobrovolných editorů z celého světa, kteří jsou pověřeni nezávislým a prověřeným přidáváním registrací webových stránek. Právě v nestrannosti registrujících editorů tkví největší přednost tohoto projektu, díky tomu jsou i registrované stránky ve výsledcích vyhledávačů lépe vyhodnocovány. Google dokonce považuje ODP za tak významnou autoritu, že pokud nenalezne dostatečné množství informací přímo z popisku na daném webu, čerpá informace z databáze ODP. Podmínkou je však samozřejmě to, že web musí být v katalogu ODP zaregistrován. [12]
2.2.2
Přehled nejvýznamnějších fulltextových vyhledávačů pro české návštěvníky V této části práce je uveden přehled nejvýznamnějších fulltextových
vyhledávačů z pohledu návštěvníka z České republiky. Patři mezi ně vyhledávače Seznam.cz (www.seznam.cz), Google (www.google.com, www.google.cz), Centrum.cz (www.centrum.cz), Atlas.cz (www.atlas.cz) a Jyxo.cz [fon. džikso] (www.jyxo.cz).
- 11 -
2.2.2.1 Seznam.cz Seznam.cz je v současnosti na tuzemském poli nejpoužívanějším vyhledávačem a zároveň i nejnavštěvovanějším internetovým portálem. Návštěvnost portálu činí více něž 2 miliony uživatelů denně. [26] Kromě fulltextového vyhledávače provozuje i řadu vysoce navštěvovaných serverů - katalogové systémy Firmy.cz a Zboží.cz, zpravodajské servery Novinky.cz a Sport.cz, vyhledávač Mapy.cz, komunitní server Lidé.cz a v neposlední řadě velmi populární webmailový systém E-mail.cz (zahrnující domény @seznam.cz a @email.cz). Seznam.cz se stal v obecném povědomí synonymem pro český internet. „Spolu s dalšími čtyřmi společnostmi ve světě - Baidu (Čína), Naver (Jižní Korea), Yahoo Japan (Japonsko) a Yandex (Rusko) - představuje Seznam.cz hrstku těch, které ve světě vzdorují globálnímu hráči Google na poli on-line vyhledávání.“ [11]
2.2.2.2 Google (.com, .cz) Celosvětově největší a nejpoužívanější je vyhledávač americké společnosti Google, Inc., který kromě propracovaného fulltextu nabízí i specializované vyhledávací moduly pro kategorie, jako jsou obrázky, videa, mapy či zpravodajství. Nabízí mimo jiné i užitečné webové služby a software, např. Google Adsense (moduly pro textové reklamy), Google Chrome (webový prohlížeč), Google Analytics (přístupové statistiky), Google Android (operační systém pro mobilní zařízení), Google Earth (satelitní mapy), Gmail (webmail) a další. Právě díky řadě rozšíření, spolehlivosti a obecné univerzálnosti se vyhledávač Google těší obrovské popularitě mezi uživateli. Vyhledávač podporuje velké množství jazykových rozhraní, včetně češtiny s podporou skloňování.
2.2.2.3 Centrum.cz, Atlas.cz Centrum.cz je fulltextový a katalogový vyhledávač české společnosti Centrum Holdings (do roku 2008 NetCentrum). V současnosti tvoří na českém trhu dvojku mezi vyhledávači, avšak s velkým odstupem za vyhledávačem Seznam.cz. Internetový portál Centrum.cz je mezi uživateli oblíben zejména díky provozování řady redakčních serverů, mimo jiné i serveru Aktuálně.cz, který patří k největším zpravodajským serverům
- 12 -
v tuzemsku. Kromě redakčních serverů se stal oblíbeným také díky populárnímu webmailovému serveru. [16] K fulltextovému vyhledávání používá Centrum.cz systém Morfeo, který vychází z původní open-source technologie Sherlock Holmes search engine. [15] Společnost Centrum Holdings v roce 2008 převzala i provoz vyhledávače Atlas.cz, který tvoří v současnosti trojku mezi českými vyhledávači. Atlas.cz byl historicky prvním internetovým portálem, který v tuzemsku nabídl vlastní fulltextový vyhledávač. [32]
2.2.2.4 Jyxo.cz Jedná se o další původně český vyhledávač, provozovaný v současnosti společností CET21 (provozovatel TV Nova). Společnost kromě vyhledávače Jyxo provozuje další významné projekty, jako např. zpravodajský server TN.cz nebo blogovací systém Blog.cz. Vyhledávač disponuje velice propracovanou českou lokalizací, podporující skloňování a časování včetně korekcí pravopisných chyb a překlepů. [33] „Jyxo je technologie pro zpracování rozsáhlého množství dat - sběr, analýzu, vyhledávání. Spolu s napojením na internet je používána jako výkonný fulltextový vyhledavač. Přidáním dalších modulů je možné ji využít i pro prohledávání databází či čtení jiných formátů.“ [8]
2.2.3
Podíl fulltextových vyhledávačů Ze statistik internetového portálu Navrcholu.cz, který disponuje monitorovacím
systémem pro návštěvnost českých webů, vyplývá, že dvě třetiny českých uživatelů používají vyhledávač Seznam.cz (včetně vyhledávání na dceřiných serverech Firmy.cz a Zboží.cz); necelá jedna třetina pak vyhledávač Google a cca 3 procenta vyhledávání tvoří uživatelé vyhledávačů Centrum.cz a Atlas.cz. Vyhledávač Jyxo tvoří již velmi zanedbatelnou část podílu – necelé 1 procento uživatelů. Z těchto výsledků vyplývá, že optimalizace pro vyhledávače Seznam.cz a Google by neměla být v žádném případě zanedbávána. [21] „Pro SEO má však podíl na trhu vyhledávačů pouze informativní charakter. Srovnání přístupů z vyhledávačů by bylo nutné porovnávat se servery, které mají stejné
- 13 -
zaměření. To znamená porovnávat internetový obchod se souhrnnou sekcí Internetové obchody, nebo ještě lépe s podobně zaměřeným internetovým obchodem. Technicky zaměřený server bude mít pravděpodobně více návštěvníků z Googlu, naopak u magazínu pro ženy by se dal očekávat větší podíl Seznamu atd.“ [5] Na obrázku č. 1 lze sledovat statistiky přístupů z jednotlivých vyhledávačů na servery s podobným zaměřením. Pokud jednotlivé skupiny analyzujeme, zjistíme, že závislost použitého vyhledávače odpovídá předpokládanému zastoupení pohlaví, věku a obecné technické vyspělosti adekvátní zájmové skupiny. Evidentní je například porovnání kategorie „Hardware“ a kategorie „Zdraví“, které tvoří dva opačné póly v rámci spektra českých uživatelů.
Obr. č. 1: Statistiky přístupů [29]
- 14 -
2.3
Rank – známkování stránek Vyhledávače řadí výsledky vyhledávání podle různých faktorů. Jedním
z významných faktorů, který vyhledávače při řazení výsledků na SERP stránkách zohledňují, je hodnocení stránek – rank. Zjednodušeně lze tvrdit, že rank stránky odpovídá kvalitě jejího obsahu – z toho vyplývá, že čím vyšší hodnocení stránka má, tím lepší pozici na SERP zaujímá. Rank je vypočítáván jednotlivě pro každou indexovanou webovou stránku, a to na základě algoritmů, které závisí na použitém vyhledávači. Jako první přišel s hodnocením stránek vyhledávač Google, který vytvořil algoritmus, který zohledňoval počet stránek, které na vyhledanou stránku odkazovaly. Hlavní logikou myšlenky byl předpoklad, že množství odkazů z cizích zdrojů je přímo úměrné kvalitě obsahu stránky. Takové stránky pak byly hodnoceny vyšším rankem a byly upřednostňovány ve výsledcích na SERP. Jednotlivé vyhledávače mají své vlastní rankové systémy, jejichž algoritmy však z marketingových důvodů zachovávají v tajnosti. Není však složité výpočet ranku na základě pozic v SERP odhadnout, jeho základ je u všech vyhledávačů víceméně stejný a liší se jen v drobnostech. Každý vyhledávač sice hodnotí stránky mírně odlišně od konkurentů, i tak je však odlišnost značně patrná na výsledcích vyhledávání. Pokud například zadáme konkrétní hledaný výraz do vyhledávače Seznam, jeho stránky SERP se většinou liší od SERP vyhledávačů Google, Jyxo atd. Mezi nejznámější hodnotící systémy patří PageRank (vyhledávač Google), v České republice pak dále S-Rank (Seznam), Q (Centrum) a JyxoRank (Jyxo).
2.3.1
PageRank (PR) „PageRank je algoritmus, který ukazuje v jedenáctistupňové škále od 0 do 10
hodnověrnost WWW stránky. Velmi zjednodušeně řečeno, PageRank představuje hodnotu důvěryhodnosti, tj. kolik stránek současně hodnocených pomocí téhož vzorce na danou stránku odkazuje. Jinými slovy, každá stránka předává část své hodnověrnosti stránkám, na které odkazuje. Současně míra předávání této hodnověrnosti klesá s množstvím odkazů na stránce uvedených. PageRank je důležitý faktor, kterým se určuje umístění stránek na stránce výsledků vyhledávání (SERP). Není však nejdůležitější. Relevanci stránky určuje u Googlu přes 200 různých faktorů a PageRank je jen jedním z nich.“ [1]
- 15 -
Původní algoritmus PageRanku jak byl zveřejněn jeho tvůrci: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) PR(A) je PageRank stránky A, PR(Ti) je PageRank stránek Ti, které odkazují na A, C(Ti) je počet odchozích odkazů na stránce Ti a d je faktor útlumu (damping factor), který je mezi 0 a 1. V současnosti není aktuální algoritmus PageRanku znám, takže o jeho nastavení či tvaru se vedou jen dohady. Měl by ale vycházet z principů této rovnice. [14]
2.3.2
S-rank S-rank je alternativou Pageranku, kterou používá český vyhledávač Seznam.cz.
Narozdíl od výše uvedeného systému používá škálu hodnocení 0 – 100. Hodnocení kvality se počítá opět vzestupně – tedy čím vyšší číslo S-ranku, tím vyšší kvalita obsahu. Podobně jako Pagerank je vypočítáván na základě počtu odkazů na stránku směrujících a počtu odkazů, které stránka obsahuje. Čím více odkazů na kvalitní (vysoce hodnocené) weby, tím vyšší rank. A dále čím je vyšší hodnota S-ranku, tím frekventovaněji jsou stránky navštěvovány roboty. Hlavní rozdíl oproti Pageranku je ten, že S-rank hodnotí pouze ty stránky, které mají českou nebo slovenskou doménu.
2.3.3
Jyxorank Posledním systémem, o kterém bych se v souvislosti ranku stránek zmínil, je
Jyxorank. Jak již název napovídá, jedná se o hodnotící systém českého vyhledávače Jyxo.cz. Podobně jako Pagerank používá pro hodnocení jedenáctistupňovou škálu 0 – 10, přičemž vyšší hodnota odpovídá kvalitnější stránce. Můžeme se však někdy setkat i s osmibitovou škálou, která odpovídá hodnotám 0 – 255. Zajímavostí je, že v minulosti byly podle Jyxoranku řazeny výsledky vyhledávače Seznam.cz. V roce 2006 nasadil Seznam.cz svůj vlastní systém S-rank. Jyxorank dodnes využívají kromě vyhledávače Jyxo.cz ještě Atlas.cz a Volny.cz.
- 16 -
2.3.4
Jak zjistit rank stránky Nejrychlejší cestou, jak zjistit rank dané stránky, je návštěva webových stránek,
které tuto on-line službu (tzv.checker) nabízejí. V České republice jich existuje celá řada, jmenujme např. http://rank.isecure.cz/ nebo http://pagerank.jklir.net/. Oba uvedené checkery nabízejí zobrazení všech tří popsaných hodnotících systémů (Pagerank, S-rank, Jyxorank); druhý z nich pak nabízí i zobrazení dalších, avšak u nás méně využívaných systémů – např. Alexa-rank, Compete-rank, MozRank či Yahoo Backlinks. Vyhledávač Google nabízí mimo jiné katalogovou službu Google Directory, která v seznamu vyhledaných stránek automaticky zobrazuje jejich hodnocení. Dále je nutno zmínit i různé softwarové utility, které některé vyhledávače nabízejí. Nejznámější utilitou je Google Toolbar. Jedná se o nástrojovou lištu do webových prohlížečů, která zprostředkovává uživateli softwarové služby společnosti Google. Jednou z těchto služeb je i zobrazení Pageranku stránek. Obdobnou alternativou je nástroj Lištička českého vyhledávače Seznam.cz (zobrazující S-rank).
2.4
Předpoklady pro SEO Ačkoli kvalitní a hodnotný obsah je nejvýznamnějším stavebním prvkem
webové optimalizace, v současné době již sám o sobě nestačí k umístění na vysokých příčkách ve vyhledávačích. Web musí být budován také s plným ohledem na programové technologické postupy, kterými lze vysokého umístění dosáhnout. Nevhodně navržený web se stává podnětem pro nesprávné shromažďování dat a indexování ze strany vyhledávače; v nejhorším případě nemusí být obsah webu indexován vůbec. Právě z toho důvodu je třeba brát ohled jak na optimalizaci obsahovou, tak optimalizaci technologickou. „Hlavní úsilí optimalizace pro vyhledavače má základ v architektuře webu. Obsah spočívá na jejím vrcholu. Optimální architektura webu usnadňuje vyhledávači procházení webem a jeho porozumění. Proto je vytvoření webu s architekturou přizpůsobenou vyhledávačům hlavní faktor přispívající k dosažení a udržení dobré pozice ve výsledcích hledání. Architektura by také měla být vývojářem zvažována v průběhu existence webu, vedle dalších faktorů, jako třeba vzhledu a použitelnosti. Pokud by nová vlastnost znemožnila vyhledávači přístup k obsahu, překážela mu nebo jej mátla, přínos
- 17 -
dobrého obsahu se může závažně snížit. Například web, který nevhodně používá technologie Flash nebo AJAX, může většinu svého obsahu vyhledávači zneviditelnit.“ [3] „Vhodně navržená navigační struktura webu může zvýšit jeho souhrnný PageRank (součet PageRanku všech stránek) a zároveň PageRank přesunout z méně důležitých stránek na stránky důležitější. Obvykle bývá ideální hierarchická (stromová) navigační struktura posilující váhu stránek na vyšší úrovni hierarchie na úkor stránek na úrovních nižších. Stránky umístěné výše v navigační struktuře zpravidla obsahují obecnější klíčová slova s vyšší konkurencí ve vyhledavačích a potřebují tudíž ke svému zviditelnění vyšší PageRank. Stránky hluboko v navigační struktuře vysoký PageRank většinou nepotřebují, protože jsou jejich klíčové fráze velmi konkrétní a málo konkurenční.“ [9]
2.4.1
Technologické předpoklady
2.4.1.1 Použití skriptů ve zdrojovém kódu V rámci SEO optimalizace je zapotřebí brát v úvahu fakt, že vyhledávače procházejí a indexují jen programově generovaný obsah stránky – zdrojový kód HTML. To znamená, že pokud webová stránka obsahuje v původním zdrojovém kódu programové skripty (PHP, JavaScript, Ajax, Flash, XML, ...), vyhledávač vidí pouze výsledek jejich činnosti, tedy HTML. Z toho důvodu by se do takových skriptů neměl z hlediska SEO začleňovat negenerovaný obsah webu, vyhledávače do zdrojových kódů skriptu nevidí a tím pádem je neindexují. Takový problém nastává například při tvorbě webové navigace, kterou je v poslední době v oblibě vývojářů tvořit právě za pomoci neindexovatelných technologií; zejména se jedná o techniky JavaScript a Flash. Tyto technologie sice rozšiřují možnosti vývojářů pro zpracování webu, nicméně jsou vůči optimalizaci často nekompatibilní. Nicméně i tak existují metody, pomocí kterých mohou vývojáři obsah skrytý pod skripty vyhledávačům zobrazit či nahradit. Základní metodou je použití zástupného HTML pro texty skryté pod skripty. Například pokud je na webu vytvořená navigace s odkazy pouze ve skriptu Flash, měla by být kvůli vyhledávačům doplněna zároveň o navigaci v HTML, kterou již bezpečně rozpoznají. Pokud by doplňující navigace nebyla na stránce použita, vyhledávač by
- 18 -
indexoval pouze první stranu; ostatní by pro něj byly nedostupné a tím pádem neindexovatelné. [14] Jediným negativním dopadem této metody je nutnost vytvoření grafické kompozice pro sekundární navigaci, a to je často v obecném rozporu s odůvodněným použitím Flashových skriptů, které tvoří základní prvky designu stránek. Navíc ne ve všech případech lze Flash nebo JavaScript za pomocí HTML zastoupit; tvůrce webu by měl tedy použití takovýchto skriptových technologií zvážit. Druhou
metodou
pro
zpřístupnění
skriptů
vyhledávačům
je
použití
kompatibilních a tedy rozpoznatelných skriptů. Tato metoda je však značně diskutabilní, výsledky jsou totiž individuální v závislosti na použitém vyhledávači. Například Google již vyvinul technologie pro rozpoznávání obsahu ve skriptu Flashe, tím pádem při správném použití dosahuje kompatibility i vůči této technologii. Avšak oproti tomu tuzemský majoritní vyhledávač Seznam takovýto obsah stále indexovat neumí a tudíž by pro něj nedoplněná Flashová verze měla z hlediska optimalizace nulový význam. [34]
2.4.1.2 Technické parametry webserverů Při optimalizaci se často vyplatí zohledňovat výběr technických prostředků, na kterých je web provozován. V případě technických problémů, nestability webových serverů či příliš dlouhé odezvy se může stránka stát pro vyhledávače nedostupnou a tím pádem neindexovatelnou. Pokud se vyhledávacímu robotu nepodaří kvůli těmto problémům stránku stáhnout a zaindexovat, zohlední ji často snížením ranku. Pokud je stránka z jakýchkoli důvodů nedostupná opakovaně, může se stát, že ji vyhledávač natrvalo vyřadí ze své databáze a nadále ji neindexuje.
2.4.1.3 Validita HTML Podstatnou roli hraje také validita zdrojového kódu HTML. Při jejím nedodržení může dojít k případu, že se obsah stránky stane pro vyhledávač nedostupný, ačkoli ve webových prohlížečích se návštěvníkům zobrazuje zdánlivě bez problémů. V současnosti sice dokáží vyhledávače – podobně jako prohlížeče - rozpoznat i zdrojové kódy s chybami, nicméně se může stát, že webový obsah splyne se značkami HTML a vyhledávače je špatně zaindexují.
- 19 -
Validitu HTML kódu je možné ověřit za pomoci speciálních webových aplikací - tzv. validátorů. Nejznámější a nejpoužívanější validátor HTML se nachází na stránkách konsorcia W3C [31]
2.4.2
Obsahové předpoklady
2.4.2.1 Příprava obsahu webu Kvalitní obsah je tím nejdůležitějším faktorem pro optimalizaci. Pokud bychom neměli před optimalizací dostatečné množství obsahu, či bychom jej měli dostatek, avšak takový, který návštěvníkovi není schopen poskytnout užitečné informace, ztrácí optimalizace webu na významnosti. Velmi často se v poslední době masového rozvoje nových webů stává, že mnoho provozovatelů (zejména menších firemních prezentačních webů) si důležitost obsahu neuvědomuje a apeluje v první řadě na designové provedení na úkor obsahové kvality. Taková investice je pro jakoukoliv webovou prezentaci zcela neefektivní. To samé platí pro optimalizace – pokud není co optimalizovat (v tomto případě obsah), jedná se principielně o nesmyslný krok. Je však třeba se na věc podívat i z druhé strany. I velmi kvalitní a informačně přínosný obsah sám o sobě v žádném případě neznamená vítězství. Pokud není vhodně upraven do podoby, která je pro vyhledávač či návštěvníka webu srozumitelná, je z praktického hlediska k ničemu. Základními kroky pro prvotní práci s vytvořeným obsahem je jeho rozčlenění do vhodné obsahové struktury, dále typografická úprava, designové zpracování a v neposlední řadě také vytvoření mapy stránek (sitemap) a znepřístupnění či skrytí takového obsahu, který je pro návštěvníka irelevantní (např. zastararé soubory, testovací stránky, administrační rozhraní, zálohy atd.).
2.4.2.2 Návrh obsahové struktury Pro webovou prezentaci je z uživatelského hlediska žádoucí, aby byla nejen obsahově přínosná, ale také přehledná. Obsahová struktura webu by měla být vytvořena takovým způsobem, aby umožňovala uživateli snadný pohyb mezi jednotlivými webovými sekcemi a stále jej přehledně informovala o aktuální poloze. Snižuje se tím riziko, že se uživatel během procházení přestane na webu orientovat.
- 20 -
Koncepce struktury by měla odpovídat zejména typu webového obsahu a jeho rozsahu. Příkladem jsou elektronické obchody a další propracované webové systémy (redakční systémy, diskusní fóra apod.), které jsou založeny na hierarchické struktuře obsahu. Stránky jsou přehledně rozmístěny do jednotlivých větví, které tvoří pro uživatele hlavní orientační a navigační vodítko. Pokud by pro systémy v takovém rozsahu byla použita jednoúrovňová koncepce, ztrácel by web na přehlednosti a pravděpodobně i odrazoval návštěvníky v jeho dalším procházení. Oproti tomu pro jednoduché webové prezentace, jež jsou postaveny zpravidla jen na několika statických stránkách, by taková forma struktury byla přínosná. Pokud bychom chtěli takovou prezentaci členit dále do dalších úrovní, obdobně bychom ji z uživatelského pohledu zbytečně znepřehledňovali. Ještě před samotnou optimalizací je tedy nutné si uvědomit, jakým způsobem bude návštěvník web procházet a zvolit podle toho patřičnou úrovňovou strukturu. Jako příklad bych uvedl dva zcela protipólné případy – jednoduchý firemní prezentační web obsahující 10 statických stránek a oproti tomu elektronický obchod, který nabízí 300 různých výrobků v 15 samostatných kategoriích. V prvním případě zvolíme obsahovou strukturu jednoduše takovou, aby návštěvník ihned po vstupu na hlavní stránku měl možnost přejít na libovolnou z dalších 9 stránek webu. Obdobně tak učiníme i u stránek ostatních. Hlavním důvodem je snadná orientace na webu – z jakékoliv stránky je možné se dostat opět na jakoukoliv stránku. Pokud bychom však tuto strukturu použili ve druhém případě u elektronického obchodu, dostavil by se velice negativní efekt. V jediné navigační úrovni bychom měli pohromadě 300 odkazů na všechny produkty a tím by návštěvník ztrácel na webu orientaci. Taková struktura by byla zcela nevyhovující, proto se nabízí alternativa v podobě vytvoření víceúrovňové obsahové hierarchie. Nejprve vytvoříme odkazy na kategorie produktů a teprve v každé zvlášť dále odkazujeme na jednotlivé související produkty. Výše uvedený popis vytváření adekvátní struktury se zdá na první pohled velice primitivní, nicméně i přesto ji podstatný počet webů podceňuje. Jedná se zejména o původem malé prezentační weby, které časem přerostly do rozsáhlejších projektů, aniž by byla upravena základní členící struktura. Z toho plyne, že je před samotnou optimalizací pro vývojáře žádoucí si vhodně rozvrhnout obsah webu do takové koncepce, aby všechny související části držely pospolu, avšak zároveň aby svým rozsahem příliš nepřekračovaly mez únosnosti návštěvníka.
- 21 -
2.4.2.3 Duplicitní obsah Duplicitní obsah stránky je takový, který se shoduje či velmi výrazně podobá obsahu stránky jiné. Takový obsah tím pádem není originální a nepřináší návštěvníkovi žádné nové informace. To samozřejmě vyhledávače zohledňují používáním příslušných algoritmů, které příslušné stránky navzájem porovnávají a míru duplicity vyhodnocují. Duplicitní obsah může být způsoben dvěma hlavními důvody – buď nesprávným navržením architektury webu, která způsobuje opakování stejného obsahu na více různých URL (kapitola 3.3), anebo plagiátorstvím obsahu jiných webů. Oba důvody představují sice dva zcela odlišné problémy, avšak oba způsobují stejný negativní dopad na hodnocení webu. [13]
2.4.2.3.1 Duplicitní obsah v důsledku nesprávně navržené architektury webu S duplicitou v důsledku nesprávně navržené architektury webu se setkáváme zejména na elektronických obchodech, na kterých jsou často nabízeny různé varianty stejného produktu na více samostatných stránkách. Duplicita obsahu je v tomto případě nejčastěji způsobena použitím stejného popisku produktů, který se beze změny opakuje i na stránkách ostatních. Vyhledávače pak takovéto stránky automaticky vyhodnocují jako duplicitní a snižují tím rank webu. [13] Podobná architektura webu může být navržena i záměrně, například v případech, kdy vývojář umisťuje na web pomocné stránky upravené pro tisk či testovací stránky se shodným obsahem. V tomto případě je však žádoucí ručně zamezit indexování takovýchto stránek, aby je vyhledávače nepovažovaly za duplicitní (kapitola 2.4.2.4). Duplicitní obsah v rámci jednoho webu lze kontrolovat zadáním dotazu „site“ přímo ve vyhledávači. Zápis dotazu pak vypadá následovně: site: www.domena.xx Vyhledávač na základě dotazu prozkoumá web na dané doméně a na stránce výsledků SERP zobrazí veškeré stránky tohoto webu, které má vyhledávač v databázi zaindexované. V těchto výsledcích pak může vývojář zkontrolovat, zda nejsou indexované
- 22 -
i takové stránky, které záměrně obsahují duplicity. Pokud ano, je třeba zamezit jejich indexaci. [13]
2.4.2.3.2
Duplicitní obsah v důsledku plagiátorství
Vyhledávače se snaží v zásadě eliminovat duplicity, které jsou způsobené krádežemi obsahů jiných webů. Ve výsledcích vyhledávání pak takovéto duplicity nezobrazují (případně je zařadí do doplňující databáze). Problémem pro vyhledávač je zjistit skutečnost, která z nalezených duplicit je originální. Z toho důvodu by měli původní autoři sledovat nakládání se svým obsahem, pravidelně jej kontrolovat a vyhledávačům případně plagiáty nahlašovat. [13] Pro odhalení plagiátorství můžou autoři a vývojáři využít například nástroj na webu CopyScape (http://www.copyscape.com), který porovnává obsah zadané webové stránky s databází obsahů ostatních webů. Vyhledávače pak mají své individuální postupy pro oznámení případného plagiátu (např. pokyny vyhledávače Google lze nalézt na adrese http://www.google.com/dmca.html). [17]
2.4.2.4 Zamezení indexace irelevantního obsahu Jak bylo zmíněno výše, součástí obsahu webu často bývají různé doplňující stránky a dokumenty, které jsou z hlediska obsahu pro návštěvníka bezvýznamné – neposkytují mu žádné užitečné informace. Proto není vhodné na ně veřejně odkazovat a předkládat je tak návštěvníkům k dispozici. Takovými stránkami mohou být nejčastěji: administrační rozhraní webu testovací stránky a stránky pro interní potřeby stránky s neaktuálním obsahem stránky s placeným obsahem zastaralé dokumenty archivované soubory a zálohy webu pomocné soubory (např.přístupové údaje, soubory pro tisk, ...) další soubory a dokumenty, které nejsou relevantní k obsahu webu
- 23 -
Pokud na takovéto cíle nevede žádný odkaz, prakticky jsou pro návštěvníka webu nedosažitelné - tedy pokud by on sám záměrně nevyvíjel snahu o jejich nalezení. To samé platí pro vyhledávače. Vzhledem k tomu, že procházejí web přes odkazy, neměly by na takovéto cíle narazit. Jenže praxe je jiná. V současnosti se na internetu pohybuje mimo jiné spektrum uživatelů a robotů, kteří dokáží prohledávat weby jiným způsobem než vyhledávače přes odkazy, tudíž jsou schopni skryté cíle bez větších problémů objevit. Pak již jen záleží na úrovni a kvalitě zabezpečení, které chrání data před potenciálním zneužitím. Pokud by některá ze skrytých stránek (či dokumentů) byla následně za pomocí odkazu kdekoli na internetu „škůdcem“ zveřejněna, mělo by to (vzhledem k tomu, že jde o odkaz) za následek automatické indexování vyhledávacími roboty – a tudíž i zpřístupnění daného dokumentu pro uživatele internetových vyhledávačů. Příkladem je postřeh z praxe – pokud zadáte do vyhledávače hledaný výraz „administrační rozhraní“, nalezne vám mimo jiné velké množství odkazů přímo na vstupní stránky administračních systémů, které byly jejich vývojáři nedostatečně skryty. Z toho důvodu existují různé možnosti, jak takové stránky vyhledávačům znepřístupnit. Jednoduše stačí vyhledávacímu robotu sdělit, že nemá danou stránku indexovat. Popíši zde tři základní způsoby, které se k tomuto účelu používají. Jedná se o použití souboru „robots.txt“, dále o omezení indexace pomocí HTML elementu <META> a omezení pomocí atributu „rel“ elementu
s vlastností „nofollow“.
2.4.2.4.1
Soubor robots.txt
Soubor robots.txt slouží k řízení přístupové politiky v rámci webového systému a je primárně určen pro indexovací roboty vyhledávačů. Soubor se umisťuje do kořenového adresáře webu; pokud kořenový adresář takový soubor neobsahuje, není přístupová politika řízena a roboti pracují při procházení webu automaticky. Umístěním souboru však roboty informujeme o tom, že mají web procházet na základě předem specifikovaných pravidel. Jak přípona napovídá, jedná se o prostý textový dokument. Soubor zpravidla obsahuje jeden nebo více záznamů v definované syntaxi. V jednotlivých záznamech může správce přesně specifikovat, kteří vyhledávací roboti mají indexování webu povoleno,
- 24 -
případně má správce možnost omezit indexování konkrétních stránek, ať již z jakéhokoli důvodu. Zápis záznamu vypadá následovně: Na prvním řádku definujeme, pro kterého robota je záznam určen (User-Agent), dále pak po řádcích specifikujeme přístupovou politiku povolení (Allow) a zákazů (Disallow) na konkrétní adresáře a soubory. Například zápis User-agent: Googlebot Disallow: /admin/ informuje robota vyhledávače Google o tom, že nesmí indexovat adresář „admin“. Pro ostatní vyhledávací roboty toto omezení neplatí. Za proměnou User-agent můžeme dosadit následující roboty: * (všechny vyhledávače), Googlebot (vyhledávač Google), Seznambot (Seznam fulltext), Holmes (Morfeo), Jyxobot (Jyxo), ze zahraničních pak Slurp (Yahoo) či msnbot (MSN) aj. Za proměnnou Allow/Disallow můžeme dosadit názvy adresářů, souborů či řetězce regulárních výrazů. V souboru robots.txt dále může správce informovat vyhledávacího robota o tom, kde se na webu nachází soubor sitemap.xml (kapitola 2.4.2.4.3) obsahující mapu stránek, a to pomocí deklarace „Sitemap“, např.: Sitemap: http://www.priklad.cz/sitemap.xml
2.4.2.4.2
Omezení indexace pomocí HTML
Alternativou použití souboru robots.txt je nastavení přístupových práv za pomoci použití HTML elementu <META> anebo atributu „rel“ elementu s vlastností „nofollow“. Element <META> se umisťuje do hlavičky každé HTML stránky a používá se pro zapsání pomocných dat, která se stránkou souvisejí, případně mohou specifikovat její chování v určitých případech. Element se nevztahuje k obsahu stránky. Za použití atributu „name“ a atributu „content“ slouží <META> například k zapsání popisku stránky (hodnota
- 25 -
„description“), klíčových slov („keywords“), a také způsobu indexování vyhledávacími roboty (hodnota „robots“). Právě na poslední hodnotu se v této části zaměřím. Zápis <meta name=“robots“ content=“index, follow“> robotu sděluje, že na stránce má povoleno indexování i sledování odkazů. Do atributu content lze dosadit následující hodnoty: [22] index (povoleno indexování stránky) noindex (zakázání indexování stránky) follow (povolení sledování odkazů) nofollow (zakázání sledování odkazů) all (povoleno indexování i sledování) none (zakázáno indexování i sledování) Na základě zápisu elementu <META> s příslušnými atributy a definovanými hodnotami se tak vyhledávací robot přizpůsobí nastavené přístupové politice. Element je nutno definovat pro každou jednotlivou stránku zvlášť; k definování globálního přístupu pro web se používá soubor robots.txt. Poslední způsob omezení práce robotů, který bych chtěl v této souvislosti zmínit, je možnost omezení sledování konkrétních odkazů. Tento způsob se nabízí zejména tehdy, pokud správce potřebuje zamezit, aby roboti sledovali konkrétní odkazy na stránce, použije pro ně atribut „rel“ s hodnotou „nofollow“. Zápis vypadá následovně: ...
Nevýhodou obou výše uvedených způsobů je to, že robot při přístupu nejprve načítá celou stránku a poté teprve vyhodnocuje definované nastavení. Není tím tedy prakticky vůbec ušetřena zátěž serveru. Kromě toho se robot vždy na danou stránku při následujícím přístupu vrací a ověřuje, zda se nezměnilo nastavení. Proto by si měl správce přístupové politiky uvědomit, kdy je výhodnější použít omezení přístupu ve zdrojovém kódu a kdy je výhodnější použít soubor robots.txt.
- 26 -
2.4.2.4.3
Soubor sitemap.xml - mapa stránek
Posledním krokem přípravy před samotnou on-page optimalizací je vytvoření tzv. sitemap, neboli mapy stránek. Pro mapu stránek je zapotřebí vytvořit soubor „sitemap.xml“.
Tento
soubor
podobně
jako
robots.txt
slouží
ke
komunikaci
s vyhledávacími roboty a jeho hlavním úkolem je poskytnout robotům informace o stránkách, které je zapotřebí indexovat na základě předem specifikovaného nastavení. Zejména se využívá pro zaznamenání stránek, jejichž obsah se často mění a jejichž obsah by měl být roboty častěji indexován. Další využití nachází pro případ nasměrování vyhledávacího robota na konkrétní stránku webu, na níž vede jen velmi málo odkazů (či žádné) a pro případ, že je z jakéhokoliv důvodu zapotřebí indexování zaznamenaných stránek upřednostnit před jinými. Příklad zápisu v souboru sitemap.xml:
http://VaseDomena/ 2008-05-14T14:20:29+01:00 monthly <priority>0.5 kde:
: Zapouzdřuje soubor a odkazuje na aktuální standard protokolu. : Nadřazená značka pro každou zadanou adresu URL. : Adresa URL stránky musí být v absolutním tvaru a končit zpětným lomítkem. : Datum poslední změny souboru ve formátu W3C pro datum a čas. : Předpokládaná frekvence změn stránky. Tato hodnota je základní informací pro vyhledávače a nemusí přesně odpovídat tomu, jak často budou stránku procházet. <priority>: Priorita dané adresy URL ve vztahu k ostatním URL adresám na vašem webu. Rozmezí platných hodnot je 0.0 až 1.0. [10]
- 27 -
Při tvorbě mapy můžeme kromě manuálního zápisu využít i různých on-line nástrojů, např. na webu http://www.xml-sitemaps.com, na kterém je k dispozici univerzální generátor mapy stránek, který mj. umožňuje nastavit prioritu stránek a frekvenci přístupu robotů. Tato on-line služba je poskytována bezplatně.
- 28 -
3
On-page optimalizace V této části práce se budu podrobněji věnovat jednotlivým metodám, které se
používají při tzv. on-page optimalizaci, tedy optimalizaci realizovanou přímo na daném webu a ve zdrojovém kódu stránek. Metod existuje celá řada, zde popíši všechny základní, které by v zásadě neměly být zanedbávány. On-page faktory se dají rozdělit na dvě skupiny – viditelné a neviditelné. Pro optimalizaci jsou mnohem více významné faktory viditelné; oproti tomu některé neviditelné faktory v současné době vyhodnocují vyhledávače často jako prostředek „neférové“ optimalizace, proto se jej snaží přehlížet a v extrémních případech i penalizovat. To je dáno tím, že takové faktory jsou neviditelné pro uživatele, avšak pro vyhledávač ano, a proto se nabízí možnost optimalizačního zneužití (např. umístění SPAMu, skrytého či nelegálního obsahu apod.). Algoritmy vyhledávačů tak na viditelný obsah spoléhají mnohem více, jelikož právě ten je pro uživatele významný. [13] Neférovým metodám (tzv. Black Hat SEO) se budu věnovat v poslední části práce. Níže popíši takové viditelné i neviditelné on-page faktory, které vhodným použitím zvyšují hodnotu stránek a tím i kvality webu.
3.1
Keywords - klíčová slova Je vhodné si před optimalizací promyslet, jaká hledaná slova by návštěvník
musel zadat do vyhledávačů, aby mohl stránky vyhledat. Tato slova by měla být při optimalizaci často zohledňována. Pokud se takové slovo na stránce nikde nevyskytuje, nemůže ji vyhledávač najít. Při výběru je nutno volit slova, která jsou pro tématiku stránky či webu výstižná – obdobně jako u titulku stránky (kapitola 3.4). Při výběru slov by mělo být zohledňováno i skloňování, a to i přesto, že vyhledávače tuto funkci většinou podporují. [14] Důležitým faktorem při vytváření klíčových slov je jejich konkurence, tzn. počet konkurenčních webů, které jsou na daná klíčová slova optimalizovány. Čím více takových konkurenčních webů existuje, tím hůře lze na dané slovo optimalizovat. V této souvislosti je nutno si uvědomit objektivní kvalitu obsahu webu a zda je vůbec pravděpodobné, že má web potenciál pro umístění na vysokých příčkách vyhledávačů i navzdory vysoké konkurenci. Obecně platí, že pokud obsah webu není oproti konkurenci - 29 -
na dostatečné kvalitativní úrovni, nabízejí se dvě možnosti – buď zvýšit jeho kvalitu (např. profesionálním copywritingem) nebo jej optimalizovat na méně frekventovaná (méně konkurenční) klíčová slova. „Vyhledavače neurčují důležitost klíčového slova na stránce podle jeho četnosti, ale podle hustoty výskytu klíčového slova. Hustota slova na stránce tedy vyjadřuje podíl jeho četnosti (počtu výskytů) ku celkovému počtu slov celého textu. Pro klíčové slovo se za optimální většinou považuje hustota mezi 2 až 7 %. Pokud hustota převýší určitou hodnotu (pro každý vyhledávač jinou) může to mít záporný efekt. Hovoří se o takzvané přeoptimalizaci neboli OOP (Over Optimized Penalty).“ [7] Dříve se pro manuální zápis klíčových slov do HTML používal element „keywords“ elementu <META>, nicméně vyhledávače jej v dnešní době díky pokroku téměř nezohledňují. Moderní vyhledávací software je již koncipovaný tak, aby dokázal sám porozumět obsahu webu (tím pádem i tomu, na jaká klíčová slova je web optimalizován) a proto prakticky žádný předložený výčet slov nepotřebuje. Manuální výpis klíčových slov má v dnešní době opodstatnění pouze u katalogů, které nejsou na tak vysoce propracované programové úrovni jako fulltextové vyhledávače.
3.2
Doménové jméno Volba internetové domény je dalším velice klíčovým faktorem pro optimalizaci.
Právě její jméno by mělo být pro návštěvníka snadno zapamatovatelné, a to zejména z toho důvodu, aby již nemusel web hledat za pomoci vyhledávačů, nýbrž zadáním adresy webu přímo do prohlížeče. Jméno domény by se mělo v ideálním případě pro vyhledávače shodovat s obsahovým zaměřením webu. Nicméně v praxi se k této záležitosti přistupuje často také z marketingové stránky – záleží na individuálních případech, kdy se u doménových jmen setkáváme s názvy firem a kdy naopak s tématickým zaměřením webu. Většinou je to podmíněno velikostí a tržní sílou subjektu, které rozhodují o tom, kdy je výhodnější lákat zákazníky na jméno firmy a kdy na obsah jejích stránek. Zejména u dlouhodobějších projektů bývá často výhodnější využít jméno domény koncipované z hlediska marketingu oproti návrhu, který se zaměřuje hlavně na využití klíčových slov ve jméně. Vyhledávače velmi zohledňují váhu doménového jména především ve spojitosti s použitím klíčových slov, která jsou v něm obsažena. Vzhledem k tomu, že text jména
- 30 -
domény je zároveň obsažen ve všech textech adres odkazů v rámci webu, a zároveň bývá často použit jako tzv. anchor text na jiných webech (kapitola 3.11), pozitivně tak ovlivňuje výsledky vyhledávání i z hlediska off-page optimalizace. [30] Pokud má vývojář možnost zasáhnout do výběru doménového jména, měl by volit takové, které bude dobře zapamatovatelné, výstižné (ať již z hlediska marketingu nebo klíčových slov) a v neposlední řadě nezaměnitelné s konkurenčními weby. Takové vlastnosti by mělo mít jméno domény jak po stránce syntaktické (moje-domena.cz versus mojedomena.cz), tak po stránce fonetické (webforyou.com versus web4u.com). Nabízí se i možnost registrace více doménových jmen pro jeden web a jejich následné přesměrování na jednu z nich. Takovým způsobem lze jednoduše vyřešit problém zaměnitelnosti, nicméně vzhledem ke zvýšení paušálních nákladů za registrace je zapotřebí mít k dispozici dostatečný rozpočet. Dále je potřeba dávat pozor na problém duplicitního obsahu. Pro vyhledávače je mimo jiné významné i stáří domény, které tvoří v jistém ohledu měřítko důvěryhodnosti webu. Stáří domény je počítáno od data první indexace vyhledávačem; čím starší, tím lépe hodnocená – samozřejmě s ohledem na tématickou neměnnost webového obsahu. [12]
3.3
URL Podobnou a ještě významnější roli než doménové jméno představuje z hlediska
optimalizace adresa URL. URL (Uniform Resouce Locator) je jednoznačný identifikátor zdroje souboru (webové stránky nebo dokumentu) v rámci internetu. Vzhledem ke své jednoznačnosti je zdroj souboru nezaměnitelný, tím pádem po zadání URL http://www.domena.cz/adresar/soubor.html nemůže být návštěvník nasměrován na žádnou jinou adresu či soubor, než je ten, který se na daném místě (URL) nachází. URL se návštěvníkovi neustále zobrazuje v panelu adresy prohlížeče a z toho důvodu se stává jedním z nejvýznamnějších viditelných faktorů pro on-page optimalizace. Adresa URL sestává ze tří hlavních částí, a to jsou: protokol komunikace (např. http://, https://, ftp://, ...) jméno domény a subdomény (např. www.idnes.cz, aktualne.centrum.cz, ...) umístění souboru (např. /clanky/sport/hokej/extraliga/20_kolo.html)
- 31 -
URL je velmi významné zejména u hierarchicky strukturovaných webů, kde se pro návštěvníka stává dobrou orientační pomůckou. Například výše uvedená specifikace umístění souboru v URL http://www.idnes.cz/clanky/sport/hokej/extraliga/20_kolo.html velice výstižně a srozumitelně vyjadřuje to, v jaké části webu se návštěvník nachází. Nicméně se můžeme setkat i s URL typu: http://www.idnes.cz/clanky/clanek.html?rubrika=sport&kategorie=extraliga&cislo=123 Tento typ URL se nazývá dynamický, a to z toho důvodu, že obsahuje řetězec vygenerovaný na základě příslušných proměnných a nemá tudíž pevnou délku a hodnotu. Používá se zejména z důvodu jednoduchosti programové tvorby webových systémů, avšak vzhledem ke své obsahové nevýstižnosti a minimální relevanci vůči reálnému obsahu je nevhodný jak pro orientaci uživatele, tak pro optimalizaci pro vyhledávače.
3.3.1
Požadavky na URL URL by měly být vytvářené s ohledem na požadavky vyhledávačů, které
analogicky odpovídají požadavkům uživatelů. Měly by být v ideálním případě krátké, výstižné a zapamatovatelné. V souvislosti ze zapamatovatelností URL je zapotřebí používat jednotnou syntaxi, zejména pak ve psaní velkých a malých písmen, na kterých v tomto případě záleží i z hlediska dostupnosti souborů ve webových prohlížečích. Obecně je doporučeno používat v adresách pouze malá písmena. [28] Adresa URL by měla zůstat trvalá a neměnná. V případě její změny dochází k nedostupnosti odkazů z jiných webů, které na původní stránku směrovaly. Navíc v momentě, kdy se dříve zaindexovaná URL stane pro vyhledávací roboty nedostupnou, je z důvodu snížení důvěryhodnosti webu automaticky snížen jeho rank. Ve spojitosti s výstižností obsahu adres URL je často zapotřebí používat víceslovné výrazy, v ideálním případě navíc s ohledem na využití klíčových slov – podobně jako ve jméně domény. V praxi můžeme použít více variant oddělení slov v URL. Nejčastěji se setkáváme s variantami se spojovníkem (/viceslovne-url/) , s podtržítkem (/viceslovne_url/) a neoddělenými výrazy (/viceslovneurl/). Víceméně nezáleží na tom, jakou variantu zvolíme; vyhledávače jsou koncipované tak, aby při hledání zadaného výrazu zohledňovaly všechny tři varianty URL. Pokud jsou slova oddělena spojovníkem či podrtžítkem, vyhledávače je zohledňují jako samostatná slova; pokud použijeme poslední variantu s neoddělenými výrazy, vyhledávače
- 32 -
v nich jednotlivá slova sice zpravidla nerozpoznají, avšak při zadání víceslovných výrazů hledají i právě takovou variantu URL, která by spojení výrazů odpovídala. [25]
3.4
Title - titulek stránky Titulek stránky je textový řetězec definovaný obsahem elementu <TITLE>
v hlavičce
HTML
stránky.
Patří
k jednomu
z nejdůležitějších
faktorů
on-page
optimalizace, proto by mu měla být věnována vysoká pozornost. Obsah titulku by měl být pro danou stránku co nejvýstižnější a zároveň by měl být v rámci webu jedinečný. Právě jedinečnost titulku je to, co mnozí vývojáři podceňují, často se setkáváme s weby, které mají na všech svých stránkách stejné titulky (např. název společnosti, jméno domény stránek, firemní slogan apod.). Takové titulky jsou pro optimalizaci bezvýznamné. Titulek aktuálně vyobrazené stránky kromě toho zobrazují prohlížeče v záhlaví a zápatí svých oken, což mimo jiné pomáhá návštěvníkovi v orientaci mezi více okny prohlížeče. [13] Nejvýznamnější váhu dávají prohlížeče titulkům z toho důvodu, že jej samy používají při zobrazování výsledků na SERP a tím pádem se podle nich nejčastěji orientují samotní uživatelé vyhledávačů. V zásadě platí pro tvorbu titulků následující pravidla: [23] titulek má být krátký a výstižný; v případě záměrného použití příliš dlouhého titulku jej vyhledávače znevýhodňují titulek by neměl být delší než 70 znaků titulek má být uživateli srozumitelný; pokud by byl bez uvážení použit např.výčet klíčových slov, ztrácí titulek na srozumitelnosti a je znevýhodněný z pozice uživatele řetězec titulku by měl začínat výstižně i za předpokladu, že má zároveň obsahovat např. název firmy – takové řetězce se pro kvalitnější optimalizaci umisťují až nakonec titulku pokud je titulek složen z více odlišných částí (např.název stránky a název firmy), je vhodné jej interpunkčně oddělit – nejčastěji pomlčkou, čárkou nebo svislou čarou.
- 33 -
Zápis titulku stránky je umístěn v hlavičce stránky a vypadá následovně: Výstižný titulek stránky
3.5
Description – popisek stránky Popisek stránky je obdobně jako titulek textový řetězec, který se zadává do
hlavičky HTML stránky. Oproti titulku, který je koncipován spíše pro několikaslovné výstižné výrazy, je popisek spíše určen pro větný popis obsahu stránky. Nicméně vyhledávače jej natolik jako titulek stránky nezohledňují, a to z toho důvodu, že se jedná o uživatelsky neviditelný optimalizační faktor. Zápis popisku stránky pomocí HTML se provádí do elementu <META> s atributy „name“ (hodnota „description“) a „content“ (hodnotou je popis obsahu): <meta name=“description“ content=“Větný popis obsahu.“> Doporučená délka popisku je do 250 znaků. [14]
3.6
Stop slova „Stop slova jsou běžná slova, které nenesou žádnou nebo téměř žádnou
informaci. Jedná se většinou o spojky, předložky atd. V češtině se jedná například o a, i, nebo, když, v, na, pod ..., v angličtině je to například and, or, but, the, a, an, about ... Vyhledávače dost často těmto slovům přikládají nižší váhu, nebo je úplně ignorují. Dělají to kvůli zrychlení hledání. Je tedy téměř zbytečné dávat stop slova do title, description nebo keywords.“ [6]
3.7
Nadpisy Pro kvalitní typografické členění textů ve stránkách je vhodné používat
adekvátní nadpisy. Vzhledem k tomu, že ve většině případů stojí na stránce samostatně,
- 34 -
jsou graficky výrazné, bývají obsahově výstižné a často obsahují i klíčová slova pro vyhledávání, dávají jim vyhledávače relativně velkou váhu. Nadpisy můžeme pomocí HTML rozlišit do 6 úrovní ( až . Největší váhu má nadpis , nejnižší . Záleží zejména na struktuře a členitosti textu, jaký počet úrovní je pro stránky nejvhodnější. Kromě úrovně , která by měla zůstat v rámci stránky unikátní, je počet nadpisů na stránce libovolný. Jediným omezením se tak stává přehlednost textů pro čtenáře. Nadpis by měl být krátký a výstižný, čím vyšší počet slov obsahuje, tím se snižuje váha klíčových slov v něm obsažených. [14]
3.8
Zvýraznění řezem písma V případě, že se na stránce vyskytuje slovo, které je vhodné oproti okolnímu
textu zvýraznit, lze využít změny řezu písma. Zpravidla se pro odlišení používá tučný řez a kurzíva. Zvýrazněný text pak získává na své váze, a to jak z hlediska typografického (pro čtenáře), tak také z hlediska hodnocení vyhledávače. Je doporučeno zvýrazňovat klíčová slova, tím se zároveň zvýší i jejich váha pro vyhledávání. Zvýrazňování slov by se mělo provádět zejména v rámci odstavců či větších textových bloků; zvýraznění např. textu v nadpisu je bezvýznamné. Je však nutno také dbát na to, aby zvýrazňování textů bylo vždy opodstatněné. Pokud je na stránce přespříliš zvýrazněných výrazů (případně jsou zvýrazněné bloky, které s jinými bloky typograficky kolidují), uživatel tím ztrácí přehlednost. A analogicky reaguje i vyhledávač, který zohledňuje hustotu zvýrazněných slov na stránce či v dílčím bloku. Ve zdrojovém kódu HTML se pro zvýraznění slov používají párové elementy <STRONG> (tučné písmo) a <EM> (kurzíva). Rozdílem oproti jejich alternativám a je ten, že je zvýrazněna jejich váha jak pro čtenáře, tak pro vyhledávače (ve druhém případě se jedná pouze o zvýraznění pro čtenáře).
3.9
Popisky obrázků Ve zdrojovém kódu HTML by měla být u obrázkových elementů
vyplněna hodnota atributu „alt“, který slouží k zastoupení obsahu obrázku textovým řetězcem. Pokud z jakéhokoli důvodu nedojde ve webovém prohlížeči k načtení - 35 -
obrázkového souboru, zastupuje jej právě tento krátký textový popisek. Uplatnění dále nalézá při vyhledávání obrázků prostřednictvím Google Images [18], kde je popisek zohledňován. Vyplnění atributu „alt“ u obrázkových elementů je vyžadováno mimo jiné i z důvodu validity zdrojového kódu dokumentu. Zápis zdrojového kódu s popiskem obrázku vypadá následovně:
3.10
Popisky HTML elementů Většina HTML elementů, které souvisejí s obsahem stránek, umožňuje použití
atributu „title“, pomocí kterého můžeme blíže specifikovat obsah daného elementu. Jedná se sice o neviditelný optimalizační faktor, i tak má však své opodstatnění. Pozor, jedná se o atribut („title“), nikoli element (<TITLE>), který byl již popisován výše a který slouží k jinému účelu. Obdobně jako atribut „alt“ u obrázkových elementů umožňuje pomocí textového řetězce popsat obsah daného elementu. Dokonce v jednom případě se stává popisek elementu pro uživatele viditelným faktorem, a to konkrétně u odkazu (). Ve většině prohlížečů při najetí kurzoru myši nad takový odkaz je uživateli v zápatí okna zobrazen definovaný text popisující obsah cíle odkazu. Pokud by atribut „title“ nebyl vyplněn, zobrazí se uživateli v prohlížeči pouze URL adresa s hlavičkou http://, na kterou odkaz směřuje. Tím pádem jsou popisky elementů – zejména pak u odkazů vyhledávačem zohledňovány. Zápis popisku elementu ve zdrojovém kódu je následující: text odkazu (anchor text)
3.11
Text odkazu - anchor text Anchor text představuje viditelnou část hypertextového odkazu, který odkazuje
na jinou stránku. Tato metoda optimalizace stojí na pomezí on-page a off-page - 36 -
optimalizace, a to z toho důvodu, že umožňuje vyhledávači zohlednit obsah jak stránky, na které se odkaz nachází, tak stránky, na kterou odkaz vede. Nejčastější chybou při vytváření anchor textů jsou řetězce, které návštěvníkovi nesdělují žádnou konkrétní informaci. Jedná se zejména o texty odkazů typu „více zde“, „informace o produktu“, „klepněte sem“ a podobně. Takové texty vyhledávač z hlediska optimalizace ignoruje. Anchor text by měl obsahovat krátký a výstižný popisek, který odpovídá obsahu stránky, na kterou směřuje. V ideálním případě by měl vývojář zvolit takový text, který obsahuje klíčová slova, na kterou je stránka pod odkazem optimalizována. V tomto případě však již hovoříme o off-page optimalizaci, ta totiž není prováděna ve zdrojovém kódu optimalizované stránky, nýbrž na stránce, na které je odkaz umístěn, pro kterou nemá anchor text tak podstatný význam. Zdrojový kód vypadá následovně: Anchor text
- 37 -
4
Off-page optimalizace Off-page optimalizace je další podstatnou částí SEO. Optimalizace je
realizována vně optimalizovaného webu bez zásahu do vlastního zdrojového kódu. V praxi off-page optimalizace spočívá zejména v budování zpětných odkazů, které mohou velmi výrazně ovlivnit hodnocení stránky vyhledávači. Budování odkazů – tzv. linkbuilding – lze realizovat různými způsoby a cestami; v této kapitole popíši nejvýznamnější z nich.
4.1
Off-page vazby Při budování zpětných odkazů je důležitá kvalita a hodnocení stránky, ze které
je odkazováno. Ideálním případem je získání co největšího množství odkazů ze stránek s co nejvyšším hodnocením, které má za.následek zvýšení důležitosti stránky, na kterou je odkazováno. Např. 10 odkazujících stránek s PR 6/10 má vyšší váhu než 20 odkazujících stránek s PR 2/10. Naopak vazby na nevhodné či penalizované weby mohou obdobným způsobem stránky poškodit. Význam dále zaujímá i tématické zaměření webu, ze kterého je odkazováno. Vyšší váhu přikládají vyhledávače stránkám s podobným zaměřením, než např. katalogům a jiným webům s všeobecnou tématikou. Uvedený systém hodnocení na základě tematického sdružování se nazývá Topic rank. [12]
4.2
Metody off-page optimalizace
4.2.1
Přirozený linkbuilding, linkbaiting První možností pro budování zpětných odkazů je vytvoření kvalitního či
atraktivního obsahu stránek. Pokud bude obsah skutečně dostatečně kvalitní, je pravděpodobné, že na něj začnou ostatní weby samy postupně odkazovat jakožto na zdroj informací. Jedná se o tzv. přirozený linkbuilding. Nevýhodami tohoto způsobu budování odkazů jsou velká náročnost na zpracování. Typickým příkladem je web Wikipedia, který disponuje vysoce kvalitním obsahem, díky němuž se umisťuje na předním pozicích ve výsledcích vyhledávání, avšak musí být neustále udržován a aktualizován. Atraktivitu webového obsahu lze zvýšit mimo jiné i přidáním různých on-line nástrojů či multimediálního obsahu, případně umístěním kontroverzních či populárních - 38 -
článků. Často se takovýto typ obsahu stává primárním lákadlem pro návštěvníky, a tím pádem má vysoký potenciál pro zpětné odkazy. Pokud má obsah webu (či jeho část) za hlavní cíl umístění zpětného odkazu na straně návštěvníka, hovoříme o tzv. linkbaitingu. Největší nevýhodou linkbaitingu jsou vysoké požadavky na originalitu obsahu.
4.2.2
Výměna a koupě odkazů Další součástí linkbuildingu je vzájemná výměna odkazů mezi weby. Ideálním
zpětným odkazem je takový odkaz, který je umístěn na obdobně zaměřených stránkách; z toho důvodu se můžeme často na různých stránkách setkávat s početnými odkazy na tzv. „partnerské weby“. Vzhledem k tomu, že vzájemné zpětné odkazy se nacházejí na obou příslušných webech, neovlivňují tím rozdíl ranků těchto webů a zároveň zvyšují rankový rozdíl vůči ostatním konkurečním webům, se kterými nejsou odkazově na úrovni 1:1 provázány. Tento fakt tvoří u využívání výměny odkazů zjevně nejvyšší přednost. Pokud jeden z webů má oproti druhému tak vysoký rank, že by výměnou odkazu potlačil svůj konkureční náskok a znevýhodnil by se, existuje varianta placené výměny odkazu anebo jednostranné koupě. Tato možnost je často realizována ze strany webů, které jsou ve výsledcích vyhledávání na tak vysokých příčkách, že již nepotřebují uměle navyšovat rank za pomoci linkbuildingu. Konkurenční výhodu výměnou odkazu sice sníží, avšak profitují z příjmu za pronájem prostoru pro zpětný odkaz. Princip koupě odkazu se kromě linkbuildingu využívá hojně k reklamním účelům a můžeme se s ní setkat nejen ve formě klasického textového odkazu, ale také ve formě ikonek, bannerů, flash animací, reklamních panelů a jiných grafických prostředků.
4.2.3
Registrace do katalogů Registrace do katalogů patří často k prvním krokům webmasterů v rámci off-
page optimalizace. Registrace představuje základní prostředek pro umístění odkazu na veřejně dostupných webových stránkách. Ve většině případů je zdarma a je realizována prostřednictvím jednoduchého vyplnění textových formulářů. Registrační formuláře zpravidla obsahují pole pro titulek stránky (Title), popis stránky (Description), URL adresu a klíčová slova (Keywords). Problémem katalogů je však jejich přehlcenost, tím pádem každý nově registrovaný odkaz snižuje váhu ostatních a zároveň i sám o sobě ztrácí na váze. Dále ne - 39 -
všechny katalogy jsou rozděleny do sekcí dle typu obsahu webů, tím pádem snižují významnost odkazu z hlediska podobnosti obsahového zaměření. Kvalita zpětného odkazu je proto z uvedených důvodů často kompenzována kvantitou registrací - většinou počtem v řádu stovek registrací do různých katalogů.
4.2.4
Účast v diskusních fórech Budování zpětných odkazů lze realizovat mimo jiné prostřednictvím vkládání
příspěvků do diskusních fór. Jednoduše tak lze využít informační potenciál těchto systémů a optimalizovaný web za pomoci přispívání bezplatně zviditelnit. Komunikace s eventuelními návštěvníky by však měla mít jistou úroveň z hlediska informační přínosnosti. S tím souvisí praktiky vkládání SPAMu a různých zdánlivě přínosných komentářů, jejichž primárním cílem je zmanipulovat čtenáře k účelné návštěvě webu. Z toho důvodu jsou často odkazy na diskusních fórech ošetřeny parametrem „nofollow“, který znemožňuje robotům vyhledávačů jakékoliv umístěné odkazy sledovat. Kromě toho cílené umísťování komentářového SPAMu je jedna z nepovolených optimalizačních technik, která může vést až k penalizaci webu ze strany vyhledávačů.
- 40 -
5
Black Hat SEO – nepovolené metody Primárním cílem vývojářů je zvýšit pozice svých webů ve vyhledávačích
a dosáhnout tím vyšší návštěvnosti a potenciálu pro zisk. Mnozí z nich však cíleně praktikují metody, které jsou v rozporu se základním významem vyhledávačů – tedy užitečností pro návštěvníky. Takovým metodám a technikám se v programátorské branži říká Black Hat a jejich hlavním úkolem je obcházení vyhledávačů podvodným způsobem, který stránky zvýhodní i za předpokladu, že nedisponují tak kvalitním obsahem, který by odpovídal reálným pozicím ve výsledcích. V této kapitole popíši takové podvodné metody, se kterými se můžeme setkat nejčastěji. Jejich použití je velmi individuální; každá z metod se používá pro jiný účel. Záleží na podvodnících, zda chtějí docílit vysoké návštěvnosti krátkodobé či dlouhodobé, zda je jejich prioritou předskočit ve výsledcích webové stránky konkurence, případně zda chtějí jen docílit zisku prostřednictvím umístěné reklamy. Kromě níže uvedených metod a technik existuje ještě řada dalších, vesměs založených na obdobných principech, avšak ty neshledávám tak významnými a frekventovanými a z toho důvodu je v práci nepopisuji.
5.1
Penalizace Právě použití nepovolených praktik vedlo provozovatele vyhledávačů
k vytvoření penalizačního systému, jehož účelem je znevýhodňování stránek, jež tyto praktiky pro optimalizaci využívají. Jednodušší podvodné metody (např. cloaking) mohou vyhledávače rozpoznávat automaticky a ihned stránky adekvátně penalizovat. Složité podvody (např. odkazové farmy) pak většinou vyhledávačům nahlašují sami uživatelé a eventuelní penalizace pak vyhodnocují přímo administrátoři. Jakékoliv penalizace pak mají za následek snížení pozic na stránkách výsledků hledání SERP. Mezi nejběžnější penalizace patří snížení ranku stránky (tzv. BadRank), který může nabýt až nulové hodnoty, odpovídající prakticky vyřazení webu z výsledků vyhledávání. Pokud správce webu chce takovou penalizaci následně zrušit, musí odstranit veškeré podvodné praktiky, kterých se na stránkách dopouští. Nicméně ani tak nemá stoprocentní jistotu, že bude penalizace ze strany vyhledávače po korekčních úprávách zrušena. [14]
- 41 -
5.2
Komentářový SPAM Komentářový SPAM je jedna z nejrozšířenějších neetických metod, jak na
stránky upozornit. Spammeři nebo roboti umisťují odkazy do komentářů na cizích diskusních fórech, redakčních fórech, sociálních sítích, blozích, inzercích, katalozích a další systémech, které umožňují vkládání uživatelských komentářů a současně nejsou vůči SPAMu imunní. Komentářový SPAM se pak stává zdánlivě součástí diskusních reakcí a tím pádem i zdánlivě relevantním odkazem. „Otázkou je, zda vyhledávače za komentářový nebo katalogový SPAM stránky, na které se odkazuje, penalizují. Pravděpodobně ne. Z principu za to nelze penalizovat už jenom z důvodu, že se jedná o snadno zneužitelnou techniku například k likvidaci konkurence. Paradoxně tak za to mohou být potrestáni spíše provozovatelé nechráněných blogů s otevřenými komentáři.“ [2]
5.3
Skrytý obsah Skrytí či zneviditelnění obsahu patří k nejjednodušším black hat metodám.
Princip metody je založen na tom, že skutečný návštěvník nevidí text, který naopak vyhledávače bez problémů rozpoznají, tím pádem dochází k indexaci veškerého obsahu na stránce – včetně toho neviditelného. Skrytí se provádí ve většině případů přímo ve zdrojovém kódu za pomoci stylů CSS. Na daný obsah – většinou vyplněný klíčovými slovy - stačí pouze aplikovat styl, jenž sjednotí barvu skrývaného textu s barvou pozadí. Skrytí lze kromě změny barvy fontu provést zmenšením písma na 0 px, případně jeho skrytí pod jiný HTML element (obrázek, oddíl, ...). [12]
5.4
Cloaking Cloaking je technika založená na zneužití nečitelnosti skriptů z pohledu
vyhledávačů. Jedná se o zpřístupnění jiného obsahu vyhledávači a jiného skutečnému návštěvníkovi, ačkoli se oba nachází na stejné URL. Sekundární obsah je zpravidla skryt pod skriptem (Flash, JavaScript) a tím pádem je pro vyhledávač neviditelný. Vyhledávač tak indexuje pouze tu část obsahu, kterou je schopen rozpoznat – tedy jinou než ve skutečnosti vidí návštěvník. Často je také vyhledávači podstrkován obsah, který se návštěvníkovi zobrazí až po přihlášení či zpoplatnění. [12]
- 42 -
5.5
Doorway page, stuffing Doorway page, neboli vstupní stránka, je taková stránka, která je
optimalizovaná pro vyhledávače na základě tzv. stuffingu – vyplněním obsahu velkým počtem zdánlivě souvisejících klíčových slov. Obsah na takové stránce bývá velmi často nesmyslný a nesrozumitelný, nicméně i tak se podvodníkům daří takové stránky do vysokých pozic vyhledávačů protlačovat. Pro vyhledávače se stránka stává z hlediska obsahu zajímavou, avšak to neplatí pro skutečné návštěvníky. [12] Vzhledem k tomu, že využití stuffingu má pro návštěvníka prakticky nulový informační přínos, hlavní síla této metody tkví pouze v dosáhnutí vysoké návštěvnosti. Právě návštěvnost vytváří dobrý potenciál pro umisťování reklamních ploch a placených odkazů. A ty pak jsou pro doorway stránky primárním finančním ziskem.
5.6
Odkazové farmy Skutečnost, že míra ranku stránky je značně ovlivňována počtem odkazů, které
na ni vedou, vedla k vytváření rozsáhlých odkazových farem. Odkazové farmy sestávají ze stovek až tisíců jednotlivých stránek, které jsou navzájem mezi sebou provázané odkazy. Vyhledávač takové stránky vzhledem k vysokému počtu zdánlivě kvalitních odkazů zvýhodní a přiřadí jim vysoké hodnocení. Obsah takových stránek sám o sobě nenese prakticky žádný informativní charakter pro návštěvníky, proto je velmi často kombinován s jinými technikami, zejména pak klamavým přesměrováním na jiné stránky. [12] Stránky s odkazy jsou v případě odhalení často penalizovány nulovým PageRankem, který se automaticky přenese i na ostatní stránky, se kterými je penalizovaná stránka uměle provázána. To následně způsobí rozvrácení a zánik celé odkazové farmy. Proto jsou farmy často provozovány na úrovni subdomén a v případě penalizace jednoduše přesouvány na další nově vytvořené. Takové domény se nazývají Throwaway domény. [14]
5.7
SPAM report SPAM report je služba, kterou nabízejí vyhledávače uživatelům (vývojářům) za
účelem manuálního nahlášení používání nepovolených optimalizačních metod na webových stránkách. Jedná se zpravidla o formuláře, pomocí kterých může uživatel - 43 -
specifikovat daný nález a poslat jej k posouzení kompetentním osobám provozovatele vyhledávače. Služba je zdarma a v praxi využívána zejména k potlačení konkurence. SPAM report vyhledávače Google je po přihlášení dostupný na adrese http://www.google.com/contact/spamreport.html,
pro
vyhledávač
Seznam.cz
slouží
jednoduchý formulář na http://search.seznam.cz/nahlasit-spam. Formuláře lze použít pro nahlášení všech výše uvedených black hat metod. [19, 27]
- 44 -
6
Závěr V závěrečné části práce bych chtěl především vyzdvihnout význam využití SEO
v praxi. Masivní nárůst webových prezentací v posledních letech způsobil zároveň pro provozovatele vysoký nárůst nové konkurenční síly. Tento efekt znamenal pro velké množství webů potlačení obecného povědomí a nutnost boje s konkurencí. Z toho důvodu vyplynula vyšší potřeba po zlepšení kvality propagace webů, jejíž cílem bylo udržení viditelnosti a dostupnosti i pod neustále rostoucím konkurenčním tlakem. Návštěvnost webů je v mnoha případech přímo úměrná ziskům provozovatele, ať se jedná o profit z prodeje zboží či nabízených služeb nebo zisky z pronájmů reklamních ploch. Navíc velká řada kamenných obchodů začala vlastní služby provozovat zároveň i na internetu, případně svoji působnost úplně přesunula. Tím se stal internet ohromným prostorem pro podnikání a všeobecnou realizaci výdělečné činnosti. Tu je však zapotřebí jistým způsobem nabízet a propagovat. Právě metodika SEO se stala jedním z nejvýznamnějších prostředků pro webovou propagaci. Dříve SEO zaujímalo jen vedlejší postavení při budování webových systémů, zohledňováno bylo prakticky jen při zavádění internetových obchodů. Dnes již představuje samo o sobě speciálně zaměřené marketingové odvětví a stalo se nedílnou součástí webdesignu. Vhledem k faktu, že provozovatelé vyhledávačů ve vlastním zájmu doposud neuvolnili přesné algoritmy, na jejichž základě indexování a řazení výsledků probíhá, zůstává přesná míra efektivity jednotlivých metod pouze na diskutabilní rovině. Nicméně i přesto je díky ověřeným zkušenostem vývojářů doporučována schematičnost obsahující metody, které jsou popsány v předchozích kapitolách a víceméně správně předpokládají chování vyhledávačů. Metody, které byly v práci popsané, patří mezi základní, které by neměly být v rámci optimalizace opomíjeny. Kromě nich existuje celá řada dalších a jejich použití se odvíjí od individuálních potřeb optimalizovaných webů. Ještě jednou bych chtěl zdůraznit význam samotného obsahu webu, který bývá v mnohých případech při optimalizaci stránek zanedbáván a není mu věnována patřičná míra důrazu. V takových případech přestává mít optimalizace z velké části opodstatnění, pokud již od počátku nejsou stránky vhodně koncipovány. Optimalizace neslouží vyhledávacím robotům, nýbrž konečným uživatelům; až teprve oni mohou objektivně zhodnotit skutečnou kvalitu webu a jeho informační přínos. - 45 -
Optimalizaci webových stránek je dále z praktického hlediska zapotřebí provádět průběžně a v ideálním případě ji udržovat neustále aktuální. Kromě toho je velmi významná flexibilita optimalizace, která dokáže rychle zareagovat na optimalizační kroky konkurence, například při ztrátě pozice v žebříčku výsledků vyhledávání. V současnosti můžeme být na poli internetu svědky tvrdého konkurenčního boje o nejvyšší příčky ve výsledcích i za cenu frekventovaného využívání nepovolených optimalizačních metod, vzájemného poškozování, spamování a reportování přestupků cizích stran. První pozice ve vyhledávačích se staly významnými podnikovými strategickými cíly a prostředky vynaložené pro jejich udržení jsou čím dál lépe finančně ohodnocovány. Do budoucnosti má SEO jako profesionální odvětví velmi dobrou perspektivu a pro webové vývojáře velmi vysoký potenciál. Na trhu je a vždy bude vysoká poptávka po kvalitních službách, které zefektivňují podnikání a zvyšují provozovatelům webů potenciál výdělečnosti.
- 46 -
7
Seznam použitých zdrojů Doslovné citace: [1]
KUBÍČEK, Michal. Velký průvodce SEO : Jak dosáhnout nejlepších pozic ve vyhledávačích. 1. vydání. Strana 44, 45. Brno : Computer Press, 2008. 320 s. ISBN 978-80-251-2195-5.
[2]
KUBÍČEK, Michal. Velký průvodce SEO : Jak dosáhnout nejlepších pozic ve vyhledávačích. 1. vydání. Strana 289. Brno : Computer Press, 2008. 320 s. ISBN 978-80-251-2195-5.
[3]
SIROVICH, Jamie; DARIE, Christian. SEO v PHP : Programujeme profesionálně. 1. vydání. Strana 22. Brno : Computer Press, 2008. 380 s. ISBN 978-80-251-2083-5.
[4]
SMIČKA, Radim. Optimalizace pro vyhledávače - SEO : Jak zvýšit návštěvnost webu [online]. v. 1.01. Strana 11. Dubany : Jaroslava Smičková, 2004, 2005. Dostupné z WWW [cit. 2010-05-20]: . ISBN 80-239-2961-5.
[5]
SMIČKA, Radim. Optimalizace pro vyhledávače - SEO : Jak zvýšit návštěvnost webu [online]. v. 1.01. Strana 24. Dubany : Jaroslava Smičková, 2004, 2005 [cit. 2010-05-20]. Dostupné z WWW: . ISBN 80-239-2961-5.
[6]
SMIČKA, Radim. Optimalizace pro vyhledávače - SEO : Jak zvýšit návštěvnost webu [online]. v. 1.01. Strana 46. Dubany : Jaroslava Smičková, 2004, 2005 [cit. 2010-05-10]. Dostupné z WWW: . ISBN 80-239-2961-5.
[7]
SMIČKA, Radim. Optimalizace pro vyhledávače - SEO : Jak zvýšit návštěvnost webu [online]. v. 1.01. Strana 52. Dubany : Jaroslava Smičková, 2004, 2005 [cit. 2010-05-15]. Dostupné z WWW: . ISBN 80-239-2961-5.
elektronické: [8]
Jyxo.cz [online]. c2010 [cit. 2010-05-20]. Informace. Dostupné z WWW: .
[9]
Vyhledavace.info [online]. 11.12.2004 [cit. 2010-05-08]. Lze strukturou webu zvýšit PageRank a zlepšit pozice ve vyhledavačích? Dostupné z WWW: .
[10]
Wall.cz [online]. 2008 [cit. 2010-05-08]. Mapa stránek sitemap.xml. Dostupné z WWW: . - 47 -
[11]
Wikipedia.org [online]. 10.5.2010 [cit. 2010-05-28]. Seznam.cz. Dostupné z WWW: .
Zdroje: [12]
KUBÍČEK, Michal. Velký průvodce SEO : Jak dosáhnout nejlepších pozic ve vyhledávačích. 1. vydání. Brno : Computer Press, 2008. 320 s. ISBN 978-80251-2195-5.
[13]
SIROVICH, Jamie; DARIE, Christian. SEO v PHP : Programujeme profesionálně. 1. vydání. Brno : Computer Press, 2008. 380 s. ISBN 978-80251-2083-5.
[14]
SMIČKA, Radim. Optimalizace pro vyhledávače - SEO : Jak zvýšit návštěvnost webu [online]. v. 1.01. Dubany : Jaroslava Smičková, 2004, 2005. Dostupné z WWW [2010-05-20]: . ISBN 80-2392961-5.
elektronické: [15]
Centrum.cz [online]. c2010. Centrum.cz vyhledávání. Dostupné z WWW [2010-05-21]: .
[16]
Centrum.cz [online]. c2010. O nás. Dostupné z WWW [2010-05-20]: .
[17]
Google.com [online]. c2010. Digital Millennium Copyright Act. Dostupné z WWW [2010-05-20]: .
[18]
Google.com [online]. c2010. Google obrázky. Dostupné z WWW [2010-05-20]: .
[19]
Google.com [online]. c2010. Google webmaster tools. Dostupné z WWW [2010-05-18]: .
[20]
Interval.cz [online]. 2003. SEO - Search Engine Optimization. Dostupné z WWW [2010-05-17]: .
[21]
Itbiz.cz [online]. 27.11.2008. Podíl vyhledávače Google na českém internetu roste. Dostupné z WWW [2010-05-20]: .
[22]
Jakpsatweb.cz [online]. 2010. Zakázání přístupu vyhledávačům. Dostupné z WWW [2010-05-10]: .
[23]
Jakpsatweb.cz [online]. 2010. Zázračný SEO html tag. Dostupné z WWW [2010-05-10]: .
- 48 -
[24]
Jyxo.cz [online]. c2010. Informace. Dostupné z WWW [2010-05-10]: .
[25]
Seokniha.cz [online]. 25.6.2008. Jakou doménu? S pomlčkou nebo bez pomlčky? Dostupné z WWW [2010-05-20]: .
[26]
Seznam.cz [online]. c2010. Historie firmy. Dostupné z WWW [2010-05-25]: .
[27]
Seznam.cz [online]. c2010. Nahlášení spamu. Dostupné z WWW [2010-05-21]: .
[28]
Snizekweb.cz [online]. 16.2.2006. Jak navrhnout dobře použitelná URL. Dostupné z WWW [2010-05-04]: .
[29]
Toplist.cz [online]. 7.5.2010. Globální statistika. Dostupné z WWW [2010-0507]: .
[30]
Vyhledavace.info [online]. 30.6.2007. Ovlivňuje pozici ve vyhledavačích doménové jméno? Dostupné z WWW [2010-05-20]: .
[31]
W3C [online]. c2010. World Wide Web Consortium. Dostupné z WWW [201005-10]: .
[32]
Wikipedia.org [online]. 2010. Atlas.cz. Dostupné z WWW [2010-05-22]: .
[33]
Wikipedia.org [online]. 2010. Jyxo.cz. Dostupné z WWW [2010-05-25]: .
[34]
Zive.cz [online]. 1.7.2008. Revoluce v SEO optimalizaci: Google prochází a indexuje Flash (oživeno). Dostupné z WWW [2010-05-27]: .
- 49 -