1 UNICORN COLLEGE Katedra Informačních technologií BAKALÁŘSKÁ PRÁCE White hat a Black hat SEO praktiky Autor BP: Jakub Šebek Vedoucí BP: Ing. Tomáš Ho...
BAKALÁŘSKÁ PRÁCE White hat a Black hat SEO praktiky
Autor BP: Jakub Šebek Vedoucí BP: Ing. Tomáš Holas
2013 Praha
Čestné prohlášení Prohlašuji, že jsem svou bakalářskou práci na téma White hat a Black hat SEO praktiky vypracoval samostatně pod vedením vedoucího bakalářské práce a s použitím výhradně odborné literatury a dalších informačních zdrojů, které jsou v práci citovány a jsou také uvedeny v seznamu literatury a použitých zdrojů. Jako autor této bakalářské práce dále prohlašuji, že v souvislosti s jejím vytvořením jsem neporušil autorská práva třetích osob a jsem si plně vědom následků porušení ustanovení § 11 a následujících autorského zákona č. 121/2000 Sb.
V……………………. dne ……….....
....……………………………............ (Jakub Šebek)
Poděkování Děkuji vedoucímu bakalářské práce Ing. Tomáši Holasovi za účinnou metodickou, pedagogickou a odbornou pomoc a další cenné rady při zpracování mé bakalářské práce. Dále bych chtěl poděkovat firmě ROMAn® s.r.o. za poskytnutí své internetové prezentace k optimalizaci.
White hat a Black hat SEO praktiky White hat and Black hat SEO practices
6
Abstrakt Optimalizace
pro
vyhledávače
je
v současné
době
základním
prvkem
konkurenceschopnosti webu. Šanci na úspěch mají pouze dobře „viditelné“ a kvalitní weby. Především i v budoucnosti, kdy se vyhledávače budou snažit nabízet uživatelům čím dál kvalitnější obsah. K SEO se v této práci přistupuje v moderním širokém pojetí – nejedná se pouze o první pozice na pár klíčových slov, ale jde především o splnění cíle webu (hlavně nalezitelnost a viditelnost). Cílem této práce je popsání jednak etických, ale i neetických praktik používaných k optimalizaci a porovnání vhodnosti jejich použití. Klíčová slova: SEO, optimalizace pro vyhledávače, White hat, Black hat, vyhledávače, analýza klíčových slov
Abstract Search Engine Optimization (SEO) is a basic element of website competitiveness at the present time. Only well „visible“ and quality websites have chances of success. Particularly in the future, when search engines will strive to offer growing quality content to the users. The topic of SEO in this bachelor work is approached in modern and wide conception – it does not deal with the top positions of a few key words only, but it is especially aimed at meeting the fundamental goal of the website (mainly findability and visibility). The aim of this bachelor work is to describe both ethical as well as unethical SEO techniques and compare their appropriateness. Keywords: SEO, Search Engine Optimization, White hat, Black hat, search engines, keyword analysis
7
Seznam zkratek Anchor text
Text odkazu
Black hat
Neetické metody SEO
Cookies
Malé textové informace, které se dají uložit na počítači klienta.
DHTML
Dynamické HTML je spojení JavaScriptu (JScriptu) a CSS v prohlížečích Internet Explorer verze 4, 5 a 6.
Dlouhý ocas
Long tail, dlouhý chvost. Klíčová slova, která nejsou na první pohled nejdůležitější a tak často hledaná (mají nižší konkurenci), je jich však velké množství, které v součtu může přivést více návštěvníků než nejhledanější slova s mnohem vyšší konkurencí.
Flash
Grafický vektorový program, Používá se především pro tvorbu (převážně internetových) interaktivních animací, prezentací a her.
JavaScript
Programovací jazyk, často vkládaný přímo do HTML kódu stránky. Jsou jím obvykle ovládány různé interaktivní prvky GUI (tlačítka, textová políčka) nebo tvořeny animace a efekty obrázků.
Klíčové slovo
Slovo na které se optimalizuje (např. odhlučnění). V této práci se pod pojmem klíčové slovo myslí i klíčová fráze – slovní spojení (např. protihlukový plot).
Linkbaiting
Lákání, vábení nebo přitahování zpětných odkazů. Zaměřen na získání co nejvíce zpětných odkazů.
Linkbuilding
Tvorba zpětných odkazů
PPC
Pay-per-click (platba za klik) – forma reklamy, ve které inzerent specifikuje klíčová slova, pro která se mají jeho záznamy objevit ve výsledcích vyhledávání. Inzerent zaplatí vyhledávači určitý poplatek vždy, když někdo klikne na jeho záznam.
SEM
Search Engine Marketing – placený marketing ve vyhledávačích
SEO
Search Engine Optimization - optimalizace pro vyhledávače, zaměřeno na přirozené výsledky vyhledávání
SERP
Search Engine Results Page - stránka výsledků zobrazená internetovým vyhledávačem jako odpověď na dotaz zadaný uživatelem
Spam
Podvodná praktika. Např. zasílání nevyžádané reklamy, vydávání se za jinou stránku,…
Spam report
„Nástroj“ nebo lépe řečeno formulář, kam je možné nahlásit web, který využívá Black hat praktiky.
Uživatel
Člověk, který něco hledá a využívá k tomu vyhledávač
White hat
Etické metody SEO 8
Obsah 1
Úvod
11
2
Vyhledávače
13
2.1
Optimalizace pro vyhledávače nebo pro hledající lidi?
14
2.2
Robot
14
3
Co to je a jak funguje SEO 3.1
16
Cíl webu
3.1.1
16
Cíl optimalizace pro vyhledávače
18
3.2
Historie SEO
18
3.3
On-page a off-page faktory
18
3.3.1
On-page faktory
19
3.3.2
Off-page faktory
25
3.4
Analýza klíčových slov
29
3.4.1
Dlouhý ocas
29
3.4.2
Nástroje pro analýzu klíčových slov
30
4
White hat a Black hat SEO praktiky 4.1
White hat SEO
4.1.1 4.2
32 32
Doporučené praktiky od Seznam.cz a Google
Black hat SEO
33 33
4.2.1
Neetické nebo zakázané praktiky
33
4.2.2
Zakázané Black hat praktiky
34
4.2.3
Neetické Black hat praktiky
37
5
Optimalizace v praxi 5.1
White hat SEO v praxi
5.1.1 5.2
39 39
Pozorování konkurence
41
Black hat SEO v praxi
42
5.2.1
Masivní linkbuilding
42
5.2.2
Doorway SEO
43
5.2.3
Bait and switch – lákání na nerelevantní obsah
44
5.2.4
„Hrátky s písmem“ vs. Google webmaster tools
44
5.3
Nástroje pro SEO
45
5.3.1
SEOmaty
45
5.3.2
Google Webmaster Tools
46
5.3.3
Zjišťování pozic klíčových slov
47 9
5.3.4
Nástroj pro monitorování konkurence
47
5.3.5
Zaindexovanost webu vyhledávačem
47
5.3.6
Kdo na mě odkazuje
48
6
Závěr
49
7
Conclusion
50
8
Seznam použitých zdrojů
51
9
Seznam obrázků
53
10
Seznam tabulek
54
11
Seznam příloh
55
11.1
Příloha 1: Search Engine Results Page
10
56
1 Úvod Každým rokem přibývá velké množství e-shopů, zpravodajských serverů, blogů a dalších internetových stránek. Tím vzniká i velká konkurence, která sebou přináší otázku, jak obstát a být nalezen uživateli. Již nestačí mít pouze internetovou prezentaci, ale je třeba, aby se na stránky dostali také ti, pro které má být stránka přínosem. Právě tímto problémem se zabývá obor optimalizace pro vyhledávače1. Ke zlepšení nalezitelnosti internetových stránek je možné použít celé řady postupů a praktik, od placeného marketingu ve vyhledávačích2, až po správně optimalizované stránky. Tato práce se zabývá optimalizací internetových stránek. Není sice možné tvrdit, že ani pro SEO se nemohou používat placené praktiky např. nákup zpětných odkazů, ale narozdíl od SEM se stránka probojovává ve vyhledávači tím, jak je optimalizovaná a jak se mu „líbí“. Cílem práce je zmapovat možnosti využití „etických“ (White hat) a „neetických“ (Black hat) praktik, které jsou využívány k optimalizaci internetových stránek. Cílem porovnání těchto praktik je snaha zjistit, zda vyhledávače umí rozpoznat neetické praktiky a nějak je penalizují nebo naopak mohou tyto praktiky přinést užitek, ať už z krátkodobého nebo dlouhodobého hlediska. Pro lepší posuzování etických a neetických praktik v SEO, obsahuje práce část teoretickou a část praktickou. Teoretická část se zabývá popisem, co to je optimalizace pro vyhledávače, jaké postupy a praktiky jsou používány a jaké jsou přínosy. Protože teorie je věc jedna, ale teprve praxe může ukázat, zda dané postupy a praktiky mohou opravdu fungovat (či naopak jsou nevhodné). Je vytvořeno několik internetových stránek, které slouží pro znázornění využití a především porovnání etických a neetických metod optimalizace pro vyhledávače. Na začátku práce je seznámení se samotnými vyhledávači a popis jejich motivace poskytování relevantních výsledků pro uživatele. V následující kapitole je obecně popsána disciplína SEO, přičemž SEO je vnímáno jako jeden z několika faktorů ovlivňující úspěšnost (cíl) 1 2
Přeloženo z anglického Search Engine Optimization (SEO) Search Engine Marketing (SEM)
11
webu, od historického pohledu vzniku optimalizace pro vyhledávače až po 2 základní kategorie dělení SEO (on-page a off-page faktory). Podíváme se i na to, zda se jedná jen o programátorské techniky nebo zda je potřeba ovládat i jiné metody. Tento pohled do podstatných základů SEO bude dále využit k lepšímu pochopení etických a neetických praktik. Čtvrtá kapitola přímo popisuje etické a neetické metody SEO, jejich použití, a případné penalizace ze stran vyhledávačů. Následující kapitola je věnována využití získaných teoretických znalostí, které jsou propojeny s reálnými příklady z praxe. Kapitola obsahuje popis optimalizace pomocí etických metod a také využití a možné zneužití Black hat praktik. Dále jsou uvedeny různé nástroje, které byly použity při optimalizaci webu firmy ROMAn s.r.o. a slouží pro usnadnění optimalizace. Pro správné pochopení některých částí této práce je potřeba, aby čtenář znal jazyk HTML a základy kaskádových stylů (CSS), případně i základy JavaScriptu.
12
2 Vyhledávače V České republice převládá vyhledávač Seznam.cz a Google3 viz Obrázek 1. Proto se v této práci při optimalizaci zaměříme právě na tyto dva nejvyužívanější vyhledávače a jejich výsledky hledání (SERP) viz Příloha 1: Search Engine Results Page. Je třeba podotknout, že se jedná o fulltextové vyhledávače nikoliv katalogy. Obrázek 1: Podíl vyhledávačů
Zdroj: http://toplist.cz/stat/?a=graph&type=4&lang=&year=&visitor_country_code=&server_country_ code= Abychom správně pochopili k čemu slouží optimalizace pro vyhledávače, je třeba objasnit hlavní motivaci vyhledávačů. Vyhledávače využívají uživatelé, kteří se s jejich pomocí snaží nalézt, co hledají. Proto používají osvědčené vyhledávače, které je k tomu dovedou. Hlavním důvodem, proč se Seznam.cz a Google snaží, aby právě jejich vyhledávač byl co nejpoužívanější, je zisk (příjmy ze zobrazování reklamy,...). Díky tomu, že konkurence je i mezi vyhledávači, proto se musí snažit zlepšovat výsledky hledání. Tento fakt zlepšování výsledků
3
Pod Google patří (v pojetí této práce): Google.cz, Google.sk a Google.com
13
hledání ovlivňuje změny v SEO - vyhledávače se snaží bránit podvodným stránkám, na kterých není to, co uživatel hledá (zpravidla stránky vytvořené pomocí neetických praktik), a naopak se co nejvíce snaží uživatelům nacházet ty nejrelevantnější stránky. V tento okamžik se dá říci, že překlad anglického Search Engine Optimization není úplně vhodný jako optimalizace pro vyhledávače, ale spíš se dá přeložit jako optimalizace pro hledající lidi [1].
2.1 Optimalizace pro vyhledávače nebo pro hledající lidi? Oba tyto překlady mají částečně pravdu. Proč? Jak bylo zmíněno výše, uživatel chce něco najít a vyhledávač mu to umožňuje. Uživatelé vědí (nebo třeba jen tuší) co chtějí vyhledat a požadují od vyhledávače, aby jim to nalezl. Právě v tomto okamžiku se rozhoduje o tom, zda vyhledávač zobrazí to, co uživatelé chtějí nalézt. Proto se musí vyhledávačům pomoci, aby mohly lépe rozpoznat, zda je daná stránka vhodnější či nikoliv. Člověk neocení, že jsou na stránce nadpisy s tagem h1, že má stránka vyplněný titulek nebo že je vyplněn description. To vše naopak pomůže robotovi pochopit, o čem je daná stránka, a tím se stává lépe nalezitelnou. Nedá se tedy přesně říci, který překlad je lepší nebo horší, ovšem při optimalizaci musíme myslet na obojí – vědět co a jak bude uživatel hledat a pomocí optimalizace stránek vysvětlit robotovi, že přesně „to“ najde na mých stránkách.
2.2 Robot Robot, spider (pavouk), crawler (prohledávač) všechny tyto názvy označují software, který prochází internetové stránky za účelem jejich indexace do své databáze, aby posléze v ní mohl vyhledat výsledek na hledaný dotaz od uživatele.
V této práci primárně zmiňované
vyhledavače Seznam a Google nazývají své roboty Seznambot a Googlebot. Práce robotů nebo spíš jejich algoritmů je každým vyhledávačem dobře střežena a tím není přesně známo, jak daný robot funguje (v opačném případě by bylo jednoduší odhalovat „slabiny“ vyhledávačů a podstrkávat mu podvodné stránky – Black Hat praktiky). Navíc se vyhledávací algoritmus v čase mění, protože je potřeba podávat uživateli čím dál více relevantnější výsledky. Robot při procházení objevuje nové a aktualizované stránky, které mají být přidány do indexu. Při své činnosti se řídí mnoha parametry jakými má jednotlivé stránky procházet např. které weby má procházet, jak často je má procházet a kolik stránek má z každého webu načíst. Při procházení robot ze všeho nejdříve potřebuje seznam adres URL webových stránek, který byl vygenerován při předchozím procházení. Robot tyto stránky navštíví a na každé jednotlivé stránce vyhledá odkazy (v atributech SRC a HREF) a přidá je na seznam stránek k procházení. 14
Nové stránky, změny stávajících stránek a nefunkční odkazy se zaznamenají a zaktualizují v indexu. [2] Jak bylo zmíněno výše, každý vyhledávač má vlastního robota, s vlastním algoritmem procházení a řazení internetových stránek. Tento fakt tedy stěžuje práci optimalizátora, protože to co se může „líbit“ jednomu vyhledávači, ten druhý může brát v nejhorším případě i za neetickou praktiku. Obecně lze říci, že to co je vhodné pro uživatele, je vhodné i pro robota. [1]
15
3 Co to je a jak funguje SEO „Optimalizace stránek se skrývá v tom, že své stránky a reklamy vytvoříte skutečně relevantní k vyhledávanému dotazu.“ [3] „Dobře provedené SEO pomáhá lidem najít přesně to, co chtějí najít.“ [4] Předchozí dvě věty velmi dobře popisují to o čem SEO je. Cílem SEO není být první ve výsledcích hledání na pár klíčových slov, jak občas bývá mylně prezentováno4, ale cíl SEO je totožný s cílem webu. [5] Ano, cílem webu je zpravidla jeho viditelnost a nalezitelnost pro ty, pro které je určen5.
3.1 Cíl webu Cílů webu bývá více, např. maximalizace zisku, maximalizace obratu/tržního podílu, informovat o značce, maximalizace návštěvnosti6 [5]. SEO slouží jako jedna z mnoha možností jak propagovat svůj web. Pro lepší představu kam SEO spadá, jak je možné dále propagovat web, čeho všeho je potřeba se „dotknout“, abychom mohli využít potenciál optimalizace pro vyhledávače naplno, slouží následující obrázek.
4 Pokud budu na prvních pozicích na klíčová slova, přes které nebude uživatel na náš web chodit nebo i když budu na prvních pozicích na slova přes které budu mít velikou návštěvnost, ale nedokážu na svých stránkách nabídnout uživateli kvalitní obsah, který hledá, tak je to v obou případech zbytečná ztráta času (peněz) věnovaná SEO. Proto se vždy musí přihlížet k cíli webu. 5 Např. Pro firmu prodávající protihlukové kryty na tepelná čerpadla je cílem, aby její stránky nalezli lidé hledající odhlučnění tepelného čerpadla. Ale už ne ti kteří hledají konkrétní typ tepelného čerpadla. 6 Dalšími cíli může být např. zobrazení reklamy, kliknutí na reklamu,…
16
Obrázek 2: Jak dosáhnout cíle webu
Zdroj: http://www.slideshare.net/mediocz/seo-11940000, vlastní zpracování Uživatelé přistupují na web pomocí jednoho ze zdrojů návštěvnosti viz předchozí obrázek (SEO je pouze jedním z nich). Dále je potřeba uživateli vysvětlit, že náš web je pro uživatele ten nejvhodnější. Tento pohled je tzv. širší pohled na problematiku optimalizace pro vyhledávače. [1]
17
3.1.1 Cíl optimalizace pro vyhledávače Jak bylo řečeno výše, cíl optimalizace pro vyhledávače je totožný s cílem webu, ale není jediným nástrojem, jak tohoto cíle dosáhnout. „Předmětem SEO je nalezitelnost informací a tedy optimalizace stránek pro hledající lidi. Prostředkem SEO je zviditelnit web tak, aby jej nacházelo co nejvíce dobře zacílených návštěvníků za přijatelné náklady.“ [5] SEO jako takové je disciplína, která se obejde i bez dalších zdrojů návštěvnosti a přitom přivede na web uživatele, ale ani sebelepší optimalizace nám nezaručí jedinou a nejlepší cestu k cíli webu7. Proto pokud chceme mít opravdu kvalitní web pro uživatele (a tím i pro vyhledávače), musíme se snažit co nejvíce splňovat vlastnosti webu z obrázku 2. Z toho vyplívá, že „co je dobré pro uživatele, je dobré i pro vyhledávače“. [5] SEO je v dnešní době důležité pro každý web, který chce být nejnavštěvovanější ve svém oboru.
3.2 Historie SEO Pro správné pochopení toho, proč SEO vzniklo, je třeba podívat se do historie. Vývoj SEO jde „ruku v ruce“ s vývojem internetu a hlavně s tím spojenými vyhledávači. Od okamžiku, kdy začaly vyhledávače řadit výsledky, začalo se přemýšlet, jak se posunout v pozicích SERP co nejvýše. Správci webů začali poznávat hodnocení jejich webů a tím jejich viditelnost ve výsledcích hledání. V ten samý okamžik začali vznikat jak etické, tak i neetické SEO praktiky. První zdokumentované použití fráze „optimalizace pro vyhledávače“ je z roku 1997 od Johna Audette ze společnocti Multimedia Marketing Group. [6]
3.3 On-page a off-page faktory Abychom pomohli robotům co nejlépe procházet naše stránky, nesmíme jim házet „klacky pod nohy“ např. místo obrázkového menu je lepší použít text, který se pomocí CSS stylů doladí i graficky. V dnešní konkurenčně nabité době si nemůžeme dovolit technické chyby. Proto je
Pokud pomocí dobře provedené optimalizace bude přistupovat na web velké množství uživatelů, ale nenaleznou to co hledají, k nalezení cíle webu to zpravidla nepovede.
7
18
potřeba se zaměřit na 2 základní kategorie optimalizace pro vyhledávače: on-page a off-page faktory.
3.3.1 On-page faktory Tyto faktory jsou přímo na stránce (ve zdrojovém kódu) a můžeme je jednoduše ovlivnit. Mezi on-page faktory patří titulek stránky, description, nadpisy, alternativní popisky u obrázků, podoba url, ale i samotný text atd. Vždy musí být vhodně zvolena a umístěna klíčová slova. Nyní se ukazuje, že SEO není jen o programátorských schopnostech, je také o psaní zajímavých textů (copywriting). On-page faktory je vhodné dále dělit na „technické překážky indexace; technické faktory; obsah, klíčová slova a struktura“ [5].
3.3.1.1 Technické překážky indexace V tomto případě se jedná o programátorské chyby, které nedovolí robotovi, aby procházel a indexoval stránky8. Zpravidla takovéto chyby vedou i k nesprávnému zobrazení stránek v prohlížeči. Proto pokud stránky nepřečte prohlížeč, je tedy skoro jisté, že tyto stránky nebude umět přečíst ani robot. Z toho důvodu je potřeba veškeré překážky indexace odstranit, bez toho nemá cenu pokračovat v jakékoli další optimalizaci pro vyhledávače, neboť v tomto případě nemá další význam optimalizaci řešit. 3.3.1.1.1 JavaScript, Flash „Pokud vám v zobrazení celého webu v textovém prohlížeči9 brání ozdobné funkce jako JavaScript10, soubory cookie, ID relace, rámce, DHTML nebo Flash, budou mít prohledávače vyhledávačů s procházením pravděpodobně problémy.“ [7] Robot nemá takový výkon, aby byl
Výjimku tvoří atributy nofollow a noindex, které se používají pro zakázání přístupu robotovi, pokud nechceme, aby stránky procházel a indexoval je. Pokud je na stránce použit atribut noindex, vyhledávač stránku nezaindexuje. 9 Textový prohlížeč načte stránky pouze jako text bez grafiky. Takový prohlížeč je např. Lynx 10 JavaScript je v dnešní době nedílnou součástí i kvalitních a dobře dohledatelných webů a není tím myšleno, že se jedná o „ozdobné funkce“. Ve smyslu ozdobných funkcí v JavaScriptu se jedná např. o navigační strukturu, text,… který je vkládán pomocí JavaSriptových funkcí a nemá k sobě alternativní text, tak aby mohl robot procházet odkazy, číst text atd. 8
19
schopen procházet veškeré Flashe, JavaScripty,… na všech webových stránkách na světe a hledat v nich textový obsah, který by mohl indexovat. Pokud je použito těchto prvků, je potřeba k nim mít vytvořený alternativní textový obsah, který robot může načíst. Mimo jiné i pro to, že uživatel může mít například v prohlížeči zakázaný JavaScript. 3.3.1.1.2 Duplicity Další překážkou je i duplicita stránek. Vyhledávače již nemají problém s tzv. přirozenou duplicitou jako je romansro.cz, romansro.cz/index.html, www.romansro.cz. V takovém případě si vyhledávač zvolí11 nebo může být i zvolen tvůrcem webu pomocí nastavení htaccess, jaký tvar url bude preferován. Problém nastává například u e-shopu v případě stránkování. První stránka s produkty má tvar example.com/produkty, druhá stránka produktů má tvar example.com/produkty?stranka=2, ale když z této stránky se uživatel proklikne zpět na stránku první, má již adresu example.com/produkty?stranka=1. Započítáme-li, že se zboží dá ještě řadit podle parametrů (od nejdražšího, podle názvu vzestupně atd.), tak najednou vzniká velké množství stránek s téměř totožným obsahem. A právě z důvodu velkého množství stránek se „skoro“ stejným obsahem, vyhledávač úplně všechny nezaindexuje, protože by to vedlo k přeplnění jeho indexu stejným obsahem. Řešení duplicit je tedy poměrně klíčové. Nejprve je třeba zvolit si výchozí tvar url a ostatní „klony“ je pak potřeba směřovat na tuto url pomocí přesměrování 30112, meta tagem noindex nebo ještě lépe využít kanonickou stránku. Kanonická stránka je upřednostňovaná verze ze sady stránek s velmi podobným obsahem. Je potřeba zadat do ostatních (nekanonických) stránek do sekce odkaz na stránku upřednostňovanou (kanonickou) např. v předchozím příkladě, pokud budeme chtít aby vyhledávač indexoval stránku example.com/produkty?stranka=1 nikoli example.com/produkty, vložíme
Pro vyhledávač Google lze zvolit preferovaný tvar url i v Nástrojích pro webmastery (https://www.google.com/webmasters/). 12 Přesměrování na straně serveru (odpověď serveru) - kód 301 znamená přesunuto napořád 11
20
Souvisí to i s vlastními – interními odkazy (odchozí odkazy směřující zpět na náš web – např. menu). Je potřeba si vybrat, jaký tvar budeme používat a poté ho dodržovat při vytváření odkazů, aby vždy směřovaly na správný tvar URL. Pokud si zvolíme, že chceme využívat URL s www, měly by být i odkazy směřovány na adresy s URL. 3.3.1.1.3 Validita kódu Kód by měl být validní, aby vyhledávač správně pochopil vše jak má, je ale potřeba, aby byl vždy bezchybný? Záleží jak moc je kód nevalidní – pokud ho může přeložit kdejaký prohlížeč, s největší pravděpodobností ho přeloží i robot. Nejlépe si to ukážeme na příkladu: pokud zadáme do vyhledávače slovo „valydator“ nabídne nám vyhledávač Google přímo na prvním13 místě odkaz http://kesolim.sweb.cz/validator_je_prima/. Při důkladnějším prozkoumání a za použití validátoru W3C14 zjistíme, že tato stránka obsahuje 287 chyb, 60 varování a přesto jí Google zobrazil hned na první pozici. Pomocí tohoto příkladu jsme si ukázali, že i nevalidní web je indexován a je dohledatelný na předních pozicích. Validita webu tedy není „parametr“, kterým by vyhledávače hodnotily. Pokud bude kód webu natolik „nečitelný“ pro vyhledávacího robota, že ho nepřeloží nebo přeloží špatně, pak ho nemůže správně zaindexovat. 3.3.1.1.4 Velikost stránky a rychlost Především vyhledávač Google má rád stránky, které nabídnou svůj obsah uživateli rychle, proto je vhodné mít stránky na kvalitním (rychlém) serveru a stránky jako takové, mít co nejmenší (datová velikost by měla odpovídat obsahu). Velikost se dá velmi ovlivnit použitím externích CSS stylů15. „Rychlé weby jsou pro uživatele příjemnější a zvyšují kvalitu celé sítě World Wide Web.“ [9] Není to jen o vyhledávači – i uživatelé jsou rádi, pokud se jim stránky načítají rychle, převážně pokud mají pomalejší připojení např. čím dál častěji využívaný mobilní internet.
Testováno dne 7. 11. 2012. http://validator.w3.org 15 To platí i pro Javascript – co je možné mít v externím souboru, tak ať to tam je. 13 14
21
3.3.1.2 Technické faktory „Vyladěné“ technické faktory nejsou až tak důležitým krokem jako odstranění technických překážek indexace, ale svoji úlohu plní. Technické faktory pomáhají robotovi správně určit strukturu kódu. Opět se tedy jedná hlavně o programátorskou činnost. Do technických faktorů spadá správné využívání nadpisů (
,
,…), odstavců (
,
), formátování písma (<strong>, , <em>,…) a také tvar adresy URL. Každou stránku je potřeba optimalizovat pouze na omezený počet klíčových slov a zároveň je potřeba, aby každá stránka byla optimalizována na jiná slova. 3.3.1.2.1 Zázračný SEO HTML tag [10] Ano, existuje a setkáme se s ním více v praktické části této práce. Tímto tagem je titulek . Vyhledávače berou titulek jako nejdůležitější parametr stránky, proto je potřeba mu věnovat dostatečnou péči. Titulek stejný pro celý web je velkou chybou. V titulku musí být stručně napsáno, o čem stránka je, čím kratší, tím lepší16. Titulek se zapisuje do hlavičky dokumentu a může být obsažen pouze jednou na každé stránce. Dalším významným prvkem stránky (i když s menším významem než titulek) je nadpis první úrovně
. Nadpis první úrovně by měl být na stránce pouze jednou a podobně jako u titulku má vystihovat, o čem stránka je. Vyskytuje se ještě jeden prvek, který bývá často zobrazen, aniž by jsme to vždy předpokládali. Ve výsledcích hledání (SERP) se často zobrazí nejen titulek stránky, ale i popis stránky, který buď vygeneruje sám vyhledávač z textu na stránce nebo použije (pokud je vyplněn) text z meta tagu description. Zde by měl být uveden rozsáhlejší popisek stránky do cca 200 znaků. U description se ale nedá říci, že by byl zásadně významným pro umístění webu. Jednoduše si lze vyzkoušet, že pokud zadám text z description do vyhledávače, ve většině případů17 vyhledávač stránku nenalezne.
16 Vyhledávač rozděluje sílu titulku mezi počet slov, proto tedy pokud bude obsahovat titulek jedno slovo dostane celou váhu, pokud deset slov, tak každé získá pouze jednu čtvrtinu váhy. Proto je i vhodné dávat do titulku klíčová slova dané stránky. 17 Záleží na obsahu klíčových slov – pokud bude popisek jednoslovný (případně fráze), tak se dá předpokládat, že vyhledávač stránku nalezne (pokud je optimalizována právě na toto slovo či frázi.)
22
3.3.1.2.2 Tvar adresy URL http://www.example.com/view.php?cisloclanku=2005082202&rstem a=24
i takto může vypadat adresa URL. Na první pohled je to adresa pro člověka
nezapamatovatelná a není z ní vidět, o co se vlastně jedná. Jak bylo zmiňováno na začátku práce – co je vhodné pro člověka, je vhodné i pro vyhledávač, proto je lepší používat „hezké“ tvary URL. Např. http://www.example.com/samsung-ht-e350.html. U takovéhoto tvaru je vetší šance, že si ji může zapamatovat i člověk (je to název produktu), ale hlavní výhoda - na první pohled je zde i pro robota vidět, o čem stránka je. Stránku s konkrétním výrobkem je vhodné optimalizovat na daný výrobek, nikoliv na to, že se jedná o domácí kino nebo že to obecně spadá pod audio-video. Pro kategorii domácí kino je potřeba optimalizovat samotnou stránku např. http://www.example.com/domaci-kina, stejně jako pro konkrétní výrobek.
3.3.1.3 Obsah, klíčová slova, struktura Předchozí čistě programátorské techniky je třeba rozšířit o další potřebné znalosti. Dobře naprogramovaný web se špatným obsahem nás k cíli webu nedovede. Významným faktorem je správné použití klíčových slov. Už nyní víme z předchozích kapitol, že je vhodné klíčová slova vkládat do titulku stránky atd. Dále se ale dozvíme, jaká slova zvolit, aby obstála v konkurenčním boji. 3.3.1.3.1 Klíčová slova Klíčová slova, aneb jak se uživatelé ptají vyhledávače, když hledají dané stránky. Pokud neznám klíčová slova, pod kterými uživatelé vyhledávají (budou vyhledávat) dané stránky, není poté možné stránky optimalizovat! Nevhodně zvolená klíčová slova mohou možná i přivést uživatele, ale nikoliv je „udržet“, protože nenaleznou, co hledali a tím ani není splněn cíl webu. [5] Například dotaz „facebook“ vyhledává seznam.cz v průměru 3 363 272x za týden18. Ale je otázkou, pokud by se podařilo zviditelnit19 web natolik, aby na něj uživatelé chodili právě přes
Statistika ze dne 27.11.2012, dostupná z http://search.seznam.cz/stats?collocation=facebook Seznam nalezl na výsledek hledání 752 233 174 odkazů v SERP. Z toho vyplývá velmi vysoká konkurence a tudíž je hodně složité a drahé (časově i finančně) zviditelnit web právě na toto slovo.
18 19
23
klíčové slovo facebook, zda by to pro ně mělo nějaký přínos, pokud na webu najdou informace s facebookem absolutně nesouvisející např. stránky zaměřené na protihlukové ploty. Z výše uvedeného příkladu je vidět, jak moc je důležité umět správně zanalyzovat klíčová slova vhodná pro daný web. Z důvodu vysoké důležitosti tohoto tématu je detailnější postup, jak získat správná klíčová slova, popsán v kapitole 3.4 Analýza klíčových slov. 3.3.1.3.2 Struktura webu a odkazy Struktura webu navazuje na analýzu klíčových slov. Důvody proč je nejprve potřeba znát klíčová slova a teprve až poté tvořit vlastní strukturu webu jsou: •
každá stránka je potřeba optimalizovat pouze na úzkou skupinu klíčových slov
•
každá stránka je potřeba optimalizovat na jiná klíčová slova20 Správná struktura webu musí nabídnout co největší pokrytí všech klíčových slov21. Je tedy
třeba nejprve „umístit“ klíčová slova do stránek a teprve poté z toho vyvodit navigační strukturu, případně i grafiku webu. Navigační struktura – to jsou odkazy, které jsou podstatnou částí optimalizace. Odkaz je další místo, kam je vhodné umístit klíčové slovo – označuje se jako anchor text (text odkazu). Aby toto fungovalo, odkaz musí být v textové podobě, jak bylo zmiňováno v kapitole Technické překážky indexace. Text odkazu říká nejen uživateli, ale i robotovi, kam se po kliknutí dostane a tím vzniká velmi užitečná informace. Pokud zvolíme špatný anchor text (odkazovaná stránka s tímto textem nijak nesouvisí), bude ho robot ignorovat stejně tak, jako uživatel půjde hledat jinam. 3.3.1.3.3 Přístupnost a optimalizace obrázků Kromě samotného textu je možné a i vhodné „optimalizovat“ obrázky. Vyhledavač neumí a ani nemůže umět přesně poznat, co je na obrázku. Proto je potřeba vyplnit u obrázku alt
20 Pokud vezmete jakékoli klíčové slovo, na které optimalizujete web, musíte být schopni přesně určit jednu konkrétní stránku, která je na toto slovo optimalizována - relevantní. Pokud ne, pravděpodobně nebude ani vyhledávač schopen určit právě tu relevantní stránku. [5] 21 Př.: Pokud optimalizuji pro uživatele hledající „protihlukovou stěnu“ k domu aby se mu snížil hluk z ulice, tím pádem je třeba mít stránku optimalizovanou na protihlukové stěny. Ale přitom pokud uživatel nezná pojem protihluková stěna a použije místo toho „protihlukový plot“, je potřeba mít (nejlépe jinou) stránku optimalizovanou právě na protihlukové ploty. A další varianty jako protihlukové plotové dílce atd.
24
(alternativní text) – výstižný popis obrázku, ne však jeho název např.
alt="Zasněžené
hřebeny
Krkonoš,
při
pohledu
ze
Sněžky">. Tento popisek neslouží jen vyhledávačům k pochopení co je na daném obrázku, ale jedná se o prvek tzv. přístupnosti, který ocení hlavně zrakově hendikepovaní, kteří pomocí čteček písma mají šanci si poslechnout, o čem daný obrázek je. 3.3.1.3.4 Dokumenty Vyhledávače umí procházet i obsah dokumentů, jako je pdf, textové soubory, prezentace atd. Ve výsledcích hledání dávají zpravidla přednost bezprostředně webovým stránkám, ale pokud nenaleznou relevantní odpověď přímo na stránkách, nabídnou uživateli i dokumenty. Opět platí, aby vyhledávač dokázal dokument indexovat, musí na něj vést odkaz.
3.3.2 Off-page faktory Jak již název napovídá, jedná se o faktory, které se nevyskytují přímo na stránce. Ale i tak je můžeme ovlivnit. Off-page faktory se již netýkají programování, ale převážně jde o kvalitní odkazy s vhodně zvoleným anchor textem z externích stránek na naše stránky. Kapitola o odkazech a anchor textu je zmiňována i v on-page faktorech (interní odkazy), ale nyní se budeme věnovat odkazům z našich stránek na stránky externí (odchozí odkazy).
3.3.2.1 Linkbuilding (zpětné, příchozí odkazy) Relevance stránky je tím větší, čím více relevantních stránek na ni odkazuje – tato relevantnost je vyjadřována hodnotou ranku (více o ranku v kapitole 3.3.2.2 Rank). Tvorba zpětných odkazů (linkbuilding) se dělí na dvě kategorie – aktivní a pasivní. Jak již víme z předešlých kapitol, jako výhodnější je pro nás získat odkaz s tzv. anchor textem. Pokud získáme odkaz stylu „Pro více informací o odhlučnění klikněte zde“, toto bude vyhledávač chápat tak, že na odkazované stránce se dozví něco o „zde“. Je tedy výhodnější mít odkaz např. „Nabízíme vám odhlučnění.“ Z tohoto odkazu vyhledávač na první pohled vidí, co se má nacházet na odkazované stránce. Pokud to na odkazované stránce vyhledávač najde, zvýší hodnocení odkázané stránky na klíčové slovo „odhlučnění“.
25
Dalším parametrem je příbuznost dané stránky. Zpravidla i reklama v odborných časopisech bývá směřována na konkrétní cílovou skupinu, proto i vyhledávače dávají přednost (lepší hodnocení) odkazům z tématicky příbuzných webů, protože je to věrohodnější než odkaz z tématicky jiného webu22. Aby to fungovalo správně (tedy pro roboty), je potřeba, aby odkaz neměl nastaven atribut rel=”nofollow“23. Navíc „světe div se, přes odkazy chodí i uživatelé“ [5] nejen vyhledávací robot. Pokud tyto uživatele odkaz zaujme natolik, že na něj kliknou, zpravidla mají o dané téma zájem. 3.3.2.1.1 Aktivní linkbuilding Aktivní linkbuilding znamená naší aktivní snahu získávání zpětných odkazů. Může to být: domluva s jinými majiteli webů, aby s námi odkaz vyměnili; nákup zpětných odkazů; registrace stránek do různých katalogů. 3.3.2.1.2 Pasivní linkbuilding Ovšem lepší metodou než „uměle vytvářené odkazy“ je přesvědčení ostatních uživatelů, aby odkazovali na nás sami a dobrovolně. Toto přesvědčení uživatelů, ale není vůbec jednoduché, a proto se i vyhledávače snaží zaměřit právě na tuto metodu linkbuildingu, neboť je to zcela přirozené tvoření zpětných odkazů a právě přirozenost mají vyhledávače rádi. Aby někdo dobrovolně odkazoval na naše stránky, musí na nich najít to co hledá a musí ho to zaujmout natolik, že na naše stránky odkáže. Zpravidla je to díky kvalitnímu obsahu, který jinde nenajde a chce se o to podělit s ostatními. Předpoklady proto jsou kvalitní informační obsah, poutavý a výstižný titulek, trvalé URL, linkbaiting. [11] 3.3.2.1.2.1
Linkbaiting
Metoda, jak nalákat uživatele aby odkazovali na moje stránky, přičemž cílem není primárně zvýšení tržeb jako u linkbuildingu, ale získání co největšího množství zpětných odkazů. Pokud se o našem webu začne hodně psát, všimne si toho i vyhledávač a bude náš web lépe hodnotit.
Portál o silničních a železničních stavbách bude určitě vhodnější pro odkaz na „protihlukové stěny“ než např. e-shop s elektronikou. 23 Omezení robota – nenásleduj více v samostatné kapitole Nofollow a noindex. 22
26
Možnosti jak provádět linkbaiting: vytvoření užitečné aplikace (kalkulačka na výpočet ohniskové vzdálenosti pro fotografy, kurzy měn, měřič rychlosti připojení,…); kontroverzní obsah (vyvolávající diskuze); zábavné kvízy, testy a soutěže; buďte první a aktuální (pokud objevíte nějakou mezeru na trhu) atd. [11]
3.3.2.2 Rank „Vyhledávače používají pro ohodnocení internetových stránek různé hodnotící systémy. Jedním z hodnotících systémů je i předělování tzv. ranku (Seznam uděluje stránkám S-rank, Google uděluje PageRank atp.). Rank je počítán z off-page faktorů a vyhledávače oficiálně nezveřejňují jeho přesnou hodnotu. Lze však zjistit alespoň přibližnou hodnotu.“ [11] Přibližnou hodnotu ranku je
možné
zjistit
po
doinstalování
Lištičky
do
prohlížeče
od
Seznamu:
http://software.seznam.cz/listicka pro zjištění S-ranku nebo Google Toolbaru od Googlu: http://toolbar.google.com/ pro zjištění PageRanku. Jedná se pouze o jeden z mnoha faktorů ovlivňující SERP, tedy ani nejvyšší rank nám nezaručí nejlepší viditelnost a tím návštěvnost stránek. Hodnota ranku říká, jaké množství a jak kvalitních odkazů vede na stránky. Opět toto hodnotí algoritmus, který je neveřejný a navíc zobrazuje veřejnou hodnotu ranku se zpožděním24.
3.3.2.3 Odchozí odkazy Nejen příchozí odkazy, ale i odchozí odkazy mohou pomoci, ale i uškodit. Pokud web odkazuje na tématicky příbuzné a obsahově hodnotné stránky, stává se více důvěryhodným a především přínosným pro uživatele, protože má šanci, získat potřebné informace (třebaže je nakonec odkázán na jiný web). Naopak odkazy vedoucí na neexistující stránky25 či podvodné weby jsou pro uživatele matoucí, z tohoto důvodu i vyhledávače snižují hodnocení webu, ze kterého se odkazuje, protože odchozí odkazy jsou ve správě majitele webu a může je ovlivnit. [5]
V opačném případě by se dalo jednodušeji prolomit daný algoritmus – pomocí změn na stránkách a v odkazech zkoumat, jak se rank zachová. 25 V nejhorším možném případě: neexistující stránky na vlastním webu. 24
27
Neexistující stránky mají vracet jako odpověď serveru kód 404 – požadovaná stránka neexistuje, ovšem může se stát špatným nastavením ze strany hostingu (serveru), že odpověď je 200. Kód 200 znamená úspěšný požadavek a najednou nastává problém s duplicitami (zobrazují se stejně vypadající neexistující stránky, které jsou mezi sebou navzájem duplicitní). Řešení je správné nastavení serveru, aby vyhledávač dostával správné informace. Aby nedocházelo ke zneužívání ochozích odkazů například v diskuzích (všude, kde uživatelé mohou vkládat viditelný obsah), mohou webmasteři využívat obranu proti spamování pomocí atributu rel=”nofollow“ a zamezit tím robotovi následovat odkazy. 3.3.2.3.1 Nofollow a noindex – zakázání přístupu vyhledávačům Pokud máme web, který nechceme, aby byl indexován vyhledávačem (nikoliv nedohledatelný), například fotogalerie z rodinné dovolené, můžeme robotovi nadefinovat tuto informaci do souboru robots.txt, který umístíme do kořenového adresáře webu. Případně lze použít
i
meta
tag
v hlavičce
webu
nebo
v této
práci
často
zmiňovaný
atribut
rel=”nofollow“, který se nastavuje přímo jednotlivým odkazům. Vyhledávače chápou noindex jako pokyn k neindexování dané stránky. Nofollow vyhledávače chápou tak, že nemají přes daný odkaz přejít na další web. Zároveň nepřechází přes takovýto odkaz rank na odkazovanou stránku – dá se říci, že z pohledu robota je tento odkaz bezcenný, ale stále je to odkaz, přes který se dostávají uživatelé.
3.3.2.4 Stáří webu Svou podstatnou úlohu hraje i stáří webu (stáří domény). Starší a dlouhodobě udržované weby mají zajisté váhu i pro uživatele. Uživatel se může spolehnout, že na webu najde „udržované“ informace související s tematičností webu. Proto i vyhledávače hodnotí z dlouhodobého hlediska lépe starší web před nově vzniklým. Nový web, pokud se chce prosadit, musí se snažit nabídnout zajímavější a pro uživatele užitečnější informace.
28
3.4 Analýza klíčových slov Nejdůležitější částí optimalizace pro vyhledávače je znalost klíčových slov, na která je vhodné optimalizovat. Z tohoto důvodu je třeba provést analýzu klíčových slov, jejíž cílem je zmapovat, pomocí kterých klíčových slov se snaží uživatelé hledat moje stránky. Základní klíčová slova zpravidla přímo souvisí s nabízeným zbožím či službami, názvem firmy26 atd. Avšak takto získaná obecná klíčová slova bývají sice dosti hledaná, ale tím i velmi konkurenční, a proto je zviditelnění stránek na tato obecná klíčová slova náročné a drahé. A ani první příčky na obecná klíčová slova nezaručí, že se z uživatele stane zákazník. Neboť kdo hledá „okna“ nemusí si nutně chtít koupit nová okna, naopak uživatel hledající „plastová okna ceník Praha“ je potencionálním zákazníkem. Právě klíčové slovo „plastová okna ceník Praha“ není obecná fráze, ale konkrétní a popisnější fráze tzv. dlouhý ocas.
3.4.1 Dlouhý ocas Dlouhý ocas (Long tail) nebo též dlouhý chvost je označení klíčových slov (slovních frází), která jsou poměrně málo hledaná, ale takových slov je zpravidla větší množství oproti obecným klíčovým slovům. „Z dlouhodobých statistik vyplývá, že i když na hlavní klíčová slova vás bude hledat velké množství lidí, na méně konkurenční slova z ocasu vás může najít v absolutním počtu mnohem více návštěvníků.“ [11] Opět to souvisí s cílem webu – není až tak důležité být na prvních pozicích na pár klíčových slov, ale důležité je být viditelný na veškeré dotazy, pod kterými uživatelé hledají naše stránky. Důvod, proč tomu tak je, je jednoduchý – méně hledanou frázi vyhledává zpravidla uživatel, který už ví, co chce a tím vzniká vyšší konverzní poměr27. Obrázek 3: Dlouhý ocas v SEO
Ne vždy se optimalizuje na název firmy – zpravidla pokud z názvu firmy nevyplývá obor její činnosti (např. ROMAn s.r.o.). Naopak pokud je název firmy v povědomí veřejnosti, je tudíž vhodným klíčovým slovem (např. Nokia). 27 Přeměna z uživatele na zákazníka. 26
3.4.2 Nástroje pro analýzu klíčových slov Některá klíčová slova (hlavně obecná – velmi konkurenční) nás napadnou pravděpodobně sama28. Ovšem ne vždy se dá přesně říci, jak se uživatelé ptají, pokud hledají klíčová slova. K tomuto nám mohou posloužit nástroje, které slouží pro tvorbu PPC reklam. Pokud PPC reklamu tvoříme opravdu poctivě, měla by zahrnovat velkou část dlouhého ocasu. Nástroje pro tvorbu PPC reklam jsou na Seznamu (sklik) dostupné z https://www.sklik.cz/; u Googlu (AdWords) dostupné z: https://adwords.google.com/. Oba tyto nástroje po zadání obecných klíčových slov nám dokážou navrhnout různá synonyma a víceslovná spojení, včetně
28
Firma zabývající se odhlučněním a protihlukovými materiály bude mít i tato dvě klíčová slova.
30
statistik hledanosti, konkurence aj. Tímto způsobem můžeme získat velké množství informací (klíčových slov) o tom, jak se uživatelé ptají vyhledávačů29, které jsou vhodné pro optimalizaci. Další možností je využívat našeptávač (viz Příloha 1: Search Engine Results Page) jednotlivých vyhledávačů – při zadání klíčového slova nabídne i další možnosti, které jsou uživateli vyhledávány. Potřebujeme tedy získat klíčová slova, pod kterými by mohli uživatelé vyhledávat naše stránky, proto můžeme oslovit i přímo uživatele.
Např. při zadání „odhlučnění“ nabízí Google mimo jiné i klíčové slovo „zvuková izolace“, které s původním nemá společný ani kořen slova.
29
31
4 White hat a Black hat SEO praktiky V předchozí kapitole „Co to je SEO“ jsme se dozvěděli, kde všude je vhodné vkládat zvolená klíčová slova, jak zpříjemnit robotovi indexaci webu a hlavně to, že cíl SEO je totožný s cílem webu. Existují ale různé praktiky, jak využít potenciál zmiňovaných metod. Jak tomu již ve světě bývá, k cíli se dá dojít „poctivě“ v našem případě pomocí etických (White hat) metod, ale také „nepoctivě“ pomocí neetických a podvodných (Black hat) metod. Již víme, že vyhledávače se snaží uživatelům nacházet co nejkvalitnější obsah, a proto se snaží zabraňovat podvodným a neetickým praktikám. Jejich snažení je čím dál více úspěšnější v odhalování Black hat metod, ale ukážeme si, že ne vždy je jednoduché takové praktiky odhalit, je tedy zde prostor pro „obelhávání“ robotů, ale tím i uživatelů. Black hat praktiky nejsou postihovány zákony, z tohoto důvodu zůstává rozpoznávání podvodných stránek jen na vyhledávačích30 a případně i jejich uživatelích31. Technika SEO je považována za etickou, pokud je v souladu s pokyny vyhledávačů. Etické metody nejsou jen o následování pokynů, ale o zajištění, že je obsah stejný a dostupný, jak pro robota, tak uživatele. Naopak neetické metody se snaží zlepšit hodnocení stránky podvody, například skrytým textem, který zobrazuje pouze robotovi nikoliv uživateli nebo podstrkávání jiné stránky uživateli a jiné robotovi. [6]
4.1 White hat SEO Etické a vyhledávači doporučené praktiky využívané k optimalizaci webových stránek. Jedná se především o praktiky popisované v kapitolách On-page a Off-page faktory. Přičemž cílem této optimalizace je dlouhodobě udržitelný rozvoj webu – dlouhodobě viditelný a nalezitelný web obsahující přínosné informace pro uživatele.
Vyhledávač může penalizovat takové stránky např. snížením hodnocení nebo vyřazením z indexu. Podvodné stránky může nahlásit i uživatel (Spam report). Pro Google je to stránka http://www.google.cz/contact/spamreport.html; pro Seznam.cz je to stránka http://search.seznam.cz/nahlasit-spam. 30 31
32
Vyhledávači doporučované praktiky nejen k SEO, ale obecně také k tvorbě webových stránek jsou na rozdíl od jejich vyhledávacích algoritmů veřejné.
4.1.1 Doporučené praktiky od Seznam.cz a Google Oba největší vyhledavače v České republice nabízí „nápovědu“ pro tvůrce webu, jak optimalizovat web. Při porovnání obou dokumentů se dozvíte, že si jsou hodně podobné. Mezi doporučené postupy mimo jiné patří: •
jedinečný a výstižný titulek stránky (title),
•
vyplněný popis stránky – description,
•
„hezká“ struktura URL,
•
navigace pomocí jednoznačného textu (nikoli JavaScript, obrázky,…),
•
akvalitní a zajímavý obsah [12], [13]. Ačkoliv oba vyhledávače doporučují prakticky totéž, stále má každý vlastní algoritmus pro
vyhledávání, a proto se stejné webové stránky zobrazují na stejné klíčové slovo v SERP, obvykle však na jiné pozici.
4.2 Black hat SEO Neetické metody, které se snaží vyhledávače penalizovat, protože zpravidla podvodně vytvářené stránky za účelem lepší viditelnosti a nalezitelnosti (SEO) neobsahují to, co uživatel hledá (nejsou relevantní) se dají nazvat spamem. Využívání těchto technik tím pádem nemůže vést k dlouhodobě vysokým pozicím v SERP, proto je jejich využívání riskantní pro dlouhodobější cíle. Ačkoliv můžeme nalézt slabinu v algoritmu robota, už však nemůžeme ovlivnit, kdy se algoritmus změní, slabinu odstraní a naše stránky penalizuje. Proto je důležité si hned na začátku položit otázku, zda se mi vyplatí investovat částku X do podvodných SEO praktik, které nejsou z dlouhodobého hlediska perspektivní nebo tu samou částku X investovat do dlouhodobě udržitelného růstu webu. Proč se ale využívá podvodných praktik? Pokud chceme vytvořit stránky, které mají za cíl webu v krátké době informovat (jednorázové akce) co největší množství uživatelů a nezáleží nám na dlouhodobější strategii webu, je tedy možné tyto praktiky využít. Pokud vyhledávač nepřijde na neetické metody včas, máme šanci na úspěch, i když časem na podvodné praktiky přijde, web tím ztratí svou důvěryhodnost a vyhledávač ho penalizuje.
4.2.1 Neetické nebo zakázané praktiky Doposud jsme nerozlišovali pojem zakázané praktiky a neetické praktiky – pro základní pochopení Black hat SEO stačilo, že se jedná o totéž. Při bližším porovnání ovšem přijdeme na to, že se jedná o dvě skupiny. 33
4.2.1.1 Neetické praktiky Mezi neetické praktiky optimalizace pro vyhledávače patří metody, které vyhledávač sice nepenalizuje, ale jsou přitom nemorální. Jako nejjednodušší, ale hojně využívané je spamování v diskuzích (nerelevantní odpovědi na dotazy s propagací svého webu; uvádění zpětných odkazů na web, který s tématem nesouvisí,…). Některé neetické praktiky mohou být postihovány zákonem (zpravidla se jedná o klamání uživatele).
4.2.1.2 Zakázané praktiky Zakázané praktiky jsou zajisté neetické, ale zakázané jsou proto, že je vyhledávače za jejich používání penalizují. Jak již víme, cílem vyhledávače je nabízet relevantní výsledky na dotazy uživatele, proto přistupují k penalizaci stránek, které jsou vytvořené se záměrem oklamat vyhledávač a uživatele, čímž se stávají nerelevantními a tím i snižují důvěryhodnost samotného vyhledávače (pokud je zobrazuje v SERP). Popis zakázaných praktik je v následující kapitole.
4.2.2 Zakázané Black hat praktiky V této kapitole přistoupíme k popisu různých praktik, od triviálních až po náročné, využívaných pro podvodné jednání.
4.2.2.1 Doorway pages (podvodné vstupní stránky) a přesměrování Doorway pages, neboli vstupní stránky, jsou speciálně navržené stránky sloužící k získání vysokého hodnocení od vyhledávače. Tyto stránky jsou tvořeny velkým množstvím nerelevantních informací, ale jsou optimalizované na určitá klíčová slova. Stránky jsou dále obdařeny velkým množstvím reklamy a odkazů z PPC systémů, za účelem zisku právě ze zobrazování reklamy a prokliků. Druhou variantou je „taková doorway stránka, která má v sobě ukrytý iframe se stránkou, která není až tak dobře optimalizovaná, ale zato je viditelná návštěvníkům. Vyhledávač vidí pouze vysoce optimalizovanou doorway stránku“. [3] Dalším druhem zneužití doorway pages je přesměrování. Začátek je stejný jako v předchozím případě – stránka za účelem nalákat uživatele. Ovšem po kliknutí na výsledek v SERP se místo takovéto stránky uživatel ocitne na webu úplně jiném – podvodná doorway page ho přesměrovala. [14] Tato praktika je velice podlá, jelikož pokud ji vyhledávač odhalí, penalizuje sice tuto podvodnou stránku, ale už nepenalizuje stránku, na kterou vede přesměrování. Kdyby penalizoval i odkazovanou stránku, mohlo by to mít za následek penalizaci úplně nevinného webu. Pokud by nekalý konkurent vytvořil velké množství doorway pages s přesměrováním na naše stránky, v podstatě by tím „přikázal“ robotovi, aby náš web penalizoval. 34
4.2.2.1.1 Přesměrování Přesměrování je velmi náchylné na zneužití. Tato metoda se využívá i v případech čistě etických (například při zamezení duplicit). V pojmu Black hat se ale jedná o podstrčení jiné stránky, než kterou uživatel zadal s úmyslem odlákat vyhledávač od špatně optimalizované – podstrčené stránky. Přesměrování JavaScriptem je (jak již víme JavaScript patří mezi technické překážky indexace,
protože
ho
vyhledávače
neprocházejí)
například
pomocí
<script>
window.location.href=http://example.com/podvodna-stranka.html . Nebo v dnešní době méně využívaným32 meta tagem refresh v hlavičce stránky: <meta
http-equiv="refresh"
content="0;url=http://example.com/podvodna-stranka.html">. Nejúčinnější metoda je přesměrování na straně serveru. Opět se tato metoda používá běžně pro etické metody, např. při stěhování stránek na jinou doménu. Možností jak takovéto přesměrování
provést
je
/puvodni_stranka.html
více
-
například
s využitím
mod_alias33:
Redirect
http://example.com/podvodna-stranka.html.
[15],
[14]
4.2.2.2 Skrytý a malý text Poměrně jednoduchá metoda jak na webovou stránku umístit co nejvíce optimalizovaného textu – klíčových slov pro robota a přitom poskytnout uživateli normální obsah. Vzhledem k tomu, že obsah dokumentu je důležitým parametrem při hodnocení relevantnosti je tato metoda hojně zneužívaná. Skrytý text je takový, který se nezobrazuje uživateli, ale je na stránkách pro robota. Skrytý text se nejjednodušeji vytvoří stejnou barvou písma a pozadí. Barva písma se dá nastavit i pomocí CSS, aby robotovi déle trvalo, než na takovou techniku přijde. CSS styly lze i nastavit vlastnost viditelnosti na skrytý:
. Další možností je JavaScript je možné v prohlížeči zakázat a tím se přesměrování neprovede na rozdíl od meta tagu refresh. Meta tag refresh naopak vyhledávače umí v dnešní době rozpoznat dobře, a proto se už pro Black hat praktiky moc nehodí. 33 Pro zápis se využívá na serveru Apache soubor .htaccess. 32
35
překrýt text obrázkem. Tato technika se může používat i pro vytváření odkazů, které jak již víme, se správným anchor textem vedou k vyššímu hodnocení. Nebo naopak je možné vložit i text, který uvidí pouze uživatelé například pomocí JavaScriptu nebo jako obrázek, pod který je možné schovat text optimalizovaný pro vyhledávače. Malý text je text, který má co nejmenší velikost písma např. 1px. Opět jde o zobrazení textu robotovi, ale už ne pro uživatele.
4.2.2.3 Cloaking (maskování, podstrkávání) Tato praktika využívá znalosti o příchozím na stránky. Pokud na stránku přistoupí robot, dostane podstrčenou stránku s jiným obsahem, než kterou dostane uživatel. Samozřejmě pro robota je připravená relevantnější stránka plná klíčových slov, kterou by uživatel považoval za naprosto nevhodnou a nepřínosnou. Cloaking, ale může být myšlen zcela eticky. Možností využití podstrkávání s etickou myšlenkou je automaticky uživateli „podstrčit“ (podle rozpoznané IP adresy)
správnou
jazykovou mutaci. Ovšem může být takovéto jednání považováno za zakázané a hrozí penalizace. Tato metoda není pro robota těžko odhalitelná, protože pokud na ní přistupuje pod správným označením user-agent:
”Googlebot“, dostane automaticky podstrčenou
stránku. Ale i robot ve snaze odhalování podvodných praktik může využít lest a přistoupit bez označení, aby vypadal jako obyčejný uživatel a získá tak rozdílný obsah, což povede opět k penalizaci.
4.2.2.4 Link farmy (odkazové farmy) Uměle vytvořené stránky za účelem tvorby odkazů linkbuilding v aktivní podobě. Odkazy jako takové nám mohou pomoci zlepšit hodnocení od vyhledávače. Proto se vytváří navzájem prolinkované weby, které mají za účel získat zajímavé pozice v SERP. Obyčejně takto vytvořené stránky nepřinášejí žádnou uživatelskou hodnotu, ale pokud se na ně uživatel dostane, je dále buď přesměrován nebo jednodušeji pomocí odkazu navigován na jiné uživatelsky přívětivější stránky, kde může (ale nemusí) získat hledané informace. [3] Riziko penalizace je opět na straně link farmy, která pokud bude penalizována, webmaster si tak vytvoří podobnou (nebo i tu samou) na jiné doméně. Problém s penalizací našich stránek nastává, pokud sami odkazujeme na takové link farmy viz kapitola Odchozí odkazy.
4.2.2.5 Page hijacking (kopírování a vykrádání cizích webů) Jedná se o „únos webu“ nebo jednoduše řečeno zkopírování známé a důvěryhodné stránky, která zavede uživatele na podvodný web. Tato technika není vůbec jednoduchá, protože je potřeba potýkat se s duplicitami (duplicitní stránky), které vykladače neakceptují. Pokud se povede podvodný web dostat do výsledků hledání, je možné, že na nějakou dobu může 36
vyhledávač ignorovat (vyřadit z SERP) web originální. Rázem už to není jen o vyhledávačích, ale může se jednat o trestný čin postihovaný zákonem. [14]
4.2.3 Neetické Black hat praktiky Protože rozdělujeme Black hat praktiky na zakázané a neetické, je vhodné více přiblížit i některé neetické praktiky.
4.2.3.1 Zneužití cizího jména a značek v systémech PPC Praktika, která „parazituje“ na důvěryhodnosti cizí značky. Pomocí uvádění známého názvu firmy v PPC reklamách můžeme přilákat uživatele a podstrčit jim podvodný obsah. Vyhledávače takový typ spamu nerozeznávají – obrana proti zneužití vlastní značky, sloganu, loga atd je obecně velmi složitá.
4.2.3.2 Komentářový a katalogový spam Ne třeba představovat těm, kteří občas zavítají na některou diskuzi. Jedná se o občas i přínosné komentáře s neopomenutím uvedeného odkazu na vlastní web. Ti ještě „drzejší“ spamují diskuze komentáři nesrozumitelnými nebo obsahově odlišnými od tématu a opět s uvedením odkazu. Text a celé vkládání může probíhat klidně i automaticky pomocí různých skriptů. Tentokrát je riziko penalizace zejména na nevinném webu s diskuzí, protože se z diskuze odkazuje na většinou podvodné stránky. Proto webmasteři diskuzí nastavují odkazům vkládaných uživateli do diskuze atribut rel=”nofollow“. Pokud by opět vyhledávač penalizoval odkazovaný web, využívalo by se toho v nečestném boji s konkurencí. Na obranu proti automatickému vkládání příspěvků se používá CAPTCHA34.
4.2.3.3 Bait and switch (nalákat na „zajíce v pytli“) Jedná se o tak trochu teleshoping či předváděcí akci nekalé společnosti, kde vám vnutí „super“ pánvičku za 5.000,-- Kč a druhou dostanete zdarma (ačkoliv reálná cena obou Completely Automated Public Turing test to tell Computers and Humans Apart - Turingův test, který se na webu používá ve snaze automaticky odlišit skutečné uživatele od robotů 34
37
dohromady je někde okolo 400,-- Kč). Pomocí reklamy, líbivých titulků a popisků nalákat uživatele na web, kde se ale dozví, že pokud chce vysavač z reklamy a líbivých titulků v SERP za 699,-- Kč, musí koupit televizi v hodnotě X,-- Kč. Jedná se o praktiku lživé a neúplné reklamy, která zavede uživatele na stránky, kde jsou buď jiné ceny nebo nabízené zboží může být nižší kvality. [14] Nejen že tato praktika je velmi neetická, ale také je postižitelná zákonem.
38
5 Optimalizace v praxi Ačkoliv při popisování jednotlivých praktik jsou pro lepší pochopení u některých i příklady, v této kapitole se budeme převážně věnovat spojení výše nabytých znalostí s uplatněním v praxi.
5.1 White hat SEO v praxi Pro účely zkoumání etických SEO praktik byly optimalizovány stránky firmy ROMAn s.r.o. Tato
firma
se
zabývá
odhlučněním
a
protihlukovými
materiály.
Doménu
http://www.romansro.cz/ firma používá již od roku 2002. Původně firma nabízela zcela odlišný sortiment od současného, a proto i webová prezentace doznávala postupných změn. Nový a optimalizovaný web byl na doménu umístěn v listopadu 2012, v průběhu následující doby byla prováděna občasná vylepšení a doplňování obsahu. V první řadě byla rozvržena struktura webu a provedena analýza klíčových slov. V následující tabulce je znázorněno pár vybraných stránek, na jaká klíčová slova jsou převážně optimalizovány. Předem je potřeba říci, že obor odhlučnění je, co se týká konkurence na webu, zhruba na střední úrovni. Tabulka 1: Příklad klíčových slov KLÍČOVÁ SLOVA
Úvodní stránka index.html je optimalizována přímo na obecná klíčová slova. V případě silně konkurenčního prostředí by bylo pravděpodobně potřeba vytvořit dvě samostatné stránky a každou optimalizovat pouze na jedno z těchto obecných slov. Stránka odhlucnenitepelnych-cerpadel.html a izolace-pro-odhlucneni-sten.html je specifická pro „úzkou“ skupinu uživatelů – přímo cílená a optimalizovaná na konkrétní produkt. Stránky
kontakt.html
a
drevene-protihlukove-ploty.html
jsou
zde
zobrazeny, protože nejsou přesně cíleny na jednoznačný význam. Většinou se stránka s kontakty 39
optimalizuje právě na danou firmu – název firmy. Optimalizovat na název firmy je vhodné, hlavně pokud uživatelé znají danou firmu nebo pokud z názvu firmy jednoznačně vyplývá obor její činnosti. V našem případě nebyla stránka optimalizována na název firmy, ale na obor činnosti dané firmy – protihluková opatření. Podobně je tomu i na stránce pro dřevěné protihlukové ploty, která byla v první fázi vytvořena jako prázdná stránka, připravená pro doplnění obsahu. Díky tomu bylo vyzkoušeno, že tag
je opravdu zázračný – ačkoliv stránka neobsahovala již žádný jiný text – pouze vyplněný titulek, zobrazila se stránka v SERP na prvních pozicích (konkrétně 2. pozice na seznam.cz a 3. pozice na google.cz35). Mohlo by se na první pohled zdát, že je to neetické, protože uživatel nenajde přesně co hledá, a proto vyhledávač bude penalizovat. Ovšem je to téma vysoce příbuzné se zbývajícím obsahem webu a odkazy (navigace webu – „menu“) ze stránky vedou na podobná témata, takže se uživatel dostane k potřebným informacím. A ano, je to prostor pro zlepšení – doplnění adekvátního obsahu, aby uživatel dostal hledané informace hned na první kliknutí. Po analýze slov následovalo vybrání vzhledu a nakódování šablony. Šablona i s externím CSS souborem je validní36, aby se předešlo problémům se zobrazením v jednotlivých prohlížečích. Jak již víme, validita nemá nic společného s pozicemi – důležité je, aby byl web „čitelný“ a neobsahoval technické překážky indexace, aby se předešlo tzv. přirozeným duplicitám a bylo nastaveno na straně serveru automatické převádění tvaru adres bez www na adresy s www – aby adresa byla vždy ve tvaru www.romansro.cz/stranka.html a ne romansro.cz/stranka.html. Samotný obsah je přizpůsoben co nejvíce pro uživatele s ohledem na tematičnost jednotlivých stránek. Pokud stránka má být o odhlučnění tepelného čerpadla, měla by obsahovat v textu i klíčová slova daného tématu v různých tvarech. Následovalo umístnění stránek na web a čekání na vyhledávače, za jak dlouho a jak web zaindexují. Změnu zaregistroval jak Seznam.cz, tak Google zhruba do týdne, kdy začal přidávat
Výsledky hledání z 9.12. 2012 Validita kódu kontrolována pomocí http://validator.w3.org/ a CSS kontrolováno pomocí http://jigsaw.w3.org/css-validator/.
35 36
40
do indexu první nové stránky. Zhruba po dvou týdnech měli oba zaindexován37 kompletní nový web. Vyhledávače nějakou dobu držely v indexu i původní stránky a tím docházelo v prvních dnech po zaindexování nového obsahu k zobrazování v SERP obou verzí. Zhruba po jednom měsíci již oba vyhledávače zobrazovaly pouze nový web. Během prvních dvou měsíců byl postupně prováděn tzv. aktivní linkbuilding, převážně s vytvářením zpětných odkazů z katalogů zabývajících se mimo jiné stavebnictvím, hlukem apod. Dále se podařilo získat i několik článků na zajímavých portálech jako třeba Stavební a investorské noviny (http://tvstav.cz/). Podařilo se dostat web do předních pozic, dokonce i na nejkonkurenčnější klíčové slovo „odhlučnění“, kde si jej začali všímat i uživatelé a web se stal pro řadu uživatelů dohledatelnější. Třetí měsíc od spuštění nové verze vzrostla návštěvnost webu cca o 42%38 a bylo to znát hlavně ve firmě zvýšeným zájmem zákazníků o nabízené produkty. Další zásadnější zvýšení návštěvníků již neprobíhalo, ani postupným dooptimalizováním na další klíčová slova (zaměřená na long tail), která vyplynula z provozu a z pozorování konkurence.
V současné době, prosinec 2012 (cca jeden rok po spuštění), se web romansro.cz stále zobrazuje na předních pozicích i bez větších úprav obsahu ve vyhledávačích, jak na obecné fráze typu „odhlučnění“ (seznam.cz – 1. pozice, google.cz – 3. pozice), tak i na klíčová slova z long tailu. Do budoucna je potřeba přidání dokumentů39, které zatím slouží převážně k tištěné propagaci i na webové stránky, dále zkvalitňovat obsah, doplnit více zajímavějších informací, které by mohly přilákat tzv. pasivní zpětné odkazy.
5.1.1 Pozorování konkurence Málo který obor je natolik monopolní, aby neměl na webu konkurenci. Konkurence, tedy její web, nám může ale i pomoci. Pokud prozkoumáme konkurenční weby, můžeme získat informace například o klíčových slovech, na která je vhodné se zaměřit. Při prozkoumávání
Jak zjistit míru zaindexování je popsáno v kapitole: Zaindexovanost webu vyhledávačem Hodnota zjištěná pomocí statistik AWStats, poskytovanými webhostingovou společností Active24. (průměr květen 2011 až říjen 2011 vs. leden 2012) 39 Jako další možný zdroj klíčových slov na pokrytí větší části longtailu. 37 38
41
konkurence můžeme nalézt i neetické či zakázané praktiky, za které vyhledávač může penalizovat. Vhodné je také sledování změn konkurenčního webu. I malá změna ve zdrojovém kódu, textu, popisku atd. může vést ke zlepšení hodnocení, a proto je dobré o těchto změnách vědět. Pro sledování změn je možné použít například nástroje http://versionista.com/. Více o tomto nástroji v kapitole Nástroj pro monitorování konkurence.
5.2 Black hat SEO v praxi V této kapitole si popíšeme reálné příklady s využitém zakázaných či neetických metod (Black hat).
5.2.1 Masivní linkbuilding Marcus Taylor se rozhodl vyzkoušet, co se stane, pokud vytvoří 10.000 zpětných odkazů během 24 hodin pro nově založenou (starou cca 3 měsíce před tím než provedl masivní linkbuilding) doménu optimalizovanou na průměrně konkurenční klíčové slovo. [16] Jak již víme, vyhledávače dávají přednost z dlouhodobého hlediska pozvolnému nárůstu odkazů – je to věrohodné. V tomto případě nemůže být řeč o pasivním linkbuildingu, který by vytvářeli sami uživatelé, nýbrž využil aktivního linkbuilding. Linkbuilding netvořil pomocí placených služeb, ale vytvářel ho manuálně pomocí co možná „nejokatějších“ odkazů z různých webů. Cílem tohoto pokusu bylo otestování, zda se masivní linkbuilding může vyplatit a zda se na Google může v SERP dostat daný web na zajímavé pozice a tím přivést uživatele. Výsledek jeho pokusu je zajímavý a dá se říci, že také přínosný pro tvůrce Black hat SEO. Stránka se po dobu cca 3 týdnů dostala na dané klíčové slovo na 1. pozici v SERP (od konce listopadu 2011 do půlky prosince 2011). Statistiku dokládá následující obrázek „Statistika přístupu na nový web“. Propad návštěvnosti 18. prosince 2011 způsobila penalizace ze strany Googlu – penalizace úplně vymazala web z indexu. [16] Obrázek 4: Statistika přístupu na „podvodný web“
Zdroj: http://www.seoptimise.com/blog/2011/03/what-happens-when-you-build10000-dodgy-links-to-a-new-domain-in-24-hours.html, vyobrazená data jsou z konce roku 2011 Test potvrdil, že je možné využít této podvodné taktiky pro sezónní, krátkodobé plnění cíle webu. [16] 42
Dále ale vyvstává otázka, jak je to se zpětnými odkazy – může konkurence pomocí velkého množství zpětných odkazů našemu webu uškodit? Z výše uvedeného příkladu vyplývá možnost, že pokud potkáme „nekalého“ konkurenta, který bude chtít vyřadit náš web z indexu, má šanci pomocí této metody na úspěch. Pokud ale Google nezměnil od té doby svůj algoritmus právě pro zamezení tohoto možného zneužití.
5.2.2 Doorway SEO Druhým příkladem z oblasti Black hat SEO je metoda doorway stránek, kterou prozkoumal Marek Prokop. Tuto metodu zkoumal na konkrétním příkladu na internetu - na výsledcích hledání související s webem http://www.5d.cz/5dslovnicek/. [17] Tento web se zaměřuje na propagaci produktu slovníku – překladač z českého do anglického jazyka. Tento web byl propagován převážně pomocí Doorway stránek – tedy tzv. vstupních stránek. Tato metoda byla výhodná převážně na Seznamu, kde při zadání dotazu „slovíčka“ se zobrazil v SERP daný web na 2. pozici. Toto je v pořádku, ale na 5. pozici se vyskytla stránka s adresou
http://gwo.cz,
která
po
kliknutí
zobrazila
opět
stránku
http://www.5d.cz/5dslovnicek/. Tento trik byl závislý na JavaScriptu, pokud ho měl uživatel v prohlížeči vypnutý, zobrazila se mu skutečně stránka http://gwo.cz, která byla vysoce optimalizována právě na dotaz „slovíčka“. Dále obsahovala velké množství odkazů na podobné stránky (každá byla optimalizovaná na klíčová slova z textu odkazu), např. další klíčová slova (anchor text odkazů) a respektive vytvořené doorway stránky byly na klíčová slova: jazyková škola, mezinárodní zkoušky z angličtiny, naučení jazyka atd. Zároveň se tedy jedná i o systém prolinkování několika set podvodných doorway stránek. [17] Na málo konkurenční fráze se takto dařilo získat první pozice jak na Seznamu, tak i na Googlu. Na středně konkurenční fráze se podařilo získat v SERP na Seznamu první stránku, v Googlu jen výjimečně. Nakonec na konkurenční fráze se na první stránku v Googlu nedostala nikdy,
v Seznamu
výjimečně.
[17]
V dnešní
době
(prosinec
2012)
se
web
http://www.5d.cz/5dslovnicek/ nedaří najít na žádné klíčové slovo, hlavně z důvodu neexistence systému doorway stránek, ale jak v Seznamu, tak Googlu je web stále indexovaný. Tato metoda je poměrně levná na vytvoření – potřeba je pouze generátor takovýchto podobných stránek, metoda má dobré pokrytí long tailu, náklady jsou převážně za hosting (v předchozím případě byl převážně na free hostingu). Nevýhodou je snadné odhalení ze stran uživatelů (a konkurentů), kteří pravděpodobně rychle takovéto jednání nahlásí vyhledávači. [17] Opět se tedy dostáváme k závěru, že takovou neetickou metodu lze použít a dokonce se jeví jako vhodná, ale opět jen na krátkodobé cíle v případě, že nechceme tvořit známou značku s dlouhodobější strategií. 43
5.2.3 Bait and switch – lákání na nerelevantní obsah Seznam i Google mají rádi titulky () např. při hledání (cca červen 2012) návodu na Seznamu (v Google jsem tento web nenalezl), jak rozebrat dveře u auta (konkrétně „octavia ii tapec dveří“), jsem se k mé nelibosti dostal na stránky e-shopu prodávající autodoplňky, konkrétně
stránka
http://www.autodoplnky-
shop.cz/?q=octavia+ii+tapec+dveri. Ono proč by ne – lehce to spolu souvisí a kdyby tam byl návod, jak na to, byla by to skvělá stránka i pro linkbaiting. Jelikož jsme v sekci o Black hat SEO, nebylo tam zajisté to, co na první pohled mělo. Uživatelsky přívětivé bylo zobrazení klíčového slova „octavia ii tapec dveří“ v title a v hlavním nadpisu h1, ale tím to končilo, dále už jen seznam zboží (gumové koberečky, loketní opěrky,…), které nesouviselo s dotazem. Při detailnějším zkoumání daného webu takto nerelevantních stránek bylo o dost více. Stránky se tvářily jako výsledek po vyhledávání obsahu na daném webu, ale zároveň se jednalo o stránky, které jsou (pravděpodobně automaticky vždy pro vyhledání) uloženy na hosting s danou URL. Tyto stránky se totiž nacházejí v indexu Googlebota (při prozkoumání přes site:autodoplnky-shop.cz), zobrazí Google cca 3 290 000 výsledků (pro porovnání eshop s elektronikou Czc.cz má indexovaný necelý milion stránek) a zároveň i zobrazuje dané výsledky v SERP na první stránce. Na rozdíl od Seznamu, který najde pouze cca 122 000 výsledků (pouze jednotlivé zboží nikoli „umělé“ stránky s dotazy hledání) a v dnešní době (prosinec 2012) se na zadaný dotaz stránky v SERP na prvních stránkách nezobrazí, tak jako tomu bylo před půl rokem – přišla zřejmě lehká penalizace nebo změna vyhledávacího algoritmu. Podobně vytvářené podvodné stránky, které ani neslouží jako e-shop, nýbrž pouze zobrazují reklamu (PPC aj.) a lákají uživatele na hojně vyhledávaná klíčová slova např. mp3 ke stažení zdarma atd., se postupně v SERP stávají minulostí a pomalu je „vytlačují“ stránky relevantnější, právě díky zdokonalování se vyhledávacích algoritmů.
5.2.4 „Hrátky s písmem“ vs. Google webmaster tools Při zkoumání Black hat techniky byly vytvořeny stránky, které obsahují automaticky generovaný text, bílé písmo na bílém pozadí, malé písmo (velikosti 1px), skrytý text. Byly vytvořeny
2
identické
stránky
http://preikestolen.ic.cz/
a
http://preikestolen.wz.cz/ za účelem otestování, jak dlouho trvá Googlu, respektive nástrojům Webmaster Tools, než naleznou podvodný obsah, případně i duplicitní web (oba weby obsahují totožný obsah). Obě stránky byly okamžitě po vytvoření zaregistrovány v Google Webmaster Tools (září 2012). Google zaindexoval oba weby prakticky do 5 dní. Ovšem ani po dvou měsících nenalezl 44
žádné „problémy“. Bylo tudíž přistoupeno k nahlášení daných chyb přes spam report Googlu (20. listopadu 2012). Měsíc poté stále v nástroji Webmaster Tools nebyly nalezeny žádné chyby procházení a Google nadále obě stránky vede ve svém indexu. Z tohoto příkladu vyplývá, že Google ve standardním algoritmu, který prohledává stránky nemá ochranu před malým, skrytým a jinak „upraveným“ písmem pro schování před uživateli. Důvod, proč ani po nahlášení přes spam report nebyly stránky nijak penalizovány, bude především malý a nereprezentativní rozsah. Pokud by měly pracovníci Googlu řešit i takovéto nedohledatelné weby, které „testují“ jejich algoritmy, nedělali by zřejmě nic jiného a především by napomáhali odhalovat poměrně jednoduše slabiny vyhledávače.
5.3 Nástroje pro SEO Oblast optimalizace je značně se rozrůstající obor. Právě proto přichází na svět různé nástroje, které mají pomoci webmasterům s vytvářením viditelných a dohledatelných webů. Tato kapitola je zaměřena na nástroje, které byly použity (vyzkoušeny, otestovány) při tvorbě webu firmy ROMAn s.r.o.
5.3.1 SEOmaty Existují celé řady tzv. SEOmatů, které tvrdí, že pokud budeme mít web dle jejich hodnocení „vyladěný“ pokud možno na 100%, budeme nejlepší. Pro přehled uvádím 2 z nejznámějších českých SEOmatů. Jedno mají společné – jsou zdarma, tedy až do okamžiku, kdy „vyplivnou“výsledek s hodnotou, která zpravidla nebývá za plný počet bodů. Snažíte se přijít na to, co zlepšit, aby jste získali plný počet? Možná vám něco málo napoví v reportu, ale určitě se dozvíte, že nejlepší řešení problému = „kontaktujte nás“ a my vám za úplatu poradíme. Mají dokonce společné věci i s vyhledávačem – nikde se nedozvíte algoritmus, kterým web testují (aby uživatelé tohoto nástroje nemohli vyladit web na 100%, aby firma poskytující tuto službu nepřišla o zisk z případných placených rad, jak získat o dva body více). Z toho vyplívá, že je v podstatě nic neříkající z pohledu vyhledávače, pouze slouží pro nástroje business tvůrce. Hlavním problémem těchto SEOmatů je neschopnost určení vhodných a hlavně relevantních klíčových slov daného webu. Klíčová slova pouze odhadne z obsahu webu, ale to neznamená, že je webmaster zvolil správně pro danou oblast. Dalšími menšími „hloupostmi“ je hodnocení nevýznamných faktorů např. zda obsahuje web soubor robots.txt (pokud nechci omezovat roboty, tak ho nepotřebuji – vyhledávač poté indexuje vše), nenalezena mapa webu (pokud mám na dané doméně zaindexované veškeré stránky, tak mapu webu určitě nepotřebuji pro lepší hodnocení vyhledávačem) atd.
45
Podrážení kvalit těchto SEOmatů již bylo dosti. Najděme i některé výhody, které SEOmaty nabízejí, a tím usnadňují práci webmasterům. Tyto výhody jsou popsány v kapitolách zaměřených přímo daným SEOmatům.
5.3.1.1 Seo-Servis.cz První z testované dvojice SEOmatů je nástroj od Seo Servisu, kde pro zjištění „síly webové stránky“ stačí zadat URL testované stránky na http://seo-servis.cz/power-silastranky/. Po necelé minutě se zobrazí výsledek s hodnocením zdrojového kódu, Pageranku, Sranku, pozicích na slova z titulku aj. V podstatě je tento nástroj velice jednoduchý a nenabízí žádné sofistikovanější výsledky. Užitečná může být analýza zdrojového kódu, kde zjistím, zda mám validní stránku, zda je dostatečně „malá“ aby neobsahovala zbytečně CSS přímo v kódu, ale v externím souboru atd. Právě díky analýze zdrojového kódu a radám, co zlepšit, se hodí pro začínající optimalizátory – programátory, už ale ne pro optimalizátory – copywritery (klíčová slova a zajímavost textu hodnotit neumí). Nepodstatnou výhodou je možnost i otestování konkurenčního webu a tím jednoduše zjistit, na jaká klíčová slova převážně optimalizuje.
5.3.1.2 Seo-analyzator.cz Opět se i zde setkáme s množstvím informací, které jsou pro SEO zavádějící, stejně jako tomu bylo v minulém případě. Výsledek „analýzy“ vypadá působivěji a zobrazuje velké množství testovaných faktorů. Opět je tento nástroj vhodný pro začínající optimalizátory a „špehování“ konkurence. Hlavní výhodou je, že zobrazí i 3 konkurenční weby. Nevýhodou je, že neumí otestovat jednotlivé stránky (i když zadáte přesnou URL), vždy analyzuje pouze titulní stránku.
5.3.2 Google Webmaster Tools Pravděpodobně nejdůležitější nástroj každého webmastera, který optimalizuje stránky, aby
byly
dohledatelné
nejen
v Googlu.
Tyto
nástroje
jsou
dostupné
z
https://www.google.com/webmasters/tools/home?hl=cs. Jedná se o nástroj, který je zdarma, pouze je potřeba registrace. Po přidání našeho webu v administraci je potřeba ověřit, že jsme majiteli (webmaster) daného webu jednou ze 3. možností (například nahráním souboru HTML do kořenového adresáře webu). To je ochrana, aby nemohla být tato aplikace zneužita pro pozorování konkurence. 46
Pomocí tohoto nástroje je možné zjistit velké množství chyb, mimo jiné i technických překážek indexace. Dále zobrazuje statistiky procházení Googlebotem, stav zaindexovaných stránek atd. Mimo jiné je možné nastavit preferovanou doménu (zda indexovat jako example.com nebo jako www.example.com) – slouží pro odstranění duplicit. Velkou výhodou tohoto nástroje je snaha, aby webmaster opravil web pokud jsou na něm chyby, a proto zobrazí i návody, jak opravit nalezené chyby.
5.3.3 Zjišťování pozic klíčových slov Několikrát již bylo zmiňováno, že SEO není primárně o pozicích, ale i přesto je vhodné je sledovat. Pokud se na žádná klíčová slova nebudu zobrazovat na první stránce, pravděpodobně se web stane málo viditelným a nedohledatelným. Případně je možné využít tohoto nástroje i k analýze klíčových slov, pokud nás zajímá hledanost jednotlivých klíčových slov. Ke sledování
pozic
klíčových
slov
slouží
online
nástroje
Collabim
(http://www.collabim.cz/). Po bezplatné registraci přidáme náš web a nástroj nám sám doporučí klíčová slova, která máme sledovat, případně si můžeme přidat jakákoli další. U veškerých klíčových slov v databázi nám zobrazuje hledanost klíčových slov (za měsíc), pozice na Googlu a dokonce i pozice na Seznamu včetně grafických statistik.
5.3.4 Nástroj pro monitorování konkurence Většina webů má konkurenci. Co může být lepšího, než znát rozvoj či každou změnu právě konkurenčního
webu.
K tomu
slouží
online
nástroj
Versionista
dostupný
z:
http://versionista.com/home. Po jednouché registraci, která je zdarma (až pro 5 webů), přidáme konkurenční web k monitorování. Tento nástroj sám prochází monitorovaný web a při zjištění změn odešle na registrační e-mail zprávu o změnách. Tyto změny je možné sledovat přímo v administraci tohoto nástroje (uchovává 4 předchozí verze). Dále při dostatku klíčových slov zobrazuje i relevantní konkurenční (tématicky podobné) weby.
5.3.5 Zaindexovanost webu vyhledávačem Při spouštění nového webu, přidávání nových stránek nebo prosté kontrole, zda vyhledávač má daný web (a jednotlivé stránky) v indexu, slouží jednoduchý operátor site:. Do vyhledávacího pole zadejte dotaz ve tvaru site:example.com. Vyhledávač zobrazí v SERP veškeré zaindexované stránky na dané doméně. Do výsledků hledání zařadí i dokumenty, které jsou na webu odkazovány (doc, pdf,…). V případě vyhledávače Google je možné využít nástrojů Webmaster Tools.
47
5.3.6 Kdo na mě odkazuje Tato informace bývala jednoduše dohledatelná pomocí operátoru link:
(např.
link:example.com). Podobně jako v předchozím případě se toto zadalo do vyhledávače a ten nalezl weby, ze kterých na náš web směřují odkazy (je možné využít pro tyto účely vyhledávač yahoo.com nebo jyxo.com). Ovšem tato metoda zjišťování zpětných odkazů v dnešní době (prosinec 2012) již nedává relevantní výsledky, jako tomu bylo v minulosti (ještě před půl rokem bylo možné takto zkoumat konkurenci a její zpětné odkazy). Proto je vhodné použít opět nástroj Webmaster Tools od Googlu, kde se tyto informace dozvíme, ovšem jak bylo zmíněno výše, tyto údaje jsou dostupné pouze pro weby, kde jsme schopni „doložit“, že jsme majitelé webu.
48
6 Závěr Optimalizace pro vyhledávače je rozsáhlé téma zahrnující množství praktik, které rozhodně nejsou čistě jen programátorskou technikou. SEO je potřeba vnímat v širším smyslu, protože je jedním z několika nástrojů propagace webu, který slouží ke splnění cíle webu. Vyhledávače se snaží co nejvíce „vcítit“ do uživatelů, aby jim mohly nabídnout nejrelevantnější výsledky pro jejich vyhledávací dotazy. Stále tedy zdokonalují své vyhledávací algoritmy, a tím je potřeba věnovat SEO pozornost celou dobu, kdy chceme vyzískat výhody optimalizace pro vyhledávače – tedy web, který je viditelný a dohledatelný pro uživatele. Pokud chceme vytvořit reprezentativní a důvěryhodný web s dlouhodobými úmysly (cíli), je potřeba dodržovat zásady doporučované vyhledávači. Mezi nejdůležitější prvky patří kvalitní obsah, který přináší uživatelům nějaký užitek. Web, který podává uživatelům hledané informace, se zpravidla stává i známým mezi uživateli a ti ho dále doporučují (linkbuilding, případně linkbaiting). SEO není pouze o naprogramování daného webu, ale o potřebě spojit řadu souvisejících činností začínajících správnou analýzou klíčových slov (nezapomenout na dlouhý ocas) a strukturou webu. Dále následuje programátorská činnost, kde je třeba vyvarovat se technickým překážkám indexace. V neposlední řadě je nutné zaměřit se na psaní kvalitních a aktuálních textů (popisů produktů, článků,…). Práce zmapovala možnosti využití White hat a Black hat SEO praktik. Potvrdily se původní předpoklady, že využití zakázaných a neetických praktik vede zpravidla pouze ke krátkodobým a jednorázovým cílům. Tím, jak vyhledávače obměňují vyhledávací algoritmy nemůže, ani sebelepší „podvodná“ stránka spoléhat na dlouhodobě udržitelné „pozice“, a tím investice vložené do Black hat praktik se nemusí vrátit. Další využití Black hat SEO je možnost „pošpinění“ konkurence s následným „udáním“ přes spam report. V tomto případě nezáleží jen na algoritmech, ale na konkrétním pracovníkovi vyhledávače, jak s informacemi o „spamu“ naloží. Některé Black hat praktiky nejsou postihovány pouze ze strany vyhledávačů, snížením hodnocení, případně vyřazením z indexu, ale dokonce mohou být postihovány zákonem.
49
7 Conclusion Search engine optimization is a complex topic involving numerous techniques that are definitely not of a pure programming nature only. SEO needs to be viewed in a broader sense as it is simply one of several methods of website promotion that aims to meet the mission of the website. The search engines try to „sense“ users’ needs as much as possible to be able to provide them with the most relevant results for their queries. Search algorithms are improved constantly and therefore it is vital to pay attention to SEO during all the time that we want to get benefits of the search engine optimization – that is to get a website that is visible and findable for the users. If we want to create a representative and credible website with long-term intentions (or goals), it is necessary to follow the principles recommended by search engines. Quality content, which provides the users with added value, belongs to the most important factors. The website that serves the users with requested information usually becomes more familiar amongst the users and they keep recommending it further (linkbuilding or linkbaiting). SEO is not about website programming only, but it requires to interconnect a range of relating activities beginning with a correct key words analysis (do not forget the long tail) and website structure. This is followed by programming, whereas it is necessary to avoid technical issues related to indexing. Last but not least it is essential to focus on quality and up-to-date copywriting (product descriptions, articles…). The bachelor work identified the possibilities of the use of White Hat and Black Hat SEO techniques. The original assumptions proved right that the use of forbidden or unethical practices as a rule leads to short-term or one-time goals only. As the search engine algorithms change, no „fraudulent“ website, no matter how well it was designed, can rely on sustainable „top positions“ in the long run, and thus the investments in Black hat techniques do not need to return. The Black hat SEO can also be used to „tarnish” the competitors, followed by denouncement through spam report. In this case it does not depend on the algorithms only, but it is a particular operative of the search engine provider who decides how to deal with such „spam“ report. Some Black hat techniques are not only penalized by search engines such as by decreasing positions or removal from index, but they can even be prosecuted by law.
50
8 Seznam použitých zdrojů 1. Tichý, Jan. Optimalizace pro vyhledávače: Blok expertů. [přednáška]. Brno, Filozofická fakulta MU,
19.
březen
2009.
InHD.cz
[online].
[Citace:
20.
říjen
2012].
Dostupné
z:
http://inhd.cz/videos/157-optimalizace-pro-vyhledavace. 2. Google. Nástroje pro webmastery. Googlebot - Nápověda. [online]. 16.10.2012 [Citace: 27. říjen 2012].
Dostupné
z:
http://support.google.com/webmasters/bin/answer.py?hl=cs&answer=182072. 3. Kubíček, Michal. Velký průvodce SEO: jak dosáhnout nejlepších pozic ve vyhledávačích. Vyd. 1. Brno: Computer Press, 2008, 318 s. ISBN 978-80-251-2195-5. 4. Grappone, Jennifer a Couzin, Gradiva. SEO: search engine optimization : ovládněte SEO a získejte výhodu před konkurencí : optimalizujte své webové stránky pro vyhledávací servery : přiveďte na své stránky zákazníky dříve, než to udělá konkurence. Vyd. 1. Překlad Roman Skřivánek, Dana Balaštíková. Brno: Zoner Press, 2007, 328 s. ISBN 978-80-86815-85-5. 5. Tichý, Jan. Optimalizace pro vyhledávače. [přednáška]. Praha, Česká zemědělská univerzita : Provozně ekonomická fakulta [online], 2011. [Citace: 20. říjen 2012]. Dostupné z: http://video.czu.cz/KIT/seo-tichy.html. 6. Search engine optimization. In: Wikipedia: the free encyclopedia. [Online] San Francisco (CA):
Wikimedia
Foundation,
2001-.
[Citace:
11.
říjen
2012.]
http://en.wikipedia.org/wiki/Search_engine_optimization. 7. Google. Nástroje pro webmastery. Doporučené postupy, jak Googlu pomoci nalézt, procházet a indexovat vaše stránky. [online]. 16.10.2012 [Citace: 27. říjen 2012]. Dostupné z: http://support.google.com/webmasters/bin/answer.py?hl=cs&answer=35769. 8. —. Nástroje pro webmastery. O atributu rel="canonical". [online]. 23.07.2011 [Citace: 7. listopad
2012].
Dostupné
z:
http://support.google.com/webmasters/bin/answer.py?hl=cs&answer=139394. 9. —. Nástroje pro webmastery. Výkon webu. [online]. 11.1.2012 [Citace: 7. listopad 2012]. Dostupné z: http://support.google.com/webmasters/bin/answer.py?hl=cs&answer=158541. 10. Jak psát web. Články. Zázračný SEO html tag. [online]. [Citace: 12. listopad 2012]. Dostupné z: http://www.jakpsatweb.cz/seo/zazracny-tag-title.html. 11. Kubíček, Michal a Linhart, Jan. 333 tipů a triků pro SEO:sbírka nejlepších technik optimalizace webů pro vyhledávače. Vyd. 1. Brno: Computer Press, 2010, 262 s. ISBN 978-80251-2468-0. 12. Seznam.cz. Optimalizace webu. [Online] Seznam Nápověda. [Citace: 4. prosinec 2012]. Dostupné z: http://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/optimalizace-webu/. 51
13. Google. Začínáme s optimalizací. [Online] Centrála pro webmastery Google. [Citace: 4. prosinec
2012].
Dostupné
z:
http://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.cz/cs/cz/in tl/cs/webmasters/docs/search-engine-optimization-starter-guide-cs.pdf. 14. Ledford, Jerri L. SEO: search engine optimization bible. Hoboken, N.J.: Wiley, 2008, xviii, 389 p. ISBN 04-701-7500-1. 15. Jak psát web. Přesměrování stránky. [online]. [Citace 6. prosinec 2012]. Dostupné z: http://www.jakpsatweb.cz/presmerovani.html. 16. TAYLOR, Marcus. What Happens When You Build 10,000 Dodgy Links to a New Domain in 24 Hours?
[online].
1.
březen
2011
[Citace:
10.
prosinec
2012].
Dostupné
z:
http://www.seoptimise.com/blog/2011/03/what-happens-when-you-build-10000-dodgylinks-to-a-new-domain-in-24-hours.html. 17. Prokop, Marek. Black hat SEO a metoda doorway stránek. [online]. 15. prosinec 2008 [Citace: 10. prosinec 2012]. Dostupné z: http://vyhledavace.info/clanky/244/black-hat-seodorway-stranky.
52
9 Seznam obrázků Obrázek 1: Podíl vyhledávačů ....................................................................................................................... 13 Obrázek 2: Jak dosáhnout cíle webu ........................................................................................................... 17 Obrázek 3: Dlouhý ocas v SEO ....................................................................................................................... 29 Obrázek 4: Statistika přístupu na „podvodný web“ ............................................................................. 42 Obrázek 5: Výsledky vyhledávání Seznam.cz.......................................................................................... 56
53
10 Seznam tabulek Tabulka 1: Příklad klíčových slov ................................................................................................................ 39
54
11 Seznam příloh Příloha 1: Search Engine Results Page………………………………………………………...........................56
Zdroj: výsledky hledání Seznam.cz, vlastní zpracování Stránka s výsledky vyhledávání na Seznam.cz. Kromě placených odkazů a reklamy (které převážně živý vyhledávače) se zde zobrazují v hlavním okně tzv. přirozené výsledky vyhledávání, které závisí čistě na robotovi a jeho algoritmu. Dalším prvkem při vyhledávání je tzv. našeptávač, který zobrazuje podobná klíčová slova, která uživatelé vyhledávají.