1 Masarykova univerzita Fakulta informatiky Bakalářská práce Optimalizace webových stránek pro vyhledávání pravidla a metody Jan Lalák Brno 20072 Proh...
Optimalizace webových stránek pro vyhledávání – pravidla a metody
Jan Lalák Brno 2007
Prohlášení Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj.
…………………………………... Jan Lalák
Shrnutí Bakalářská práce se zabývá optimalizací webových stránek pro vyhledávání. Popisuje jednotlivé metody a postupy, pomocí který lze dosáhnout lepších pozic ve výsledcích hledání. Součástí je i praktická ukázka optimalizace konkrétních stránek s využitím popsaných poznatků. Klíčová slova SEO, optimalizace, internetové vyhledávače, PageRank, dynamické a statické URL adresy, mod_rewrite
Poděkování Rád bych poděkoval vedoucímu mé bakalářské práce RNDr. Petru Sojkovi, Ph.D. za pomoc, vedení a připomínky týkající se této práce.
Obsah 1 2
Úvod ..........................................................................................................................1 Základní pojmy ..........................................................................................................2 2.1 Katalogové vyhledávače .....................................................................................2 2.1.1 DMOZ (www.dmoz.org) ............................................................................2 2.1.2 Seznam (www.seznam.cz) ..........................................................................2 2.2 Fulltextové vyhledávače .....................................................................................2 2.2.1 Google (www.google.com) .........................................................................3 2.3 Definice SEO .....................................................................................................3 2.4 Význam SEO......................................................................................................3 3 Optimalizace a její metody .........................................................................................5 3.1 On page faktory..................................................................................................5 3.1.1 Klíčová slova a jejich výběr ........................................................................5 3.1.2 Stop slova ...................................................................................................5 3.1.3 Konkurenčnost klíčových slov ....................................................................5 3.1.4 Důležité tagy na stránce ..............................................................................6 3.1.5 Tučné písmo a kurzíva ................................................................................8 3.1.6 Správná struktura webu...............................................................................8 3.2 Vlastní obsah......................................................................................................9 3.3 Off page faktory .................................................................................................9 3.3.1 PageRank..................................................................................................10 3.3.2 Další důležité ranky ..................................................................................11 3.3.3 Anchor text ...............................................................................................12 3.3.4 Získávání zpětných odkazů .......................................................................12 Překážky v SEO...............................................................................................................13 3.4 Dynamické stránky ...........................................................................................13 3.4.1 Základní direktivy mod_rewrite ................................................................14 3.4.2 Ukázka změny statických stránek na dynamické .......................................15 3.5 Flash stránky ....................................................................................................16 3.6 Použití rámců ...................................................................................................16 3.7 JavaScript .........................................................................................................17 3.8 Klikací obrázkové mapy ...................................................................................19 3.9 Splash page ......................................................................................................19 4 Zakázané metody v SEO ..........................................................................................20 4.1.1 Skrytý nebo malý text ...............................................................................20 4.1.2 Cloaking ...................................................................................................20 4.1.3 Klamné přesměrování ...............................................................................20 4.1.4 Odkazové farmy .......................................................................................20 4.1.5 Rozpoznávání podvodů.............................................................................21 5 Optimalizace stránek www.atompc.cz ......................................................................22 5.1 Nástroje pro výběr slov.....................................................................................22
5.1.1 Google Adwords Keywords Suggestions...................................................22 5.1.2 Seznam našeptávač ...................................................................................23 5.2 Změna struktury webu ......................................................................................25 5.2.1 Úprava jednotlivých elementů stránky ......................................................25 5.3 Hustota klíčových slov .....................................................................................26 5.3.1 Keyword density & prominence 1.2.4 .......................................................27 5.4 Zpětné odkazy a jejich vytváření.......................................................................27 5.5 Využití anchor textu .........................................................................................28 5.6 Vlastní obsah....................................................................................................28 5.7 Google Sitemap a jeho použití ..........................................................................29 5.7.1 Formát protokolu Sitemap.........................................................................29 5.7.2 Google Sitemap prakticky.........................................................................31 5.8 Výsledky optimalizace......................................................................................33 5.8.1 Pozice frází ve výsledcích hledání.............................................................33 5.8.2 Zvýšení návštěvnosti.................................................................................35 6 Závěr........................................................................................................................36
1 Úvod Internetové vyhledávače jsou v dnešní době hlavním nástrojem, který napomáhá nalézt informace jednoduchou a rychlou formou. Můžeme pozorovat pozvolný odklon od klasických katalogů, velké množství uživatelů již dává přednost fulltextovému vyhledávání. Stránky, které se umisťují ve výsledcích hledání na předních pozicích, tak získávají obrovskou výhodu. Proto snad každý webmaster přemýšlí nad tím, jak zajistit pro své stránky lepší postavení. Toho lze dosáhnout pouze vytvořením webu, který bude vstřícný k robotům vyhledávačů. Cílem mé bakalářské práce je popsat metody a postupy vhodné pro optimalizaci webových stránek a zároveň ověřit tyto postupy na konkrétním webu. Aby se optimalizované stránky posunuly ve výsledcích hledání, je především nutné správně určit klíčová slova a vhodně je rozmístit do důležitých elementů stránky. Zároveň je třeba nepoužívat technologie, které nejsou k vyhledávačům přátelské. Správná struktura webu je dalším předpokladem, stejně jako vlastní obsah, který by měl být unikátní a pro uživatele zajímavý. Důležité jsou také mimostránkové faktory jako zpětné odkazy, jejichž počet a kvalita ovlivňuje ranky jednotlivých vyhledávačů. Vhodné je i použití Google Sitemap. Práce je rozdělena do čtyř základních kapitol. V první kapitole shrnuji základní pojmy, které by měl čtenář při čtení práce znát. V druhé se zabývám jednotlivými metodami a pravidly, které jsou nutné pro vytvoření optimalizované stránky. Tato kapitola je rozdělena na on page faktory a off page faktory. Třetí část popisuje jednotlivé techniky používané pro vytváření webových stránek, které jsou pro vlastní optimalizaci nevhodné. Zmiňuji se zde o problému dynamických stránek a možném způsobu řešení. Zároveň popisuji praktiky, které mohou způsobit penalizaci webu a pokles ve výsledcích hledání. V poslední části popisuji optimalizaci konkrétních webových stránek s praktickými ukázkami užití popsaných metod. Součástí kapitoly je i zhodnocení provedených úprav.
1
2 Základní pojmy 2.1 Katalogové vyhledávače Katalogové vyhledávače rozdělují WWW stránky do jednotlivých sekcí podle zaměření. Mezi nejznámější katalogy patří Yahoo a DMOZ, z českých potom Seznam, Centrum nebo Atlas. Záznam do katalogu lze provést registrací do příslušné sekce. Po ověření administrátorem je odkaz přidán do databáze. Katalogy jsou tedy tvořeny lidmi, i proto pokrývají mnohem menší oblast Internetu než fulltextové vyhledávače. Společnosti vlastnící katalogové služby nabízejí různé možnosti placeného přednostního výpisu oproti jiným odkazům, snahou je zajištění většího prokliku.
2.1.1
DMOZ (www.dmoz.org)
Klasický katalogový server, na rozdíl od ostatních ovšem nekomerční. O obsah se starají dobrovolní administrátoři. Ti ručně zařazují pouze ověřené a funkční odkazy, které se vypisují bez jakékoliv reklamy. Díky více než 75 000 editorům je v katalogu téměř 5 000 000 odkazů. Databázi DMOZu přebírá mnoho světových vyhledávačů.
2.1.2
Seznam (www.seznam.cz)
Nejznámější český internetový portál, který kombinuje katalog a fulltextové vyhledávání. Vlastní katalog je rozdělen na dvě části. První pokrývá nekomerční část Internetu, druhá obsahuje databázi českých firem. Seznam má na českém trhu velmi silnou pozici, působí od roku 1996, je například o rok starší než Google. V minulosti byly při vyhledávání zvýhodňovány firemní zápisy z katalogu, což ovšem objektivně zhoršovalo relevanci výsledků. Nyní je hledání čistě fulltextové, využívá jej přes 60 % uživatelů na českém Internetu [1]. Výsledky jsou uspořádávány podle S-Ranku, což je vlastní algoritmus Seznamu. Mezi další české katalogy patří např.: Centrum (www.centrum.cz), Atlas (www.atlas.cz), U zdroje (www.uzdroje.cz), ze zahraničních Yahoo (www.yahoo.com).
2.2 Fulltextové vyhledávače Fulltextový vyhledávač neobsahuje katalog stránek, naopak si aktivně vytváří jejich vlastní databázi, neboli index [6]. Index obsahuje strukturované informace o analyzovaných internetových stránkách. Zadáváním klíčových frází, které mohou být doplněny speciálními dotazovacími operátory, získává uživatel seznam webů obsahující hledaná slova seřazená podle četnosti výskytu, kvality stránky a jiných měřítek. Ke sběru dat tvořících indexy používá vyhledávač WWW robota (crawler). Jedná se o program, který 2
indexuje nalezené weby a zároveň následuje odkazy nalezené na indexovaných stránkách [25]. Tímto způsobem je zajištěno pokrytí velké části tzv. viditelného webu. Je nezbytné, aby na objekt, který má být indexován, vedl odkaz z alespoň jedné zaindexované stránky. V opačném případě nebude takový objekt nikdy nalezen. Mimo vyhledávací roboty existují i roboti, kteří provádějí kontrolu HTML, kontrolu odkazů, zjišťují, které weby se změnily, případně pátrají po zrcadlení webů. Zdrojem informací jsou pro roboty seznamy odkazů nalezených při poslední indexaci. Tyto seznamy se jednou za čas kontrolují, aby byly k dispozici aktuální data. Dalšími zdroji odkazů jsou hlavní katalogy a populární servery, případně Usenet. Existuje také možnost ručního vložení internetového adresy. Každý vyhledávač používá vlastní způsob vyhledávání, proto i roboti bývají odlišní. Chování robota na našich stránkách můžeme částečně ovlivnit pomocí souboru robots.txt, uloženém v kořenovém adresáři webových stránek [5].
2.2.1
Google (www.google.com)
Nejznámější a nejpoužívanější vyhledávač současnosti s celosvětovým podílem přes 43 % [2]. Ve srovnávání s ostatními vznikl poměrně pozdě, konkrétně v roce 1997. Vyznačuje se jednoduchým a přehledným designem. Součástí je mnoho doplňkových služeb pro webmastery jako např. Google Sitemap pro tvorbu mapy webu nebo Google Analytics sloužící k analýze návštěvnosti stránek. Díky propracovanému algoritmu dokáže velmi dobře odfiltrovat nerelevantní odkazy, a proto vykazuje výborné výsledky při vyhledávání. Vzhledem k tomu, že je tento vyhledávač preferovaný velkým počtem uživatelů, budou se mu v mé práci věnovat podrobněji. Google navíc nedávno vstoupil na český trh a proto se u něj očekává další zvýšení počtu českých uživatelů. Databázi Google používají i jiné vyhledávače, např. AOL nebo Seznam (pro vyhledávaní ve světě). K řazení výsledků se používá PageRank [8].
2.3 Definice SEO SEO je zkratka odvozená z anglického názvu Search engine optimization, v překladu znamená „optimalizace pro vyhledávače“. SEO je soubor metod, které stanovují, jak vytvářet a upravovat internetové stránky takovým způsobem, aby byly při vyhledávání ve fulltextových vyhledávačích zobrazovány na co nejlepších pozicích [9]. Snahou SEO je tedy co největší zvýhodnění optimalizovaných stránek oproti konkurenčním.
2.4 Význam SEO V současné době můžeme pozorovat přesun uživatelů při vyhledávání informací od katalogů k fulltextovým vyhledávačům. Proč je tedy důležité mít optimalizované stránky? Při zadání dotazu obdrží uživatel seznam stránek, které vyhovují zadaným klíčovým slovům. Zcela přirozeně jsou uživatelem preferovány odkazy, které jsou umístěny na začátku seznamu výsledků. Čím níže je uveden odkaz na námi vytvořenou stránku, tím se 3
zmenšuje šance, že jej zákazník najde. Marketingové firmy Enquiro a Did-it.com uskutečnily test, ve kterém zkoumaly, jak se dívají na výsledky hledání běžní uživatelé [3]. Byl užit oční test, kdy dobrovolníci dostali za úkol nalézt určité informace. Jako vyhledávač byl určen Google. Tabulka 1: procento uživatelů, kteří zaměřili svůj zrak na danou pozici. Pozice ve výsledku Procento uživatelů hledání 1. 100 % 2. 100 % 3. 100 % 4. 85 % 5. 60 % 6. 50 % 7. 50 % 8. 30 % 9. 30 % 10. 20 % Z výsledků je zřejmé, že nejvýhodnější jsou první tři pozice. S každou další pozicí se snižuje pravděpodobnost, že potenciální návštěvník zaregistruje ve výsledcích i naši stránku. Pokud je odkaz dostupný až na druhé straně výsledků, je pravděpodobnost návštěvy opět mnohem menší. Mělo by proto být naší snahou optimalizovat stránky tak, aby se při vyhledávání vyskytovaly na co nejvyšších místech.
4
3 Optimalizace a její metody 3.1 On page faktory On page faktory se týkají vlastního obsahu a struktury webové stránky. Máme tím na mysli nejen stránky napsané v HTML, ale i další formáty, které mohou být indexovány vyhledávači, např. dokumenty ve formátu MS Word nebo PDF. On page optimalizace zkoumá rozmístění a hustotu klíčových slov na stránce, používání důležitých tagů jako TITLE, nadpisy H1, H2…H6, formát URL adresy, vlastní obsah a jiné [4].
3.1.1
Klíčová slova a jejich výběr
Velmi důležitou částí SEO je správný výběr klíčových slov. Má smysl vybírat klíčová slova, která jsou vyhledávaná. Pokud naopak máme optimalizované stránky pro téměř nehledané fráze, vystavujeme se riziku, že sice budeme při ve vyhledávači na prvním místě, na druhou stranu ale toto slovo nebude nikdo zadávat. Naopak není příliš vhodné optimalizovat pro velmi známé fráze typu „Praha hotely“. Zde je již počet konkurenčních optimalizovaných stránek tak velký, že je prakticky nemožné se dostat na příznivou pozici. Zcela základním pravidlem je, že se musí hledat relevantní slova k dané stránce. Pokud zoptimalizujeme stránky na slovo, které sice zajistí návštěvu uživatele, ale nebude mít nic společného s naší prezentací, přinejmenším riskujeme ztrátu důvěry. Vždy je třeba si ujasnit, které slova jsou pro optimalizovanou stránku nejdůležitější.
3.1.2
Stop slova
Při výběru bychom neměli používat tzv. stop slova. Jedná se o výrazy, které nenesou žádnou, případně pouze nepatrnou informaci. Typicky se jedná o spojky či předložky, jako např. o, a, i, u, v, nebo, když, pod, na… Vyhledávače jim přidělují nižší váhu, nebo je zcela ignorují [10]. Google zaznamenává i jednopísmenná slova, Seznam je naopak vůbec do svého indexu vůbec neukládá. Toleruje až dvoupísmenné výrazy. Uživatelé většinou ani taková slova při zadávání dotazu nepoužívají. Z těchto důvodů nemá význam je umisťovat např. do elementů title, meta keywords či meta description.
3.1.3
Konkurenčnost klíčových slov
Při určování slov je důležitá jejich konkurenčnost. Ta nám napoví, jak bude těžké pro daný výraz stránku zoptimalizovat. Zkoumá se nejen počet stránek obsahujících toto slovo, ale i počet stránek, které mají provedenou optimalizaci [26]. Pro určení konkurenčnosti je vhodné používat Google a zaznamenávat si počet nalezených odkazů na dané slovo. Víceslovné fráze je vhodnější hledat přesně, tj. v uvozovkách. Počet nalezených odkazů je 5
pak sice nižší, ale reálnou míru konkurenčnosti vystihuje lépe. Zároveň je třeba zjistit míru optimalizace u nejlépe postavených stránek. Nalezených odkazů totiž může být menší množství, pokud ale bude kvalitně optimalizováno prvních 20 odkazů, je malá šance se umístit lépe.
3.1.4
Důležité tagy na stránce
Title TITLE je párový tag, který je součástí části HEAD a označuje nadpis webové stránky [12]. Je viditelný jako titulek okna prohlížeče. Vyhledávače tomuto tagu dávají velmi velký význam, je proto logicky nutné umístit klíčová slova do této části [9]. Je až s podivem, kolik webmasterů se neřídí základním pravidlem, že TITLE by měl být na každé stránce jedinečný a měl by vystihovat základní obsah stránky. Např. při zadání fráze „untitled dokument“ lze vidět, kolik prezentací zcela postrádá jakýkoliv nadpis. Zcela jistě není snahou těchto webmasterů, aby je uživatel mohl najít použitím „untitled dokument“, spíše se jedná o opomenutí významu tagu. Obsahem TITLE by mělo být jméno firmy následované hlavními klíčovými slovy, pro která je stránka optimalizována. Délka titlu není nijak omezena, ovšem čím delší bude nadpis, tím menší váhu může každé z uvedených slov dostat [14]. Navíc je třeba myslet na to, že obsah TITLE se zobrazí jako titulek odkazu ve vyhledávání, jeho znění ovlivňuje rozhodnutí uživatele, zda na odkaz klikne. Z důvodu úspory slov lze vynechat např. název firmy, součástí prezentace by ale mělo být i budování vlastní značky, proto jej doporučuji ponechat. Výhodou pak je, pokud obchodní název obsahuje klíčové slovo. V tomto případě mají mé stránky výhodu, neboť název Atom PC bazar již obsahuje klíčovou dvojici slov „pc bazar“. Meta description Jedná se o tag, který je opět v části HEAD. Slouží k popisu obsahu nebo zaměření stránky. Na základě vlastního pozorování jsem zjistil, že vyhledávače Google a Atlas jej zobrazují u popisku stránky ve výsledcích vyhledávání. Je proto vhodné umístit do tohoto tagu text, který dokáže uživatele zaujmout. Mezi vyhledávače, které META description naopak nepodporují, patří Seznam nebo Centrum. Stejně jako u TITLE platí, že META description by měl vystihovat obsah stránky a měl by být pro každou stránku odlišný [12]. Meta keywords Podobný tag jako META description, místo popisu ovšem obsahuje klíčová slova pro stránku [12]. Je velice diskutabilní, zda je vyhledávači používán a zda zlepšuje při užití správných výrazů pozici ve výsledcích. V minulosti jsem provedl test na svých stránkách, kde jsem do meta keywords umístil slova, která se nikde jinde na stránce nevyskytovala. 6
Po měsíci, kdy měly vyhledávače dostatek času na indexaci, jsem zkusil danou frázi vyhledat. Žádné z pokusných slov ovšem nebylo ve vyhledávačích nalezeno. Z tohoto usuzuji, že pokud nejsou slova z meta keywords obsažena zároveň v textu stránky (v BODY části), není na ně brán zřetel. Přesto není na škodu některá slova do keywords napsat, ovšem pouze taková, která se vyskytují i ve vlastním textu. Někdy může nastat situace, kdy si nepřejeme, aby byla HTML stránka zaindexována vyhledávacím robotem. I v tomto případě lze využít tag META. <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> Tento tag sděluje, že roboti mají zakázáno stránku indexovat (NOINDEX) a také nesmí následovat odkazy směřující z této stránky (NOFOLLOW). Příkaz lze aplikovat i na jen některé roboty (např. META NAME="Googlebot" zakazuje indexaci vyhledávači Google). Obměnou můžeme například přikázat robotovi Google, aby nenásledoval odkazy ze stránky, samotnou stránku ale zaindexoval. <META NAME="GOOGLEBOT" CONTENT="NOFOLLOW"> Naopak zcela zbytečné je uvádět tyto tagy: <meta name=”revisit-after” content=”7 days”> <meta name=”robots” content=”index, follow”> První tag nakazuje vyhledávacímu robotu, aby kontroloval stránky jednou týdně. Žádný robot se ovšem nedá ovlivnit a stránky bude kontrolovat v intervalech daných popularitou stránky. Popularita je dána především počtem kvalitních odkazů, které na danou stránku odkazují, a aktuálností obsahu. Druhý tag sděluje robotovi, že může provádět indexaci stránky a stejně tak dalších stránek, na které se odkazuje. Pokud není indexace přímo zakázána, vyhledávač bude vždy indexovat, stejně tak následovat další odkazy. Nadpisy H1…H6 Dalším důležitým místem, kam je vhodné umisťovat klíčová slova jsou nadpisy H1…H6. Text v nadpisech má vždy větší váhu než ve zbytku stránky a je také vyhledávači zvýhodňován [8]. Do H1 dáváme nejdůležitější výrazy, zároveň platí, že H1 by se měl použít pouze jedenkrát. Atribut TITLE a ALT U každého obrázku by měl být vyplněn alespoň atribut ALT. Ten se používá k zastoupení obsahu obrázku, např. při vypnuté grafice na stránkách. V současné době není tato potřeba až tak veliká, ovšem jedná se o místo, které vyhledávače prohledávají a ukládají do indexu [14]. Je proto dobré sem umístit klíčová slova (v rozumné délce), případně názvy produktů. Volitelně lze použít i atribut TITLE, který slouží k zobrazení popisku v bublinové 7
nápovědě po najetí kurzoru myší na obrázek. Měl by obsahovat shrnutí obrázku, zatímco ALT popisuje spíše vlastní obsah obrázku. Naopak u jednopixelových obrázků používaných ke grafickým účelům je třeba nechat atributy ALT a TITLE prázdné. V opačném případě může vyhledávač hodnotit popis jako úmyslné podstrkování klíčových slov. Vzhledem k tomu, že uživatel nemá žádnou možnost si popis u takto malého obrázku přečíst, není důvod mu přičítat jakoukoliv váhu.
3.1.5
Tučné písmo a kurzíva
Doporučuje se mít v textu klíčové slovo alespoň jednou tučně. Pravděpodobně to nemá příliš velký význam, jen některé vyhledávače toto zvýhodňují [14]. Tučný text také plní funkci zpřehlednění textu, zvýraznění důležité části. Je ovšem třeba dbát na to, aby nebylo zvýrazněných slov příliš mnoho a uživatel nebyl při čtení textu rušen. Stejně tak kurzíva dokáže při správném použití zkvalitnit text.
3.1.6
Správná struktura webu
Správná struktura webu je jedním z nejdůležitějších předpokladů pro kvalitní SEO. Je třeba mít na paměti, že existují celkem čtyři typy zápisu jedné URL adresy. http://www.atompc.cz http://www.atompc.cz/index.htm http://atompc.cz http://atompc.cz/index.htm Tyto odkazy mířící na stejný soubor index.htm jsou pro vyhledávač čtyři rozdílné stránky. Při odkazování na naši stránku bychom proto měli používali pouze jeden formát. V opačném případě dochází k zbytečnému rozdělování PageRanku (u Googlu) na více duplicitních stránek [27]. Dále platí zásada, že odkazy v rámci stránky by měly být spíše textové. Obrázkové odkazy mají v SEO menší váhu (neobsahují cenný text s klíčovými slovy). Statický web Statický web je tvořen jedinečnými a statickými HTML stránkami, obsah stránek je neměnný. Při tvorbě nového webu by měl být kladen důraz na logické a jednoduché členění. V případě hotového webu, který je v provozu, je změna jeho struktury nevhodná, neboť tím ztrácíme již získané hodnocení. URL adresy bychom měli vytvářet tak, aby byly pokud možno stálé a neměnné. V případě, že jiný web odkáže na některou z našich stránek, měla by tato stránka dostupná i po dlouhé době. Změněné URL mohou vyhledávače zaznamenat a zaindexovat až za několik měsíců, odkazy vedoucí na již nefungující adresu se nemusí opravit vůbec. Určitým řešením je ponechání původní URL a vytvoření nové. Vede to ovšem k duplicitnímu obsahu, který je nežádoucí. Lepším řešením je proto 8
přesměrování pomocí kódu 301, což je pevné přesměrování na nové URL [13]. Vyhledávače v tomto případě zaindexují novou URL a převezmou hodnocení původní stránky. Přesměrování by přesto mělo být používáno co nejméně. V žádném případě není vhodné přesměrovat úvodní stránku. Při návrhu stránky bychom se měli zaměřit i na vhodné použití klíčových slov v URL. Vyhledávače totiž přihlížejí i na text uvedený v adrese [14]. Častou chybou je používání podtržítka „_“, který ovšem vyhledávače nechápou jako mezeru, ale jako znak pro spojení více slov. Výraz „repasovane_pocitace“ chápou jako jedno slovo „repasovanepocitace“. Pro rozdělení více slov slouží spojovník „-“. Užívání klíčových slov by se nemělo využívat v přílišné míře. Adresa www.repasovane-pocitace-monitory-notebooky-tiskarny.cz sice používá správný formát a obsahuje zásadní klíčová slova, nepřispívá ale příliš k budování vlastní značky a uživatel si tuto adresu také stěží zapamatuje. Vhodnější je používat klíčová slova v hlubší struktuře, než přímo v doménovém jméně (i když doménové jméno má nejvyšší prioritu). Odpovídá tomu třeba tento formát: www.jménofirmy.cz/názevskupiny/název-výrobku.htm. Zde jsou v maximální možné míře zužitkovány klíčová slova, na která je optimalizace zaměřena. Dynamický web Dynamické weby mají podobná pravidla na optimalizaci, vyskytují se u nich další problémy. Pokud je např. stránka generována z databáze a jednotlivé stránky se liší jen parametry za otazníky, vzniká problém s indexací. Vyhledávače indexují většinou pouze první tři parametry a další ignorují. Nejlepším řešením je proto použité modulu mod_rewrite, který umožňuje přepis takových adres na adresy statické [23].
3.2 Vlastní obsah Při tvorbě webu nesmíme zapomínat na hlavní podstatu, a to vlastní obsah. Čím máme kvalitnější obsah, tím méně je potřebná samotná optimalizace. Kvalitní obsah je nezbytným předpokladem pro to, abychom zaujali návštěvníka a zajistili si tak jeho případnou další návštěvu. Dále zvyšuje šanci, že bude na web odkazováno z jiných zdrojů, což vytváří síť zpětných odkazů (viz. sekce Off page faktory). Kvalitním rozumíme hlavně obsah, který se vztahuje k tématu, které zákazník hledá. Důležitá je jedinečnost. Pokud uživatel najde text, který se nevyskytuje na konkurenčních webech, bude mít o důvod více, proč na tomto webu setrvat.
3.3 Off page faktory Patří sem faktory, které nemůžeme ovlivňovat přímo na optimalizované stránce. Vyhledávače neberou v potaz pouze prvky vyskytující se na stránce, ale snaží se brát na stále větší váhu externí faktory, které samotný tvůrce stránek nemůže ovlivňovat a jednoduchým způsobem s nimi manipulovat [7]. Mezi off page faktory patří především 9
počet a kvalita jednotlivých odkazů směřujících na naši stránku [4]. Vyhledávač při prohledávání Internetu hledá veškeré odkazy, které směřují na sledovaný web a následně vypočítává, jak moc je naše stránka oblíbená (co se týká množství odkazů). Většina vyhledávačů z těchto informací určí důležitost stránky a podle svého vlastního algoritmu ji ohodnotí. Vyhledávače předpokládají, že pokud někdo odkazuje, dělá Nejznámější ukazatel relevantní důležitosti patří PageRank.
3.3.1
PageRank
Jedná se o hodnotící algoritmus společnosti Google [8]. Každá stránka dostane své vlastní hodnocení, které nabývá hodnot od nuly do nekonečna. Vyjadřuje věrohodnost, neboli důvěru uživatelů v danou stránku. Určuje se především z návštěvnosti a kvality stránek, které na ni odkazují. Konkrétní obsah sledovaného webu nehraje žádnou roli. Velice zjednodušená idea říká, že pokud web A odkazuje na web B, dává mu tím svůj hlas a označuje odkazovaný web jako kvalitní. Výpočet PageRanku PageRank stránky A označíme jako PR(A). Vypočítá se z PageRanků stránek, které na ni odkazují [28]. To jsou stránky T1 až Tn. PR(A) = (1−d) + d ( PR(T1) / C(T1) + … + PR(Tn) / C(Tn) ) kde d je damping faktor (nastavený obvykle na 0,85), C(T) je počet odkazů vedoucích ze stránky T. Jako vstupní hodnoty PR(T1) se berou hodnoty PageRanku stránek z minulé iterace výpočtu. Vzoreček po několika iteracích dobře konverguje (tím lépe, čím nižší je d). Hodnoty PageRanku všech stránek se pohybují těsně nad nulou. PageRank je veličina skalární, tedy pro každou stránku (URL, dokument) jde o jediné číslo. Jedná se ovšem o starší, autory PageRanku zveřejněný vzoreček, který již nejspíše není platný. Základní myšlenka a výpočet by se ovšem měl vyskytovat i v aktuálním algoritmu. Vzorec se dá jednoduše vysvětlit tak, že stránka předává část svého PageRanku stránkám, na které odkazuje. Čím více odkazů obsahuje (hodnota C), tím méně každé stránce předá. Nejedná se o klasické předání, ale spíše o přeposílání, odkazováním totiž stránka o PageRank nepřichází. Čím méně má stránka odkazů, tím více hodnoty z PageRanku se přeposílá každým odkazem. PageRank nijak nezávisí na hledaném slově a má jej přidělena každá internetová stránka, nikoliv celý web dohromady. Čím vyšší má stránka PageRank, tím výše může být ve výsledcích vyhledávání. PageRank ovšem není v žádném případě jediným kritériem. Až jeho kombinace s obsahem stránky a dalšími parametry udává přesné postavení ve výsledcích.
10
Přesný PageRank lze získat až po několika cyklech počítání. Každá stránka má při prvotním cyklu nastavenou základní hodnotu, která se s přibývajícím počtem výpočtů přibližuje k přesné hodnotě. Podle tvůrců Lawrence Page a Sergeye Brina je třeba přibližně 100 iterací výpočtu k dosažení stálého PageRanku [29]. Ze vzorce také vyplývá, že celkový součet PageRanku je podobný jako počet všech zaindexovaných stránek na Internetu. Tabulka 2: výpočet PageRanku tří stránek v jednotlivých iteracích [29] Iterace
PageRank stránky A
PageRank stránky B
PageRank stránky C
0
1
1
1
1
1
0.75
1.125
2
1.0625
0.765625
1.1484375
3
1.07421875
0.76855469
1.15283203
4
1.07641602
0.76910400
1.15365601
5
1.07682800
0.76920700
1.15381050
6
1.07690525
0.76922631
1.15383947
7
1.07691973
0.76922993
1.15384490
8
1.07692245
0.76923061
1.15384592
9
1.07692296
0.76923074
1.15384611
10
1.07692305
0.76923076
1.15384615
11
1.07692307
0.76923077
1.15384615
12
1.07692308
0.76923077
1.15384615
Toolbar PageRank Skutečný PageRank stránek Google neumožňuje zjistit, lze ovšem určit odvozený PageRank, který nabývá hodnot od 0 do 10. Jeho hodnotu lze zjistit např. po nainstalování doplňku Google toolbar [15]. Nulová hodnota vypovídá, že stránka je buď nová, případně na ni vede naprosté minimum odkazů. Stránka může být také penalizována za používání nedovolených praktik. Naopak stránek s PageRankem 10 je na celém Internetu pouze pár. Patří tady právě Gooole (www.google.com), dále např. stránky národního úřadu pro letectví a kosmonautiku NASA (www.nasa.gov ), web Bílého domu ve Washingtonu (www.whitehouse.gov) nebo stránky společností Adobe (www.adobe.com), Microsoft (www.microsoft.com), Macromedia (www.macromedia.com) či Apple (www.apple.com). Toolbar PageRank se neaktualizuje tak často jako skutečný PageRank [15].
3.3.2
Další důležité ranky
Většina vyhledávačů má podobné nástroje jako je Google PageRank. Určitým způsobem se sice od sebe odlišují, princip zůstává stejný, důležitý je hlavně počet odkazů vedoucích na 11
sledovanou stránku. Mezi nejznámější české ranky patří S-Rank od Seznamu (www.seznam.cz). Přibližnou hodnotu v rozmezí 0 až 100 lze zjistit po nainstalování Seznam lištičky. Dále Jyxorank od jyxa (www.jyxo.cz), přepočítaná hodnota na Jyxo lištičce nabývá hodnot od 0 do 200. Ze zahraničních je mimo PageRank známý hlavně Webrank od Yahoo (www.yahoo.com). Výpočet těchto ranků není veřejně znám, jedná se o pečlivě střežené tajemství každé firmy. Z postupu výpočtu by šel vyčíst způsob posuzování stránek, přesná váha jednotlivých elementů nebo také poměr mezi on page a off page faktory. Žádný z vyhledávačů nemá pochopitelně zájem na odhalení takových informací.
3.3.3
Anchor text
Vyhledávače neberou v potaz pouze obsah vlastní stránky nebo počet a kvalitu odkazů na ni vedoucí, ale také slova, která jsou v takových odkazech uvedena [14]. Jedná se o tzv. anchor text, neboli link text (zde se nachází anchor text). Při vytváření zpětných odkazů (např. v katalozích) se proto vyplatí použít v anchor textu konkrétní klíčová slova, ne pouze jméno firmy, které žádné důležité výrazy neobsahuje. Toto pravidlo neplatí samozřejmě pouze pro externí odkazy, ale i pro interní, i když je jim přiřazena menší váha. Pokud odkazujeme například na určitou kategorii, nepoužíváme konstrukci, kdy je pro detail nutno kliknout na zde, konkrétní sekce pak dostane přiděleno klíčové slovo „zde“, což je pro nás nevýhodné. Správné použití je Notebooky. V poslední době se setkáváme se zneužitím anchor textu, objevily se tzv. Google bomby [14]. Ty využívají faktu, že pro zobrazení konkrétní stránky ve výsledcích hledání není potřeba klíčového slova, které by na této stránce bylo uvedeno. Stačí vytvořit síť odkazů vedoucích na zmíněný web a do anchor textu vložit požadovanou frázi. Například pokud mnoho externích stránek obsahuje odkaz s nějakým urážlivým textem (např. hlupák), bude Google mezi výsledky vyhledávání tohoto textu uvádět i cílovou stránku. Je-li odkazů mnoho, může se cílová stránka ocitnout na prvním místě ve výsledcích, což je obvykle cílem Google bomby. Takový výsledek lze zjednodušeně prezentovat jako „mnoho stránek uvádí, že tato stránka pojednává o hlupákovi“).
3.3.4
Získávání zpětných odkazů
K tomu, aby měly optimalizované stránky co nejlepší PageRank, je nutné vytvořit síť kvalitních zpětných odkazů. Nejjednodušším způsobem je registrace do internetových katalogů. Z hlediska kvality zpětných odkazů jsou nejlepší weby s vysokým PageRankem, případně jeho ekvivalentem. Tyto weby udělí odkázané stránce větší počet bodů, než menší katalogy. Přesto se vyplatí registrace i do méně běžných, např. oborových katalogů. Přestože počet příchozích návštěvníků z těchto méně běžných stránek může být velmi malý, má tato činnost význam právě pro výši PageRanku. 12
Jedním z nejdůležitějších zahraničních katalogů je již zmíněný DMOZ. Důležitým faktem je, že velké množství katalogů využívá databázi DMOZu. Registrací v DMOZu se tedy stránky dostanou automaticky do velkého množství zahraničních katalogů s poměrně slušným PageRankem. Kvalitní analýza a vytváření zpětných odkazů je velmi důležitá část procesu optimalizace. Pokud chceme předběhnout konkurenci ve vyhledávání, musíme nabídnout nejen lepší obsah a mít lépe zvládnutou on page optimalizaci, ale musíme mít také alespoň stejný, neli větší počet kvalitních odkazů. Nezbytností je zároveň používání správného anchor textu ve zpětných odkazech.
Překážky v SEO Aby byly stránky viditelně pro prohlížeč, je nutné se vyvarovat určitým prvkům, které mohou činit vyhledávačům při indexaci problémy. Musíme si uvědomit, že vyhledávač vidí stránky ve stejné formě jako např. textový prohlížeč Lynx. Některé elementy jako Flash, JavaScript nebo rozbalovací menu proto tvoří překážku vyhledávačům ve správné indexaci. Obtíže s indexací mohou být způsobeny také dynamickými stránkami s více parametry.
3.4 Dynamické stránky Jedním z možných problémů při optimalizaci stránek mohou být dynamické stránky s parametry [14]. Ty jsou pro vyhledávače hůře indexovatelné, v případě použití většího množství parametrů na konci URL se může stát, že vyhledávač stránku vůbec nezpracuje. V případě častého používání proměnných se proto může stát, že velká část dynamicky generovaného webu nebude vůbec zaindexována. K řešení této problematiky může posloužit modul mod_rewrite. Systém mod_rewrite má zásadní význam pro SEO, protože dokáže převádět statické stránky na dynamické. Podstata mod_rewrite tkví ve vymyšlených souborech či adresářích, které na serveru fyzicky neexistují a přitom fungují, protože server pošle uživateli existující, většinou dynamický soubor [24]. Mod_rewrite navíc umožňuje vložit do URL co nejvíce důležitých klíčových slov a také zpřehlednit adresu pro návštěvníka webu. Jedná se o modul Apache, který se poprvé objevil v tomto serveru už ve verzi 1.2. Pomocí modulu se jednoduše řečeno určí, za jakých okolností se přesměrování provede a na jaký existující soubor bude směřovat. Mod_rewrite bychom měli lze v případech, kdy: ! se původní stránky přesunuly na nové adresy a je třeba vyřešit správné přesměrování.
13
! ! !
dynamické stránky obsahují v adresách parametry a vyhledávače je neochotně indexují. stránky mají příliš složité adresy. Nelze si je zapamatovat, špatně se posílají emailem, nevyjadřují obsah stránky, ani strukturu webu. adresy stránek mají být nezávislé na použité technologii.
Pro jednoduché přesměrování lze využít také metahlavičku v XHTML či funkce header() v PHP, ovšem v těchto případech lze přesměrovat jen na existující soubory a URL navíc musí mít stále stejný tvar [24]. Pokud přesměrujeme na neexistující soubor, většinou se zobrazí stránka chyby 404 – Document not found. Moderní webhostingy již umožňují modifikaci těchto chybových stránek a jejich využití k přesměrování na korektní soubory. Chybová 404 stránka nemusí být pouze jedna HTML stránka, může se jednat o serverový skript. Ten vyhodnocuje cestu k požadovanému dokumentu. Pokud je rovna konkrétnímu řetězci, vrátí hlavičku 301 – Moved permanently, čímž informuje klienta o novém umístění dokumentu. Takto dosáhneme skoro stejného efektu jako s mod_rewrite, jen se uživateli mění URL, což není zcela ideální. Řešením mimo mod_rewrite je mod_alias. V podstatě je mod_alias hodně podobný mod_rewrite, jen je o něco rychlejší a neposkytuje tolik. Dalším možným a podobným nástrojem je i mod_redirect, i ten se dá použít pro jednoduchá přesměrování [24]. Modul mod_rewrite je standardní součástí serveru Apache, je třeba jej pouze nahrát a povolit přepisování. Jednotlivá pravidla se zapisují do souboru .htaccess, který se používá také k jiným operacím, k ochraně souborů heslem, zakazování přístupů, modifikaci chybových stránek a podobně. K opravdu pružnému využití mod_rewrite je potřeba i znalost regulárních výrazů, hlavně v případě, že budeme vyžadovat složitější operace.
3.4.1
Základní direktivy mod_rewrite
Pro správné fungování modulu stačí pouze dvě základní direktivy mod_rewrite. První z nich, RewriteEngine, je určena k zapínání jádra pro přepisování. Druhá, RewriteRule, musí být uvedena ve všech sadách pravidel pro přepisování. RewriteEngine Pouze zapíná nebo vypíná přepisování URL. RewriteRule Jedná se o nejdůležitější součástí mod_rewrite, slouží k definování sady pravidel. Každá direktiva RewriteRule vyjadřuje jedno pravidlo pro porovnávání ve formě: RewriteRule Pattern Substitution
14
Každé pravidlo RewriteRule má dvě části. První je Pattern (vzorek), s nímž se původní URL adresa porovnává. Vzorkem je regulární výraz, který se následně srovnává s aktuálním URL, na něž je pravidlo aplikováno. Část Pattern je tvořena regulárními výrazy. RewriteCond Direktiva RewriteCond slouží k vytváření podmínek, pomocí kterých lze rozhodovat, zda se zpracuje následující direktiva RewriteRule. RewriteCond má tuto syntaxi: RewriteCond TestString CondPattern TestString je textový řetězec. CondPattern je regulární výraz sloužící jako podmínka, která je porovnávána s TestString. Jestliže souhlasí, direktiva RewriteCond bude označena jako pravdivá, v opačném případě jako nepravdivá. Protokolování přepisování Pro případ ladění mod_rewrite je možné zapnout protokolování tohoto modulu. Pro použití protokolování je třeba zadat soubor, do něhož bude protokol ukládán, a nastavit úroveň informací, které se budou ukládat. Modul mod_rewrite obsahuje speciální direktivy zajišťující tuto činnost: ! RewriteLog udává název souboru, z něhož soubor vytvoří protokol. Do tohoto místa se budou zapisovat operace přepisování. ! RewriteLogLevel nastavuje úroveň obsáhlosti protokolu přepisování. Direktiva RewriteMap Direktiva RewriteMap definuje mapu přepisování. Mapa přepisování je tvořena vyhledávací tabulkou. Tvoří ji dvojice proměnná – hodnota. Pokud je jedna z následujících konstrukcí vložena do Substitution v RewriteRule, bude nahrazena odpovídající hodnotou v případě nalezení klíče v mapě. V opačném případě bude konstrukce nahrazena výchozí hodnotou.
3.4.2
Ukázka změny statických stránek na dynamické
Pokud máme web používající dynamické stránky s proměnnými, lze užít následující pravidlo. Díky němu je možné na stránkách používat odkazy tvářící se jako statické a bez proměnných, při požadavku ovšem dojde na straně serveru k transformaci na dynamickou stránku s proměnnou a výsledek bude zaslán prohlížeči. Stránka v okně prohlížeče přitom zůstane v původní formě bez proměnné. URL navíc obsahuje důležitá klíčová slova. RewriteEngine On
15
RewriteRule ^(.*)\.htm$ %{DOCUMENT_ROOT}/index.php?stranka=$1 [L,QSA] První direktiva RewriteEngine je nutná z důvodu zapnutí přepisování URL. U druhé direktivy RewriteRule je použit v části Pattern regulární výraz odpovídající každému řetězci s koncovkou .htm. Část řetězce před koncovkou je v závorkách z důvodu použití zpětné reference. Tuto část použijeme na substituci index.php?stranka=$1. Pokud je například použit soubor repasovane-pocitace.htm, je předána část repasovane-pocitace jako zpětná reference $1, výsledkem jejího použití proto bude příkaz .php?stranka=repasovane-pocitace. Zpětných referencí lze použít v jedné direktivě více. Použitý příznak L značí, že se jedná o konečné pravidlo. Díky příznaku QSA se budou cílovému skriptu předávat automaticky další použité proměnné ve fiktivní URL. V případě, že bychom chtěli předat v URL další proměnnou, např. /repasovane-pocitace.htm?kategorie=pentium4, bez příznaku QSA by se proměnná pentium4 nepředala. Nutno poznamenat, že se jedná o jednoduchý příklad bez uvedení podmínek. Ty mohou být v reálu u přepisu dynamických stránek potřebné.
3.5 Flash stránky Flash je vektorový grafický program navrhnutý firmou Macromedia. Používá se především pro tvorbu (převážně internetových) interaktivních animací, prezentací a her. Rozšíření Flashe na internetu pomohla malá velikost výsledných souborů, protože se informace uchovávají ve vektorovém formátu. Na internetový stránkách se používá Flash k tvorbě menu, k různým animacím, často jsou ovšem celé weby vytvořeny kompletně ve Flashi. Z hlediska SEO je Flash velkou překážkou, neboť většina vyhledávačů jej nedokáže zaindexovat [14]. Pokud je stránka tvořena Flashem, text, který je v ní obsažen, nemůže být uložen do databáze vyhledávače. Velkou chybou bývá i použití flashe k navigaci (zbytek stránky může být v HTML). Vyhledávač tak zaindexuje pouze úvodní stranu, odkazy vedoucí z menu ovšem neumí následovat. Flash bychom měli využívat pouze v případě opravdového opodstatnění, kdy nám přinese více užitku než škody. Měli bychom se vyvarovat menu a úvodních stránek ve Flashi. Flash je výhodný hlavně tam, kde nezastupuje textovou informaci, ale naopak vyjadřuje informace, pro které není text přirozenou formou. Může se tak stát vhodným instruktážním doplňkem (např. různé interaktivní animace). Ideální využití Flashe nastává v případě, kdy se podaří pomocí interaktivní animace předat určitou informaci účinněji než jakýmkoliv jednodušším způsobem.
3.6 Použití rámců Rámce (frames) jako nástroj slouží k rozvržení stránek. Vyhledávače většinou chápou rámce jako jednotlivé stránky. Při indexaci se proto uloží každá stránka zvlášť. Problém 16
vzniká v okamžiku, kdy jeden rámec obsahuje navigační menu a druhý vlastní text [16]. Pokud uživatel nalezne stránku s klíčovými slovy, otevře mu vyhledávač pouze jeden z rámců (ten s textovým obsahem). Druhý rámec s menu se ovšem nezobrazí. Vzniká potom problém s uživatelovou orientací. Málokterý uživatel totiž ví, že byly použity rámce a že je nutné opravit URL v adrese, aby se dostal na kompletní stránku s již dostupným menu. Rámce mohou také znehodnotit odkazy přicházející na stránku a zmenšit velikost hodnocení jednotlivých dokumentů. Další z nevýhod je neschopnost odkazování z venku na konkrétní stránky, což mívá špatné důsledky pro možnosti propagace. Jednotlivým stránkám nelze ani přiřadit samostatný titulek (TITLE), což opět nesvědčí indexování vyhledávacími službami [16]. K vytvoření požadovaného efektu jsou k dispozici novější technická řešení jako používání kaskádových stylů (CSS). Rámce mají i dnes svá opodstatnění, je ovšem třeba brát na ohled i zápory vyplývající z jejich použití.
3.7 JavaScript JavaScript je multiplatformní, objektově orientovaný skriptovací jazyk, jehož autorem je Brendan Eich z tehdejší společnosti Netscape [17]. Nyní se používá jako interpretovaný programovací jazyk pro WWW stránky, vkládaný přímo do HTML kódu stránky. Jsou jím obvykle ovládány různé interaktivní prvky GUI (tlačítka, textová políčka) nebo tvořeny animace a efekty obrázků. Program v JavaScriptu se většinou spouští na straně klienta, tedy až po stažení WWW stránky z Internetu. Tím se liší od ostatních jiných interpretovaných programovacích jazyků (např. PHP a ASP), které se spouštějí na straně serveru ještě před stažením z Internetu. Z toho plynou jistá bezpečností omezení, JavaScript např. nemůže pracovat se soubory, aby tím neohrozil soukromí uživatele. Nevýhodou JavaScriptu je fakt, že se často chová v každém prohlížeči jinak. Problém nastává, pokud je JavaScript použit pro vytvoření navigace webu. V tomto případě vyhledávací robot nepronikne dále než na úvodní stránku, neboť odkazy umístěné v JavaScriptovém menu neumí najít [17]. Což je v rozporu se snahou SEO, kdy je doporučené mít zaindexovány všechny jednotlivé stránky. JavaScript je samozřejmě užitečný nástroj pro webmastery, ti by ale měli vědět, kdy jej použít a kdy ne. Ukázka ne vždy vhodného umístění JavaScriptu: Nadpis stránky <meta name="description" content="Popis stránky"> <meta name="keywords" content="Důležitá klíčová slova"> <SCRIPT LANGUAGE="JavaScript">