Mendelova univerzita v Brně Provozně ekonomická fakulta
Automatizované sledování informací na webech Bakalářská práce
Vedoucí práce: Ing. František Dařena, Ph.D.
Filip Vaníček
Brno 2012
Rád bych touto formou poděkoval vedoucímu práce Ing. Františku Dařenovi, Ph.D. za cenné připomínky a rady, které mi pomohly tuto práci vytvořit.
Tato práce vznikla v rámci řešení výzkumného záměru VZ MSM 6215648904. Prohlašuji, že jsem tuto práci vypracoval samostatně s použitím odborné literatury a pramenů uvedených v seznamu použité literatury na konci práce. V Brně dne 6. května 2012
__________________
Abstract Vaníček, F. Automatic data monitoring on Web sites. Bachelor thesis. Brno: MUAF, 2012. This work deals with the analysis, design and implementation of web application that will be able to track user-defined information on the selected web sites. Analysis and design of application is in the modeling language UML. The application is implemented in PHP. XML technology is used to extract structured data from Web pages. The application includes an interactive selector created in JavaScript allows selection of elements on the page by clicking a mouse. That allows control of the application for users who do not know HTML. Keywords Web mining, XML, web crawler, UML, marketing intelligence.
Abstrakt Vaníček, F. Automatizované sledování informací na webech. Bakalářská práce. Brno: MZLU v Brně, 2012. Tato práce se zabývá analýzou, návrhem a implementací webové aplikace, která bude schopná sledovat uživatelem definované informace na zvolených webových stránkách. Analýza a návrh aplikace probíhá v modelovacím jazyce UML. Aplikace je implementována v jazyce PHP. Pro extrakci strukturovaných dat z webových stránek jsou využity XML technologie. Aplikace obsahuje interaktivní selektor vytvořený v jazyce JavaScript umožňující výběr prvků na stránce pomocí kliknutí myší. Ten umožní ovládání aplikace uživatelům, kteří neznají HTML. Klíčová slova Dolování dat z webu, XML, webový robot, UML, marketingové zpravodajství.
Obsah
5
Obsah 1
2
3
4
Úvod a cíl práce
9
1.1
Úvod .......................................................................................................... 9
1.2
Cíl práce ................................................................................................... 11
Analýza současného stavu
12
2.1
Web ..........................................................................................................14
2.2
Dolování dat z webu.................................................................................14
2.3
Extrakce strukturovaných dat .................................................................15
2.4
XML technologie......................................................................................16
2.4.1
SAX................................................................................................... 17
2.4.2
DOM ................................................................................................. 17
2.4.3
XPath................................................................................................18
2.4.4
XSLT................................................................................................ 20
Metodika řešení
21
3.1
Analýza a návrh........................................................................................21
3.2
Technologie pro implementaci ............................................................... 22
3.2.1
PHP ................................................................................................. 22
3.2.2
CRON .............................................................................................. 23
3.2.3
Databázový systém.......................................................................... 23
3.2.4
JavaScript........................................................................................ 24
3.2.5
AJAX ............................................................................................... 24
3.2.6
jQuery.............................................................................................. 25
Analýza a návrh aplikace
27
4.1
Neformální požadavky............................................................................ 27
4.2
Diagram případů užití............................................................................. 28
4.3
Diagram tříd............................................................................................ 29
4.3.1
Třída Robot ..................................................................................... 29
4.3.2
Třída DB .......................................................................................... 30
Obsah
6
4.3.3
Třída RSS .........................................................................................31
4.3.4
Třída Mail.........................................................................................31
4.3.5
Třída Systém ................................................................................... 32
4.4
Diagram spolupráce................................................................................ 34
4.5
ERD databáze.......................................................................................... 36
4.5.1 5
Popis tabulek................................................................................... 39
Implementace
41
5.1
Uživatelské rozhraní aplikace..................................................................41
5.2
Technické řešení aplikace ........................................................................41
5.2.1
Registrace a přihlášení uživatele .....................................................41
5.2.2
Přidání nového sledování ............................................................... 42
5.2.3
Aktualizace aplikace........................................................................ 43
5.2.4
Generování RSS zdroje ................................................................... 44
5.2.5
Upozornění e-mailem ..................................................................... 45
5.2.6
Zaznamenávání událostí v aplikaci................................................. 45
5.3
Problémy při řešení aplikace .................................................................. 46
5.3.1
Validace URL adresy....................................................................... 46
5.3.2
Nastavení kódování stránky ........................................................... 47
5.3.3
Nefunkční XPath dotazy ................................................................. 47
5.3.4
Nedodržování standardů na webových stránkách ......................... 47
6
Testování
49
7
Diskuze
51
8
Závěr
52
9
Literatura
53
A
Kompletní diagram tříd
57
B
SQL CREATE skript
58
C
Příklad využití aplikace
61
Seznam obrázků
7
Seznam obrázků Obr. 1
Příklad stromové struktury dokumentu (zdroj: w3.org) 10
Obr. 2
Page2RSS (zdroj: page2rss.com)
12
Obr. 3
Výběr prvku ke sledování v aplikaci Femtoo (zdroj: femtoo.com)
13
Obr. 4
Strom XML dokumentu (zdroj: kosek.cz)
19
Obr. 5
Rozdíl mezi klasickým modelem a Ajaxem (zdroj: adaptivepath.com)
25
Obr. 6
Blokové schéma aplikace
27
Obr. 7
Diagram případů užití aplikace
28
Obr. 8
Třída Robot
30
Obr. 9
Třída DB
31
Obr. 10
Třída RSS
31
Obr. 11
Třída Mail
32
Obr. 12
Třída Systém
33
Obr. 13
Diagram spolupráce – výběr prvku uživatelem
35
Obr. 14
Diagram spolupráce – přidání výběru do databáze
36
Obr. 15
Schéma databáze
38
Obr. 16
Aplikace s načtenou webovou stránkou
43
Obr. 17
Aktualizace aplikace uživatelem
44
Obr. 18
Aktualizace aplikace
44
Obr. 19
Seznam logů uživatele
46
Obr. 20
Úspěšnost aplikace při zobrazení webových stránek
50
Obr. 21
Funkčnost vracení výsledku XPath dotazů na stránce
50
Seznam obrázků
8
Obr. 22
Kompletní diagram tříd
57
Obr. 23
Načtená stránka Yahoo! Finance
61
Obr. 24
Stav aplikace po kliknutí na prvek
62
Obr. 25
Detail aktualizace
63
Úvod a cíl práce
9
1 Úvod a cíl práce 1.1
Úvod
World Wide Web, zkráceně Web, je největším veřejně dostupným informačním zdrojem, který kdy byl stvořen. Obsahuje obrovské množství neustále se měnících informací. Tyto informace jsou na webu uloženy ve formě webových stránek, které jsou formátovány pomocí HTML značek (tagů). HTML tagy umožňují informace strukturovat, vkládat do textu obrázky, tabulky a odkazy na jiné stránky. HTML tagy na rozdíl od XML tagů neříkají nic o tom, co je jejich obsahem [1]. Z tohoto důvodu je obtížné vyhledávat na webových stránkách relevantní informace. Automatizované vyhledávání informací na webu je ztíženo, protože velkou část obsahu webu tvoří nekvalitní nebo duplicitní obsah. Právě nadbytečnost obsahu je jedním z důvodů, proč se mnoho firem snaží webový obsah třídit. K třídění obsahu webových stránek je využíváno automatických webových robotů. Webový robot je počítačový program, který se stará o prohledávání a třídění obsahu webových stránek. Tato činnost není jednoduchá, protože každá stránka má jinou strukturu, která definuje umístění navigačních prvků, obsahu a reklam [2]. Problematikou získávání dat z webů se zabývá disciplína web mining, jejímž cílem je získávat užitečné informace nebo znalosti z webových odkazů, obsahu webových stránek a souborů logů [2]. Jelikož se obsah webových stránek neustále mění, musí webový robot tyto stránky opakovaně procházet a indexovat jejich obsah. Aby se dosáhlo co největší efektivity práce, musí robot tuto činnost vykonávat pouze tehdy, pokud došlo ke změně obsahu webové stránky. Způsoby, které umožní zjistit změny webového obsahu, se zabývá disciplína mining web dynamics [2]. Každý uživatel webu stráví denně nějaký čas sledováním změn obsahu svých oblíbených webových stránek. Tato činnost mu zabere čas, který by mohl využít efektivnějším způsobem. Zjednodušení uživateli přinese využití služeb, které se o sledování změn obsahu oblíbených webů postarají samy. Asi nejznámějším a nejrozšířenějším nástrojem pro sledování obsahu webu je čtečka redakčních kanálů (RSS). Tato technologie se využívá ke sledování novinek na webových stránkách. Sledovat lze pouze ty stránky, které mají tuto technologii implementovanou. Stránky musí mít informace ke sledování definované pomocí speciálního XML souboru (RSS zdroje) [3]. Nevýhodou tohoto způsobu je nemožnost sledovat jakékoliv informace z cílové stránky. Pokud uživatele zajímá vývoj ceny vybraného produktu na e-shopu nebo třeba změny kurzů, musí se poohlédnout po jiném způsobu řešení. Tím způsobem je využití specializované aplikace, která se postará o sledování definovaných informací na cílové webové stránce. Tyto aplikace využívají webových robotů ke stažení a následnému zpracování obsahu stránek, na základě uživatelem předdefinovaných pravidel. Ke zpracování dat na webových stránkách se využívá objektový model dokumentu (DOM). Ten umožňuje využít
Úvod a cíl práce
10
strukturovaného formátu dat webových stránek. Objektový model dokumentu je stromová struktura, která v sobě obsahuje jednotlivé elementy (tagy), nacházející se na dané webové stránce [2]. Tuto strukturu lze využít k adresování částí dokumentu.
Obr. 1
Příklad stromové struktury dokumentu (zdroj: w3.org)
Tento způsob umožňuje sledovat jakákoli data na kterékoli webové stránce. Jedinou nevýhodou tohoto způsobu sledování webového obsahu je složitější implementace než u RSS. Proto se tento způsob využívá v menší míře. Pro sledování webových stránek na základě objektového modelu dokumentu je potřeba, na rozdíl od RSS, využít aplikaci k tomu určenou. Tato aplikace může být nainstalována na počítači uživatele nebo dostupná online na webovém serveru. Výhody a nevýhody jednotlivých řešení jsou zřejmé. Aplikace nainstalovaná na počítači uživatele je vždy dostupná. Pro zjištění změn sledovaných informací musí uživatel zadat příkaz ke stažení aktuální verze stránek. Oproti tomu aplikace na webovém serveru může být aktualizována bez zásahu uživatele, automatickým spuštěním aktualizačního skriptu serverem. Navíc webová aplikace je víceuživatelská a netrpí neduhy softwarového pirátství. Proto je ideálním řešením využít jednu z takových aplikací. Bohužel realita se od ideálního stavu se liší. Pokud chce uživatel používat jednu z aplikací na sledování webových stránek, která je dostupná na webovém serveru, bude se muset naučit základy HTML, případně si připlatit měsíční poplatek za užívání této služby.
Úvod a cíl práce
11
1.2 Cíl práce Cílem práce je analyzovat, navrhnout a implementovat webovou aplikaci, která uživatelům umožní automatické sledování vybraných textových údajů na zvolené webové stránce. Sledované údaje si bude moci uživatel definovat pomocí jednoduchého průvodce, který nebude vyžadovat znalost HTML. Následně aplikace uživateli umožní tato data přehledně sledovat na jednom místě. Příkladem využití aplikace je sledování změn ceny produktů, aktuálních kurzů nebo novinek.
Analýza současného stavu
12
2 Analýza současného stavu Informace jsou na webových stránkách uloženy mezi záplavou nedůležitých informací a reklam, které pouze ztěžují identifikaci těch hledaných. Mnoho lidí a firem je závislých na získání správných informací ve správný čas, například: • Kupující potřebuje vědět, jak se vyvíjí cena určitého produktu na e-shopu. • Obchodník potřebuje znát aktuální kurzy měn, komodit nebo akcií. • Vlastník automobilu chce znát aktuální cenu pohonných hmot. • Uživatel chce být informován o aktuálním dění ve světě. Každý sleduje jiné informace a pouhé manuální procházení webových stránek je neefektivní. Z tohoto důvodu je lepší využít jeden z mnoha nástrojů, které uživatelům umožňují různými způsoby sledovat webový obsah. Jedním z nejznámějších nástrojů pro sledování webového obsahu je čtečka redakčních kanálů (RSS). Tato technologie umožňuje sledovat novinky na vybraných webových stránkách [3]. RSS neumožňuje sledovat kterékoli webové stránky, proto se jí dále v této práci nebudu zabývat.
Obr. 2
Page2RSS (zdroj: page2rss.com)
Stránky, které technologii RSS implementovanou nemají, lze sledovat jinými způsoby. Jednou z možností je využití služby, která sleduje změny celé stránky. Příkladem takovéto služby je Page2RSS [4]. Tato služba funguje na jednoduchém principu. Uživatel do aplikace vloží adresu stránky, kterou chce sledovat. Aplikace využije webového robota ke stáhnutí aktuální verze stránky. Stáhnutá
Analýza současného stavu
13
stránka je porovnána s verzí starší a rozdíly mezi verzemi jsou zobrazeny jako změny. Tyto změny aplikace vkládá do automaticky generovaného redakčního kanálu. Pomocí tohoto kanálu uživatel může sledovat historii změn webové stránky. Nevýhodou aplikace je nulová možnost nastavení. Uživatel si může pouze vybrat, jakou webovou stránku chce sledovat. Jako výsledek vždy dostane souhrn dat, ve kterých se zorientuje jen s obtížemi. Proto je tento způsob nevhodný ke sledování pouze některých částí webové stránky. Lepším způsobem, jak sledovat vybraný obsah webových stránek, je využití webové aplikace Femtoo [5]. Tato aplikace se svými možnostmi nejvíce přibližuje cíli práce. Femtoo umožňuje sledovat obsah uživatelem vybraného textového prvku na zvolené webové stránce. Výběru prvku uživatel dosáhne využitím CSS selektoru napsaném v jazyku JavaScript [6]. V podstatě se jedná o to, že kliknutí na jakýkoliv textový element stránky způsobí vrácení CSS adresy prvku. CSS adresa tento prvek jednoznačně identifikuje. Možnost výběru pouze jednoho sledovaného prvku je jednou z největších nevýhod aplikace. Další nevýhodou této aplikace je její cena. Bez zaplacení poplatku může být aplikace využita pro vytvoření maximálně sta sledování na jednom uživatelském účtu za měsíc [5].
Obr. 3
Výběr prvku ke sledování v aplikaci Femtoo (zdroj: femtoo.com)
Jelikož žádné z těchto řešení není ideální, je třeba se zamyslet nad řešením vlastním. Z tohoto důvodu je potřeba popsat základní prostředí, kterého se práce týká. Zjištěné poznatky byly shrnuty v tabulce 1.
Analýza současného stavu Tab. 1
14
Srovnání současných nástrojů pro sledování změn webových stránek
RSS Sleduje obsah jakékoliv stránky Sleduje vybrané údaje na stránce
Page2RSS
Femtoo
Ne
Ano
Ano
Ne
Ne
Pouze jeden prvek
2.1 Web Abychom mohli z webu získávat informace, musíme vědět, co to web je. Definici tohoto pojmu uvádí Liu ve své prezentaci [7]: • Na webu je obrovské množství informací. Tyto informace jsou snadno dostupné. • Pokrytí webových informací je velmi široké a různé. • Na webu existují informace/data skoro jakéhokoliv typu. • Mnoho informací na webu je strukturováno. • Mnoho informací na webu je propojeno odkazy. • Mnoho informací na webu je nadbytečných. • Webová stránka obsahuje směs různých typů informací (hlavní obsah, reklamy, navigační panely, atd..). • Web se skládá z povrchového (surface) webu a hlubokého (deep) webu. Povrchový web jsou webové stránky, které lze navštívit pomocí webového prohlížeče. Hluboký web jsou databáze, které mohou být přistupovány pouze pomocí dotazovacích rozhraní. • Web je dynamický a dynamicky se mění. • Web je virtuální společnost. Není pouze o datech, informacích a službách, ale je také o interakcích mezi lidmi, organizacemi a automatickými systémy. Rozsah této definice napovídá, že získávání dat z webu není triviální problém. O složitosti tohoto problému vypovídá také vznik oboru, který se získáváním dat z webu zabývá.
2.2 Dolování dat z webu Dolování dat z webu (web mining) je soubor metod, které se zabývají získáváním dat z webových stránek [2]. Web mining lze rozdělit na tyto typy [7]: • web usage mining, • web structure mining, • web content mining.
Analýza současného stavu
15
Web usage mining se zabývá extrakcí uživatelských přístupových vzorů z webových logů, což může být užitečné pro sledování chování uživatele [7]. Webové logy zaznamenávají každé kliknutí uživatele na sledovaném webu. Úlohou web structure mining je analýza vzájemného propojení webových stránek pomocí odkazů [7]. Znalostí z tohoto oboru je využito v algoritmech, které se starají o hodnocení důležitosti webové stránky. Využívá se tu principu, který říká, že každý vlastník webu na své webové stránky umisťuje odkazy pouze na ty webové stránky, které jsou podle něj důležité a nějakým způsobem se vztahují k tématu na jeho stránkách. Z tohoto plyne, že na nejkvalitnější stránky odkazuje velké množství odkazů z neméně kvalitních stránek. Ty jsou ve vyhledávačích řazeny na lepší pozice [2]. Web content mining se zabývá extrakcí a integrací užitečných dat, informací a znalostí z obsahu webových stránek [7]. Příkladem využití technik web content mining je získání popisu produktu, zpráv z diskusního fóra a další manipulace s webovým obsahem. Web content mining se také využívá na třídění obsahu webových stránek v závislosti na jejich tématu [2]. Jelikož je tato práce zaměřená na sledování změn webového obsahu a s tím souvisejícími technikami web content mining, budu se dále zabývat tím, jak extrahovat strukturovaná data z webových stránek.
2.3 Extrakce strukturovaných dat Extrakce strukturovaných dat z webu je způsob, jakým lze z webových stránek získávat informace. Jak už bylo zmiňováno dříve, webová stránka se skládá z textů a tagů, které tento text popisují. Tato definice by se dala rozšířit o definici Lia [7], který říká, že web se skládá z povrchového webu a hlubokého webu. V podstatě se jedná o to, že webové stránky se skládají ze statické části (šablony) a dynamicky měnících se informací, uložených v napojených databázích. Tyto informace jsou do statické šablony doplňovány na základě interakcí webové stránky na vnější podněty. Program, který se stará o extrahování strukturovaných dat nám umožňuje získat informace z různých webových zdrojů a následně je využít mnoha způsoby. Mezi nejčastější způsoby využití patří indexování webových stránek, systémy srovnávání cen elektronických obchodů nebo také systémy umožňující sledování webového obsahu [2]. Existují tři hlavní způsoby, jakým se program pro extrakci strukturovaných dat učí, jak má extrakci cílového webu provést. Mezi tyto způsoby patří [2]: 1.
2.
Ruční postup Programátor po prozkoumání zdrojového kódu cílového webu navrhne a naprogramuje postupy, kterými se bude program řídit. Nevýhodou tohoto přístupu je možná aplikovatelnost pouze na jednu konkrétní webovou stránku, na kterou byl program připraven. Poloautomatická extrakce
Analýza současného stavu
16
V tomto přístupu dostane program množinu vzorových webových stránek a k nim popis, jak z nich informace extrahovat. Díky tomu se program naučí, jak postupovat při extrakci webových stránek obsahujících části, které jsou shodné nebo podobné s nějakou částí ze vzorových. Nevýhodou přístupu poloautomatické extrakce je nutnost vytvořit velké množství manuálně označených vzorových dat, aby se zajistila efektivnost extrakčního programu. 3. Automatická extrakce Tento způsob představuje učení bez učitele. Program na zvolené webové stránce automaticky nalezne vzory, podle kterých provede extrakci. Největší nevýhodou je složitost a nedokonalost těchto systémů. Právě složitost a různorodost významů jazyka může vést k chybným určením slov programem. Příkladem může být slovo kohoutek, které může program pochopit jako vodovodní kohoutek, samce od kurovitého ptáka nebo jako část bicího ústrojí palných zbraní. Tyto tři hlavní způsoby extrahování strukturovaných dat z webů nejsou jediné a neměnné. Vznikají další přístupy, které se snaží extrahování strukturovaných dat zjednodušit. Příkladem takového přístupu může být využití aplikace, která uživateli umožní vytvořit šablony pro extrakci dat z dané webové stránky interaktivně. Právě tento přístup bude využit v této práci. Uživatel si sám označí informace, které chce extrahovat. Způsoby, jak lze označit data na webové stránce určená k extrakci, jsou umožněny využitím regulárních výrazů a XML technologií [8]. Každý z těchto dvou způsobů má své výhody i nevýhody. XML technologie mohou pracovat pouze s XML dokumenty. HTML dokument musí být nejprve převeden do XML formátu. Tento převod může být zdrojem mnoha problémů z důvodu nevalidity některých stránek. Naproti tomu regulární výrazy nepotřebují specifický formát, mohou pracovat s jakýmkoliv formátem jako s čistým textem [9]. Vytvoření univerzálního extrakčního pravidla je jednodušší pomocí XML technologií než pomocí regulárních výrazů [8]. Z výhod jednotlivých technologií plyne, že regulární výrazy jsou lepší pro předzpracování HTML stránky a následné převedení do XML. Na stránky v XML formátu je jednodušší použít XML technologie. Proto je extrakce strukturovaných dat pomocí kombinace regulárních výrazů a XML robustnější než použití samostatných regulárních výrazů [8].
2.4
XML technologie
K pochopení, co jsou a jak fungují XML technologie, je třeba nejprve vědět, co je jazyk XML. Extensible Markup Language (XML) je rozšiřitelný značkovací jazyk. Už definice poodkrývá význam této technologie. Nejlepším způsobem, jak lze XML pochopit, je srovnat ho s HTML. HTML je značkovací jazyk, který obsahuje sadu pevně definovaných značek, které mohou být použity pro značkování textu. Na rozdíl od toho XML nevyužívá pevně definovanou množinu značek. U tohoto jazyka lze využívat značek
Analýza současného stavu
17
vlastních, které mohou popisovat svůj obsah. Toho se využívá v různých aplikacích, kde formát XML slouží k uchovávání a přenosu dat. Příkladem využití XML jsou formáty pro publikování nových článků (RSS a Atom) nebo k přenosu dat (AJAX) [1]. Dokumenty ve formátu XML se skládají ze značek a jejich textového obsahu. Tyto značky je možné do sebe vnořovat a vytvářet hierarchickou stromovou strukturu, která má jednu kořenovou značku (uzel). HTML dokument je také možné považovat za jeden případ XML dokumentu, který jako kořenový uzel obsahuje značku HTML. Tento dokument musí splňovat všechny podmínky tvorby XML dokumentů – musí být validní. Validní XML dokument musí obsahovat pouze ukončené značky, tyto značky se nesmí křížit [1]. Pokud HTML dokument není validní, není z něj možné vytvořit stromovou strukturu bez zásahů do zdrojového kódu. Hierarchické stromové struktuře, která v sobě obsahuje všechny značky z konkrétního dokumentu, se říká objektový model dokumentu (DOM) [1]. Tento model se často využívá pro čtení a práci s XML dokumentem s využitím rozhraní DOM. Ke čtení XML souborů se využívají i jiné způsoby. Mezi nejpoužívanější patří SimpleXML, XMLReader a SAX [1]. 2.4.1
SAX
SAX (Simple API for XML) je jednoduché rozhraní, které umožňuje proudové čtení XML dokumentu. Tento přístup ke zpracování dokumentů je rychlý a paměťově nenáročný. Proto se využívá pro rozsáhlé XML dokumenty. Nevýhodou tohoto přístupu je složitější implementace oproti jiným metodám zpracování XML dokumentu [1]. Rozhraní SAX při průchodu XML dokumentem generuje proud událostí, které odpovídají různým částem XML dokumentu. Tyto události generuje program zpracovávající dokument (parser) podle toho, v jaké části dokumentu se právě nachází. Příkladem těchto událostí je začátek elementu, konec elementu nebo znaková data. Tyto události jsou poté předávány aplikaci, kde mohou být zpracovány obslužnými funkcemi. Běžně se využívají tři funkce, každá zpracovává jednu událost. První funkce zaznamenává vstup do značky a její název. Druhá funkce zaznamená všechny proudově přijatá znaková data, pokud je nastaven příznak vstupu do značky. Nakonec poslední funkce zaznamenává výskyt ukončovacích značek a podle toho nastavuje hodnotu příznaku [1]. Jelikož toto rozhraní nepodporuje přímý přístup k jednotlivým elementům XML dokumentu, využívá se pouze v určitých případech. Rozšířenější je rozhraní DOM, které využívá objektového modelu dokumentu [1]. 2.4.2
DOM
Rozhraní DOM je oproti jiným přístupům k práci s XML dokumenty nejflexibilnější. Umožňuje načtení celého dokumentu do paměti, kde jsou jednotlivé elementy dokumentu reprezentovány jako objekty. Tímto způsobem je umožněn přímý přístup k jednotlivým částem dokumentu. Jednoduchost práce s tímto
Analýza současného stavu
18
rozhraním je vykoupena množstvím tříd, které rozhraní obsahuje. I přes tuto nevýhodu patří rozhraní DOM k nejvyužívanějším [1]. Rozhraní DOM umožňuje nejen z XML dokumentů číst, umožňuje s nimi dále pracovat (přidávat a odebírat elementy, změny ukládat, vytvářet nové XML dokumenty). Jednoduchost práce s tímto rozhraním nejlépe demonstruje příklad, který slouží k načtení XML dokumentu a výpisu obsahu elementu [1]: $doc = new DOMDocument(); $doc->load(“
<jmeno>Pepa”); $jmeno = $doc->documentElement->getElementByTagName(“jmeno”); echo $jmeno->item(0)->textContent;
V předchozím příkladu je načten jednoduchý XML dokument do paměti, poté byly nalezeny všechny značky jmeno a nakonec byl vypsán textový obsah první nalezené značky na standardní výstup. Pro získání odkazu na určitou značku je zde využito funkce getElementByTagName. Tato funkce vrátí seznam uzlů nalezených značek daného jména [8]. Kromě využití funkce getElementByTagName existuje další přístup pro adresování částí XML dokumentu. Tímto přístupem je dotazovací jazyk XPath [1]. 2.4.3
XPath
XPath (XML Path Language) je dotazovací jazyk, který umožňuje adresovat části XML dokumentu. Na rozdíl od jiných přístupů umožňuje tento jazyk zapisovat výrazy, které vyberou určitou část XML dokumentu nebo provedou nějaký výpočet. Jazyk XPath využívá vlastní syntaxi, pomocí které se zapisují jednotlivé výrazy [1]. Stejně jako rozhraní DOM pracuje i XPath se stromovou reprezentací XML dokumentu. Tato reprezentace se proti stromové reprezentaci, kterou využívá rozhraní DOM, liší v několika detailech. Základem stromu jazyka XPath je kořenový uzel (označený znakem lomítka), na který je vždy připojen kořenový element XML dokumentu. Na každý element ve stromu mohou být dále napojeny další elementy, atributy uzlu, instrukce pro zpracování, komentáře nebo textové uzly. Obsahem textového uzlu je vždy textový obsah elementu. Na takový uzel už nemůže být nic připojeno, vždy se jedná o listový uzel [1]. Příklad XML dokumentu a jeho zobrazení v XPath stromu je znázorněn na obrázku 4.
Analýza současného stavu
Obr. 4
19
Strom XML dokumentu (zdroj: kosek.cz)
Jazyk XPath se nejčastěji využívá pro výběr určité části XML dokumentu. Příkladem tohoto využití je výraz /osoba/jméno, který vybere všechny elementy jméno, které jsou zároveň podelementem elementu osoba. Tomuto typu výrazu se říká cesta. Každá část cesty se skládá ze tří částí – identifikátoru osy, testu uzlu a predikátu (osa::test uzlu[predikát]) [1]. Jelikož XPath pracuje se stromovou reprezentací XML dokumentu, identifikátor osy umožňuje vybrat, v jakém směru a jakým způsobem má být strom prohledáván. Test uzlu následně vybere uzly určitého jména a typu. A nakonec predikát je podmínka, pomocí které lze výběr uzlů dále upřesnit [1]. Možnosti jazyka XPath dále rozšiřují operátory a funkce, které umožňují zápis výrazů, vracející jako svůj výsledek číslo, řetězec nebo logickou hodnotu. Mezi tyto operátory patří matematické operátory (sčítání, odčítání, násobení, dělení, zbytek po celočíselném dělení), relační operátory, sloužící k porovnávání hodnot a logické spojky (and, or) [1]. Pro práci v PHP s tímto rozhraním slouží třída DOMXPath, která přebírá jako parametr instanci třídy DOMDocument. Pro vyhodnocování výrazů může být použita jedna ze dvou metod, které nám rozhraní DOMXPath nabízí. Těmito metodami jsou query() a evaluate(). Metoda query() vyhodnotí XPath výraz a jako svůj výsledek vrátí DOMNodeList, což je seznam uzlů. Naproti tomu metoda evaluate() po vyhodnocení výrazu vrátí hodnotu určitého typu (číslo, řetězec nebo DOMNodeList [1]. Z toho vyplývá, že metoda query() se využívá v těch případech, kde je očekáváno vrácení více než jedné hodnoty. V ostatních případech je lepší využít metodu evaluate(), která se kromě vrácení hodnoty postará i o její přetypování. $doc = new DOMDocument();
Analýza současného stavu
20
$doc->load(“
<jméno>Pepa <syn>Pankrác <syn>Servác ”); $xpath = new DOMXPath($doc); $vysledek = $xpath->query(“/osoba/syn”); echo $vysledek->item(0)->textContent;
Předchozí ukázka části kódu se postará o načtení jednoduchého XML dokumentu. Následně je pomocí metody query() vyhodnocen XPath dotaz, který vybere všechny elementy syn, které jsou zároveň podelementem elementu osoba. Nakonec je pomocí funkce echo vypsán textový obsah první položky. Výsledkem této části kódu bude řetězec Pankrác. Předchozí popsané XML technologie nejsou jediné, které umožňují práci s XML dokumentem. Další možností je využití jazyku XSLT, jehož součástí je jazyk XPath [1]. 2.4.4
XSLT
XSLT (Extensible Stylesheet Language Transformations) je jazyk určený pro zápis souborů stylů, pomocí kterých je možné převést XML soubory do jiných formátů [1]. Těmito formáty je myšleno HTML, XML, PDF, čistý text nebo i jiné. Zjednodušeně lze říci, že XSLT je pro XML soubory to stejné jako kaskádové styly (CSS) pro HTML dokumenty. Toto úplně přesně neplatí, neboť XSLT má na rozdíl od CSS mnohem větší možnosti práce se zpracovávaným dokumentem. XSLT se využívá v moderních aplikacích, které využívají pro přenos a ukládání dat XML soubory. Tyto aplikace jsou velmi flexibilní, neboť mohou svoje výstupy zobrazovat v mnoha různých formátech. Záleží jen na tom, pro jaké výstupní formáty jsou vytvořeny XSLT šablony. Největší výhodou takové aplikace je to, že může být kdykoliv rozšířena o nové šablony, které reflektují vznik nových formátů. Soubor XSLT šablony je speciálním typem XML dokumentu. Pro zápis příkazů je zde využito XML značek, před jejichž název se zapisuje prefix (xsl:). Díky tomu je možné kombinovat XSLT příkazy, HTML a XML značky. Samotný XSLT se skládá z několika částí (šablon). Každá šablona je označena značkou xsl:template a pomocí XPath výrazu jasně definuje část XML dokumentu, která má být podle této šablony zpracována. Obsahem šablon je XSLT kód, který může být zapsán pomocí proměnných, cyklů, podmínek a funkcí [1]. Pomocí těchto nástrojů je definován vzhled výstupního souboru. Možnosti jazyka XSLT jsou tak velké, že může být, podobně jako předchozí XML technologie, použit pro extrakci a zpracování strukturovaných dat z XML souborů.
Metodika řešení
21
3 Metodika řešení Každá aplikace by měla v rámci svého životního cyklu projít několika základními fázemi. Mezi tyto fáze patří specifikace problému, analýza, návrh, implementace, testování, provoz a údržba [11]. Jelikož fáze specifikace problému byla splněna v kapitole zadání a úvodní kapitole, bude se tato kapitola zabývat výběrem vhodných metod pro analýzu, návrh a implementaci výsledné aplikace.
3.1 Analýza a návrh Existují dva přístupy k analýze programu (softwarového díla). Těmito přístupy jsou analýza strukturovaná a objektová. V této práci bude využita objektová analýza, která je modernější a více odpovídá pohledu reálného světa [11]. V objektové analýze se softwarové dílo skládá z objektů, které jsou dány pomocí svých předpisů (tříd). Každá třída zjednodušeně popisuje jeden prvek reálného světa. Příkladem takového prvku může být obyčejné auto. Tento objekt reálného světa má určité vlastnosti. Vlastnosti auta se nazývají atributy a slouží k uchovávání vnitřního stavu objektu. Kromě atributů popisuje třída i funkce objektu. V konkrétním případu auta to znamená, že reálné auto má různé možnosti, z nichž některé mohou být v programu využity. Příkladem funkce třídy auto je metoda natankuj, která se postará o navýšení hodnoty atributu palivo. Pro využití technik objektové analýzy při tvorbě softwarového díla musíme použít nějaký z nástrojů vizuálního modelování. Standardní notací pro vizuální modelování je UML (Unified Modeling Language). UML je jazyk pro vizualizaci, návrh a dokumentaci softwarového díla. Toto je umožněno pomocí několika druhů diagramů, které UML nabízí. Mezi tyto diagramy patří diagram tříd, diagram objektů, diagram případů užití (use-case diagram), stavový diagram, diagram sekvencí, diagram činností, diagram spolupráce, diagram komponent a diagram nasazení. Ne vždy je nutné při modelování určitého projektu využít všechny typy diagramů, které UML nabízí [11]. V této práci bude využit diagram případů užití, diagram tříd a diagram spolupráce. Diagram případů užití slouží k popisu chování systému z pohledu uživatele. Diagram tak umožňuje zjistit rozsah systému a ujasnit interakce mezi uživateli a systémem. Hlavními částmi diagramu případů užití jsou aktér (actor), který reprezentuje entitu uživatele a use-case (konkrétní případ užití). V diagramu jsou aktéři a use-case propojeni pomocí vztahů. Tímto způsobem je znázorněno, co může určitý uživatel (aktér) se systémem dělat [11]. Dalším modelem UML je diagram tříd, který znázorňuje jednotlivé třídy systému a vazby mezi těmito třídami. Diagram tříd se využívá ve fázi implementace systému, neboť umožňuje efektivně rozdělit práci do jednotlivých částí, které mohou být implementovány a testovány individuálně, bez závislosti na okolních částech systému [11]. Diagram spolupráce na rozdíl od předchozích dvou patří mezi diagramy, které modelují dynamické vlastnosti systému. Tento diagram podobně jako dia-
Metodika řešení
22
gram sekvenční modeluje interakce mezi objekty. Na rozdíl od diagramu sekvenčního, který tyto interakce zkoumá s ohledem na časovou posloupnost těchto událostí, diagram spolupráce se soustředí na jednotlivé objekty s ohledem na jejich vzájemné propojení. Diagram spolupráce je rozšířením diagramu objektů. Kromě propojení objektů zobrazuje zprávy, které si objekty posílají [11]. V diagramu spolupráce jsou používány jednoduché symboly pro označení jednotlivých částí. Základním prvkem tohoto diagramu je symbol obdélníku, který reprezentuje objekt. Tyto obdélníky jsou propojeny přímkami, u kterých jsou šipky s popisem. Tímto způsobem je znázorněna vzájemná interakce mezi objekty, kde šipky reprezentují zprávy, které si mezi sebou objekty zasílají [11]. Standardním softwarem pro UML modelování je komerční produkt Rational Rose [11]. V této práci místo něj bude využit software StarUML, který autoři označují jako volně dostupnou alternativu Rational Rose [12]. S využitím UML diagramů vytvořených v programu StarUML, které vzniknou ve fázi analýzy a návrhu systému, se zjednoduší fáze implementace systému.
3.2 Technologie pro implementaci Po fázi analýzy a návrhu nastupuje fáze implementace systému. Před započetím této fáze je potřeba vhodně zvolit technologie, pomocí kterých bude systém implementován. Už v zadání této práce bylo specifikováno, že součástí výstupu této práce bude webová aplikace. Zvolil jsem jazyk PHP, neboť „PHP je lepší, rychlejší a jednodušší než jakékoli jiné alternativy“ jak uvádí Ullman str. 13 [13]. Aby aplikace mohla automaticky sledovat informace na zvolených stránkách, je potřeba vybrat nástroj, který se postará o spouštění skriptů provádějících tuto činnost. Takovým nástrojem je CRON [18]. Pro realizaci aplikační vrstvy a uživatelského rozhraní je potřeba zvolit databázový systém. Aby byla moderní aplikace úspěšná, měla by kromě schopnosti ukládat data být dostatečně uživatelsky přívětivá. K tomuto účelu se využívá jazyk JavaScript [15]. 3.2.1
PHP
PHP je skriptovací jazyk určený pro běh na webových serverech, kde umožňuje zpracování výsledků na základě uživatelských vstupů, dat z databází a mnoha dalších událostí. Tyto výsledky jsou poté uživateli zobrazeny ve formě webové stránky [13]. Jak již bylo řečeno, PHP je skriptovací jazyk. Proto se kód pro webové servery zapisuje ve formě skriptů, které se nemusí překládat do strojového kódu, jak je tomu u programovacích jazyků. Z tohoto důvodu jsou skripty tohoto jazyka vždy snadno rozšiřitelné. PHP je jazyk nezávislý na platformě. To znamená, že každý skript napsaný v tomto jazyce půjde spustit na serveru s jakýmkoliv operačním systémem [13].
Metodika řešení
23
Při odesílání požadavků na webový server se využívá architektura klientserver. Tato architektura, na rozdíl od jiných přístupů, umožňuje využívání webové aplikace velkému množství uživatelů. To je docíleno použitím prvku serveru, který naslouchá příkazům klientů, na které následně odpovídá [13]. Reakce webového serveru na dotazy klientů jsou řízeny PHP skriptem. Z tohoto důvodu má PHP v základu implementováno velké množství knihoven. Tyto knihovny umožňují jednoduché využití vstupně-výstupních operací, XML technologií, databází a mnoha dalších technologií [13]. Jelikož se PHP skripty provedou pouze tehdy, když jsou spuštěny, je potřeba zvolit nástroj, který se postará o spouštění aktualizačních skriptů aplikace. 3.2.2
CRON
CRON je program běžící na pozadí operačního systému, který se stará o spouštění předdefinovaných aplikací v daný čas. K tomuto účelu slouží speciální soubor crontab nacházející se v adresáři etc [18]. V souboru crontab je na každém řádku nadefinován časový interval a jméno aplikace, která má být v tuto dobu spuštěna. Nejkratší časový interval spuštění aplikace je jedna minuta. Každý řádek v souboru crontab má následující syntaxi oddělenou mezerami [18]: • minuta (0 – 59), • hodina (0 – 23), • den v měsíci (1 – 31), • měsíc (1 – 12), • den v týdnu (0 = neděle, 1 = pondělí, …, 7 = sobota), • cesta k aplikaci, kterou má CRON spustit. U každé z prvních pěti hodnot může být použit znak hvězdičky (*), který označuje jakoukoliv hodnotu. Příkladem použití programu CRON je následují kód, který zajistí provedení skriptu aktualizace.php každou hodinu. 0 * * * * wget http://www.server.cz/aktualizace.php
3.2.3
Databázový systém
Pro potřeby ukládání dat na webovém serveru je potřeba zvolit vhodný databázový systém. Zde máme na výběr z mnoha různých možností. Mezi nejznámější patří databázové systémy ORACLE, Microsoft SQL Server a MySQL. Výběr mezi těmito systémy usnadňuje fakt, že pouze jeden databázový systém je nejrozšířenější. Tímto databázovým systémem je MySQL [13]. MySQL je multiplatformní databázový systém s veřejným zdrojovým kódem, který je dostupný pod bezplatnou licencí. To je hlavní důvod, proč je tento databázový systém celosvětově nejrozšířenější. Databázový systém MySQL je relační databází. To znamená, že data uvnitř této databáze jsou vzájemně provázaná pomocí primárních a cizích klíčů. Relač-
Metodika řešení
24
ní databáze tedy uchovává informace o relacích (vztazích) mezi daty, které jsou uloženy ve vzájemně propojených tabulkách [13]. Pro návrh a implementaci relačních databází se využívají entitně-relační diagramy, které tento proces zjednodušují. Pro databázi MySQL je možné využít volně dostupný grafický modelovací nástroj MySQL Workbench [14], který podstatně zjednodušuje a zkracuje proces návrhu a implementace databáze. Pro práci s daty se využívá jazyk SQL (Standard Query Language), pomocí něhož je možné zadávat dotazy na databázi. Pro práci s databázemi jsou příkazy jazyka SQL rozděleny do čtyř skupin [13]: • příkazy pro manipulaci s daty (DML), • příkazy pro definici dat (DDL), • příkazy pro řízení přístupových práv (DCL), • příkazy pro řízení transakcí (TCL). 3.2.4
JavaScript
JavaScript je stejně jako PHP skriptovací jazyk. Rozdílné mezi těmito jazyky je místo, kde je výsledný skript interpretován. PHP skripty jsou interpretovány na straně serveru, skripty jazyka JavaScript jsou vkládány do HTML kódu webu a jsou interpretovány webovým prohlížečem na straně klienta [15]. Z toho plyne největší nevýhoda JavaScriptu. Kdokoliv se může podívat na zdrojový kód skriptu. Proto tento jazyk není vhodný pro skripty aplikací, kde by zveřejnění zdrojového kódu mohlo způsobit bezpečnostní rizika pro webovou aplikaci [15]. Hlavním důvodem, proč se JavaScript používá, je jeho schopnost práce s obsahem webové stránky bez toho, aniž by došlo k odeslání požadavku na webový server a tím k jejímu obnovení. V této práci bude JavaScript použit pro jednoduchý výběr prvků stránky, určených pro sledování. Kromě toho bude využito technologie AJAX [15]. 3.2.5
AJAX
AJAX (Asynchronous JavaScript and XML) je soubor technologií, které slouží k přenosu dat bez znovunačtení webové stránky. Toho je v praxi docíleno využitím skriptu v jazyce JavaScript [15]. Poprvé byla tato technologie zmíněna v článku „Ajax: A New Approach to Web Applications“ od Jesse James Garretta [15]. V tomto článku autor popisuje AJAX jako soubor technologií, které mezi sebou zahrnují [16]: • Základní technologie založené na standardech XHTML a CSS. • Dynamické zobrazení a manipulace s objektovým modelem dokumentu (DOM). • Výměnu a manipulaci s daty s využitím technologií XML a XSLT. • Asynchronní přenos dat pomocí XMLHttpRequest. • Technologie JavaScript, která to vše spojuje dohromady.
Metodika řešení
Obr. 5
25
Rozdíl mezi klasickým modelem a Ajaxem (zdroj: adaptivepath.com)
Na obrázku 5 je možné vidět rozdíl mezi klasickým přístupem a modelem technologie AJAX. Pro správnou funkčnost této technologie musí skript v jazyce JavaScript zvládat [15]: • odchycení události na stránce (př.: stisk tlačítka), • odeslání dotazu na webový server, • přijetí odpovědi na dotaz od webového serveru, • zakomponování výsledku dotazu do obsahu webové stránky. Pro zjednodušení implementace technologie AJAX se využívají různé knihovny jazyka JavaScript. Mezi nejznámější patří jQuery [17]. 3.2.6
jQuery
jQuery je rychlá javascriptová knihovna, která umožňuje jednodušší adresování částí HTML dokumentu, zpracování událostí, vytváření animací a použití Ajaxových technologií pro rychlejší webový vývoj. Tuto knihovnu, šířenou pod svobodnou licencí, poprvé představil John Resig roku 2006 [17]. Práce s knihovnou jQuery ve srovnání se samotným JavaScriptem výrazně šetří čas a množství kódu, které je potřeba pro řešení použít. To vše je zaštítěno
Metodika řešení
26
jednoduchou syntaxí. Ta využívá CSS selektory pro výběr prvků, se kterými bude jQuery pracovat, a metody, které umožňují jednoduchou práci s vybranými prvky [17].
Analýza a návrh aplikace
27
4 Analýza a návrh aplikace Základním úkolem analýzy aplikace je vytvořit specifikaci požadavků na základě zadání práce. Požadavky na aplikaci se dělí na neformální a formální. Neformální požadavky pomocí přirozeného jazyka popisují základní požadavky na aplikaci. Formální požadavky využívají diagramu případů užití ke znázornění uživatelských rolí a jejich možnosti práce se systémem [11].
4.1 Neformální požadavky Aplikace bude umožňovat sledování definovaných informací na zvolených webových stránkách. Ke zvolení sledovaných informací bude využit jednoduchý průvodce, který po uživateli nebude vyžadovat znalost HTML. Aplikace bude umožňovat práci více uživatelů v jeden okamžik. Každý uživatel, který bude chtít aplikaci využívat, se nejprve zaregistruje. Registrací uživateli vznikne uživatelský účet, který bude uchovávat veškeré nastavení uživatele. Pro práci s aplikací se uživatel přihlásí pomocí svého uživatelského jména a hesla. Po správném zadání přístupových údajů bude uživateli zpřístupněna soukromá část aplikace, kde si uživatel bude moci nastavit pomocí jednoduchého průvodce weby a informace na nich, které chce sledovat. Tyto záznamy se budou automaticky aktualizovat. Aktuální verze informací budou dostupné na úvodní straně aplikace a v automaticky generovaném RSS kanálu každého uživatele. Uživatel si bude moci zvolit, jestli chce být o změně sledovaných informací informován emailem. Zvláštním typem uživatele bude administrátor, který bude mít přístupné aplikační logy, pomocí nichž bude informován o dění v aplikaci.
Obr. 6
Blokové schéma aplikace
Pro snadnější pochopení vzájemné závislosti jednotlivých požadavků je využito blokové schéma celé aplikace (obr. 6).
Analýza a návrh aplikace
28
4.2 Diagram případů užití Prvním krokem pro vytvoření diagramu případů užití je identifikace zúčastněných stran, které budou aplikaci využívat. Na základě neformálních požadavků na aplikaci byl zvolen aktér uživatel, administrátor a čas. Diagram případů užití pro tuto aplikaci znázorňuje obrázek 7.
Obr. 7
Diagram případů užití aplikace
Aktér uživatel se bude moci přihlásit do systému a po přihlášení nastaví svůj účet. Nastavením účtu je myšlena změna hesla, e-mailové adresy a nastavení podmínek pro upozorňování na tuto adresu. Po dokončení práce se uživatel odhlásí, aby nikdo jiný nemohl získat přístup k jeho uživatelskému účtu. Kromě těchto základních možností bude uživatel moci přidat nové sledování vybrané informace na určité webové stránce. U všech vytvořených sledování si bude moci zobrazit detailní informace o sledování, jejichž součástí bude historie změn sledování. Aktér uživatel bude moci zobrazit seznam všech sledování a vybrané sledování bude moci smazat nebo aktualizovat. Aktér administrátor vychází z aktéra uživatele. Proto bude administrátor mít v základu stejné možnosti jako uživatel. Kromě toho bude moci prohlížet seznam všech uživatelů a aplikační logy, což mu umožní získat přehled nad děním v aplikaci.
Analýza a návrh aplikace
29
Důležitým aktérem v aplikaci bude čas. Čas představuje spouštění aktualizačního skriptu pomocí softwarového démona CRON [18]. Na základě zpracování tohoto skriptu bude prováděna aktualizace všech sledování a odesílání emailů. Po vytvoření diagramu případů užití, který aplikaci zobrazoval z pohledu uživatelů, je potřeba využít další diagram. Tímto diagramem bude diagram tříd, který usnadní další pochopení činnosti aplikace.
4.3 Diagram tříd Pro tvorbu diagramu tříd bude nejprve potřeba identifikovat jednotlivé třídy, které se budou v aplikaci nacházet [11]. Zde budu vycházet z blokového schématu aplikace (obr. 6), kde už byly názvy tříd použity. Proto se aplikace bude skládat z těchto pěti tříd: • Robot, • DB, • RSS, • Mail, • Systém. Rozdělení aplikace do těchto tříd bylo zvoleno záměrně, neboť každá třída reprezentuje rozhraní pro práci s jednou z oblastí, do které aplikace zasahuje. 4.3.1
Třída Robot
Nejdůležitější třídou aplikace je třída robot. Tato třída představuje webového robota, který je schopen stahovat webové stránky a na základě požadavků uživatele z těchto stránek extrahovat potřebné informace. Po předání URL adresy cílového webu je funkcí jeValidniURL zjištěno, jestli se jedná o platnou adresu. Pokud je adresa vyhodnocena jako platná, může třída tuto webovou stránkou načíst pomocí funkce nactiWeb. Tato funkce se postará o stažení zvolené webové stránky, validaci a převedení do formátu DOMDocument. Pro zjištění, jestli instance třídy obsahuje načtenou webovou stránku v objektu DOMDocument, slouží funkce jeNactenWeb. Převod webové stránky do reprezentace DOM stromu s ní usnadní další práci a umožní provádět nad stránkou XPath dotazy [1]. Pro zadávání XPath dotazů slouží funkce xpath, která vrací textovou hodnotu elementu definovaného dotazem. Součástí této funkce je vyčištění výsledného řetězce od přebytečných bílých znaků (mezery, tabulátory) funkcí normalizujRetezec. Kromě vykonávání XPath dotazů umí třída robot modifikovat DOM strom webové stránky. K tomu využívá několik funkcí: • odstranSkripty, • zrusOdkazy,
Analýza a návrh aplikace
30
• opravStyly, • pridejJQuery. Funkce odstranSkripty odstraní všechny skripty z webové stránky, funkce zrusOdkazy se postará o zrušení funkčnosti odkazů na webové stránce. Ke změně všech odkazů na kaskádové styly a obrázky z relativních na absolutní slouží funkce opravStyly. Jelikož změna odkazů z relativních na absolutní vyžaduje vložení základní části URL před relativní URL adresu, je potřeba z každé URL adresy tuto část pomocí funkce vratZakladURL získat. Poslední funkce pro práci s DOM stromem je pridejJQuery, která do webové stránky vloží jQuery skripty. Ty jsou pak využity pro uživatelský výběr sledovaných prvků kliknutím myší. Aby se webová stránka po všech úpravách mohla zobrazit uživateli, je potřeba ji převést z reprezentace DOM stromu na HTML kód, který může být uživateli zobrazen. O to se stará funkce vratHTML.
Obr. 8
Třída Robot
4.3.2
Třída DB
Pro práci s databází MySQL používá aplikace třídu DB. Konstruktor třídy nastaví přihlašovací údaje k databázi. Mezi tyto údaje patří adresa serveru, jméno databáze, přihlašovací jméno k databázi a heslo k databázi [19]. Po vytvoření instance třídy je možné pomocí funkce pripoj navázat spojení s databázovým serverem. K otestování, jestli je připojení k databázi aktivní, slouží funkce jePripojeno. Po úspěšném připojení k databázovému serveru je možné odeslat na databázi dotaz ve formátu SQL pomocí funkce dotazSQL. Ukončit připojení k databázovému serveru lze zavoláním funkce odpoj.
Analýza a návrh aplikace
Obr. 9
Třída DB
4.3.3
Třída RSS
31
Třída RSS slouží ke generování RSS kanálu pro jednotlivé uživatele systému. K tomuto účelu třída využívá objektového modelu dokumentu. Pomocí něj třída RSS vytváří zcela nový XML dokument, který splňuje specifikaci RSS 2.0 [3]. Konstruktor třídy slouží k vygenerování základní části XML dokumentu. Pro nastavení názvu, adresy a popisu kanálu slouží funkce nastavNazevKanalu, nastavOdkazNaKanal, nastavPopisKanalu. Jednotlivé položky lze přidávat prostřednictvím funkce pridejPolozku. Hotový XML dokument RSS zdroje může být zobrazen pomocí funkce vratRSS nebo uložen jako XML soubor funkcí ulozRSS.
Obr. 10
Třída RSS
4.3.4
Třída Mail
Pro posílání e-mailů uživatelům aplikace slouží třída mail. Pomocí této třídy lze jednoduše sestavit a odeslat e-mail na jakoukoliv e-mailovou adresu. Po nastavení e-mailové adresy odesílatele v parametru konstruktoru této třídy se s využitím několika funkcí nastaví příjemce, předmět a text zprávy. Nakonec se e-mail odešle prostřednictvím funkce odesliMail.
Analýza a návrh aplikace
Obr. 11
Třída Mail
4.3.5
Třída Systém
32
Nejrozsáhlejší třídou aplikace je třída systém, která představuje rozhraní pro práci se všemi ostatními třídami. Uživatel bude moci komunikovat pouze s touto třídou, která jeho příkazy zkontroluje a poté provede příkazy zavoláním ostatních tříd. Funkce třídy Systém lze rozdělit do několika skupin podle způsobu použití: • Kontrola vstupních dat. • Autorizace uživatelů a práce s uživatelskými účty. • Management sledovaných webů a jejich aktualizací. • Generování RSS zdrojů. • Odesílání e-mailů. • Zaznamenávání událostí v aplikaci. Kompletní soupis všech funkcí třídy systém je možné vidět na obrázku 12.
Analýza a návrh aplikace
Obr. 12
33
Třída Systém
První skupina funkcí slouží k validaci a verifikaci vstupních dat. Data vstupující do aplikace je potřeba kontrolovat, abychom zabránili útokům typu SQL injection a XSS (Cross-site scripting) [20]. Útoky SQL injection se používají pro kompletní ovládnutí databáze špatně zabezpečeného cílového webu. Naproti tomu XSS slouží ke vložení skriptů do databáze prostřednictvím nezabezpečených vstupů. Tyto skripty útočníkovi umožní manipulovat se vzhledem stránky, získávat citlivé údaje od uživatelů a mnoho dalších nepříjemných věcí [20]. Proto by funkce pro kontrolu vstupních dat měly být nedílnou součástí každé webové aplikace. Obecně platí, že všechna data vstupující a vystupující z databáze by měla být kontrolována [20]. Pro práci s uživatelskými účty slouží další skupina funkcí. Důležitou funkcí je vytvorUzivatele. Tato funkce se postará o vytvoření nového uživatelského účtu, pokud neexistuje uživatel se stejným přihlašovacím jménem. Ostatní funkce z této skupiny se starají o kontrolu přihlašovacích údajů při přihlašování
Analýza a návrh aplikace
34
do aplikace, ověřování uživatelských práv a kontrolu platnosti přihlášení při přesunu uživatele na další stránku v zabezpečené sekci aplikace. Pro management sledovaných webů a jejich aktualizací je určena další skupina funkcí. Každý uživatel aplikace má možnost přidávat a odebírat webové stránky, které chce sledovat. K tomuto účelu slouží funkce noveSledovani a smazSledovani. Po úspěšném nastavení webů a definování sledovaných informací uživatelem je potřeba tyto informace průběžně aktualizovat, aby uživatel měl vždy k dispozici nejaktuálnější informace. K aktualizaci určitého webu slouží funkce aktualizujSledovanyWeb. Tato funkce využije webového robota ke stažení a extrakci definované informace ze sledované webové stránky. Pro každou aktualizaci se pomocí hashovací funkce určí kontrolní součet (hash), který slouží jako podpis aktualizace. Pokud se hash nově extrahované informace bude lišit od poslední uložené, provede se aktualizace hodnoty. V aplikaci bude mít uživatel možnost sledovat změny zvolených webových stránek nejen pomocí výpisu aplikace, ale i pomocí RSS kanálu [3]. O generování souboru XML pro RSS kanál každého uživatele se stará funkce vygenerujRSS. Tato funkce v parametru přebírá RSS token, což je unikátní identifikátor RSS kanálu každého uživatele. Tento token je vygenerován při zakládání nového účtu v aplikaci pomocí funkce vygenerujRSSToken a je známý pouze uživateli účtu a administrátorovi aplikace. Tímto způsobem je zajištěna alespoň základní ochrana soukromí každého uživatele. Poslední oblastí, do které možnosti aplikace zasahují, je odesílání e-mailů. Tato možnost je zajištěna pomocí funkce posliMail, která prostřednictvím aplikace odešle e-mailovou zprávu zvolenému uživateli. Aplikace díky této funkci může upozorňovat jednotlivé uživatele na nové aktualizace jednotlivých sledovaných webů. Pro znázornění interakcí mezi objekty aplikace bude využit diagram spolupráce [11].
4.4 Diagram spolupráce K usnadnění pochopení vztahů mezi jednotlivými objekty aplikace slouží diagram spolupráce. Celou aplikaci lze rozdělit na dvě části: serverovou část a klientskou část. Po přihlášení do aplikace si uživatel stáhne klientskou část aplikace. Tato část obsahuje JavaScript vložený v HTML kódu stránky. Pomocí JavaScriptu je vytvořen AJAXový klient, který umožňuje komunikovat klientské části aplikace se serverovou částí bez toho, aby uživatel musel stahovat novou stránku ze serveru [15]. Z důvodu zjednodušení bude klientská část znázorněna v následujících digramech spolupráce pomocí objektu AJAX. Každý diagram spolupráce znázorňuje určitou událost, ke které dochází v aplikaci [11]. K jedné takové události dojde, když uživatel vybere prvek na stránce pomocí kliknutí myši. Obrázek 13 znázorňuje vzájemné interakce objektů, ke kterým následně dochází.
Analýza a návrh aplikace
Obr. 13
35
Diagram spolupráce – výběr prvku uživatelem
Jestliže uživatel klikne na určitý prvek stránky, klientská část aplikace vygeneruje XPath dotaz, který prvek jednoznačně identifikuje. Poté je XPath dotaz odeslán pomocí Ajaxu na webový server. Zde je vytvořena instance třídy systém a zavolána funkce vyresXPath, která vytvoří instanci třídy robot. Objekt robot se postará o načtení a zpracování webové stránky. Jako svůj výsledek vrátí výsledek XPath dotazu, který se stejnou cestou vrátí do klientské části aplikace. Zde je výsledek pomocí javascriptu vložen do stránky a zobrazen uživateli. Uživatel hned vidí, co přesně na webové stránce označil. Tím to však nekončí. Pro přidání nového sledování do databáze musí uživatel kliknout na tlačítko s nápisem „Přidej sledování“. Proces, který se následně uskuteční, je znázorněn na obrázku 14. Stejně jako v předchozím případě je zde využit AJAX, aby se zamezilo znovunačtení webové stránky. Po kliknutí na tlačítko „Přidej sledování“ dojde k odeslání údajů o webové stránce pomocí Ajaxu. Jakmile informace dorazí na server, dojde k vytvoření instance třídy systém a zavolání funkce pridejSledovani. Tato funkce využije objekt DB k uložení informací o novém sledování do databáze. Podle výsledku celé operace vrátí databáze návratovou hodnotu, která se stejnou cestou dostane zpátky do klientské části aplikace. Zde je uživateli zobrazena zpráva s výsledkem celé operace.
Analýza a návrh aplikace
Obr. 14
36
Diagram spolupráce – přidání výběru do databáze
4.5 ERD databáze Posledním úkolem analýzy a návrhu aplikace je navrhnout entitně-relační diagram (ERD) databáze. K tomuto účelu bude využit MySQL Workbench 5.2, který umožňuje pro navržené ERD vygenerovat soubor s SQL CREATE skriptem [14]. Tento skript poslouží k vytvoření schématu databáze a všech tabulek. K úspěšnému návrhu entitně-relačního diagramu je nejprve potřeba identifikovat jednotlivé entity, které budou sloužit pro ukládání dat. Nejdůležitější je entita uživatel, která slouží k ukládání informací o jednotlivých uživatelích. Každý uživatel může sledovat různé webové stránky, proto je další entitou sledovaný web. Tato entita umožňuje ukládat základní informace o sledovaných webových stránkách (pojmenování, URL, XPath). Pro každý sledovaný web aplikace uchovává historii aktualizací. Tato funkce je umožněna využitím entity aktualizace, která slouží k ukládání jednotlivých aktualizací sledovaných webů. Kromě těchto tří základních entit aplikace obsahuje entitu log, určenou k uchovávání událostí, které nastaly v systému, a k uchovávání jejich původce. Pro další návrh databáze je dále potřeba postupovat podle pravidel tvorby ERD diagramů, jak uvádí Halle [21]: • Sestavení seznamu entit z různých perspektiv. • Definice metadat o entitách. • Ověření kvality entit – primární klíč, jedinečné jméno, jasný význam, existence příkladu. • Seskupení entit a vytvoření podtříd a nadtříd.
Analýza a návrh aplikace
37
• Vytvoření vztahů mezi entitami. • Specifikace kardinalit. • Specifikace povinnosti. • Definice metadat o vztahu. • Doplnění atributů entitám. • Primární klíče • Debata ohledně významu primárního klíče – může to být hodnota bez významu (např. číslo), vhodná pro databázové operace, nebo hodnota s významem, se kterou se však hůře pracuje. • Primární klíče zvolit raději jednoduché než složené. • Primární klíč podtypu stejný jako u nadtypu. • Pro vztahy se definuje hlavní a podřízená entita. • Definice mazacího pravidla pro každý vztah – smazání podřízených záznamů, nastavení záznamů na NULL, nastavení záznamů na implicitní hodnoty, ponechání hodnot záznamů, vlastní chování. • Definice pravidel pro update – podobně jako pro mazání. • Definice pravidel pro insert – pokud neexistuje nadřízený záznam, odmítnutí vložení, nastavení položky na NULL, nastavení položky na implicitní hodnotu, ponechání hodnoty, vlastní chování. • Vztahy M:N nahradit vazební entitou. • Atributy • Každý atribut musí mít přímou návaznost ke zkoumané problematice. • Každý atribut musí být atomický (dále nedělitelný). • Každý atribut obsahuje konkrétní informaci, ne způsob, jak přistupovat k jiným informacím. • Každý atribut musí být srozumitelný tomu, kdo ho bude používat. • Stejné atributy pro podtypy a supertypy. • Volit srozumitelné názvy a hodnoty. • Definice metadat atributů. • Zajistit alespoň třetí normální formu (atributy dále nedělitelné, všechny neklíčové atributy jsou závislé pouze na primárním klíči, neklíčové atributy nejsou na sobě závislé). Po použití těchto pravidel byla vytvořena následující databáze (obr. 15):
Analýza a návrh aplikace
Obr. 15
Schéma databáze
38
Analýza a návrh aplikace
4.5.1
39
Popis tabulek
Tabulka uživatel • ID_uzivatel = primární klíč tabulky • ID_typ_skupiny = cizí klíč • login = přihlašovací jméno uživatele • hash_hesla = heslo uživatele po aplikaci hashovací funkce • cas_vytvoreni = čas vytvoření uživatelského účtu • mail = e-mailová adresa uživatele • RSS_token = unikátní identifikátor, který slouží k přihlášení k RSS kanálu uživatele Tabulka sledovany_web • ID_sledovany_web = primární klíč tabulky • ID_uzivatel = cizí klíč do tabulky uživatelů (vlastník sledování) • ID_typ_dat = cizí klíč do tabulky typ dat (výběr typu dat, které se mají sledovat) • pojmenovani = pojmenování sledování uživatelem • URL = URL adresa sledovaného webu • XPath = XPath adresa sledovaného prvku na webu • cas_vytvoreni = čas vytvoření sledování • upozorneni = nastavení, jestli má být odesíláno upozornění při změně sledovaného webu Tabulka aktualizace • ID_aktualizace = primární klíč tabulky • ID_sledovany_web = cizí klíč do tabulky sledovaných webů • obsah = text aktualizace • cas_vytvoreni = čas vytvoření aktualizace • hash = kontrolní součet obsahu (pro zjištění, jestli došlo ke změně) Tabulka log • ID_log = primární klíč tabulky • ID_uzivatel = cizí klíč do tabulky uživatelů (pokud událost způsobil uživatel) • ID_typ_udalosti = cizí klíč do tabulky typu události (výběr typu události)
Analýza a návrh aplikace
40
• skript = název skriptu, který záznam vytvořil • udalost = text události, která nastala • IP_zdroje = IP adresa zdroje • cas_vytvoreni = čas vytvoření události Tabulky typ_udalosti, typ_skupiny a typ_dat slouží pro ukládání hodnot výčtových typů. Z toho typ_udalosti identifikuje typ události, která nastala a je uložena v tabulce logů. Dále tabulka typ_skupiny slouží k určení skupiny, do které je konkrétní uživatel zařazen. Poslední tabulka typ_dat určuje, jestli má aplikace data na sledované webové stránce chápat jako text nebo převést na číselnou hodnotu.
Implementace
41
5 Implementace 5.1
Uživatelské rozhraní aplikace
Vzhled uživatelského rozhraní je rozhodující částí, která ovlivňuje úspěšnost nebo neúspěšnost webové aplikace. Moderní web by měl mít jednoduchý a líbivý design bez rušivých prvků a reklam [22]. U webové aplikace, která bude výsledkem této práce, platí předchozí řádky dvojnásob. Vytvářet složité rozhraní s mnoha prvky by bylo u aplikace sloužící k extrakci a sledování informací z nepřehledných webů kontraproduktivní. Proto je design úvodní stránky této webové aplikace co nejjednodušší. Úvodní strana aplikace se skládá ze dvou panelů: horní lišty a obsahu. Panel horní lišty obsahuje místo pro zadávání adres webových stránek, jméno aktuálně přihlášeného uživatele a odkazy na důležité části webové aplikace (nastavení účtu, aktualizace, odhlášení). Většinu místa prohlížeče zabírá panel obsah. Tento panel obsahuje poslední aktualizace jednotlivých sledovaných webových stránek uživatele. Součástí každého záznamu aktualizace je název sledování, odkazy na detail a smazání sledování, čas poslední změny a obsah sledovaného prvku.
5.2 Technické řešení aplikace 5.2.1
Registrace a přihlášení uživatele
Před prací s aplikací si uživatel musí vytvořit vlastní uživatelský účet. K tomuto účelu slouží skript registrace, kde uživatel vloží své uživatelské jméno, heslo a emailovou adresu. Uživatelem zadaná vstupní data jsou následně zkontrolována a výsledek registrace je zobrazen na webové stránce. Kontrola uživatelského jména a e-mailové adresy zahrnuje test regulárním výrazem na povolené znaky (whitelisting) [20]. Kromě toho je kontrolována jedinečnost uživatelského jména v databázi aplikace. Zadané heslo není kontrolováno, protože je z něj pomocí hashovací funkce sha512 vypočítán kontrolní součet (hash). V průběhu hashování je z důvodu zvýšení odolnosti hashů k heslům přidána unikátní textová hodnota (sůl) [20]. Po dokončení registrace je uživateli vytvořen uživatelský účet, pomocí kterého se může do aplikace přihlásit. Přihlašovací skript provádí stejnou kontrolu vstupních údajů jako skript registrační. Pokud uživatelem zadané údaje souhlasí s údaji v databázi, je spuštěna funkce session_start(), která uživateli odešle soubor s unikátní hodnotou (cookie) identifikující uživatelovu relaci [20]. Dále jsou na serveru vytvořeny proměnné svázané s tímto identifikátorem, které obsahují základní údaje o uživateli (id, jméno, prohlížeč, IP adresa). Od této chvíle je uživatel přihlášen. Tento stav webový server rozpozná, protože při každém požadavku od webového prohlížeče uživatele je na server odeslán soubor cookie s unikátním identifikátorem uživatele. Tento identifikátor je po každém použití změněn pomocí funkce sessi-
Implementace
42
on_regenerate_id, aby se zabránilo útoku session fixation, kdy útočník odposlechne identifikátor relace a použije ho k vlastnímu přihlášení. Kromě toho je vždy kontrolována IP adresa a prohlížeč uživatele s hodnotami uloženými na serveru [20]. 5.2.2
Přidání nového sledování
Po přihlášení do aplikace má uživatel možnost přidat nové sledování mezi své sledované weby. Tento proces začíná vložením URL adresy do vstupního pole v horní liště aplikace. Po zadání validní URL adresy je pomocí třídy robot načtena webová stránka, změněny odkazy na kaskádové styly a obrázky z relativních na absolutní, odstraněny skripty, zrušena funkčnost odkazů a vloženy skripty s kódem, který umožní vybírat prvky stránky kliknutím myši. Takto upravená stránka je zobrazena v rámu, který je vložen do hlavní stránky aplikace. Nyní má uživatel možnost vybírat jednotlivé textové části načtené webové stránky pomocí kurzoru myši. Pro lepší představu, co zrovna kurzor myši označuje, je využita funkce, která po najetí kurzoru myši na prvek přidá styl se světle zeleným podbarvením. Aby nedocházelo k postupnému zabarvení stránky, jsou nejprve vybrány všechny prvky stránky a podbarvení je zrušeno. Nyní má uživatel jasnou představu, nad kterým prvkem se nachází kurzor myši, a uživatel může kliknutím prvek označit. Po kliknutí na prvek stránky je pomocí javascriptové funkce vratXPath vygenerována jeho XPath adresa. Tato adresa jednoznačně identifikuje označený prvek stránky. Následně JavaScript ve vloženém rámu přistoupí k formulářovým polím nacházejících se na stránce, do které byl rám vložen. Do těchto polí je vložena XPath adresa prvku a URL adresa stránky. Aby měl uživatel dokonalou představu, na který prvek klikl, je pomocí AJAXu odeslán dotaz na server a vrácen výsledek XPath dotazu. Tento výsledek je vložen do formuláře a uživatel po kliknutí na prvek hned vidí, co označil. Dále má uživatel možnost zvolit, jestli má aplikace označený prvek chápat jako řetězec nebo jako číslo. Pokud je vybrána hodnota řetězec, aplikace vrátí všechna textová data, která uzly DOM stromu vyhovující výběru obsahují. V opačném případě je pomocí funkce retezecNaCislo převeden řetězec na číselnou hodnotu. Převod probíhá následujícím způsobem. Nejprve jsou z řetězce odstraněny všechny bílé znaky (mezery, tabulátory, znaky konce řádků) a HTML entita pro mezeru ( ). Poté jsou všechny znaky desetinné čárky převedeny na tečky. Nakonec je pomocí regulárního výrazu nalezeno první číslo, které je vráceno jako výsledek funkce.
Implementace
Obr. 16
43
Aplikace s načtenou webovou stránkou
Posledním krokem při vkládání nového sledování je přidání výběru do databáze. Tento proces začíná kliknutím na tlačítko „Přidej sledování“. Po stisknutí tohoto tlačítka je zkontrolována kompletnost vyplnění formuláře. Pokud je vše v pořádku, jsou data z formuláře pomocí technologie AJAX odeslána na server. Zde jsou data znovu zkontrolována a následně vložena do databáze. Na závěr je výsledek odeslán AJAXem zpět do klientské části a zobrazen jako zpráva pomocí funkce alert. 5.2.3
Aktualizace aplikace
K tomu, aby aplikace umožňovala automaticky sledovat vybrané informace, je potřeba informace v aplikaci aktualizovat. Informace v aplikaci mohou být aktualizovány dvěma způsoby. Prvním způsobem je manuální aktualizace, kterou může spustit každý uživatel na stránce aktualizace. Na této stránce má každý uživatel soupis svých sledovaných webových stránek. Vybrané stránky z tohoto seznamu může uživatel kliknutím aktualizovat. Aktualizace zde probíhá interaktivně. Po kliknutí na tlačítko „Aktualizuj“ je změněn popis u sledované stránky na „Načítání…“ a odeslán AJAXový požadavek na aktualizaci na server. Zde je požadavek zkontrolován, je ověřena autorizace uživatele k tomuto úkolu a výsledek je zaslán zpět do klientské části aplikace, kde je zobrazen.
Implementace
Obr. 17
44
Aktualizace aplikace uživatelem
Druhou možností aktualizace aplikace je využití aktualizačního skriptu, který po spuštění provede aktualizaci všech sledovaných webů v aplikaci. Tento skript může být spouštěn softwarovým démonem CRONEM v určitém časovém intervalu [18]. Aby se zabránilo neautorizovaným aktualizacím aplikace, je pomocí bezpečnostního kódu (tokenu) kontrolována validita požadavku na aktualizaci aplikace. Tento token je zadáván v parametru webové stránky.
Obr. 18
Aktualizace aplikace
5.2.4
Generování RSS zdroje
Aktualizované informace je potřeba předat jednotlivým uživatelům. Uživatel může zjistit změny sledovaných informací návštěvou úvodní strany aplikace.
Implementace
45
Tento způsob nemusí vyhovovat všem uživatelům, proto aplikace podporuje generování RSS zdrojů [3]. RSS zdroj aplikace je XML soubor, který v sobě obsahuje jednotlivé sledované weby a jejich poslední aktualizace. Tento XML soubor může uživatel odebírat prostřednictvím čtečky redakčních kanálů [3]. V aplikaci je XML soubor generován skriptem rss.php, aby byla vždy zajištěna aktuálnost XML zdroje. Tento skript využívá bezpečnostní token, který slouží k autentizaci uživatele. Po ověření uživatele je pomocí třídy DOMDocument vytvořen nový XML dokument a následně jsou do něj přidány poslední aktualizace sledovaných webových stránek uživatele. 5.2.5
Upozornění e-mailem
Každý uživatel může být upozorňován na změny svých sledovaných webových stránek prostřednictvím e-mailu. Už při registraci musí uživatel poskytnout platnou e-mailovou adresu, na kterou budou uživateli doručována upozornění. Upozornění na změny sledovaných webových stránek si uživatel může nastavit v detailu sledování. Zde si uživatel zvolí, zda chce nebo nechce být upozorňován na změny sledované stránky. Pokud uživatel zvolí, že chce být upozorňován na změny, aplikace při aktualizaci zkontroluje, jestli došlo ke změně sledovaného webu a e-mailem odešle upozornění na tyto změny. 5.2.6
Zaznamenávání událostí v aplikaci
Kromě kontroly vstupů a výstupů musí bezpečná aplikace zaznamenávat co nejpodrobnější informace o činnostech uživatelů [20]. Tyto záznamy (logy) jsou dostupné pouze administrátorovi aplikace, který je díky nim informován o událostech v aplikaci a upozorněn na útoky na aplikaci. U každého záznamu se ukládá několik údajů [20]: • čas vytvoření, • jméno PHP skriptu, který záznam vytvořil, • IP adresa původce, • jméno přihlášeného uživatele (pokud byl uživatel přihlášen), • typ události (informace, varování), • text události. Tyto záznamy jsou do databáze ukládány pomocí funkce ulozDoLogu. Výsledný záznam může vypadat následovně: 14.3.2012 15:00 detail.php Pepa IP_ADRESA Varování Neplatný vstup v argumentu ‘id’, Očekáváno číslo, získáno “1; DELETE FROM sledovany_web”
Z tohoto záznamu administrátor okamžitě pozná, že se uživatel Pepa snažil zaútočit na webovou aplikaci prostřednictvím techniky SQL injection a smazat ta-
Implementace
46
bulku sledovaných webů. Pokud by se mu útok povedl, administrátor může dohledat, kdo smazání tabulky způsobil a opravit chybu aplikace [20].
Obr. 19
Seznam logů uživatele
Jelikož v aplikaci vzniká velké množství záznamů, je potřeba je nějakým způsobem třídit. To je umožněno pomocí filtrů login a typ události. Díky těmto filtrům si může administrátor zobrazit pouze záznamy určitého uživatele nebo potenciálně nebezpečné události v aplikaci.
5.3 Problémy při řešení aplikace Při řešení aplikace se objevilo několik problémů, které se však podařilo vyřešit. Cílem této kapitoly je popsat podstatné problémy a vysvětlit způsoby jejich řešení. 5.3.1
Validace URL adresy
V aplikaci je možné zadat URL adresu webové stránky, která se má zobrazit, tak aby si uživatel mohl vybrat, které informace chce sledovat. Jelikož je do pole URL adresy možné zadat jakýkoliv text, je potřeba, aby byl tento text zkontrolován. K tomuto účelu slouží funkce validujURL, která zkontroluje, jestli zadaný řetězec začíná na http:// nebo https://. Pokud řetězec nezačíná těmito znaky, aplikace usoudí, že je uživatel zapomněl vložit a před řetězec je automaticky vloženo http://. Tento krok nezaručí, že je URL adresa platná. K zjištění platnosti URL adresy je potřeba tuto adresu otestovat. Test adresy probíhá následujícím způsobem. Nejprve je pomocí funkce get_headers načtena hlavička stránky. Následně je z hlavičky přečten http stavový kód [23], podle kterého je zjištěno, jestli je adresa platná, neplatná nebo má dojít k přesměrování. Maximální počet přesměrování je omezen na pět, aby nedocházelo k zacyklení. Funkčnost validace URL adresy je možné otestovat zadáním adresy google.com do adresního řádku aplikace. Tato adresa je upravena na
Implementace
47
http://google.com a následně dojde k dvojímu přesměrování. Nejprve na adresu http://www.google.com, a poté na http://www.google.cz. 5.3.2
Nastavení kódování stránky
Po validaci URL adresy aplikace načte a zobrazí webovou stránku s vloženým javascriptovým kódem. Pouhé načtení a zobrazení pomocí funkcí objektu DOM se ukázalo jako nedostatečné, neboť objekt DOM nastavuje kódování podle meta tagu webové stránky [8]. Proto je při načítání stránky do tohoto objektu nutno postupovat trochu jiným způsobem. Nejprve je potřeba získat textový obsah stránky pomocí funkce file_get_contents. Následně je zjištěna přítomnost meta tagu s kódováním pomocí regulárního výrazu. Pokud tento meta tag v textu stránky chybí, je načtena hlavička stránky, zjištěno kódování a pro toto kódování vytvořen nový meta tag, který je vložen do obsahu stránky. Tím tento problém nekončí. Některé stránky mají meta tag kódování v textu stránky, definován ve zkrácené podobě, které objekt DOM nerozumí. Tyto případy musí být nahrazeny zcela novými tagy. Teprve poté může být obsah webové stránky načten pomocí funkce loadHTML objektu DOM. 5.3.3
Nefunkční XPath dotazy
Asi největší problém, který se při implementaci vyskytl, byla nefunkčnost XPath dotazů na některých stránkách. Jednalo se o stránky buď částečně, nebo zcela tvořené pomocí tabulek. Jelikož procento těchto stránek dosahovalo 50 %, bylo vyřešení tohoto problému rozhodujícím aspektem pro funkčnost aplikace. Potíže při řešení problému způsobila domněnka, že je objektový strom dokumentu před načtením do objektu DOM jiný, než je po načtení do tohoto objektu. Tuto domněnku podpořil fakt, že většina nefunkčních webových stránek nebyla zcela validní, což mohlo způsobit jiné vnitřní uspořádání uzlů v objektu DOM. Domněnka se, po inspekci obsahu tohoto objektu, ukázala jako zcela chybná. Místo toho bylo zjištěno, že XPath dotazy generované pomocí jazyka JavaScript nesouhlasí s uspořádáním uzlů v objektu DOM. Rozdíl mezi správným a nesprávným XPath dotazem způsoboval nadbytečný element tbody na stránkách obsahujících tabulky. Jelikož některé stránky tento element v XPath dotazu vyžadovaly a některé ne, byla jako nejvhodnější řešení zvolena záměna elementu tbody za znak lomeno (/). Vložení znaku lomeno způsobí vznik posloupnosti dvou těchto znaků za sebou. To umožní vyhledávání potomků uzlu do libovolné hloubky [1]. 5.3.4
Nedodržování standardů na webových stránkách
Tento problém je jediný, který se nepodařilo zcela vyřešit. Jelikož každý tvůrce webu chápe pravidla pro tvorbu webových stránek po svém, musí dojít k uvolnění pravidel pro extrakci z těchto webů také v této aplikaci. Přehnané uvolňování pravidel se neosvědčilo, protože způsobovalo nefunkčnost webových
Implementace
48
stránek do té doby funkčních. Při tvorbě aplikace byly nalezeny tyto prohřešky proti pravidlům tvorby webových stránek: • křížení HTML značek, • špatné ukončení nebo neukončení HTML značek, • nenastavené nebo špatně nastavené kódování stránky. Kromě toho existuje velké množství stránek, které pro generování svého obsahu používají JavaScript. Jelikož tato aplikace před zpracováním všechny skripty odstraní, nemůže být schopná stránky s obsahem generovanými skripty správně zpracovat.
Testování
49
6 Testování Pro ověření funkčnosti aplikace byla potřeba otestovat její funkčnost na reálných datech. K tomuto účelu byla vybrána skupina webových stránek, na kterých byla aplikace testována. Skupina testovacích webových stránek se skládá z internetových obchodů, webů s aktuálními kurzy, zpravodajských portálů a výběru z celosvětově nejnavštěvovanějších webových stránek roku 2011 [24]. U většiny webů se testovala funkčnost na hlavní stránce a náhodně zvolené podstránce. Tím se množina testovacích dat zdvojnásobila a celkově testování probíhalo na 100 webových stránkách. Do množiny těchto testovacích webových stránek například patří: • http://www.seznam.cz • http://www.google.cz • http://www.alza.cz • http://aukro.cz • http://www.ebay.com • http://www.amazon.com • http://www.bbc.co.uk • http://www.idnes.cz Seznam všech webových stránek, na kterých byla aplikace testována, je možné najít na přiloženém CD. Cílem testování bylo zjistit, jak si část aplikace, zabývající se přidáváním nových sledování, povede na různých webových stránkách. Proto byla na každé webové stránce testována funkčnost aplikace podle následujících pravidel. Nejprve byla testována schopnost aplikace webovou stránku správně načíst a zobrazit. Tento test probíhal vložením URL adresy webu do adresního řádku aplikace. Pokud se cílová webová stránka vůbec nezobrazila, byla považována za nefunkční. V opačném případě byl její vzhled porovnán se vzhledem stejné stránky ve webovém prohlížeči Mozilla Firefox 11.0 s aktivním doplňkem NoScript [1]. Pokud se od sebe tyto vzhledy lišily, bylo zobrazení této webové stránky považováno jako rozdílné. Pouze pokud bylo vše v pořádku, bylo zobrazení webové stránky považovano za správné. V druhém případě byla testována schopnost aplikace vrátit správný výsledek pro XPath dotaz, který byl vygenerován po kliknutí na různé prvky stránky. Testování probíhalo následovně. Pokud se v prvním kroku povedlo stránku zobrazit, byla testována funkčnost řešení XPath dotazů na konečné množině náhodných kliknutí. Jedno špatné vyhodnocení XPath dotazu stačilo k tomu, aby byla funkčnost stránky klasifikována jako částečná. Pokud aplikace nebyla schopná vyřešit ani jeden XPath, byla chápána jako nefunkční. Pro každou z testovaných kategorií byl vytvořen graf, který zobrazuje celkovou úspěšnost aplikace v dané kategorii.
Testování
Obr. 20
50
Úspěšnost aplikace při zobrazení webových stránek
Na obrázku 20 je možné vidět, že aplikace dokázala zpracovat a zobrazit 96 % webových stránek, z toho 15 % stránek se nezobrazilo stejně jako v prohlížeči Mozilla Firefox 11.0 s doplňkem NoScript. Z celkového počtu se pouze 4 % stránek nepovedlo zobrazit. Jednalo se o stránky, které používají šifrované spojení (https) nebo používají komprimaci obsahu webové stránky.
Obr. 21
Funkčnost vracení výsledku XPath dotazů na stránce
Obrázek 21 ukazuje, že XPath dotazy na 88 % webových stránek jsou zcela funkční. Pouze na 6 % webový stránek fungovalo řešení XPath dotazů jen částečně a na 6 % nefungovaly XPath dotazy vůbec. Do těchto 6 % nefunkčních stránek byly započítány také stránky, které se v prvním testu vůbec nezobrazily.
Diskuze
51
7 Diskuze Aplikace, která vznikla v rámci této práce, splňuje požadavky definované v zadání. Tato skutečnost byla ověřena testováním aplikace na vzorku 100 webových stránek. Většina testovaných webových stránek byla aplikací správně zpracována. Během testování bylo zjištěno, že program nedokáže zobrazit webové stránky, které využívají šifrované spojení nebo odesílají tělo stránky komprimované. To je způsobeno využitím funkce file_get_contents pro stahování obsahů webových stránek. Nejdůležitější částí aplikace je javascriptový selektor, který umožňuje vybírat části webové stránky pomocí kliknutí myši. Po kliknutí na určitý prvek je vygenerována jeho XPath adresa. V první verzi aplikace byl využit algoritmus generující XPath adresu od kořene stromu (absolutní adresování). Tato technika se neosvědčila, protože i sebemenší změna struktury sledované webové stránky mohla vést ke ztrátě funkčnosti XPath dotazu. Proto byl algoritmus upraven, aby nalezl nejbližší element s unikátním atributem ID. Díky tomu je prvek stránky adresován relativně vzhledem k tomuto elementu. I přes tuto změny není tento způsob adresování prvku dokonalý a změna struktury webové stránky stále může způsobit nefunkčnost XPath dotazu. Po kliknutí na prvek stránky je kromě vygenerování XPath dotazu vrácen výsledek tohoto dotazu, aby měl uživatel přehled, na jaký prvek stránky kliknul. Pro vyřešení každého vygenerovaného dotazu je pokaždé stažena aktuální verze stránky. To u některých stránek způsobuje prodlevu i několik sekund. Tento čas by se dal výrazně zkrátit využitím dočasné kopie stránky uložené v paměti programu. Toto řešení nebylo využito, protože některé stránky se mění tak často, že by v aplikaci nebyly vidět tyto změny. Použité PHP DOM rozhraní [8] se ukázalo jako samo o sobě nedostačující pro extrahování obsahu webových stránek. Rozhraní obsahuje několik chyb, které musely být opraveny. Například třída sloužící pro načtení HTML stránky do objektové reprezentace rozpoznává kódování stránky z meta tagu [8]. Pokud tag chybí nebo je uveden špatně, třída nedokáže rozpoznat správné kódování a zvolí defaultní. Tento problém byl úspěšně vyřešen čtením použitého kódování z http hlavičky stránky [23]. Aplikace má oproti ostatním webovým systémům, které byly představeny v úvodní kapitole, jednodušší a intuitivnější ovládání. Toho bylo dosaženo kombinací javascriptového selektoru s generováním XPath dotazů, jejich odesíláním na server pomocí technologie AJAX a automatickým řešením vygenerovaných dotazů. Toto řešení odstraňuje pozdější problémy se špatným výběrem sledovaných prvků.
Závěr
52
8 Závěr Cílem této práce bylo analyzovat, navrhnout a implementovat aplikaci, která bude schopná sledovat uživatelem vybrané informace na zvolených webových stránkách. To se podařilo úspěšně splnit. Aplikace po uživatelích nevyžaduje znalost HTML, protože výběr sledovaných prvků webové stránky probíhá intuitivně klikáním myši. Výhodou této aplikace je, že ji každý uživatel může použít různými způsoby. Investor může sledovat aktuální kurzy měn, komodit a akcií. Uživatel nakupující v internetových obchodech může sledovat změny cen vybraných produktů. Možnosti použití aplikace jsou prakticky neomezené, záleží jen na uživatelích, jakým způsobem aplikaci využijí. Aplikace umožňuje využití RSS kanálu nebo e-mailu pro sledování změn na webových stránkách. Uživatel aplikaci navštíví pouze jednou, kdy si zvolí, které informace chce na webových stránkách sledovat. Na změny může být upozorněn pomocí své čtečky redakčních kanálů nebo e-mailem, jakmile ke změně sledované informace dojde. Díky tomu uživatel nemusí zbytečně navštěvovat webový server aplikace, pokud k žádné změně sledovaných informací nedošlo. Tvorba a ladění aplikace zabrala zhruba 4 měsíce. Nejvíce času trvalo přizpůsobení aplikace požadavkům různých webových stránek. To bylo způsobeno tím, že velké množství webových stránek není validní (nedodržuje standardy tvorby webových stránek). Do budoucna je možné aplikaci rozšířit přidáním možnosti vytvářet pravidla, podle kterých se mají odesílat e-maily. Bylo by také možné přidat vykreslování grafů pro položky sledující číselné informace.
Literatura
53
9 Literatura [1]
KOSEK, JIŘÍ. PHP a XML. Praha : Grada, 2009. 368 s. ISBN 978-80-2471116-4.
[2]
LIU, BING. Web Data Mining : Exploring Hyperlinks, Contents, and Usage Data. 2nd edition. Heidelberg : Springer, 2011. 622 p. ISBN 978-3642-19459-7.
[3]
HOLZNER, STEVEN; ŠINDELÁŘ, JAN. RSS : Automatické doručování obsahu vašich WWW stránek. Brno : Computer Press, 2007. 280 s. ISBN 978-80-251-1479-7.
[4]
Page2RSS [online]. 2011 [cit. 2011-11-14]. Dostupné z:
.
[5]
Femtoo : Track and monitor web page changes and receive notifications [online]. 2011 [cit. 2011-11-22]. Dostupné z: .
[6]
W3C. W3C Recommendation [online]. 7.6.2011 [cit. 2011-11-29]. Selectors. Dostupné z: .
[7]
LIU, BING. Web Content Mining. In The 14th International World Wide Web Conference (WWW-2005) [online]. [s.l.] : [s.n.], 2005 [cit. 2011-1028]. Dostupné z: .
[8]
MYLLYMAKI, JUSSI. Effective Web Data Extraction with Standard XML Technologies. In 10th International World Wide Web Conference [online], 2001 [cit. 2012-04-15]. Dostupné z: http://www10.org/cdrom/papers/pdf/p102.pdf
[9]
PECKA, MIROSLAV. Regulární výrazy [online]. 2008 [cit. 2012-04-15]. Dostupné z:
[10] PHP GROUP. DOM - Manual [online]. [cit. 2012-01-26]. Dostupné z: . [11] SCHMULLER, JOSEPH. Myslíme v jazyku UML: knihovna programátora. Vyd. 1. Praha: Grada, 2001, 360 s. ISBN 80-247-0029-8.
Literatura
54
[12] StarUML: The Open Source UML/MDA Platform [online]. 2008 [cit. 2012-02-17]. Dostupné z: [13] ULLMAN, LARRY. PHP a MySQL: názorný průvodce tvorbou dynamických WWW stránek. Vyd. 1. Brno: Computer Press, 2004, 534 s. ISBN 80251-0063-4. [14] ORACLE. MySQL: MySQL Workbench 5.2 [online]. 2012 [cit. 2012-0215]. Dostupné z: [15] RESIG, JOHN. JavaScript a Ajax: moderní programování webových aplikací. Vyd. 1. Překlad Ondřej Baše, Ondřej Žižka. Brno: Computer Press, 2007, 360 s. ISBN 978-80-251-1824-5. [16] JAMES GARRETT, JESSE. Ajax: A New Approach to Web Applications. In: Adaptive Path [online]. 18. 2. 2005 [cit. 2012-02-15]. Dostupné z: [17] jQuery: The Write Less, Do More, JavaScript Library [online]. 2010 [cit. 2012-02-13]. Dostupné z: . [18] VIXIE, PAUL. CRONTAB [online]. 24. 1. 1994 [cit. 2012-02-21]. Dostupné z: [19] PHP GROUP. MySQL - Manual [online]. [cit. 2012-02-27]. Dostupné z: . [20] HUSEBY, SVERRE H. Zranitelný kód. Vyd. 1. Brno: Computer Press, 2006, 207 s. ISBN 80-251-1180-6. [21] VON HALLE, BARBARA. Business rules applied: business better systems using the business rules approach. New York: Wiley Computer Publishing, 2002, 546 s. ISBN 04-714-1293-7. [22] The Smashing Book – User Interface Design in Modern Web Applications. Smashing Magazine [online]. 2012 [cit. 2012-03-07]. Dostupné z:
Literatura
55
[23] RFC 2616 - Hypertext Transfer Protocol -- HTTP/1.1. Faqs.org [online]. June 1999 [cit. 2012-03-22]. Dostupné z: [24] GOOGLE. The 1000 most-visited sites on the web [online]. July 2011 [cit. 2012-03-26]. Dostupné z: [25] MAONE, GIORGIO. NoScript 2.3.5 [online]. [cit. 2012-04-01]. Dostupné z: [26] YAHOO!. Yahoo! Finance [online]. 2012 [cit. 2012-04-13]. Dostupné z:
Kompletní diagram tříd
56
Přílohy
Kompletní diagram tříd
A Kompletní diagram tříd
Obr. 22
Kompletní diagram tříd
57
SQL CREATE skript
58
B SQL CREATE skript SQL CREATE skript pro vytvoření databáze s názvem db, který byl vygenerován pomocí nástroje MySQL Workbench 5.2 [14]. CREATE SCHEMA IF NOT EXISTS `db` DEFAULT CHARACTER SET utf8 COLLATE utf8_czech_ci; USE `db` ; -- ------------------------------------------------------ Table `typ_skupiny` -- ----------------------------------------------------CREATE TABLE IF NOT EXISTS `typ_skupiny` ( `ID_typ_skupiny` INT(4) auto_increment NOT NULL PRIMARY KEY , `nazev` VARCHAR(45) NOT NULL); INSERT INTO typ_skupiny(nazev) VALUES ("Admin"); INSERT INTO typ_skupiny(nazev) VALUES ("Uživatel"); -- ------------------------------------------------------ Table `uzivatel` -- ----------------------------------------------------CREATE TABLE IF NOT EXISTS `uzivatel` ( `ID_uzivatel` INT(4) auto_increment NOT NULL PRIMARY KEY , `ID_typ_skupiny` INT(4) NOT NULL , `login` VARCHAR(45) NOT NULL , `hash_hesla` VARCHAR(128) NOT NULL , `cas_vytvoreni` TIMESTAMP DEFAULT CURRENT_TIMESTAMP , `mail` VARCHAR(45) NOT NULL , `RSS_token` VARCHAR(40) NOT NULL , INDEX `fk_uzivatel_typ_skupiny1` (`ID_typ_skupiny` ASC) , CONSTRAINT `fk_uzivatel_typ_skupiny1` FOREIGN KEY (`ID_typ_skupiny` ) REFERENCES `typ_skupiny` (`ID_typ_skupiny` ) ON DELETE NO ACTION ON UPDATE NO ACTION);
-- ------------------------------------------------------ Table `typ_dat` -- ----------------------------------------------------CREATE TABLE IF NOT EXISTS `typ_dat` ( `ID_typ_dat` INT(4) auto_increment NOT NULL PRIMARY KEY , `nazev` VARCHAR(45) NOT NULL);
SQL CREATE skript
59
INSERT INTO typ_dat(nazev) VALUES ("Řetězec"); INSERT INTO typ_dat(nazev) VALUES ("Číslo"); -- ------------------------------------------------------ Table `sledovany_web` -- ----------------------------------------------------CREATE TABLE IF NOT EXISTS `sledovany_web` ( `ID_sledovany_web` INT(8) auto_increment NOT NULL PRIMARY KEY, `ID_uzivatel` INT(4) NOT NULL , `ID_typ_dat` INT(4) NOT NULL , `pojmenovani` VARCHAR(45) NOT NULL , `URL` VARCHAR(255) NOT NULL , `XPath` VARCHAR(255) NOT NULL , `upozorneni` BOOLEAN NOT NULL , `cas_vytvoreni` TIMESTAMP DEFAULT CURRENT_TIMESTAMP, INDEX `fk_sledovany_web_uzivatel` (`ID_uzivatel` ASC) , INDEX `fk_sledovany_web_typ_dat1` (`ID_typ_dat` ASC) , CONSTRAINT `fk_sledovany_web_uzivatel` FOREIGN KEY (`ID_uzivatel` ) REFERENCES `uzivatel` (`ID_uzivatel` ) ON DELETE CASCADE ON UPDATE NO ACTION , CONSTRAINT `fk_sledovany_web_typ_dat1` FOREIGN KEY (`ID_typ_dat` ) REFERENCES `typ_dat` (`ID_typ_dat` ) ON DELETE NO ACTION ON UPDATE NO ACTION);
-- ------------------------------------------------------ Table `aktualizace` -- ----------------------------------------------------CREATE TABLE IF NOT EXISTS `aktualizace` ( `ID_aktualizace` INT(8) auto_increment NOT NULL PRIMARY KEY , `ID_sledovany_web` INT(8) NOT NULL , `obsah` TEXT NOT NULL , `cas_vytvoreni` TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP , `hash` VARCHAR(32) NOT NULL , INDEX `fk_aktualizace_sledovany_web` (`ID_sledovany_web` ASC) , CONSTRAINT `fk_aktualizace_sledovany_web` FOREIGN KEY (`ID_sledovany_web` ) REFERENCES `sledovany_web` (`ID_sledovany_web` )
SQL CREATE skript
60
ON DELETE CASCADE ON UPDATE NO ACTION); -- ------------------------------------------------------ Table `typ_udalosti` -- ----------------------------------------------------CREATE TABLE IF NOT EXISTS `typ_udalosti` ( `ID_typ_udalosti` INT(4) auto_increment NOT NULL PRIMARY KEY , `nazev` VARCHAR(45) NOT NULL );
INSERT INTO typ_udalosti(nazev) VALUES ("Informace"); INSERT INTO typ_udalosti(nazev) VALUES ("Varování"); -- ------------------------------------------------------ Table `log` -- ----------------------------------------------------CREATE TABLE IF NOT EXISTS `log` ( `ID_log` INT(8) auto_increment NOT NULL PRIMARY KEY , `ID_uzivatel` INT(4) NULL , `ID_typ_udalosti` INT(4) NOT NULL , `skript` VARCHAR(45) NOT NULL , `udalost` VARCHAR(255) NOT NULL , `IP_zdroje` VARCHAR(39) NOT NULL , `cas_vytvoreni` TIMESTAMP NOT NULL , INDEX `fk_log_uzivatel1` (`ID_uzivatel` ASC) , INDEX `fk_log_typ_udalosti1` (`ID_typ_udalosti` ASC) , CONSTRAINT `fk_log_uzivatel1` FOREIGN KEY (`ID_uzivatel` ) REFERENCES `uzivatel` (`ID_uzivatel` ) ON DELETE NO ACTION ON UPDATE NO ACTION, CONSTRAINT `fk_log_typ_udalosti1` FOREIGN KEY (`ID_typ_udalosti` ) REFERENCES `typ_udalosti` (`ID_typ_udalosti` ) ON DELETE NO ACTION ON UPDATE NO ACTION);
Příklad využití aplikace
61
C Příklad využití aplikace Aplikace může být využita k různým účelům. Na tomto příkladě bude prezentována schopnost aplikace sledovat kurzy akcií společnosti Apple. Aby uživatel tyto kurzy akcií mohl sledovat, musí si ve webovém prohlížeči otevřít jednu z webových stránek, která kurzy akcií obsahuje. V tomto případě je použita webová stránka Yahoo! Finance [26]. Po nalezení a vložení adresy do adresního řádku aplikace dojde k načtení požadované stránky (obrázek 23).
Obr. 23
Načtená stránka Yahoo! Finance
Na této stránce může uživatel pomocí kurzoru myši vybrat požadovaný prvek stránky, který má zájem sledovat. Prvek stránky, nad kterým má uživatel aktuálně kurzor myši, je označen světle zeleným podbarvením. Podle tohoto podbarvení uživatel pozná, který prvek stránky bude po kliknutí označen. Jakmile uživatel klikne na určitý prvek stránky, dojde k vygenerování XPath adresy prvku a vložení do pole s názvem „XPath“ ve formuláři. Následně je prostřednictvím AJAXu odeslána URL adresa aktuální stránky a vygenerovaný XPath na server, který se pokusí XPath dotaz vyřešit. Doba řešení může trvat i několik sekund, protože server stahuje aktuální verzi webové stránky a teprve tuto stránku použije k vyřešení dotazu. Po dokončení je výsledek odeslán zpět do klientské části a vložen do formulářového pole s názvem „Výsledek“. Díky tomu uživatel okamžitě vidí, co přesně bude aplikace sledovat a případně může výběr novým kliknutím opravit. Nyní uživateli stačí dopsat do pole „Pojmenování“ název, podle kterého bude moci toto sledování v aplikaci identifikovat. V tomto případě, který je zobrazen na obrázku 24, bylo použito pojmenování „Akcie Apple [USD]“.
Příklad využití aplikace
Obr. 24
62
Stav aplikace po kliknutí na prvek
Pro přidání vybraného sledování do aplikace je potřeba, aby uživatel kliknul na tlačítko „Přidej sledování“. Poté dojde ke kontrole všech údajů ve formuláři pomocí JavaScriptu a odeslání na server technologií AJAX. Na serveru jsou data znovu zkontrolována a vložena do databáze aplikace. Nyní stačí, aby byl pravidelně spouštěn aktualizační skript aplikace prostřednictvím softwarového démona CRONa. O zbytek už se aplikace postará sama. Uživatel může svoje stránky sledovat prostřednictvím hlavní stránky aplikace, osobního kanálu RSS nebo e-mailu. Vždy si může zobrazit detail sledované informace, kde má veškeré podrobnosti o sledování společně s historií sledování, jak je vidět na obrázku 25. V případě sledování akcií společnosti Apple, má uživatel aplikace okamžitý přehled, jak se vyvíjela cena akcií v jednotlivých dnech. Tyto informace uživatel může využít ke svým obchodním zájmům.
Příklad využití aplikace
Obr. 25
Detail aktualizace
63