v praze fakulta elektrotechnická katedra kybernetiky informací na webu Autor: Martin Myslík Program: Otevřená informatika

ˇ ´ VYSOKE ´ UCEN ˇ Í TECHNICKE ´ CESK E v praze ´ fakulta elektrotechnicka

katedra kybernetiky

C´ılen´ e vyhled´ av´ an´ı informac´ı na webu ´ RSK ˇ A ´ PRACE ´ BAKALA

Obor: Informatika a poˇ c´ıtaˇ cov´ e vˇ edy Autor: Martin Mysl´ık Program: Otevˇ ren´ a informatika Vedouc´ı práce: Ing. Radek Maˇ r´ık, CSc.

Praha, 2013

1

Českévysoké učenítechnické v Praze Faku lta elektrotech nická Katedra kybernetiky

zADÁNí enxnlÁŘsrÉ pnÁce Student:

Martin

Myslík

Studijní program: Otevřená informatika (bakalářský)

Obor: Název

vědy lnformatika a počítačové

tématu: Cílenévyhledávání informací na webu Pokyny pro vypracováni:

1. Vytvorte přehled současných technik a metod cílenéhovyhledávání informací na webu, 2, Naimplementujte prototyp vyhledáváníwww stránek týkajícíseproblematiky a vyzkoušejte na něm vybrané metody. 3. Zhodnotte dosažené výsledky a navrhněte dalšípostup práce,

Seznam odborné literatury: [1] Mark Levene: An lntroduction to Search Engines and Web Navigation. Second edition, John Wiley & Sons, New Jersey,2010. [2] George Almpanidis, Constantine Kotropoulos, loannis Pitas: Combining text and link analysis for focused crawling - An application for vertical search engines. lnf. Syst. 32(6):

886-908 (2007) Zdravko Markov and Daniel T. Larose: Data Mining the Web: Uncovering Patterns in Web [3] Content, Structure, and Usage. Wiley, New Britain , CT,2007. [4] Raymond Kosala, Hendrik Blockeel:Web Mining Research: A Survey. ln ACM SIGKDD, July 2000.

Vedoucí bakalářské práce: lng. Radek Mařík, CSc. Platnost zadání: do konce zimního semestru 2O13l2O14

*u

dimír Mařík, DrSc. vedďucí katedry

Y Praze dne 10. 1.2013

3

Anotace Tématem bakal´ aˇrské pr´ ace je c´ılené vyhledáván´ı informac´ı na internetu. Práce obsahuje teoretick´ y rozbor dneˇsn´ı podoby Webu, pˇredstavuje struˇcn´ y pˇrehled technik pouˇz´ıvan´ ych k jeho prohledáván´ı a popisuje konkrétn´ı implementaci programu, kter´ y je zamˇeˇren na c´ılené vyhledáván´ı informac´ı. Internet je v dneˇsn´ı dobˇe bezpochyby nejrozsáhlejˇs´ı zdroj informac´ı dostupn´ ych ˇclovˇeku. V posledn´ıch dvou desetilet´ı doˇslo k jeho tak rapidn´ımu r˚ ustu, ˇze vyhled´ av´ an´ı relevantn´ıch str´ anek se stalo specializovanou discipl´ınou. Nejpouˇz´ıvanˇejˇs´ı a nejpohodlnˇejˇs´ı zp˚ usob vyhledáván´ı na Webu jsou jistˇe internetové vyhledávaˇce. Ty k prohled´ av´ an´ı str´ anek pouˇz´ıvaj´ı crawlery, tedy poˇc´ıtaˇcové programy pro automatizované indexov´ an´ı stránek. Hlavn´ım c´ılem pr´ ace bylo vytvoˇrit takov´ y program, kter´ y uˇzivateli pom˚ uˇze vyhledat konkrétn´ı informace na internetu bez nutnosti toho, aby byl uˇzivatel bˇehem tohoto procesu fyzicky pˇr´ıtomen, pˇr´ıpadnˇe alespoˇ n pop´ıˇse postup, kter´ y by v´ ysledn´ y program tomuto c´ıli pˇribl´ıˇzil. Kl´ıˇ cov´ a slova: internet, web crawling, crawler, focused crawler, vyhledáván´ı, vyhled´ avaˇc, hodnocen´ı str´ anek, information retrievel

Abstract The topic of this thesis is focused on Internet search methods. At first, a theoretical background, including the current structure of the Internet and techniques used for information retrieval, are presented. After that, a simple implementation of a program used for focused crawling is analysed. Internet is without doubt the biggest information source available at the moment. There has been a huge growth in the size of the Web in the last two decades and information retrieval has become very important. Using various search engines is probably the most convenient way of searching information online today. These search engines use crawlers, specialized computer programs, for automatic indexing of web pages. The main goal of this project is to create a crawler that will assist the user with searching for high quality information sources without the need of being physically present to this process. Keywords: internet, web crawling, crawler, focused crawler, information retrieval, search engine, page ranking

4

Obsah ´ 1 Uvod 1.1 C´ıle projektu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Dneˇsn´ı podoba internetu . . . . . . . . . . . . . . . . . . . . . . . 1.3 Webcrawling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Pˇ rehled technik pouˇ z´ıvan´ ych 2.1 Z´ akladn´ı cyklus . . . . . . . 2.2 Prohled´ av´ an´ı . . . . . . . . 2.3 Beam search . . . . . . . . . 2.4 Parsov´ an´ı . . . . . . . . . . 2.5 Suffixov´ a pole . . . . . . . . ˇ alovatelnost . . . . . . . . 2.6 Sk´

pro webcrawling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7 7 7 9

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

11 11 11 14 14 15 16

3 Hodnocen´ı str´ anek 3.1 TF-IDF . . . . . . . . . . . . . 3.2 Latent semantic indexing (LSI) 3.3 PageRank . . . . . . . . . . . . 3.4 HITS . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

17 17 19 20 22

4 Existuj´ıc´ı software 4.1 Google . . . . . . 4.2 Yahoo . . . . . . 4.3 Lydia . . . . . . 4.4 Dalˇs´ı boti . . . . 4.5 Focused crawlery

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

23 23 24 25 25 25

5 Implementace crawleru 5.1 Popis . . . . . . . . . . . . . . 5.2 Pr˚ ubˇeh session . . . . . . . . 5.3 Reprezentace dat a struktura 5.4 V´ ystup crawleru . . . . . . . 5.5 Stop words . . . . . . . . . . 5.6 Problémy implementace . . . 5.7 Budov´ an´ı indexu . . . . . . . 5.8 Struktury indexu . . . . . . . 5.9 Klient . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

27 27 27 28 30 31 31 31 32 32

6 Prezentace 6.1 Pˇr´ıklad 6.2 Pˇr´ıklad 6.3 Pˇr´ıklad

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

v´ ysledk˚ u 33 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5

7 Navrˇ zen´ı dalˇ s´ıho postupu 7.1 Pr´ ace s daty a v´ ykon . . . . . . . 7.2 Aktualizace indexu . . . . . . . . 7.3 Podpora jazyk˚ u . . . . . . . . . . 7.4 Rozpozn´ av´ an´ı struktury stránek 7.5 Uˇcen´ı . . . . . . . . . . . . . . . 8 Z´ avˇ er

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

41 41 41 42 42 42 44

6

´ Uvod

1 1.1

C´ıle projektu

C´ılem projektu je vyzkouˇset, jak efektivnˇe vyhledávat informace na internetu pomoc´ı jeho prozkoum´ av´ an´ı (webcrawling) a následnou anal´ yzou nalezeného textu. Rozebereme, jak postavit crawler1 tak, aby se byl sám schopen pohybovat mezi jednotliv´ ymi str´ ankami a sb´ırat informace. Vysvˇetl´ıme jeho architekturu a na co si d´ at pˇri psan´ı programu pozor. ˇ ast pr´ C´ ace bude zamˇeˇrena na to, jak naloˇzit se z´ıskan´ ymi daty. Pop´ıˇseme r˚ uzné zp˚ usoby hodnocen´ı str´ anek na základˇe anal´ yzy jejich obsahu, a jejich v´ yhody a nev´ yhody v naˇs´ı implementaci. Mimo jiné se zamˇeˇr´ıme i na to, ˇc´ım se liˇs´ı náˇs crawler od jin´ ych, ˇsiroce vyuˇz´ıvan´ ych, bot˚ u.

1.2

Dneˇ sn´ı podoba internetu

Internet je bezpochyby nejvˇetˇs´ım u ´loˇziˇstˇem dat, které je dnes ˇclovˇeku pˇr´ıstupno. Odhad poˇctu indexovan´ ych stránek je v souˇcasné dobˇe cca 7,65 bilion˚ u2 . Skuteˇcné ˇc´ıslo bude ale mnohon´ asobnˇe vˇetˇs´ı, nebot’ toto jsou pouze ty stránky, které byly oznaˇceny internetov´ ymi vyhledávaˇci. Nav´ıc jeˇstˇe znaˇcná ˇcást dat nen´ı vyhled´ avaˇc˚ um pˇr´ımo pˇr´ıstupna, protoˇze je ukryta ve vnitˇrn´ıch databáz´ıch, jedná se o tzv. skryt´ y internet (invisible web). Odhaduje se, ˇze tato ˇcást webu by mohla b´ yt aˇz 550kr´ at3 vˇetˇs´ı, neˇz data pˇr´ımo pˇr´ıstupná na internetu. Skuteˇcn´ y poˇcet str´ anek na internetu by v souˇcasné dobˇe mohl pˇresáhnout i jeden trilion, nebot’ internetové vyhledávaˇce pokr´ yvaj´ı jen malou ˇcást pˇr´ıstupného internetu. Toto ˇc´ıslo je ale velmi tˇeˇzké ovˇeˇrit, protoˇze v´ yznamná ˇcást webu je tvoˇrena dynamicky vytv´ aˇren´ ymi stránkami. Mnohem vˇetˇs´ı vypov´ıdaj´ıc´ı hodnotu neˇz celkov´ y poˇcet stránek má ale poˇcet websites. Ke zmˇeˇren´ı jejich poˇctu nám staˇc´ı identifikovat jen domovskou stránku kaˇzdé z nich a n´ aslednˇe seˇc´ıst tyto stránky. Roku 2010 bylo spoˇcteno, ˇze existuje 113,9 milion˚ u registrovan´ ych komerˇcn´ıch websites. Toto ˇc´ıslo nám asi pˇresn´ y poˇcet str´ anek urˇcit nepom˚ uˇze, protoˇze r˚ uzné stránky mohou vlastnit i nˇekolik domén, ale d´ av´ a n´ am alespoˇ n hrub´ y odhad4 . Kromˇe velikosti“ internetu je jeˇstˇe zaj´ımavé zm´ınit jeho strukturu. Kdybychom ” vzali vˇsechny str´ anky na internetu, nanesli je na velkou plochu v podobˇe bod˚ u a n´ aslednˇe mezi nimi vyznaˇcili odkazy, dostali bychom graf zobrazuj´ıc´ı celou s´ıt’ (obr. 1).

1 Webcrawler

je poˇ c´ıtaˇ cov´ y program, kter´ y automaticky prohled´ av´ a internet

2 http://www.worldwidewebsize.com/ 3 http://aip.completeplanet.com/ 4 http://www.whois.sc/internet-statistics/

7

Obr´ azek 1: Pˇr´ıklad mapy http://en.wikipedia.org/

ˇcásti

internetu

z

roku

2005,

zdroj:

Aˇckoli by se mohl ˇclovˇek z obrázku domn´ıvat, ˇze internet je vlastnˇe jedna velká spojit´ a struktura, ve skuteˇcnosti tomu tak nen´ı. Studie5 ukázala, ˇze v 75% pˇr´ıpad˚ u neexistuje ˇz´ adn´ a cesta z jedné náhodnˇe vybrané stránky na druhou, a kdyˇz uˇz takov´ a cesta existuje, vzdálenost tˇechto stránek je cca 16 kliknut´ı. V´ıce o struktuˇre webu se lze doˇc´ıst v knize od M. Levene[Lev06]. Dalˇs´ı, co je nutné zm´ınit v u ´vodu do problematiky webcrawlingu, je dynamická struktura webu. Web je vˇetˇsinou povaˇzován, za soubor stránek, z ˇcehoˇz vypl´ yvá, ˇze graf Webu m´ a koneˇcnˇe mnoho uzl˚ u. To ale nen´ı tak docela pravda, Pokud za ”webovou str´ anku”povaˇzujeme vˇsechno, co má URL adresu pouˇz´ıvaj´ıc´ı HTTP protokol, tak aˇckoli je mnoˇzstv´ı informac´ı na Webu koneˇcné, poˇcet stránek je ne5 Studii

provedli roku 1999 odborn´ıci z IBM, Compaq a AltaVista

8

koneˇcn´ y. Existuj´ı miliony dynamick´ ych webov´ ych stránek, které obsahuj´ı linky na dalˇs´ı dynamicky generované stránky, z ˇcehoˇz se dá usuzovat, ˇze Web je v podstatˇe nekoneˇcn´ y. Vˇetˇsina studi´ı zab´ yvaj´ıc´ıch se Webem pojednává pouze o ”veˇrejnˇe dostupné”ˇcásti internetu, aniˇz by brala v potaz ”skryt´ y Web”(viz v´ yˇse). Neindexovatelná ˇcást je charakterizov´ ana jako vˇsechny stránky, ke kter´ ym se normáln´ı uˇzivatelé maj´ı ˇsanci dostat, ale crawlery6 pouˇz´ıvané vyhledávaˇci ne. Nˇekteré stránky nejsou indexovatelné, protoˇze vyˇzaduj´ı registraci uˇzivatel˚ u nebo jinou autorizaci. Jiné mohou umoˇzn ˇovat pˇr´ıstup pouze v urˇcité s´ıti (napˇr. firemn´ı intranet). Dalˇs´ı skupinu tvoˇr´ı dynamicky vytv´ aˇrené stránky po zadán´ı poˇzadavk˚ u. Crawler nemus´ı zn´ at parametry tˇechto poˇzadavk˚ u. R˚ uzné ˇcásti Webu si m˚ uˇzete prohlédnout na obr. 2.

Obr´ azek 2: Web m˚ uˇze b´ yt rozdˇelen na ˇcásti chránˇené heslem a veˇrejnˇe pˇr´ıstupné ˇc´ asti, a dynamické a statické stránky[BYC07]

1.3

Webcrawling

Webcrawler je program, kter´ y automaticky procház´ı Web a stahuje jednotlivé str´ anky. Na kaˇzdé str´ ance najde odkazy (links), které následuje. Vˇetˇsinou jsou tyto programy pouˇz´ıv´ any vyhledávaˇci k indexován´ı webov´ ych stránek. Mezi dalˇs´ı moˇzné aplikace patˇr´ı validace stránek, strukturáln´ı anal´ yza a vizualizace obsahu, upozornˇen´ı na zmˇeny na str´ ance, ale i ˇrada zlomysln´ ych uplatnˇen´ı - napˇr. sb´ırán´ı mailov´ ych adres za u ´ˇcelem rozes´ılán´ı spamu. Webcrawlers tvoˇr´ı centráln´ı ˇcást vyhled´ avaˇc˚ u. Jsou nutné k tomu, aby databáze prohledan´ ych stránek byla co 6 Pˇ ri psan´ı ˇ cesk´ e verze t´ eto pr´ ace jsem jen s obt´ıˇ zemi hledal ˇ cesk´ y ekvivalent slova ”crawler”proto budu tento v´ yraz skloˇ novat takov´ ym zp˚ usobem, jak´ y mi pˇrijde nejpˇrirozenˇ ejˇs´ı

9

nejaktu´ alnˇejˇs´ı, a jejich architektura je vˇetˇsinou povaˇzována za obchodn´ı tajemstv´ı. My se ted’ pod´ıv´ ame na z´ akladn´ı typy takov´ ychto program˚ u: General-purpose crawler Tyto crawlery sb´ıraj´ı a zpracovávaj´ı obsah Webu kolem nˇejakého centralizovaného m´ısta tak, aby bylo moˇzné indexovat jednotlivé stránky dopˇredu, coˇz umoˇzn´ı rychlé odpovˇedi na mnoho uˇzivatelsk´ ych dotaz˚ u. V poˇcátc´ıch, kdyˇz Web jeˇstˇe nebyl pˇr´ıliˇs rozs´ ahl´ y, náhodné prohledávac´ı metody byly postaˇcuj´ıc´ı pro indexov´ an´ı vˇsech str´ anek. Nyn´ı je ale Web pˇr´ıliˇs obsáhl´ y a my mus´ıme dˇelat ˇradu kompromis˚ u: Crawler m˚ uˇze m´ıt dobré pokryt´ı ale n´ızkou obnovovac´ı frekvenci (tzn. jeho index m˚ uˇze b´ yt zastaral´ y). Nebo m˚ uˇze b´ yt obnovovac´ı frekvence (refresh rate) vysok´ a, ale za cenu horˇs´ı hodnot´ıc´ı funkce (ranking function), ˇci m˚ uˇze chybˇet zpracov´ an´ı sloˇzitˇejˇs´ıch dotaz˚ u, které potˇrebuj´ı vyˇsˇs´ı v´ ypoˇcetn´ı v´ ykon. To je také d˚ uvodem, proˇc s rychlou expanz´ı webu tyto crawlery a obecné vyhled´ avac´ı systémy pokr´ yvaj´ı stále menˇs´ı fragment celkového poˇctu vˇsech webov´ ych str´ anek a na oblibˇe nab´ yvaj´ı specializované (focused) vyhledávac´ı systémy7 . Focused crawler Tvorba tˇechto bot˚ u byla motivována faktem, ˇze Web obsahuje nepopsatelnˇe mnoho informac´ı, ale vˇetˇsina lid´ı se zaj´ımá pouze o jejich malink´ y zlomek. C´ılem tˇechto program˚ u je prohled´ aván´ı pouze malé ˇcásti Webu a nalezen´ı stránek, které se zab´ yvaj´ı poˇzadovan´ ym tématem. Takov´ y crawler m˚ uˇze m´ıt mnoho podob: klasick´ y focused crawler (dostane zadané poˇcáteˇcn´ı URL, seznam hledan´ ych v´ yraz˚ u a proch´ az´ı str´ anky, dokud nenalezne, co hledáme), learning crawlers (spolupracuje s uˇzivatelem, kter´ y oznaˇcuje stránky jako relevantn´ı a irelevantn´ı, aby zlepˇsil v´ ykon programu pro budouc´ı pouˇzit´ı) a mnoho dalˇs´ıch. Chov´ ani crawleru je charakterizováno kombinac´ı nˇekolika strategi´ı8 : • selection policy - urˇcuje, které stránky stahovat • re-visit policy - urˇcuje, kdy kontrolovat zmˇeny na stránkách • politeness policy - urˇcuje, jak se vyhnout pˇret´ıˇzen´ı jednotliv´ ych stránek, resp. server˚ u • parallelization policy - urˇcuje, jak koordinovat jednotlivé crawlery, pokud jich je v´ıce neˇz jeden

7 t´ eˇ z

Vertical search engines v´ yrazy t´ ykaj´ıc´ı se tohoto t´ ematu nemaj´ı uspokojiv´ y ˇ cesk´ y ekvivalent, proto nech´ am jejich znˇ en´ı v Angliˇ ctinˇ e 8 Nˇ ekter´ e

10

2

Pˇ rehled technik pouˇ z´ıvan´ ych pro webcrawling

V této kapitole se budeme zab´ yvat t´ım, jaké techniky se daj´ı pouˇz´ıt pˇri implementaci samotného crawleru. Nebudeme dˇelat pˇrehled vˇsech problém˚ u, se kter´ ymi se pˇri psan´ı programu ˇclovˇek setká, ale udˇeláme struˇcn´ y v´ yˇcet pouze tˇech nejzaj´ımavˇejˇs´ıch.

2.1

Z´ akladn´ı cyklus

Kaˇzdé prohled´ av´ an´ı se skl´ adá z nˇekolika základn´ıch krok˚ u. Session vˇetˇsinou zaˇc´ın´ a inicializac´ı nˇejak´ ych startovac´ıch URL (seed URLs, ˇcasto zadány uˇzivatelem). Vˇsechny tyto URl se uloˇz´ı do listu stránek, které ˇcekaj´ı na zpracován´ı (Open list/frontier a jsou postupnˇe stahovány a parsovány, dokud nen´ı list prázdn´ y nebo nenastala nˇejak´ a terminaˇcn´ı podm´ınka. Pr˚ ubˇeh session se dá zjednoduˇsenˇe zn´ azornit takto:

Obr´ azek 3: Pr˚ ubˇeh crawling session[PSM04]

2.2

Prohled´ av´ an´ı

Pˇri crawlingu je d˚ uleˇzité, jakou strukturu si zvol´ıme pro list obsahuj´ıc´ı URL str´ anek, které se teprve chystáme prohledat. Tˇemi nejzákladnˇejˇs´ımi z nich jsou 11

fronta a z´ asobn´ık. Z´ asobn´ık Z´ asobn´ık funguje na principu LIFO (last in, first out). Jin´ ymi slovy: posledn´ı URL, kterou na dané str´ ance najdeme, navˇst´ıv´ıme jako prvn´ı. Z n´ı opˇet separujeme vˇsechny odkazy a zaˇrad´ıme je na vrˇsek zásobn´ıku. Jedná se tedy o DFS prohled´ av´ an´ı (depth-first search).

Obr´ azek 4: DFS - prohledáván´ı do hloubky

Zjevnou nev´ yhodou tohoto postupu je, ˇze stránky vˇetˇsinou obsahuj´ı obrovsk´ y poˇcet odkaz˚ u, a pokud zaˇcneme prohledávat nˇejakou neperspektivn´ı vˇetev, m˚ uˇzeme se snadno dostat mimo str´ anky, které souvis´ı s hledan´ ym tématem. Fronta Fronta, oproti z´ asobn´ıku, funguje na principu FIFO (first in, first out). Pˇri jej´ı aplikaci se tedy bude jednat o BFS prohledáván´ı (breadth-first search).

Obr´ azek 5: BFS - prohledáván´ı do ˇs´ıˇrky

Tento postup je evidentnˇe efektivnˇejˇs´ı. Pˇri správnˇe zvoleném seed URL bu12

deme m´ıt vˇetˇs´ı ˇsanci se dobrat pouˇziteln´ ych v´ ysledk˚ u, protoˇze se nám nestane, ˇze bˇehem prohled´ av´ an´ı se crawler dostane zbyteˇcnˇe hluboko na stránky, které jsou od p˚ uvodn´ıho tématu velmi vzdálené. Pouˇzijeme tedy frontu. Mimo to v roce 2001 vyˇslo shrnut´ı studie, která porovnávala prohledáván´ı do ˇs´ıˇrky a do hloubky (a dalˇs´ı) na 328 milionech unikátn´ıch stránek s pouˇzit´ım algoritmu PageRank jako kriteri´ aln´ı funkce[NW01]. Kvalitu daného ˇrazen´ı byla hodnocena podle toho, jak rychle dan´ y algoritmus vyhledá vˇsechny ”kvalitn´ı”stránky (tj. str´ anky s nejvyˇsˇs´ı hodnotou PageRank funkce9 ). V´ ysledky tohoto testu ukázaly, ˇze prohled´ av´ an´ı do ˇs´ıˇrky st´ ahne kvalitn´ı stránky jako prvn´ı a kvalita nalezen´ ych str´ anek se postupnˇe (tedy s kaˇzdou dalˇs´ı u ´rovn´ı) sniˇzuje. Nav´ıc tato metoda ménˇe zatˇeˇzuje servery. Omezen´ı vyhled´ av´ an´ı Dalˇs´ı ot´ azkou, kterou je nutno ˇreˇsit, je jak dlouho nechat crawler prohledávat. Vzhledem k tomu, kolik je na webu stránek, by pˇri zvolen´ı urˇcit´ ych seed URLs mohlo prohled´ av´ an´ı trvat nepˇr´ıjemnˇe dlouho (pˇr´ıpadnˇe skonˇcit kv˚ uli nedostatku v´ ypoˇcetn´ıho v´ ykonu). Mus´ıme proto naˇsi session shora omezit. Nab´ız´ı se hned tˇri moˇznosti: urˇcit ˇcas, kter´ y má crawler k dispozici, nastavit fixn´ı hloubku prohled´ avac´ıho stromu nebo urˇcit limit poˇctu navˇst´ıven´ ych stránek. Bude tedy rozumné rozhodnout se pro posledn´ı jmenované, protoˇze narozd´ıl od prvn´ıch dvou moˇznost´ı n´ am zaruˇc´ı pokaˇzdé stejn´ y poˇcet prohledan´ ych stránek. Dalˇs´ı vˇec, se kterou se budeme pot´ ykat, je opakován´ı stejn´ ych URL adres. Je pravdˇepodobné, ˇze pokud prozkoumáváme okol´ı nˇejaké seed URL pomoc´ı BFS, jednotlivé str´ anky budou mezi sebou provázané, a my nechceme ˇzádnou stránku navˇst´ıvit dvakr´ at. Bude proto tˇreba vytvoˇrit Close list, do kterého uloˇz´ıme jejich adresy. Vhodnou strukturou je d´ıky rychlému pˇr´ıstupu a snadné manipulaci Hashmap. Nˇekteré objekty na webu nejsou HTML stránky, ale tvoˇr´ı je napˇr. obrázky, PDF a jiné nestandardn´ı typy soubor˚ u. Takové stránky m˚ uˇzeme bud’ u ´plnˇe ignorovat nebo s nimi pracovat. Naˇse implementace napˇr. podporuje ukládán´ı pdf soubor˚ u (leˇc jej´ıch zpracován´ı vyˇzaduje odliˇsn´ y a nároˇcnˇejˇs´ı pˇr´ıstup neˇz u HTML str´ anek) a ignoruje ostatn´ı typy soubor˚ u. Dalˇ s´ı moˇ znosti Kromˇe z´ asobn´ıku a fronty máme jeˇstˇe dalˇs´ı moˇznosti, jak zvolit poˇrad´ı stahovan´ ych str´ anek. Jedn´ım z nich je napˇr´ıklad prioritn´ı fronta nebo backlist ordering, ve kterém jako prvn´ı stahujeme stránky s nejvyˇsˇs´ım ratingem. Je tedy nutné zvolit metriku, podle které budeme urˇcovat kvalitu stránek (HITS, PageRank . . . ) a n´ aslednˇe pˇrepoˇc´ıtávat rating vˇsech novˇe staˇzen´ ych stránek. 9 V´ ıce

o algoritmu PageRank v dalˇs´ıch kapitol´ ach

13

2.3

Beam search

Beam search je zvl´ aˇstn´ı druh prohledáván´ı, kter´ y buduje strom pomoc´ı prohled´ av´ an´ı do ˇs´ıˇrky, ale rozˇsiˇruje v kaˇzdém patˇre pouze omezen´ y poˇcet nejlépe hodnocen´ ych uzl˚ u. Pokaˇzdé tedy ohodnot´ı vˇsechny uzly v právˇe prohledané u ´rovni, seˇrad´ı je a vybere n nejlepˇs´ıch, ve kter´ ych pak pokraˇcuje ve vyhledáván´ı. ˇ ıslo n oznaˇcuje jako beam width. Tento algoritmus nen´ı u C´ ´plný 10 , nebot’ op’ tim´ aln´ı stav nemus´ı b´ yt nalezen, ale je pamˇet ovˇe efektivnˇejˇs´ı, protoˇze nemus´ıme budovat cel´ y strom jako pˇri klasickém prohledáván´ı do ˇs´ıˇrky. Existuje ale i varianta tohoto algoritmu, která je u ´plná. Pokud do beam search zavedeme backtracking, pak máme moˇznost zajistit, ˇze pˇri prohledáván´ı vˇzdy nalezneme optim´ aln´ı stav. To popsali roku 2005 vˇedci z univerzity v Mississippi[ZH05]. Tento algoritmus je ˇcasto pouˇz´ıván napˇr´ıklad v systémech strojov´ ych pˇreklad˚ u. Kaˇzdé slovo lze pˇreloˇzit mnoha zp˚ usoby, ale vybere se jen ten, kter´ y nejlépe odpov´ıd´ a struktuˇre vˇety. To je dobˇre popsáno napˇr. ve studii, která byla provedena roku 2003 v IBM T. J. Watson Research Center[TN03]. My pouˇz´ıváme sv´ ym zp˚ usobem také jistou formu beam search, a to v pˇr´ıpadˇe opakované crawling session. Prohled´ av´ ame bˇehem jednotliv´ ych session stránky do ˇs´ıˇrky a poté vybereme n nejlepˇs´ıch v´ ysledk˚ u a pouˇzijeme je jako seed URLs pro dalˇs´ı session.

2.4

Parsov´ an´ı

Jakmile je str´ anka staˇzena, je naˇcase ji rozparsovat11 . Na stránce m˚ uˇzeme napˇr. hledat pouze odkazy, pˇr´ıpadnˇe pak dalˇs´ı obsah. ˇ Casto n´ as na str´ ance zaj´ım´ a nˇejaká konkrétn´ı ˇcást, ke které se budeme snaˇzit dostat. V takovém pˇr´ıpadˇe je nutné prohledat cel´ y strom HTML tag˚ u (HTML/tag tree), abychom se k hledanému obsahu dostali. V naˇs´ı implementaci crawleru se HTML parsov´ an´ım nezab´ yváme, protoˇze stahujeme a analyzujeme veˇsker´ y textov´ y obsah str´ anky, nicménˇe pokládám za d˚ uleˇzité toto téma zm´ınit. Pˇri staˇzen´ı str´ anky mus´ıme nejdˇr´ıve upravit stránku do takové podoby, abychom mohli vygenerovat strom, ve kterém bude kaˇzd´ y uzel m´ıt jednoho rodiˇce. Na str´ ank´ ach napˇr´ıklad mohou chybˇet nˇekteré povinné tagy (< html >, < body > apod.), které je nutné doplnit. Následnˇe je moˇzné rekonstruovat celou strukturu v podobˇe stromu a analyzovat tˇreba jen nˇekteré uzly, ve kter´ ych se vyskytuj´ı relevantn´ı informace. Za jist´ y druh parsov´ an´ı se dá povaˇzovat i rekonstrukce nalezen´ ych URL. V mnoh´ ych pˇr´ıkladech mohou b´ yt odkazy napsané v nestandardn´ım tvaru, kter´ y mus´ı b´ yt upraven, abychom dan´ y odkaz mohli pouˇz´ıt. Mezi takové u ´pravy patˇr´ı: pˇreveden´ı odkazu na malá p´ısmena, odstranˇen´ı tzv. ”anchor”ˇcást´ı (ˇcást 10 complete 11 ˇ cesky

napˇr. ”rozloˇ zit”

14

URL za # symbolem), doplnˇen´ı zpˇetn´ ych lom´ıtek, pˇr´ıpadnˇe odstranˇen´ı tˇech pˇreb´ yvaj´ıc´ıch, odstranˇen´ı ”..”z odkazu a vygenerován´ı patˇriˇcné URL v u ´plném tvaru a dalˇs´ı.

2.5

Suffixov´ a pole

V této sekci kr´ atce rozebereme metodu suffixov´ ych pol´ı, která patˇr´ı k pouˇz´ıvan´ ym technik´ am pˇri prohled´ av´ an´ı dlouh´ ych text˚ u. Suffixová pole jsou technika pouˇz´ıvaná pˇri online vyhled´ av´ an´ı typu ”Je W substring12 A? D´ıky této technice jsme schopni na tuto ot´ azku odpovˇedˇet v ˇcase O(P + logN ), kde P je délka W a N je délka A, coˇz je ve vˇetˇsinˇe pˇr´ıpad˚ u kratˇs´ı ˇcas, neˇz u suffix tree algoritm˚ u. Suffixové pole je vlastnˇe seˇrazen´ y list vˇsech suffix˚ u13 nˇejakého textu A. Pokud toto pole sp´ arujeme s informac´ı o nejdelˇs´ıch bˇeˇzn´ ych prefixech (lcp - least common prefixes) sousedn´ıch slov v naˇsem suffixovém poli, pak hledán´ı ˇretˇezc˚ u v textu dos´ ahne jiˇz zm´ınˇené sloˇzitosti O(P + logN ) (napˇr. pomoc´ı binárn´ıho vyhled´ av´ an´ı). Nejprve se ve zkratce pod´ıváme, jak prob´ıhá vyhledáván´ı za pˇredpokladu, ˇze suffixové pole jiˇz bylo sestaveno. Necht’ A = a0 , . . . , aN −1 je text o délce N . Necht’ Ai = ai , . . . , aN −1 je suffix A, kter´ y zaˇc´ıná na pozici i - konkrétnˇe P os[k] je poˇc´ ateˇcn´ı pozice k-tého nejmenˇs´ıho suffixu v A. Pro vˇsechny prvky pole P os plat´ı, ˇze AP os[0] < AP os[1] < · · · < AP os[N −1] , kde < je lexikografické ˇrazen´ı. D´ ale pro ˇretˇezec u definujeme up jako prefix, kter´ y se skládá z p prvn´ıch symbol˚ u u. Definujeme i relace
p , ≤p , ≥p jako lexikografické ˇrazen´ı prefix˚ uop prvc´ıch. Pokud chceme vyhledat vˇsechny instance ˇretˇezce W = w0 , . . . , wp−1 v A, kde p ≤ N , pak provedeme n´ asleduj´ıc´ı: Necht’ LW = min(k : W ≤p AP os[k] or k = N ) a RW = max(k : AP os[k] ≤p W or k = −1). D´ıky tomu, ˇze naˇse pole W je lexikograficky seˇrazené, plat´ı, ˇze pro kaˇzdé i = P os[k] je k ∈ [LW , RW ]. Takˇze pokud, dok´ aˇzeme rychle naj´ıt LW a RW , pak poˇcet shodn´ ych ˇretˇezc˚ u, které najdeme je RW − LW + 1 a jejich levé koncové pozice jsou dány jako P os[LW ], . . . , P os[RW ]. Nav´ıc d´ıky ˇrazen´ı ≤p jsme schopni LW a RW naj´ıt metodou porovn´ an´ı ˇretˇezc˚ u v ˇcase O(logN ), kde kaˇzdé porovnán´ı vyˇzaduje O(logP ) operac´ı. T´ım p´ adem jsme schopni v poli P os vyhledat vˇsechny v´ yskyty ˇretˇezce v ˇcase O(P logN ). Nyn´ı se pod´ıv´ ame, jak se takové suffixové pole sestavuje. Vylepˇsen´ı pomoc´ı sestavov´ an´ı lcp zde rozeb´ırat nebudeme, nebot’ to nen´ı pˇredmˇetem této práce. ˇ Razen´ ı prob´ıh´ a v nejhorˇs´ım pˇr´ıpadˇe v log2 (N + 1) fáz´ıch. V prvn´ı fázi seˇrad´ıme suffixy skupin podle jejich prvn´ıho symbolu. Poté stejn´ ym zp˚ usobem dˇel´ıme tyto skupiny podle dvojn´ asobného poˇctu následuj´ıc´ıch symbol˚ u. Pro zjednoduˇsen´ı 12 podˇ retˇ ezec 13 angl.

pˇripona, v textu ale nebudu pˇrekl´ adat

15

oznaˇc´ıme tyto f´ aze 1, 2, 4, 8 atd. abychom t´ım vyznaˇcili poˇcet ovlivnˇen´ ych symbol˚ u. Takˇze f´ aze H-t´ a f´ aze znaˇc´ı, ˇze jsme provedli ˇrazen´ı do stupnˇe leqH . Dále jeˇstˇe dopn´ıme vˇsechny suffixy mezerami tak, aby jejich délka byla N + 1. V prvn´ı f´ azi m´ ame pole P os seˇrazeno podle prvn´ıch symbol˚ u a v dalˇs´ım poli si uchov´ av´ ame logické hodnoty, které oznaˇcuj´ı dˇelen´ı suffix˚ u do m1 skupin. Pole P os bude st´ ale v´ıce seˇrazené a v H-té fázi budou suffixy rozˇrazeny do mH skupin, kde v kaˇzdé budou suffixy se stejn´ ymi H prvn´ımi symboly, a nav´ıc jsou v r´ amci kaˇzdé skupiny suffixy seˇrazeny do stupnˇe ≤H . Podrobnˇejˇs´ıho postup pˇri tvoˇren´ı a pouˇzit´ı suffixov´ ych pol´ı se lze doˇc´ıst napˇr. v [MM90] nebo [YC01]. Hlavn´ı v´ yhodou této metody je niˇzˇs´ı v´ ypoˇcetn´ı sloˇzitost iu ´spora m´ısta na disku, protoˇze nemus´ıme uchovávat vˇsechny texty a ˇretˇezce v pol´ıch, ale staˇc´ı n´ am pouze hlavn´ı text a nˇekolik pol´ı ˇc´ısel, které symbolizuj´ı ukazatele do nˇej.

2.6

ˇ alovatelnost Sk´

Pˇri masivn´ım crawlingu by se boti mˇely d´ıvat do souboru ”robots.txt”, kter´ y je um´ıstˇen v root adres´ aˇri témˇeˇr kaˇzdé vˇetˇs´ı stránky. Podle nˇeho se zjist´ı, zda m˚ uˇze b´ yt dan´ a str´ anka v˚ ubec prohledávána. Dále by se mˇelo pˇredej´ıt tomu, aby byl server zahlcen dotazy ke staˇzen´ı stránek, coˇz se m˚ uˇze lehce stát, pokud se k nˇemu snaˇz´ı pˇripojit velké mnoˇzstv´ı crawler˚ u najednou. Implementace jednoduché verze crawleru, kter´ y pouze stahuje a ukládá obsah str´ anek je pomˇernˇe trivi´ aln´ı. Pokud ale chceme vybudovat systém, kter´ y by zpracov´ aval vˇetˇs´ı mnoˇzstv´ı stránek (jako to dˇelaj´ı napˇr. webové vyhledávaˇce), m´ ame pˇred sebou nesnadn´ yu ´kol. Pr˚ umˇerná velikost jedné stránky je cca 20KB (miliarda str´ anek pak m˚ uˇze m´ıt i 20 000GB), takˇze je nutné cel´ y obsah ukládat na distribuované s´ıti poˇc´ıtaˇc˚ u nebo podobném obrovském u ´loˇziˇsti. Nejd˚ uleˇzitˇejˇs´ım u ´kolem je ale navrˇzen´ı systému pro koordinaci velkého mnoˇzstv´ı crawler˚ u. Podrobnˇe se t´ımto tématem zab´ yvá napˇr. studie z roku 2003[Bos03].

16

3

Hodnocen´ı str´ anek

V této kapitole se zamˇeˇr´ıme na to, jak naloˇzit se z´ıskan´ ymi daty. Existuje mnoho zp˚ usob˚ u jak hodnotit stránky a ˇradit je podle obsahu od nejlepˇs´ı po nejhorˇs´ı (resp. podle relevance). Zde postupnˇe pop´ıˇseme nˇekolik z nich se vˇsemi v´ yhodami a nev´ yhodami. V prvn´ı ˇradˇe je nutné zm´ınit, ˇze je rozd´ıl mezi pojmy data retrievel a information retrievel (IR). Pˇredpokládejme, ˇze uˇzivatel do vyhledávaˇce zadá nˇejak´ y dotaz (query). V data retrievel hledáme v dokumentech pˇresnou shodu - to znamen´ a, ˇze ovˇeˇrujeme, zda se daná informace v dokumentu nacház´ı ˇci ne. V information retrievel hled´ ame ty dokumenty, které alespoˇ n ˇcásteˇcnˇe vyhovuj´ı zadanému dotazu a n´ aslednˇe z nich vybereme ty s nejlepˇs´ı shodou. Dˇr´ıve pracovaly strategie IR na principu lexikáln´ıho porovnán´ı dotazu, kter´ y se skl´ adal z malého mnoˇzstv´ı kl´ıˇcov´ ych slov (keywords), s dokumenty a jejich indexovan´ ymi slovy. Vˇetˇsina vyhledávaˇc˚ u nyn´ı ale pracuje jeˇstˇe s hyperlinkovou strukturou dokument˚ u, coˇz je dnes s velk´ ym poˇctem webov´ ych stránek jiˇz takˇrka nutnost´ı. Velmi dobr´ ym pˇrehledem tˇechto technik je napˇr´ıklad ˇclánek ze ScienceDirect od autor˚ u z ˇrecké univerzity v Thessaloniki[AKP06].

3.1

TF-IDF

TF-IDF, neboli Term Frequency - Inverse Document Frequency, je zp˚ usob hodnocen´ı str´ anek na z´ akladˇe relevance nalezeného textu. Náˇs crawler tento algoritmus implementoval formou nec´ıleného i c´ıleného vyhledáván´ı. Pokud tedy spust´ıme crawling session bez jakékoli specifikace hledan´ ych v´ yraz˚ u, spust´ı se pr´ avˇe tato forma hodnocen´ı. Idea je, ˇze stránky, které obsahuj´ı v´ıce relevantn´ıch (jakkoli) informac´ı se objev´ı nahoˇre ve v´ ysledc´ıch. TF sloˇzka vyjadˇruje, jak ˇcasto se v´ yraz vyskytuje v dokumentu z databáze. Vˇetˇsinou se normalizuje vydˇelen´ım délkou (poˇctem slov) dokumentu, aby se pˇredeˇslo nadhodnocov´ an´ı dlouh´ ych dokument˚ u, ve kter´ ych se v´ yraz m˚ uˇze vyskytovat ˇcastˇeji neˇz v kratˇs´ıch, aniˇz by byl dokument relevantnˇejˇs´ı. T´ım z´ıskáváme n´ asleduj´ıc´ı definici tf: tfi,j = Ni,j

(1)

kde Ni,j je poˇcet v´ yskut˚ u v´ yrazu i na stránce j. Pˇri normalizaci se vˇetˇsinou pouˇz´ıv´ a Euklidovsk´ a norma. Idf sloˇzka reprezentuje ”d˚ uleˇzitost”slova (tento term´ın ale berme s rezervou, ˇ ım ˇcastˇeji se slovo vyskytuje v dokumentech, t´ım ménˇe je d˚ viz d´ ale). C´ uleˇzité (slovo, které se vyskytuje ve vˇsech dokumentech je vˇetˇsinou pro vyhledáván´ı nepouˇzitelné). Idf pro slovo i spoˇc´ıtáme podle vzorce:

17

idfi = log

N , Ni

(2)

kde N je celkov´ y poˇcet str´ anek a jmenovatel vyjadˇruje poˇcet stránek, na kter´ ych se vyskytuje v´ yraz i. Ze vzorc˚ u14 vypl´ yv´ a, ˇze slovo, které se vyskytuje na vˇsech stránkách, bude m´ıt niˇzˇs´ı hodnotu IDF a tud´ıˇz bude hodnoceno ménˇe, neˇz slovo, které se vyskytuje v´ yjmeˇcnˇe. Str´ anky s vˇetˇs´ım poˇctem unikátn´ıch v´ yraz˚ u by proto mohly obsahovat relevantnˇejˇs´ı informace, neˇz ostatn´ı, které obsahuj´ı jen n´ızce hodnocená slova. V naˇs´ı implementaci jsme napoˇc´ıtali TF-IDF hodnotu pro vektor vˇsech slov napˇr´ıˇc prohledan´ ymi str´ ankami a to samé jsme udˇelali pro vektory slov na jednotliv´ ych str´ ank´ ach. Relevanci obsahu pak spoˇc´ıtáme jako kosinovou vzdálenost15 tˇechto vektor˚ u (tj. kosinovou vzdálenost hodnocen´ı slov na dané stránce a vektoru vˇsech nalezen´ ych slov). Pouˇzijeme vzorec: cosθ =

dq , kdkkqk

(3)

kde d je vektor TF-IDF hodnocené stránky, q je vektor TF-IDF vˇsech nalezen´ ych slov. Tato metoda jde samozˇrejmˇe pouˇz´ıt i pro c´ılené vyhledáván´ı. Rating jednotliv´ ych str´ anek je d´ an souˇctem TF-IDF hodnocen´ı hledan´ ych slov, které stránka obsahuje. TF-IDF se v praxi pouˇz´ıvá velmi ˇcasto (v r˚ uzn´ ych modifikac´ıch) spolu s page-rank algoritmy. Tento zp˚ usob hodnocen´ı stránek (pokud je pouˇzit samostatnˇe) má ale ˇradu nev´ yhod. Jak jsme jiˇz uvedli, pojem ”d˚ uleˇzitost slova”je nutno brát s rezervou. TF-IDF m´ıra pro v´ yraz i na stránce j (ai,j = tfi,j idfi ) kombinuje dva r˚ uzné prostory (prostor slov v TF a prostor stránek v IDF)16 . Pro danou hodnotu IDF je vztah ai,j a tfi,j lineárn´ı, ale slovo, které se na stránce j vyskytuje xkr´ at nemus´ı (a pravdˇepodobnˇe ani nen´ı) x-krát relevantnˇejˇs´ı, neˇz slovo, které se na dané str´ ance vyskytuje jen jednou. Kdyˇz se pod´ıv´ ame na vztah IDF a TF-IDF, tak zjist´ıme, ˇze IDF také nemá ˇz´ adnou spojitost s relevanc´ı slov. Je to vlastnˇe logaritmick´ y odhad, ˇze náhodnˇe vybran´ a str´ anka ni z kolekce stránek N bude obsahovat slovo i. D˚ uleˇzitost slova v dokumentu závis´ı na spoustˇe faktor˚ u, jako napˇr. v´ yznam, entropie (mnoˇzstv´ı informace, kterou obsahuje), ale i uˇzivatelské dotazy na toto slovo. TF-IDF samo o sobˇe nezohledˇ nuje ˇzádn´ y z tˇechto faktor˚ u. Neposledn´ı 14 Vzoreˇ cky pˇrevzat´ e z http://www.ardendertat.com/2011/07/17/how-to-implement-asearch-engine-part-3-ranking-tf-idf/ 15 Cosine distance 16 http://irthoughts.wordpress.com/2008/07/07/understanding-tfidf/

18

nev´ yhodou implementace tohoto hodnocen´ı je i v´ ypoˇcetn´ı sloˇzitost, protoˇze je nutné jednak sb´ırat informace o v´ yskytech slov na jednotliv´ ych stránkách, ale nav´ıc jeˇstˇe po skonˇcen´ı session proj´ıt vˇsechny stránky znovu spoˇc´ıtat IDF. I pˇresto se ale TF-IDF hojnˇe pouˇz´ıvá (a v´ ypoˇcet kosinov´ ych podobnost´ı), protoˇze v kombinaci s dalˇs´ımi pˇr´ıstupy pˇrináˇs´ı velmi sluˇsné v´ ysledky a je stále ménˇe n´ aroˇcné neˇz jiné m´ıry, které zohledˇ nuj´ı i modely s entropi´ı slov. Na celé TF-IDF by se dalo nahl´ıˇzet jako na entropii. Lze lehce ovˇeˇrit, ˇze pˇr´ıliˇs velk´ y poˇcet slov ve vektoru (kter´ y urˇcuje dimenzi prohledávaného prostoru) spolu s menˇs´ım poˇctem dokument˚ u v kolekci zp˚ usob´ı, ˇze spoˇc´ıtané hodnocen´ı str´ anek formou kosinov´ ych vzdálenost´ı v sobˇe neponese ˇzádnou informaci. Stejnˇe tak pˇr´ıliˇs hustˇe zaplnˇen´ y prostor zp˚ usob´ı tento problém.

3.2

Latent semantic indexing (LSI)

LSI je dalˇs´ım z pˇr´ıklad˚ u text-based IR technik, která pouˇz´ıvá matematickou techniku SVD (Singular value decomposition). Ve vyhledáván´ı se ˇcasto pouˇz´ıvá tzv. term-document matice A o velikosti m × n, kde ˇrádky reprezentuj´ı v´ yskyt daného slova ve vˇsech dokumentech a sloupce reprezentuj´ı jednotlivé dokumenty. Prvek matice A na pozici ai,j je tedy vztah mezi i-t´ ym slovem a j-t´ ym dokumentem. V bin´ arn´ım modelu jsou na jednotliv´ ych pozic´ıch jedniˇcky tam, kde se slovo vyskytuje v pˇr´ısluˇsném dokumentu a nuly jinde. Ve vektorovém modelu jsou vˇetˇsinou na pozic´ıch matice relativn´ı ˇcetnosti slov v dokumentech. Problém s pouˇzit´ım jednoduché formy této term-document matice je, ˇze d´ıky velkému mnoˇzstv´ı slov ve slovn´ıku a poˇctu dokument˚ u m˚ uˇze b´ yt tato reprezentace velmi v´ ypoˇcetnˇe n´ aroˇcná. Je tedy v´ yhodné pro u ´ˇcely vyhledáván´ı tento prostor co nejv´ıce zredukovat. LSI nab´ız´ı moˇznost, jak identifikovat vztahy mezi jednotliv´ ymi slovy v textu a zbavit se zbyteˇcn´ ych slov, která tvoˇr´ı dokument. Vych´ az´ıme z pˇredpokladu, ˇze slova, která jsou pouˇzita ve stejn´ ych kontextech maj´ı vˇetˇsinou podobn´ y v´ yznam. Zmenˇsen´ı dimenze prostoru slov je dosaˇzeno pouˇzit´ım SVD rozkladu. Základn´ı tvar SVD je d´ an vzorcem[AKP06]: A = U SV T ,

(4)

kde U, V jsou matice velikosti m × k0 a n × k0 s ortonormáln´ımi sloupci, které reprezentuj´ı ortonorm´ aln´ı vlastn´ı vektory pˇr´ısluˇsné nenulov´ ym vlastn´ım ˇc´ısl˚ um matic AT A a AAT , rank(A) = k0 . S je diagonáln´ı matice (velikosti k0 × k0 ), kter´ a na diagon´ ale obsahuje vlastn´ı ˇc´ısla seˇrazená od nejvˇetˇs´ıho po nejmenˇs´ı. My se budeme snaˇzit zredukovat náˇs prostor t´ım, ˇze vybereme pouze k nejvyˇsˇs´ıch vlastn´ıch ˇc´ısel (k < k0 ) a k nim pˇr´ısluˇsn´ ych vlastn´ıch vektor˚ u, ˇc´ımˇz vznikne odhad matice A: Ak = Uk Sk VkT .

19

(5)

V SVD reprezentuj´ı vlastn´ı vektory pˇr´ısluˇsné nejvyˇsˇs´ım vlastn´ım ˇc´ısl˚ um smˇery nejvˇetˇs´ıho rozptylu dat. Pokud tedy zanedbáme vlastn´ı ˇc´ısla nejniˇzˇs´ıch hodnot, pˇrijdeme jen o minimum sémantick´ ych aspekt˚ u textu a zároveˇ n sn´ıˇz´ıme nutn´ y v´ ypoˇcetn´ı v´ ykon. Pro nalezen´ı podobnosti dotazu a jednotliv´ ych dokument˚ u je pouˇzita opˇet kosinov´ a vzd´ alenost, a to mezi vektorem dotazu a jednotliv´ ymi sloupci matice Ak . Takov´ ato jednoduch´ a implementace má jednu nev´ yhodu. Pro obrovské mnoˇzstv´ı prohledan´ ych dat nen´ı tˇreba reorganizovat staˇzená data ani struktury, ve kter´ ych m´ ame uloˇzené v´ ysledky (jako napˇr. naˇs´ı term-document matici). Pro menˇs´ı poˇcet dat si ale nem˚ uˇzeme dovolit ignorovat slova, která nemáme zahrnuta ve slovn´ıku a novˇe nalezené dokumenty nelze povaˇzovat za ned˚ uleˇzité. Je proto nutné pˇri budov´ an´ı indexu do naˇseho algoritmu zahrnout i moˇznost aktualizovat naˇse struktury - tzn. pˇridávat nové dokumenty a slova a aktualizovat ty st´ avaj´ıc´ı. Mezi takové metody patˇr´ı napˇr. fold-in nebo SVD updating.

3.3

PageRank

Algoritmus PageRank byl navrˇzen´ y Larry Pagem a Sergeyem Brinem a tvoˇr´ı z´ aklad vyhled´ avaˇce Google. Jedna se o typick´ y pˇr´ıklad hyperlink-based algoritmu, kter´ y vyuˇz´ıv´ a strukturu odkaz˚ u mezi webov´ ymi stránkami pro jejich hodnocen´ı. D˚ uleˇzitost str´ anky je urˇcena podle poˇctu dalˇs´ıch stránek, které na n´ı ukazuj´ı. Z´ aroveˇ n je ale br´ ano v u ´vahu i hodnocen´ı odkazuj´ıc´ıch stránek. Cel´ y vzorec vypad´ a takto17 : P R(A) = (1 − d) + d

P R(T ) P R(Tn ) 1 + ··· + , C(T 1) C(Tn )

(6)

kde P R(A) je PageRank str´ anky A, P R(Ti ) je PageRank stránky Ti , která odkazuje na A, C(Ti ) je mnoˇzstv´ı odkaz˚ u vedouc´ı ze stránky Ti a d je tzv. damping factor - ˇc´ıslo mezi 0 a 1. Ze vzorce vid´ıme, ˇze hodnocen´ı stránek Ti neovlivˇ nuje PageRank stránky A rovnomˇernˇe, ale z´ avis´ı i na poˇctu odkaz˚ u vedouc´ı z Ti . Pokud tedy z nˇejaké stránky vede velké mnoˇzstv´ı odkaz˚ u, budou se tyto odkazy na PageRanku prom´ıtat pouze minim´ alnˇe. Vzorec je rekurzivn´ı, ale pˇri jak´ ychkoli vstupn´ıch dat postupnˇe konverguje k v´ ysledku. Existuje jeˇstˇe druh´ a verze algoritmu, jej´ıˇz vzorec vypadá takto: P R(A) =

P R(T ) P R(Tn ) (1 − d) 1 +d + ··· + , N C(T 1) C(Tn )

(7)

kde N je poˇcat str´ anek na webu. Od prvn´ı verze se tento vzorec pˇr´ıliˇs neliˇs´ı, ale d´ıky vydˇelen´ı N ud´ av´ a opravdovou pravdˇepodobnost, ˇze se uˇzivatel pˇri 17 http://pr.efactory.de/e-pagerank-algorithm.shtml

20

n´ ahodném surfov´ an´ı dostane na danou stránku. Algoritmus pak reprezentuje pravdˇepodobnostn´ı rozdˇelen´ı nad vˇsemi stránkami na webu, takˇze suma PageRanku vˇsech str´ anek se sˇc´ıt´ a do jedniˇcky. P˚ uvodnˇe byl algoritmus PageRank popsán jako model chován´ı uˇzivatele pˇri surfov´ an´ı webu, kde dan´ y uˇzivatel náhodnˇe kliká na odkazy, aniˇz by mu záleˇzelo na obsahu str´ anek18 . Uˇzivatel s pravdˇepodobnost´ı d bude pokraˇcovat v surfován´ı a s pravdˇepodobnost´ı 1 − d skonˇc´ı svou session. Kromˇe toho slouˇz´ı damping factor d k normalizaci hodnocen´ı - souˇcet jednotliv´ ych PageRank vˇsech prohledan´ ych str´ anek je konstantn´ı. Sergey Brin navrhl d = 0.85, coˇz je hodnota, která se nejˇcastˇeji pouˇz´ıv´ a a byla spoˇc´ıtána statistick´ ymi metodami. Podrobnou studii o hodnotˇe faktoru d a jeho moˇzn´ ych alternativách udˇelali v roce 2006 vˇedci z univerzity Shu-Te na Taiwanu[FLT06]. Jedno ze zaj´ımav´ ych vylepˇsen´ı popsal napˇr´ıklad Taher H. Haveliwala ve své studii TopicSensitive PageRank [Hav02], ve které navrhuje napoˇc´ıtáván´ı v´ıce neˇz pouze jednoho PageRank vektoru pro vˇetˇs´ı pˇresnost v závislosti na hledaném dotazu. Nejprve se mus´ı urˇcit jednotlivá témata (okruhy), pro které se bude PageRank vektor poˇc´ıtat. Následnˇe se pˇri zpracován´ı dotazu vyhodnot´ı, do kterého tématu tento dotaz spadá, a pouˇzije se odpov´ıdaj´ıc´ı vektor. Vytvoˇren´ım topic-sensitive19 verze PageRank algoritmu pˇredejdeme vysokému hodnocen´ı str´ anek, na které vede hodnˇe odkaz˚ u a které obsahuj´ı nˇekteré z hledan´ ych slov, ale ve skuteˇcnosti nemaj´ı ˇzádnou spojitost s hledan´ ym tématem. Tento postup se d´ a uplatnit napˇr. pˇri vyhledáván´ı slov v nˇejakém kontextu. Ve zm´ınˇené studii je uveden hezk´ y pˇr´ıklad, kdy uˇzivatel procház´ı nˇejak´ y dokument zab´ yvaj´ıc´ı se slavn´ ymi architekty na stránce pomoc´ı vyhledáván´ı zv´ yrazn´ı slovo ”architektura”, ke kterému chce naj´ıt dalˇs´ı informace. V tomto kontextu by bylo vhodné, aby v´ ysledek takového vyhledáván´ı byl odliˇsn´ y od toho, kdyˇz si takov´ y uˇzivatel vyhled´ a term´ın ”architektura”pouˇzit´ y v ˇclánku o procesorech. Ve zkratce se topic-sensitive PageRank dá popsat takto: Bˇehem offline zpracov´ an´ı naˇseho prohled´ av´ an´ı (web crawl) vygenerujeme urˇcit´ y poˇcet topic-sensitive PageRank vektor˚ u. Bˇehem zpracován´ı dotazu spoˇc´ıtáme podobnost dotazu (query similarity, moˇzné zahrnout i kontext, ve kterém hledáme) s kaˇzd´ ym tématem a m´ısto pouˇzit´ı jednoho glob´ aln´ıho PageRank vektoru pouˇzijeme lineárn´ı kombinaci naˇs´ı mnoˇziny vektor˚ u v´ aˇzenou spoˇcten´ ymi podobnostmi. D˚ uleˇzit´ ym faktem je to, ˇze naˇse mnoˇziny pro zvolená témata musej´ı b´ yt vych´ ylená (biased ). Toho dos´ ahneme n´ asleduj´ıc´ım postupem: ( 1 , i ∈ Tj (8) vi,j = |Tj | 0, i ∈ / Tj , kde Tj je mnoˇzina URLs v nˇejakém top-level directory v kategorii cj (máme j kategori´ı). D´ ale vj je vektor, kter´ y pouˇzijeme bˇehem v´ ypoˇctu PageRanku 18 random 19 citliv´ e

surfer na t´ ema, tento v´ yraz se obt´ıˇ znˇ e pˇrekl´ ad´ a do ˇ cesk´ eho jazyka

21

nam´ısto jednoho obecného vektoru.

3.4

HITS

HITS patˇr´ı mezi dalˇs´ı ze tˇr´ıdy hyperlink-based algoritm˚ u pro identifikaci skupin str´ anek zab´ yvaj´ıc´ıch se stejn´ ym tématem na webu. Algoritmus dˇel´ı jednotlivé str´ anky na ”authorities”a ”hubs”20 . Authorities jsou stránky s bohat´ ym obsahem, které mezi sebou vˇetˇsinou nemaj´ı odkazy. Oproti tomu hubs jsou stránky slouˇz´ıc´ı jako adres´ aˇr odkazuj´ıc´ı na mnoho autoritativn´ıch stránek. Dobr´ y hub je proto takov´ a str´ anka, kter´ a má co nejv´ıce odkaz˚ u na dobré authorities, a dobrá authority je str´ anka, na kterou je odkazováno z mnoha hubs. Tyto dva typy dokument˚ u jsou separov´ any dvˇemi následuj´ıc´ımi operacemi[NOHI04]: X xp = yq (9) q,q→p

yp =

X

xq

(10)

q,p→q

Pro str´ anku p je v´ aha xp upravena podle poˇctu yq napˇr´ıˇc vˇsemi stránkami q, které na p odkazuj´ı. Stejn´ ym zp˚ usobem jsou poˇc´ıtány i váhy yp . T´ım jsou spoˇc´ıt´ any v´ ahy jednotliv´ ych hubs i authorities. Algoritmus HITS byl navrˇzen Jonem Kleinbergem za doby jeho p˚ usoben´ı v IBM a byl v podstatˇe pˇredch˚ udcem algoritmu PageRank.

20 Tyto

ˇ stiny term´ıny nebudu pˇrekl´ adat do Ceˇ

22

4

Existuj´ıc´ı software

Zde se pod´ıv´ ame, jak´ y software v kategorii webcrawlingu a vyhledáván´ı jiˇz existuje, a udˇel´ ame struˇcn´ y pˇrehled. Nejprve uvedeme pˇr´ıklad na velk´ ych vyhled´ avac´ıch systémech a poté zm´ın´ıme nˇekolik odkaz˚ u na existuj´ıc´ı crawlery a boty.

4.1

Google

Google bˇeˇz´ı na distribuované s´ıti milion˚ u levn´ ych poˇc´ıtaˇc˚ u, takˇze dokáˇze zpracov´ avat velké mnoˇzstv´ı proces˚ u souˇcasnˇe21 . Google se skládá ze tˇr´ı hlavn´ıch ˇc´ ast´ı: • Google-bot - web crawler • Indexer - analyzuje slova na stránkách a stará se o index • Query processor - porovnává dotazy od uˇzivatele i indexem a vrac´ı relevantn´ı dokumenty Google-bot Google-bot se skl´ ad´ a z mnoha poˇc´ıtaˇc˚ u, kteˇr´ı bez pˇrestávky stahuj´ı tis´ıce r˚ uzn´ ych str´ anek souˇcasnˇe. Aby se zabránilo pˇrehlcen´ı server˚ u, tak Google-bot pos´ılá na jednotlivé servery poˇzadavky pomaleji, neˇz je jeho opravdov´ y v´ ykon. Existuj´ı dva zp˚ usoby, jak tento bot nalézá nové stránky: skrze formuláˇr na adrese www.google.com/addurl.html a skrze URL, které se nacházej´ı na prohledan´ ych str´ ank´ ach. Tento formul´ aˇr obsahuje test, kter´ y má za u ´kol rozpoznat, zda se jedná o uˇzivatele ˇci jiného bota, aby se zabránilo zneuˇz´ıván´ı pro spam a komerˇcn´ı u ´ˇcely. Hodnˇe spammer˚ u totiˇz zaˇcalo vym´ yˇslet taktiky, jak zv´ yˇsit viditelnost sv´ ych str´ anek v Google indexu. Google-bot provozuje tzv. deep crawling, takˇze následuje jednotlivé linky do velké hloubky, coˇz mu umoˇzn ˇuje prozkoumat velkou ˇcást webu. Jelikoˇz je ale str´ anek obrovské mnoˇzstv´ı, prob´ıhá crawling dané stránky pouze jednou za ˇcas - napˇr. jednou za mˇes´ıc. Str´ anky, které m´ a Google-bot v plánu navˇst´ıvit mus´ı b´ yt permanentnˇe porovn´ av´ any s jiˇz navˇst´ıven´ ymi, aby se zabránilo duplicitˇe. Stránky, které jsou navˇstˇevovanˇejˇs´ı a mˇen´ı se dynamicky jsou navˇstˇevovány a analyzovány ˇcastˇeji neˇz ty statické a ménˇe populárn´ı, aby byl idnex stále aktuáln´ı. Tomu se ˇr´ıká tzv. fresh crawl. Napˇr´ıklad r˚ uzné stránky zab´ yvaj´ıc´ı se zprávami a jin´ ym ˇcasto se mˇen´ıc´ı obsahem jsou stahovány kaˇzd´ y den. Fresh crawls samozˇrejmˇe stáhnou mnohem ménˇe str´ anek neˇz deep crawls, takˇze pro optimáln´ı strategii je pouˇzita kombinace obou technik. 21 parallel

processing

23

Indexer Indexer dost´ av´ a od crawleru kompletn´ı obsah staˇzené stránky. Tyto stránky jsou uloˇzeny v indexu. Index je seˇrazen abecednˇe podle hledan´ ych v´ yraz˚ u, kde ke kaˇzdému slovu existuje list stránek, jeˇz toto slovo obsahuj´ı. Google také pouˇz´ıv´ a stop words, aby se vyhnul zbyteˇcné anal´ yze v´ yraz˚ u, které nesou jen minim´ aln´ı informaci a jsou pro relevanci v´ ysledného hodnocen´ı stránek ned˚ uleˇzité. Query Processor Query processor se skl´ ad´ a z v´ıce ˇcást´ı. Prvn´ı z nich je uˇzivatelské rozhran´ı (tedy formul´ aˇr), do kterého uˇzivatel zadává sv˚ uj dotaz. Dalˇs´ı ˇcásti se pak jiˇz vˇenuj´ı vyhodnocen´ı zadaného dotazu pomoc´ı algoritmu PageRank, kter´ ym jsme se zab´ avali v dˇr´ıvˇejˇs´ı kapitole. Google také pouˇz´ıvá r˚ uzné algoritmy, kter´ ymi se uˇc´ı rozpoznat vztahy mezi r˚ uzn´ ymi slovy, a mimo jiné také implementuje automatické opravy pravopisn´ ych chyb. Seznam bot˚ u, které Google pouˇz´ıvá m˚ uˇze b´ yt nalezenem na stránkách Google support22 . Bliˇzˇs´ı shrnut´ı toho, jak cel´ y vyhledávaˇc funguje, se lze doˇc´ıst napˇr´ıklad zde23 . Dobr´ ym zdrojem m˚ uˇze b´ yt také ˇclánek od samotn´ ych zakladatel˚ u Google[BP98].

4.2

Yahoo

Yahoo p˚ uvodnˇe zaˇcalo jako velk´ y webov´ y adresáˇr s webov´ ymi stránkami, které byly hierarchicky organizované do jednotliv´ ych skupin. Koncem devadesát´ ych let se z Yahoo stal plnohodnotn´ y vyhledávaˇc. Podobnˇe jako Google se i Yahoo architektura skládá z v´ıce ˇcást´ı. Tˇemi nejd˚ uleˇzitˇejˇs´ımi jsou tyto dvˇe: • Spider - web crawler, u Yahoo se mu ˇr´ıká Slurp • Indexer -vyhodnocuje obsah stránek a buduje index Funkce jednotliv´ ych ˇc´ ast´ı je velmi podobná jako u Google, takˇze ji zde jiˇz nebudu podrobnˇe rozepisovat. Pro podrobnˇejˇs´ı informace ohlednˇe vyhledávaˇc˚ u a jejich historie doporuˇcuji napˇr´ıklad pˇrehled, kter´ y udˇelali vˇedci z Minot State University v USA roku 2011[SFK11]. 22 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=1061943 23 http://www.googleguide.com/google

works.html

24

4.3

Lydia

Lydia[LKS05] je projekt, kter´ y buduje relaˇcn´ı model lid´ı, m´ıst a publikac´ı pomoc´ı natural language processing stránek zab´ yvaj´ıc´ıch se zprávami. Projekt dˇelá statistickou anal´ yzu ˇcetnost´ı slov a ko-lokac´ı. Momentálnˇe je v systému cca 500 str´ anek zab´ yvaj´ıc´ıch se online zpravodajstv´ım. Lydia zjiˇst’uje, o kom se ve zpr´ av´ ach p´ıˇse, k´ ym, kde a kdy. Cel´ y systém je optimalizov´ an tak, aby byl schopen analyzovat obrovské mnoˇzstv´ı textu ve velmi kr´ atkém ˇcase, jelikoˇz je nutné zpracovat cel´ y obsah online zpravodajského port´ alu kaˇzd´ y den (a tˇechto portál˚ u je také velké mnoˇzstv´ı). Aktuáln´ı informace jsou na adrese http://www.textmap.com/. Nejprve crawler z´ısk´ a text stránky, poté se identifikuje, kde se dané objekty (lidi, m´ısta, spoleˇcnosti apod.) nacházej´ı v textu. Pro kaˇzd´ y takov´ y objekt se zjiˇst’uje, jaké dalˇs´ı objekty se vyskytuj´ı pobl´ıˇz. Kaˇzd´ y objekt m˚ uˇze b´ yt pouˇzit v´ıce r˚ uzn´ ymi zp˚ usoby, a proto se jeˇstˇe mus´ı identifikovat synonyma. Nakonec n´ asleduj´ı r˚ uzné anal´ yzy, kter´ ymi se vypoˇc´ıtá, jak ˇcasto se objekty objevuj´ı na jednotliv´ ych str´ ank´ ach. Pˇrehled vˇsech aktivit ohlednˇe systému Lydia je na stránkách http://www.cs.sunysb.edu/∼skiena/lydia/.

4.4

Dalˇ s´ı boti

Kaˇzd´ y vyhled´ avaˇc m´ a své boty, ale vzhledem k tomu, ˇze vˇsichni funguj´ı velmi podobnˇe, nem´ a smysl je zde podrobnˇe rozeb´ırat, nebot’ to nen´ı c´ılem této práce. Kromˇe bot˚ u, kteˇr´ı pracuj´ı pro velké vyhledávaˇce existuje ale i mnoho dalˇs´ıch, kteˇr´ı mohou b´ yt vyvinuty pro specieln´ı druh práce. Vzhledem k velkému poˇctu a r˚ uznorodosti zde uvedu nˇekolik odkaz˚ u na seznam existuj´ıc´ıch bot˚ u. • http://www.robotstxt.org/db.html • http://www.user-agents.org/

4.5

Focused crawlery

V této sekci se pod´ıv´ ame na pˇr´ıklady crawler˚ u, které jsou naˇs´ı implementaci svou funkcionalitou nejbliˇzˇs´ı (mohou se ale v´ yraznˇe liˇsit pˇr´ıstupem k prohledáván´ı). Prvn´ım pˇr´ıkladem takového crawleru je napˇr´ıklad Bingo!24 . Tato implementace pouˇz´ıv´ a klasifik´ ator, kter´ y pomoc´ı trénovac´ıch dat odhaluje archetypy v analyzovan´ ych str´ ank´ ach a ty následnˇe porovnává s novˇe nalezen´ ymi stránkami. Jakmile byla str´ anka klasifikována, jsou z n´ı extrahovány vˇsechny linky, které 24 http://www.mpi-inf.mpg.de/departments/d5/software/bingo/idx.htm

25

Obr´ azek 6: Diagram Lydia pipeline[LKS05]

jsou um´ıstˇeny do fronty. Bingo! pouˇz´ıvá kombinaci strategi´ı pro priorizaci stránek ve frontˇe, jako napˇr´ıklad prohledáván´ı do hloubky s fixn´ı hloubkou. K vyhled´ av´ an´ı jsou pouˇzity i takové stránky, které neproˇsly testem klasifikátoru, nicménˇe je na nˇe aplikov´ ano prohledáván´ı do menˇs´ı hloubky. To se dˇelá z d˚ uvodu, ˇze nˇekdy se k relevantn´ımu obsahu dá dostat pouze skrz r˚ uzné uv´ıtac´ı str´ anky a rozcestn´ıky, které samy o sobˇe nenesou ˇzádné informace. Pro anal´ yzu dokument˚ u Bingo! pouˇz´ıv´ a kombinaci r˚ uzn´ ych strategi´ı, mimo jiné i TF-IDF m´ıru. Dalˇs´ım pˇr´ıkladem je Win Web Crawler 225 , coˇz je nástroj pro webmastery pro vytv´ aˇren´ı webov´ ych adresáˇr˚ u a podporu webov´ ych portál˚ u. Tento crawler extrahuje URL, meta tagy, text a dalˇs´ı cenné informace z prohledan´ ych stránek a uloˇz´ı je na disk. Program nav´ıc podporuje ˇsirok´ y v´ ybˇer filtr˚ u a omezen´ı pro podrobnˇejˇs´ı specifikaci crawling session.

25 http://www.fileguru.com/Win-Web-Crawler/info

26

5

Implementace crawleru

V této sekci se pod´ıv´ ame na implementaci konkrétn´ıho crawleru a rozebereme si jednotlivé struktury programu.

5.1

Popis

Nejprve si mus´ıme uvˇedomit, co náˇs crawler vlastnˇe bude umˇet, a ˇc´ım se bude odliˇsovat od ostatn´ıch crawlers. M´ ym c´ılem je navrhnout tzv. focused crawler, kter´ y bude vyhled´ avat zadaná slova, pˇr´ıpadnˇe stránky zab´ yvaj´ıc´ı se nˇejak´ ym bl´ıˇze nespecifikovan´ ym tématem. Kromˇe c´ıleného vyhledáván´ı bude moˇzno i vyhled´ av´ an´ı bez specifikace hledan´ ych v´ yraz˚ u - stránky pak budou hodnoceny na z´ akladˇe mnoˇzstv´ı informac´ı, které obsahuj´ı. Nebudeme m´ıt k dispozici dostateˇcn´ y v´ ypoˇcetn´ı v´ ykon ani mnoˇzstv´ı dat, abychom si mohli vybudovat rozsáhl´ y index, ve kterém bychom provádˇeli vyhledáván´ı - budeme tedy vyhledávat za chodu. Vybudov´ an´ı indexu ale také do naˇs´ı implementace zahrneme, abychom mohli v´ ysledky vyhled´ av´ an´ı pouˇz´ıt i offline. Narozd´ıl od vyhled´ avaˇc˚ u, které pouˇz´ıvaj´ı velk´ y poˇcet bot˚ u k pravidelnému prohled´ av´ an´ı Webu a tvorbˇe rozsáhlého (a aktuáln´ıho) indexu, nemáme k dispozici takov´ y v´ ypoˇcetn´ı v´ ykon, aby naˇse v´ ysledky byly srovnatelné napˇr. s Google. Proto zvol´ıme jin´ y pˇr´ıstup - budeme prohledávat omezen´ y poˇcet stránek, které postupnˇe analyzujeme, a na konci session26 zobraz´ıme v´ ysleky. D´ıky n´ızkému poˇctu prohledan´ ych str´ anek (tis´ıce aˇz des´ıtky tis´ıc) budeme stránky hodnotit jen na z´ akladˇe v´ yskyt˚ u hledan´ ych slov a zanedbáme odkazy mezi nimi. Posledn´ı vˇec, kterou je nutné zm´ınit, je, ˇze v´ ysledek dané session je dán hlavnˇe t´ım, jaké zdrojové str´ anky (seed URLs) pouˇzijeme. D´ıky niˇzˇs´ımu poˇctu prohledan´ ych str´ anek nem˚ uˇzeme zaˇc´ıt s prohledáván´ım pˇr´ıliˇs daleko od zvoleného tématu (tzn. pokud hled´ ame informace o webovém vyhledáván´ı, nem˚ uˇzeme oˇcek´ avat velk´ y u ´spˇech, zaˇcneme-li vyhledávat na stránkách, které se zab´ yvaj´ı vaˇren´ım). Crawler bude ps´ an v jazyce Java. K parsován´ı HTML pouˇzijeme vestavˇené knihovny. Jejich dokumentace je dostupná na stránkách Oracle27 . Souˇcást´ı bude i grafické uˇzivatelské rozhran´ı a podpora v´ıce vlákem pro spuˇstˇen´ı nˇekolika nez´ avisl´ ych crawler˚ u souˇcasnˇe.

5.2

Pr˚ ubˇ eh session

Crawler bude vykon´ avat jednoduch´ y cyklus: stáhne zdrojov´ y kód stránky, zpracuje vˇsechen text na n´ı, uloˇz´ı si odkazy, které ze stránky vedou a pokraˇcuje takto d´ al. 26 jeden

cyklus prohled´ av´ an´ı

27 http://docs.oracle.com/javase/6/docs/api/javax/swing/text/html/parser/package-

summary.html

27

Obr´ azek 7: Základn´ı cyklus webcrawling session Prvn´ı vˇec, kterou je tˇreba rozhodnout, je jakou strukturu pouˇz´ıt pro ukládán´ı novˇe z´ıskan´ ych URLs. Zde implementujeme frontu. D˚ uvody byly jiˇz rozebrány v pˇredchoz´ıch kapitol´ ach. Na konci prohled´ av´ an´ı crawler vyhodnot´ı vˇsechny navˇst´ıvené stránky a na základˇe TF-IDF metriky kaˇzdé z nich pˇriˇrad´ı hodnocen´ı, které odpov´ıdá relevanci dané str´ anky. Tato hodnocen´ı budou uloˇzena spolu s dalˇs´ımi cenn´ ymi statistikami, jako napˇr. ˇcetnostmi slov na jednotliv´ ych stránkách a graf˚ u pr˚ ubˇehu celé session. Nakonec program vyprodukuje v´ ystup, kde budou zobrazeny nejlépe hodnocené str´ anky a umoˇzn´ı uˇzivateli dalˇs´ı interakci. Mimo to crawler vyprodukuje index, ve kterém bude moˇzné vyhledávat i po skonˇcen´ı session.

5.3

Reprezentace dat a struktura

Vzhledem k tomu, ˇze cel´ y program je psán v jazyce Java, pˇr´ımo se nab´ız´ı práce s daty jakoˇzto s objekty. Za objekt budeme povaˇzovat u ´plnˇe vˇse - od jednotliv´ ych slov, pˇres str´ anky aˇz po samotn´ y crawler. V´ yhodou je, ˇze od vˇetˇsiny stuktur bude existovat mnoho instanc´ı a my si o nich budeme schopni velmi jednoduˇse pamatovat ˇradu informac´ı (napˇr. u stránek seznamy slov, r˚ uzná hodnocen´ı, u slov poˇcty v´ yskyt˚ u apod.). Nev´ yhodou je pak v nˇekter´ ych pˇr´ıpadech menˇs´ı efektivita a pamˇet’ov´ a nároˇcnost. Na to se ale pod´ıváme aˇz na konci této kapitoly, pˇr´ıpadnˇe se pod´ıv´ ame na statistiky v kapitole shrnuj´ıc´ı v´ ysledky práce. Hlavn´ı entitou je Master Manager, která má pod sebou vˇsechny crawlery (tˇech m˚ uˇze b´ yt v´ıce a kaˇzd´ y bˇeˇz´ı v separátn´ım vláknˇe). Tˇr´ıda Crawler je pak ˇr´ıd´ıc´ım objektem pro jednotlivé crawling sessions, která má pod sebou vˇsechny dalˇs´ı 28

komponenty programu. Celou základn´ı strukturu si m˚ uˇzete prohlédnout na obr´ azku.

Obr´ azek 8: Základn´ı struktura programu N´ asleduje struˇcn´ y popis nejd˚ uleˇzitˇejˇs´ıch entit: Manager Toto je hlavn´ı tˇr´ıda, kter´ a spravuje globáln´ı informace a argumenty pro spuˇstˇen´ı jednotliv´ ych crawler˚ u. M˚ uˇzeme pustit v´ıce prohledáván´ı najednou, které pobˇeˇz´ı nez´ avisle na sobˇe v oddˇelen´ ych vláknech. Crawler Hlavn´ı struktura, ve které prob´ıhaj´ı vˇsechny procesy spjaté s prohledáván´ım a anal´ yzou dat. URL processor Tˇr´ıda, kter´ a se star´ a o nalezené URL adresy. V pˇr´ıpadˇe invalidn´ı nebo ignorované adresy (nˇekteré str´ anky m˚ uˇzeme pˇri urˇcitém nastaven´ı crawleru ignorovat) se postar´ a o v´ yjimku. Text processor Spravuje informace o nalezen´ ych stránkách a slovech (pˇr´ıpadnˇe dvojic´ıch atd.),

29

které se na nich nach´ azej´ı. Pages detector Analyzuje obsah str´ anek a pˇriˇrazuje jim rating podle zvolené metody. Urˇcuje, jaké str´ anky se na konci session objev´ı na vrcholu. Index generator Po skonˇcen´ı posledn´ı crawling session vytvoˇr´ı index pro budouc´ı vyhledáván´ı v ”offline”reˇzimu, resp. pomoc´ı druhého klienta. Zbylé tˇr´ıdy jsou urˇceny pro grafickou reprezentaci nalezen´ ych dat a jiné funkce.

5.4

V´ ystup crawleru

Kromˇe popsan´ ych moˇznost´ı crawlingu má program jeˇstˇe pár dalˇs´ıch funkc´ı. Pod´ıv´ ame se tedy ted’, co vˇse je v´ ystupem jednotliv´ ych crawling sessions: Hodnocen´ı str´ anek: S´ am crawler i bez pouˇzit´ı indexu (aˇc oproti vyhledáván´ı v indexu pomˇernˇe neefektivnˇe) um´ı vytvoˇrit hodnocen´ı jednotliv´ ych stránek, a to pouˇzit´ım TF-IDF m´ıry pro jednotlivá slova a dvojice slov. Tato hodnocen´ı jsou pouˇzita i v pˇr´ıpadˇe, ˇze se session nˇekolikrát opakuje pro nalezen´ı optimáln´ıch zdrojov´ ych URL. Statistiky ignorovan´ ych a chybov´ ych URL: Soubory, ve kter´ ych jsou uvedeny vˇsechny URL, které byly v pr˚ ubˇehu crawling session ignorovány nebo se k nim nepodaˇrilo pˇripojit. Graf pohybu po str´ ank´ ach: Graf ve formátu XML28 a k nˇemu pˇr´ısluˇs´ıc´ı soubor se statistikami o stupn´ıch uzl˚ u v tomto grafu. Obr´ azek podobnosti jednotliv´ ych str´ anek: Na obrázku jsou ve stupn´ıch ˇsedi zn´ azornˇeny podobnosti (kosinové vzdálenosti TF-IDF) kaˇzd´ ych dvou stránek, které jsme navˇst´ıvili. Cel´ y obrázek je symetrick´ y nebot’ na diagonále se vyskytuj´ı vˇzdy stejné str´ anky. Statistiky v´ yskyt˚ u slov: Crawler sleduje statistiky ˇcetnost´ı jednotliv´ ych slov a dvojic slov. Kromˇe toho rozliˇsuje tyto ˇcetnosti v rámci vˇsech prozkouman´ ych str´ anek i jednotlivˇe na kaˇzdé stránce zvláˇst’. Index: Crawler na konci posledn´ı session vytvoˇr´ı matici a k n´ı pˇr´ısluˇsné soubory (viz dalˇs´ı kapitola). 28 optimalizovan´ y

pro prohl´ıˇ zen´ı v programu yED - http://www.yworks.com/en/products yed about.html

30

5.5

Stop words

Stop words jsou slova, kter´ a se v daném jazyce vyskytuj´ı ˇcasto, ale nenesou ˇz´ adnou v´ yznamovou informaci. Vˇetˇsinou se jedná o r˚ uzné pˇredloˇzky, spojky apod. Seznam tˇechto slov se oznaˇcuje jako stopwords a tato slova jsou zpravidla pˇri budov´ an´ı indexu a vyhledáván´ı zcela ignorována. My m´ ame moˇznost na zaˇc´ atku session specifikovat cestu k souboru, kde máme n´ aˇs seznam stopwords uloˇzen, a t´ım tyto v´ yrazy pˇri zpracován´ı dat zanedbat. Kromˇe toho, pokud jsme nˇejak´ y takov´ y seznam vybrali, crawler nám na konci session s´ am nab´ıdne nˇekolik des´ıtek nejˇcastˇejˇs´ıch v´ yraz˚ u (v tomto pˇr´ıpadˇe slov s nejvyˇsˇs´ım ratingem), ze kter´ ych m˚ uˇzeme vybrat libovolné mnoˇzstv´ı. Tato vybran´ a slova pak budou automaticky pˇridána do naˇseho seznamu pro budouc´ı pouˇzit´ı.

5.6

Probl´ emy implementace

Asi nejvˇetˇs´ım z´ adrhelem mé implementace ja v´ ypoˇcetn´ı sloˇzitost a ukládán´ı dat. Jelikoˇz ani pr´ ace se soubory ani r˚ uzné metody zab´ yvaj´ıc´ı se efektivitou vyuˇzit´ı v´ ypoˇcetn´ıho v´ ykonu nebyly pˇredmˇetem této práce, zvolil jsem pomˇernˇe jednoduché struktury. Tomu samozˇrejmˇe odpov´ıdá i v´ ysledn´ y v´ ykon a pamˇet’ová n´ aroˇcnost. Kromˇe toho bˇehem kaˇzdé session zpracovávám jeˇstˇe dalˇs´ı data - pˇredevˇs´ım r˚ uzné statistiky ˇcetnost´ı skupin slov, generován´ı graf˚ u a obrázku apod., které pro samotné vyhled´ av´ an´ı nejsou pˇr´ımo potˇrebné. Práce by tedy ˇsla zefektivnit pouˇzit´ım jednoduˇsˇs´ıho crawleru, kter´ y by mˇel pouze ty funkce, které jsou bezprostˇrednˇe nutné pro vytvoˇren´ı indexu.

5.7

Budov´ an´ı indexu

N´ aˇs crawler um´ı na konci dané crawling session zobrazit v´ ysledky, takˇze nˇejakou zpˇetnou vazbu jiˇz m´ ame. Pro dlouhodobé uˇz´ıván´ı by ale bylo ponˇekud neˇsikovné, kdybychom pˇri kaˇzdém vyhledáván´ı nˇejakého dotazu museli ˇcekat, neˇz probˇehne cel´ a session a my koneˇcnˇe uvid´ıme relevantn´ı v´ ysledky. Proto bychom si mˇeli vybudovat index, ve kterém budeme moci vyhledávat i po skonˇcen´ı vˇsech crawling session.

Obrázek 9: Základn´ı cyklus

31

5.8

Struktury indexu

Crawler si uchov´ av´ a ˇradu zaj´ımav´ ych informac´ı a statistik, které nasb´ıral bˇehem prozkoum´ av´ an´ı webu. K vybudován´ı indexu nám ale staˇc´ı jen nˇekteré z nich. V prvn´ı ˇradˇe budeme potˇrebovat sestavit tzv. term-document matrix A = [ai,j ], kde ai,j znaˇc´ı term frequency slova i na stránce j. Tato matice zat´ım nebyla standardn´ım v´ ystupem crawleru, a d´ıky uchováván´ı velkého mnoˇzstv´ı informac´ı bˇehem prohled´ av´ an´ı, ji budeme tvoˇrit aˇz na konci posledn´ı session (která by mˇela b´ yt ze vˇsech nejv´ıce relevantn´ı). Matice je uloˇzena jako textov´ y soubor, coˇz je sice pomˇernˇe neefektivn´ı, ale jednoduché (a my zat´ım pracujeme sp´ıˇse s menˇs´ım poˇctem dat29 ). Mus´ıme si tedy uvˇedomit, jaké struktury budeme k reprezentaci dat potˇrebovat. Kromˇe samotného souboru s matic´ı A to bude jeˇstˇe soubor s jednotliv´ ymi stránkami a slovy, ke kter´ ym si mus´ıme pamatovat indexy (tzn. pozice v naˇs´ı matici) a IDF m´ıry jednotliv´ ych slov, abychom je mohli pouˇz´ıt pro vyhledáván´ı. Jakmile budeme m´ıt tyto v´ ysledky uloˇzené, vytvoˇr´ıme si klienta, kter´ y bude v indexu vyhled´ avat. Pˇri jeho spuˇstˇen´ı specifikujeme cestu k uloˇzen´ ym dat˚ um (tzn. m˚ uˇzeme m´ıt v´ıce speciáln´ıch index˚ u) a následnˇe m˚ uˇzeme zadávat dotazy, jejichˇz v´ ysledkem budou jednotlivé prozkoumané stránky seˇrazené podle relevance. Jako m´ıru budeme opˇet pouˇz´ıvat TF-IDF.

5.9

Klient

Uˇzivatel nejprve specifikuje cestu k soubor˚ um, které jsme pro u ´ˇcely naˇseho indexu vytvoˇrili. N´ aslednˇe si klient do pamˇeti naˇcte soubory s jednotliv´ ymi slovy a url prozkouman´ ych str´ anek spolu s jejich indexy do term-document matrix. Samotnou matici si jiˇz do pamˇeti naˇc´ıtat nemus´ıme, nebot’ nám staˇc´ı pouze naˇc´ıst ty jej´ı ˇr´ adky, které budou odpov´ıdat slov˚ um obsaˇzen´ ych v dotazu30 od uˇzivatele. N´ aslednˇe jsme schopni témˇeˇr okamˇzitˇe napoˇc´ıtat vˇsem stránkám rating podle tf hledan´ ych slov, seˇradit stránky sestupnˇe podle ratingu a zobrazit v´ ysledky.

29ˇ r´ adovˇ e

tis´ıce aˇ z desetitis´ıce str´ anek

30 query

32

6

Prezentace v´ ysledk˚ u

Jako prvn´ı uvedu nˇekolik praktick´ ych pˇr´ıklad˚ u z crawling sessions a následném vyhled´ av´ an´ı r˚ uzn´ ych dotaz˚ u v indexech, které jsem z nasb´ıran´ ych dat vytvoˇril. Hned na zaˇc´ atku mus´ım podotknout, ˇze mé hodnocen´ı v´ ysledk˚ u bude velmi subjektivn´ı, nebot’ je obt´ıˇzné tyto v´ ysledky s nˇeˇc´ım porovnat. Vzhledem k n´ızkému rozsahu indexu (v ˇr´ adu tis´ıc˚ u stránek a statis´ıc˚ u unikátn´ıch slov) nelze tyto v´ ysledky porovn´ avat napˇr. s velk´ ymi internetov´ ymi vyhledávaˇci. V pˇr´ıpadˇe menˇs´ıch str´ anek lze pro porovnán´ı pouˇz´ıt lokáln´ı vyhledáván´ı (podporuje-li ho prohled´ avan´ a doména). Z hlediska pamˇet’opvé nároˇcnosti, která je z ˇcásti zp˚ usoben´ a t´ım, ˇze m˚ uj crawler bˇehem session sb´ırá spoustu dalˇs´ıch informac´ı, které nejsou pro budov´ an´ı indexu pˇr´ımo potˇrebné, se omez´ım na prohledáván´ı pouze nˇekolika tis´ıc str´ anek.

6.1

Pˇ r´ıklad 1

Jako prvn´ı pˇr´ıklad jsem se rozhodl pouˇz´ıt stránky zab´ yvaj´ıc´ı se vaˇren´ım spousta r˚ uzn´ ych str´ anek s recepty nám poslouˇz´ı jako vhodné prostˇred´ı pro sbˇer dat a n´ asledn´ ym vyhledáván´ım v indexu budeme schopni alespoˇ n odhadnout, do jaké m´ıry bylo naˇse vyhledáván´ı pˇresné. V´ yhodou je i to, ˇze jsem jako testovac´ı str´ anku vybral takovou, která má vlastn´ı lokáln´ı vyhledávaˇc, takˇze m´ am moˇznost své v´ ysledky i v menˇs´ı m´ıˇre porovnávat s n´ım. Pro demonstraci v´ ysledk˚ u pouˇziji dva r˚ uzné dvouslovné dotazy. Dom´ ena: http://www.thekitchn.com/ Limit: 4000 str´ anek Lok´ aln´ı vyhled´ av´ an´ı: ANO Stopwords: ANO C´ılen´ e vyhled´ av´ an´ı: NE V´ıcen´ asobn´ e session: NE ˇ Cas: cca 45 min (vˇcetnˇe z´ apisu a zpracován´ı dat) Pamˇ et’ov´ a n´ aroˇ cnost na konci session: cca 1 GB Dotaz 1: Fried chicken31 Aˇckoli n´ ami prohledan´ ych 4000 stránek nezahrnuje celou testovanou doménu, pro tento dotaz jsme dostali pˇrekvapivˇe dobré v´ ysledky. Tˇri z naˇsich pˇeti nejlépe hodnocen´ ych str´ anek dokonce patˇr´ı mezi pˇetici nejlépe hodnocen´ ych stránek vestavˇeného vyhled´ avaˇce. Z naˇsich nalezen´ ych URL je jistˇe na prvn´ı pohled patrné, ˇze se vˇsechny t´ ykaj´ı (pˇr´ıpadnˇe je v receptu zahrnuto) smaˇzeného kuˇrete. Pojd’me se tedy pod´ıvat, jak dopadl náˇs druh´ y dotaz: 31 testov´ ano

dne 21. 2. 2013

33

Rank 1 2 3 4 5

My index http://www.thekitchn.com/dinner-recipe-baked-fried-chic152620 http://www.thekitchn.com/thomas-kellers-fried-chicken-r-80197 http://www.thekitchn.com/recipe-easy-chicken-marsala-116581 http://www.thekitchn.com/recipe-korean-f-159748 http://www.thekitchn.com/lighter-zucchini-fritti-olive-89272

Obrázek 10: V´ ystup klienta Rank 1 2 3 4 5

Built-in search http://www.thekitchn.com/healthy-recipe-fake-fried-chicken165374 http://www.thekitchn.com/dinner-recipe-baked-fried-chic152620 http://www.thekitchn.com/thomas-kellers-fried-chicken-r-80197 http://www.thekitchn.com/recipe-korean-f-159748 http://www.thekitchn.com/recipe-fingerlicking-fried-chi-79965

Dotaz 2: Vegetarian meal Zde se naˇse v´ ysledky od jejich lokáln´ıho vyhledávaˇce jiˇz ponˇekud liˇs´ı, nicménˇe na prvn´ı pohled je oˇcividné, ˇze v´ ysledek naˇseho vyhledáván´ı pro tento dotaz byl pomˇernˇe u ´spˇeˇsn´ y a vˇsechny nalezené stránky jsou naproto relevantn´ı. 34

Obr´ azek 11: V´ ystup lokáln´ıho vyhledáván´ı Rank 1 2 3 4 5

My index http://www.thekitchn.com/recipes/vegetarian http://www.thekitchn.com/how-to-make-a-quick-vegetarian126712 http://www.thekitchn.com/vegetarian-recipes-72865 http://www.thekitchn.com/ideas-for-vegetarian-winter-recipesthat-can-be-served-cold-good-questions-184422 http://www.thekitchn.com/healthy-vegetarian-recipes-thatsatisfy-even-die-hard-meat-eaters-182827

35

Rank 1 2 3 4 5

6.2

Built-in search http://www.thekitchn.com/25-vegetarian-and-vegan-recipe104841 http://www.thekitchn.com/categories/vegetarian http://www.thekitchn.com/ideas-for-vegetarian-meals-with-nofruits-or-vegetables-good-questions-176647 http://www.thekitchn.com/meatless-recipe-163426 http://www.thekitchn.com/vegetarian-meals-to-satisfy-ronswanson-171323

Pˇ r´ıklad 2

Ve druhém pˇr´ıkladu bych chtˇel ukázat, jak funguje naˇse c´ılové vyhledáván´ı. Budeme opˇet vyhled´ avat lokálnˇe, tentokrát na anglické Wikipedii. Náˇs crawler dostane nˇekolik kl´ıˇcov´ ych slov, podle kter´ ych na konci session ohodnot´ı prohledané str´ anky a zaˇcne dalˇs´ı session od tˇech nejslibnˇejˇs´ıch. Je to tedy nˇeco na zp˚ usob beam search32 . Wikipedii jsem vybral proto, ˇze je to obrovská website, kde standardn´ı vyhled´ av´ an´ı v jedné session omezené shora limitem max prohledan´ ych str´ anek by pravdˇepodobnˇe nepˇrineslo uspokojivé v´ ysledky. Nav´ıc zde opˇet m˚ uˇzeme porovnat naˇse v´ ysledky s lokáln´ım vyhledáván´ım, které je na Wikipedii k dispozici. Dom´ ena: http://en.wikipedia.org/ Limit: 1500 str´ anek Lok´ aln´ı vyhled´ av´ an´ı: ANO Stopwords: ANO C´ılen´ e vyhled´ av´ an´ı: ANO V´ıcen´ asobn´ e session: 3x ˇ Cas: cca 50 min (vˇcetnˇe z´ apisu a zpracován´ı dat) Pamˇ et’ov´ a n´ aroˇ cnost na konci session: cca 1 GB Dotaz: Ancient Greek33 V´ ysledky pro tento dotaz si m˚ uˇzeme opˇet prohlédnout v tabulce a srovnat je s v´ ysledky lok´ aln´ıho vyhled´ avaˇce. Vˇsechny nalezené nejlepˇs´ı v´ ysledky se t´ ykaj´ı hledaného dotazu. Str´ anka, kterou Wikipedie (a já osobnˇe také) hodnot´ım jako nejv´ıce relevantn´ı skonˇcila na tˇret´ım m´ıstˇe. To je zp˚ usobeno vysok´ ymi frekvencemi slov ”ancient”a ”greek”na ostatn´ıch stránkách a faktem, ˇze v naˇsem indexu nezohledˇ nujeme poˇrad´ı slov (tzn. zda hledané v´ yrazy jsou obsaˇzeny v textu str´ anky pˇr´ımo vedle sebe). 32 viz

kapitola 2 dne 28. 2. 2013

33 testov´ ano

36

Rank 1 2 3 4 5

My index http://en.wikipedia.org/wiki/Outline of ancient Greece http://en.wikipedia.org/wiki/Military of ancient Greece http://en.wikipedia.org/wiki/Ancient Greek http://en.wikipedia.org/wiki/Greek Evangelical Church http://en.wikipedia.org/wiki/List of ancient Greek theatres

Obr´ azek 12: Nejlépe hodnocená stránka dle naˇseho indexu

Tˇechto v´ ysledk˚ u bylo dosaˇzeno aˇz na konci tˇret´ı session. Pokud se pod´ıváme napˇr´ıklad na v´ ysledky nejlépe hodnocen´ ych stránek po prvn´ı session, která zaˇc´ınala na tituln´ı str´ ance Wikipedie, uvid´ıme, ˇze pouze nˇekteré z nich jsou relevantn´ı:

37

Rank 1 2 3 4 5

6.3

My index http://en.wikipedia.org/wiki/Greek Wikipedia http://en.wikipedia.org/wiki/Cyprus http://en.wikipedia.org/wiki/Portal:Arts http://en.wikipedia.org/wiki/Andrew Dalby http://en.wikipedia.org/wiki/Engineering

Pˇ r´ıklad 3

Jako sv˚ uj posledn´ı pˇr´ıklad jsem si vybral stránku ˇzertovného zpravodajstv´ı a politické satiry The Onion News Network, na které provedu lokáln´ı vyhledáván´ı a sestav´ım index. V´ ysledek pak ovˇeˇr´ım na dvou dotazech. Je zde opˇet moˇznost porovnat v´ ysledky s lok´ aln´ım vestavˇen´ ym vyhledávaˇcem. Dom´ ena: http://www.theonion.com/ Limit: 6000 str´ anek Lok´ aln´ı vyhled´ av´ an´ı: ANO Stopwords: ANO C´ılen´ e vyhled´ av´ an´ı: NE V´ıcen´ asobn´ e session: NE ˇ Cas: cca 120 min (vˇcetnˇe z´ apisu a zpracován´ı dat) Pamˇ et’ov´ a n´ aroˇ cnost na konci session: cca 500 MB Dotaz: President Obama34 Tento dotaz pˇrinesl velmi vˇerohodné a pˇresné v´ ysledky, coˇz je dáno hlavnˇe faktem, ˇze query ”president Obama”je pomˇernˇe aktuáln´ı a tud´ıˇz se ve zprávách vyskytuje ˇcasto. Naˇse pokryt´ı 6000 stránek tedy bylo dostateˇcné. Nav´ıc slova ”president”a ”Obama”se v textu ˇcasto vyskytuj´ı vedle sebe. Srovnán´ı s lokáln´ım vyhled´ avaˇcem zde ani nen´ı tˇreba. Rank 1 2 3 4 5

My index http://www.theonion.com/articles/biden-implores-obama-torub-one-out-before-debate,29785/ http://www.theonion.com/articles/obama-paranoid-governmentcoming-for-his-guns,30638/ http://www.theonion.com/articles/obama-reelectedpresident,30285/ http://www.theonion.com/articles/president-obama-mentionshed-like-to-see-lebron-ja,17512/ http://www.theonion.com/articles/president-obama-wonderingwhy-he-always-has-to-ini,27026/g

Dotaz: Peter Jackson Na tomto dotazu bych chtˇel poukázat na urˇcité nedostatky naˇseho vyhledáván´ı. 34 testov´ ano

dne 9. 3. 2013

38

Obr´ azek 13: Nejlépe hodnocená stránka dle naˇseho indexu Vybral jsem query ”Peter Jackson”, nebot’ je toto téma (d´ıky nedávné premiéˇre filmu Hobbit) pomˇernˇe aktuáln´ı a náˇs crawler v této tématice naˇsel nˇekolik str´ anek. ”Jackson”je ale pomˇernˇe frekventované pˇr´ıjmen´ı, a kdyˇz se pod´ıváme na v´ ysledky naˇseho crawleru, tak z pˇeti nejlépe hodnocen´ ych stránek se spojen´ı ”Peter Jackson”objevuje pouze v jedné. Je to zp˚ usobeno t´ım, ˇze na nejlépe hodnocené stránce se pomˇernˇe frekventovanˇe vyskytuje slovo ”Jackson”, které má nav´ıc o nˇeco vyˇsˇs´ı hodnocen´ı IDF neˇz ”Peter”(IDFjackson = 2.6321, IDFpeter = 2.3802). Rank 1 2 3 4 5

My index http://www.theonion.com/articles/reggie-jackson,18311/ http://www.theonion.com/articles/peter-jackson-opens-upabout-his-personal-hobbit-f,28487/ http://www.theonion.com/articles/phil-jackson-enjoyingretirement-on-montana-ranch,28021/ http://www.theonion.com/articles/lauren-jackson,28948/ http://www.theonion.com/articles/pet-dog-almost-likedisgusting-family-member,30794/

39

Obr´ azek 14: Pohyb crawleru bˇehem crawling session

40

7

Navrˇ zen´ı dalˇ s´ıho postupu

Bˇehem pr´ ace jsme implementovali funkˇcn´ı verzi crawleru, kter´ y je schopen vybudovat index, a klienta, kter´ y v nˇem um´ı vyhledávat. V´ ysledky této implementace jsou shrnuty v pˇredchoz´ıch kapitolách. Nyn´ı je ˇcas naznaˇcit, na co jiˇz v této práci nezbyl prostor. Zde tedy shrneme, jaké u ´pravy je tˇreba udˇelat, aby se z naˇseho crawleru stal pouˇziteln´ y nástroj, pˇr´ıpadnˇe i z´ aklad malého specializovaného vyhledávaˇce.

7.1

Pr´ ace s daty a v´ ykon

Jedn´ım z nejvˇetˇs´ıch problém˚ u souˇcasné implementace je práce s daty. Jelikoˇz tato oblast nebyla tˇeˇziˇstˇem práce, ˇreˇsili jsme ukládán´ı a naˇc´ıtán´ı dat pomˇernˇe trivi´ aln´ım zp˚ usobem, coˇz se podepisuje i na souˇcasném v´ ykonu crawleru. Do budouc´ı verze softwaru (bude-li nˇejaká) bude tˇreba zmˇenit zp˚ usob, jak´ ym ukládáme data, aby se s nimi dalo rychle a efektivnˇe pracovat. M´ısto textov´ ych soubor˚ u bude pouˇzita datab´ aze. Kromˇe toho by v´ ykon crawleru velmi vylepˇsilo, kdyby byla moˇznost si data v pr˚ ubˇehu session pravidelnˇe ukládat, jelikoˇz vˇetˇsina z nich bude potˇreba aˇz na u ´plném konci. Mimo jiné by taky pomohlo, kdyby se cel´ y crawler v´ıce specializoval na vybudov´ an´ı indexu, nebot’ v souˇcasné dobˇe je trochu omezen faktem, ˇze bˇehem session zpracov´ avá data, která s indexem pˇr´ımo nesouvis´ı (anal´ yzy r˚ uzn´ ych skupin slov, grafy, obrázky apod.). Zaj´ımavé by téˇz bylo udˇelat takovou implementaci, která by byla schopná efektivnˇeji vyuˇz´ıvat v´ıce vl´ aken a mohla b´ yt spustitelná na v´ıce poˇc´ıtaˇc´ıch souˇcasnˇe. Pak by se poˇcet zpracovan´ ych stránek mohl pohybovat v ˇrádovˇe vyˇsˇs´ıch ˇc´ıslech, ˇc´ımˇz by se zv´ yˇsila i relevance vrácen´ ych v´ ysledk˚ u pˇri vyhledáván´ı.

7.2

Aktualizace indexu

V souˇcasné dobˇe je index vybudován na základˇe jedné rozsáhlé crawling session. Pro lepˇs´ı v´ ysledky vyhled´ aván´ı by ale bylo tˇreba implementovat moˇznost, jak tento index dynamicky rozˇsiˇrovat bˇehem jin´ ych session. Dalˇs´ı moˇznost´ı by bylo vybrat urˇcitou skupinu stránek (ideálnˇe takovou, kde se str´ anky ˇcasto mˇen´ı) a na n´ı provádˇet s ˇcasov´ ym odstupem opakované prohled´ av´ an´ı a aktualizovat obsah indexu jednotliv´ ych stránek. V kombinaci s rozˇsiˇrov´ an´ım indexu bychom tak mˇeli prvn´ı krok k vybudován´ı rozsáhlejˇs´ıho vyhled´ avaˇce.

41

7.3

Podpora jazyk˚ u

Moment´ alnˇe n´ aˇs software funguje hlavnˇe na stránkách v Angliˇctinˇe, nebot’ anglick´ a podstatn´ a jména se neskloˇ nuj´ı, coˇz naˇsi práci znaˇcnˇe usnadˇ nuje. Nicménˇe i zde by se dala udˇelat ˇrada vylepˇsen´ı, které se t´ ykaj´ı gramatiky (v souˇcasné dobˇe n´ aˇs crawler napˇr. bere ”dog”a ”dogs”jako dvˇe naprosto odliˇsná slova). V pˇr´ıpadˇe nˇemeckého nebo ˇceského jazyka by náˇs software jiˇz ale narazil na ˇradu problém˚ u (kdyˇz pomineme problematiku zpracován´ı ˇceské diakritiky) kv˚ uli rozliˇsován´ı p´ ad˚ u a r˚ uzn´ ych tvar˚ u slov. Tato tématika je znaˇcnˇe rozsáhlá a v pˇr´ıpadˇe budov´ an´ı vyhled´ avaˇce by bylo nutné se j´ı podrobnˇe zab´ yvat. V tomto ohledu se nab´ız´ı hned dalˇs´ı moˇzné rozˇs´ıˇren´ı, a to anal´ yza textu za u ´ˇcelem identifikace synonym. Pak by bylo moˇzné mnohem efektivnˇeji identifikovat str´ anky, které se zab´ yvaj´ı podobnou tématikou. Identifikace synonym v textu se vˇetˇsinou dˇel´ a pomoc´ı hled´ an´ı slov, které se vyskytuj´ı ve stejném kontextu (tzn. ve stejn´ ych vˇet´ ach na urˇcitém m´ıstˇe). Touto tématikou se zab´ yvá napˇr´ıklad tato studie[Cap03]. Jedn´ım z problém˚ u takové identifikace je ale napˇr´ıklad obt´ıˇzné rozliˇsov´ an´ı synonym a antonym. T´ım se zab´ yvá napˇr´ıklad krátké shrnut´ı Identifying Synonyms among Distributionally SimilarWords z roku 2003[LZQZ03]. Jednou z metod takového rozliˇsen´ı je napˇr´ıklad zasazen´ı potenciáln´ıch synonym do nˇejakého kontextu (napˇr. dosazen´ım do slovn´ıho spojen´ı ”from X to Y”nebo ”either X or Y”). Pokud se slova X a Y vyskytuj´ı v takovém v´ yznamu, zˇrejmˇe nep˚ ujde o synonyma (napˇr. ”from ally to foe”se bude vyskytovat sp´ıˇse neˇz ”from foe to opponent”). Jin´ ymi slovy existence takového spojen´ı m˚ uˇze identifikovat antonyma.

7.4

Rozpozn´ av´ an´ı struktury str´ anek

Kl´ıˇcovˇe informace se na str´ ankách ˇcasto vyskytuj´ı pouze v urˇcit´ ych sekc´ıch. Velkou ˇc´ ast textového obsahu mnoha stránek tvoˇr´ı pro nás naprosto nerelevantn´ı informace jako napˇr. reklamy, zpˇetné odkazy nebo r˚ uzné komentáˇre apod. Identifikov´ an´ım tˇech kl´ıˇcov´ ych sekc´ı bychom dosáhli mnohem efektivnˇejˇs´ıho vyuˇzit´ı ˇcasu i pamˇeti bˇehem crawling session, nebot’ bychom se vyhnuli zbyteˇcnému zpracov´ an´ı nadbyteˇcn´ ych dat. Kromˇe toho n´ aˇs crawler momentálnˇe ignoruje hmtl syntax stránky a vˇsem slov˚ um pˇriˇrazuje stejnou d˚ uleˇzitost. Pˇritom napˇr´ıklad se zv´ yraznˇenˇen´ ymi slovy a nadpisy by se mˇelo zach´ azet jinak neˇz s v´ yrazy, které se vyskytuj´ı v bˇeˇzném textu.

7.5

Uˇ cen´ı

Je jasné, ˇze programovat crawler tak, aby se z nˇej stal plnohodnotn´ y vyhledávaˇc, jako je napˇr. Google, asi nemá smysl. My bychom se tedy potˇrebovali vydat takov´ ym smˇerem, abychom vytvoˇrili software, jeˇz bude budovat index specializovan´ y na urˇcité téma. Crawler by se tedy mˇel umˇet uˇcit (za podpory uˇzivatele)

42

indentifikovat takové str´ anky, které jsou v daném tématu relevantn´ı. Jiˇz jsme zm´ınili tzv. beam search, coˇz je jedna z moˇznost´ı, jak pˇri vyhledáván´ı postupovat. Kromˇe toho je ale potˇreba implementovat nˇejakou heuristiku, která by v kombinaci s pouˇzitou metrikou hodnocen´ı relevance stránek crawleru smˇerovala k relevantn´ımu obsahu. Jiˇz jsme implementovali uˇcen´ı se nov´ ym stop words. Ted’ by mˇela pˇrij´ıt na ˇradu dalˇs´ı uˇcen´ı - oznaˇcen´ı relevantn´ıch stránek, dynamické hodnocen´ı stránek v pr˚ ubˇehu prohled´ av´ an´ı za pouˇzit´ı existuj´ıc´ıho indexu spoleˇcnˇe s implementac´ı prioritn´ı fronty, aby str´ anky, u kter´ ych je vyˇsˇs´ı pravdˇepodobnost obsahu relevantn´ıch informac´ı, byly staˇzeny pˇrednostnˇe. Souˇcasnˇe s t´ım by bylo tˇreba zmˇenit metriku z ˇcistého TF-IDF napˇr. na kombinaci TF-IDF a PageRanku, aby byla zohlednˇena i hyper-link struktura stránek.

43

8

Z´ avˇ er

C´ılem této bakal´ aˇrské pr´ ace bylo navrhnout crawler, kter´ y bude schopen samostatnˇe vyhled´ avat informace na Webu a své vyhledáván´ı zpˇresˇ novat na základˇe interakce s uˇzivatelem. V prvn´ı kapitole je rozebr´ ana dneˇsn´ı podoba internetu a struˇcn´ yu ´vod do problematiky webcrawlingu. N´ asleduje pˇrehled technik pouˇz´ıvan´ ych pro c´ılené vyhled´ av´ an´ı informac´ı na Webu. Ve tˇret´ı kapitole následuje pˇrehled zp˚ usob˚ u v´ ypoˇctu ˇ hodnocen´ı str´ anek na z´ akladˇe jejich relevance. Ctvrt´ a kapitola se vˇenuje nˇekolika pˇr´ıklad˚ um existuj´ıc´ıho softwaru vˇcetnˇe velk´ ych vyhledávaˇc˚ u. Zbytek pr´ ace je vˇenov´ an popisu konkrétn´ı implementace crawleru a prezentaci dosaˇzen´ ych v´ ysledk˚ u na tˇrech vyhledávac´ıch scénáˇr´ıch. Posledn´ı, sedm´ a, kapitola je vˇenov´ ana nast´ınˇen´ı dalˇs´ıho postupu, aby se z v´ ysledného crawlera stal uˇziteˇcn´ y n´ astroj. Nyn´ı je ˇcas na shrnut´ı celé práce. Podaˇrilo se vytvoˇrit funguj´ıc´ı implementaci, kter´ a samostatnˇe vyhledává informace na Webu podle zadan´ ych specifikac´ı. Aplikace m´ a ale nˇekolik nedostatk˚ u, které jiˇz byly zm´ınˇeny v pˇredchoz´ıch kapitol´ ach. Tou nejz´ avaˇznˇejˇs´ı je asi nutnost zapoˇc´ıt vyhledáván´ı pomˇernˇe bl´ızko hledaného tématu, aby byl v´ ystup relevantn´ı. To je dáno hlavnˇe mal´ ym v´ ykonem, kter´ y je limitov´ an pouˇzit´ım crawlera na jediném poˇc´ıtaˇci. Vyhledáván´ı je pak tedy pˇr´ıliˇs pomalé a neefektivn´ı. V sedmé kapitole je ale popsáno nˇekolik zp˚ usob˚ u, jak tohoto crawlera vylepˇsit a tyto nedostatky pˇrekonat. V souˇcasné dobˇe je tato aplikace vhodná pro podrobnˇejˇs´ı anal´ yzu stˇrednˇe velk´ ych kolekc´ı str´ anek (3 - 8 tis´ıc stránek), pˇredevˇs´ım na lexikografickém základu. Kromˇe toho tento crawler produkuje ˇradu statistik t´ ykaj´ıc´ıch se v´ yskyt˚ u slov a podobnosti prohledan´ ych stránek, coˇz z nˇej m˚ uˇze dˇelat nástroj vhodn´ y pro zkoum´ an´ı struktury dneˇsn´ıho Webu. Tyto v´ ysledky si lze prohlédnout na pˇriloˇzeném CD. Jsem si vˇedom, ˇze nˇekteré témata nejsou rozebrána pˇr´ıliˇs do hloubky. C´ılem pr´ ace bylo vytvoˇrit pˇrehled pouˇz´ıvan´ ych technik, kde podrobn´ y popis mnoh´ ych z nich by pˇrekroˇcil r´ amec této práce. Pr´ ace na tomto tématu mˇe velmi zaujala, bavila a byla pro mne velk´ ym pˇr´ınosem. Dozvˇedˇel jsem se o hlubˇs´ı podstatˇe c´ıleného vyhledáván´ı a jsem si jist, ˇze se mi z´ıskané poznatky budou hodit. Z´ avˇerem bych r´ ad podˇekoval Ing. Radku Maˇr´ıkovi, CSc. za veden´ı mé bakaláˇrské pr´ ace a konzultace.

44

Reference [AKP06] G. Almpanidis, C. Kotropoulos, and I. Pitas. Combining text and link analysis for focused crawling-an application for vertical search engines. Inf. Syst., 32(6):886–908, September 2006. [Bos03]

Dustin Boswell. Distributed high-performance web crawlers: A survey of the state of the art. 2003.

[BP98]

Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual web search engine. Comput. Netw. ISDN Syst., 30(1-7):107– 117, April 1998.

[BYC07] Ricardo Baeza-Yates and Carlos Castillo. Crawling the infinite web. J. Web Eng., 6(1):49–72, March 2007. [Cap03]

Carmela Cappelli. Identifying word senses from synonyms: a cluster analysis approach. 2003.

[FLT06]

Hwai-Hui Fu, Dennis K. J. Lin, and Hsien-Tang Tsai. Damping factor in google page ranking: Research articles. Appl. Stoch. Model. Bus. Ind., 22(5):431–444, September 2006.

[Hav02]

Taher H. Haveliwala. Topic-sensitive pagerank. In Proceedings of the 11th international conference on World Wide Web, WWW ’02, pages 517–526, New York, NY, USA, 2002. ACM.

[Lev06]

Mark Levene. An introduction to search engines and web navigation. addison wesley, pearson education (2006). isbn 0-321-306775. £39.99. 365 pp. softbound. Comput. J., 49(4):500–500, July 2006.

[LKS05]

Levon Lloyd, Dimitrios Kechagias, and Steven Skiena. Lydia: A system for large-scale news analysis. 2005.

[LZQZ03] Dekang Lin, Shaojun Zhao, Lijuan Qin, and Ming Zhou. Identifying synonyms among distributionally similar words. In Proceedings of the 18th international joint conference on Artificial intelligence, IJCAI’03, pages 1492–1493, San Francisco, CA, USA, 2003. Morgan Kaufmann Publishers Inc. [MM90]

Udi Manber and Gene Myers. Suffix arrays: a new method for online string searches. In Proceedings of the first annual ACM-SIAM symposium on Discrete algorithms, SODA ’90, pages 319–327, Philadelphia, PA, USA, 1990. Society for Industrial and Applied Mathematics.

[NOHI04] Saeko Nomura, Satoshi Oyama, Tetsuo Hayamizu, and Toru Ishida. Analysis and improvement of hits algorithm for detecting web communities. Syst. Comput. Japan, 35(13):32–42, November 2004. 45

[NW01]

Marc Najork and Janet L. Wiener. Breadth-first crawling yields highquality pages. In Proceedings of the 10th international conference on World Wide Web, WWW ’01, pages 114–118, New York, NY, USA, 2001. ACM.

[PSM04] Gautam Pant, Padmini Srinivasan, and Filippo Menczer. Crawling the web. In Mark Levene and Alexandra Poulovassilis, editors, Web Dynamics: Adapting to Change in Content, Size, Topology and Use, pages 153–178. Springer-Verlag, Berlin, Germany, November 2004. [SFK11]

Tom Seymour, Dean Frantsvog, and Satheesh Kumar. History of search engines. International Journal of Management & Information Systems, 2011.

[TN03]

Christoph Tillmann and Hermann Ney. Word reordering and a dynamic programming beam search algorithm for statistical machine translation. Comput. Linguist., 29(1):97–133, March 2003.

[YC01]

Mikio Yamamoto and Kenneth W. Church. Using suffix arrays to compute term frequency and document frequency for all substrings in a corpus. Comput. Linguist., 27(1):1–30, March 2001.

[ZH05]

Rong Zhou and Eric A. Hansen. Beam-stack search: Integrating backtracking with beam search. In Susanne Biundo, Karen L. Myers, and Kanna Rajan, editors, ICAPS, pages 90–98. AAAI, 2005.

46

Nastaven´ı parametr˚ u crawling session • Do pole seed URLs zadejte URL adresy stránek (zadávejte URL ve tvaru s ”http://”!), na kter´ ych crawler zaˇcne prohledáván´ı. Jednotlivé adresy oddˇelujte kl´ avesou ENTER. Pokud zadáte v´ıce neˇz jednu adresu, program vytvoˇr´ı pro kaˇzdou z nich jednu instanci crawler, kter´ y bude vyhledávat nez´ avisle na ostatn´ıch v samostatném vláknˇe. V´ ysledky pak budou uloˇzeny pro kaˇzdého crawlera zvláˇst’. • Nastavte limit poˇctu prohledan´ ych stránek. Necháte-li 0“, crawler bude ” prohled´ avat do té doby, dokud má nˇejaké stránky ve frontˇe, coˇz v pˇr´ıpadnˇe glob´ aln´ıho vyhled´ av´ an´ı m˚ uˇze i nekoneˇcnˇe dlouho. Pro zátˇeˇz do 1GB se doporuˇcuje nastavit limit na 5000-10000 stránek. • V pˇr´ıpadˇe, ˇze chcete nastavit opakován´ı session (pro c´ılené vyhledáván´ı spolu s nastaven´ım kl´ıˇcov´ ych slov), nastavte v poli number of crawling sessions celé ˇc´ıslo vˇetˇs´ı neˇz 1. Tato volba má smysl pouze, pokud v pokroˇcil´ ych nastaven´ıch (settings → advanced) zvol´ıte use requirements a v poli pod checkboxem nap´ıˇsete hledaná slova oddˇelená klávesou ENTER. • Pokud si pˇrejete nastavit pouze lokáln´ı vyhledáván´ı, zvolte v pokroˇcil´ ych nastaven´ı moˇznost search only local domains. • Nastavte cestu k adres´ aˇri, do kterého se budou ukládat v´ ysledky v settings → set directory. Pokud to neudˇeláte, v´ ysledky se uloˇz´ı do sloˇzky de” fault“ ve stejném adresáˇri, ze kterého jste crawler spustily. • Nastavte v settings → load stopwrods cestu k souboru se stop slovy, pokud si je pˇrejete pouˇz´ıt. • Stisknˇete tlaˇc´ıtko begin. • Pokud jste naˇcetli soubor se stop slovy, budete na konci session vyb´ıdnuti, abyste zvolili libovoln´ y poˇcet nejlépe hodnocen´ ych slov na prohledan´ ych str´ ank´ ach, které si pˇrejete pˇridat do vaˇseho souboru se stop slovy. • Pokud jste zvolili nˇejaká hledaná slova, m˚ uˇzete si v menu results pod´ıvat na nejlépe hodnocené stránky.

Nastaven´ı parametr˚ u klienta • Stisknˇete tlaˇc´ıtko load index a uved’te cestu do sloˇzky index vytvoˇrené pˇri nˇekteré minulé crawling session. • Do pole v horn´ı liˇstˇe zadejte hledaná slova a stisknˇete tlaˇc´ıtko search.

47

Pˇriloˇzené soubory • Thesis.pdf: elektronická verze této práce • Software: sloˇzka obsahuj´ıc´ı spustitelné .jar soubory (Webcrawler.jar, Client.jar) a soubor s n´ apovˇedou Help.pdf • Examples: sloˇzka obsahuj´ıc´ı tˇri ukázkové v´ ystupy crawling session, které byly pouˇzity k prezentován´ı v´ ysledk˚ u v kapitole 6. • Stopwords.txt: soubor se stop slovy

48

v praze fakulta elektrotechnická katedra kybernetiky informací na webu Autor: Martin Myslík Program: Otevřená informatika

Recommend Documents