, <SMALL> a , v nichž jsou termy obsaženy (jedná se o první značky na cestě od kořene, které mění váhu termu). Standardní systém, který neprovádí strukturální analýzu dokumentu ani analýzu vizualizace, vrátí jako výsledek dotazu ty dokumenty, které zadaný term obsahují, seřazené podle počtu výskytů daného termu (čísla v závorkách odpovídají počtům výskytů): indexace praha mihula.html (1) prazdna.html (7) prazdna.html (1) vysledky.html (5) praha.html (4) mihula.html (1)
einstein vysledky.html (3) prazdna.html (3) einstein.html (2)
Systém implementující navrhovaný algoritmus indexace dle předpokladu zcela eliminuje dokument prazdny.html a mění pořadí výsledných dokumentů v závislosti na zadané parametrizaci značek. Při parametrizaci přiřazující P ⇒ 1.0, H ⇒ 1.4, T ⇒ 5.0, L ⇒ 1.1, S ⇒ 0.7 a W ⇒ 0.0 jsou výsledky dotazů následující: indexace praha einstein mihula.html (1.0) praha.html (8.4) einstein.html (6.4) vysledky.html (5.5) vysledky.html (3.1) mihula.html (1.0) Z výsledků testu je patrné, že pomocí strukturální analýzy a analýzy vizualizace lze dosáhnout vhodnějšího seřazení dokumentů ve výsledné množině a dokonce eliminovat ty dokumenty, které s tématem dotazu souvisí jen minimálně.
84
6
Závěr
Průběh vzniku této diplomové práce lze rozdělit na dvě části – teoretickou a praktickou. Teoretická část probíhala od průzkumu základních norem a struktur, přes studium existujících přístupů k indexaci až po návrh vlastních algoritmů indexace. Praktickou část diplomové práce tvoří ukázková implementace navržených algoritmů. V teoretické části bylo nejprve nutné detailně prostudovat normy a specifikace související s jazykem HTML. V další fázi proběhla podrobná analýza existujících přístupů k zadanému problému a zhodnocení jejich výhod a nevýhod. Na základě této analýzy a s přihlédnutím ke specifickým vlastnostem jazyka HTML byly následně navrženy vlastní algoritmy. V praktické části byly nejprve nalezeny vhodné nástroje a již existující systémy. S jejich využitím byly následně implementovány algoritmy navržené v teoretické části. Vlastní přínos této práce spočívá především v navrženém indexačním algoritmu, který umožňuje nejen zohlednit strukturu HTML dokumentu, ale také pomocí analýzy vizualizace sledovat použití jednotlivých stylů zobrazení v dokumentu. Narozdíl od většiny existujících řešení jsou sledovány také vzájemné vztahy mezi jednotlivými složkami vizualizace (mezihodnoty), jako např. kontrast barvy písma a barvy pozadí apod. Další výhodou navrženého algoritmu je jeho široká parametrizace, pomocí níž lze specifikovat nejen váhy, ale také způsob jejich propagace uvnitř struktury dokumentu. Jelikož algoritmus přiřazuje dokumentu vektor ohodnocení termů, lze pro následné zpracování (např. dotazování, distribuci apod.) využít většiny konstrukcí, které jsou původně určeny pro vektorové systémy. Volbou konkrétních variant vybraných funkcí, jež jsou součástí algoritmu, a parametrizací lze navíc algoritmus dále modifikovat. Závěrem je možné říci, že předem stanovené cíle práce byly splněny. Přesto zůstává v navrženém řešení prostor pro další rozšíření. Jednou z nejzajímavějších možností by mohlo být využití analýzy odkazů [9], která zohledňuje princip hypertextu v dokumentech. Jiné možné rozšíření spočívá v definici dalších mezihodnot v analýze vizualizace. Vzhledem k tomu, že HTML norma nespecifikuje sémantiku obsažených dat dostatečně, zajímavých modifikací navržených algoritmů by mohlo být dosaženo posunutím směrem k oblasti sémantického webu [8].
85
Reference [1] G. Attardi, A. Gulli, F. Sebastiani. Automatic Web Page Categorization by Link and Context Analysis. Varese, Itálie, 1999. Proceedings of THAI-99, European Symposium on Telematics, Hypermedia and Artificial Intelligence, str. 105–119. [2] G. Attardi, S. Di Marco, D. Salvi. Categorisation by Context, volume 4. Springer Verlag, 1998. Journal of Universal Computer Science, str. 719– 736. [3] R. Bhatt. Language and the Internet. Austin, Texas, 2000. Prezentace k přednášce LIN 312. WWW: http://www.cs.utexas.edu/users/bhatt/lin312-f00/. [4] N. Bradley. XML kompletní průvodce. GRADA Publishing, Praha, Česká republika, 2000. 540 s. [5] S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan, D. Gibson, J. Kleinberg. Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text. ACM Press, Honolulu, Hawaii, USA, 1998. Proceedings of the 7th International World Wide Web Conference. [6] T. Craven. Thesaurus construction. Ontario, Canada, [online] 2002. Introductory Tutorial on Thesaurus Construction. WWW: http://instruct.uwo.ca/gplis/677/thesaur/main00.htm. [7] Google – Searching. Google. [online] 2003. WWW: http://www.google.com. [8] J. D. Heflin. Towards the semantic web: Knowledge representation in a dynamic, distributed environment. College Park, Maryland, 2001. Dissertation University of Maryland. [9] M. Henzinger. Link Analysis in Web Information Retrieval, volume 23. IEEE, 2000. IEEE Data Engineering Bulletin, str. 3–8. [10] P. Ingwersen. Information Retrieval Interaction. Teylor Graham Publishing, London, United Kingdom, 1992. 256 s. [11] Internet Assigned Numbers Authority. MIME Types. [online] 2003. WWW: ftp://ftp.isi.edu/in-notes/iana/assignments/media-types/. [12] T. Jílek. Server pro vyhledávání v textových dokumentech. Praha, Česká republika, 2001. Diplomová práce MFF UK.
86
[13] Y. Jung, H. Park, D. Du. An Effective Term-Weighting Scheme for Information Retrieval. Department of Computer Science, University of Minnesota, Minneapolis, Minnesota, 2000. Výzkumná zpráva TR008. [14] D. Křižan. Indexace HTML. Praha, Česká republika, 2002. Diplomová práce MFF UK. [15] M. Kopecký. Dokumentografické informační systémy. Praha, Česká republika, 2003. Prezentace k přednášce I234. WWW: http://www.ms.mff.cuni.cz/~kopecky/vyuka/dis/. [16] Lycos, Inc. Lycos. [online] 2003. WWW: http://www.lycos.com. [17] P. Mikle. Referenční příručka jazyka HTML. Unis Publishing, Brno, Česká republika, 1996. 55 s. [18] T. Nejedlík. Indexace a vyhledávání textových dat ve formátu HTML. Praha, Česká republika, 1999. Diplomová práce MFF UK. [19] G. B. Newby. Information Space based on HTML Structure. Gaithersburg, Maryland, 2000. Proceedings of the 9th Text Retrieval Conference, str. 601– 610. [20] Oracle Corporation. Oracle Text in Oracle Database 10g. [online] 2003. WWW: http://otn.oracle.com/products/text/. [21] K. Osolsobě, K. Pala, P. Rychlý. Frekvence vzorů českých sloves. Akademie věd ČR, ÚJČ, Praha, Česká republika, 1998. WWW: http://nlp.fi.muni.cz/publications/sas1998_pala_osolsobe_ pary/sas1998_pala_osolsobe_pary.doc. [22] G. Pant. Deriving Link-context from HTML Tag Tree. ACM Press, San Diego, California, 2003. Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, str. 49–55. [23] J. Pokorný, V. Snášel, D. Húsek. Dokumentografické informační systémy. Karolinum – vydavatelství UK, Praha, Česká republika, 1998. Skripta MFF UK, 158 s. [24] W3C. Cascading Style Sheets Home Page. [online] 2003. WWW: http://www.w3.org/Style/CSS/. [25] W3C. HyperText Markup Language (HTML) Home Page. [online] 2003. WWW: http://www.w3.org/MarkUp/.
87
A
Stoplist
Následující stoplist základních tvarů je zpracován z korpusu DESAM a obsahuje prvních 75 nejpoužívanějších českých slov spolu s počtem jejich výskytů. Slovo Výskyty (%) být 2.25566 v 2.18909 a 2.09743 sebe 1.50986 na 1.33937 ten 0.82155 s 0.76301 z 0.70188 ze 0.68434 který 0.65219 o 0.57173 mít 0.49858 i 0.49850 do 0.47341 on 0.47057 k 0.41293 pro 0.39945 tento 0.37850 za 0.32995 by 0.32825 moci 0.29699 svůj 0.28708 ale 0.28294 po 0.24332 rok 0.21385
Slovo Výskyty (%) jako 0.20135 však 0.19477 od 0.18998 všechen 0.18243 dva 0.17756 nebo 0.17683 tak 0.17431 u 0.17074 při 0.16798 jeden 0.16644 podle 0.16230 Praha 0.15832 jen 0.15734 další 0.15580 jeho 0.15272 aby 0.14784 co 0.14671 český 0.14606 jak 0.14565 veliký 0.14452 nový 0.14119 až 0.13989 už 0.13778 muset 0.13770 než 0.13672
Slovo Výskyty (%) nebýt 0.13623 člověk 0.13315 jenž 0.13218 léto 0.12990 firma 0.12828 první 0.12316 nás 0.12276 také 0.11829 my 0.11366 jejich 0.11350 když 0.11196 před 0.11009 doba 0.10790 chtít 0.10603 jiný 0.10555 mezi 0.10084 ještě 0.10035 já 0.09637 ani 0.09629 cena 0.09369 již 0.09345 jít 0.09288 strana 0.09207 či 0.09126 druhý 0.09053
Tabulka 7: Stoplist pro češtinu (DESAM)
88
B
Obsah CD-ROM
Součástí této diplomové práce je i přiložený CD-ROM obsahující text práce a především zdrojové soubory ukázkové implementace a testovací kolekci dokumentů. CD-ROM obsahuje následující soubory a adresáře: • /txt – adresář obsahující text diplomové práce • /src – adresář obsahující zdrojové a pomocné soubory pro překlad aplikace • /data – adresář obsahující testovací kolekci HTML dokumentů • index.txt – soubor s popisem obsahu CD-ROM
89
Typeset by LATEX 2ε