ne-spam

´ padoc ˇeska ´ univerzita v Plzni Za ´ ch ve ˇd Fakulta aplikovany

Klasifikace textu do kategori´ı spam/ne-spam

KIV/PC

2. ledna 2015

Marek Zimmermann A12B0215P [email protected]

Obsah 1 Zad´ an´ı

2

2 Anal´ yza u ´ lohy 2.1 Klasifikaˇcn´ı algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Datové struktury . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 3 4

3 Popis implementace 3.1 Dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Item . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Fungov´ an´ı programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7 7 7 8

4 Uˇ zivatelsk´ a pˇ r´ıruˇ cka 4.1 Pˇreklad programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Spuˇstˇen´ı programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10 10 10

5 Z´ avˇ er

12

1

Zad´ an´ı

Naprogramujte v ANSI C pˇrenositelnou konzolovou aplikaci, která bude rozhodovat, zda u ´ sek textu (textov´ y soubor) je nebo nen´ı spam. Aplikace bude pˇrij´ımat z pˇr´ıkazové ˇrádky sedm parametr˚ u: Prvn´ı dva parametry budou vzor jména a poˇcet trénovac´ıch soubor˚ u obsahuj´ıc´ıch nevyˇzádané zprávy (tzv. spam). Tˇret´ı a ˇctvrt´ y parametr budou vzor jména a poˇcet trénovac´ıch soubor˚ u obsahuj´ıc´ıch vyˇzádané zprávy (tzv. ham). P´ at´ y a ˇsest´ y parametr budou vzor jména a poˇcet testovac´ıch soubor˚ u. Sedm´ y parametr pˇredstavuje jméno v´ ystupn´ıho textového souboru, kter´ y bude po dokonˇcen´ı ˇcinnosti Vaˇs´ı aplikace obsahovat v´ ysledky klasifikace testovac´ıch soubor˚ u. Program se bude spouˇstˇet pˇr´ıkazem: classify.exe hspami hspam-cnti hhami hham-cnti htesti htest-cnti hout-filei Symboly hspami, hhami a htesti pˇredstavuj´ı vzory jména vstupn´ıch soubor˚ u. Symboly hspam-cnti, hham-cnti a htest-cnti pˇredstavuj´ı poˇcty vstupn´ıch soubor˚ u. Vstupn´ı soubory maj´ı následuj´ıc´ı pojmenov´ an´ı: vzorN, kde N je celé ˇc´ıslo z intervalu h1; N i. Pˇr´ıpona vˇsech vstupn´ıch soubor˚ u je .txt, pˇr´ıpona nen´ı souˇcást´ı vzoru. Váˇs program tedy m˚ uˇze b´ yt bˇehem testován´ı spuˇstˇen napˇr´ıklad takto: ...\>classify.exe spam 10 ham 20 test 50 result.txt V´ ysledkem ˇcinnosti programu bude textov´ y soubor, kter´ y bude obsahovat seznam testovan´ ych soubor˚ u a jejich klasifikaci. Pokud nebude na pˇr´ıkazové ˇr´ adce uvedeno právˇe sedm argument˚ u, vypiˇste chybové hláˇsen´ı a struˇcn´ y n´ avod k pouˇzit´ı programu v angliˇctinˇe podle bˇeˇzn´ ych zvyklost´ı (viz napˇr. ukázkov´ a semestráln´ı pr´ ace na webu pˇredmˇetu Programován´ı v jazyce C). Vstupem programu jsou pouze argumenty na pˇ r´ıkazov´ eˇ r´ adce – interakce s uˇ zivatelem pomoc´ı kl´ avesnice ˇ ci myˇ si v pr˚ ubˇ ehu pr´ ace programu se neoˇ cek´ av´ a. Hotovou pr´ aci odevzdejte v jediném archivu typu ZIP prostˇrednictv´ım automatického odevzdávac´ıho a validaˇcn´ıho systému. Archiv necht’ obsahuje vˇsechny zdrojové soubory potˇrebné k pˇreloˇzen´ı programu, makefile pro Windows i Linux (pro pˇreklad v Linuxu pˇripravte soubor pojmenovan´ y makefile a pro Windows makefile.win) a dokumentaci ve formátu PDF vytvoˇrenou v typografickém systému TEX, resp. LATEX. Bude-li nˇekterá z ˇcást´ı chybˇet, kontroln´ı skript Vaˇsi pr´ aci odm´ıtne1 .

1´ Uplné znˇen´ı zad´ an´ı dostupné na webové adrese pˇredmˇetu KIV/PC: http://www.kiv.zcu.cz/studies/predmety/pc/doc/work/sw2014-03.pdf

2

2

Anal´ yza u ´ lohy

C´ılem programu je klasifikovat danou mnoˇzinu e–mail˚ u. Klasifikovat budeme do 2 kategori´ı: ham (vyˇz´ adan´ a poˇsta) nebo spam (nevyˇzádaná poˇsta). Poˇzadovaná pˇresnost klasifikace je alespoˇ n 90%2 . Pˇri anal´ yze u ´lohy pak bude d˚ uleˇzitá volba klasifikaˇcn´ıho algoritmu a struktury, kterou budeme vyuˇz´ıvat pro trénov´ an´ı a posléze klasifikaci.

2.1

Klasifikaˇ cn´ı algoritmy

Pro klasifikaci e–mail˚ u lze vyuˇz´ıt nˇekolika klasifikátor˚ u: Support Vector Machine, naivn´ı Bayes˚ uv klasifik´ ator, klasifik´ ator Maximáln´ı entropie a dalˇs´ı. Support Vector Machines (SVM) je metoda strojového uˇcen´ı, která v u ´loze klasifikace hledá nadrovinu, kter´ a v prostoru pˇr´ıznak˚ u rozdˇeluje data od sebe tak, aby minimáln´ı vzdálenost bod˚ u z n mnoˇzin byla maxim´ aln´ı (viz obrázek 1). Toto plat´ı v pˇr´ıpadˇe, kdy jsou od sebe mnoˇziny line´ arnˇe separovatelné. Pokud tomu tak nen´ı, vyuˇz´ıvá se tzv. jádrová funkce (kernel function, nebo také kernel transformation), která pˇrevede lineárnˇe neseparovatelnou u ´lohu na lineárnˇe separovatelnou pomoc´ı projekc´ı do vyˇsˇs´ı dimenze, neˇz jsou vstupn´ı data [1]).

Obrázek 1: Bin´ arn´ı SVM klasifik´ ator, Zdroj: http://docs.opencv.org/doc/tutorials/ ml/introduction_to_svm/introduction_to_svm.html Naivn´ı Bayes˚ uv klasifik´ ator (NBC) je pravdˇepodobnostn´ı klasifikátor, zaloˇzen´ y na aplikaci tzv. Bayesovy vˇety a pˇredpokladu nezávislosti mezi dan´ ymi pˇr´ıznaky (coˇz v realitˇe vˇetˇsinou neplat´ı – proto naivn´ı“). Mezi jeho klady patˇr´ı schopnost inkrementáln´ıho uˇcen´ı (je moˇzné ho ” po testován´ı dotrénovat pomoc´ı nov´ ych dat) a také je vhodn´ y pro klasifikaci velkého souboru dat d´ıky pˇredpokladu nez´ avislosti mezi dan´ ymi pˇr´ıznaky – tato vlastnost totiˇz zjednoduˇsuje vzorec potˇrebn´ y pro v´ ypoˇcet pravdˇepodobnosti. Jeho klasifikaˇcn´ı u ´spˇeˇsnost je v´ yraznˇe závisl´ a na kvalitˇe trénovac´ı mnoˇziny. Grafick´ a ukázka klasifikace bodu podle jeho polohy je zachycena v obrázku 2. Z tˇechto dvou algoritm˚ u, které patˇr´ı mezi nejpouˇz´ıvanˇejˇs´ı v oblasti klasifikace e–mail˚ u, jsem se rozhodl zvolit NBC, nebot’ s n´ım lze dosáhnout poˇzadované u ´spˇeˇsnosti, byl doporuˇcen v zadán´ı pr´ ace a pˇriˇsel mi jednoduˇsˇs´ı na implementaci. 2

Tedy napˇr´ıklad ze 100 klasifikovan´ ych dokument˚ u jich mus´ı b´ yt spr´ avnˇe klasifikov´ ano nejménˇe 90.

3

Obr´ azek 2: NBC – klasifikace b´ılého bodu na základˇe polohy, Zdroj: http://www.statsoft.com/textbook/naive-bayes-classifier

2.2

Datov´ e struktury

Pro dan´ y klasifik´ ator je pak tˇreba navrhnout vhodnou datovou strukturu, která bude uchovávat v´ ysledky trénov´ an´ı a posléze bude vyuˇzita pro klasifikaci testovac´ıch e–mail˚ u. Prvn´ı strukturou, kter´ a by mohla b´ yt pouˇzita, je binárn´ı vyhledávac´ı strom (BST – Binary search tree). Ten se skl´ ad´ a z bin´ arn´ıho stromu, tj. orientovaného grafu s jedn´ım bodem jakoˇzto poˇcátkem (tzv. koˇren), z nˇehoˇz lze naj´ıt cestu do jakéhokoliv vrcholu, pˇriˇcemˇz kaˇzd´ y vrchol má maxim´ alnˇe dva potomky a pr´ avˇe jednoho pˇredka (pouze koˇren ˇzádného nemá). Binárn´ı vyhledávac´ı strom se od bin´ arn´ıho stromu liˇs´ı tak, ˇze kl´ıˇce, pˇriˇrazené kaˇzdému uzlu, jsou uspoˇrádány tak, ˇze hodnota levého podstromu uzlu je menˇs´ı neˇz hodnota uzlu a hodnota pravého podstromu je naopak vyˇsˇs´ı neˇz hodnota uzlu (viz obrázek 3).

Obr´ azek 3: Uk´ azka jednoduchého BST, Zdroj: http: //cs.wikipedia.org/wiki/Bin%C3%A1rn%C3%AD_vyhled%C3%A1vac%C3%AD_strom Druhou strukturou vhodnou k pouˇzit´ı je hashovac´ı tabulka (hash table). Jej´ı princip spoˇc´ıvá v tom, ˇze pro data, kter´ a chceme uloˇzit, z´ıskáme kl´ıˇc pomoc´ı tzv. hashovac´ı funkce a data pak podle kl´ıˇce uloˇz´ıme. Kl´ıˇc poté rovnˇeˇz slouˇz´ı k nalezen´ı dat v dané tabulce. Jako struktura pro uloˇzen´ı tabulky se nejˇcastˇeji pouˇz´ıvá pole. Pˇri vkládán´ı dat m˚ uˇze d´ıky pˇriˇrazen´ı stejného kl´ıˇce r˚ uzn´ ym dat˚ um nastat kolize, kterou lze ˇreˇsit nˇekolika zp˚ usoby. Nejjednoduˇsˇs´ım ˇreˇsen´ım je tzv. zˇretˇezen´ı z´ aznam˚ u (separate chaining), kdy kaˇzdá poloˇzka tabulky je seznamem prvk˚ u se stejn´ ym kl´ıˇcem. Dalˇs´ım zp˚ usobem pak m˚ uˇze b´ yt otevˇrená adresace (nebo také otevˇrené rozptylov´ an´ı, anglicky open addressing), kde data, která by mˇela b´ yt um´ıstˇena na jiˇz obsazené m´ısto, jsou um´ıstˇena na jiné volné m´ısto, které urˇc´ı zvolen´ y algoritmus. Rozd´ıl je zobrazen na obr´ azku 4. Dalˇs´ı strukturou, kter´ a by mohla b´ yt vhodná pro uchováván´ı dat, je trie. Strukturou je velmi podobn´ a BVS, avˇsak vrchol zde nemus´ı m´ıt nejv´ yˇse dva potomky (m˚ uˇze jich m´ıt tolik, kolik potˇrebujeme) a jako kl´ıˇc se zde hojnˇe vyuˇz´ıvaj´ı ˇretˇezce (popˇr. znaky z jednotliv´ ych 4

Obrázek 4: Zˇretˇezen´ı z´ aznam˚ u (vlevo) a otevˇrená adresace (vpravo) u hashovac´ı tabulky, Zdroj: http://en.wikipedia.org/wiki/Hash_table ˇretˇezc˚ u). Vˇsichni n´ asledn´ıci uzlu maj´ı spoleˇcn´ y prefix, kter´ y je shodn´ y s ˇretˇezcem pˇriˇrazen´ ym k danému uzlu. Koˇren je asociovan´ y s prázdn´ ym ˇretˇezcem. Kaˇzd´ y uzel si s sebou nese informaci, zda je nebo nen´ı koncov´ ym p´ısmenem nˇejakého slova. Trie b´ yvá velmi ˇcasto pouˇz´ıvána pro uloˇzen´ı slovn´ık˚ u, kde vynik´ a kromˇe rychlosti i v pˇr´ızniv´ ych nároc´ıch na pamˇet’, a to t´ım v´ıce, ˇc´ım v´ıce je ve slovn´ıku slov se stejn´ ym prefixem. Na obrázku 5 m˚ uˇzeme vidˇet uloˇzen´ı dan´ ych slov ze slovn´ıku tak, ˇze pro slova s celkov´ ym souˇctem osmnácti znak˚ u staˇc´ı v trie pouze jeden´ act uzl˚ u.

Obr´ azek 5: Trie pro slova A“, to“, tea“, ted“, ten“, i“, in“ a inn“, ” ” ” ” ” ” ” ” Zdroj: http://en.wikipedia.org/wiki/Trie U námi zvolené struktury klademe d˚ uraz zejména na operace vloˇzen´ı a hledán´ı prvku, nebot’ pˇri trénov´ an´ı budeme do struktury pouze vkládat, nebo ji hledat (abychom j´ı upravili) a pˇri klasifikaci jiˇz pouze hledat (pro ˇcten´ı uloˇzen´ ych informac´ı). V tabulce 1 lze vidˇet, ˇze dobré v´ ysledky v tˇechto operac´ıch by mˇela podávat zejména hashtable[2] a trie. V nejhorˇs´ım pˇr´ıpadˇe m´ a u operac´ı vkl´ ad´ an´ı a hled´ an´ı BVS a hashtable sloˇzitost O(n), kde n je poˇcet prvk˚ u ve stromu ˇci tabulce a trie O(m), kde m je poˇcet uzl˚ u vedouc´ı k prvku (tedy poˇcet p´ısmen ve slovˇe). Zde by tedy mˇela b´ yt v´ıtˇezem trie[3]. Ze dvou vhodn´ ych kandid´ at˚ u jsem se nakonec rozhodl zvolit hashovac´ı tabulku se zˇretˇe5

Operace BVS Hled´ an´ı O(log n) Vkl´ ad´ an´ı O(log n)

Hashtable O(1) O(n)

Trie O(m) O(m)

Tabulka 1: Pr˚ umˇern´ a asymptotická sloˇzitost operac´ı u BVS, hashtable a trie zen´ım záznam˚ u jakoˇzto dobr´ y kompromis mezi pamˇet’ovou a v´ ypoˇcetn´ı nároˇcnost´ı a jednoduchost´ı implementace.

6

3

Popis implementace

3.1

Dictionary

Struktura Dictionary (viz zdrojov´ y kód 1) v sobˇe uchovává slova ve formˇe hashtabulky (pole ukazatel˚ u na strukturu Item o velikosti DICT ARRAY SIZE3 ), poˇcet zpracovan´ ych slov ze spamov´ ych (spam words) a hamov´ ych (ham words) soubor˚ u vˇcetnˇe duplicit, poˇcet unikátn´ıch zpracovan´ ych slov z obou kategori´ı (unique words) a poˇcet zpracovan´ ych spamov´ ych a hamov´ ych soubor˚ u (spam files a ham files). Zdrojov´ y kód 1: Struktura Dictionary typedef struct { Item ∗ words [ DICT ARRAY SIZE ] ; int spam words ; int ham words ; int u n i q u e w o r d s ; int s p a m f i l e s ; int h a m f i l e s ; } Dictionary ;

3.2

Item

Struktura Item (viz zdrojov´ y k´ od 2) uchovává dané slovo (word), informace o poˇctu v´ yskyt˚ u daného slova ve spamu (spam occur) a v hamu (ham occur), hodnoty pravdˇepodobnosti v´ yskytu slova v dané kategorii (spam prob a ham prob), a protoˇze je tato struktura koncipována z´ aroveˇ n jako poloˇzka spojového seznamu, uchovává i ukazatel na dalˇs´ı prvek (next). Zdrojov´ y kód 2: Struktura Item typedef struct ITEM { char ∗word ; int spam occur ; int ham occur ; double spam prob ; double ham prob ; struct ITEM ∗ next ; } Item ; 3

Konkrétn´ı velikost pole pops´ ana v sekci 5

7

3.3

Fungov´ an´ı programu

Program nejprve zkontroluje vstupn´ı parametry programu – jejich správn´ y poˇcet (mus´ı jich b´ yt pˇresnˇe sedm) a zda je druh´ y, ˇctvrt´ y a ˇsest´ y parametr celé ˇc´ıslo. V pˇr´ıpadˇe, ˇze nˇekter´ a z kontrol selˇze, program vyp´ıˇse chybu, nápovˇedu a ukonˇc´ı se. Pokud kontrola probˇehla v poˇr´ adku, program se pokus´ı alokovat m´ısto pro slovn´ık (strukturu Dictionary). V pˇr´ıpadˇe ne´ uspˇeˇsného pokusu se zobraz´ı v´ ypis chyby a program se ukonˇc´ı. Pokud do této chv´ıle probˇehlo vˇse v poˇrádku, zaˇc´ıná trénován´ı. E–maily jsou pˇredzpracovány do soubor˚ u s pˇr´ıponou .txt tak, ˇze jeden soubor je roven jednomu e–mailu. Soubor se pak skládá ze slov oddˇelen´ ych mezerou. Vˇsechna slova jsou na jedné ˇrádce, konec ˇrádky je 4 tedy i koncem souboru . Program postupnˇe otevˇre kaˇzd´ y soubor, naˇcte jeho obsah do bufferu a postupnˇe z nˇej zpracuje kaˇzdé slovo. Pr´ avˇe zpracov´ avané slovo zkus´ı naj´ıt ve slovn´ıku. V pˇr´ıpadˇe jeho nalezen´ı zv´ yˇs´ı o jedna potˇrebné ˇc´ıtaˇce. Pokud slovo nenajde, pokus´ı se ho vytvoˇrit a uloˇzit do slovn´ıku. Pokud dojde k chybˇe u zpracov´ an´ı souboru, program vyp´ıˇse chybu a jej´ı struˇcn´ y popis a ukonˇc´ı se. Tento postup byl zvolen, protoˇze pokud by doˇslo k chybnému natrénován´ı d´ıky chybˇej´ıc´ım dat˚ um, mohlo by nastat v´ yrazné ovlivnˇen´ı klasifikace testovac´ıch soubor˚ u. Jako hashovac´ı funkce bylo zvoleno seˇcten´ı ASCII hodnot p´ısmen daného slova modulo velikost´ı slovn´ıku. Protoˇze program pracuje ve stylu naˇcti, natrénuj, klasifikuj, ukonˇci se“ a nevyuˇz´ıv´ a ” tedy jednu z vlastnost´ı NBC (viz sekce 2) – schopnost inkrementáln´ıho uˇcen´ı – m˚ uˇzeme jeˇstˇe pˇred samotnou klasifikac´ı provést malou optimalizaci. Aby program nemusel pro kaˇzdé slovo opakovanˇe poˇc´ıtat hodnotu pravdˇepodobnosti v dané kategorii, m˚ uˇzeme si tyto hodnoty pˇredem vypoˇc´ıtat a uloˇzit do samotné struktury daného slova5 (viz spam prob a ham prob v podsekci 3.2). V tuto chv´ıli m˚ uˇze zaˇc´ıt klasifikace testovac´ıch soubor˚ u. Kaˇzd´ y testovac´ı soubor je otevˇren, jeho obsah je naˇcten a zpracov´ an. Standardnˇe by se pro v´ ypoˇcet pravdˇepodobnosti, ˇze dan´ y soubor patˇr´ı do dané kategorie, pouˇzil vzorec 1, kde PC je pravdˇepodobnost v´ yskytu dané kategorie (zpracované soubory podˇelené vˇsemi soubory) a P (wordi |C) je pravdˇepodobnost v´ yskytu slova v dané kategorii. PS = PC ×

n Y

P (wordi |C)

(1)

i=0

Protoˇze by zde vˇsak doˇslo k tzv. podteˇcen´ı (ztráta pˇresnosti, zde d´ıky násoben´ı velmi mal´ ych hodnot mezi sebou), pravdˇepodobnosti zlogaritmujeme a seˇcteme (viz vzorec 2), ˇc´ımˇz doc´ıl´ıme spr´ avného v´ ysledku, nebot’ malé hodnoty se zde sˇc´ıtaj´ı a k podteˇcen´ı tak nedojde. Ps = log (PC ) +

n X

log (P (wordi |C))

(2)

i=0

Pravdˇepodobnost v´ yskytu slova v dané kategorii se spoˇcte dle vzorce 3, kde ni je poˇcet v´ yskyt˚ u slova v dané kategorii zv´ yˇsen´ y o jedna (aby v logaritmu nebyla nula), DC je celkov´ y poˇcet slov zpracovan´ y slovn´ıkem v dané kategorii a DU je celkov´ y poˇcet unikátn´ıch slov zpracovan´ y slovn´ıkem. P (wordi |C) = 4 5

ni + 1 DC + DU

Pˇresnˇeji: soubory neobsahuj´ı ˇza ´dn´ y znak pro ukonˇcen´ı ˇra ´dky, obsahuj´ı pouze znak konce souboru. V´ ysledky provedené optimalizace viz sekce 5

8

(3)

Po v´ ypoˇctu pravdˇepodobnosti souboru v obou kategori´ıch se dle vyˇsˇs´ı hodnoty jedné z nich rozhodne, zda jde o spam nebo ham. V´ ysledky se pak zapisuj´ı do souboru, jehoˇz název byl zadán jako sedm´ y parametr pˇri spuˇstˇen´ı. Na kaˇzd´ y ˇrádek souboru je zapsán jeden v´ ysledek ve formátu: n´ azev souboru, tabul´ ator, H (signalizuj´ıc´ı ham) nebo S (signalizuj´ıc´ı spam) a konec ˇrádky. Pokud se nˇekter´ a z ˇc´ ast´ı programu nevykoná správnˇe a program je nucen ukonˇcit svou ˇcinnost, kromˇe struˇcného v´ ypisu chyby z´ıskáme i návratov´ y kód chyby. Kódy jsou rozdˇeleny následovnˇe: • 0 – program probˇehl spr´ avnˇe (bez chyb), • 1 – ˇspatnˇe zadané nebo ˇz´ adné vstupn´ı parametry, • 2 – problém s alokac´ı pamˇeti pˇri vytváˇren´ı struktury Dictionary, • 3 – I/O chyba (nezdaˇrilo se otevˇren´ı souboru, zápis do souboru, soubor neexistuje ...), • 4 – jiné problémy s alokac´ı pamˇeti (napˇr. struktury Item pro nové slovo)

9

4

Uˇ zivatelsk´ a pˇ r´ıruˇ cka

4.1

Pˇ reklad programu

Program mus´ı b´ yt pˇred pouˇzit´ım pˇreloˇzen. Pro zjednoduˇsen´ı jsou pˇripraveny dva makefile soubory (makefile pro Linux a makefile.win pro Windows). Oba dva vyˇzaduj´ı m´ıt na daném systému zprovoznˇen´ y make a gcc pˇrekladaˇc. V Linuxu se tohoto stavu dá doc´ılit prost´ ym nainstalov´ an´ım bal´ıˇck˚ u make a gcc6 . Ve Windows bude potˇreba nainstalovat MinGW7 nebo CygWin a (pokud to bude nutné) pˇridat um´ıstˇen´ı daného programu do systémové promˇenné PATH. Na Linuxu m˚ uˇzeme program pˇreloˇzit v daném adresáˇri pˇr´ıkazem: make Pokud pˇreklad prob´ıh´ a na Windows, pˇreloˇz´ıme program pomoc´ı: make −f m a k e f i l e . win

4.2

Spuˇ stˇ en´ı programu

Po pˇrekladu se ve stejném adres´ aˇri objev´ı soubor classify.exe. Program se pouˇst´ı pˇres konzoli v n´ asleduj´ıc´ım form´ atu: classify.exe hspami hspam-cnti hhami hham-cnti htesti htest-cnti hout-filei Prvn´ım parametrem je vzorové jméno trénovac´ıch spamov´ ych soubor˚ u (napˇr pro vzor spam“ ” m˚ uˇze b´ yt jeden ze soubor˚ u spam3.txt“). Druh´ ym parametrem je pak poˇcet tˇechto soubor˚ u. ” Tˇret´ım parametrem je vzorové jméno trénovac´ıch hamov´ ych soubor˚ u, ˇctvrt´ ym pak jejich poˇcet. Pát´ ym je vzorové jméno soubor˚ u, které maj´ı b´ yt klasifikovány, ˇsest´ ym parametrem je pak jejich poˇcet. Posledn´ım (sedm´ ym) parametrem je pak název souboru, do kterého se budou zapisovat v´ ysledky klasifikace jednotliv´ ych testovan´ ych soubor˚ u. Na obrázku 6 lze vidˇet chován´ı pˇri spuˇstˇen´ı s korektn´ımi parametry.

Obr´ azek 6: Uk´ azka v´ ystupu správného bˇehu programu Pokud jsou vstupn´ı parametry ˇspatné nebo pˇri bˇehu nastane chyba, program struˇcnˇe vyp´ıˇse kde nastala chyba a ukonˇc´ı sv˚ uj bˇeh. Pokud jsou zadány chybné parametry, program 6 7

Pˇreklad otestov´ an na gcc ve verzi 4.9.1 na operaˇcn´ım systému Debian GNU/Linux 8.0 (64 bit). Pˇreklad otestov´ an za pomoc´ı MinGW verze 4.8.1 na operaˇcn´ım systému Windows 7 Professional 64 bit.

10

kromˇe v´ ypisu problému s parametry zobraz´ı i nápovˇedu. Pro ukázku bˇehu programu pˇri chybˇej´ıc´ım trénovac´ım souboru viz obrázek 7.

Obr´ azek 7: Uk´ azka v´ ystupu programu, pokud chyb´ı testovac´ı soubor

11

5

Z´ avˇ er

Program splnil zad´ an´ı, jeho u ´spˇeˇsnost klasifikace byla 98 % (z dodan´ ych 200 testovan´ ych soubor˚ u 3 ham soubory klasifikoval jako spamy a 1 spam jako ham). ˇ Casy bˇehu programu na Linuxu (tabulka 2) ukazuj´ı pˇribliˇznˇe 4 aˇz 5 % zrychlen´ı programu vlivem optimalizace (viz sekce 3.3) a m´ırné urychlován´ı bˇehu pˇri zvyˇsován´ı velikosti hashovac´ı tabulky, kromˇe posledn´ı hodnoty 5000, která se témˇeˇr rovnala v´ ysledk˚ um u velikosti 1500. Pokud se pod´ıv´ ame na ˇcasy bˇehu programu ve Windows (tabulka 3), ukazuj´ı v´ıceménˇe podobn´ y trend, pouze hodnoty u velikosti 1500 jsou neoˇcekávanˇe vysoké. Pravdˇepodobnˇe se na jejich v´ ysledc´ıch projevily sluˇzby bˇeˇz´ıc´ı na pozad´ı (a to i pˇres to, ˇze kaˇzdá v´ ysledná hodnota pˇredstavuje pr˚ umˇer z 10 mˇeˇren´ı). Bohuˇzel, hodnoty pro porovn´ an´ı bˇehu se stejn´ ym nastaven´ım v Linuxu a ve Windows nejsou porovnatelné, nebot’ pˇri mˇeˇren´ı bˇehu na Windows byl omylem zapnut´ y debug reˇzim (zajiˇst’uj´ıc´ı detailnˇejˇs´ı v´ ypisy bˇehu programu), coˇz pravdˇepodobnˇe ovlivnilo v´ ysledn´ y ˇcas. ˇ Casy jsou tak vz´ ajemnˇe porovnatelné pouze v rámci stejného systému. Dle mého názoru vˇsak nebylo ovlivnˇen´ı natolik velké, aby se nedalo konstatovat, ˇze program bˇeˇzel rychleji na Linuxu. ˇ bˇehu programu v z´ Cas avislosti na optimalizaci a velikosti hash tabulky Velikost hashovac´ı tabulky 500 1000 1500 5000 Bez optimalizace 0,138 s 0,126 s 0,122 s 0,123 s S optimalizac´ı 0,131 s 0,122 s 0,116 s 0,117 s Tabulka 2: Mˇeˇren´ı ˇcasu bˇehu programu – Linux ˇ bˇehu programu v z´ Cas avislosti na optimalizaci a velikosti hash tabulky Velikost hashovac´ı tabulky 500 1000 1500 5000 Bez optimalizace 0,280 s 0,268 s 0,274 s 0,271 s S optimalizac´ı 0,275 s 0,271 s 0,270 s 0,270 s Tabulka 3: Mˇeˇren´ı ˇcasu bˇehu programu – Windows Program by samozˇrejmˇe mohl b´ yt jeˇstˇe vylepˇsen. Ke kontrole parametr˚ u by ˇslo pˇridat i kontrolu existence samotn´ ych soubor˚ u potˇrebn´ ych pro bˇeh programu (tak, aby program nebyl pˇreruˇsen kv˚ uli tomuto problému uprostˇred uˇcen´ı ˇci klasifikace). Urychlen´ı by mohlo pˇrinést implementov´ an´ı datové struktury jakoˇzto trie za cenu zv´ yˇsené pamˇet’ové nároˇcnosti, coˇz dnes nen´ı ˇz´ adn´ y problém, nebot’ pamˇeti b´ yvá obecnˇe v´ıce neˇz procesorového v´ ykonu. Pokud z˚ ustaneme u hashovac´ı tabulky, bylo by vhodné vymyslet algoritmus, kter´ y by jej´ı velikost vypoˇc´ıtal v z´ avislosti na vstupn´ıch datech a pak ji dynamicky vytváˇrel. Nyn´ı je vytváˇrena staticky s velikost´ı, kter´ a byla optimalizována pro testovac´ı data, ale nemus´ı b´ yt stejnˇe efektivn´ı pro jin´ y (jinak velk´ y) soubor dat. Zrychlen´ı programu by také mohla pˇrinést lepˇs´ı hashovac´ı funkce, kter´ a by rovnomˇernˇeji zaplˇ novala tabulku (ménˇe prázdn´ ych ˇrádk˚ u a ménˇe nebo ˇz´ adné kolize na nˇekter´ ych ˇrádc´ıch). Program u ´spˇeˇsnˇe proˇsel testov´ an´ım pomoc´ı Valgrindu (nebyly detekovány ˇzádné u ńiky pamˇeti) a kontrolou pomoc´ı Splint, kter´ y nakonec nahlásil pouze jedno varován´ı ohlednˇe pouˇz´ıván´ı funkce sprintf a radil nahrazen´ı bezpeˇcnˇejˇs´ı funkc´ı snprintf. Tuto chybu bohuˇzel nebylo moˇzné opravit, nebot’ snprintf nen´ı souˇcást´ı standardu ANSI C. Program byl vˇsak konstruován tak, ˇze by k pˇreteˇcen´ı u funkce sprintf nikdy nemˇelo doj´ıt. 12

Reference [1] Autor: Michal Hrala, Název publikace: Automatick´ a klasifikace dokument˚ u s podobným obsahem. Vydavatel: Z´ apadoˇcesk´ a univerzita v Plzni, Rok: 2012, URI: http://hdl.handle.net/11025/3054 [2] URL: http://bigocheatsheet.com/ Rok: 2014, Poznámka: posledn´ı pˇr´ıstup 21.12.2014 [3] URL: http://en.wikipedia.org/wiki/Trie Rok: 2014, Poznámka: posledn´ı pˇr´ıstup 21.12.2014

13

ne-spam

Recommend Documents