ˇ e vysok´e uˇcen´ı technick´e v Praze Cesk´ Fakulta elektrotechnick´a
Diplomov´a pr´ace
Anal´ yza antropologick´ ych dat metodami v´ ypoˇ cetn´ı inteligence Bc. Jakub Nov´ak
Vedouc´ı pr´ace: Ing. Kord´ık Pavel, Ph.D.
Studijn´ı program: Elektrotechnika a informatika strukturovan´ y magistersk´ y Obor: Informatika a v´ ypoˇcetn´ı technika kvˇeten 2008
ii
Podˇ ekov´ an´ı Chtˇel bych moc podˇekovat Ing. Pavlu Kord´ıkovi, Ph.D. za jeho v´ yborn´e veden´ı m´e pr´ace. Jeho pozitivn´ı pˇr´ıstup a vstˇr´ıcnost, se kterou pˇristupoval k m´ ym dotaz˚ um a probl´em˚ um. iii
iv
Prohl´ aˇ sen´ı Prohlaˇsuji, ˇze jsem svou diplomovou pr´aci vypracoval samostatnˇe a pouˇzil jsem pouze podklady uveden´e v pˇriloˇzen´em seznamu. Nem´am z´avaˇzn´ y d˚ uvod proti uˇzit´ı tohoto ˇskoln´ıho d´ıla ve smyslu §60 Z´akona ˇc. 121/2000 Sb., o pr´avu autorsk´em, o pr´avech souvisej´ıc´ıch s pr´avem autorsk´ ym a o zmˇenˇe nˇekter´ ych z´akon˚ u (autorsk´ y z´akon).
V Praze dne 23.5.2008
.............................................................
v
vi
Abstract A computational intelligence methods are suitable instrument for work with the anthropological data which represents senescence indicators along with other inputs. Based on this information we try to predict the age of skeleton. But this is a very difficult process and obtain high-quality results is complicated. My goal in this diploma thesis is to find and valorize the best methods which can handle well the anthropological data and give us the best results.
Abstrakt Metody v´ ypoˇcetn´ı inteligence jsou vhodn´ ym n´astrojem pro pr´aci s antropologick´ ymi daty, kter´e pˇredstavuj´ı kostern´ı ohled´an´ı spolu s nˇekter´ ymi dalˇs´ımi vstupy, ze kter´ ych se snaˇz´ıme predikovat vˇek zesnul´eho. Proces to vˇsak nen´ı v˚ ubec jednoduch´ y a dostat kvalitn´ı v´ ysledky je pomˇernˇe komplikovan´e. Proto si touto prac´ı kladu za c´ıl nal´ezt a zhodnotit nejvhodnˇejˇs´ı metody, kter´e by umˇely dobˇre zpracovat dan´a antropologick´ a data a podat co nejlepˇs´ı v´ ysledek.
vii
viii
Obsah Seznam obr´ azk˚ u
xi
Seznam tabulek
xiii
´ 1 Uvod
1
2 Metody pro anal´ yzu antropologick´ ych dat 2.1 Z´ısk´av´an´ı znalost´ı z dat . . . . . . . . . . . 2.2 Typy dolovac´ıch u ´loh . . . . . . . . . . . . . 2.2.1 Klasifikace a predikce . . . . . . . . 2.2.2 Shlukov´an´ı . . . . . . . . . . . . . . 2.2.3 Anal´ yza odlehl´ ych objekt˚ u . . . . . 2.2.4 Anal´ yza nalezen´ ych vzor˚ u . . . . . . 2.3 Data . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Antropologick´a data . . . . . . . . . 2.4 Prediktivn´ı metody . . . . . . . . . . . . . . 2.5 Klasifikaˇcn´ı metody . . . . . . . . . . . . . 2.6 Shlukov´e metody . . . . . . . . . . . . . . . 3 Pˇ redzpracov´ an´ı dat - teoretick´ aˇ c´ ast ˇ 3.1 Ciˇstˇen´ı dat . . . . . . . . . . . . . . 3.1.1 Nekompletn´ı data . . . . . . 3.1.2 Zaˇsumˇel´a data . . . . . . . . 3.2 Integrace a transformace dat . . . . 3.3 Redukce dat . . . . . . . . . . . . . . 3.3.1 Poˇcetn´ı redukce . . . . . . . . 3.4 Dalˇs´ı moˇzn´e metody pˇredzpracov´ an´ı
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . .
. . . . . . . . . . .
2 2 2 2 2 2 2 3 3 4 8 12
. . . . . . .
16 16 16 17 17 18 20 21
4 V´ ysledky experiment˚ u 4.1 Prediktivn´ı metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 GMDH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 GAME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Klasifikaˇcn´ı metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 LVQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 RBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Metody shlukov´e anal´ yzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Pˇredzpracovac´ı metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 V´ ysledky jednotliv´ ych metod . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 V´ ysledky experiment˚ u za pouˇzit´ı modulu pro automatick´e pˇredzpracov´ an´ı dat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22 22 22 23 23 24 25 27 30 30 33 34
5 Zhodnocen´ı v´ ysledk˚ u
41
6 Z´ avˇ er
45
7 Literatura
47 ix
38
A Seznam pouˇ zit´ ych zkratek
49
B Obsah pˇ riloˇ zen´ eho CD
51
x
Seznam obr´ azk˚ u 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13
Uk´azka GMDH s´ıtˇe jako ˇcern´e skˇr´ıˇ nky . . . . Struktura s´ıtˇe GMDH . . . . . . . . . . . . . Ukonˇcen´ı uˇcen´ı s´ıtˇe GMDH . . . . . . . . . . Pˇr´ıklad s´ıtˇe GAME . . . . . . . . . . . . . . . Prostor 2D a hraniˇcn´ı pˇr´ımka . . . . . . . . . Model perceptronu jako neuronu . . . . . . . Struktura RBF s´ıtˇe . . . . . . . . . . . . . . . Uk´azka typick´ ych Radial Basis Function . . . Tr´enovan´a RBF . . . . . . . . . . . . . . . . . Struktura neuron˚ u Kohonenovy mapy . . . . SOM - moˇzn´e struktury uspoˇr´ ad´ an´ı neuron˚ u. SOM - pˇr´ıklad adaptace vah neuronu . . . . . U-matice pro s´ıt’ 10 x 10 . . . . . . . . . . . .
. . . . . . . . . . . . .
5 5 7 8 9 9 10 11 12 13 14 15 15
3.1 3.2
Pˇr´ıklad rozdˇelen´ı do shluk˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metody v´ ybˇeru podmnoˇziny atribut˚ u. . . . . . . . . . . . . . . . . . . . . . . .
18 19
4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11
V´ ysledn´ y GMDH model v KnowledgeMiner softwaru . . . . . . . . LVQ - celkov´ y pˇrehled u ´spˇeˇsnosti ohodnocen´ı . . . . . . . . . . . . Rozptyl u ´spˇeˇsnosti klasifikace pomoc´ı automaticky generovan´e s´ıtˇe Rozptyl u ´spˇeˇsnosti klasifikace pomoc´ı minim´aln´ı s´ıtˇe . . . . . . . . 2D prostor vstupn´ıch vektor˚ u obsahuj´ıc´ı dva shluky . . . . . . . . . RBF - spr´avnˇe zaˇrazen´e vzorky pro n=4 a σ = 0,775 . . . . . . . . SOM - vliv pohlav´ı na predikci . . . . . . . . . . . . . . . . . . . . SOM - rozdˇelen´ı podle n´arodnosti . . . . . . . . . . . . . . . . . . . SOM - rozdˇelen´ı podle kontinentu . . . . . . . . . . . . . . . . . . . SOM - v´ ysledn´e ”shluky” koster podle st´aˇr´ı . . . . . . . . . . . . . Uk´azka programu GAME spolu s pˇredzpracovac´ım dialogem . . . .
. . . . . . . . . . .
22 25 27 28 29 30 31 31 32 33 34
5.1 5.2 5.3
Uk´azka grafu tr´enovac´ıch dat pomoc´ı 2D regrese . . . . . . . . . . . . . . . . . Rozptyl v´ ysledn´ ych hodnot MAPD - vybran´e PM metody . . . . . . . . . . . . Rozptyl v´ ysledn´ ych hodnot MMVI . . . . . . . . . . . . . . . . . . . . . . . . .
43 44 45
xi
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . .
xii
Seznam tabulek 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18 4.19
GMDH vˇekov´a regrese . . . . . . . . . . . . . . . . . . . . . . . V´ ysledky GMDH a GAME . . . . . . . . . . . . . . . . . . . . Parametry s´ıtˇe LVQ1 . . . . . . . . . . . . . . . . . . . . . . . . LVQ1 - procentu´aln´ı u ´spˇeˇsnost klasifikace . . . . . . . . . . . . Parametry automaticky generovan´e s´ıtˇe . . . . . . . . . . . . . Parametry minim´aln´ı s´ıtˇe . . . . . . . . . . . . . . . . . . . . . Pr˚ umˇern´a u ´spˇeˇsnost klasifikace na automaticky generovan´e s´ıti Pr˚ umˇern´a u ´spˇeˇsnost klasifikace na minim´aln´ı s´ıti . . . . . . . . Zastoupen´ı ve vˇekov´ ych tˇr´ıd´ ach . . . . . . . . . . . . . . . . . . Zastoupen´ı ˇzen Evropanek . . . . . . . . . . . . . . . . . . . . . RBF - nejlepˇs´ı v´ ysledky pro n=4 a σ = 0,775 . . . . . . . . . . Pˇrepoˇc´ıt´any v´ ysledky GMDH a GAME . . . . . . . . . . . . . V´ ysledek pˇredzpracovac´ıch metod - All units, 1N . . . . . . . . V´ ysledek pˇredzpracovac´ıch metod - All units, ensemble (3N) . . V´ ysledek pˇredzpracovac´ıch metod - linear, 1N . . . . . . . . . . V´ ysledek pˇredzpracovac´ıch metod - linear, ensemble (3N) . . . V´ ysledky ˇc.1 - modulu pro automatick´e pˇredzpracov´ an´ı dat . . Pr˚ umˇern´e hodnoty z tabulek 4.13 aˇz 4.16 . . . . . . . . . . . . V´ ysledky ˇc.2 - modulu pro automatick´e pˇredzpracov´ an´ı dat . .
. . . . . . . . . . . . . . . . . . .
23 23 24 25 26 26 26 27 28 29 29 35 36 36 36 37 39 40 40
5.1 5.2 5.3
Porovn´an´ı v´ ysledk˚ u klasifikaˇcn´ıch metod - tuˇcnˇe nejlepˇs´ı v´ ysledek . . . . . . . . Vybran´e v´ ysledky algoritm˚ u GAME a GMDH - chyba RMS . . . . . . . . . . . Vybran´e nejlepˇs´ı pˇredzpracovac´ı metody . . . . . . . . . . . . . . . . . . . . . .
41 42 42
xiii
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
xiv
´ KAPITOLA 1. UVOD
1
´ 1 Uvod V t´eto diplomov´e pr´aci se zamˇeˇruji na r˚ uzn´e metody v´ ypoˇcetn´ı inteligence k nasazen´ı pro dolov´an´ı znalost´ı z dat (tzv. data mining). Zkoum´ am jejich vyuˇzit´ı, kvalitu v´ ysledn´ ych dat, kter´e n´am mohou poskytnout a jejich nasazen´ı na re´aln´ ych datech. Pro experimenty se vˇsemi metodami vyuˇz´ıv´am antropologick´a data. Z nich se snaˇz´ım z´ıskat co nejlepˇs´ı hodnoty za pouˇzit´ı r˚ uzn´ ych metod neuronov´ ych s´ıt´ı. Experimentuji s r˚ uzn´ ymi pˇredzpracovac´ımi metodami, tak aby n´am poskytly co nejlepˇs´ı u ´pravu pˇredloˇzen´ ych dat a t´ım se pokusily pomoci k dosaˇzen´ı jeˇstˇe lepˇs´ıho v´ ysledku. S t´ımto c´ılem tak´e testuji modul pro automatick´e pˇredzpracov´ an´ı dat, implementovan´ y do programu GAME, jehoˇz v´ ysledky pot´e porovn´av´am s ostatn´ımi metodami. Mou snahou bylo tak´e shrom´aˇzdit a porovnat v´ ysledky, kter´e vznikly v r´amci r˚ uzn´ ych prac´ı, a vybrat z nich ty nejvhodnˇejˇs´ı pro pr´aci s antropologick´ ymi daty. K t´eto pr´aci mˇe motivovalo nav´azat na v´ yzkum, kter´ y jsem prov´ adˇel v r´amci sv´e bakal´aˇrsk´e pr´ace, kter´a byla tak´e zaloˇzen´a na antropologick´ ych datech a neuronov´ ych s´ıt´ıch. Proto moˇznost pokraˇcovat v t´eto problematice a pokusit se posunout v´ ysledky v t´eto oblasti d´ale, mˇe pˇriˇslo velice l´akav´e. Pokusit se vylepˇsit pˇresnost predikce st´aˇr´ı kostern´ıch poz˚ ustatk˚ u, zmapovat pouˇzit´ı jin´ ych technologi´ı a pˇredzpracovac´ıch metod. Tato pr´ace se dˇel´ı do nˇekolika kapitol. Prvn´ı z nich je Metody pro anal´ yzu antropologick´ ych dat (AD). Zde teoreticky popisuji metody, kter´e jsou vhodn´e pro pr´aci s AD, jak funguj´ı a jak´ ych v´ ystup˚ u z nich m˚ uˇzeme dos´ahnout. V druh´e kapitole popisuji r˚ uzn´e metody u ´pravy dat. Co je moˇzn´e s daty udˇelat, aby poskytovaly co nejlepˇs´ı vypov´ıdac´ı hodnotu. Za t´ımto u ´ˇcelem, ˇze m˚ uˇzeme data r˚ uzn´ ymi zp˚ usoby upravovat, redukovat a ˇcistit, k ˇcemuˇz n´am dopom´ahaj´ı pˇredzpracovac´ı metody. V dalˇs´ı kapitole popisuji experimenty, kter´e byly s AD provedeny. Jak´ ych prostˇredk˚ u a metod k nim bylo pouˇzito a jak´e v´ ysledky n´am poskytly. N´asleduje kapitola, kde shrnuji dosaˇzen´e v´ ysledky a porovn´ av´ am je mezi sebou. T´ım se snaˇz´ım nal´ezt nejlepˇs´ı metody a ty doporuˇcit pro pr´aci s AD. Posledn´ı kapitolou je z´avˇer. Ta uzav´ır´ a mou diplomovou pr´aci a hodnot´ı, k jak´ ym v´ ysledk˚ um jsem dospˇel.
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
2
2 Metody pro anal´ yzu antropologick´ ych dat 2.1
Z´ısk´ av´ an´ı znalost´ı z dat
Metody v´ ypoˇcetn´ı inteligence pro z´ısk´av´ an´ı znalost´ı z dat jsou vhodn´ ym n´astrojem pro odhalov´an´ı pˇredem skryt´ ych vztah˚ u mezi daty. Hlavn´ı techniky pouˇz´ıvan´e pˇri vytˇeˇzov´ an´ı dat jsou regrese, klasifikace a shlukov´an´ı. Pomoc´ı tˇechto technik m˚ uˇzeme z antropologick´ ych dat z´ıskat poˇzadovan´e informace. Na z´akladˇe vstupn´ıch dat m˚ uˇzeme pomoc´ı regrese predikovat v´ ystup, ˇc´ımˇz je st´aˇr´ı kostry. V podstatˇe jde o to, ˇze si vezme soubor dat a pomoc´ı matematick´eho vzorce se tyto data pop´ıˇs´ı. T´ım vznikne urˇcit´ y model, kter´ y popisuje dan´e data.
2.2
Typy dolovac´ıch u ´ loh
ˇ ´ Rada metod pouˇz´ıvan´ ych v problematice z´ısk´ av´ an´ı znalost´ı vych´ az´ı z umˇel´e inteligence. Ulohy se rozdˇeluj´ı na 2 typy: deskriptivn´ı a prediktivn´ı. Deskriptivn´ı funkce charakterizuj´ı a popisuj´ı data podle jejich vlastnost´ı. Prediktivn´ı funkce pracuj´ı tak, ˇze na z´akladˇe tr´enovac´ıch dat jsou schopny pˇredpovˇedˇet vlastnosti dat novˇe pˇr´ıchoz´ıch. 2.2.1
Klasifikace a predikce
Jedn´a se o prediktivn´ı dolovac´ı u ´lohy. C´ılem klasifikace je nalezen´ı pravidel, kter´a rozliˇsuj´ı a z´aroveˇ n popisuj´ı tˇr´ıdy dat. Tato pravidla se pak pouˇzij´ı k predikci tˇr´ıdy objektu, jehoˇz zaˇrazen´ı nezn´ame. Model je sestavov´an pomoc´ı podm´ınkov´ ych pravidel, rozhodovac´ıch strom˚ u nebo jin´ ych prostˇredk˚ u. Proces klasifikace se sest´av´ a ze tˇr´ı krok˚ u: 1. Tr´ enov´ an´ı – na z´akladˇe tr´enovac´ı mnoˇziny je vytvoˇren model pro klasifikaci. Tato f´aze se oznaˇcuje tak´e jako uˇcen´ı. 2. Testov´ an´ı – ovˇeˇren´ı kvality modelu testov´ an´ım pomoc´ı testovac´ı mnoˇziny. 3. Aplikace – pouˇzit´ı modelu ke klasifikaci dat, jejichˇz tˇr´ıdu nezn´ame. Klasifikace se pouˇz´ıv´ a k predikci diskr´etn´ıch tˇr´ıd. Oproti tomu predikce pˇredpov´ıd´ a hodnoty spojit´ ych atribut˚ u. V tomto pˇr´ıpadˇe pˇredpov´ıd´ame numerickou nedostupnou hodnotu. Nejˇcastˇejˇs´ı metodou predikce je regresn´ı anal´ yza. V pˇr´ıpadˇe antropologick´ ych dat jde o predikci vˇeku kostry. 2.2.2
Shlukov´ an´ı
Shlukov´a anal´ yza (Cluster Analysis) na rozd´ıl od klasifikace a predikce analyzuje objekty bez znalosti pˇriˇrazen´ı do tˇr´ıd. C´ılem je nal´ezt tˇr´ıdy objekt˚ u, kter´e maj´ı co nejv´ıce spoleˇcn´eho tak, aby se objekty r˚ uzn´ ych tˇr´ıd co nejv´ıce liˇsily. Nalezen´e tˇr´ıdy maj´ı podobu tzv. shluk˚ u. 2.2.3
Anal´ yza odlehl´ ych objekt˚ u
Jde o nalezen´ı objekt˚ u, kter´e se nˇejak´ ym zp˚ usobem v´ yznamnˇe odliˇsuj´ı od ostatn´ıch. Takov´e datov´e objekty se naz´ yvaj´ı odlehl´e (outlier). Tato anal´ yza m˚ uˇze napˇr´ıklad v praxi odhalit podvodn´e zneuˇzit´ı kreditn´ıch karet, extr´emnˇe velk´e nebo podezˇrel´e n´akupy. U antropologick´ ych dat jde o nalezen´ı tzv. ”ustˇrelen´ ych” hodnot a ty pro modelov´ an´ı nepouˇz´ıvat, protoˇze zan´aˇs´ı chybu do predikce st´aˇr´ı. 2.2.4
Anal´ yza nalezen´ ych vzor˚ u
Syst´em pro z´ısk´av´an´ı znalost´ı z dat je schopen generovat obrovsk´e mnoˇzstv´ı vzor˚ u nebo pravidel. Vznik´a tak d˚ uleˇzit´a ot´azka zaj´ımavosti nalezen´ ych vzor˚ u. V praxi je zaj´ımav´ a pro koncov´eho
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
3
uˇzivatele pouze mal´a ˇc´ast. Zaj´ımav´e vzory nebo pravidla pak pˇredstavuj´ı znalost. Aby byl vydolovan´ y vzor pro uˇzivatele zaj´ımav´ y, mus´ı m´ıt 4 z´akladn´ı vlastnosti, kter´e urˇcuj´ı m´ıru zaj´ımavosti: • Srozumitelnost – vzor mus´ı b´ yt srozumiteln´ y pro ˇclovˇeka • Platnost – pro nov´a nebo testovac´ı data • Uˇ ziteˇ cnost – vzor mus´ı m´ıt re´alnou uˇziteˇcnost • Novost – pˇrin´aˇs´ı nov´e poznatky Uˇziteˇcn´ ym vzorem m˚ uˇze b´ yt i vzor, kter´ y validuje hypot´ezu, kterou se snaˇz´ı uˇzivatel potvrdit. Pro urˇcen´ı m´ıry zaj´ımavosti existuj´ı objektivn´ı a subjektivn´ı metody. Objektivn´ı metody jsou zaloˇzeny na struktuˇre objevovan´ ych vzor˚ u a statistick´ ych u ´daj´ıch k nim vztaˇzen´ ych. Mezi tyto metody patˇr´ı dˇr´ıve zm´ınˇen´e frekventovan´e vzory a asociaˇcn´ı pravidla (m´ıra podpory a spolehlivosti). Subjektivn´ı m´ıry by mˇely doplˇ novat objektivn´ı, kter´e samy o sobˇe nejsou dostateˇcn´ ym krit´eriem pro vyhodnocen´ı zaj´ımavosti. Mezi takov´ a krit´eria patˇr´ı napˇr. novost, neoˇcek´ avanost apod.
2.3
Data
Pro z´ısk´an´ı kvalitn´ıho v´ ysledku mohou b´ yt limituj´ıc´ı data sama. Je d˚ uleˇzit´e rozhodnout kter´a data (vstupy) jsou d˚ uleˇzit´e a kter´e m´enˇe, pro v´ ysledek, kter´eho se snaˇz´ıme dos´ahnout. Ne vˇsechny informace jsou vhodn´e pro vytˇeˇzov´ an´ı dat. Je zapotˇreb´ı porozumˇet struktuˇre, pokryt´ı ˇ a kvalitˇe dan´ ych dat. Casto je tak´e zapotˇreb´ı pˇredzpracovat dan´a data, abychom z nich odstranili informace, kter´e nejsou pro n´ami poˇzadovan´ y model potˇrebn´ a nebo dokonce jsou zav´ adˇej´ıc´ı a smˇeˇruj´ı k ˇspatn´ ym v´ ysledk˚ um. Takov´ ym dat˚ um ˇr´ık´ ame zaˇsumˇel´ a. Pomoc´ı pˇredzpracovac´ıch metod se snaˇz´ıme takov´ ymto zav´adˇej´ıc´ım hodnot´am pˇrech´ azet a eliminovat je. Bylo vyvinuto mnoho technik pro z´ısk´ av´ an´ı znalost´ı z dat. Pro predikci biologick´eho st´aˇr´ı ˇclovˇeka z jeho kostern´ıch poz˚ ustatk˚ u na antropologick´ ych datech se hod´ı nejv´ıce regresivn´ı modelov´an´ı. Protoˇze na tr´enovac´ıch datech se vytvoˇr´ı model popisuj´ıc´ı jednotliv´e vztahy mezi promˇenn´ ymi (neuronov´a s´ıt’) a pomoc´ı n´ı na testovac´ıch datech se d´a predikovat st´aˇr´ı kostry. Jednak m˚ uˇzeme urˇcovat st´aˇr´ı kostry pˇr´ımo nebo si stanovit urˇcit´e vˇekov´e skupiny a st´aˇr´ı dan´e kostry urˇcovat podle toho do kter´e skupiny spad´a - klasifikace. Pro urˇcov´an´ı vˇeku koster se jako vhodn´e jev´ı metody line´arn´ı regrese a to GMDH (Group Method of Data Handling) a GAME (Group of Adaptive Models Evolution). D´ıky nim m˚ uˇzeme odhadovat vˇek koster. Dalˇs´ımi metodami jsou LVQ (Learning Vector Quantization), Perceptron - technick´ y model organick´e nervov´e s´ıtˇe a nebo RBF (Radial Basis Function). Tyto metody jsou vhodn´e pro klasifikaci do vˇekov´ ych tˇr´ıd. A tˇret´ı zaj´ımavou skupinou pro pr´aci s AD jsou metody shlukov´e anal´ yzy. Do tˇech spadaj´ı mapy SOM - Self-Organizing Map. Jednotliv´e metody budou pops´any d´ale v pr´aci spolu s v´ ysledky experiment˚ u. 2.3.1
Antropologick´ a data
Stˇeˇzejn´ım prvkem o kter´ y se op´ır´a tato diplomov´ a pr´ace jsou pouˇzit´e antropologick´e data. Ty naˇse ˇskola z´ıskala za spolupr´ace s Universit´e Bordeaux, pˇresnˇeji ve spolupr´aci s Jaroslavem Br˚ uˇzkem, kter´ y dan´e data poskytnul. Ty jsou posb´ır´ any z muze´ı cel´eho svˇeta. Obsahuj´ı r˚ uzn´e pˇr´ıznaky opotˇreben´ı kost´ı, ke kter´ ym doch´ az´ı pˇri st´arnut´ı. Podle tˇechto ohled´an´ı se snaˇz´ıme predikovat vˇek kostry. Bohuˇzel jak se uk´azalo, tak jsou tyto data velmi zaˇsumˇel´ a a predikce
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
4
nen´ı pˇr´ıliˇs pˇresn´a, jak bude vidˇet d´ale ve v´ ysledc´ıch experiment˚ u. Data reprezentuj´ı mnoˇzinu hodnot, kter´ ymi je ohodnocena lidsk´a kostra pro u ´ˇcely odhadu st´aˇr´ı z lidsk´eho skeletonu (Schmitt, 2001; Schmitt et al., 2002). Jde o vizu´aln´ı ohodnocen´ı morfologick´ ych zmˇen povrchu dvou kost´ı p´anevn´ıch. Vzorek je sebr´an z 955 koster, u kter´ ych je zn´amo pohlav´ı a vˇek. Tato kolekce obsahuje data: • Kontinent: Europe, Africa, North America, Asia. • N´ arodnost: Portugal, Africaner, ZULU, USAW, Spain, Suisse, SOTO, Thailand, USAB. • Pohlav´ı: Female, Male. ˇ ıseln´ • C´ e parametry: PUSA, PUSB, PUSC, SSPIA, SSPIB, SSPIC, SSPID. Vˇek zesnul´ ych se pohybuje mezi 19 a 100 lety. Vstupn´ı data obsahuj´ı informace identifikaˇcn´ı ˇc´ıslo kostry, kter´e ale nen´ı pro predikci d˚ uleˇzit´e. D´ale data popsan´a v´ yˇse, z nichˇz nejd˚ uleˇzitˇejˇs´ımi faktory jsou: 3 vstupy jsou ohled´an´ı spony stydk´e na p´anvi: • Zadn´ı plot´enka (PUSA) ohodnocena na stupnici (1-2-3) • Pˇredn´ı plot´enka (PUSB) ohodnocena na stupnici (1-2-3) • Zadn´ı hˇrbet (PUSC) ohodnocena na stupnici (1-2) 4 pozorov´an´ı sacropelvic povrchu ilia: • Pˇr´ıˇcn´e uloˇzen´ı (SSPIA) ohodnocen´ı (1-2) • Zmˇeny na povrchu kloubu (SSPIB) hodnocen´ı (1-2-3-4) • Zmˇeny na hrotu kosti (SSPIC) hodnocen´ı (1-2) • Zmˇeny na iliu tuberosity (SSPID) hodnocen´ı (1-2) A jako posledn´ı informac´ı, a to v´ ystupn´ı, je st´aˇr´ı kostry. Ten slouˇz´ı k nauˇcen´ı neuronov´e s´ıtˇe v pr˚ ubˇehu f´aze tr´enov´an´ı a ve f´azi testov´ an´ı se pokouˇs´ıme tuto hodnotu predikovat, popˇr´ıpadˇe klasifikovat. Nakonec jsou jeˇstˇe data rozdˇelily do dvou mnoˇzin a to do tr´enovac´ı, kter´a obsahuje 639 vzork˚ u a testovac´ı, ˇc´ıtaj´ıc´ı 319 vzork˚ u.
2.4
Prediktivn´ı metody
GMDH Neuronov´e s´ıtˇe typu GMDH jsou polynomi´aln´ı s´ıtˇe. Lze je pouˇz´ıt napˇr´ıklad pro predikce (bankovnictv´ı, pˇredpov´ıd´an´ı poˇcas´ı), ale napˇr´ıklad tak´e pro rozpozn´av´ an´ı. S´ıtˇe se uplatn´ı vˇsude tam, kde si ˇreˇsen´ y probl´em lze pˇredstavit jako ”ˇcernou skˇr´ıˇ nku” maj´ıc´ı nˇekolik nez´avisl´ ych ´ vstup˚ u a jeden v´ ystup. Ukolem s´ıtˇe je naj´ıt hodnotu v´ ystupu v z´avislosti na nˇejak´e kombinaci vstup˚ u. Idea s´ıtˇe GMDH spoˇc´ıv´a v nalezen´ı analytick´eho vyj´adˇren´ı (funkce), kter´e bude pracovat takov´ ym zp˚ usobem, ˇze s´ıt´ı predikovan´ a hodnota v´ ystupu bude co nejvˇerohodnˇeji vyjadˇrovat skuteˇcnou hodnotu. Tuto funkci hled´ame postupnˇe pˇri uˇcen´ı s´ıtˇe pomoc´ı uˇc´ıc´ı mnoˇziny. Autorem s´ıtˇe GMDH je DrSc. Alexey Grigorievich Ivakhnenko.
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
5
Obr´azek 2.1: Uk´azka GMDH s´ıtˇe jako ˇcern´e skˇr´ıˇ nky
S´ıtˇe typu GMDH jsou s´ıtˇe polynomi´aln´ıho typu ”s uˇcitelem”. Uˇcitel zde spoˇc´ıv´ a v tom, ˇze s´ıti pˇri uˇcen´ı pˇredkl´ad´ame dvojice vstupn´ı vektor - poˇ zadovan´ a hodnota. Jejich z´akladn´ı ˇcinnost spoˇc´ıv´a v aproximaci funkc´ı f : A ⊂ Rn ⇒ R, coˇz demonstruje obr´azek 2.1. Z obr´azku je patrn´e, ˇze s´ıt’ m´a n vstup˚ u (X1 − Xn) a jeden v´ ystup (Y ). Horn´ı mez poˇctu vstup˚ u neexistuje, pouze ovlivˇ nuje n´aroky na v´ ypoˇcetn´ı prostˇredky, kter´e mus´ıme vynaloˇzit. Pokud budeme cht´ıt vyuˇz´ıt vˇsech vlastnost´ı GMDH, je minim´aln´ı poˇcet vstup˚ u 3. Hlavn´ı nasazen´ı s´ıtˇe je v oblastech, kde je potˇreba aproximace funkc´ı. Po u ´pravˇe lze s´ıt’ pouˇz´ıt napˇr´ıklad pro predikce, ˇci klasifikace. Coˇz se pr´avˇe hod´ı k urˇcov´ an´ı vˇeku v antropologick´ ych datech. Struktura neuronov´e s´ıtˇe, ze kter´e tak´e vych´ az´ı princip GMDH, lze vidˇet na obr´azku 2.2:
Obr´azek 2.2: Struktura s´ıtˇe GMDH Jak jiˇz bylo ˇreˇceno v´ yˇse, ˇcinnost s´ıtˇe spoˇc´ıv´ a v aproximaci funkc´ı f : A ⊂ Rn ⇒ R. Funkce mapuj´ı podmnoˇzinu n-rozmˇern´eho Euclidovsk´eho prostoru do mnoˇziny re´aln´ ych ˇc´ısel. Pˇr´ıklad na obr´azku 2.2 m´a 4 vstupy (sloˇzky vstupn´ıho vektoru X1 −Xn ) a jeden v´ ystup y 0 , coˇz je odhad funkce y = f (X). Na obr´azku si lze vˇsimnout toho, ˇze s´ıt’ se skl´ad´ a z jednotliv´ ych vrstev, kaˇzd´ a vrstva je sloˇzena z prvk˚ u (neuron˚ u). Vrstvy m˚ uˇzeme rozdˇelit na 3 kategorie: • vstupn´ı - slouˇz´ı k distribuci sloˇzek vstupn´ıho vektoru do s´ıtˇe, konkr´etnˇe do prvn´ı skryt´e vrstvy. Obsahuje tolik neuron˚ u, kolik je prvk˚ u vstupn´ıho vektoru; • v´ ystupn´ı - pokud pˇri procesu uˇcen´ı dospˇejeme do stavu, kdy v´ ystup s´ıtˇe splˇ nuje naˇse krit´eria, posledn´ı vrstvu prohl´as´ıme za v´ ystupn´ı a ukonˇc´ıme tvorbu s´ıtˇe. Neuron, kter´ y d´av´a nejlepˇs´ı v´ ysledky v z´avislosti na testovac´ıch datech, prohl´as´ıme za v´ ystup s´ıtˇe; • skryt´ e - vrstvy, kter´e jsou mezi vstupn´ı a v´ ystupn´ı vrstvou. S´ıt’ GMDH by mˇela m´ıt
6
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT pro svou spr´avnou funkci alespoˇ n jednu skrytou vrstvu. Maxim´aln´ı poˇcet skryt´ ych vrstev nen´ı nijak omezen.
Vstupn´ı vrstva nen´ı pro funkci s´ıtˇe nijak v´ yznamn´ a, slouˇz´ı pouze pro distribuci jednotliv´ ych sloˇzek vstupn´ıho vektoru do dalˇs´ıch vrstev (na vstupn´ı vrstvu navazuje prvn´ı skryt´a vrstva, na prvn´ı skrytou druh´a skryt´a atd.). Skryt´e vrstvy obsahuj´ı v´ ykonn´e prvky s´ıtˇe (neurony). V´ ystupn´ı vrstva obsahuje pouze jeden neuron, kter´ y z´aroveˇ n tvoˇr´ı v´ ystup cel´e s´ıtˇe. Vlastn´ı chov´an´ı s´ıtˇe je zaloˇzeno na principu dopˇredn´eho ˇs´ıˇren´ı (v pˇr´ıpadˇe obr´azku 2.2 zleva doprava). Na jednotliv´e vstupy s´ıtˇe (vstupy neuron˚ u vstupn´ı vrstvy) pˇriloˇz´ıme hodnoty vstupn´ıho vektoru, kter´e jsou vstupn´ı vrstvou distribuov´ any do prvn´ı skryt´e vrstvy, kde jsou provedeny pˇr´ısluˇsn´e kombinace. V´ ystup prvn´ı skryt´e vrstvy je d´ale distribuov´ an na vstupy druh´e skryt´e vrstvy a tak d´ale. Posledn´ı vrstvou je vrstva v´ ystupn´ı, kter´a obsahuje pouze jeden neuron (jeden v´ ystupn´ı neuron nen´ı pravidlem, v nˇekter´ ych modifikac´ıch GMDH jich m˚ uˇze b´ yt i v´ıce). Jej´ım v´ ystupem je re´aln´e ˇc´ıslo y, kter´e je souˇcasnˇe v´ ystupem cel´e s´ıtˇe. Poˇcet skryt´ ych vrstev nen´ı omezen a nen´ı pˇredem urˇcen. Vypl´ yv´a ze sloˇzitosti ˇreˇsen´eho probl´emu a poˇzadavk˚ u kladen´ ych na pˇresnost v´ ystupu. Na obr´azku 2.2 si lze vˇsimnout, ˇze mezi neurony jednotliv´ ych vrstev neexistuje u ´pln´e propojen´ı. D´ale si vˇsimnˇeme, ˇze kaˇzd´ y neuron (vyjma neuron˚ u vstupn´ı vrstvy) m´a pr´avˇe dva vstupy a jeden v´ ystup (v´ ystup se mnohaˇcetnˇe distribuuje do neuron˚ u dalˇs´ıch vrstev). Z toho plynou jist´a omezen´ı pro minim´aln´ı poˇcet vstup˚ u. S´ıt’ s jedn´ım vstupem vytvoˇrit nejde a ani to nem´a smysl. S´ıt’ se dvˇema vstupy neobsahuje ˇz´adn´e skryt´e vrstvy - vznikl´a s´ıt’ je jin´eho charakteru. Pokud chceme vytvoˇrit s´ıt’, kter´a bude m´ıt vˇsechny vlastnosti GMDH jsme omezeni minim´aln´ım poˇctem vstup˚ u 3. S´ıt’ GMDH se od ostatn´ıch s´ıt´ı liˇs´ı pˇredevˇs´ım t´ım, ˇze doch´ az´ı ke splynut´ı procesu uˇcen´ı a tvorby s´ıtˇe. Na poˇc´atku nen´ı d´ana ani struktura s´ıtˇe, ani poˇcet neuron˚ u. Zn´ame pouze poˇcet sloˇzek vstupn´ıho vektoru → vytvoˇr´ıme vstupn´ı vrstvu s odpov´ıdaj´ıc´ım poˇctem neuron˚ u. Na t´eto vrstvˇe postupnˇe procesem uˇcen´ı vyr˚ ustaj´ı dalˇs´ı a dalˇs´ı vrstvy, dokud nen´ı splnˇen poˇzadavek na v´ ystup s´ıtˇe. Algoritmus tvorby jednotliv´ ych vrstev je st´ale stejn´ y. Kaˇzd´ a novˇe vytvoˇren´ a vrstva se vˇzdy samostatnˇe zadaptuje a zmraz´ı (bˇehem dalˇs´ıho uˇcen´ı se jiˇz jej´ı parametry nemˇen´ı a tato vrstva slouˇz´ı pouze k distribuci sign´alu). Na t´eto vrstvˇe posl´eze stav´ıme stejn´ ym zp˚ usobem ’ dalˇs´ı vrstvu a cel´ y postup opakujeme, dokud s´ıt nesplˇ nuje poˇzadavky, kter´e na n´ı klademe. Pokud doraz´ıme do tohoto bodu, tvorbu s´ıtˇe zastav´ıme. Ukonˇcen´ı v´ ypoˇctu nastane, jakmile s´ıt’ splˇ nuje poˇzadavky na ”pˇresnost” v´ ystupu. Postupujeme tak, ˇze v kaˇzd´em uˇc´ıc´ım kroku (po pˇrid´an´ı nov´e vrstvy a vyˇc´ıslen´ı koeficient˚ u) otestujeme, zda jsme jiˇz nedos´ahli poˇzadovanou hodnotu a zda bychom pr´avˇe v tomto kroku nemˇeli tvorbu s´ıtˇe ukonˇcit. Pr˚ ubˇeh stˇredn´ı kvadratick´e chyby v z´avislosti na poˇctu skryt´ ych vrstev ukazuje obr´azek 2.3. Na nˇem si m˚ uˇzeme vˇsimnout toho, ˇze s poˇctem vrstev se v´ ysledn´ a chyba s´ıtˇe zmenˇsuje. Jakmile ale dos´ahne minima, zaˇc´ın´a se opˇet zvˇetˇsovat. My mus´ıme toto glob´aln´ı minimum naj´ıt a ukonˇcit zde tvorbu s´ıtˇe. Tvorbu s´ıtˇe tedy m˚ uˇzeme ukonˇcit: • v okamˇziku, kdy dos´ ahneme glob´ aln´ıho minima • v okamˇziku, kdy s´ıt’ dos´ ahne lepˇ s´ıho v´ ystupu neˇ z poˇ zadujeme Zde je tˇreba si uvˇedomit, ˇze je pˇri uˇcen´ı tˇreba obej´ıt m´ısta lok´aln´ıho minima. Lze to prov´est napˇr´ıklad tak, ˇze pˇredpokl´ad´ame, ˇze nalezen´e m´ısto je glob´aln´ım minimem, ale pokraˇcujeme
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
7
Obr´azek 2.3: Ukonˇcen´ı uˇcen´ı s´ıtˇe GMDH
v pˇrid´an´ı jeˇstˇe nˇekolika vrstev. Podle v´ yvoje chyby se bud’ vr´ at´ıme do p˚ uvodn´ıho m´ısta, nebo pokraˇcujeme d´al. Posledn´ı vrstvu oznaˇc´ıme za v´ ystupn´ı vrstvu. Neuron s nejlepˇs´ım v´ ystupem v t´eto vrstvˇe oznaˇc´ıme jako v´ ystupn´ı neuron cel´e s´ıtˇe. Odstran´ıme ostatn´ı neurony, kter´e neovlivˇ nuj´ı v´ ystup s´ıtˇe. T´ım je s´ıt’ nauˇcena a m´ame model postihuj´ıc´ı pˇredloˇzen´ a data. Ten pot´e m˚ uˇzeme aplikovat na testovac´ı data. [GMDH web]
GAME Dalˇs´ı metodou vhodnou pro pouˇzit´ı na antropologick´ ych datech je GAME (Group of Adaptive Models Evolution). Jedn´a se v podstatˇe o vylepˇsenou variantu GMDH, ze kter´e tak´e vych´ az´ı. ’ Pˇr´ıklad tvorby s´ıtˇe GAME je vidˇet na obr´azku 2.4. Z nˇej je patrn´e, ˇze se s´ıt vytv´aˇr´ı vrstvu po vrstvˇe v pr˚ ubˇehu procesu uˇcen´ı z jednotek, kter´e pˇren´ aˇsej´ı informace dopˇrednˇe ze vstup˚ u na v´ ystup. S´ıt’ se tak postupnˇe rozr˚ ust´ a a uˇc´ı. Genetick´ y algoritmus mus´ı v kaˇzd´e vrstvˇe vybrat vhodn´e jednotky, kter´e budou pouˇzity d´ale pro vytvoˇren´ı modelu. V´ıce informac´ı o tomto moˇ delov´an´ı lze naj´ıt v [Kord´ık, 05], podle [Kord´ık, Snorek, 05]. GAME m˚ uˇze vytv´aˇret modely pro klasifikaci, predikci, identifikaci a regresi. Topologie GAME model˚ u se pˇrizp˚ usobuje povaze skryt´ ych dat. Metoda je odoln´a v˚ uˇci neplatn´ ym nebo redundantn´ım poloˇzk´am, vhodn´a pro kr´atk´e a zaˇsumˇel´e vzorky. V GAME rostou jednotky z minim´aln´ı formy, poˇcet vstup˚ u je minim´alnˇe jeden a shora omezen poˇrad´ım skryt´e vrstvy, ve kter´e jednotka je. Vstupy jednotek jiˇz nejsou pouze z pˇr´ım´e pˇredchoz´ı vrstvy. Mohou b´ yt pˇripojeny na vstup jak´ekoli jednotky z pˇredchoz´ıch vrstev, stejnˇe tak k libovoln´emu vstupu modelu. Za pouˇzit´ı s´ıtˇe GAME byla vyuˇzita tzv. ensemble technika. Ta je zaloˇzena na tom, ˇze koneˇcn´e mnoˇzstv´ı model˚ u neuronov´ ych s´ıt´ı nauˇc´ıme na stejn´e u ´loze. A kdyˇz d´ame dohromady vˇsechny tyto modely, tak spolu popisuj´ı dan´ y probl´em (data) daleko l´epe neˇz kaˇzd´ y model s´am. Vyuˇz´ıv´ a se dvou pˇr´ıstup˚ u a to bud’ tzv. bagging nebo boosting. Bagging neboli jak´esi pytlov´an´ı ˇci s´aˇckov´an´ı pˇredstavuje postup, kdy jsou jedny tr´enovac´ı data rozdˇeleny na v´ıce soubor˚ u a z nich jsou pot´e tr´enov´any jednotliv´e modely. GAME s´ıtˇe pouˇz´ıvan´e programem GAME pouˇz´ıvaj´ı pˇresnˇe takov´ y pˇr´ıstup, pˇri pouˇzit´ı ensemble techniky.
8
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT input variables
P
P
L
C
C
3 inputs P max
G second layer
P
P
first layer
C
third layer
interlayer connection 4 inputs max L
output layer
output variable
Obr´azek 2.4: Pˇr´ıklad s´ıtˇe GAME. S´ıt’ se vytvoˇr´ı pomoc´ı tr´enovac´ıch dat obsahuj´ıc´ıch vhodn´e jednotky pro pˇrenos (P-jednotky perception optimalizovan´e pomoc´ı backpropagation algoritmu, L-line´arn´ı a C-polynomi´aln´ı pˇrenosov´e jednotky, oboj´ı optimalizovan´e pomoc´ı Quasi Newton metody).
2.5
Klasifikaˇ cn´ı metody
LVQ Metodou vhodnou pro klasifikaci do tˇ r´ıd, tud´ıˇz zde se jiˇz nepokouˇs´ıme urˇcit pˇresn´ y vˇek kostry, ale padnut´ı do tˇr´ıdy, je LVQ - Learning Vector Quantization. Tato neuronov´ a s´ıt’ vych´ az´ı z Kohonenovy s´ıtˇe, kter´a patˇr´ı k samoorganizuj´ıc´ım neuronov´ ym s´ıt´ım, takˇze nepotˇrebuje ke sv´emu tr´enov´an´ı uˇcitele. Jejich funkce je zaloˇzena na principu shlukov´e anal´ yzy ( nalezen´ı urˇcit´ ych vlastnost´ı a z´avislost´ı pˇr´ımo v pˇredkl´adan´ ych tr´enovac´ıch datech ). Kohonen˚ uv z´akladn´ı model je vˇetˇsinou dvojdimenzion´aln´ı i kdyˇz m˚ uˇze m´ıt i jin´e uspoˇr´ ad´ an´ı v´ ystupn´ıch neuron˚ u. Tento model obsahuje jen vstupn´ı a v´ ystupn´ı vrstvu. Poˇcet vstup˚ u do s´ıtˇe je roven dimenzi vstupn´ıho prostoru. Poˇcet vstup˚ u neuronu ve v´ ystupn´ı vrstvˇe je roven poˇctu vstup˚ u do Kohonenovy s´ıtˇe. V´ahy tˇechto vstup˚ u neuronu slouˇz´ı k zak´odov´ an´ı vzor˚ u. Jedinou operac´ı, kterou neuron prov´ ad´ı, je v´ ypoˇcet vzd´alenosti pˇredloˇzen´eho vzoru od vzoru zak´odovan´eho ve vah´ ach dan´eho neuronu. V´ ystupn´ı neurony jsou propojeny se vˇsemi sv´ ymi sousedn´ımi neurony. Kaˇzd´ y vstup je spojen s kaˇzd´ ym neuronem v´ ystupn´ı mˇr´ıˇzky. LVQ je modifikovan´a Kohonenova s´ıt’, kter´a je schopna pracovat s pomoc´ı uˇcitele. F´aze uˇcen´ı je o nˇeco komplikovanˇejˇs´ı neˇz u Kohonenovy s´ıtˇe, vybavovac´ı f´aze je shodn´a. Existuj´ı tˇri verze LVQ1,LVQ2 a LVQ3, kter´e se od sebe liˇs´ı algoritmem hled´an´ı nejlepˇs´ı hranice mezi tˇr´ıdami. LVQ1: Neuronov´a s´ıt’ LVQ vylepˇsuje sv´e chov´ an´ı podle informace o tˇr´ıdˇe do kter´e vstupn´ı vektor patˇr´ı. V prvn´ı f´azi bˇeˇz´ı LVQ jako klasick´ a Kohonenova s´ıt’. T´ım se zajist´ı urˇcit´e samovoln´e uspoˇr´ad´an´ı neuron˚ u do tˇr´ıd. Pak pˇrijde na ˇradu LVQ1. Pˇriv´ ad´ıme na vstupy znovu tr´enovac´ı vektory a v pˇr´ıpadˇe, ˇze vektor byl zaˇrazen do spr´avn´e tˇr´ıdy, pˇriklon´ı v´ahy jeˇstˇe v´ıce k dan´e tˇr´ıdˇe. V opaˇcn´em pˇr´ıpadˇe mus´ı b´ yt v´ahy od ˇspatn´e tˇr´ıdy odklonˇeny. T´ım se zv´ yrazˇ nuj´ı hranice mezi tˇr´ıdami a zmenˇsuje riziko ˇspatnˇe zaˇrazen´eho vektoru. LVQ1 m˚ uˇze b´ yt jeˇstˇe vylepˇsena a tato vylepˇsen´a verze se naz´ yv´a Optimalizovan´ a LVQ1. Rozd´ıl je v individu´aln´ım nastaven´ı
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
9
parametru rychlosti uˇcen´ı pro kaˇzd´ y neuron. [MOON web]
Perceptron Dalˇs´ı podobnou metodou klasifikace koster do skupin je neuronov´ a s´ıt’ zaloˇzen´ a na perceptronu. Ten pˇredstavuje nˇeco jako lidsk´ y neuron, do kter´eho vedou vstupy (vstupn´ı informace) a v´ ystupem jsou zpracovan´e vstupn´ı informace v podobˇe poˇzadovan´eho form´atu ´ v´ ysledku. Ukolem perceptronu (rep. obecnˇe neuronov´e s´ıtˇe) je nal´ezt hranici mezi tˇemito dvˇema skupinami. Spr´avn´e urˇcen´ı hranice je d˚ uleˇzit´e pro budouc´ı spr´avn´e zaˇrazen´ı nov´eho vzoru.
Obr´azek 2.5: Prostor 2D a hraniˇcn´ı pˇr´ımka
Obr´azek 2.6: Model perceptronu jako neuronu
Algoritmus uˇ cen´ı Uˇcen´ı je interaktivn´ı proces, kdy se v kaˇzd´em kroku trochu pooprav´ı jednotliv´e sloˇzky v´ahov´eho vektoru. Vzory, kter´e slouˇz´ı k uˇcen´ı, se vyb´ıraj´ı z mnoˇziny vˇsech vstupn´ıch vzor˚ u. Tˇechto vzor˚ u m˚ uˇze b´ yt libovoln´ y poˇcet. Na poˇc´atku jsou v´ahy nastaveny na sv´e poˇc´ ateˇcn´ı hodnoty, kter´e se nejˇcastˇeji vol´ı n´ahodnˇe. Hraniˇcn´ı pˇr´ımka (rovina, ...) urˇcen´ a tˇemito vahami je samozˇrejmˇe ˇspatnˇe orientov´ana. Teprve ˇcasem se vlivem adaptace vah podaˇr´ı naj´ıt spr´avn´ y smˇer. Z´akladn´ım principem je uˇcen´ı se z vlastn´ıch chyb. Jestliˇze perceptron odpovˇedˇel ˇspatnˇe na pˇredloˇzen´ y vzor, upravujeme v´ahy (zvyˇsujeme nebo sniˇzujeme) tak, aby se sn´ıˇzila chyba. Hodnota, kterou modifikujeme v´ahy, je odvozena z velikosti chyby. Je to vlastnˇe ”vzd´alenost” mezi dan´ ym a spr´avn´ ym v´ ystupem, [Perceptron].
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
10
Obr´azek 2.7: Struktura RBF s´ıtˇe
RBF • Patˇr´ı mezi nejmladˇs´ı typy neuronov´ ych s´ıt´ı. ˇ • Casto se pouˇz´ıv´a na regresi a predikci. • Jedn´a se o typ dopˇredn´e v´ıcevrstv´e s´ıtˇe, se vstˇr´ıcn´ ym ˇs´ıˇren´ım sign´alu a uˇcen´ım s uˇcitelem. Jej´ı v´ yhodou je zejm´ena rychlost uˇcen´ı. • Radi´aln´ı funkce je urˇcena sv´ ym stˇredem a jej´ı hodnota z´avis´ı na vzd´alenosti argumentu od tohoto stˇredu. RBF je to tˇr´ıvrstv´a s´ıt’, jej´ıˇz struktura je obdobn´a jako u tˇr´ıvrstv´e s´ıtˇe typu backpropagation, ale pˇrenosov´a funkce v´ ystupn´ıch neuron˚ u mus´ı b´ yt line´arn´ı, coˇz nemus´ı b´ yt pro s´ıt’ typu backpropagation pravda a pˇrenosov´e funkce skryt´ ych neuron˚ u jsou tzv. Radial Basis Functions, odtud i n´azev s´ıtˇe. Jejich charakteristick´ ym znakem je, ˇze bud’ monot´onnˇe klesaj´ı, nebo rostou smˇerem od sv´eho stˇredov´eho bodu. Na n´asleduj´ıc´ıch obr´azc´ıch je uk´azka struktury RBF s´ıtˇe (obr´azek 2.7) a RBF funkce (obr´azek 2.8). Kromˇe vstupn´ı vrstvy, kter´a slouˇz´ı jen pro pˇred´ an´ı hodnot, m´a RBF s´ıt’ vrstvu RBF (skryt´a vrstva) a vrstvu v´ ystupn´ı tvoˇrenou perceptrony. Mezi jednotliv´ ymi vrstvami se zpravidla pouˇz´ıv´a u ´pln´e propojen´ı. Definice RBF neuron˚ u: v´ ypoˇcet vnitˇrn´ıho potenci´alu φ =
pPn
i=1 (xi
− ci )2
Jin´ ymi slovy: Vnitˇrn´ı potenci´al se poˇc´ıt´a jako euklidovsk´ a vzd´alenost vstupn´ıho vektoru x od c dˇelenou ˇs´ıˇrkou b. Pro RBF neurony se pouˇz´ıv´a Eukleidovsk´ a metrika, na rozd´ıl od perceptron˚ u, kde se pouˇz´ıv´ a skal´arn´ı souˇcin. Vektor C = c1 , ..., cn oznaˇcujeme jako prototyp, protoˇze reprezentuje jistou podmnoˇzinu vstupn´ıch dat ve tvaru shluku. Jako aktivaˇcn´ı funkce se nejˇcastˇeji pouˇz´ıv´ a Gaussova funkce a multikvadratick´a funkce, ale existuj´ı i jin´e. Uˇ cen´ı neuron˚ u RBF vrstvy Tr´enovac´ı mnoˇzinu tvoˇr´ı dvojice vstup-v´ ystup. Uˇcen´ı RBF s´ıtˇe je rozdˇeleno na dvˇe f´aze. V prvn´ı f´azi se urˇc´ı prototyp C a sigma pro kaˇzd´ y RBF neuron. Tento proces prob´ıh´ a bez znalost´ı
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
11
Obr´azek 2.8: Uk´azka typick´ ych Radial Basis Function
funkˇcn´ıch hodnot nebo kategori´ı. Pouˇz´ıvaj´ı se algoritmy podobn´e algoritm˚ um pro shlukovou anal´ yzu, nebo algoritm˚ um uˇcen´ı Kohonenovy s´ıtˇe. Pro urychlen´ı t´eto f´aze lze vyuˇz´ıt tak´e neadaptivn´ıch metod, napˇr. rovnomˇern´e, nebo n´ahodn´e rozloˇzen´ı stˇred˚ u RBF neuron˚ u po vstupn´ım prostoru. Uˇ cen´ı neuron˚ u v´ ystupn´ı vrstvy Druh´a f´aze uˇcen´ı m´a za u ´kol urˇcit v´ahy v´ ystupn´ıch neuron˚ u. Vzhledem k charakteru v´ ystupn´ıch neuron˚ u, je moˇzno pouˇz´ıt metody nejmenˇs´ıch ˇctverc˚ u, nebo gradientn´ıch algoritm˚ u. Pouˇ zit´ı RBF s´ıtˇ e ’ Po nauˇcen´ı je s´ıt pˇripraven´a k pouˇzit´ı na nov´ ych, zat´ım nezn´am´ ych datech. Nov´ y vstupn´ı vektor nebude pravdˇepodobnˇe stejn´ y jako vektory tr´enovac´ı mnoˇziny (pˇresnˇeji ˇreˇceno, bod ve stˇredu aktivaˇcn´ı funkce m˚ uˇze b´ yt posunut). Pravdˇepodobnˇe bude ˇc´ asteˇcnˇe odpov´ıdat jen nˇekolik vah vektoru, a proto se uvedou v ˇcinnost odpov´ıdaj´ıc´ı skryt´e uzly, kter´e se postupnˇe mˇen´ı. Neuron bude aktivov´an jen tehdy, bude-li vstupn´ı vektor zaˇrazen do jeho oblasti z´ajmu. Norm´alnˇe je aktivov´ano mnoho neuron˚ u a jejich v´ ystup je sluˇcov´ an dohromady ve v´ ystupn´ıch uzlech. T´ımto zp˚ usobem s´ıt’ interpoluje prostor mezi stˇredy z´ajmov´ ych oblast´ı neuron˚ u. Obr´azek 2.9 ukazuje pˇr´ıklad tr´enovan´e RBF. Jednotliv´e aktivaˇcn´ı funkce R1 , R2 , ... jsou zobrazeny jako kˇrivky dvou vstupn´ıch funkc´ı I1 a I2 . Vypoˇc´ıtan´ y model bude lok´aln´ı (ve smyslu, ˇze m´a velice malou vypov´ıdac´ı schopnost o tom, jak vypadaj´ı funkce mimo z´ajmov´e oblasti konkr´etn´ıho neuronu, popˇr. kde jsou jin´a ˇskolen´ a data). Kaˇzd´ a aktivaˇcn´ı funkce reprezentuje pr´avˇe jeden m´ıstn´ı model ˇskolen´ ych dat, takˇze vnitˇrek z´ajmov´e oblasti odpov´ıd´ a konkr´etn´ımu ’ neuronu. Na druh´e stranˇe bˇeˇzn´a v´ıcevrstv´ a s´ıt produkuje glob´aln´ı aproximaci, z toho vypl´ yv´ a, ˇze je kaˇzd´a z´ajmov´a oblast ovlivnˇena i ostatn´ımi tr´enovac´ımi daty, kter´e ve skuteˇcnosti nemus´ı m´ıt na danou oblast ˇz´adn´ y vliv. RBF s´ıt’ jako klasifik´ ator To je pˇr´ıpad, kter´ y pouˇzijeme na antropologick´ a data. Zde m˚ uˇzeme vyuˇz´ıt jak spojit´ ych, tak nespojit´ ych v´ ystupn´ıch funkc´ı RBF neuron˚ u. Nespojit´e zaˇrazuj´ı vstupn´ı vektor do nauˇcen´e mnoˇziny (shluku), spojit´e mohou informovat, do jak´e m´ıry patˇr´ı vektor do t´eto mnoˇziny.
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
12
Obr´azek 2.9: Tr´enovan´ a RBF
Z´akladn´ı pravidla pro stavbu s´ıtˇe jsou: • V´ ystup RBF neuronu je napojen pouze na jeden v´ ystupn´ı neuron • Na v´ ystupn´ı neuron m˚ uˇze b´ yt napojeno v´ıce RBF neuron˚ u. • Pr˚ unik sf´ery vlivu RBF neuron˚ u n´aleˇzej´ıc´ıch v´ıce r˚ uzn´ ym kategori´ım mus´ı b´ yt pr´azdn´ y. • RBF neurony t´eˇze kategorie mus´ı reprezentovat vzory dan´e kategorie s minim´aln´ı chybou. Pokud pouˇz´ıv´ame pro klasifikaci RBF s´ıt’ se spojit´ ymi v´ ystupn´ımi funkcemi RBF neuron˚ u, mus´ı b´ yt v´ahy a pr´ah v´ ystupn´ıch neuron˚ u nastaven tak, aby tyto neurony realizovaly prahovou logickou funkci OR. Obvykle se RBF s´ıt’ uˇc´ı ˇr´ adovˇe rychleji, neˇz obyˇcejn´ a dopˇredn´ a neuronov´ a s´ıt’, ale RBF s´ıt’ je zpravidla pomalejˇs´ı pˇri pouˇzit´ı vˇetˇs´ıho poˇctu uzl˚ u, podle [VSB web].
2.6
Shlukov´ e metody
SOM Dnes jiˇz mezi z´akladn´ı typy neuronov´ ych s´ıt´ı, patˇr´ı tak´e tzv. SOM = Self-Organizing Maps, neboli samoorganizuj´ıc´ı se mapy, ˇcastˇeji zn´am´e po sv´em ”stvoˇriteli” jako Kohonenovy mapy. Ty patˇr´ı do skupiny samouˇc´ıc´ıch se neuronov´ ych s´ıt´ı, tzn. s´ıt´ı s uˇcen´ım bez uˇcitele, kter´e ke sv´emu nastavov´an´ı nepotˇrebuj´ı ide´aln´ı vzory. To znamen´a, ˇze k uˇcen´ı s´ıtˇe staˇc´ı jen velk´ a skupina re´aln´ ych sign´al˚ u, z nichˇz nˇekter´e maj´ı urˇcitou spoleˇcnou vlastnost nebo naopak v´ yrazn´e odliˇsnosti a jiˇz k nim nemus´ı b´ yt pˇriˇrazeny ˇz´ adn´e ide´aln´ı uˇc´ıc´ı sign´aly nebo informace (target = c´ılov´e hodnoty). Ty v pˇr´ıpadˇe tzv. uˇcen´ı s uˇcitelem ud´avaj´ı koneˇcn´ y c´ılov´ y stav, do kter´eho se m´a s´ıt’ uˇcen´ım dostat. A pr´avˇe jejich z´ısk´ an´ı b´ yv´ a ˇcasto velk´ ym probl´emem. Naopak u SOM (Kohonenovy mapy) n´am napˇr´ıklad staˇc´ı jen skupina vstupn´ıch sign´al˚ u a bˇehem uˇcen´ı si s´ıt’ jiˇz sama nalezne spoleˇcn´e znaky a odliˇsnosti, podle kter´ ych se bude ve sv´e aktivn´ı ˇcinnosti rozhodovat. A to je ta v´ yhoda, kter´a za cca 20 let od vzniku Kohonenov´ ych map, z nich udˇelala velmi ˇcasto vyuˇz´ıvanou a velmi obl´ıbenou neuronovou s´ıt’. Svoj´ı schopnost´ı samoorganizace a shlukov´ an´ı objekt˚ u s podobn´ ymi vlastnostmi do skupin jsou Kohonenovy mapy pˇr´ımo pˇredurˇceny pro aplikace rozhodov´ an´ı, rozliˇsov´ an´ı a tˇr´ıdˇen´ı objekt˚ u, ˇ sign´al˚ u, znaˇcek apod. Castou aplikac´ı je rozpozn´av´ an´ı ˇreˇci (napˇr.pˇrepis mluven´eho slova na
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
13
Obr´azek 2.10: Struktura neuron˚ u Kohonenovy mapy s v´ıtˇezn´ ym neuronem BMU (vstupn´ı vektor s hodnotami x1...xn, neuron s v´ahami mi = W )
napsan´e apod.) nebo pˇreloˇzen´ı psan´eho textu na tiˇstˇen´ı, ˇci v m´em pˇr´ıpadˇe antropologick´ a data. Princip a struktura Z´aklad tvoˇr´ı uspoˇr´adan´a struktura neuron˚ u, kter´e se v tomto pˇr´ıpadˇe daj´ı pˇredstavit jako body (krouˇzky), kde ke kaˇzd´emu pˇr´ısluˇs´ı unik´atn´ı vektor koeficient˚ u oznaˇcovan´e jako v´ahy W (mi na obr´azku 2.10). Nejˇcastˇeji m´a struktura formu dvourozmˇern´e (k=2) ˇctvercov´e nebo obd´eln´ıkov´e matice, hexagon´aln´ıho u ´tvaru nebo nˇekdy i jednorozmˇern´eho vektoru (k=1). Rozmˇer struktury (k) vˇsak nem´a nic spoleˇcn´eho s poˇctem vah kaˇzd´eho neuronu (bodu), tedy dimenz´ı neuronu (n). Obvykle plat´ı, ˇze k < n, stejnˇe jako poˇcet neuron˚ u m < n. Naopak tvar struktury uspoˇr´ad´an´ı neuron˚ u m´a vliv na uˇcen´ı mapy a poˇcet vah je vˇzdy shodn´ y s poˇctem parametr˚ u vstupn´ıch vzork˚ u, hodnot nebo koeficient˚ u vstupuj´ıc´ıho zpracov´ avan´eho sign´alu. Tvar uspoˇr´ad´an´ı neuron˚ u m´a vliv na volbu tzv. okol´ı neuronu R, kter´e vymezuje jeho sousedy (sousedn´ı, nejbl´ıˇze postaven´e neurony). V maticov´em uspoˇr´ ad´ an´ı neuron˚ u (ˇctvercov´e nebo hexagon´aln´ı) je velikost okol´ı rovn´a poˇctu ”ˇrad” neuron˚ u od centr´ aln´ıho neuronu - viz obr´azek 2.11. V´ahy kaˇzd´eho neuronu naopak definuj´ı polohu neuronu v prostoru. Princip uˇ cen´ı SOM Matici neuron˚ u se postupnˇe pˇredkl´ adaj´ı vektory vstupn´ıho sign´alu (x ) tak, ˇze se zvl´aˇst’ porovn´av´a rozd´ıl pˇr´ısluˇsn´ ych hodnot vektoru vah (koeficient˚ u w ) kaˇzd´eho neuronu s hodnotami vektoru vstupn´ıho sign´alu. K vyj´adˇren´ı rozd´ılu se m˚ uˇze vyuˇz´ıt r˚ uzn´ ych algoritm˚ u, ale nejˇcastˇeji se d´av´a pˇrednost v´ ypoˇctu euklidovsk´e vzd´alenosti D, tj. souˇcet rozd´ıl˚ u pˇr´ısluˇsn´ ych hodnot: D = (x1 − w1 )2 + (x2 − w2 )2 + ..... + (xn − wn )2 V´ ysledkem je tedy poˇcet hodnot D, rovn´ y poˇctu neuron˚ u ve struktuˇre (napˇr. 100 hodnot v matici 10 x 10 neuron˚ u). N´aslednˇe se vybere jedin´ y neuron s nejmenˇs´ım D a oznaˇc´ı se jako tzv. v´ıtˇez (winner). V´ahy tohoto neuronu totiˇz nejv´ıce ze vˇsech odpov´ıdaj´ı hodnot´am pr´avˇe pˇredloˇzen´eho sign´alu. Pˇri pˇredkl´ad´an´ı prvn´ı uˇc´ıc´ıho vstupn´ıho vektoru se jeho hodnoty porovn´ avaj´ı s n´ahodnˇe vygenerovan´ ymi hodnotami vah (koeficient˚ u) jednotliv´ ych neuron˚ u. V´ahy W v´ıtˇezn´eho neuronu se pak upravuj´ı (updatuj´ı), aby se co nejv´ıce pˇribl´ıˇzily hodnot´am pr´avˇe pˇredloˇzen´eho vstupn´ıho vektoru (x ). Vyuˇz´ıv´ a se vzorce: Wi nov´e = Wi star´e + α(x − Wi star´e) kde α je uˇc´ıc´ı koeficient vyjadˇruj´ıc´ı rychlost uˇcen´ı (m˚ uˇze nab´ yvat hodnot 0 aˇz 1, napˇr. α = 0.6), Wi je vektor vah (koeficinet˚ u) i-t´eho neuronu Wi = [Wi 1, Wi 2, ...., Wi n] a x je vstupn´ı uˇc´ıc´ı vektor x = [x1 , x2 , ...xn ].
14
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
Obr´azek 2.11: Moˇzn´e struktury uspoˇr´ad´ an´ı neuron˚ u (*) s definic´ı okol´ı R v´ıtˇezn´eho neuronu (#)
Pˇri opˇetovn´em opakov´an´ı d´avky uˇc´ıc´ıch vektor˚ u nebo postupn´ ym pˇredkl´ ad´ an´ım dalˇs´ıch nov´ ych d´avek se uˇc´ıc´ı koeficient obvykle sniˇzuje. Spolu s v´ıtˇezn´ ym neuronem se mˇen´ı i ty sousedn´ı v definovan´em okol´ı R (viz obr´azek 2.11). Jejich v´ahy se upravuj´ı stejn´ ym zp˚ usobem jako u v´ıtˇeze, pouze s t´ım rozd´ılem, ˇze koeficient α je nahrazen koeficientem β, pˇriˇcemˇz plat´ı α < β. Pˇri opˇetovn´em opakov´an´ım d´avky uˇc´ıc´ıch vektor˚ u se m˚ uˇze prov´ adˇet i sniˇzov´ an´ı hodnoty okol´ı R aˇz na R = 0, tzn. adaptuje se pouze v´ıtˇez. Ve v´ ysledku by se mˇelo dos´ahnout stavu, kdy v maticov´e struktuˇre neuron˚ u vznikne nˇekolik v´ yznamn´ ych center, tzv. shluky, mezi nimiˇz se v´ yraznˇe liˇs´ı hodnoty vah neuron˚ u. Neurony, jejichˇz v´ahy bˇehem uˇcen´ı dos´ahly nulov´ ych hodnot, se ze struktury mohou vylouˇcit. Poˇcet shluk˚ u by mˇel b´ yt shodn´ y s poˇctem odliˇsn´ ych vlastnost´ı nebo parametr˚ u, kter´e Kohonenova mapa naˇsla v pˇredloˇzen´ ych d´avk´ach uˇc´ıc´ıch vstupn´ıch vektor˚ u. To tak´e znamen´a, ˇze funkˇcnost mapy a neuronov´ ych s´ıt´ı obecnˇe, v´ yraznˇe z´avis´ı na sloˇzen´ı sign´al˚ u a informac´ı v uˇc´ıc´ıch d´avk´ ach. Pro jednoduˇsˇs´ı kontrolu a pˇrehlednˇejˇs´ı dohled nad uˇcen´ım mapy se vyuˇz´ıv´ a grafick´eho zobrazen´ı shluk˚ u, kter´e vyjadˇruje prostorov´e vztahy mezi neurony v prostoru vah. V diagramu jsou v´ahov´e vektory (= neurony) zobrazeny jako ˇcern´e body v dvojdimenzion´aln´ım prostoru, ˇ kter´e z´aroveˇ n tvoˇr´ı centra shluk˚ u. Cern´ e ˇc´ ary pˇredstavuj´ı pˇr´ımky spojuj´ıc´ı v´ahov´e vektory sousedn´ıch neuron˚ u. Na obr´azku 2.12 je uk´azan´ a zmˇena ”pozice” neuronu pˇred a po adaptaci vah na vstupn´ı vektor (zelen´ y bod). Po nauˇcen´ı SOM se na vstup vˇzdy pˇrikl´ad´ a analyzovan´ y nezn´am´ y vektor hodnot (zelen´ y bod) podobn´eho druhu, jako byly uˇc´ıc´ı vektory a opˇet v´ ypoˇctem podobnosti-vzd´alenosti od vektor˚ u vah jednotliv´ ych neuron˚ u (ˇcern´e body), se vybere ten v´ıtˇezn´ y neuron, nejv´ıce podobn´ y hodnot´am na vstupu. Ten jiˇz pˇredstavuje urˇcitou definovanou skupinu (shluk) a t´ım je zn´am v´ ysledek. Ten pˇredstavuje zaˇrazen´ı analyzovan´ ych dat do nˇekter´e skupiny ˇci kategorie a t´ım i jejich pojmenov´an´ı a nalezen´ı jejich vlastnost´ı, [SOM]. U-matice Pro zobrazen´ı v´ ysledk˚ u metody SOM se vyuˇz´ıv´ a tzv u-matice. Ta zobrazuje neuronovou s´ıt’ s barevnˇe vyj´adˇrenou informac´ı o tom, jak moc se dan´ y neuron liˇs´ı od okoln´ıch ve sv´ ych vah´ ach.
´ ´ KAPITOLA 2. METODY PRO ANALYZU ANTROPOLOGICKYCH DAT
15
Obr´azek 2.12: Pˇr´ıklad adaptace vah neuronu v mapˇe rozloˇzen´ı shluk˚ u ve dvojdimenzion´aln´ım prostoru
ˇ ım svˇetlejˇs´ı, t´ım je jim podobnˇejˇs´ı. Svˇetl´e oblasti vymezen´e tmavˇs´ı hranic´ı tak pˇredstavuj´ı C´ shluky (clusters) neuron˚ u s podobn´ ym referenˇcn´ım vektorem. Jako pˇr´ıklad m˚ uˇzeme pouˇz´ıt obr´azek 2.13, kde vid´ıme jasnˇe jeden takov´ y velk´ y shluk s nepˇr´ıliˇs ostrou hranic´ı a asi bychom naˇsli i p´ar menˇs´ıch. V t´eto u-matici kaˇzd´e druh´e pol´ıˇcko pˇredstavuje neuron, mezi nimi jsou vyznaˇceny pˇrechody k sousedn´ım neuron˚ um, takˇze je obr´azek informativnˇejˇs´ı, neˇz kdyby byl zhuˇstˇen´ y, jak se obˇcas vyskytuje, a jedno pol´ıˇcko pˇredstavovalo jeden neuron. B´ıl´e a ˇcern´e teˇcky a ˇc´ısla oznaˇcuj´ı neurony, ˇc´ısla jsou n´azvy, pˇridˇelen´e vektor˚ um ve vstupn´ıch datech (m´a-li vstupn´ı vektor 10 poloˇzek, je 11. sloupec dat br´an jako jeho n´azev). Existuj´ı r˚ uzn´e variace u-matice, snaˇz´ıc´ı se pˇrekonat nˇekter´e jej´ı nev´ yhody nebo poskytuj´ıc´ı jinou informaci (napˇr. p-matice, u*-matice).
Obr´azek 2.13: U-matice pro s´ıt’ 10 x 10
ˇ ´ ´I DAT - TEORETICKA ´ C ˇ AST ´ KAPITOLA 3. PREDZPRACOV AN
16
3 Pˇ redzpracov´ an´ı dat - teoretick´ aˇ c´ ast Z´ısk´ av´an´ı znalost´ı je proces, kter´ y se prov´ad´ı v nˇekolika kroc´ıch. Tyto kroky se mohou prov´ adˇet v iterac´ıch. Jelikoˇz m´ame data nejr˚ uznˇejˇs´ıho druhu a ty ˇcasto b´ yvaj´ı tzv. zaˇsumˇel´ a nebo nekonˇ ym probl´emem pro dolov´an´ı dat je chybˇej´ıc´ı hodnota atributu. Tyto probl´emy zistentn´ı. Cast´ mohou vznikat vlivem lidsk´eho faktoru, ztr´atou dat nebo integrac´ı z r˚ uzn´ ych datov´ ych soubor˚ u. Podstatn´ ym krokem v tomto procesu je proto ˇciˇstˇen´ı a integrace dat. ˇ stˇen´ı, integrace, v´ ˇ stˇ Ciˇ ybˇer a transformace se souhrnnˇe oznaˇcuj´ı jako pˇredzpracov´ an´ı dat. Ciˇ en´ı dat slouˇz´ı k odstranˇen´ı zaˇsumˇen´ ych a nekonzistentn´ıch dat. Integrace dat je krokem, kter´ y spojuje data z r˚ uzn´ ych zdroj˚ u do jednoho zdroje. Transformace dat prov´ ad´ı transformaci dat a upravuje data tak, aby byla vhodn´a pro dolovac´ı metody (napˇr. normalizace hodnot m˚ uˇze zlepˇsit v´ ysledek dolov´an´ı). V´ ybˇ er dat zmenˇsuje objem dat pro dolov´ an´ı, napˇr´ıklad pomoc´ı agregace, shlukov´an´ım, nebo odstranˇen´ım nezaj´ımav´ ych atribut˚ u. Pˇredzpracov´ an´ı dat m˚ uˇze v´ yraznˇe zlepˇsit kvalitu vydolovan´ ych vzor˚ u a t´ım i v´ ysledek dolov´ an´ı. Obecnˇe plat´ı, ˇze data, kter´a chceme pouˇz´ıt pro dolov´an´ı, mus´ı co nejpˇresnˇeji modelovat realitu, kterou reprezentuj´ı, b´ yt konzistentn´ı, d˚ uvˇern´a, aktu´aln´ı, dostupn´a a prospˇeˇsn´ a pro danou u ´lohu. Spr´avn´e pˇredzpracov´an´ı dat je d˚ uleˇzit´e pro z´ısk´ an´ı co nejlepˇs´ıch v´ ysledk˚ u a zab´ır´ a tak´e velk´e mnoˇzstv´ı ˇcasu.
3.1
ˇ stˇ Ciˇ en´ı dat
Jedn´a se o odstranˇen´ı probl´em˚ u nekompletn´ıch, zaˇsumˇel´ ych nebo chybˇej´ıc´ıch hodnot. D˚ uvodem tˇechto probl´em˚ u m˚ uˇze b´ yt porucha na pˇr´ıstroji pro sbˇer dat, lidsk´ y faktor, chyba komunikaˇcn´ıho ´ kan´alu apod. Ukolem ˇciˇstˇen´ı dat je doplnˇen´ı chybˇej´ıc´ıch atribut˚ u, vyhlazen´ı zaˇsumˇel´ ych hodnot, odstranˇen´ı extr´emn´ıch hodnot a vyˇreˇsen´a konzistence. Tento proces nen´ı jednopr˚ uchodov´ y, ale iterativn´ı. Urˇcit´ y krok ˇciˇstˇen´ı m˚ uˇze m´ıt za n´asledek opakov´ an´ı nˇekter´eho pˇredchoz´ıho kroku. Napˇr´ıklad pˇri odstranˇen´ı nekonzistence, m˚ uˇze vzniknout potˇreba pro odstranˇen´ı chybˇej´ıc´ı hodnoty. 3.1.1
Nekompletn´ı data
Velmi ˇcast´ ym probl´emem je chybˇej´ıc´ı hodnota atributu, kter´ y vˇsak m˚ uˇze reprezentovat d˚ uleˇzit´e informace pro proces dolov´an´ı. Existuje nˇekolik metod pro oˇsetˇren´ı chybˇej´ıc´ıch hodnot. • Ignorov´ an´ı poloˇ zky – tato metoda je vhodn´a pouze v pˇr´ıpadˇe, pokud v prvku relace chyb´ı nˇekter´e dalˇs´ı atributy (nelze odvodit chybˇej´ıc´ı hodnotu atributu) nebo v pˇr´ıpadˇe ˇciˇstˇen´ı dat pro klasifikaci. • Manu´ aln´ı doplnˇ en´ı chybˇ ej´ıc´ı hodnoty – metoda by byla vhodn´a, ale vˇetˇsinou kv˚ uli velk´emu mnoˇzstv´ı dat je prakticky nepouˇziteln´ a. Uˇzivatel by rovnˇeˇz musel m´ıt znalosti, kter´e by uplatnil pˇri nahrazov´an´ı. • Automatick´ e doplnˇ en´ı glob´ aln´ı konstantou – pouˇz´ıv´ a se hodnota mimo rozsah platn´ ych hodnot dan´eho atributu (napˇr. 0 nebo ∞ pro numerick´ y atribut). Pokud by v´ yskyt t´eto odlehl´e hodnoty byl n´ızk´ y, algoritmus pro dolov´ an´ı j´ı m˚ uˇze ignorovat, ale v pˇr´ıpadˇe ˇcast´eho v´ yskytu m˚ uˇze tato metoda negativnˇe ovlivnit v´ ysledek dolov´ an´ı. Algoritmus by mohl tuto konstantu br´at za d˚ uleˇzitou a chybnˇe ji interpretovat jako stˇeˇzejn´ı. • Pouˇ zit´ı pr˚ umˇ ern´ e hodnoty atributu – hodnota pro automatick´e doplˇ nov´ an´ı se vypoˇc´ıt´a jako pr˚ umˇer z hodnot atribut˚ u v ostatn´ıch prvc´ıch.
ˇ ´ ´I DAT - TEORETICKA ´ C ˇ AST ´ KAPITOLA 3. PREDZPRACOV AN
17
• Pouˇ zit´ı pr˚ umˇ ern´ e hodnoty n-tic stejn´ e tˇ r´ıdy – je pouˇzita pr˚ umˇern´ a hodnota atributu z relac´ı, kter´e patˇr´ı do stejn´e tˇr´ıdy. Napˇr´ıklad v pˇr´ıpadˇe tˇr´ıdy vzdˇel´ an´ı=“vysokoˇskolsk´e“ se pouˇzije pr˚ umˇern´a hodnota atributu pˇr´ıjem z pr˚ umˇeru hodnot relac´ı, kter´e spadaj´ı do t´eto tˇr´ıdy. • Doplnˇ en´ı nejpravdˇ epodobnˇ ejˇ s´ı hodnotou – tato hodnota m˚ uˇze b´ yt vypoˇctena pouˇzit´ım odvozovac´ıch n´astroj˚ u jako je Bayesovsk´ a klasifikace, regrese apod. Jedn´a se vlastnˇe o klasifikaci nebo predikci s doplˇ novan´ ym atributem jako c´ılem. Metoda se jev´ı jako nejlepˇs´ı, protoˇze nejv´ıce zohledˇ nuje okoln´ı informace, z nichˇz je doplˇ nuj´ıc´ı hodnota poˇc´ıt´ana.
3.1.2
Zaˇ sumˇ el´ a data
Jedn´a se o n´ahodn´e chyby v datech. D˚ uvod˚ u pro zaˇsumˇen´e hodnoty m˚ uˇze b´ yt v´ıce. Vˇetˇsinou jde o chyby vznikl´e poruchou na zaˇr´ızen´ı pro sbˇer dat, lidsk´ ym faktorem, ˇspatn´ ym ohodnocen´ım, poruchou hardware nebo pouˇzit´ım r˚ uzn´ ych form´at˚ u pro k´odov´ an´ı. Techniky, kter´e prov´ adˇej´ı vyhlazen´ı dat, jsou uvedeny n´ıˇze. • Plnˇ en´ı – vyhlazov´an´ı numerick´ ych dat je prov´ adˇeno tak, ˇze setˇr´ıdˇen´ a posloupnost zohledˇ nuje hodnoty v bl´ızk´em okol´ı. Tato technika prov´ ad´ı lok´aln´ı vyhlazen´ı. Setˇr´ıdˇen´e hodnoty se rozdˇel´ı do tzv. koˇs˚ u stejn´e frekvence. Hodnoty v koˇs´ıch se pak nahrad´ı pr˚ umˇ erem koˇse, medi´ anem koˇse nebo hraniˇ cn´ı hodnotou koˇse. • Regrese – data se nahrazuj´ı hodnotami, kter´e jsou d´any regresn´ı kˇrivkou. Lze pouˇz´ıt line´arn´ı nebo v´ıcen´asobnou line´arn´ı regresi. • Rozdˇ elen´ı do shluk˚ u (tzv. shlukov´ an´ı) – nalezen´ı odlehl´ ych hodnot, kter´e nelze zaˇradit do ˇz´adn´eho shluku. Intuitivnˇe mohou b´ yt hodnoty, kter´e spadnou mimo grupu, br´any jako zbloudil´e. • Kombinovan´ a poˇ c´ıtaˇ cov´ a a ruˇ cn´ı kontrola - expertn´ı syst´em urˇc´ı potenci´aln´ı odlehl´e hodnoty detekc´ı pˇrekroˇcen´ı urˇcit´eho prahu. Ruˇcn´ı kontrolou se z nich pak vyberou skuteˇcn´e chybn´e hodnoty. Metody pro odstraˇ nov´an´ı ˇsumu z dat m˚ uˇzeme rovnˇeˇz ch´ apat i jako metody pro redukci dat. Lze je pouˇz´ıt i pro diskretizaci hodnot. Poˇz´ıv´ a se metoda pro rozˇclenˇen´ı na intervaly stejn´e ˇs´ıˇrky nebo rozˇclenˇen´ı na intervaly stejn´e hloubky.
3.2
Integrace a transformace dat
Jedn´a se o spojen´ı dat z nˇekolika nez´avisl´ ych u ´loˇziˇst’ do jednoho a vytvoˇren´ı jednoho konzistentn´ıho zdroje. V pˇr´ıpadˇe integrace dat jde o nalezen´ı atribut˚ u r˚ uzn´ ych vstup˚ u, kter´e k sobˇe patˇr´ı. Napˇr´ıklad atribut pro identifikaci zboˇz´ı m˚ uˇze b´ yt v jedn´e datab´azi (datech) nazv´an item id v druh´e jako iid. Tento probl´em se oznaˇcuje jako konflikt sch´ematu. Dalˇs´ı podstatnou ˇc´ast´ı procesu integrace je odstranˇen´ı redundance. To znamen´a odstranˇen´ı dat, kter´a jsou duplicitn´ı ale i takov´a, kter´a se daj´ı odvodit z jin´ ych uloˇzen´ ych dat. Redundance se daj´ı detekovat z metadat, ale v datech se m˚ uˇze vyskytnout i siln´a korelace, kter´a se detekuje tzv. korelaˇcn´ı anal´ yzou. Dalˇs´ım probl´emem, s kter´ ym se mus´ı integrace vypoˇr´ adat, je konflikt hodnot, kdy jsou odpov´ıdaj´ıc´ı si hodnoty atribut˚ u r˚ uzn´e, a konflikt identifikace, kdy v r˚ uzn´ ych u ´loˇziˇst´ıch je identifikace objekt˚ u r˚ uzn´a (napˇr. rodn´e ˇc´ıslo a poˇradov´e ˇc´ıslo u osob). Ve f´azi transformace se data transformuj´ı tak, aby l´epe vyhovovala dolovac´ım metod´am a charakteru dolovac´ı u ´lohy. Operace, kter´e m˚ uˇzou b´ yt zahrnuty ve f´azi transformace:
ˇ ´ ´I DAT - TEORETICKA ´ C ˇ AST ´ KAPITOLA 3. PREDZPRACOV AN
18
Obr´azek 3.1: Pˇr´ıklad rozdˇelen´ı do shluk˚ u
• Vyhlazen´ı – odstranˇen´ı ˇsumu. • Agregace – aplikuj´ı se sumaˇcn´ı nebo agregaˇcn´ı funkce typick´e pro plnˇen´ı datov´eho soboru. Obvykle se prov´ad´ı pˇri plnˇen´ı datov´e kostky pro anal´ yzu na vyˇsˇs´ı u ´rovni abstrakce a slouˇz´ı rovnˇeˇz jako redukce dat, napˇr. denn´ı pˇr´ıjmy slouˇcen´e, aby se mohly vypoˇc´ıtat mˇes´ıˇcn´ı a roˇcn´ı pˇr´ıjmy. • Generalizace – nahrazen´ı hodnoty atributu jejich obecnˇejˇs´ı hodnotou jako u hierarchie koncept˚ u, napˇr. jednoduch´ y atribut jako je vˇek m˚ uˇze b´ yt mapov´ an na vyˇsˇs´ı u ´roveˇ n jako nezletil´ y, dospˇel´ y... • Normalizace dat – jde o transformaci hodnot tak, ˇze spadaj´ı do urˇcit´eho intervalu hodnot (typicky je to < 0.0, 1.0 >). Normalizace se prov´ ad´ı typicky u neuronov´ ych s´ıt´ı, shlukov´an´ı a metody nejbliˇzˇs´ıho souseda, protoˇze by mohlo doj´ıt k negativn´ımu ovlivnˇen´ı v´ ysledku dolov´an´ı. Normalizace vˇetˇsinou zabr´an´ı tomu, aby atribut s velk´ ym rozsahem hodnot pˇrekryl sv´ ym v´ yznamem atributy s menˇs´ım rozsahem hodnot. Existuje cel´a ˇrada metod pro normalizaci, ale nejˇcastˇejˇs´ı jsou min-max normalizace (line´arn´ı transformace), z-score (normalizace na z´akladˇe pr˚ umˇeru a odchylky) a dekadickou zmˇenou mˇeˇr´ıtka (posunut´ı desetinn´e ˇc´arky tak, aby obor hodnot leˇzel v poˇzadovan´em rozsahu).
3.3
Redukce dat
Jelikoˇz je dolov´an´ı nad velk´ ym mnoˇzstv´ım dat ˇcasovˇe a v´ ypoˇcetnˇe n´aroˇcn´e, je ˇz´ adouc´ı zdrojov´ a data vhodn´ ym zp˚ usobem redukovat. Vhodn´ ym zp˚ usobem rozum´ıme tak, ˇze informace obsaˇzen´ a v datech se nezmˇen´ı nebo nezmˇen´ı se charakter dat a je zachov´ ana integrita dat. Pouˇz´ıv´ a se zpravidla 5 technik pro redukci dat: 1. Agregace datov´ e kostky – sumarizace p˚ uvodn´ıch dat. Technika kde jsou operace aplikovan´e na data, tak aby se seskupila do nˇekolikarozmˇern´e datov´e krychle. 2. Odstranˇ en´ı dimenze – prov´ad´ı se, pokud je dimenze pro anal´ yzu nepodstatn´a nebo m´alo podstatn´a. Kl´ıˇcov´ ym faktorem je spr´avn´e zvolen´ı mnoˇziny atribut˚ u pro redukci. Je nutn´e zn´at dom´enu a v´ yznam uloˇzen´ ych dat vˇcetnˇe z´avislost´ı.
ˇ ´ ´I DAT - TEORETICKA ´ C ˇ AST ´ KAPITOLA 3. PREDZPRACOV AN
19
3. Redukce poˇ ctu hodnot – data jsou nahrazena modelem a reprezentov´ ana parametry. 4. Komprese dat – ztr´atov´a ˇci bezztr´atov´ a komprese dat. 5. Diskretizace a pouˇ zit´ı konceptu´ aln´ı hierarchie – hodnoty atribut˚ u jsou nahrazeny hodnotami z interval˚ u nebo hodnotami z nˇejak´e konceptu´ aln´ı hierarchie. Redukuje se poˇcet r˚ uzn´ ych hodnot atribut˚ u. Mnoˇzina dat m˚ uˇze obsahovat stovky atribut˚ u, ze kter´ ych je spousta nerelevantn´ıch nebo redundantn´ıch pro dob´ yv´an´ı znalost´ı. Napˇr. pˇri klasifikaci z´akazn´ık˚ u, kteˇr´ı si nejsp´ıˇse koup´ı novou plazmovou televizi, je atribut telefonn´ı ˇc´ıslo nepodstatn´ y na rozd´ıl od atribut˚ u plat ˇci vˇek. Vynech´an´ı relevantn´ıch atribut˚ u nebo ponech´ an´ı zbyteˇcn´ ych m˚ uˇze zp˚ usobit zmaten´ı procesu dob´ yv´an´ı znalost´ı nebo jeho zpomalen´ı. Redukce dimenze sniˇzuje velikost dat odstraˇ nov´ an´ım atribut˚ u. Typicky se aplikuj´ı metody v´ ybˇeru podmnoˇziny atribut˚ u. C´ılem je nal´ezt minim´aln´ı podmnoˇzinu atribut˚ u takovou, ˇze rozloˇzen´ı pravdˇepodobnost´ı tˇr´ıd je co nejbl´ıˇze p˚ uvodn´ımu obsazen´ı atribut˚ u. Sn´ıˇzen´ı poˇctu atribut˚ u tak´e zjednoduˇsuje pochopen´ı nalezen´ ych vzor˚ u. V mnoˇzinˇe d atribut˚ u existuje d2 r˚ uzn´ ych podmnoˇzin. Hled´an´ı nejlepˇs´ı podmnoˇziny hrubou silou je ˇcasovˇe n´aroˇcn´e. Proto se pouˇz´ıvaj´ı r˚ uzn´e heuristiky, pˇrev´ aˇznˇe na b´azi hladov´ ych algoritm˚ u, tj. pˇri prohled´av´an´ı vyb´ıraj´ı podle nejlepˇs´ı moˇznosti v dan´em okamˇziku. Strategi´ı je pˇrijmout lok´alnˇe optim´aln´ı krok ve snaze naj´ıt glob´aln´ı optimum. V praxi jsou tyto metody efektivn´ı. Kvalita atribut˚ u se urˇcuje statistick´ ymi testy, pˇredpokl´ad´ a se, ˇze jsou nez´avisl´e. Z´akladn´ı heuristick´e metody jsou zobrazeny na obr´azku 3.2
Obr´azek 3.2: Metody v´ ybˇeru podmnoˇziny atribut˚ u
1. Dopˇ redn´ y v´ ybˇ er: zaˇc´ın´a se s pr´azdnou mnoˇzinou atribut˚ u. V kaˇzd´em kroku se vloˇz´ı nejlepˇs´ı atribut ze zb´ yvaj´ıc´ıch v p˚ uvodn´ı mnoˇzinˇe. 2. Zpˇ etn´ a eliminace: zaˇc´ın´a se s u ´plnou p˚ uvodn´ı mnoˇzinou atribut˚ u. V kaˇzd´em kroku se odstran´ı nejhorˇs´ı atribut z mnoˇziny. 3. Kombinovan´ y dopˇ redn´ y a zpˇ etn´ y bˇ eh: kombinace pˇredchoz´ıch, kdy se v kaˇzd´em kroku pˇrid´a nejlepˇs´ı a odstran´ı nejhorˇs´ı atribut. 4. Rozhodovac´ı stromy: kaˇzd´ y vnitˇrn´ı uzel stromu obsahuje test atributu, kaˇzd´ a vˇetev odpov´ıd´a v´ ysledku testu a kaˇzd´ y list znamen´a v´ ysledek predikce tˇr´ıdy. Atributy ve stromu jsou redukovanou podmnoˇzinou atribut˚ u a ostatn´ı jsou irelevantn´ı.
ˇ ´ ´I DAT - TEORETICKA ´ C ˇ AST ´ KAPITOLA 3. PREDZPRACOV AN
20 3.3.1
Poˇ cetn´ı redukce
Poˇcetn´ı redukce slouˇz´ı k sn´ıˇzen´ı poˇctu dat volbou alternativn´ı formy reprezentace dat. Metody mohou b´ yt parametrick´e, kdy se data vyj´adˇr´ı jejich modelem a uchovaj´ı se jen jeho parametry (pˇr´ıpadnˇe i odlehl´e hodnoty). Neparametrick´e metody jsou histogramy, shlukov´ an´ı a vzorkov´ an´ı. Regresn´ı metoda - V line´arn´ı regresn´ı metodˇe jsou data modelov´ ana, aby odpov´ıdala pˇr´ımce. Podle rovnice y = ax + b je hodnota y pˇredpov´ıdan´ a podle hodnoty x. Parametry a a b se urˇc´ı metodou nejmenˇs´ıch ˇctverc˚ u, aby odchylka pˇredpov´ıdan´e hodnoty od skuteˇcn´e byla minim´aln´ı. Histogramy - Histogram atributu A rozdˇel´ı data do disjunktn´ıch mnoˇzin. Mnoˇziny jsou zobrazeny na vodorovn´e ose, v´ yˇska odpov´ıd´a pr˚ umˇern´e ˇcetnosti prvk˚ u v mnoˇzinˇe. Mnoˇziny mohou b´ yt i jednoprvkov´e. Zp˚ usob rozdˇelen´ı hodnot atributu do mnoˇzin m˚ uˇze probˇehnout nˇekolika zp˚ usoby: 1. Konstantn´ı ˇs´ıˇrka: velikost mnoˇziny je volena konstantnˇe. 2. Konstantn´ı v´ yˇska: mnoˇziny jsou voleny tak, aby ˇcetnost prvk˚ u v kaˇzd´e mnoˇzinˇe byla pˇribliˇznˇe stejn´a. 3. V-optim´aln´ı: pro dan´ y poˇcet mnoˇzin je histogram volen tak, aby v´aˇzen´ y souˇcet p˚ uvodn´ıch dat byl nejmenˇs´ı. V´aha v mnoˇzinˇe je poˇcet hodnot v n´ı. 4. MaxDiff: uvaˇzuj´ı se rozd´ıly mezi kaˇzd´ ym p´arem sousedn´ıch hodnot. Hranice mnoˇziny je vytvoˇrena mezi kaˇzd´ ym p´arem, pro p´ary maj´ıc´ı β − 1 nejvˇetˇs´ıch rozd´ıl˚ u, β je uˇzivatelsky definovan´a. Shlukov´ an´ı - Metody shlukov´an´ı rozˇcleˇ nuj´ı seznam objekt˚ u do skupin tak, aby v r´amci jedn´e skupiny byly objekty podobn´e a odliˇsn´e od objekt˚ u v jin´e skupinˇe. Podobnost odpov´ıd´a vzd´alenosti objekt˚ u v prostoru. Vlastnost´ı skupiny je pr˚ umˇer, kter´ y odpov´ıd´ a nejvˇetˇs´ı vzd´alenosti mezi dvˇema objekty ve skupinˇe, a vzd´alenost od tˇeˇziˇstˇe, kter´a odpov´ıd´ a pr˚ umˇern´e vzd´alenosti objekt˚ u od tˇeˇziˇstˇe skupiny (pr˚ umˇern´ y objekt ve skupinˇe). Vzorkov´ an´ı - Umoˇzn ˇuje redukovat data v´ ybˇerem n´ahodn´eho vzorku p˚ uvodn´ıch dat. Z velk´eho objemu dat D obsahuj´ıc´ıho N poloˇzek m˚ uˇzeme vybrat vzorek nˇekolika zp˚ usoby: 1. N´ahodn´ y v´ ybˇer vzorku bez nahrazen´ı: z mnoˇziny D se n´ahodnˇe vybere n < N prvk˚ u, kdy pravdˇepodobnost v´ ybˇeru kaˇzd´eho je 1/N . 2. N´ahodn´ y v´ ybˇer vzorku s nahrazen´ım: podobn´e pˇredchoz´ımu s t´ım, ˇze prvky mohou b´ yt vybr´any nˇekolikr´at. 3. Vzorek ze shluk˚ u: pokud jsou poloˇzky v D uspoˇr´ ad´ any do M disjunktn´ıch mnoˇzin, pak aplikac´ı pˇredchoz´ıch metod vybereme m < M skupin. 4. Rozvrstven´ y vzorek: pokud je D rozdˇeleno do nˇekolika disjunktn´ıch vrstev (vrstva m˚ uˇze b´ yt napˇr. vˇekov´ a skupina u z´akazn´ıka), pak je rozvrstven´ y vzorek z´ısk´ an aplikac´ı n´ahodn´eho v´ ybˇeru pro kaˇzdou vrstvu. T´ımto m´ame zaruˇceno, ˇze i m´alo poˇcetn´ a vrstva bude zastoupena. V´ yhodou metody vzorkov´an´ı je, ˇze ˇcasov´ a sloˇzitost z´avis´ı na n a nikoli na velikosti p˚ uvodn´ıch dat N. Ostatn´ı metody redukce dat potˇrebuj´ı alespoˇ n jeden pr˚ uchod pˇres mnoˇzinu D. Vzorkov´an´ı je pˇrirozenou metodou redukce dat. Chybu m˚ uˇzeme snadno korigovat volbou velikosti poˇctu vzork˚ u n.
ˇ ´ ´I DAT - TEORETICKA ´ C ˇ AST ´ KAPITOLA 3. PREDZPRACOV AN
3.4
21
Dalˇ s´ı moˇ zn´ e metody pˇ redzpracov´ an´ı
Pˇredstavme si struˇcnˇe jeˇstˇe nˇekter´e dalˇs´ı metodu pˇredzpracov´ an´ı dat. PCA Principal Component Analysis (ˇcesky anal´ yza hlavn´ıch komponent) v sobˇe zahrnuje dva druhy pˇredzpracov´an´ı. V prvn´ım kroku transformuje data do nov´eho souˇradn´eho syst´emu tak, ˇze hodnoty na prvn´ı ose (hlavn´ı komponentˇe) maj´ı nejvˇetˇs´ı rozptyl, hodnoty na druh´e ose maj´ı druh´ y nejvˇetˇs´ı rozptyl, a tak d´ale. Nov´e souˇradnice jsou vˇzdy nˇejakou line´arn´ı kombinac´ı souˇradnic p˚ uvodn´ıch a nemaj´ı ˇz´ adn´ y fyzik´aln´ı v´ yznam. Druh´ y, voliteln´ y krok spoˇc´ıv´a v redukci poˇctu atribut˚ u. Ten m˚ uˇzeme napˇr´ıklad zvolit pevnˇe, tedy tak, ˇze po prvn´ım kroku vybereme pouze prvn´ıch k komponent. Druhou variantu pˇredstavuje volba promˇenn´eho poˇctu komponent na z´akladˇe splnˇen´ı nˇejak´eho krit´eria. FastICA Jedn´a se o implementaci metody ICA (Independent Component Analysis, anal´ yza nez´avisl´ ych komponent), jej´ıˇz myˇslenka je n´asleduj´ıc´ı. Metoda pˇredpokl´ad´ a, ˇze data, kter´a m´ame, respektive jejich atributy, vznikly line´arn´ı kombinac´ı jin´ ych, vz´ajemnˇe nez´avisl´ ych atribut˚ u (nez´avisl´ ych komponent). Algoritmus se snaˇz´ı naj´ıt zpˇetnou transformaci tak, aby dostal opˇet p˚ uvodn´ı” nez´avisl´e komponenty. Metoda, p˚ uvodnˇe vyvinut´ a hlavnˇe pro ” zpracov´an´ı sign´alu, lze pouˇz´ıt i pro jin´a data neˇz jen ˇcasov´e pr˚ ubˇehy. Zn´ama je napˇr´ıklad uk´azka odstranˇen´ı ˇsumu z obr´azku, ale i jin´e. Feature selection Takto jsou souhrnnˇe oznaˇcov´ any metody, kter´e se ze souboru atributu snaˇz´ı vybrat ty, kter´e jsou z hlediska struktury dat nejv´ yznamnˇejˇs´ı, a ty nepodstatn´e vynechat. T´ım se ulehˇc´ı pr´ace uˇc´ıc´ımu algoritmu, kter´ y se m˚ uˇze soustˇredit” na podstatn´e atributy a ” ´ nezatˇeˇzovat se m´enˇe podstatn´ ymi. Uvodn´ ı n´ahled do t´eto problematiky pˇrin´ aˇs´ı napˇr´ıklad [Guyon, Elisseeff, 03], podle [Zelenka, 07] .
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
22
4 V´ ysledky experiment˚ u V t´eto kapitole budou postupnˇe pops´any jednotliv´e metody (kter´e byly pops´any v´ yˇse) spolu s v´ ysledky experiment˚ u nad antropologick´ ymi daty.
4.1 4.1.1
Prediktivn´ı metody GMDH
V´ ypoˇcty pro odhad st´aˇr´ı kostry jsem prov´ adˇel v programu KnowledgeMiner 5 v r´amci sv´e bakal´aˇrsk´e pr´ace. Nebot’ je program urˇcen pro platformu Mac, bylo zapotˇreb´ı m´ıt program spuˇstˇen pod emul´atorem, coˇz nebyl probl´em a v´ ypoˇcty prob´ıhaly bez probl´em˚ u. Vˇsechny experimenty byly prov´adˇeny pro s´ıt’ GMDH, kter´a je v tomto software jeˇstˇe vylepˇsena o to, ˇze neurony nemusej´ı m´ıt jenom 2 vstupy, ale i lich´ y poˇcet, napˇr´ıklad 1. D´ale bylo pouˇzito vylepˇsen´ı nazvan´e layer-break-through, kter´e znamen´a to, ˇze jednotliv´e neurony nemusej´ı b´ yt propojeny jenom v sousedn´ıch vrstv´ach, ale i v mezilehl´ ych. Coˇz je zn´azornˇeno na obr´azku 4.1
Obr´azek 4.1: V´ ysledn´ y GMDH model v KnowledgeMiner softwaru za pouˇzit´ı vylepˇsen´ı layerbreak-trough
Experimenty byly prov´adˇeny na dvou mnoˇzin´ ach testovac´ıch a tr´enovac´ıch dat (train/test 1 a train/test2), za u ´ˇcelem vylouˇcen´ı nerovnomˇern´eho rozloˇzen´ı hodnot v tr´enovac´ı a testovac´ı mnoˇzinˇe. Jako v´ ystupn´ı ukazatel pro u ´spˇeˇsnost odhadu st´aˇr´ı kostry byla zvolena modifikovan´ a hodnota RMS (Root mean squared error). Ta se poˇc´ıt´ a podle vzorce 4.1 v uN X 1u RM S = t (y − d)2i
N
(4.1)
i=1
Kde: N – poˇcet pouˇzit´ ych vzork˚ u, y – v´ ystupn´ı vypoˇc´ıtan´ a hodnota, d – skuteˇcn´ a hodnota V´ ysledky pr´ace se s´ıt´ı GMDH jsou vidˇet v tabulce 4.1. V t´eto tabulce je vidˇet nˇekolik konfigurac´ı, s nimiˇz byly vytv´aˇreny modely. Bylo vybr´ano 8 nejlepˇs´ıch konfigurac´ı. Jednotliv´e konfigurace jsou pops´any v m´e bakal´aˇrsk´e pr´aci [Nov´ ak, 06]. Stˇeˇzejn´ı jsou hodnoty chyby RMS. Bohuˇzel z v´ ysledk˚ u je patrn´e, ˇze chyba nen´ı zanedbateln´a (pr˚ umˇernˇe kolem 0,68-0,69). Z toho plyne, ˇze data jsou velmi zaˇsumˇel´a, ˇc´ımˇz zan´aˇs´ı do predikce st´aˇr´ı chybu. Pˇri proch´ azen´ı jednotliv´ ych v´ ysledk˚ u predikce st´aˇr´ı jsem u nˇekter´ ych mˇeˇren´ı naˇsel odchylku i 30 let. Nicm´enˇe je metoda GMDH k urˇcov´an´ı st´aˇr´ı dobr´ ym n´astrojem. Bohuˇzel z antropologick´ ych dat nejsme schopni dostat lepˇs´ı v´ ysledky v d˚ usledku zanesen´ ych nepˇresnost´ı.
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU Configuration config 1 config 2 config 3 config 4 config 5 config 6 config 7 config 8
Train 1 0,45773 0,47688 0,47670 0,46646 0,53752 0,45780 0,45417 0,44980
Test 1 0,69570 0,71613 0,71094 0,70330 0,77992 0,69291 0,69027 0,70599
23 Train 2 0,46431 0,46795 0,46771 0,46917 0,55504 0,46367 0,46110 0,45575
Test 2 0,67458 0,66152 0,66193 0,66177 0,72760 0,67290 0,67421 0,66131
Test avg 0,68514 0,68883 0,68643 0,68253 0,75376 0,68290 0,68224 0,68365
Tabulka 4.1: Urˇcov´an´ı vˇeku kostry - RMS chyba GMDH model˚ u 4.1.2
GAME
Tato metoda neuronov´ ych s´ıt´ı byla testov´ ana pomoc´ı stejnojmenn´eho softwaru GAME. Ten byl vyvinut na naˇs´ı katedˇre Pavlem Kord´ıkem. Nyn´ı je program bˇeˇznˇe pouˇz´ıv´ an a na jeho v´ yvoji se st´ale pracuje a pod´ıl´ı se na nˇem cel´a ˇrada lid´ı. V´ ysledky testov´an´ı proveden´e Pavlem Kord´ıkem jsou patrn´e z tabulky 4.2: Model GAME GAME GMDH GMDH
Train 1 0,458 0,458 0,454 0,449
Test 1 0,660 0,659 0,690 0,705
Train 2 0,455 0,455 0,461 0,455
Test 2 0,679 0,679 0,674 0,661
Test avg 0,669 0,669 0,682 0,683
Tabulka 4.2: Srovn´ an´ı v´ ysledk˚ u GMDH a GAME Zde jsou vybr´any dva nejlepˇs´ı v´ ysledky GMDH s´ıtˇe, spolu s dvˇema nejlepˇs´ımi z GAME s´ıtˇe. Je patrn´e, ˇze rozd´ıly nejsou pˇr´ıliˇs velik´e. To je d´ano tak´e d´ıky tomu, ˇze KnowledgeMiner m´a v sobˇe implementov´any pokroˇcilejˇs´ı funkce s´ıtˇe GMDH, kter´e se v urˇcit´ ych ohledech podobaj´ı s´ıt´ım ’ GAME. Nicm´enˇe o nˇeco l´epe dopadla s´ıt GAME. V´ ysledky jsou interpretov´ any opˇet pomoc´ı RMS, jako je tomu v pˇredchoz´ı metodˇe. Je patrn´e, ˇze i zde je chyba nezanedbateln´a a odhadovan´ y vˇek nen´ı pˇr´ıliˇs pˇresn´ y. Nicm´enˇe to neznamen´a, ˇze by metoda GAME nebyla vhodn´a, ba naopak. Bohuˇzel data nesou velkou nepˇresnost. Projevilo se zde i to, ˇze n´astroj GAME je v´ıce vˇedeck´ ym a m´a mnohem vˇetˇs´ı moˇznosti nastaven´ı ˇ ımˇz lze tak´e velmi zjemnit nastaven´ı experiment˚ oproti programu KnowledgeMiner. C´ u a t´ım je i zpˇresnit. Proto jsou v´ ysledky lepˇs´ı. Nicm´enˇe to sebou tak´e nese nutnost zn´at podrobnˇeji danou problematiku, aby bylo dosaˇzeno kvalitn´ıho nastaven´ı. Obˇe metody GMDH a GAME se uk´azaly jako velmi kvalitn´ı n´astroje k z´ısk´ av´ an´ı znalost´ı z dat. GAME prok´azal kvalitnˇejˇs´ı v´ ystupy a proto ho lze doporuˇcit jako vhodn´eho kandid´ ata pˇri pr´aci s line´arn´ı regres´ı.
4.2
Klasifikaˇ cn´ı metody
V t´eto sekci je m´ ym c´ılem shrnout a porovnat v´ ysledky z jin´ ych prac´ı, kter´e se tak´e zab´ yvaly experimenty s antropologick´ ymi daty, zhodnotit jednotliv´e v´ ysledky pro kaˇzdou metodu a pot´e
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
24 Parametr initialisation learning function learning rate neurons training iterations use voting window size
LVQ1 K-nearest neighbour even linear decay 0,25 250 7600 false -
Tabulka 4.3: Parametry s´ıtˇe LVQ1 vˇsechny vz´ajemnˇe porovnat a doporuˇcit nejvhodnˇejˇs´ı. Coˇz je shrnuto a porovn´ ano v kapitole Zhodnocen´ı v´ ysledk˚ u na stranˇe 41. V´ ysledky jednotliv´ ych metod se daly dobˇre porovn´ avat, protoˇze jsou stejnˇe hodnoceny a bylo pouˇzito rozdˇelen´ı ro stejn´ ych klasifikaˇcn´ıch tˇr´ıd. 4.2.1
LVQ
Pˇri testech proveden´ ych pomoc´ı LVQ1 na antropologick´ ych datech bylo pouˇzito rozdˇelen´ı do n´asleduj´ıc´ıch vˇekov´ ych kategori´ı: 1. P˚ uvodn´ı vˇekov´e kategorie, tj. vˇek u ´mrt´ı < 29, 30 − 39, 40 − 49, 50 − 59, 60 − 69 a > 70 (T1 ). 2. Vˇekov´e kategorie < 29, 30 − 49, > 50 (T2 ). 3. Vˇekov´e kategorie < 29, 30 − 59, > 60 (T3 ). Uvaˇzovat populaci poch´azej´ıc´ı z Evropy: • Cel´a populace. ˇ ycaˇri), Spain • Pouze populace poch´azej´ıc´ı z Evropy, tedy tˇr´ıdy Port (Portugalci), Suis (Sv´ ˇ (Spanˇel´e), USAE (pˇristˇehovalci do USA), Africaner (afrik´anci - potomci holandsk´ ych pˇristˇehovalc˚ u ˇzij´ıc´ı v Jiˇzn´ı Africe). Zkoumat pouze jedno pohlav´ı: • Obˇe pohlav´ı. • Jen muˇzi. • Jen ˇzeny. Celkem bylo pouˇzito 3 · 2 · 3 = 18 soubor˚ u dat, kter´e byly vygenerov´ any z p˚ uvodn´ıch dat obsahuj´ıc´ıch vˇsechny atributy. Experimenty byly provedeny pomoc´ı softwarov´eho n´astroje WEKA. Protoˇze ten ale neobsahuje algoritmy pro neuronov´e s´ıtˇe typu LVQ, bylo tˇreba je doplnit formou plug-inu. Parametry vˇsech s´ıtˇe byly vˇzdy nastaveny tak, aby d´avaly pro p˚ uvodn´ı sadu dat co nejlepˇs´ı v´ ysledky (nastaven´ı je patrn´e z tabulky 4.3, tj. co nejvˇetˇs´ı procento u ´spˇeˇsnˇe ohodnocen´ ych testovac´ıch dat. D´ale byla pouˇzita 10-ti foldov´a cross-validace.
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
25
Obr´azek 4.2: LVQ - celkov´ y pˇrehled u ´spˇeˇsnosti ohodnocen´ı
Kategorie T1 T2 T3
obˇe pohlav´ı 38,4% 68,6% 69,6%
ˇzeny 40,5% 68,6% 70,6%
muˇzi 35,8% 65,8% 65,3%
Evropan´e obˇe pohlav´ı ˇzeny 40,1% 46,6% 71,1% 71,5% 69,9% 73,3%
muˇzi 38,2% 72,0% 63,2%
Tabulka 4.4: LVQ1 - procentu´ aln´ı u ´spˇeˇsnost klasifikace V´ ysledky experiment˚ u jsou vidˇet z grafu spr´avnˇe ohodnocen´ ych instanc´ı 4.2. P´ısmeno m v grafu znamen´a, ˇze ve vstupn´ıch datech byli pouze muˇzi, f jen ˇzeny a e jen Evropan´e. Je zde pˇeknˇe vidˇet rozptyl spr´avnˇe zaˇrazen´ ych jedinc˚ u v r´amci mˇeˇren´e skupiny. D´ale si lze vˇsimnout skoku mezi urˇcov´an´ım hodnot do v´ıce menˇs´ıch skupin oproti menˇs´ımu poˇctu skupin. Rozd´ıl mezi tˇr´ıdami T1 oproti T2 + T3. D´ale v tabulce 4.4 jsou shrnuty v´ ysledky v´ ypoˇct˚ u. Jsou br´any jako pr˚ umˇer z 5 mˇeˇren´ı. Je patrn´e, ˇze pˇri rozdˇelen´ı do v´ıce vˇekov´ ych skupin odhad vˇeku do spr´avnˇe skupiny nen´ı pˇr´ıliˇs pˇresn´ y (38,4%). Pokud, ale sn´ıˇz´ıme poˇcet skupin a t´ım velikost jednotliv´ ych kategori´ı rozˇs´ıˇr´ıme, odhad se zpˇresn´ı. To je patrn´e u v´ ysledk˚ u skupin T2 a T3. D´ale je vidˇet, ˇze rozdˇelen´ı podle pohlav´ı na muˇze a ˇzeny nepˇrin´aˇs´ı pˇr´ıliˇsn´e zlepˇsen´ı, i kdyˇz u ˇzen je klasifikace o p´ar procent pˇresnˇejˇs´ı. Klasifikace pouze Evropan˚ u pˇrin´aˇs´ı jiˇz o nˇeco patrnˇejˇs´ı zlepˇsen´ı oproti pouˇzit´ ym cel´ ym dat˚ um. V´ ysledky mˇeˇren´ı podle [August´ yn, 07]. 4.2.2
Perceptron
Experimenty byly prov´adˇeny opˇet v programu WEKA, na dvou druz´ıch v´ıcevrstv´e s´ıtˇe perceptron, automaticky generovan´e a minim´aln´ı. Testy byly prov´ adˇeny pomoc´ı cross-validation, mnoˇzina vzorku se n´ahodnˇe rozdˇelila do deseti stejnˇe velk´ ych skupin (Fold) a n´aslednˇe se postupnˇe vyb´ırala jedna skupina a ta se pouˇzila jako uˇc´ıc´ı a ostatn´ı skupiny slouˇzily jako testovac´ı. Tento postup se prov´adˇel tak dlouho, dokud kaˇzd´ a skupina nebyla v pozici uˇc´ıc´ı mnoˇziny. Kaˇzd´ y test byl proveden 6 kr´at a pokaˇzd´e byly vzorky rozdˇeleny do skupin r˚ uznˇe.
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
26
Vstupn´ı data byly rozdˇeleny stejnˇe jako u s´ıt´ı typu LVQ. Tedy na skupiny T1 - T3, rozdˇelen´ı podle pohlav´ı a Evropany. Parametry nastaven´ı: 1. Automaticky generovan´ a s´ıt’ Parametry s´ıtˇe generoval automaticky pro kaˇzdou vstupn´ı mnoˇzinu software WEKA. Parametry s´ıtˇe pro jednotliv´e vstupn´ı mnoˇziny (vstupn´ı vrstva - skryt´a vrstva - v´ ystupn´ı vrstva) jsou vidˇet v tabulce 4.5 T1 T1e T1ef/T1em T1f/T1m T2 T2e T2ef/T2em T2f/T2m
21-13-6 16-11-6 15-10-6 20-13-6 21-12-3 16-9-3 15-9-3 20-11-3
T3 T3e T3ef/T3em T3f/T3m
21-12-3 16-9-3 15-9-3 20-11-3
Tabulka 4.5: Parametry automaticky generovan´e s´ıtˇe 2. Minim´ aln´ı s´ıt’ Parametry s´ıtˇe vych´ azej´ı z automaticky generovan´e s´ıtˇe, jen poˇcet neuron˚ u ve skryt´e vrstvˇe byl sn´ıˇzen na minimum. Tedy stejn´ y jako poˇcet neuron˚ u ve v´ ystupn´ı vrstvˇe. Parametry s´ıtˇe jsou v tabulce 4.6. T1 T1e T1ef/T1em T1f/T1m T2 T2e T2ef/T2em T2f/T2m
21-6-6 16-6-6 15-6-6 20-6-6 21-3-3 16-3-3 15-3-3 20-3-3
T3 T3e T3ef/T3em T3f/T3m
21-3-3 16-3-3 15-3-3 20-3-3
Tabulka 4.6: Parametry minim´aln´ı s´ıtˇe V´ ysledky experimentu jsou vyhodnoceny pomoc´ı pr˚ umˇeru ˇsesti experiment˚ u nad jedn´ım vstupn´ım souborem. Hodnoty jsou uvedeny v tabulce 4.7 a 4.11. Druh´ y zp˚ usob je pomoc´ı graf˚ u 4.3 a 4.4, kter´e nejen zn´azorˇ nuj´ı pr˚ umˇernou hodnotu, ale z´aroveˇ n je moˇzn´e vidˇet i rozptyl jednotliv´ ych hodnot. Kategorie T1 T2 T3
obˇe pohlav´ı 36,6% 65,7% 67,0%
ˇzeny 36,2% 65,4% 64,8%
muˇzi 37,9% 64,5% 68,1%
Evropan´e obˇe pohlav´ı ˇzeny 38,5% 36,4% 69,5% 70,1% 67,7% 60,6%
muˇzi 42,3% 68,0% 71,7%
Tabulka 4.7: Pr˚ umˇern´a u ´spˇeˇsnost klasifikace na automaticky generovan´e s´ıti Z experiment˚ u je vidˇet, ˇze pokud jsou data rozdˇelena do ˇsesti vˇekov´ ych kategori´ı, tak se u ´spˇeˇsnost klasifikace pohybuje kolem 40%. Situace se znatelnˇe zlepˇs´ı, pokud data rozdˇel´ıme
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
27
Obr´azek 4.3: Rozptyl u ´spˇeˇsnosti klasifikace pomoc´ı automaticky generovan´e s´ıtˇe
Kategorie T1 T2 T3
obˇe pohlav´ı 37,4% 66,0% 67,6%
ˇzeny 35,0% 66,3% 65,3%
muˇzi 38,6% 66,4% 69,8%
Evropan´e obˇe pohlav´ı ˇzeny 40,2% 35,2% 71,6% 70,8% 69,6% 62,9%
muˇzi 41,3% 68,5% 75,0%
Tabulka 4.8: Pr˚ umˇern´ au ´spˇeˇsnost klasifikace na minim´aln´ı s´ıti pouze do tˇr´ı vˇekov´ ych kategori´ı. V tomto pˇr´ıpadˇe uˇz se u ´spˇeˇsnost klasifikace pohybuje mezi 60% a 70%. Tak´e se uk´azalo, ˇze pokud pouˇzijeme jen populace poch´ azej´ıc´ı pouze z Evropy, u ´spˇeˇsnost klasifikace se nepatrnˇe zv´ yˇs´ı (kolem 1 az. 5%). Rozdˇelen´ı na muˇzsk´e a ˇzensk´e pohlav´ı pˇrin´aˇs´ı nejednoznaˇcn´e v´ ysledky, v nˇekter´ ych pˇr´ıpadech se u ´spˇeˇsnost klasifikace zv´ yˇsila, a v nˇekter´ ych dokonce poklesla. Posledn´ım experimentem se s´ıt´ı perceptron byl vliv poˇctu neuron˚ u ve skryt´e vrstvˇe na u ´spˇeˇsnost klasifikace a uk´azalo se, ˇze pˇri sn´ıˇzen´ı poˇctu neuron˚ u sice v pr˚ umˇeru u ´spˇeˇsnost nepatrnˇe vzrostla, ale zato znatelnˇe vzrostl rozptyl jednotliv´ ych hodnot, [Prchl´ık, 07] Z experiment˚ u je vidˇet, ˇze dopadly hodnˇe podobnˇe jako s´ıt LVQ. A i z´avˇer z tohoto vyhodnocen´ı je, ˇze urˇcov´an´ı do vˇetˇs´ıho poˇctu menˇs´ıch vˇekov´ ych skupin je m´enˇe pˇresn´e neˇz do m´enˇe s vˇetˇs´ım rozpˇet´ım. Coˇz je vcelku logick´ y v´ ysledek. Na jednu stranu je dobˇre, ˇze testy dopadly podobnˇe jako u pˇredchoz´ı metody LVQ, protoˇze si tak vz´ajemnˇe potvrzuj´ı v´ ysledky. Na druhou stranu by bylo v´ yhodnˇejˇs´ı, kdyby nˇekter´ a si poradila s AD l´epe a podala pˇresnˇejˇs´ı urˇcov´ an´ı do dan´e skupiny. 4.2.3
RBF
I zde byl pouˇzit program WEKA a stejn´e rozdˇelen´ı antropologick´ ych dat jako v pˇredchoz´ıch dvou metod´ach. Zastoupen´ı vˇekov´ ych tˇr´ıd pro skupinu T1 shrnuje tabulka 4.9. Pouˇzit´ y simul´ator Weka 3.4.11 m´a implementov´ anu normalizovanou Gaussovskou RBF s´ıt’ a
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
28
Obr´azek 4.4: Rozptyl u ´spˇeˇsnosti klasifikace pomoc´ı minim´aln´ı s´ıtˇe Tˇr´ıda <29 Poˇcet 115 Zastoupen´ı 12,0%
30-39 168 18,6%
40-49 189 19,8%
50-59 176 18,4%
60-69 149 15,6%
>70 156 16,4%
Tabulka 4.9: Zastoupen´ı ve vˇekov´ ych tˇr´ıd´ ach pouˇz´ıv´a standardn´ı algoritmus K-means. Uˇzivatel m´a moˇznost pro RBF s´ıt’ nastavit na n´asleduj´ıc´ı parametry: • numClusters n - Poˇcet shluk˚ u, kter´e by mˇel vygenerovat algoritmus K-means. Poˇcet shluk˚ u je tˇreba odhadnout. Pˇr´ıklad klasifikace pro 2D prostor vstupn´ıch vektor˚ u, kter´ y obsahuje dva shluky je na obr´azku 4.5 • minStdDev σ – minim´aln´ı standardn´ı odchylka f (x) pro shluky. Parametr σ ovlivˇ nuje urˇcov´an´ı shluk˚ u. Velikost parametru m´a vliv na to jak´ ym zp˚ usobem se s´ıt’ bude uˇcit. Pˇr´ıliˇs mal´a hodnota m˚ uˇze zp˚ usobit to, ˇze s´ıt’ bude pˇreuˇcen´ a, pˇr´ıliˇs velk´ a naopak to, ˇze bude doch´azet k chybn´e klasifikaci. • clusteringSeed x - N´ahodn´a inicializace pro K-means algoritmus, pro kaˇzd´e mˇeˇren´ı byla zvolena jin´a iniciaˇcn´ı hodnota. • maxIts -1 - Maxim´aln´ı poˇcet iterac´ı pro splnˇen´ı logistick´e regrese. Pouze pro probl´emy s diskr´etn´ımi tˇr´ıdami. • ridge 1.0E-8 - hodnota vrcholu pro logistickou nebo line´arn´ı regresi. Byly testov´any r˚ uzn´e parametry s´ıtˇe n (numClusters) a σ (minStdDev ). Pro vyˇc´ıslen´ı chyby bylo vyuˇzito metody cross-validation. Ve v´ ysledc´ıch je uk´az´ ana pr˚ umˇern´ a hodnota v´ ysledku. Nejprve se provedl odhad parametru σ (minStdDev ), nejlepˇs´ıch v´ ysledk˚ u pro s´ıtˇe s n = 2 a n = 3 bylo dosaˇzeno pro σ = 0,775. S touto hodnotou se pak vyzkouˇselo mˇenit poˇcet shluk˚ u n. n V´ ypoˇcetn´ı sloˇzitost roste s poˇctem shluk˚ u pˇribliˇznˇe O(2 ) a ˇcas v´ ypoˇctu pro hodnoty n > 4 byl ˇr´adovˇe v hodin´ach aˇz des´ıtk´ach hodin (u souboru T1).
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
29
Obr´azek 4.5: 2D prostor vstupn´ıch vektor˚ u obsahuj´ıc´ı dva shluky
Zmˇena parametr˚ u se projevovala sp´ıˇse nev´ yraznˇe a dosaˇzen´e v´ ysledky se mˇenily v ˇr´ adech okolo jednotek procent. Nejlepˇs´ıch v´ ysledk˚ u bylo dosaˇzeno pro n = 4; σ = 0,775. A to jak pro vstup s poˇctem tˇr´ıd 4 (T2 a T3), tak i pro T1 s 6 tˇr´ıdami. S d´ale rostouc´ım poˇctem shluk˚ u se dosahovalo stejn´ ych nebo dokonce horˇs´ıch v´ ysledk˚ u. Pro kostry ˇzen Evropanek pro T1 byl namˇeˇren nejlepˇs´ı v´ ysledek dokonce pouze pro n = 2. Pˇredpoklad, ˇze vˇetˇs´ı poˇcet shluk˚ u zlepˇs´ı v´ ysledky klasifikace, se nepotvrdil. Ve v´ ysledc´ıch je ˇ patrn´ y v´ yrazn´ y rozd´ıl klasifikace koster ˇzen v souborech T2 a T3. Zeny jsou v celkov´em souboru rovnomˇernˇe zastoupeny. V souboru Evropanek je v´ yraznˇejˇs´ı rozd´ıl v zastoupen´ı tˇr´ıd, viz n´asleduj´ıc´ı histogram; podle [Bruchanov, 07]. T3 < 29 30 - 59 > 60
ˇ Zeny Evropanky 32 111 103
T2 < 29 30 - 59 < 29
ˇ Zeny Evropanky 32 66 148
Tabulka 4.10: Zastoupen´ı ˇzen Evropanek
Kategorie T1 T2 T3
obˇe pohlav´ı 39,5% 67,6% 68,5%
ˇzeny 38,7% 68,0% 66,2%
muˇzi 43,4% 69,0% 70,8%
Evropan´e obˇe pohlav´ı ˇzeny 42,2% 36,1% 71,4% 73,5% 70,7% 64,3%
muˇzi 45,7% 72,2% 73,9%
Tabulka 4.11: RBF - nejlepˇs´ı v´ ysledky pro n=4 a σ = 0,775 V´ ysledky jsou podobn´e tˇem z metod Perceptron a LVQ. Opˇet zde doˇslo k podobn´e u ´spˇeˇsnosti klasifikace a ni tato metoda nevyboˇcuje oproti dˇr´ıve testovan´ ym.
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
30
Obr´azek 4.6: RBF - spr´avnˇe zaˇrazen´e vzorky pro n=4 a σ = 0,775
4.3 4.3.1
Metody shlukov´ e anal´ yzy SOM
Pro pr´aci se SOM mapami byl pouˇzit software SOM-PAK (Self-Organizing Map Packed). Jde o softwarov´ y simul´ator Kohonenovy samoorganizuj´ıc´ı neuronov´e s´ıtˇe. Program pracuje pod operaˇcn´ım syst´emem DOS, ale d´a se zprovoznit i pod Win 2000/XP. Ovl´ad´ an´ı tohoto programu je realizov´ano prostˇrednictv´ım d´avkov´eho souboru, kde si lze nastavit typ s´ıtˇe, poˇcet uˇc´ıc´ıch krok˚ u a jin´e. Vliv pohlav´ı na predikci vˇ eku Jako prvn´ı bylo zjiˇst’ov´ano, jestli m´a nˇejak´ y vliv, zda se jedn´a o kostru muˇzsk´eho nebo ˇzensk´e pohlav´ı. Zda by mˇela skuteˇcnost, ˇze se jedn´a o jedno nebo druh´e vliv nˇejak´ y vliv na v´ ysledky. Z experimentu na obr´azku 4.7 je moˇzno vidˇet, ˇze se neobjevil ˇz´ adn´ y v´ yznaˇcn´ y shluk, kter´ y by naznaˇcoval, ˇze pohlav´ı ovlivˇ nuje predikci st´aˇr´ı. V ˇcemˇz se tato metoda shoduje s metodami klasifikaˇcn´ımi. Na z´akladˇe tohoto zjiˇstˇen´ı by se dalo vylouˇcit pohlav´ı zesnul´eho ze vstupn´ım dat pro uˇcen´ı s´ıt´ı, protoˇze nem´a velk´ y vliv na odhad st´aˇr´ı. V´ yznamnost p˚ uvodu zesnul´ eho Dalˇs´ım experimentem bylo ovˇeˇren´ı, zda m´a vliv n´arodnost ˇci kontinent, na kter´em zesnul´ y ˇzil, na odhad st´aˇr´ı. Jako vstupn´ı data byly pouˇzity kostern´ı ohodnocen´ı a jako zobrazovan´ a veliˇcina na obr´azku 4.8 n´arodnost a na obr´azku 4.9 kontinent na kter´em ˇzil. Z v´ ysledku je patrn´e, ˇze se opˇet neobjevily v´ yrazn´e shluku a tedy ani n´arodnost ani kontinent nejsou d˚ uleˇzit´e vstupn´ı informace pro urˇcov´an´ı vˇeku. Urˇ cen´ı vˇ eku podle SOM map Hlavn´ı ot´azkou je zda dok´aˇz´ı SOM mapy naj´ıt v antropologick´ ych datech nˇejakou souvislost mezi vstupy a v´ ysledn´ ym vˇekem. Zda se podaˇr´ı naj´ıt nˇejak´e shluky. V´ ysledn´ a mapa je vidˇet na obr´azku 4.10. Je vidˇet, ˇze ˇz´adn´e v´ yrazn´e shluky nevznikly. D´a se vypozorovat jak´asi bari´era ve tvaru p´ısmene M, proch´azej´ıc´ı z lev´eho doln´ıho rohu do stˇredu, kde vytvoˇr´ı stˇred p´ısmene M a d´ale pokraˇcuje do prav´eho doln´ıho rohu. T´ım rozdˇel´ı u-matici na tˇri oblasti. V nich lze nal´ezt podobn´e neurony, ale d´ıky ˇsed´ ym oblastem, kter´e ˇc´ asteˇcnˇe pˇreruˇsuj´ı tyto shluky, nelze povaˇzovat tyto tˇri oblasti za spojit´e. Pokud se pod´ıv´ame bl´ıˇze na vzorky pˇr´ısluˇs´ıc´ı do dan´ ych oblast´ı, tak lze vypozorovat, ˇze v lev´e ˇc´asti se nach´azej´ı zesnul´ı s niˇzˇs´ım vˇekem a v prav´e ˇc´ asti s vyˇsˇs´ım vˇekem. D´ale pod pomysln´ ym
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
31
Obr´azek 4.7: SOM - U-matrix tr´enovan´ a podle kostern´ıch ohled´an´ı a zobrazeno pohlav´ı (M-muˇz, F-ˇzena)
ˇ Obr´azek 4.8: SOM - rozdˇelen´ı podle n´arodnosti (POR - Portugalci, SPAIN - Spanˇ el´e, SOTO ˇ Soto, SUISSE - Sv´ ycaˇri, THAI -Thaici, USAB – obˇcan´e USA a ˇcernoˇsi, USAW – obˇcan´e USA a bˇeloˇsi, ZULU - Zulu)
32
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
Obr´azek 4.9: SOM - rozdˇelen´ı podle kontinentu (AFRIC- Afrika, ASIA -Asie, EUR – Evropa, NA – -Severn´ı Amerika)
p´ısmenem M, v lev´e ˇc´asti pod obloukem lze naj´ıt vˇek mezi tˇriceti a pades´ati lety. T´ım ovˇsem podobnosti konˇc´ı a ve zbyl´ ych oblastech se nach´ azej´ı kostry r˚ uzn´eho vˇeku. Tud´ıˇz pokud bychom dostaly kostry s podobn´ ym ohled´an´ım jako vzorky z pod lev´e ˇc´ asti oblouku p´ısmene M, mohli bychom odhadnou vˇek kolem 40 let plus minus deset let. Ale co se t´ yˇce jin´ ych ohled´an´ı koster, dostaneme nepˇresn´ y odhad. Kostry podobn´e vzork˚ um v lev´e ˇc´ asti bychom mohli odhadnout na mladˇs´ı pades´ati ˇci ˇsedes´ati let a kostry podobn´e vzork˚ um prav´e ˇc´ asti starˇs´ı jako pˇribliˇznˇe pˇetapades´ati let. Ale bohuˇzel i v tˇechto oblastech se vyskytuj´ı jedinci s odliˇsn´ ym vˇekem, proto odhad bude nepˇresn´ y. SOM mapy z [Macek, 06]. Takˇze i metoda SOM n´am dala v´ ysledky podobn´e pˇredchoz´ım metod´am. Nejde o chybu metody, protoˇze za pouˇzit´ı SOM map na jin´ ych datech pracuje metoda v poˇr´ adku, ale o ˇsum obsaˇzen´ y v antropologick´ ych datech. Odhad st´aˇr´ı z tˇechto dat je znaˇcnˇe nepˇresn´ y. Na coˇz ukazuj´ı zat´ım vˇsechny pouˇzit´e algoritmy. Proto se d´ale pokus´ım oˇcistit data pomoc´ı pˇredzpracovac´ıch metod, zda n´am toto pom˚ uˇze k lepˇs´ımu v´ ysledku.
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
33
Obr´azek 4.10: SOM - v´ ysledn´e ”shluky” koster podle st´aˇr´ı
4.4
Pˇ redzpracovac´ı metody
D˚ uvodem pouˇzit´ı pˇredzpracovac´ıch metod je u ´sil´ı o zlepˇsen´ı v´ ysledk˚ u na AD. Vyzkouˇset jednotliv´e pˇredzpracov´an´ı a posoudit podle v´ ysledk˚ u, zda n´am mohou pomoci zlepˇsit kvalitu dat. V´ ybornˇe n´am tak´e poslouˇz´ı k otestov´ an´ı modulu pro automatick´e pˇredzpracov´ an´ı. Protoˇze v´ ysledky z nˇej dosaˇzen´ ych budeme moci porovnat s v´ ysledky z jednotliv´ ych PM a porovnat, zda modul zvol´ı spr´avn´e sekvence PM a dos´ahne tak vˇetˇs´ı u ´spˇeˇsnosti. Vstupn´ı antropologick´a data byla rozdˇelena na tr´enovac´ı a testovac´ı v pomˇeru 70 : 30. Tr´enovac´ı data byla jednak ponech´ana beze zmˇeny a d´ale byly nˇekter´e vstupn´ı hodnoty nahrazeny hodnotou NaN (v´ ystupn´ı hodnota (vˇek) byla ponech´ ana nezmˇenˇena). Bylo vyzkouˇseno nahradit 10%, 20%, 30%, 40% a 50% hodnot. Na tyto nahrazen´a data byly pot´e aplikov´ any pˇredzpracovac´ı metody, aby nezn´amou hodnotu NaN nahradily a t´ım se mohlo posoudit kvalitu pˇredzpracovac´ıch metod a jejich pozitivn´ı ˇci negativn´ı vliv na antropologick´ a data. Testy s pˇredzpracovac´ımi metodami byly provedeny na softwaru GAME a za pouˇzit´ı FAKE GAME, jenˇz jde ovl´adat z pˇr´ıkazov´e ˇr´ adky a nastavit spoustu parametr˚ u v´ ypoˇctu. Jako hlavn´ı konfigurace se bere z programu GAME, kde se dopˇredu nastav´ı poˇzadovan´e parametry (napˇr´ıklad jednotky kter´e budou pouˇzity k tvorbˇe s´ıtˇe, poˇcet model˚ u, kter´e se maj´ı vytvoˇrit, pomˇer tr´enovac´ıch/testovac´ıch dat a spousta dalˇs´ıho) a v´ ysledn´ y konfiguraˇcn´ı soubor je uloˇzen do souboru a naˇc´ıt´a se pˇri pouˇz´ıv´an´ı FAKE GAME. Jako pˇredzpracovac´ı metody byly vyuˇzity ty, kter´e jsou implementov´ any v programu GAME. Program samotn´ y spolu se zobrazen´ım pˇredzpracovac´ıho dialogu je moˇzno vidˇet na obr´azku 4.11. Metody, kter´e byly pouˇzity jsou n´asleduj´ıc´ı: • CMVI - Constant Missing Value Imputer • MMVI - Median Missing Value Imputer • NNMVI - Nearest Neighbor Missing Value Imputer • NA - Noise adder
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
34
Obr´azek 4.11: Uk´azka programu GAME spolu s pˇredzpracovac´ım dialogem
Jednotliv´e metody ve zkratce udˇelaj´ı s daty n´asleduj´ıc´ı. CMVI nahrad´ı chybˇej´ıc´ı hodnoty (v m´em pˇr´ıpadˇe hodnoty oznaˇcen´e jako NaN) celoˇc´ıselnou konstantou. MMVI nahrad´ı hodnoty NaN stˇredn´ı hodnotou vypoˇc´ıtanou z ostan´ıch vstupn´ıch dat (vˇetˇsinou nejde o celoˇc´ıselnou konstantu). NNMVI nahrad´ı chybˇej´ıc´ı hodnotu za pomoci sousedn´ıch hodnot, ze kter´ ych chybˇej´ıc´ı hodnotu vypoˇc´ıt´a. NA nenahrazuje hodnoty NaN v˚ ubec, ale zato nahrad´ı vˇsechny ostatn´ı vstupn´ı hodnoty. Tyto metody byly aplikov´ any na vˇsechny sloupce se vstupn´ımi daty. V´ıce se lze o pˇredzpracovac´ıch metod´ach doˇc´ıst v kapitole vˇenovan´e teorii pˇredzpracovac´ıch metod. Jin´e metody nebyly pouˇzity, protoˇze se pˇri pokusech aplikovat na AD neosvˇedˇcily a nepˇrin´aˇsely poˇzadovan´e zlepˇsen´ı v´ ysledk˚ u.
4.4.1
V´ ysledky jednotliv´ ych metod
Pro porovn´an´ı v´ ysledk˚ u z pˇredchoz´ıch popsan´ ych metod GMDH a GAME, byly v´ ysledky z tabulky 4.2 ze strany 23 pˇrepoˇc´ıt´any podle vzorce 4.2 a jsou zobrazeny v tabulce 4.12. Bude tak moˇzno porovnat pˇredchoz´ı v´ ysledky bez pˇredzpracovac´ıch metod s v´ ysledky za pouˇzit´ı r˚ uzn´ ych pˇredzpracovac´ıch metod.
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
35
v u N u1 X RM S = t ∗ (y − d)2i
N
(4.2)
i=1
Kde: N – poˇcet pouˇzit´ ych vzork˚ u, y – v´ ystupn´ı vypoˇc´ıtan´ a hodnota, d – skuteˇcn´ a hodnota Model GAME GAME GMDH GMDH
Train 1 8,180 8,180 8,109 8,019
Test 1 11,788 11,770 12,324 12,592
Train 2 8,127 8,127 8,234 8,127
Test 2 12,127 12,127 12,038 11,806
Test avg 11,949 11,949 12,181 12,199
Tabulka 4.12: Pˇrepoˇc´ıt´ any v´ ysledky GMDH a GAME Pˇri testov´an´ı PM jsem postupoval tak, ˇze jsem si vytvoˇril tr´enovac´ı data, ve kter´ ych byly vstupn´ı ´ hodnoty v r˚ uzn´em procentu´aln´ım zastoupen´ı nahrazeny nezn´amou hodnotou NaN. Ukolem PM bylo tuto hodnotu co nejl´epe nahradit hodnotou ˇc´ıselnou, tak aby v´ ysledn´ a tr´enovac´ı data obsahovala co nejmenˇs´ı chybu a nebyla tolik zaˇsumˇel´ a. Coˇz se testovalo oproti testovac´ım dat˚ um, kter´a byla kompletn´ı bez chybˇej´ıc´ıch hodnot a dal se tak zvalidovat v´ ysledek. Nejprve jsem zkouˇsel jednotliv´e pˇredzpracovac´ı metody zvl´aˇst’, kdy byla kaˇzd´ a pouˇzita na vˇsechna vstupn´ı data. Bylo pouˇzito defaultn´ıho nastaven´ı GAME s tˇemi zmˇenami, kdy bylo vyzkouˇseno r˚ uzn´e nastaven´ı pouˇzit´ ych jednotek pro stavbu s´ıtˇe. Defaultn´ı nastaven´ı se pˇri testov´an´ı uk´azalo jako ide´aln´ı, protoˇze pˇri zvˇetˇsen´ı poˇzadavk˚ u na kvalitu s´ıtˇe se zvyˇsoval v´ ypoˇcetn´ı ˇcas a v´ ystup se zlepˇsoval jenom nepatrnˇe. Jednak jsem vyzkouˇsel pouˇzit´ı jenom jednotek typu linear a oproti tomu vyuˇz´ıt vˇsechny moˇzn´e jednotky, kter´e GAME nab´ız´ı. Coˇz jsou line´arn´ı, polynomi´aln´ı (CombiNeuron, PolyHornerNeuron, PlySimpleNeuron, PolySimpleNRNeuron), perceptrony (BPNetwork, NRBPNetwork) a ostatn´ı jednotky (ExpNeuron, SignumNeuron, SinusNeuron, PolyFractNeuron a r˚ uzn´e typy Gaussova neuronu). D´ale jsem zkouˇsel vytv´aˇret jenom jeden samostatn´ y model a na nˇem zjiˇst’ovat u ´spˇeˇsnost odhadu vˇeku. A oproti tomu tzv. ensemble techniku, kdy se vyuˇzije v´ıce model˚ u k z´ısk´ an´ı vˇetˇs´ı pˇresnosti. V m´em pˇr´ıpadˇe jsem pouˇz´ıval na tutu techniku modely tˇri. To z toho d˚ uvodu, ˇze to byl kompromis mezi z´ıskan´ ym v´ ysledkem a v´ ypoˇcetn´ım ˇcasem, protoˇze za pouˇzit´ı t´eto techniky jsou v´ ypoˇcty ˇcasovˇe n´aroˇcn´e. Jako software pro testov´an´ı jsem zvolil FAKE GAME, kter´ y dobˇre splˇ nuje poˇzadavky na to, co jsem potˇreboval. Nav´ıc je odzkouˇsen na r˚ uzn´ ych datech a je ovˇeˇrena jeho spr´avn´ a funkˇcnost a spolehlivost. Jako pˇr´ıklad jednoho z pouˇzit´ ych pˇr´ıkaz˚ u k tvorbˇe modelu je zde: java -Xmx512M -Xms128M -jar fake_runtime.jar -c NewAllunits -n 3 -f -d ADTraining10a-CMVI -t ADtesting Z tohoto pˇr´ıkazu lze vidˇet, ˇze program pracuje v prostˇred´ı Java. Vyuˇz´ıv´ a ke sv´emu bˇehu bal´ık fake runtime.jar (-jar fake runtime.jar). Zde je pouˇzito konfigurace, kdy je pouˇzito vˇsech jednotek pro tvorbu s´ıtˇe (-c NewAllunits). Je zapnut v´ ystup html souboru, kde jsou uloˇzeny v´ ysledky experimentu (-f). Je vytvoˇren ensemble model ze tˇr´ı samostatn´ ych model˚ u (-n 3) a je pouˇzita tr´enovac´ı a testovac´ı mnoˇzina dat (-d ADTraining10a-CMVIa -t ADtesting1). Jednotliv´a mˇeˇren´ı byla provedena vˇzdy stejn´ ym zp˚ usobem a pˇetkr´ at opakov´ ana pro dosaˇzen´ı
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
36 PM CMVI MMVI NA NNMVI bez PM
10% 12,805 13,161 17,432 12,948 17,311
20% 13,418 13,101 17,480 13,741 17,352
30% 13,452 13,192 16,838 13,170 16,518
40% 14,406 13,978 17,045 15,135 17,677
50% 15,487 14,875 17,176 15,392 17,271
0%
12,400
Tabulka 4.13: V´ ysledek pˇredzpracovac´ıch metod - All units, 1N PM CMVI MMVI NA NNMVI bez PM
10% 12,517 12,406 17,394 12,520 16,947
20% 12,995 12,857 17,036 13,444 17,157
30% 13,185 12,785 16,742 13,188 17,155
40% 14,007 13,988 17,210 14,901 17,315
50% 15,120 14,195 17,245 15,341 16,907
0%
12,004
Tabulka 4.14: V´ ysledek pˇredzpracovac´ıch metod - All units, ensemble (3N) pˇresnˇejˇs´ı hodnoty. Takˇze v´ ysledn´e hodnoty v n´asleduj´ıc´ıch tabulk´ach jsou pr˚ umˇerem z pˇeti mˇeˇren´ı. V prvn´ı tabulce 4.13 jsou v´ ysledky modelov´ an´ı za pouˇzit´ı vˇsech jednotek (All units) a vytv´aˇr´ı se jeden model (-n 1), tedy bez ensemble techniky. Ve spodn´ım ˇr´ adku je tak´e zobrazena chyba mˇeˇren´ı bez pouˇzit´ı pˇredzpracovac´ıch metod. Hodnoty v procentech v prvn´ım ˇr´ adku pˇredstavuj´ı mnoˇzstv´ı nahrazen´ ych hodnot. Vˇsechny v´ ysledn´e hodnoty v t´eto a dalˇs´ıch tabulk´ach jsou spoˇcteny podle vzorce 4.2. V druh´e tabulce 4.14 je pouˇzito opˇet vˇsech typ˚ u jednotek (All units) a je zde pouˇzita tvorba ensemble modelu ze tˇr´ı model˚ u (-n 3). Ve tˇret´ı tabulce 4.15 jsou v´ ypoˇcty provedeny za pouˇzit´ım jednotek linear a tvorby jednoho modelu. ˇ Ctvrtou tabulkou 4.16, za pouˇzit´ı pˇredzpracovac´ıch metod kaˇzd´e zvl´aˇst’, je tabulka s pouˇzit´ım jednotek linear a tvorbˇe ensemble modelu. Z v´ ysledk˚ u experiment˚ u z tabulek 4.13 aˇz 4.16 lze doj´ıt k nˇekolika z´avˇer˚ um. ’ Prvn´ım je, ˇze at uˇz za pouˇzit´ı pouze linear jednotek (LJ) ˇci vˇsech jednotek (all units PM CMVI MMVI NA NNMVI bez PM
10% 14,311 12,170 NaN 12,554 NaN
20% 14,811 12,427 NaN 13,512 NaN
30% 15,901 12,718 NaN 13,645 NaN
40% 16,510 13,667 NaN 15,453 NaN
50% 16,642 14,525 NaN 15,588 NaN
0%
12,773
Tabulka 4.15: V´ ysledek pˇredzpracovac´ıch metod - linear, 1N
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU PM CMVI MMVI NA NNMVI bez PM
10% 14,215 12,496 NaN 12,689 NaN
20% 14,398 12,338 NaN 13,566 NaN
30% 15,844 12,253 NaN 13,235 NaN
37 40% 15,584 14,516 NaN 14,813 NaN
50% 16,630 14,363 NaN 15,094 NaN
0%
11,864
Tabulka 4.16: V´ ysledek pˇredzpracovac´ıch metod - linear, ensemble (3N)
AU) vych´az´ı pˇrev´aˇzn´a ˇc´ast v´ ysledk˚ u l´epe s vyuˇzit´ım ensemble techniky (ET). Coˇz nen´ı pˇr´ıliˇs pˇrekvapuj´ıc´ı, protoˇze se vyuˇz´ıv´a tˇr´ı model˚ u popisuj´ıc´ı stejnou vˇec, na m´ısto pouze jednoho. T´ım se potvrdilo, ˇze pouˇzit´ı t´eto techniky se vyplat´ı pro dosaˇzen´ı lepˇs´ıch v´ ysledk˚ u. Mus´ıme m´ıt ale na pamˇeti, ˇze ˇcasov´a n´aroˇcnost se zvyˇsuje s mnoˇzstv´ım model˚ u, kter´e pˇri ensemble pouˇzijeme. Kdyˇz jsem zkouˇsel v´ ypoˇcty s jedn´ım modelem a pot´e pouˇzil stejn´e v´ ypoˇcty na ensemble (za pouˇzit´ı tˇr´ı model˚ u), tak ˇcas na v´ ypoˇcet byl pˇribliˇznˇe trojn´asobn´ y. To ˇcin´ı v´ ypoˇcty ˇcasovˇe n´aroˇcn´ ymi a je zapotˇreb´ı naj´ıt kompromis mezi kvalitou v´ ysledku a ˇcasem str´aven´ ym v´ ypoˇcetn´ı jednotkou na tvorbˇe modelu. Druh´ ym z´avˇerem, kter´ y lze z v´ ysledk˚ u vyvodit je, ˇze u metod MMVI a NNMVI vych´ az´ı v´ ysledky za pouˇzit´ı pouze LJ v nˇekter´ ych hodnot´ach, ale pˇreci jenom o nˇeco m´alo l´epe neˇz pˇri pouˇzit´ı AU. To mˇe trochu pˇrekvapilo, protoˇze jsem oˇcek´ aval, ˇze pˇri pouˇzit´ı stejn´ ych jednotek (LJ) doplnˇen´ ych jeˇstˇe o jin´e, bude v´ ysledek lepˇs´ı AU znatelnˇe lepˇs´ı, coˇz se zde neprojevilo. Ale na druhou stranu je rozd´ıl t´emˇeˇr zanedbateln´ y a jeˇstˇe ne ve vˇsech hodnot´ach LJ vedou. Kde je vˇsak jasnˇe vidˇet lepˇs´ı v´ ysledky za pouˇzit´ı AU je u pˇredzpracovac´ı metody CMVI. Zde je uˇz rozd´ıl mezi pouˇzit´ım LJ a AU markantnˇejˇs´ı, oproti rozd´ılu u metod MMVI a NNMVI. Tam byl rozd´ıl v ˇr´adu desetin aˇz setin, kdeˇzto zde je rozd´ıl i v ˇr´ adu jednotek. Tady se projevilo vyuˇzit´ı v´ıce jednotek k nauˇcen´ı modelu daleko v´ yhodnˇejˇs´ı. Dalˇs´ı oblast, kde pouˇzit´ı AU je kaˇzdop´adnˇe v´ yhodnˇejˇs´ı, je v m´em pˇr´ıpadˇe u metody NA a tak´e u dat bez pouˇzit´ı jak´ekoliv pˇredzpracovac´ı metody. Zde LJ selh´avaj´ı a jako nejd˚ uleˇzitˇejˇs´ı hodnotu berou NaN, na kterou nauˇc´ı s´ıt’, coˇz se samozˇrejmˇe ˇspatnˇe a v´ ysledek je hodnota NaN m´ısto ˇc´ısla predikovan´eho vˇeku. U metody NA k tomu doˇslo z toho d˚ uvodu, jak tato metoda funguje, protoˇze ta nenahrazuje hodnotu NaN. Ta pouze zmˇen´ı ˇc´ıseln´e hodnoty, ale NaN v datech poˇr´ ad z˚ ust´ av´ a. Proto by se mohla projevit l´epe aˇz po jin´e pˇredzpracovac´ı metodˇe, kter´a NaN z dat odstran´ı na ˇc´ıselnou hodnotu. Dalˇ s´ı z´avˇer z tˇechto ˇctyˇr tabulek by ˇsel vyvodit z toho, kter´a pˇredzpracovac´ı metoda si l´epe vedla a po jej´ım pouˇzit´ı a vytvoˇren´ı modelu, byla spoˇc´ıt´ ana nejmenˇs´ı chyba. Na prvn´ı pohled to nen´ı u ´plnˇe zˇrejm´e, a proto jsem si spoˇc´ıtal pr˚ umˇern´e hodnoty chyb kaˇzd´e metody pro vˇsechna procentu´aln´ı zastoupen´ı chybˇej´ıc´ıch hodnot. A metoda s nejmenˇs´ı chybou je MMVI za pouˇzit´ı line´arn´ıch jednotek. Ale rozd´ıly jsou opravdu nepatrn´e, ty jsou aˇz v ˇr´ adu desetin. Opomenu-li metodu NA, kter´a nenahrazuje chybˇej´ıc´ı hodnoty a tak aplikovan´ a sama ned´av´ a moc dobr´e v´ ysledky. Druh´e nejlepˇs´ı v´ ysledky d´av´ a stejn´a metoda (MMVI ) a za pouˇzit´ı vˇsech jednotek. A jako pomyslnou tˇret´ı nejlepˇs´ı metodou je CMVI za pouˇzit´ı AU. T´ımto jsem odzkouˇsel pouˇziteln´e pˇredzpracovac´ı metody kaˇzdou zvl´aˇst’ aplikovat na antropologick´a data s chybˇej´ıc´ımi hodnotami a zjistit jak dopadnou a jak si s nahrazen´ım dat porad´ı. Z v´ ysledku je vidˇet, ˇze chyba je vˇetˇs´ı neˇz chyba u stejn´ ych metod neuronov´ ych s´ıt´ı pouˇzit´ ych na data bez nahrazen´ı hodnot za hodnoty nezn´am´e. Coˇz je d´ano t´ım, ˇze po nahra-
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
38
zen´ı nˇekter´ ych hodnot pˇredzpracovac´ımi metodami, se je nepodaˇrilo nahradit lepˇs´ımi. A tak z˚ ust´avaj´ı nezmˇenˇen´a antropologick´a data po tˇechto experimentech sama o sobˇe lepˇs´ı. I kdyˇz i tak d´avaj´ı velkou chybu. Z tabulky 4.12, kde jsou vidˇet v´ ysledky metod GMDH a GAME, kter´e byly spoˇc´ıt´any dˇr´ıve, je z hodnot vidˇet, ˇze dopadly t´emˇeˇr totoˇznˇe jako u test˚ u pˇredzpracovac´ıch metod, ale s daty s nezmˇenˇen´ ymi hodnotami. T´ım jsem si ovˇeˇril, ˇze pouˇzit´e postupy a metody pˇri v´ ypoˇctech kvality pˇredzpracovac´ıch metod byly spr´avn´e a spr´avnˇe pouˇzity. Dalˇs´ı co je moˇzn´e vyzkouˇset, je vyuˇzit´ı automatick´eho pouˇzit´ı pˇredzpracovac´ıch metod aplikovan´ ych na data. Tuto funkˇcnost pˇridal do programu GAME Miloslav Pavl´ıˇcek, jako v´ ysledek sv´e diplomov´e pr´ace [Pavl´ıˇcek, 08]. 4.4.2
V´ ysledky experiment˚ u za pouˇ zit´ı modulu pro automatick´ e pˇ redzpracov´ an´ı dat
Tento modul nebyl zat´ım testov´an na antropologick´ ych datech. Tak bude zaj´ımav´e srovnat ’ v´ ysledky jednotliv´ ych metod zvl´aˇst , jak bylo provedeno v´ yˇse, oproti tomuto modulu. Modul funguje tak, ˇze po naˇcten´ı tr´enovac´ıch a testovac´ıch dat a nastaven´ım poˇzadovan´e konfigurace, zaˇcne ˇslechtit chromoz´om, kter´ y by mˇel na konci procesu obsahovat nejlepˇs´ı posloupnost pˇredzpracovac´ıch metod vhodn´ ych pro pˇredloˇzen´ a data. V´ ysledn´ y nejlepˇs´ı chromoz´ om se pak aplikuje na tr´enovac´ı data, na nichˇz nahrad´ı hodnoty podle posloupnosti PM. T´ım by mˇelo b´ yt dosaˇzeno nejlepˇs´ıho nahrazen´ı hodnot v dan´ ych datech. Modul obsahuje funkˇcn´ı tyto pˇredzpracovac´ı metody: • EP - Example preprocessor • NA - Noise adder • CMVI - Constant Missing Value Imputer • MMVI - Median Missing Value Imputer • NNMVI - Nearest Neighbor Missing Value Imputer • MIR - Missing Instances Remover Z v´ ypisu je vidˇet, ˇze obsahuje metody pouˇzit´e v sekci 4.4.1 a d´ale nav´ıc metody Example preprocessor - EP a Missing Instances Remover - MIR. Ty se mˇe pˇri testov´ an´ı pˇr´ıliˇs neosvˇedˇcili. Obzvl´aˇstˇe pˇri pr´aci se samostatnou metodou MIR doˇslo k tomu, ˇze jak metoda odstraˇ nuje chybˇej´ıc´ı hodnoty, tak z mnoˇziny, kde chyb´ı 10% hodnot odebrala tolik dat, ˇze z˚ ustalo jenom 50 ˇr´adk˚ u hodnot. Pˇri pouˇzit´ı na 20% chybˇej´ıc´ıch hodnot zbylo 5 hodnot. A pˇri pouˇzit´ı na 30% NaN hodnot nezbyly ˇz´adn´e data. Coˇz je tak´e zp˚ usobeno t´ım, ˇze jsem vˇzdy aplikoval PM na vˇsechny sloupce se vstupn´ımi hodnotami. To z toho d˚ uvodu, ˇze jsem vych´ azel z pˇredpokladu, ˇze pokud bude nˇekdo pracovat s daty, kter´e dobˇre nezn´a a nev´ı kter´e sloupce hodnot jsou d˚ uleˇzit´e, tak pouˇzije metody na vˇsechny. Modul pro automatick´e pˇredzpracov´an´ı dat (MAPD) pracuje inteligentnˇeji a pokud aplikoval metodu MIR, tak jenom na nˇekter´e sloupce a nepˇriˇslo se o tak znaˇcnou ˇc´ ast dat. Ale pro adekv´atn´ı porovn´an´ı jsem prvnˇe pouˇzil modul se stejn´ ymi metodami, jako jsem testoval samostatnˇe (tedy NA, CMVI, MMVI a NNMVI). To aby bylo moˇzno porovnat v´ ysledky metod pouˇzit´ ych samostatnˇe oproti tomuto automatick´emu pˇredzpracov´ an´ı. Pro zaj´ımavost jsem pak jeˇstˇe provedl testy se zapnut´ ymi vˇsemi metodami.
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU Units, model All units, 1N All units, ensemble (3N) Linear, N1 Linear, ensemble (N3)
0% 12,900 12,284 12,764 12,165
10% 12,933 12,503 12,818 11,679
39 20% 13,253 13,120 13,104 13,106
30% 14,011 13,656 13,311 13,374
40% 14,519 14,479 14,378 14,379
50% 14,726 14,867 15,550 14,922
Tabulka 4.17: V´ ysledky PM za pouˇzit´ı automatick´eho modulu - pouˇzity vybran´e metody
Jedin´e co jsem mˇenil v nastaven´ı MAPD, byly PM kter´e se maj´ı aplikovat. Zbytek nastaven´ı jsem nechal defaultnˇe, protoˇze je nastaveno dostateˇcnˇe silnˇe. Opˇet testy probˇehly za pouˇzit´ı line´arn´ıch a vˇsech jednotek. Tvorbou jednoho modelu a ensemble modelu. V tabulce 4.17 jsou v´ ysledky modulu za pouˇzit´ı metod jako v sekci 4.4.1. Pro kaˇzd´e data s r˚ uzn´ ym procentu´aln´ım zastoupen´ı nahrazen´ ych hodnot byl vyˇslechtˇen samostatn´ y chromoz´om, aby bylo dosaˇzeno co nejlepˇs´ıho v´ ysledku a dan´a sekvence PM obsaˇzen´ a v chromoz´ omu, byla pro dan´a data co nejoptim´alnˇejˇs´ı. Kaˇzd´ y test byl za stejn´eho nastaven´ı spuˇstˇen pˇetkr´ at a z tˇechto hodnot br´an pr˚ umˇer. Samotn´a tvorba chromoz´omu je v´ ypoˇcetnˇe ˇcasovˇe n´aroˇcn´ a. Takˇze k ˇcasu potˇrebn´emu na tvorbu neuronov´e s´ıtˇe pˇribude jeˇstˇe doba na ˇslechtˇen´ı chromoz´ omu. Z tabulky 4.17 je z v´ ysledn´ ych hodnot chyby vidˇet, ˇze i zde dopadly l´epe ensemble modely. U nich je v´ ysledn´a chyba menˇs´ı neˇz pouze u tvorby jedin´eho modelu. Opˇet se uk´azalo, ˇze pr˚ umˇernˇe jsou v ˇr´adu desetin lepˇs´ı v´ ysledky za pouˇzit´ı pouze line´arn´ıch jednotek, ale rozd´ıl je nepatrn´ y. Oproti pˇredchoz´ım v´ ysledk˚ um PM je zde vidˇet, ˇze vˇsechny metody vykazuj´ı hodnˇe vyrovnan´e a podobn´e v´ ysledky. Nejsou zde tak velk´e rozd´ıly chyby RMS mezi pouˇzit´ ymi jednotkami na tvorbu neuronov´e s´ıtˇe. Coˇz pˇriˇc´ıt´ am dobr´e adaptaci chromoz´ omu na pˇredloˇzen´e data a t´ım dobˇre zvolen´e kombinaci PM. Pro dobr´e porovn´an´ı hodnot jsem v´ ysledky z tabulek 4.13 aˇz 4.16, ze strany 36 zpr˚ umˇeroval do tabulky 4.18. Pr˚ umˇer je vˇzdy br´an ze vˇsech PM pro dan´ y sloupec procenta nahrazen´ ych hodnot. V´ yjimkou jsou hodnoty pro line´arn´ı jednotky spolu s metodou NA, kde v´ ysledkem je hodnota NaN. Ty jsem samozˇrejmˇe do pr˚ umˇeru poˇc´ıtat nemohl. Proto je zapotˇreb´ı si uvˇedomit, ˇze pokud by zde metoda NA fungovala, dala by jistˇe horˇs´ı v´ ysledky neˇz dalˇs´ı tˇri PM. K tomuto z´avˇeru doch´az´ım podle v´ ysledk˚ u chyby metody NA v tabulk´ach 4.13 a 4.14 za pouˇzit´ı AU. Zde je jasnˇe vidˇet, ˇze tato metoda dopadla nejh˚ uˇre a d´av´ a velkou chybu, kter´a se negativnˇe projev´ı v pr˚ umˇeru hodnot. Proto je pr˚ umˇer chyby za pouˇzit´ı line´arn´ıch jednotek o to niˇzˇs´ı. Ale pro jistou pˇredstavu n´am toto postaˇc´ı. Pˇri pohledu na v´ ysledky je patrn´e, ˇze modul pro automatick´e pˇredzpracov´ an´ı si vedl l´epe neˇz samostatn´e metody zvl´aˇst’. Dokonce pˇredvedl lepˇs´ı v´ ysledky oproti pr˚ umˇern´ ym hodnot´am LJ z tabulky 4.18, ve kter´ ych neni zapoˇc´ıt´ ana chyba za metodu NA. Coˇz je d˚ ukazem toho, ˇze modul pracuje spr´avnˇe a je schopen pod´avat kvalitn´ı v´ ystupy. D´ıky kombinaci a aplikaci v´ıce pˇredzpracovac´ıch metod, na sloupce a hodnoty, kde to bylo vhodn´e, byl schopen MAPD podat lepˇs´ı v´ ysledky, ˇc´ımˇz se prok´azala jeho dobr´a funkˇcnost na antropologick´ ych datech. Pro zaj´ımavost jsem jeˇstˇe provedl v´ ypoˇcet chyby opˇet s pouˇzit´ım MAPD, ale s t´ım rozd´ılem, ˇze jsem nechal zapnuty vˇsechny funkˇcn´ı PM metody. V´ ysledky jsou v tabulce 4.19. Velk´ y rozd´ıl oproti pouˇzit´ı jenom vybran´ ych pˇredzpracovac´ıch metod nen´ı, ale pˇreci jenom k lehk´emu zhorˇsen´ı doˇslo. Nejde o nic razantn´ıho, ale kaˇzdop´ adnˇe to ke zlepˇsen´ı nepomohlo. Proto metody
´ ˚ KAPITOLA 4. VYSLEDKY EXPERIMENTU
40 Units, model All units, 1N All units, ensemble (3N) Linear, N1 Linear, ensemble (N3)
10% 14,087 13,709 13,012 13,133
20% 14,435 14,083 13,583 13,434
30% 14,163 13,975 14,088 13,777
40% 15,141 15,027 15,210 14,971
50% 15,733 15,475 15,585 15,362
Tabulka 4.18: Pr˚ umˇern´e hodnoty z tabulek 4.13 aˇz 4.16 Units, model All units, 1N All units, ensemble (3N) Linear, N1 Linear, ensemble (N3)
10% 13,070 13,303 13,078 12,698
20% 12,706 13,065 12,691 12,588
30% 13,336 14,115 13,990 13,190
40% 14,307 14,098 14,533 13,931
50% 15,212 15,144 15,490 14,522
Tabulka 4.19: V´ ysledky PM za pouˇzit´ı automatick´eho modulu - pouˇzity vˇsechny metody Example preprocessor a Missing Instances Remover nepˇrin´ aˇsej´ı vylepˇsen´ı v´ ysledku na antropologick´ ych datech. Coˇz mˇe potvrdilo to, ˇze tyto metody na tyto data nejsou pˇr´ıliˇs vhodn´e.
´ ˚ KAPITOLA 5. ZHODNOCEN´I VYSLEDK U
41
5 Zhodnocen´ı v´ ysledk˚ u R´ad bych shrnul v´ ysledky, ke kter´ ym jsem v pr˚ ubˇeh˚ u pr´ace s antropologick´ ymi daty (AD) pˇriˇsel. Zhodnotil u ´spˇeˇsnost jednotliv´ ych metod a program˚ u a pokusil se doporuˇcit nejvhodnˇejˇs´ı. Jako jednou z oblast´ı v´ yzkumu bylo zhodnocen´ı AD pomoc´ı klasifikaˇcn´ıch metod (KM). Experimenty se podaˇrilo vyhodnocovat podle stejn´e metriky a tak v´ ysledky mohou b´ yt dobˇre porovn´av´any. Bylo tak´e zachov´ano stejn´e rozdˇelen´ı ve tˇrech skupin´ach T1, T2 a T3. Pro pˇrehlednost jsem v´ ysledky vˇsech tˇechto metod shrnul to tabulky 5.1. V n´ı jsem jeˇstˇe tuˇcnˇe zv´ yraznil hodnoty, kter´e pˇredstavuj´ı nejvˇetˇs´ı procento dobˇre zaˇrazen´ ych jedinc˚ u, v porovn´ an´ı s ostatn´ımi metodami. Z nich je dobˇre vidˇet, ˇze nejl´epe si vedli KM: Radial Basis Function - RBF a Learning Vector Quantization - LVQ. A z tˇechto dvou jeˇstˇe o nˇeco l´epe dopadla RBF. Zaj´ımav´e je, ˇze RBF ohodnotila l´epe Evropany, kdeˇzto LVQ vˇsechny kostry dohromady. Coˇz je v´ yhodnˇejˇs´ı v tom, pokud neprov´ad´ıme ˇz´adn´e dalˇs´ı u ´pravy dat a selekce. Nav´ıc rozd´ıly mezi tˇemito dvˇemi metodami nejsou velik´e. Proto bych obˇe hodnotil jako kvalitn´ı. Oproti tˇemto dvˇema metoda perceptron dopadla o nˇeco h˚ uˇre. Z tabulky je vidˇet, ˇze pouze dvˇe hodnoty m´a jako nejl´epe ohodnocen´e. Coˇz z n´ı dˇel´a ”nejhorˇs´ı”, ale neznamen´a to, ˇze by u ´plnˇe propadla. D´ale je z v´ ysledk˚ u patrn´e, ˇze pˇresnˇejˇs´ı urˇcov´ an´ı vˇeku v menˇs´ıch skupin´ach je dosti nepˇresn´e a v´ ysledky jsou neuspokojiv´e. Ve skupinˇe T1 se pohybujeme u ´spˇeˇsnost jenom kolem 41% dobˇre zaˇrazen´ ych jedinc˚ u. Rozˇclenˇen´ı na muˇze a ˇzeny tak´e nepˇrin´ aˇs´ı pˇr´ıliˇsn´e zlepˇsen´ı, sp´ıˇse by se dalo ˇr´ıci, ˇze zanedbateln´e. Coˇz tak´e potvrzuj´ı SOM mapy t´ım, ˇze nevznikly ˇz´ adn´e shluky podle pohlav´ı.
RBF
Perce.
LVQ
Vytˇr´ıdˇen´ı a klasifikace pouze Evropan˚ u zlepˇsilo o nˇeco m´alo u ´spˇeˇsnost, ale jenom v ˇr´ adu jednotek procent.
Kategorie T1 T2 T3 T1 T2 T3 T1 T2 T3
obˇe pohlav´ı 38,4% 68,6% 69,6% 37,4% 66,0% 67,6% 39,5% 67,6% 68,5%
ˇzeny 40,5% 68,6% 70,6% 35,0% 66,3% 65,3% 38,7% 68,0% 66,2%
muˇzi 35,8% 65,8% 65,3% 38,6% 66,4% 69,8% 43,4% 69,0% 70,8%
Evropan´e obˇe pohlav´ı ˇzeny 40,1% 46,6% 71,1% 71,5% 69,9% 73,3% 40,2% 35,2% 71,6% 70,8% 69,6% 62,9% 42,2% 36,1% 71,4% 73,5% 70,7% 64,3%
muˇzi 38,2% 72,0% 63,2% 41,3% 68,5% 75,0% 45,7% 72,2% 73,9%
Tabulka 5.1: Porovn´an´ı v´ ysledk˚ u klasifikaˇcn´ıch metod - tuˇcnˇe nejlepˇs´ı v´ ysledek Dalˇs´ı oblast´ı byly metody shlukov´e anal´ yzy - kde byly vyzkouˇseny SOM mapy. Na nich bylo tak´e zkoum´ano, zda m´a pohlav´ı vliv na predikci vˇeku, ale dospˇelo se ke stejn´emu z´avˇeru jako v KM, ˇze rozd´ıly v pohlav´ı jsou zanedbateln´e. Na map´ach nevznikly ˇz´ adn´e shluky. D´ale se testovalo, zda je d˚ uleˇzit´ ym vstupn´ım faktorem n´arodnost ˇci kontinent na kter´em zesnul´ y ˇzil. I zde nevznikly ˇz´adn´e shluky podobn´ ych jedinc˚ u, coˇz znamen´a m´enˇe podstatn´a vstupn´ı informace. To potvrzuj´ı i KM, kde vyˇclenˇen´ı Evropan˚ u z cel´eho souboru dat nevedlo k signifikantn´ımu vylepˇsen´ı u ´spˇeˇsnosti klasifikace.
´ ˚ KAPITOLA 5. ZHODNOCEN´I VYSLEDK U
42 Model GAME GAME GMDH GMDH
Train 1 8,180 8,180 8,109 8,019
Test 1 11,788 11,770 12,324 12,592
Train 2 8,127 8,127 8,234 8,127
Test 2 12,127 12,127 12,038 11,806
Test avg 11,949 11,949 12,181 12,199
LJ
AU
Tabulka 5.2: Vybran´e v´ ysledky algoritm˚ u GAME a GMDH - chyba RMS PM CMVI MMVI NNMVI CMVI MMVI NNMVI
10% 12,517 12,406 12,52 14,215 12,496 12,689
20% 12,995 12,857 13,444 14,398 12,338 13,566
30% 13,185 12,785 13,188 15,844 12,253 13,235
40% 14,007 13,988 14,901 15,584 14,516 14,813
50% 15,12 14,195 15,341 16,63 14,363 15,094
Pr˚ umˇer 13,565 13,246 13,879 15,334 13,193 13,880
Tabulka 5.3: Vybran´e nejlepˇs´ı PM za pouˇzit´ı ensemble techniky - tuˇcnˇe hodnoty s nejmenˇs´ı chybou; AU - vˇsechny jednotky, LJ - line´arn´ı jednotky A jako posledn´ı se na SOM map´ach pokouˇselo odpovˇedˇet na ot´azku, zda jsou AD vhodn´a k predikci vˇeku zesnul´eho. V nˇekter´ ych m´ıstech mapy se objevily tˇri nev´ yrazn´e shluky. Jeden reprezentoval jedince star´e tˇricet aˇz pades´at let. Dalˇs´ı kostry mladˇs´ı pades´ati let a tˇret´ı oblast starˇs´ı pades´ati let. Ale i v tˇechto se objevovaly jedinci jin´eho vˇeku. Coˇz ukazuje na velkou zaˇsumˇenost a nepˇresnost AD. Predikce st´aˇr´ı kostry z tˇechto dat je velmi nepˇresn´ a. Ke stejn´ ym v´ ysledk˚ um se doˇslo za pouˇzit´ı metod line´arn´ı regrese (GMDH a GAME). Zde se vˇsak netestovalo padnut´ı do urˇcit´e vˇekov´e skupiny, ale pokouˇselo se zde pˇresnˇe urˇcit vˇek kostry. V´ ysledky vˇsak prok´azaly, ˇze ani tˇemito metodami z AD nejde dostat lepˇs´ı v´ ysledky. Nejlepˇs´ı hodnoty zobrazuje tabulka 5.2. Zde jsou v´ ysledky v podobˇe chyby RMS podle vzorce 4.2. Tyto v´ ysledn´e hodnoty ukazuj´ı na nepˇresnost urˇcov´ an´ı v´ ysledn´e veliˇciny, coˇz je zde vˇek. Vykazuj´ı vysok´ y ˇsum, kter´ y do predikce st´aˇr´ı vn´aˇs´ı chyby. Proto je vhodn´e vyzkouˇset r˚ uzn´e pˇredzpracovac´ı metody, zda ty by nevyˇcistily data od tˇechto ”ˇspatn´ ych” hodnot a po jejich aplikov´an´ı bychom nedos´ahli lepˇs´ıch v´ ysledk˚ u. Za t´ımto u ´ˇcelem jsem otestoval nˇekolik PM, spolu s modulem pro automatick´e pˇredzpracov´ an´ı dat. Chtˇel jsem tak´e vyzkouˇset kvalitu pˇredzpracovac´ıch metod, a kter´a z nich je nejvhodnˇejˇs´ı. A nakonec samostatn´e metody porovnat s MAPD, zda ten dok´aˇze d´at lepˇs´ı v´ ysledky. Do tabulky 5.3 jsem vybral ty metody, kter´e dopadly nejl´epe a to na algoritmech za pouˇzit´ı ensemble techniky, kter´a d´avala lepˇs´ı v´ ysledky neˇz jeden model samotn´ y. Tuˇcnˇe jsou vˇzdy zv´ yraznˇeny ty hodnoty, kter´e mˇely menˇs´ı chybu, bud’ za pouˇzit´ı AU nebo LJ. Na konec jsem vloˇzil pr˚ umˇer z hodnot v dan´em ˇr´adku. Z v´ ysledk˚ u je vidˇet, ˇze nejl´epe dopadla metoda MMVI. Za jej´ıho pouˇzit´ı se podaˇrilo dos´ahnout nejmenˇs´ı chyby. Druhou nejlepˇs´ı byla metoda CMVI. V´ ysledky MAPD jsou shrnuty v tabulce 4.17 v pˇredchoz´ı kapitole. Ty kdyˇz se porovnaj´ı s v´ ysledky pr˚ umˇern´ ych hodnot PM, jako je tomu v tabulce 4.18, tak dojdeme k z´avˇeru, ˇze automatick´e pˇredzpracov´an´ı d´av´a menˇs´ı chybu. Kdyˇz ale porovn´ ame MAPD s hodnotami chyb jenom u metody MMVI, kter´a dopadla samostatnˇe nejl´epe, tak dojdeme ke zjiˇstˇen´ı, ˇze ta d´av´ a
´ ˚ KAPITOLA 5. ZHODNOCEN´I VYSLEDK U
Obr´azek 5.1: Uk´azka grafu tr´enovac´ıch dat pomoc´ı 2D regrese
43
44
´ ˚ KAPITOLA 5. ZHODNOCEN´I VYSLEDK U
Obr´azek 5.2: Rozptyl v´ ysledn´ ych hodnot MAPD - vybran´e PM metody
samo o sobˇe lepˇs´ı v´ ysledky. Ot´azkou ale z˚ ust´ av´ a, jestli to bude platit obecnˇe na jak´ ychkoliv datech, coˇz si nemysl´ım. Proto v´ yhoda MAPD spoˇc´ıv´ a v tom, ˇze nemus´ıme zn´at tak dobˇre dan´a data a modul za n´as pˇredpˇriprav´ı optim´aln´ı posloupnost pˇredzpracovac´ıch metod. Kter´e by n´am mˇely d´at po aplikov´an´ı na data kvalitn´ı v´ ysledek. Zkouˇsel jsem i PM na data, do kter´ ych nebyla z´amˇernˇe zanesena nezn´am´ a hodnota, tedy neupraven´e tr´enovac´ı data. Chtˇel jsem zjistit, jestli by n´am pˇredzpracov´ an´ı dat nedalo jeˇstˇe lepˇs´ı hodnoty. To se ale bohuˇzel nestalo. Kdyˇz jsem se pokouˇsel aplikovat PM po jedn´e, tak ty na datech bez chybˇej´ıc´ıch hodnot nic nenahradily a metoda NA vnesla jeˇstˇe vˇetˇs´ı chybu. Kde se projevily PM bylo, ale u modulu pro automatick´e pˇredzpracov´ an´ı dat. Tam byla vytvoˇrena sekvence PM, kter´e se aplikovaly. Ale bohuˇzel z v´ ysledku v tabulce 4.17 je ve sloupci pro 0% nahrazen´ ych hodnot vidˇet, ˇze v´ ysledky nejsou lepˇs´ı oproti v´ ysledk˚ um z tabulky 5.2. Coˇz vede k z´avˇeru, ˇze AD k odstranˇen´ı ˇsumu v datech pˇredzpracovac´ı metody pˇr´ıliˇs nepomohly. Na obr´azku 5.2 jsou zobrazeny rozptyly v´ ysledn´ ych hodnot z pˇeti mˇeˇren´ı pro modul MAPD, kde jsou pouˇzity jenom nˇekter´e PM. Rozptyl popisuje hodnoty z tabulky 4.17. Je vidˇet, ˇze rozptyl nen´ı zrovna nejmenˇs´ı. Rozd´ıl rozptylu mezi pouˇzit´ım vˇsech (AU) nebo line´arn´ıch jednotek (LJ) nen´ı nijak velik´ y. V obou pˇr´ıpadech jsou si rozptyly podobn´e. Zobrazil jsem jeˇstˇe rozptyl v´ ysledn´ ych hodnot pro nejlepˇs´ı pˇredzpracovac´ı metodu MMVI, za pouˇzit´ı ensemble techniky, na obr´azku 5.3. Opˇet jde o rozptyl z pˇeti hodnot z mˇeˇren´ı. Zde uˇz lze pozorovat trochu vˇetˇs´ı rozptyl za pouˇzit´ı vˇsech jednotek (AU). K dosaˇzen´ı menˇs´ıho rozptylu a pˇresnˇejˇs´ı pr˚ umˇern´e hodnoty by bylo zapotˇreb´ı mˇeˇren´ı opakovat daleko v´ıcekr´at. To je ale bohuˇzel ˇcasovˇe nadm´ıru n´aroˇcn´e. Mysl´ım si, ˇze m´e v´ ysledky d´avaj´ı dostateˇcnou pˇresnost, pro porovn´av´an´ı jednotliv´ ych metod a algoritm˚ u mezi sebou a vyvozen´ı z´avˇer˚ u.
´ ER ˇ KAPITOLA 6. ZAV
45
Obr´azek 5.3: Rozptyl v´ ysledn´ ych hodnot MMVI
6 Z´ avˇ er Mysl´ım si, ˇze se mˇe touto prac´ı podaˇrilo dobˇre zmapovat r˚ uzn´e metody a algoritmy vhodn´e pro anal´ yzu antropologick´ ych dat. Snaˇzil jsem se je popsat nejprve teoreticky, uk´azat jak funguj´ı a ˇceho jsme za jejich pomoci schopni dos´ahnout. Pot´e jsem je testoval a experiment´ alnˇe zkouˇsel dostat z nich co nejlepˇs´ı v´ ysledky na antropologick´ ych datech. Snaˇzil jsem se tak´e shrom´aˇzdit, utˇr´ıdit a porovnat v´ ysledky z jin´ ych prac´ı a doporuˇcit ty z nich, jeˇz prok´azaly nejlepˇs´ı v´ ysledky. Podaˇrilo se mi otestovat r˚ uzn´e pˇredzpracovac´ı metody a urˇcit jejich u ´spˇeˇsnost. Z v´ ysledk˚ u jsem tak´e urˇcil nejlepˇs´ı pro pouˇzit´ı na AD. N´aslednˇe jsem otestoval modul pro automatick´e pˇredzpracov´an´ı dat a odzkouˇsel ho tak na re´aln´ ych datech. V´ ysledky se pak daly pˇeknˇe porovnat s pouˇzit´ım jenom PM samostatn´ ych. Vyhodnocen´ı tˇechto mˇeˇren´ı jsou vidˇet v pˇredchoz´ıch kapitol´ach. Uk´azalo se, ˇze pˇredzpracovac´ı metody jsou vhodn´e pro u ´pravu dat a i MAPD uk´azal dobr´e v´ ysledky. Bohuˇzel antropologick´a data i po tˇechto vylepˇsen´ıch n´am ned´avaj´ı lepˇs´ı v´ ysledky. Coˇz pouk´azalo na velk´e zaˇsumˇen´ı dat a velkou chybu, kterou v sobˇe nesou. To tak´e potvrdily vˇsechny metody obsaˇzen´e v t´eto pr´aci. At’ uˇz se jednalo o metody line´arn´ı regrese, klasifikaˇcn´ı metody nebo metody shlukov´e anal´ yzy. Vˇsechny dospˇely ke stejn´ ym z´avˇer˚ um a ukazuj´ı na obt´ıˇznost spolehlivˇe predikovat vˇek koster z tˇechto dat.
46
´ ER ˇ KAPITOLA 6. ZAV
KAPITOLA 7. LITERATURA
47
7 Literatura [Devlin, 97] Devlin, B.: Data Warehouse from Architecture to Implementation Addison-Wesley. Reading, Massachusetts 1997 [Fayyad, 96] Fayyad, U.M., G. Piatetsky-Shapiro, P. Smyth: From Data Mining to Knowledge Discovery: An Overview. In : Fayyad, U.M. et al: Advances in Knowledge Discovery and Data Mining. California 1996 [Nov´ak, 06] Nov´ ak, J.: GMDH networks the KnowledgeMiner software ˇ Bakal´aˇrsk´a pr´ace, CVUT, Praha 2006 [Macek, 06] Macek, O.: Self-organizing maps (SOM) ˇ Bakal´aˇrsk´a pr´ace, CVUT, Praha 2006 [Kord´ık, 05] Kord´ık P.: Group of Adaptive Models Evolution Technical Report DCSE-DTP-2005-07, CTU Prague 2005. ˇ ˇ [Kord´ık, Snorek, 05] Kord´ık P., Snorek M.: Ensemble Techniques for Credibility Estimation of GAME Model, Artificial Neural Networks: Formal Models and Their Applications - ICANN 2005 Berlin: Springer, 2005 ´ [August´ yn, 07] August´yn, M.: Uloha 2 z pˇ redmˇ etu 36NAN - Neuronov´ e s´ıtˇ e a neuropoˇ c´ıtaˇ ce - Antropologick´ a data ˇ Semestr´aln´ı pr´ace z pˇredmˇetu 36NAN, CVUT, Praha 2007 [Prchl´ık, 07] Prchl´ık, M.: Druh´ a semestr´ aln´ı pr´ ace z pˇ redmˇ etu 36NAN ˇ Semestr´aln´ı pr´ace z pˇredmˇetu 36NAN, CVUT, Praha 2007 [Bruchanov, 07] Bruchanov, M.: Klasifikace antropologick´ ych dat ˇ Semestr´aln´ı pr´ace z pˇredmˇetu 36NAN, CVUT, Praha 2007 [G´alet, 07] G´ alet, M.: Grafick´ a nadstavba pro syst´ em z´ısk´ av´ an´ı znalost´ı Diplomov´a pr´ace, VUT, Brno 2007 [Pavl´ıˇcek, 08] Pavl´ıˇcek, M.: Modul pro automatick´ e pˇ redzpracovan´ı dat ˇ Diplomov´a pr´ace, CVUT, Praha 2008 [Guyon, Elisseeff, 03] Guyon I., Elisseeff A.: An introduction to variable and feature selection Journal of machine learning research, 3(1):1157–1182, 2003 [Han, Kamber, 06] Han J., Kamber M.: Data Mining: Concepts and Techniques. Second edition. Elsevier Inc., 2006 [Zelenka, 07] Zelenka, P.: Pˇ redzpracov´ an´ı dat v programu YALE ˇ Diplomov´a pr´ace, CVUT, Praha 2007 [GMDH web] V´yukov´e p´ asmo na t´ema GMDH http://neuron.felk.cvut.cz/courseware/data/chapter/myska2000/ [MOON web] Learning Vector Quantization (LVQ) http://moon.felk.cvut.cz/~ pjv/Jak/ neur/n607/uvod.html
48
KAPITOLA 7. LITERATURA
[gerstner web] Pˇredzpracov´ an´ı dat pro data mining: metody a n´ astroje http://gerstner.felk.cvut.cz/biolab/33ZUI/tut-datamining.ppt [GMDH web2] Group method of data handling webpage htt://www.gmdh.net ˇ [CTU] Skoln´ ı str´ anka skupiny Neuronov´ych s´ıt´ı http://service.felk.cvut.cz/courses/36NAN/index.html [VSB web] RBF s´ıtˇe (Radial Basis Function) http://homen.vsb.cz/~ min038/rbf/rbf1.html#dalsi fce [Perceptron] Jeden perceptron - klasifikace http://neuron.felk.cvut.cz/courseware/data/chapter/36nan028/s04.html [SOM] Samouˇc´ıc´ı se neuronov´ a s´ıt’ - SOM, Kohonenovy mapy http://automatizace.hw.cz/mereni-a-regulace/ART244-samoucici-se-neuronova-sit--som-kohonenovy-mapy.html [SOM-PAK] Pouˇzit´ı programov´eho bal´ıku SOM PAK pro samoorganizuj´ıc´ı neuronov´e s´ıtˇe (mapy) http://www.jakubholy.net/school/som pak.html
ˇ YCH ´ DODATEK A. SEZNAM POUZIT ZKRATEK
A Seznam pouˇ zit´ ych zkratek AD - Antropologick´a data AU - All units - vˇsechny jednotky CMVI - Constant Missing Value Imputer EP - Example preprocessor ET - Ensemble technika GAME - Group of Adaptive Models Evolution GMDH - Group Method of Data Handling ICA - Independent Component Analysis KM - Klasifikaˇcn´ı metody LJ - Linear jednotky LVQ - Learning Vector Quantization MAPD - Modul pro automatick´e pˇredzpracov´ an´ı dat MIR - Missing Instances Remover MMVI - Median Missing Value Imputer NA - Noise adder NNMVI - Nearest Neighbor Missing Value Imputer PCA - Principal Component Analysis PM - Pˇredzpracovac´ı metoda RBF - Radial Basis Function RMS - Root mean squared error SOM - Self-Organizing Maps SOM-PAK - Self-Organizing Map Program Package
49
50
ˇ YCH ´ DODATEK A. SEZNAM POUZIT ZKRATEK
ˇ ˇ EHO ´ DODATEK B. OBSAH PRILO ZEN CD
B Obsah pˇ riloˇ zen´ eho CD | | | | | | |
- readme.txt - text/ - - DP Jakub Novak.pdf - data/
readme.txt - obsahuje popis jednotliv´ ych adres´aˇr˚ u a co se v nich nach´ az´ı text/ - Sloˇzka obsahuj´ıc´ı samotnou diplomovou pr´aci data/ - data pouˇzit´a pro v´ ypoˇcty
51