Feladatok diszkriminancia anal´ızisre
1. A (norm´alt) Fisher-f´ele line´aris diszkriminancia f¨uggv´eny a) 2 oszt´aly eset´en haszn´alatos alakja: L(x) = c µ(1) − µ(2)
T
Σ−1 x
ahol c =
(1) µ
(1)
−µ
(2) T
Σ
−1
µ
(1)
−µ
(2)
− 12
,
az oszt´alyoz´asi krit´erium: ha L(x) > L(µ), akkor az x megfigyel´est az 1. oszt´alyba soroljuk, (2) ha L(x) ≤ L(µ), akkor az x megfigyel´est a 2. oszt´alyba soroljuk; b) k oszt´aly eset´en haszn´alatos ´altal´anos alakja: L(x) = LT x ,
(3)
ahol L = `1 . . . `s
a Σ−1 B pozit´ıv saj´at´ert´ekeihez tartoz´o,
`Ti Σ`i = 1 -re norm´alt jobboldali saj´atvektoraib´ol ´all´o m´atrix, k X T B a csoportok k¨oz¨otti n´egyzet¨osszeg m´atrix : B = µ(i) − µ µ(i) − µ , i=1
az oszt´alyoz´asi krit´erium: ha L(x) − L µ(j) = min L(x) − L µ(i) , i=1,...,k
akkor az x megfigyel´est az i. oszt´alyba soroljuk
(feltessz¨uk, hogy az egyes oszt´alyokban folytonosak az eloszl´asf¨uggv´enyek,´ıgy 1 val´osz´ın˝us´eggel egy´ertelm˝u a minimumot ad´o index). Mutassuk meg, hogy k = 2 eset´en a diszkriminancia f¨uggv´eny k´et alakja el˝ojelt˝ol eltekintve ugyanazt a f¨uggv´enyt adja! Mutassuk meg, hogy a k´et oszt´alyoz´asi krit´erium is ugyanaz! Megold´as : Σ = Σp×p a k´et oszt´alybeli eloszl´as k¨oz¨os sz´or´asn´egyzet m´atrixa, µ1 ´es µ2 a k´et v´arhat´o´ert´ek vektor, µ = 12 µ1 + µ2 a teljes eloszl´as v´arhat´o´ert´ek vektora∗ . A B defin´ıci´oj´aba behelyettes´ıtve µ-t: B = µ(1) − µ
µ(1) − µ
T
+ µ(2) − µ
µ(2) − µ
T
=
T 1 (1) µ − µ(2) µ(1) − µ(2) . 4
∗ A ,,teljes eloszl´as” itt az egyes oszt´alybeli eloszl´asok azonos (teh´at 1/k, . . . , 1/k) s´ulyokkal vett kever´eke, azaz az a priori eloszl´as most diszkr´et egyenletes.
1
Mivel rang(Σ−1B) = rang(B) = 1, a Σ−1B-nek egy pozit´ıv saj´at´ert´eke van, teh´at s = 1, azaz az L m´atrix most egy oszlopvektor. Azt kell megmutatni, hogy k = 2-re a (3)-beli L vektor ´es az (1)-beli c Σ−1 µ(1) − µ(2) oszlopvektor ±1 t´enyez˝ot˝ol eltekintve ugyanaz. Mivel Σ−1B cΣ−1 µ(1) −µ(2) −1 (1) − 12 −1 (1) (2) (1) (2) T −1 (1) (2) 1 (1) (2) T (2) µ −µ Σ µ −µ = Σ µ −µ µ −µ Σ µ −µ 4 = λ c Σ−1 µ(1) − µ(2) , ahol λ = 1/(4c2 ), tov´abb´a T −1 (1) T µ − µ(2) = c2 µ(1) − µ(2) Σ−1 µ(1) − µ(2) = 1 , c Σ−1 µ(1) − µ(2) Σ cΣ az (1)-beli
. ` = c Σ−1 µ(1) − µ(2)
t´enyleg az `T Σ` m´odon norm´alt jobboldali saj´atvektora Σ−1B-nek, ´ıgy el˝ojelt˝ol eltekintve meg kell, hogy egyezzen a a (3)-beli L vektorral. Az oszt´alyoz´asi krit´erium a b)-beli diszkrimiminancia f¨uggv´eny haszn´alata, azaz ´altal´anos k eset´en, de most speci´alisan k = 2-re le´ırva: ha L(x) − L µ(1) < L(x) − L µ(2) , akkor az x megfigyel´est az 1. oszt´alyba soroljuk, ha L(x) − L µ(1) ≥ L(x) − L µ(2) , akkor az x megfigyel´est a 2. oszt´alyba soroljuk. Mivel most az L f¨uggv´eny ´ert´eke a sz´amegyenesen van, L(x) − L µ(1) < L(x) − L µ(2)
⇐⇒
L(x) > L
µ(1) + µ(2) 2
! = L(µ) ,
teh´at az a)-beli ´es a b)-beli oszt´alyoz´asi krit´erium k = 2-re ugyanaz. Megjegyz´es : Az el˝oz˝o feladatbeli ekvivalencia trivi´alis, ha azt is tanultuk, hogy az a) -beli ´es a b) -beli diszkriminancia f¨ uggv´eny is az oszt´aly v´arhat´o´ert´ekeket legjobban elk¨ ul¨ on´ıt˝ o, 1 sz´or´asn´egyzet˝ u line´aris f¨ uggv´eny, azaz mindkett˝o (el˝ojelt˝ol eltekintve) az, ami maximaliz´alja a 2 X
E
(i)
2 T X T (i) T T (` ξ) − E(` ξ) E (` ξ) − E(` ξ) = `T µ(i) − `T µ `T µ(i) − `T µ T
T
i=1
i=1
= `T
2 X i=1
kvadratikus form´at a D2 (`T ξ) = `T Σ ` = 1 felt´etel mellett.
2
T µ(i) − µ µ(i) − µ ` = `T B `
2. (Fisher-f´ele line´aris diszkriminancia anal´ızis k´et oszt´aly eset´en) K´et azonos sz´or´asn´egyzet m´atrix´u, k´etdimenzi´os eloszl´asb´ol sz´armaz´o adatm´atrix: ! ! 3 2 4 6 5 4 X (1) = , X (2) = . 7 4 7 9 7 8 a) Sz´amoljuk ki a norm´alt Fisher-f´ele tapasztalati line´aris diszkriminancia f¨uggv´enyt! b) Az x0 = (2, 7)T megfigyel´es melyik oszt´alyba tartozik a Fisher-f´ele diszkriminancia krit´erium szerint? c) Norm´alis eloszl´asokat ´es azonos a priori oszt´alyval´osz´ın˝us´egeket felt´etelezve az x0 = (2, 7)T megfigyel´es eset´en becs¨ulj¨uk az a poszteriori oszt´alyval´osz´ın˝us´egeket! d) Norm´alis eloszl´asokat ´es azonos a priori oszt´alyval´osz´ın˝us´egeket felt´etelezve becs¨ulj¨uk a hib´as oszt´alyba sorol´as val´osz´ın˝us´eg´et! e) Gener´aljunk SPSS-sel egy-egy n1 = n2 = 4999 elem˝u mint´at N2 (µ(1) , Σ) ill. N2 (µ(2) , Σ) eloszl´asb´ol, ahol µ(1) , µ(2) ´es Σ a fenti X (1) ´es X (2) mint´akb´ol becs¨ult v´arhat´o´ert´ek vektorok ´es k¨oz¨os sz´or´asn´egyzetm´atrix! Az Analyze . Classify . Discriminant elj´ar´assal ellen˝orizz¨uk, hogy j´o eredm´enyt adtunk-e az a), b), c), d) r´eszekre! (Seg´ıts´eg: tananyagnak adjuk meg a gener´alt k´et oszt´alybeli 4999-4999 megfigyel´est egy oszlopba, egy m´asik oszlopba pedig a oszt´alyt mutat´o v´altoz´ot. Az x0 -t az 1. sorba ´ırjuk be, de term´eszetesen oszt´alyt ne adjunk meg hozz´a!) Megold´as : Az el˝oz˝o feladatbeli a) m´odszert haszn´aljuk (ez ui. valamivel egyszer˝ubb a b)-n´el). a) x(1) = (3, 6)T , x(2) = (5, 8)T , x = (4, 7)T , ! 2 3 , 3 6
n1 Sn21 =
1 b= Σ n1 Sn21 + n2 Sn22 = n1 + n2 − 2 b c=
x(1) − x
(2) T
b −1 x(1) − x Σ
− 12 (2)
=
n2 Sn22 = ! 1 1 , 1 2
! 2 1 1 2 b −1 = Σ
! 2 −1 , −1 1
! !− 12 1 2 −1 = (−2, −2) (−2, −2)T 2 −1 1
A norm´alt Fisher-f´ele tapasztalati line´aris diszkriminancia f¨uggv´eny: T
b L(x) = b` x = b c x(1) − x
(2) T
! 1 2 −1 b −1 x = (−2, −2) Σ x = (−1, 0)x = −x1 . 2 −1 1
b) Mivel b b (4, 7)T = −4 < −2 = L b (2, 7)T = L(x b 0) , L(x) =L a (2) oszt´alyoz´asi krit´erium szerint az x0 = (2, 7)T megfigyel´es az 1. oszt´alyba tartozik.
3
c) Vezess¨uk be a k¨ovetkez˝o esem´enyeket: . Ai = x0 az i-edik oszt´alyba tartozik ,
i = 1, 2.
Az a priori oszt´alyval´osz´ın˝us´egek egyenl˝ok, azaz P (A1 ) = P (A2 ) =
1 . 2
Az 1. ill. a 2. oszt´alyban az eloszl´asok: x ∼ N2 µ(1) , Σ
ill. x ∼ N2 µ(2) , Σ ,
´ıgy az L(x) = `T x line´aris diszkriminancia f¨uggv´eny x-beli ´ert´ek´enek eloszl´asai az 1. ill. a 2. oszt´alyba tartoz´o x eset´en: L(x) = `T x ∼ N `T µ(1) , `T Σ` ∼ N `T µ(1) , 1 (4) ill. L(x) = `T x ∼ N `T µ(2) , `T Σ` ∼ N `T µ(2) , 1 . A Bayes-t´etel szerint az a poszteriori oszt´alyval´osz´ın˝us´egek : 1 T (1) fN (`T µ(1) ,1) (`T x0 )P (A1 ) e− 2 (` (x0 −µ )) P A1 |L(x0 ) = 2 = 2 P P − 1 (`T (x −µ(i) ))2 T 0 fN (`T µ(i) ,1) (` x0 )P (Ai ) e 2 2
i=1
i=1
2
1 T (1) e− 2 (` (x0 −µ )) 1 = 2 = 2 2 . 1 P − 1 (`T (x −µ(i) ))2 `T (x0 −µ(1) )) − 12 (`T (x0 −µ(2) )) ( 2 1+e 0 e 2
i=1
A param´eterek hely´ere a becsl´es¨uket helyettes´ıtve megkapjuk az a poszteriori oszt´alyval´osz´ın˝us´egek becsl´eseit: 1
P A1 L(x0 ) =
\
1+e
1 2
T 2 T 2 b ` (x0 −x(1) ) − 12 b ` (x0 −x(2) )
=
1 1+e
1 (2−3)2 − 21 (2−5)2 2
=
1 = 0.982 1 + e−4
P A2 L(x0 ) = 1 − 0.982 = 0.018 . . d) Legyen Ai = x az 1. oszt´alyba tartozik , i = 1, 2. A hib´as oszt´alyba sorol´as felt´eteles val´osz´ın˝us´ege egy 1. oszt´alybeli x eset´en: P x -et a 2. oszt´alyba soroljuk A1 = P L(x) ≤ L(µ) A1
\
= P L(x) − L µ(1) ≤ L(µ) − L µ(1) A1 = Φ L(µ) − L µ(1) (4) miatt
T = Φ c µ(1) − µ(2) Σ−1 µ − µ(1)
1 =Φ − 2c
4
,
´es szimmetria okok miatt ugyanennyi annak a val´osz´ın˝us´ege, hogy x -et az 1. oszt´alyba soroljuk, felt´eve, hogy a 2. oszt´alyba tartozik. ´Igy a teljes val´osz´ın˝us´eg t´etellel a hib´as oszt´alyba sorol´as val´osz´ın˝us´ege: Φ −1/(2c) . A param´eterek hely´ere be´ırva a becsl´eseiket, a hib´as oszt´alyba sorol´as (az adott 3–3 megfigyel´esb˝ol) becs¨ult val´osz´ın˝us´eg´ere a k¨ovetkez˝ot kapjuk: 1 1 =Φ − = Φ(−1) = 1 − Φ(1) = 1 − 0.841 = 0.159 . Φ − 2c 2b c
[
e) Az SPSS program: get file=’c:\temp\SPSSinput.sav’ /rename(var00001=x). n 9999. compute x1 = rv.normal(0,1). compute x2 = rv.normal(0,1). matrix. get X /variables=x1, x2. compute Sigma=1, 1; 1, 2. call eigen(Sigma,V,lambdav). compute A=V*sqrt(mdiag(lambdav)). compute X=X*transpos(A). save X /outfile=’c:\temp\Xmatrix’. end matrix. get file=’c:\temp\Xmatrix’ /rename(col1, col2=x1, x2). /* A tananyag: 1. oszt´ aly a 2-5000. megfigyelesekbol all; /* 2. oszt´ aly az utana kovetkezo 4999 megfigyeles; /* az 1. helyet szabadon hagyjuk a besorolando megfigyelesnek: do if (2<=$casenum & $casenum<=5000). compute osztaly=1. compute x1=x1+3. compute x2=x2+6. else if ($casenum>5000). compute osztaly=2. compute x1=x1+5. compute x2=x2+8. end if. /* A besorolando megfigyeles: do if ($casenum=1). /* az osztaly valtozo erteke a hianyzo ertek compute x1=2. compute x2=7. end if. /* A kovetkezo parancsban a ’/statistics=raw’ ekvivalens a /* ... Statistics . Function Coefficients . Unstandardized /* menu beallitassal, ui. a masik lehetoseg, a ’Fisher’s’ az eredeti /* valtozokat standardizalja a diszkriminancia analizis elott: discriminant /groups=osztaly(1 2) /variables=x1 x2 /analysis all /priors equal /statistics=raw crossvalid /plot=cases(10) /classify=nonmissing pooled.
5
Az output vonatkoz´o r´eszei: Canonical Discriminant Function Coefficients Function 1 X1 1.013 X2 -.018 (Constant) -3.945 Unstandardized coefficients
←−
az b` (nek¨ unk b` = (−1, 0) j¨ott ki, de az el˝ojelnek itt nincs ´ertelme)
Casewise Statistics
Highest Group
Original
Case Number 1
2 3 4 5 6 7 8 9 10
Actual Group
Squared Mahalanobi P(G=g | s Distance D=d) to Centroid
P(D>d | G=g) df
Predicted Group
ungrouped
1
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
p .294 .867 .944 .363 .956 .282 .951 .609 .579 .910
1
.983
1.103
.838 .892 .542 .866 .984 .890 .723 .956 .852
.028 .005 .827 .003 1.157 .004 .261 .308 .013
1 1 1 1 1 1 1 1 1
←−
Az x0 = (2, 7)T megfigyel´es az oszt´alyoz´asi krit´erium szerint az 1. oszt´alyba ker¨ ul. Az 1. oszt´alyba tartoz´as (az 1. oszt´aly a poszteriori) val´osz´ın˝ us´eg´enek becsl´ese az x0 = (2, 7)T megfigyel´es eset´en: 0.983
Classification Resultsb,c Predicted Group Membership CSOPORT 1.00 2.00 Total Original Count 1.00 4201 798 4999 2.00 791 4208 4999 Ungrouped cases 1 0 1 % 1.00 84.0 16.0 100.0 2.00 15.8 84.2 100.0 Ungrouped cases 100.0 .0 100.0 Cross-validateda Count 1.00 4201 798 4999 2.00 791 4208 4999 % 1.00 84.0 16.0 100.0 2.00 15.8 84.2 100.0 a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 84.1% of original grouped cases correctly classified.
c. 84.1% of cross-validated grouped cases correctly classified.
←−
a j´o oszt´alyba sorol´as val´osz´ın˝ us´ege
H´azi feladat : Az el˝oz˝o feladat megold´as´aban nem pontosan a maximum likelihood-becsl´eseket kaptuk. Mi ennek az oka? Hogy lehetne a maximum likelihood-becsl´eseket megkapni? (Seg´ıts´eg: Mi a Σ maximum likelihood-becsl´ese [norm´alis eloszl´as eset´en, ahogy a feladatban feltett¨uk]? Haszn´aljuk a maximum likelihood-becsl´es invarianci´aj´at!)
6
3. (Fisher-f´ele line´aris diszkriminancia anal´ızis t¨obb oszt´aly eset´en) H´arom azonos sz´or´asn´egyzet m´atrix´u, k´etdimenzi´os eloszl´asb´ol sz´armaz´o adatm´atrix: ! ! ! −2 0 −1 0 2 1 1 0 −1 X (1) = , X (2) = , X (3) = . 5 3 1 6 4 2 −2 0 −4 a) Sz´amoljuk ki a Fisher-f´ele tapasztalati line´aris diszkriminancia f¨uggv´enyt! b) Az x0 = (1, 3)T megfigyel´es melyik oszt´alyba tartozik a Fisher-f´ele diszkriminancia krit´erium szerint? c) Norm´alis eloszl´asokat ´es azonos a priori oszt´alyval´osz´ın˝us´egeket felt´etelezve becs¨ulj¨uk az a poszteriori oszt´alyval´osz´ın˝us´egeket az x0 = (1, 3)T megfigyel´es eset´en! d) Gener´aljunk SPSS-sel h´arom, egyenk´ent n1 = n2 = n3 = 3333 elem˝u mint´at N2 (µ(1) , Σ), N2 (µ(2) , Σ) ill. N2 (µ(3) , Σ) eloszl´asb´ol, ahol µ(1) , µ(2) , µ(3) ´es Σ a fenti X (1) , X (2) ´es X (3) mint´akb´ol becs¨ult v´arhat´o´ert´ek vektorok ´es k¨oz¨os sz´or´asn´egyzet m´atrix! Az Analyze . Classify . Discriminant elj´ar´assal ellen˝orizz¨uk, hogy j´o eredm´enyt adtunk-e az a), b), c) r´eszekre! (Seg´ıts´eg: tananyagnak adjuk meg a gener´alt h´arom oszt´alybeli 3333-3333-3333 megfigyel´est egy oszlopba, egy m´asik oszlopba pedig az oszt´alyt mutat´o v´altoz´ot. Az x0 -t az 1. sorba ´ırjuk be, de term´eszetesen oszt´alyt ne adjunk meg hozz´a!) ´ azoljuk a gener´alt 3333-3333-3333 megfigyel´est ´es a diszkriminancia krit´eriumok ´altal meghat´arozott e) Abr´ tartom´anyokat! Megold´as : A Fisher-m´odszer k oszt´aly eset´en az 1. feladat b)-beli m´odszer. x(1) =
n1 Sn21 =
b= Σ
! −1 , 3
x(2) =
! 2 −2 , −2 8
! 1 , 4
x(3) =
! 0 , −2
! 2 −2 , −2 8
n2 Sn22 =
n3 Sn23 =
1 1 n1 Sn21 + n2 Sn22 + n3 Sn23 = n1 + n2 + n3 − 3 3
b −1 Σ
3 = 35
b= B
3 X
12 1 1 3
,
x(i) − x
75
!
x(i) − x
98
15 189
7
.
T
1 = 3
6 3 3 62
!
5 3
! ,
,
! 2 2 , 2 8
! 3 −1 , −1 12
!
i=1
b −1 B b= 1 Σ 35
x=
0
b −1 B b saj´at´ert´ekei: AΣ
b −1 B b − λI = det det Σ
75 35
98 35
−λ 15 35
189 35
! = λ2 −
−λ
264 189 75 15 98 λ+ · − · =0 35 35 35 35 35 =⇒
λ1 = 5.734 ,
λ2 = 1.809 ,
T
b b` = 1 -re norm´alt jobboldali saj´atvektorok: a hozz´ajuk tartoz´o, b` Σ ! ! b` = 0.385 , b` = 0.938 . 1 2 0.495 −0.112 Az ezekb˝ol ´all´o m´atrix adja a Fisher-f´ele tapasztalati line´aris diszkriminancia f¨uggv´enyt: ! 0.385 0.495 b bTx = x, L(x) =L 0.938 −0.112 azaz b1 (x) = b` T x = 0.385x1 + 0.495x2 L 1
(az 1. line´aris diszkriminancia f¨uggv´eny),
b2 (x) = b`2T x = 0.938x1 − 0.112x2 L
(a 2. line´aris diszkriminancia f¨uggv´eny).
b) b 0) = L(x
b x L
(1)
b x L
(2)
b x L
(3)
=
=
=
0.385
0.495
!
0.938 −0.112 0.385
0.495
!
0.938 −0.112 0.385
0.495
!
0.938 −0.112 0.385
0.495
!
0.938 −0.112
! 1 3
=
! −1 = 3 ! 1 = 4 ! 0 = −2
! 1.87 0.60 ! 1.10 −1.27 ! 2.37 0.49 ! −0.99 0.22
2
b (1) b L(x ) − L x
= (1.87 − 1.1)2 + (0.6 + 1.27)2 = 4.09 0
2
b (2) b
L(x0 ) − L x = (1.87 − 2.37)2 + (0.6 − 0.49)2 = 0.26
2
b b x(3)
L(x0 ) − L
= (1.87 + 0.99)2 + (0.6 − 0.22)2 = 8.32
8
b 0) L b x(2) -hez van a legk¨ozelebb, ´ıgy az x0 = (1, 3)T a Fisher-f´ele diszkriminancia krit´erium Teh´at L(x szerint a 2. oszt´alyba tartozik. c) Vezess¨uk be a k¨ovetkez˝o esem´enyeket: . Ai = x0 az i-edik oszt´alyba tartozik , i = 1, 2, 3. Az a priori oszt´alyval´osz´ın˝us´egek egyenl˝ok, azaz P (A1 ) = P (A2 ) = P (A3 ) =
1 . 2
Az 1., a 2. ill. a 3. oszt´alyban az eloszl´asok: x ∼ N2 µ(1) , Σ , x ∼ N2 µ(2) , Σ ill. x ∼ N3 µ(3) , Σ . ´ıgy az L(x) = LT x line´aris diszkriminancia f¨uggv´eny x-beli ´ert´ek´enek eloszl´asai az 1., a 2. ill. a 3. oszt´alyba † tartoz´o x eset´en : L(x) = LT x ∼ N2 LT µ(1) , LT ΣL ∼ N2 LT µ(1) , I , L(x) = LT x ∼ N2 LT µ(2) , LT ΣL ∼ N2 LT µ(2) , I , L(x) = LT x ∼ N2 LT µ(3) , LT ΣL ∼ N2 LT µ(3) , I . A Bayes-t´etel szerint az a poszteriori oszt´alyval´osz´ın˝us´egek : 2
1 T T (1) fN2 (LT µ(1) , I) (LT x0 )P (A1 ) e− 2 kL x0 −L µ k P A1 |L(x0 ) = 3 = 3 , P P − 1 kLT x −LT µ(i) k2 T 0 fN2 (LT µ(i) , I) (L x0 )P (Ai ) e 2
i=1
i=1
2
1 T (2) T fN2 (LT µ(2) , I) (LT x0 )P (A2 ) e− 2 kL x0 −L µ k P A2 |L(x0 ) = 3 , = 3 P P − 1 kLT x −LT µ(i) k2 T 0 fN2 (LT µ(i) , I) (L x0 )P (Ai ) e 2
i=1
i=1
P A3 |L(x0 ) = 1 − P A1 |L(x0 ) − P A2 |L(x0 ) . A param´eterek hely´ere a becsl´es¨uket helyettes´ıtve:
2 1 b T 4.09 b T x(1) − L x − L 0 2 e e− 2 P A1 L(x0 ) = 3 = 0.126
= − 4.09 − 0.26 − 8.32 P − 1 Lb T x0 −Lb T x(i) 2 2 2 2 e + e + e e 2
\
i=1
2
b T x −L b T x(2) − 21 L 0
e P A2 L(x0 ) = 3 P
\
2 =
b T x −L b T x(i) − 12 L 0
e
e−
i=1
P A3 L(x0 ) = 1 − 0.126 − 0.858 = 0.016 .
\
9
4.09 2
e−
0.26 2
+ e−
0.26 2
+ e−
8.32 2
= 0.858
d) Az SPSS program: get file=’c:\temp\SPSSinput.sav’ /rename(var00001=x). n 10000. compute x1 = rv.normal(0,1). compute x2 = rv.normal(0,1). matrix. get X /variables=x1, x2. compute Sigma={1, -1/3; -1/3, 4}. call eigen(Sigma,V,lambdav). compute A=V*sqrt(mdiag(lambdav)). compute X=X*transpos(A). save X /outfile=’c:\temp\Xmatrix’. end matrix. get file=’c:\temp\Xmatrix’ /rename(col1, col2=x1, x2). /* A tananyag: az 1. osztaly a 2-3334. megfigyelesekbol all; /* a 2. osztaly a 3335-6667. megfigyelesekbol all; /* a 3. osztaly a 6668-10000. megfigyelesekbol all. /* Az 1. helyet szabadon hagyjuk a besorolando megfigyelesnek: do if (2<=$casenum & $casenum<=3334). compute osztaly=1. compute x1=x1-1. compute x2=x2+3. else if (3335<=$casenum & $casenum<=6667). compute osztaly=2. compute x1=x1+1. compute x2=x2+4. else if (6668<=$casenum). compute osztaly=3. compute x1=x1+0. compute x2=x2-2. end if. /* A besorolando megfigyeles: do if ($casenum=1). /* Az osztaly valtozo erteke a hianyzo ertek compute x1=1. compute x2=3. end if. /* A ’/statistics=raw’ ekvivalens a /* ... Statistics . Function Coefficients . Unstandardized menu beal/* litassal, ui. a masik lehetoseg, a ’Fisher’s’ az eredeti val/* tozokat standardizalja a diszkriminancia analizis elott: discriminant /groups=osztaly(1 3) /variables=x1 x2 /analysis all /priors equal /statistics=raw /plot=cases(10) /classify=nonmissing pooled.
10
Az output vonatkoz´o r´eszei: Canonical Discriminant Function Coefficients Function 1
2
X1 .370 X2 .498 (Constant) -.852 Unstandardized coefficients
.940 -.104 .186
←−
b L
Casewise Statistics
Highest Group
Original
Case Number 1
Actual Group ungrouped
2 3 4 5 6 7 8 9 10 **. Misclassified case
1 1 1 1 1 1 1 1 1
Squared Mahalanobi s Distance P(G=g | to Centroid D=d)
P(D>d | G=g) df
Predicted Group 2 1 3** 2** 1 1 1 1 3** 1
p .872 .895 .068 .684 .930 .480 .260 .185 .533 .656
Second Highest Group
2
↑
Squared Mahalanobi s Distance P(G=g | to Centroid D=d)
Group
.857
.273
1
.903 .658 .699 .909 .942 .973 .948 .671 .687
.221 5.376 .760 .145 1.466 2.698 3.379 1.258 .844
3 1 1 3 3 2 3 1 2
2 2 2 2 2 2 2 2 2
↑
Discriminant Scores
Function 1
Function 2
.126
4.104
1.012
.812
.059 .342 .254 .049 .051 .026 .050 .224 .307
5.661 6.683 2.781 5.998 7.317 9.925 9.264 3.451 2.454
-.129 -2.155 .659 -.030 -.519 1.214 -.876 -.700 1.185
-1.279 -1.898 .544 -1.276 -1.976 -2.448 -2.498 .482 -.843
↑
Az x0 = (1, 3)T megfigyel´es az oszt´alyoz´asi krit´erium szerint a 2. oszt´alyba ker¨ ul. A 2. ill. az 1. oszt´alyba tartoz´as (a 2. ill. az 1. oszt´aly a poszteriori) val´osz´ın˝ us´egeinek becsl´esei az x0 = (1, 3)T megfigyel´es eset´en: 0.857 ill. 0.126.
e) M´egegyszer futtassuk le a discriminant parancsot azzal a be´all´ıt´assal, amellyel ki lehet menteni a diszkriminancia anal´ızis ´altal k´esz´ıtett oszt´alyoz´ast. Az u´j oszt´alyoz´ast mutat´o v´altoz´o neve legyen pl. becsoszt (becs¨ult oszt´aly). Ezut´an ´abr´azoljuk a 9999 megfigyel´est el˝osz¨or az eredetileg megadott oszt´alyokra bontva (teh´at a h´arom norm´alis eloszl´as´u mint´at), majd a diszkriminancia anal´ızis ´altal k´esz´ıtett oszt´alyokat! A program: discriminant /groups=csoport(1 3) /variables=x1 x2 /analysis all /save=class=becscsop /priors equal /statistics=raw /plot=combined /plot=cases(10) /classify=nonmissing pooled. graph /scatterplot(bivar)=x1 with x2 by csoport. graph /scatterplot(bivar)=x1 with x2 by becscsop.
11
Ilyen ´abr´akat kell kapni: 20
20
10
10
0
0
CSOPORT
Predicted Group for
3.00
3.00
-10 -6
2.00
X2
X2
2.00 1.00 -4
-2
0
2
4
6
X1
-10 -6
1.00 -4
-2
0
2
4
6
X1
† H´azi feladat : L´assuk be, hogy az el˝oz˝o feladat megold´as´aban LT Σ L = I (azaz egys´egm´atrix)!
12