Többváltozós problémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független változó, vagy több függő és független változó (vektor változók). pl. 1889 február 1.-én Rhode Island-en egy nagyvihar után 49 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb a fele elpusztult, és Hermon Bumpus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárnytávolság, csőr és fej hossz, felkar hossz, mellcsont hossza. Ezek a változók most egy vektorváltozót alkotnak. Eloszlás: általában többváltozós normális. Középpontja: centroid, várható érték vektor. Várható érték: ⎡ x1 ⎤ ⎡ μ1 ⎤ ⎢x ⎥ ⎢μ ⎥ 2 2 μ= ⎢ ⎥ és ennek becslése a mintából: x = ⎢ ⎥ ⎢M ⎥ ⎢M ⎥ ⎢x ⎥ ⎢μ ⎥ ⎣ p⎦ ⎣ p⎦
23
A szórás helyett kovariancia mátrix : cov(X,Y)= μ{(X-μ(X))(Y-μ(Y))} Ha X=Y, akkor a kovariancia a változó varianciája. ⎛σ 2 ( X 1 ) cov( X 1 , X 2 )... ⎜ ⎜ cov( X 2 , X 1 ) σ 2 ( X 2 ) cov( X) = ⎜ M ⎜ ⎜ ⎝ cov( X n , X 1 )
⎞ ⎟ ⎟ ⎟. ⎟ σ 2 ( X n )⎟⎠
n-ed rendű mátrix, szimmetrikus, és nincs negatív sajátértéke. A korrelációs mátrix, ha: R(X,Y) = μ{(X-μ(X))(Y-μ(Y))}/{σ(X)σ(Y)}, ⎛1 R( X 1 , X 2 )... ⎜ ⎜ R( X 2 , X 1 ) 1 R( X ) = ⎜ M ⎜ ⎜R X , X ⎝ ( n 1) A verebek esetén: teljes hossz szarnytavolsag csor es fej hossz felkar hossz mellcsont hossza
⎞ ⎟ ⎟ ⎟ ⎟ 1⎟⎠
Mean 157.98 241.33
Variance 13.35 25.68
31.46
.63
18.47
.32
20.83
.98
24
>
var(vereb[,2:6]) X1 X2 X3 13.35 13.61 1.922 13.61 25.68 2.714 1.92 2.71 0.632 1.33 2.20 0.342 2.19 2.66 0.415
X4 1.331 2.198 0.342 0.318 0.339
X5 2.192 2.658 0.415 0.339 0.983
> cor(vereb[,2:6]) X1 X2 X3 X1 1.000 0.735 0.662 X2 0.735 1.000 0.674 X3 0.662 0.674 1.000 X4 0.645 0.769 0.763 X5 0.605 0.529 0.526
X4 0.645 0.769 0.763 1.000 0.607
X5 0.605 0.529 0.526 0.607 1.000
X1 X2 X3 X4 X5
Ha csoportokat alkotnak a megfigyelési egységek, akkor itt is lehet csoportok közötti (between groups) és csoportokon belüli kovariancia mátrixokról beszélni. A módszereknél általában feltétel a csoportokon belüli kovariancia mátrixok egyezősége.
25
Többváltozós problémák 1. Verebek a viharban TULEL
nem elte tul a vihart
tulelte a vihart
Group Total
Count Maximum Mean Median Minimum Std Deviation Variance
Count Maximum Mean Median Minimum Std Deviation Variance Count Maximum Mean Median Minimum Std Deviation Variance
teljes hossz 28 165.00 158.43 159.00 152.00
szarnytavolsag 28 252.00 241.57 242.00 230.00
csor es fej hossz 28 33.40 31.48 31.50 30.10
felkar hossz 28 19.80 18.45 18.50 17.20
mellcsont hossza 28 23.10 20.84 20.70 18.60
3.88
5.71
.85
.66
1.15
15.07 21 164.00 157.38 157.00 153.00
32.55 21 248.00 241.00 240.00 235.00
.73 21 32.80 31.43 31.40 30.30
.43 21 19.30 18.50 18.50 17.70
1.32 21 22.00 20.81 20.60 19.60
3.32
4.18
.73
.42
.76
11.05 49 165.00 157.98 158.00 152.00
17.50 49 252.00 241.33 242.00 230.00
.53 49 33.40 31.46 31.50 30.10
.18 49 19.80 18.47 18.50 17.20
.57 49 23.10 20.83 20.70 18.60
3.65
5.07
.79
.56
.99
13.35
25.68
.63
.32
.98
Milyen kérdéseket lehet feltenni? • Milyen kapcsolatban vannak egymással a mért változók? • Túlélők, nem túlélők átlagai, szórásai különböznek-e? (Variancia-analízis, F-próba, Levene próba) • Ha a túlélők és nem túlélők különböznek a mért változók eloszlásai szempontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoportot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index.
26
2. Egyiptomi koponyák Thébából származó férfi koponyák 5 korszakból. Mindegyikből 30-30 darab. 1. Korai predinasztikus kor (4000 ie) 2. Késő predinasztikus kor (3300 ie) 3. 12. 13. dinasztia (1850 ie) 4. Ptolemaioszi kor (200 ie) 5. Római kor (150 iu)
• Milyen kapcsolatban van a 4 mért érték egymással? • Van-e szignifikáns differencia a mintaátlagok illetve szórások között, és ha igen, akkor ez tükrözi-e fokozatos időbeli változást? • Lehetséges-e konstruálni egy f függvényét a 4 változónak, amely valamilyen értelemben visszatükrözi a minták közti különbségeket?
27
DINASZT
1.00
2.00
3.00
4.00
5.00
Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance
X1
X2
X3
X4
30 141.00 131.37 119.00
30 143.00 133.60 121.00
30 114.00 99.17 89.00
30 56.00 50.53 44.00
.94
.82
1.07
.50
5.13
4.47
5.88
2.76
26.31 30 148.00 132.37 123.00
19.97 30 145.00 132.70 124.00
34.63 30 107.00 99.07 90.00
7.64 30 56.00 50.23 45.00
.88
.85
.79
.54
4.81
4.65
4.35
2.96
23.14 30 140.00 134.47 126.00
21.60 30 145.00 133.80 123.00
18.89 30 106.00 96.03 87.00
8.74 30 60.00 50.57 45.00
.64
.91
.83
.65
3.48
4.98
4.55
3.55
12.12 30 144.00 135.50 129.00
24.79 30 142.00 132.30 120.00
20.72 30 107.00 94.53 86.00
12.60 30 60.00 51.97 46.00
.72
.94
.84
.52
3.92
5.13
4.59
2.82
15.36 30 147.00 136.17 126.00
26.36 30 138.00 130.33 120.00
21.09 30 103.00 93.50 81.00
7.96 30 58.00 51.37 44.00
.98
.91
.92
.68
5.35
4.97
5.06
3.72
28.63
24.71
25.57
13.83
28
Alapvető technika: eredeti változók olyan lineáris kombinációját létrehozni, ami összegzi az eredeti adathalmaz varianciáját. Az eredeti adatok: Objektum
X1
X2
....
Xp
1 2 M n
x11 x 21
x12 x 22
... ...
x1 p x2 p
x n1
xn 2
x np
Z i = a i1 X 1 + a i 2 X 2 +...+ a ip X p Az ilyen függvényeket szokták diszkriminancia függvényeknek, főkomponenseknek, kanonikus függvényeknek, faktoroknak nevezni.
analógia: regressziós függvény Időnként még egy plusz konstans is van benne, ekkor: Z i = ai 0 + ai1 X 1 + ai 2 X 2 + ... + aip X p
(Megj: ha az adatok standardizáltak, akkor a konstans 0.) A „látens” (extracted) változók általános tulajdonságai: • az első magyarázza a variancia legnagyobb részét, a második a maradékból a legnagyobb részt, stb.; • nem korreláltak, merőlegesek-függetlenek • számuk = p (a régi változók száma) megj.: csak néhányat tartunk meg belőlük.
29
Sajátértékek, sajátvektorok p
Eredeti össz variancia: Sp(cov(X))= ∑ λi . i =1 p
Ha a változók standardizáltak, akkor ∑ λi =p. i =1
Sajátvektorok: új változók együtthatói, az aij-k. > eigen(cor(vereb[,2:6])) $values [1] 3.616 0.532 0.386 0.302 0.165 $vectors [,1] [,2] [,3] [,4] [,5] [1,] -0.452 0.0507 0.690 0.4204 -0.374 [2,] -0.462 -0.2996 0.341 -0.5479 0.530 [3,] -0.451 -0.3246 -0.454 0.6063 0.343 [4,] -0.471 -0.1847 -0.411 -0.3883 -0.652 [5,] -0.398 0.8765 -0.178 -0.0689 0.192 Hogy lehet a sajátértékeket sajátvektorokat kiszámítani? 1. Asszociációs mátrix s.é.-ei, s.v.-ai: spektrál felbontás 2. Az eredeti vagy a standardizált adatmátrix szinguláris érték felbontásával. (Kontingencia táblákra is működik.) R-mode analízis: a változók cov vagy R mátrixából indulunk ki. szkór (score): új változókból számítjuk ki a megfigyelési egységekre. Q-mode analízis: a megfigyelési egységek cov vagy R mátrixából indulunk ki, az objektumok lin. komb.-jait kapjuk. 30
(mátrix algebrával összekapcsolhatók) A Q-mode analízis különbségi mértékeken alapul (dissimilarity measures) s.é., s.v. számítás: kanonikus korreláció analízis, főkomponens analízis és korrespondencia analízis Ha az objektumok csoportokat alkotnak, akkor úgy lehet kiszámítani a komponenseket, hogy azok a csoportok közötti különbségeket a leginkább kihangsúlyozzák: MANOVA, diszkriminancia elemzés.
31
Többváltozós exploratív elemzés Többváltozós grafikonok Szokásos egyváltozósak. Chernoff arcok, csillagok
32
>stars(vereb[,2:6])
Szórásdiagram mátrix. >pairs(vereb[,2:6])
33
Szórás diagram az új, látens változókkal. Kétváltozós boxlot
34
35
Töbváltozós távolságok, hasonlóságok Hasonlósági mértékek (similarity measures): mennyire hasonlóak az objektumok: korreláció Különbözőségi mértékek (dissimilarity measures): többváltozós távolság. Többváltozós problémák - egyedi megfigyelések, minták, illetve populációk közötti távolságok. Egyedi megfigyelések közti távolságok: Legegyszerűbb eset: n egyeden p változót X 1 , X 2 ,..., X p mérünk . Az i-edik egyed mért értékei: xi1 , xi 2 ,..., xip , a j-ediké: x j1 , x j 2 ,..., x jp . Ha p=2, akkor a két pont távolságát a Pitagorasz tétel alapján számíthatjuk: dij =
(
x i 1 − x j1
) ( 2
+ xi 2 − x j 2
)
2
.
Több változó esetére is működik: d ij =
p
∑( k =1
xik − x jk
)
2
Euklideszi távolság. Ha egy változó sokkal variabilisebb a többinél, akkor az dominálja a távolságot. ⇒ Standardizálás.
36
pl. Thaiföldi prehisztorikus kutyák kb ie 3500-ból származó kutyacsontokat találtak. Nem világos, hogy honnan származtatható a prehisztorikus kutya, az arany sakáltól (Canis aureus), vagy a farkastól. Az eredet kiderítése végett méréseket végeztek az alsó állkapocs csontokon, illetve más fajták állkapcsán. A mért változók: X1 - az állkapocs szélessége, X2 - az állkapocs magassága az első zápfog alatt, X3 - az első zápfog hossza, X4 - az első zápfog szélessége, X5 - az első és harmadik zápfog közötti távolság (beleértve a zápfogakat is), X6 - az első és negyedik zápfog közötti távolság (beleértve a zápfogakat is). A mérések átlagai: X1 X2 Modern kutya 9.7 21.0 Arany sakál 8.1 16.7 Kínai farkas 13.5 27.3 Indiai farkas 11.5 24.3 Kujon 10.7 23.5 Dingó 9.6 22.6 Prehisztorikus 10.3 22.1 kutya Forrás: Higham et al. (1980).
X3 19.4 18.3 26.8 24.5 21.4 21.1 19.1
X4 7.7 7.0 10.6 9.3 8.5 8.3 8.1
X5 32.0 30.3 41.9 40.0 28.8 34.4 32.3
X6 36.5 32.9 48.1 44.6 37.6 43.1 35.0
37
A standardizált értékek X1 Modern kutya -.46 Arany sakál -1.41 Kínai farkas 1.78 Indiai farkas .60 Kujon .13 Dingó -.52 Prehisztorikus -.11 kutya
X2 -.46 -1.79 1.48 .55 .31 .03 -.12
X3 -.68 -1.04 1.70 .96 -.04 -.13 -.78
X4 -.69 -1.29 1.80 .69 .00 -.17 -.34
X5 -.46 -.80 1.55 1.17 -1.10 .03 -.39
X6 -.57 -1.21 1.50 .88 -.37 .61 -.83
Proximity Matrix
1.912 5.382 3.386 1.512 1.559
7.121 5.059 3.190 3.183
Euclidean Distance 4:Indiai kutya 5:Kujon 3.386 1.512 5.059 3.190 2.139 4.575 2.139 2.911 4.575 2.911 4.214 2.197 1.669
.665
2.389
5.112
1:Modern kutya 1:Modern kutya 2:Arany sakal 3:Kinai kutya 4:Indiai kutya 5:Kujon 6:Dingo 7:Prehisztorikus kutya
2:Arany sakal 1.912
3:Kinai kutya 5.382 7.121
3.228
1.276
6:Dingo 1.559 3.183 4.214 2.197 1.669
7:Prehisztorikus kutya .665 2.389 5.112 3.228 1.276 1.704
1.704
This is a dissimilarity matrix
Ez is négyzetes mátrix, szimmetrikus és 0-ák vannak az átlóban. City-block (Manhattan) távolság: p
d ij = ∑ xik − x jk . k =1
Hasonló eredményt ad az előzőhöz, de nem olyan érzékeny az outlierekre. Csebisev (Chebychev) távolság:
38
Ha csak 1 dimenzióban nézzük a különbséget. d ij = max xik − x jk k
Hatvány (Power, Costumized) távolság:Ha a növelni vagy csökkenteni akarjuk azoknak a dimenzióknak a súlyát, amelyek 1r n⎞ ⎛ p esetén különböznek az objektumok: d ij = ⎜ ∑ xik − y jk ⎟ . ⎝ k =1 ⎠ Az n és r értékét mi választhatjuk meg. Az n az egyedi dimenziók közötti távolságokat súlyozza, az r pedig az egyes megfigyelt egyedek közöttieket. Ha n = r, akkor Minkowsky távolságnak nevezzük. Bray-Curtis használatos.
(Kulczynski):
faj
abudancia
adatok
esetén
Gyakorisági értékek esetén: Chi-négyzet (Chi-square) . A szokásos módon számolt χ 2 -érték. Phi-négyzet (Phi-square) Az előző normalizálva. Jaccard e.h.: bináris skálán mért (prezencia, abszencia) adatokra. a 1− a+b+c a – azoknak a változóknak a száma, amelyek esetén egyik objektum értéke sem 0 b – ahol az egyik 0, c – ahol a másik 0. 39
Gower e.h.: lehetnek folytonos és kategoriális változók is. Dissim. mértékek tulajdonságai: metrikusság: háromszög készíthető a 3 pont páronkénti távolságaiból. Általában ilyenek, Bray-Curtis nem. MDA-nál lényeges tulajdonság.
40
Mikor melyiket használjuk? Ha a változók hasonló skálán mértek és nincs 0 értékük, akkor Euklideszi, City-block. Ha nem hasonló a skála, akkor először standardizálni kell! Fajok abundanciája esetén olyan kell, amely maximális akkor, ha nincs közös faj a két mintavételi egységen: Bray-Curtis, Kulczynski jó. Távolsági mátrixok összehasonlítása Mantel-teszt pl.: genetikus távolságok - földrajzi, időbeli távolságok. Távolságok populációk és minták között Mahalanobis távolság: Dij2
p
p
(
) (
)
= ∑ ∑ μ ri − μ rj v rs μ si − μ sj , r =1 s=1
ahol v rs a kovariancia mátrix inverzének az r-edik sorában és sedik oszlopában álló eleme. Másképp: ′ −1 2 Dij = μi − μ j C μi − μ j kvadratikus alak, ahol
(
)
(
)
41
⎡ μ1i ⎤ ⎢μ ⎥ 2i μi = ⎢ ⎥ , az i-edik populáció várható érték vektora. C a ⎢M ⎥ ⎢μ ⎥ ⎣ pi ⎦ kovariancia mátrix. Használható egy egyednek a populáció középpontjától mért távolságának mérésére is: Dij2
p
p
= ∑ ∑ ( xr − μ r )v rs ( x s − μ s ) , r =1 s =1
ahol az egyeden mért értékek: x1 , x2 ,..., x p és a megfelelő populáció átlagok: μ1 , μ2 ,..., μ p . Úgy tekinthető, mint az x megfigyelés többváltozós reziduuma, azaz, hogy milyen messze van x az összes változó eloszlásának középpontjától. Figyelembe veszi a változók közti korrelációt is. Ha a populáció többváltozós normális eloszlást követ, akkor D 2 χ 2 eloszlású p szabadsági fokkal. Ha D 2 értéke szignifikánsan nagy (P<0.001), akkor a megfigyelésünk vagy hibás, vagy egy extremális megfigyelés. A populáció átlagokat és a kovariancia mátrixot a mintából becsülhetjük.
42
pl. Az egyiptomi koponya minták közötti távolságok: Pooled Within-Groups Covarian
X1 X2 X3 X4 X1 X2 X3 X4
Correlati
X1 21.11 3.678E7.908E2.00 1.00 .00 .00 .13
X2 3.678E23.48 5.20 2.84 .00 1.00 .21 .18
a
X3 7.908E5.20 24.17 1.13 .00 .21 1.00 .07
X4 2.00 2.84 1.13 10.15 .13 .18 .07 1.00
a. The covariance matrix has 145 degrees Group Statistics
DINASZT 1.00
2.00
3.00
4.00
5.00
Total
X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4
Mean 131.3667 133.6000 99.1667 50.5333 132.3667 132.7000 99.0667 50.2333 134.4667 133.8000 96.0333 50.5667 135.5000 132.3000 94.5333 51.9667 136.1667 130.3333 93.5000 51.3667 133.9733 132.5467 96.4600 50.9333
Std. Deviation 5.1292 4.4691 5.8844 2.7635 4.8101 4.6472 4.3465 2.9558 3.4813 4.9786 4.5523 3.5495 3.9194 5.1337 4.5918 2.8221 5.3504 4.9712 5.0566 3.7184 4.8907 4.9393 5.3778 3.2079
Valid N (listwise) Unweighted Weighted 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 150 150.000 150 150.000 150 150.000 150 150.000
A Mahalanobis távolságok: 43
Dinasztia 1 2 3 4 5
1
2
3
4
0.091 0.903 1.881 2.697
0.729 1.594 2.176
0.443 0.911
0.219
5
megj: Az ún. Mantel teszttel lehet mérni két távolság mátrix hasonlóságát . Ebben az esetben például azt, hogy a dinasztiák távolságainak mátrixa korrelál-e az időbeli távolságok mátrixával. (igen)
44
Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás – átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Spektrál felbontás esetén tulajdonképpen a centrált adatok kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix – standardizált adatok kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete különböző. (arányok) 0,1-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és összehasonlítani az eredményeket: eredeti – standardizált – 0,1 eredeti: legnagyobb abundanciájú mit befolyásol 0,1 : prezencia, abszenciától mi függ. Asszociációs mértékek implicit módon standardizáltak.
45
Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szempontból.
46
Hiányzó adatok MCAR-missing completely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR – lehet, hogy függ a csoporttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal? 1. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés listwise deletion esetén. Ha az analízis páronkénti (pairwise) asszociációkon alapul (kovariancia, korreláció), akkor pairwise deletion. Csak akkor töröljük, ha éppen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés.
Imputáció Helyettesítés becsléssel. Módszerek: 1. átlaggal (változó értékeiből számolt\NA) A varianciát alulbecsüli. 2. Regressziós modellel. Más változókkal becsüljük, pl. a legjobban korrelált változót vagy változókat választjuk prediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli. 47
Maximum likelihood (ML) és EM becslés ML : paraméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imputáció + ML : Expectation Maximization ML paraméter becslés ⇒ hiányzó adatok ⇒ ML paraméterbecslés ⇒ hiányzó adatok...., amíg nem konvergál. ML és EM feltétele a MAR.
48
Többváltozós adatelemzés SPSS-sel Előkészületek: Adatok megjelenítése: • SPSS Graphics • SPSS Frequency
Hiányzó adatok elemzése (Missing data analysis) : • Ellenőrizzük, hogy létezik-e mintázat (randomnak kell lennie) Kategoriális változó esetén: • Ha Missing < 5%, ⇒ List-wise option • Ha >=5%, akkor a hiányzó értékek kerüljenek egy új kategóriába Mért változó esetén: • Ha Missing < 5%, ⇒ List-wise option • 5% és 15% között : Transform>Replace Missing Value. (15%-nál kevesebb adat behelyettesítésének nincs túl komoly hatása • Ha > 15%, akkor töröljük a változót, vagy a megfigyelési egységet (ismételt mérések esetén)
Kiugró értékek ellenőrzése (Outlier-ek) : (Általában a statisztikai eljárások érzékenyek az outlier-ekre.) 49
• Egyváltozós eset: boxplot • Többváltozós eset: Mahalanobis távolság (Khi-négyzet statisztika), egy pont akkor outlier, ha a p-érték < .001. o Az eset azonosítója (dummy variable) : Dependent, a többi változó: Independent o Save>Mahalanobis Kezelés:
• Töröljük az esetet • Közöljünk két elemzést (egyet az outlier-rel, egyet pedig nélküle)
Normalitás: Egyváltozós normalitás tesztek: • Q-Q plot • Skewness és Kurtosis • Tesztek Többváltozós normalitás tesztelése: • A szórásdiagrammoknak elliptikusaknak kell lennie • Minden változónak normálisnak kell lennie
Linearitás: A linearitás ellenőrzése • Reziduális plot regresszió esetén • Szórásdiagrammok
50
Homoscedasticity: a kovariancia mátrixoknak a csoportokban meg kell egyeznie: • Tesztelése: Box’s M test Érzékeny a normalitásra • Levene teszt: a csoport varianciák egyezőségének vizsgálata. Nem annyira érzékeny a normalitásra
51
Emlékeztető: ANOVA Az egyfaktoros ANOVA a pop. átlagok egyezőségét teszteli
• Feltételek: független megfigyelések; normalitás; varianciák homogenitása Két faktoros ANOVA 3 hipotézis teszttel szimultán: • Interakció a két faktor között • A két faktor hatásának tesztelése
Emlékeztető: ANCOVA • A függő változó értéke folytonos független változótól (kovariáns) is függhet. • Kovariánsok hatásának figyelembe vétele illetve becslése. • A reguláris ANOVA feltételein túl követelmény még: Lineáris kapcsolat a függő változó és a kovariánsok között
MANOVA Tulajdonságok: • Hasonló az ANOVÁ-hoz • Több függő változó • A függő változók korreláltak és a lineáris kombinációnak értelme van. • Azt teszteli, hogy k populációban a független változók egy lineáris kombinációjának átlagai különböznek-e. Alapötlet: találjunk egy olyan lineáris kombinációt, amely optimálisan szeparálja a csoportokat, azaz olyat amely 52
maximalizálja a hiba (within group) variancia/kovariancia mátrix és a hatás (between group) variancia/kovariancia mátrix hányadosát. (Ez ugyanaz, mint amit a diszkriminancia elemzésnél használunk.) Ennek a kombinációnak a standardizált együtthatói megmondják, hogy melyik változó milyen súllyal szerepel a szeparálásban.
Előnyök: • Annak az esélye, hogy különbségeket találunk a csoportok között, nagyobb, ahhoz képest, mintha minden változóra egyenként ANOVÁ-t csinálnánk. • Nem inflálódik az elsőfajú hiba. • Több ANOVA elvégzése nem veszi figyelembe azt, hogy a független változók korreláltak. Hátrányok: • Bonyolultabb, • Az ANOVA gyakran nagyobb hatóerejű. • Sokkal komplikáltabb kísérleti elrendezést igényel. • Kétségek merülhetnek fel, hogy valójában mely független változók mely függő változók értékét befolyásolják. • Minden plusz függő változó 1 szabadsági fokkal kevesebbet jelent.
Feltételek: Független minták, Többváltozós normális eloszlás a csoprtokban A kovariancia mátrix homogenitása 53
Lineáris kapcsolat a független változók között
A MANOVA elvégzésének lépései: Feltételek ellenőrzése Ha a MANOVA nem szignifikáns, stop Ha a MANOVA szignifikáns, egyváltozós ANOVÁk Ha az egyváltozós ANOVA szignifikáns, Post Hoc tesztek. Ha igaz a homoscedasticity, Wilks Lambda, ha nem Pillai’s Trace. Általában mind a 4 statisztikának hasonlónak kell lennie. A MANOVA algoritmusa: 1. Az ANOVA négyzetösszegei helyett sums-of-squares-andcross-products (SSCP) mátrixok. Egy a hatásnak (between groups) megfelelő (H), egy pedig a reziduális (within groups): E, és egy a teljesnek megfelelő (T). 2. Kiszámítjuk a HE-1 szorzatot (egyváltozós esetben ez az F érték). 3. Kiszámítjuk a HE-1 spektrál felbontását: sajátértékek, sajátvektorok. A s.é.-kek azt mutatják meg, hogy betweengroup varianciából a sajátvektorok vagy lineáris kombinációk mennyit magyaráznak. A s.v.-ok tartalmazzák a lineáris kombinációk együtthatóit. 4. Az a lineáris kombináció, amelyikhez a legnagyobb s.é. tartozik maximalizálja a between-group/within-group variancia hányadost. H0: a csoport centroidok megegyeznek. 54
Ez tesztelhető valamelyik variancia mérték segítségével (nyom, determináns:általánosított variancia).
• Wilk’s lambda: |E |/|T|. A teljes variancia hányad része a reziduális. Minél kisebb, annál nagyobb a csoportok köztötti különbségek. • Hotelling-Lawley trace: |H |/|E|. Ez ugyanaz, mint a HE-1 mátrix nyoma (sajátértékek összege). Nagyobb értékek nagyobb különbségeket indikálnak a csoport centroidok között. • Pillai trace: A HT-1 nyoma, vagyis a between groups variancia. • Roy’s largest root: a HE-1 legnagyobb s.é.-e, vagyis ahhoz a lineáris kombinációhoz tartozó s.é. amely a between groups variancia-kovarianca legnagyobb részét magyarázza. Ezeknek a statisztikáknak az eloszlása nem teljesen ismert, közelítő F értékekké konvertálják ezeket. Két csoport esetén a Wilk’s lambda, a Hotteling és Pillai féle érték megegyezik és megegyezik a Hotteling féle T2 statisztikával, ami a t-próba többváltozós kiterjesztése. Általában hasonló eredményeket produkálnak több csoport esetén is. A Pillai trace a legrobosztusabb teszt.
55
MANCOVA Cél: Csoportok közötti különbség tesztelése független változók egy lineáris kombinációja alapján egy kovariáns figyelembe vételével. Példa: 3 területen élő őzek összehasonlítása a kor kovariáns figyelembe vételével. Repeated Measure Analysis Cél: csoportok közötti különbségek tesztelése, ha a megfigyelési egységeken többször mérünk. Feltétel: Független megfigyelések!! Helyette: Kevert modell
56
Diszkriminancia analízis Cél: egy olyan függvény létrehozása, amely alapján az egyedek két vagy több csoportba sorolhatók (a függvény értéke lényegesen változik csoportról csoportra). Később a függvényt új egyedek besorolására lehessen használni. pl. verebek. A testméretek alapján besorolhatók-e a verebek a túlélők ill. nem túlélők közé (Mire emlékeztet ez a kérdés?!!): Lineáris diszkriminancia függvény: Z = a1 X 1 + a 2 X 2 +...+ a p X p Ha Z értéke jelentősen változik csoportról csoportra, akkor a csoportok jól szeparálhatók. Több függvény is konstruálható. A függvény úgy vetíti le a csoportokat egy alacsonyabb dimenziós térbe, hogy azok eloszlásai a legkisebb mértékben fedjék át egymást. A MANOVA inverze. A MANOVA ugyanezt a függvényt használja. Kétféle cél: 1. Prediktív diszkriminancia analízis (generáljunk egy szabályt, amely alapján csoportokba sorolhatunk). 2. Leíró analízis: a függő változó és a független változók kapcsolatát vizsgáljuk.
Hogyan működik? 1. Feltételezzük, hogy a célpopuláció egymást kizáró rész populációkból áll. 2. Feltételezzük, hogy a független változóink többváltozós normális elsozlást követnek 57
3. Megkeressük azt a lineáris kombinációt, amely a legjobban szeparálja a csoportokat. 4. Ha k csoportunk van, akkor k-1 diszkriminancia függvényt készítünk. 5. Minden függvényre kiszámítjuk a diszkriminancia szkórokat. 6. Ezeket a szkórokat használjuk a klasszifikáláshoz. Klasszifikálási módok:
• ML – ahhoz a csoporthoz sorolja be, amelynek legnagyobb a valószínűsége. • Fisher (lineáris) klasszifikáló függvény: abba a csoportba sorolja be, amely esetén a csoporthoz tartozó függvény szkórja a legnagyobb. • Diszkriminálás Mahalanobis távolságokkal: Kiszámítjuk az egyedek Mahalanobis távolságát a csoport centroidoktól, és abba soroljuk be, amelyhez a legközelebb van. Megjegyzés: az SPSS a Maximum likelihood módszert használja.
Logisztikus regresszió vagy diszkriminancia analízis? Ha a magyarázó változók normális eloszlásúak, akkor a DA jobb. Ha kategoriális változóink is vannak, akkor a DA akkor rosszabb, ha a kategóriák száma nagyon kicsi (2, 3). Ezekben az esetekben a LR eredménye hasonló a DA-éhoz, legfeljebb egy kicsit rosszabb (ha a mintaelemszám aránylag kicsi). Ha a DA feltételei nem teljesülnek, mindenképpen a LR-t kell használni. Az LR nem eloszlás függő. 58
Őzes példa outputja: Log Determinants terület Árpádhalom Babat Pitvaros Pooled within-groups
Rank 5 5 5 5
Log Determinant 14.283 15.408 14.267 15.491
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Általánosított variancia logaritmusa. Ha közel egyenlőek, akkor valószínűleg nincs nagy gond. Test Results Box's M F
Approx. df1 df2 Sig.
42.028 1.222 30 5736.090 .188
Tests null hypothesis of equal population covariance matrices.
Eigenvalues Function 1 2
Eigenvalue % of Variance .866a 95.1 .044a 4.9
Cumulative % 95.1 100.0
Canonical Correlation .681 .206
a. First 2 canonical discriminant functions were used in the analysis.
A HE-1 mátrix s.é.-ei és a megfelelő variancia hányadok. A Canonical correlation egy asszociációs mérték a diszkriminancia szkórok és a csoportok között. Wilks' Lambda Test of Function(s) 1 through 2 2
Wilks' Lambda .513 .957
Chi-square 54.053 3.526
df 10 4
Sig. .000 .474
59
A Wilks Lambda a varianciából a csoportok különbözősége által nem magyarázott hányad. A szignifikancia szint a diszkriminancia fv. szignifikanciáját mutatja. Canonical Discriminant Function Coefficients Function 1 teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir (Constant)
2 .072
-.081
.063
.118
.016 -.080 .303 -13.919
.008 .116 -.140 -6.825
Unstandardized coefficients
Z1 = 0.072 ⋅ testh + 0.063 ⋅ marm + 0.016 ⋅ szivs − 0.08 ⋅ vese1s + 0.303 ⋅ ln_ ve
Ezekkel a fv.ekkel tudunk szkórokat számolni minden esethez. Functions at Group Centroids Function terület Árpádhalom Babat Pitvaros
1 .884 -.708 1.443
2 -.349 .031 .310
Unstandardized canonical discriminant functions evaluated at group means
A fv értékek a csoport centroidok esetén. Standardized Canonical Discriminant Function Coefficients Function 1 teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir
2 .419
-.468
.229
.429
.544 -.552 .263
.261 .797 -.121
60
Az egyes változók fontosságát? mutatják az egyes diszkriminancia függvényekben. (Nagyon korrelált változók esetén nehéz interpretálni.) Structure Matrix Function 1 szív súlya teljes hossz orrtól farok végéig ln_vesezsir jobb vese súlya marmagasság köröm végéig
2 .753*
.503
.721*
.150
.581* -.024
.048 .873*
.535
.581*
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. *. Largest absolute correlation between each variable and any discriminant function
A diszkriminancia függvények és az eredeti változók korrelációi. Az első függvény a szívsúllyal, a teljes hosszal és a vesezsírral korrelál, míg a másik a jobb vese súlyával és a marmagassággal. Classification Function Coefficients
Árpádhalom teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir (Constant)
terület Babat
Pitvaros
2.883
2.737
2.870
4.966
4.911
5.079
-.281 -.283 .641 -322.626
-.303 -.111 .106 -302.857
-.267 -.251 .718 -335.541
Fisher's linear discriminant functions
A Fisher féle fv-ek. Amelyik csoport esetén a legnagyobb az értéke, abba sorolja be.
61
Classification Resultsa
Original
Count
%
terület Árpádhalom Babat Pitvaros Árpádhalom Babat Pitvaros
Predicted Group Membership Árpádhalom Babat Pitvaros 12 3 3 7 43 3 4 0 11 66.7 16.7 16.7 13.2 81.1 5.7 26.7 .0 73.3
Total 18 53 15 100.0 100.0 100.0
a. 76.7% of original grouped cases correctly classified.
Canonical Discriminant Functions terület
4
Árpádhalom Babat Pitvaros Group Centroid
Function 2
2
Pitvaros
Babat
0
Árpádhalom
-2
-4 -3
-2
-1
0
1
2
3
4
Function 1
62
63
Adatredukció (Ordináció) Főkomponens analízis (PCA) • Felfedező adatelemzésben használatos. • Adathalmaz kényelmesebb és informatívabb ábrázolása, • dimenziószám csökkentése, • fontos változók beazonosítása. Cél: Van p változónk: X 1 , X 2 ,..., X p és keressük ezeknek olyan Z1 , Z 2 ,..., Z p kombinációit (főkomponensek), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző “dimenzióit” mérik.
( )
σ ( Z1 ) ≥ σ ( Z 2 ) ≥...≥ σ Z p
Remény: a legtöbb főkomponens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomponenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed X 1 X 2 .... X p 1
x11
x12
...
x1 p
2
x21
x 22
...
x2 p
M n
x n1
xn 2
xnp
64
A főkomponensek: Z i = a i1 X 1 + a i 2 X 2 +...+ a ip X p
a i21 + a i22 +...+ a ip2 = 1
( )
és σ ( Z1 ) ≥ σ ( Z 2 ) ≥...≥ σ Z p . A főkomponensek varianciái az adatok kovariancia mátrixának sajátértékei ( λi ), az együtthatói pedig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix: ⎡ c11 c12 ... c1 p ⎤ ⎢c c22 ... c2 p ⎥ 21 ⎥, C= ⎢ M M ⎥ ⎢ M ⎢c ⎥ c c 1 2 p p pp ⎣ ⎦ akkor λ1 + λ2 +...+ λ p = c11 + c22 +...+ c pp = σ 2 ( X 1 ) + σ 2 ( X 2 )+...+σ 2 ( X p ) Céls zerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek:
• Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges. • Linearitás. • Ne legyenek outlierek. •
65
Példa: Őzek: Communalities teljes súly teljes hossz orrtól farok végéig marmagasság köröm végéig törzs hossza pocak körkörös mérete hátsó láb hossza körömtől gerincig szív súlya lép súlya jobb vese súlya recés gyomor súlya kaja nélkül
Initial 1.000
Extraction .806
1.000
.716
1.000
.758
1.000 1.000
.378 .636
1.000
.576
1.000 1.000 1.000
.701 .604 .634
1.000
.389
Extraction Method: Principal Component Analysis.
Azt mutatja meg, hogy a főkomponensek mennyit magyaráznak az egyes változókból. Az „Initial” azt jelenti, hogy az összes főkomponens együtt mennyit magyaráz, az „Extraction” pedig azt, hogy az extraktolt főkomponensek mennyit. (A főkomponensek (magyarázó változók) és a megfelelő változó többszörös korrelációs együtthatójának négyzete.) Total Variance Explained
Component 1 2 3 4 5 6 7 8 9 10
Total 4.647 1.551 .822 .708 .651 .578 .351 .283 .218 .191
Initial Eigenvalues % of Variance Cumulative % 46.466 46.466 15.507 61.973 8.225 70.198 7.078 77.276 6.514 83.790 5.782 89.571 3.506 93.077 2.834 95.911 2.179 98.090 1.910 100.000
Extraction Sums of Squared Loadings Total % of Variance Cumulative % 4.647 46.466 46.466 1.551 15.507 61.973
Rotation Sums Total % of 4.494 1.704
Extraction Method: Principal Component Analysis.
A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok. 66
Scree Plot
5
Eigenvalue
4
3
2
1
0 1
2
3
4
5
6
7
8
9
10
Component Number
A s.é.-kek a komponens sorszám függvényében. Component Matrixa
1 teljes súly teljes hossz orrtól farok végéig marmagasság köröm végéig törzs hossza pocak körkörös mérete hátsó láb hossza körömtől gerincig szív súlya lép súlya jobb vese súlya recés gyomor súlya kaja nélkül
Component 2 .897 .043 .827
-.178
.862
-.123
.615 .744
-.019 -.286
.754
-.083
.836 .085 .392
.035 .773 .694
.235
.577
Extraction Method: Principal Component Analysis. a. 2 components extracted.
67
Az eredeti változók és a főkomponensek korrelációi (component loading). Hagyományosan 0.6 fölött magas, 0.4 alatt alacsony. Component Plot
1,0
leps
0,5
Component 2
vese1s recesn
torzsh
0,0
szivs
osuly
farmag marmag testh ovmeret -0,5
-1,0 -1,0
-0,5
0,0
0,5
1,0
Component 1 Component Score Coefficient Matrix
1 teljes súly teljes hossz orrtól farok végéig marmagasság köröm végéig törzs hossza pocak körkörös mérete hátsó láb hossza körömtől gerincig szív súlya lép súlya jobb vese súlya recés gyomor súlya kaja nélkül
Component 2 .193 .027 .178
-.115
.185
-.080
.132 .160
-.012 -.185
.162
-.053
.180 .018 .084
.023 .498 .447
.051
.372
Extraction Method: Principal Component Analysis. Component Scores.
68
Ezekkel a szkórokkal tudjuk kiszámolni a komponensek értékeit az egyes esetekre. (Ezek az aij együtthatók.)
Faktoranalízis • Nagyszámú változó korrelációinak elemzése. Változók faktorokba csoportosítása. Az egy faktorba csoportosított változók korreláltsága nagyobb egymással, mint a csoporton kívüliekkel. • A faktorok interpretálása (látens változók) a változók alapján. • Sok változó összesítése néhány faktorba. • X i = ai 1 F1 + ai 2 F2 +...+ aim Fm + ei a ij - faktorsúlyok (loadings), X i -k a standardizált változók. F1 , F2 ,..., Fm korrelálatlan közös faktorok 0 várható értékkel és 1 szórással. ei egyedi faktor, várható értéke 0, Fi -kel nem korrelált. 2 σ ( X i ) = 1 = ai21σ 2 (F1 ) + ... + aim σ 2 (Fm ) + σ 2 (ei ) = 2 = ai21 + ... + aim + σ 2 (ei )
ai21 +...+ aim2 - kommunalitás, σ 2 ( ei ) - egyediség. rij = a i1 a j1 +...+ a im a jm - az X i és X j korrelációs együtthatója. (Csak akkor lehet két változó nagyon korrelált, ha nagy súllyal szereplenek ugyanabban a faktorban.)
Számítás menete: 1. Korrelációs vagy kovarinacia mátrix kiszámítása. 69
2. Faktorsúlyok becslése (faktor extrakció). Pl. főkomponens analízisből megtartjuk az 1-nél nagyobb sajátértékű főkomponenseket (Főkomponens faktoranalízis). Főkomponensek: Z1 = b11 X 1 + b12 X 2 + ... + b1 p X p Z 2 = b21 X 1 + b22 X 2 + ... + b2 p X p M
Z p = b p1 X 1 + b p 2 X 2 + ... + b pp X p Mátrix egyenlet formában:
Z=BX
⇒ B-1Z = BTZ =X
Mivel a B mártix ortonormált. Így: X 1 = b11Z1 + b21Z 2 + ... + b p1Z p X 2 = b12 Z1 + b22 Z 2 + ... + b p 2 Z p M
X p = b1 p Z1 + b2 p Z 2 + ... + b pp Z p
Mivel Faktor analízis esetén m < p számú faktorral dolgozunk, ezért: X 1 = b11Z1 + b21Z 2 + ... + bm1Z m + e1 X 2 = b12 Z1 + b22 Z 2 + ... + bm 2 Z m + e2 M
X p = b1 p Z1 + b2 p Z 2 + ... + bmp Z m + e p
70
Mostmár csak át kell skálázni az eredeti főkomponenseket úgy, hogy 1 legyen a varianciájuk. Ehhez a Zi –ket osztani kell a szórásukkal, ami éppen λi . Így:
Fi = Z i / λi . 3. Faktor rotációt végzünk azért, hogy a faktorok interpretálhatóbbak legyenek. A súlyok minden faktor esetén vagy nagyok vagy nagyon kicsik legyenek. 4. Faktor értékek kiszámítása a mintaegyedekre. További analízisek. Rotációs módszerek: Ortogonális: Varimax, Quartimax, Equamax • Varimax: úgy forgat, hogy az együtthatók vagy 1-hez vagy 0hoz közeliek legyenek. • Quartimax: minimalizálja a változók magyarázásához szükséges faktorok számát • Equamax: Az előző kettő kompromisszuma. A rotált faktorok nem korreláltak. Ferde (Oblique): Direct Oblimin, Promax Nagyobb sajátértékeket eredményeznek. A Promax nagyon nagy táblázatok esetén használatos. Korrelált faktorok.
71
Rotated Component Matrixa
1 teljes súly teljes hossz orrtól farok végéig marmagasság köröm végéig törzs hossza pocak körkörös mérete hátsó láb hossza körömtől gerincig szív súlya lép súlya jobb vese súlya recés gyomor súlya kaja nélkül
Component 2 .865 .241 .846
.010
.868
.071
.603 .789
.118 -.114
.754
.087
.807 -.089 .228
.220 .772 .763
.101
.615
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations. Component Transformation Matrix Component 1 2
1 .975 -.222
2 .222 .975
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
72
Component Plot in Rotated Space
1,0
leps
vese1s recesn
Component 2
0,5
osuly szivs farmag torzsh
0,0
marmag testh ovmeret
-0,5
-1,0 -1,0
-0,5
0,0
0,5
1,0
Component 1
Component Score Coefficient Matrix
teljes súly teljes hossz orrtól farok végéig marmagasság köröm végéig törzs hossza pocak körkörös mérete hátsó láb hossza körömtől gerincig szív súlya lép súlya jobb vese súlya recés gyomor súlya kaja nélkül
Component 1 2 .182 .070 .199
-.072
.198
-.036
.132 .197
.018 -.144
.170
-.016
.170 -.093 -.017
.062 .490 .455
-.034
.374
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.
Megjegyzés: R-mode FA, a változók helyett az eseteket csoportosítja 73
Klaszter analízis n egyedből álló minta, amelynek minden egyedén p számú változó értékét mérjük. Csoportosítási séma, amely a „hasonló” objektumokat egy csoportba sorolja. A csoportok száma nem ismert (általában). Algoritmusok két típusa: • Hierarhikus technikák. Dendogramot produkálnak. 1. Egyedek egymástól való távolságának kiszámítása. 2. Csoportok létrehozása vagy összevonással, vagy felosztással. Az összevonás esetén először minden objektumot külön csoportba sorolunk és azután a legközelebbieket fokozatosan egyesítjük. A felosztó módszerek esetén, először egy csoportba soroljuk az összes objektumot, majd először ketté osztjuk, majd a ketté osztottakat is tovább osztjuk egészen addíg, amíg minden egyed külön csoportot alkot. • Másik típusa esetén az egyedek be is kerülhetnek egy csoportba és ki is kerülhetnek onnan (k-means clustering). Előre meg kell határozni, hogy hány csoportunk legyen.
Összevonási technikák (linkage methods): Egyszerű lánc módszer (nearest neighbor): Két csoport távolságát az egymáshoz legközelebb eső, de nem egy csoportba tartozó elemeik távolságaként határozzuk meg. Ha a csoportok közt nincs éles elválás, akkor nem működik jól, viszont ha élesen elhatárolódnak, akkor nagyon effektív. Teljes lánc módszer (furthest neighbor): Két csoport távolságát legtávolabbi elemeik távolsága adja meg. Jól 74
működik nem elhatárolódó, de erős kohéziójú csoportok esetén. Csoportátlag módszer (between-groups linkage): Az előző két módszer közötti átmenet. A két csoport távolsága elemeik páronkénti távolságainak átlaga osztva a két csoport elemszámával. Jól működik akkor is, ha azt várjuk, hogy a csoportok elemszáma nagyon különböző lesz. Egyszerű átlag módszer (within-groups linkage): Ugyanaz, mint az előző, de nem veszi figyelembe az csoportok elemszámát. Centoid módszer (centroid clustering): Két csoport távolságát a súlypontjaik távolsága adja meg. Medián módszer (median clustering): Ugyanaz, mint az előző, de figyelembe veszi a csoportok elemszámát is. Ha várhatóan nagyok az elemszámokban a különbségek, akkor az előzőhöz képest ezt célszerű használni. Ward módszer (Ward’s method): A csoportokon belüli varianciát minimalizálja. Nagyon effektív, de kis elemszámú csoportok létrehozására hajlamos módszer. pl: Az emlősállatoknak négyféle foguk van: metszőfog, szemfog, kiszápfog és zápfog. Az adatfile 32 állatfaj egyik oldali állkapcsában alul illetve felül található különböző fogainak számát tartalmazza.
75
Case 1:barna denever 2:vakond 3:ezustszoru denever 4:torpe denever 5:hazi denever 6:voros denever 7:pocok 8:nyul 9:hod 10:mormota 11:szurke mokus 12:hazi eger 13:tarajos sul 14:farkas 15:medve 16:mosomedve 17:nyest 18:menyet 19:rozsomak 20:borz 21:folyami vidra 22:tengeri vidra 23:jaguar 24:puma 25:premes foka 26:oroszlan foka 27:szurke foka 28:elefant foka 29:renszarvas 30:javor antilop 31:szarvas
10 Clusters 1 2 1 1 1 1 3 3 4 4 4 5 4 6 6 7 8 8 8 8 8 8 9 9 8 8 8 8 10 10 10
9 Clusters 1 2 1 1 1 1 3 3 4 4 4 5 4 6 6 7 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9
8 Clusters 1 2 1 1 1 1 3 3 4 4 4 5 4 6 6 7 6 6 6 6 6 6 6 6 6 6 6 6 8 8 8
7 Clusters 1 2 1 1 1 1 3 3 4 4 4 5 4 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7
6 Clusters 1 2 1 1 1 1 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6
5 Clusters 1 2 1 1 1 1 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5
76
A következő ábra a dendrogram, ami az összevonásokat ábrázolja sematikusan. szarvas javorszarvas renszarvas javor antilop pocok nyul szurke mokus tarajos sul hod mormota hazi eger torpe denever voros denever hazi denever ezustsz denever barna denever farkas medve jaguar puma nyest rozsomak menyet borz tengeri vidra szurke foka folyami vidra premes foka oroszlan foka elefant foka mosomedve vakond
31 32 29 30 7 8 11 13 9 10 12 4 6 5 3 1 14 15 23 24 17 19 18 20 22 27 21 25 26 28 16 2
-+-------+ -+ +---------------------------------------+ -+-------+ I -+ I ---------+-----------+ I ---------+ I I -+-------+ +-------------------+ I -+ +-----------+ I I -+-------+ I I I -+ I I I ---------------------+ I I ---------+ I I ---------+ I I ---------+ +-------+ ---------+---------------------+ I ---------+ I I -+-------------------+ I I -+ I I I -+-------------------+ I I -+ I I I -+-------+ I +---------+ -+ I I I -+-------+-----------+ I -+ I I I ---------+ +---------+ ---------+ I I ---------+ I I -+-------------------+ I -+ I I ---------------------+ I ---------------------+ I -------------------------------+
77
Kanonikus korreláció elemzés Többszörös regresszió elemzés általánosítása. Sokszor két természetes csoportot alkotnak a változók és a két csoport közötti kapcsolatot szereténk vizsgálni. Példa: 16 Euphydryas editha lepke kolónia Kaliforniából és Oregonból. Minden kolónia esetén ismert 4 környezeti változó és 6 génfrekvencia érték. Kérdés: milyen kapcsolatban vannak egymással a környezeti és genetikus tényezők? Változók: Alt – Tengerszint feletti magasság (láb) prec- éves csapadék mennyiség
max – Éves max. hőmérséklet (°F) min – Éves min. hőmérséklet (°F) F0.40-F1.30 Pgi mibility gene frequencies (%) Colony Alt
prec
max
min
F0.40
F0.60
F0.80
F1.00
F1.16
F1.30
SS
500
43
98
17
0
3
22
57
17
1
SB
800
20
92
32
0
16
20
38
13
13
WSB
570
28
98
26
0
6
28
46
17
3
JRC
550
28
98
26
0
4
19
47
27
3
JRH
550
28
98
26
0
1
8
50
35
6
SJ
380
15
99
28
0
2
19
44
32
3
CR
930
21
99
28
0
0
15
50
27
8
UO
650
10
101
27
10
21
40
25
4
0
LO
600
10
101
27
14
26
32
28
0
0
DP
1500
19
99
23
0
1
6
80
12
1
PZ
1750
22
101
27
1
4
34
33
22
6
MC
2000
58
100
18
0
7
14
66
13
0
IF
2500
34
102
16
0
9
15
47
21
8
AF
2000
21
105
20
3
7
17
32
27
14
GH
7850
42
84
5
0
5
7
84
4
0
GL
10500
50
81
-12
0
3
1
92
4
0
78
Ötlet: Készítsünk olyan lineáris kombinációkat a két csoportban lévő változókból, hogy azok maximálisan korreláltak legyenek. A gyakorlatban több változó készíthető. Ha van p ( X 1 , X 2 ,..., X p ) és q ( Y1 , Y2 ,..., Yq ) standardizált változónk a két csoportban, akkor min(p,q) ilyen lineáris kombináció készíthető. Azaz U i = ai1 X 1 + ai 2 X 2 + ... + aip X p Vi = ai1Y1 + ai 2Y2 + ... + aipY p
i = 1, 2,..., r
ahol r = min(p,q) Úgy választjuk meg az együtthatókat, hogy az U1 és V1 korrelációja maximális legyen, U2 és V2 korrelációja maximális legyen olyan módon, hogy nem korreláltak U1 –gyel és V1-gyel, stb... Ilyen módon minden (Ui és Vi) a kapcsolat különböző „dimenzióit” méri. Az első pár korrelációja a legnagyobb. A számítás menete
Elkészítünk egy (p+q)×(p+q) dimenziós korrelációs mátrixot a változóinkból: X1 X 2 X1 ⎡ Xp⎢ ⎢ Y1 ⎢ Yq ⎢⎣
A L CT
Xp
Y1 Y2 Yq M L M
⎤ ⎥ L ⎥ ⎥ B ⎥⎦ C
79
Kiszámítható egy B-1CTA-1C mátrix kiszámíthatóak ennek a sajátértékei. Bebizonyítható, hogy a λ1 > λ2 >...> λr , a kanonikus változók korrelációinak (kanonikus korrelációk) négyzetei. A hozzájuk tartozó b1,b2,...,br sajátvektorok pedig az Yi-k együtthatói. Az Xi-k együtthatóit az ai = A-1Cbi
vektor komponensei adják. A sajátértékek azt mutatják meg, hogy a független változók mennyit magyaráznak a függőkből az adott dimenzióban. Szignifikancia tesztek
Ha r sajátértékünk van, akkor r kanonikus változó párunk van. Ezek közül sok olyan kicsi, hogy már nem szignifikáns. A Wilk’s féle tesztet használjuk annak eldöntésére, hogy hány szignifikáns változó párunk van. A szabadsági foka p*q. Feltételek
Általában ugyanazok mint a MANOVA esetén: • linearitás • homoscedasticity • intervallum vagy legalábbis közel intervallum skálán mért változók • nem túl erős kollinearitás • többváltozós normalitás
80
SPSS megvalósítás
Menüből nem lehet, csak szintaxisból: INCLUDE 'C:\Program Files\SPSS\Canonical correlation.sps'. CANCORR SET1=Alt prec max min / SET2=F0.40 F0.60 F0.80 F1.00 F1.16/ .
Példa
Az utolsó frekvencia változó nem kell, mert a 6 együtt 100%ot ad ki. Az output: Korrelációs mátrixok (A, B és C) Kanonikus korrelációk (sajátértékek négyzetgyöke): Canonical Correlations 1 .879 2 .746 3 .412 4 .217
Sajátértékek 0.773 0.557 0.169 0.047
Teszetk: Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .080 25.316 20.000 .190 2 .351 10.482 12.000 .574 3 .791 2.340 6.000 .886 4 .953 .484 2.000 .785
Egyik kanonikus változó sem szignifikáns. Nincs bizonyítva a kapcsolat. Valószínűleg túl kicsi a minta. 81
Standardizált együtthatók. A nagysága a változó súlyát jelenti a kanonikus változóban. Standardized Canonical Coefficients for Set-1 1 2 3 4 Alt .114 -.778 3.654 1.594 prec -.619 .980 .601 .860 max .693 -.562 .565 1.599 min -.048 .928 3.623 .742
U1 = 0.114 X 1 − 0.619 X 2 + 0.693 X 3 − 0.048 X 4
Együtthatók: Raw Canonical Coefficients for Set-1 1 2 3 4 Alt .000 .000 .001 .001 prec -.044 .070 .043 .061 max .109 -.088 .089 .250 min -.004 .085 .331 .068
Standardized Canonical Coefficients for Set-2 1 2 3 4 F0.40 .675 -1.087 -1.530 .284 F0.60 -.909 3.034 -2.049 -2.331 F0.80 -.376 2.216 -2.231 -.867 F1.00 -1.442 3.439 -4.916 -1.907 F1.16 -.269 2.928 -3.611 -1.133
Raw Canonical Coefficients 1 2 F0.40 .163 -.263 F0.60 -.121 .405 F0.80 -.035 .206 F1.00 -.072 .171 F1.16 -.025 .272
for Set-2 3 4 -.370 .069 -.273 -.311 -.207 -.080 -.245 -.095 -.335 -.105
82
Az 1. kanonikus változókban az láthatjuk, hogy a max hőmérséklet és a prec nagy negatív együtthatója, valamint az F0.60-F1.16 meg nem léte korrelált. Canonical Loadings for Set-1 1 2 3 Alt -.766 -.624 .137 prec -.853 .155 -.148 max .861 .280 -.142 min .780 .561 .185
4 .065 .476 .401 -.207
Az 1. kanonikus változó magas max. és min. hőmérséklettel, és alacsony magassággal és csapadék mennyiséggel korrelál. A kanonikus változó és az eredeti változók közötti korreláció. (Faktor struktúra). Négyzete méri az adott változó magyarázó hatását a kanonikus változóra nézve. 3 célra használjuk: Interpretáció. Azon változókat, amelyeknek a korrelációja 0.3 felett van, tekintjük úgy hogy hozzájárulnak lényegesen a változóhoz. Canonical Loadings for Set-2 1 2 3 F0.40 .568 -.433 -.220 F0.60 .387 -.164 .120 F0.80 .703 .209 .069 F1.00 -.922 -.243 -.191 F1.16 .361 .478 -.035
4 -.657 -.899 -.411 .231 .728
A 2. csoport esetén az F1.00-val negatív a korreláció, a többivel pozitív. Így úgy tűnik, hogy a magas max. és min. hőmérséklet, és alacsony magasság és csapadék mennyiség az F1.00 hiányával korrelál.
83
Redundancy Analysis:
Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .666 CV1-2 .202 CV1-3 .024 CV1-4 .109
Redundancia együttható: Rd, Azt méri, hogy az egyik változó csoport varianciája mennyire jósulható a másik csoport egy kanonikus változójából. Magas redundancia jó prediktáló képességet jelent. 11,00
S1_CV001
10,00
9,00
8,00
7,00 -7,00
-6,00
-5,00
-4,00
S2_CV001
84