Többváltozós problémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független változó, vagy több függő és független változó (vektor változók). pl. 1989 február 1.-én Rhode Island-en egy nagyvihar után 49 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb a fele elpusztult, és Hermon Bumpus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárnytávolság, csőr és fej hossz, felkar hossz, mellcsont hossza. Ezek a változók most egy vektorváltozót alkotnak. Eloszlás: általában többváltozós normális. Középpontja: centroid, várható érték vektor. Várható érték: ⎡ x1 ⎤ ⎡ μ1 ⎤ ⎢x ⎥ ⎢μ ⎥ 2 2 μ= ⎢ ⎥ és ennek becslése a mintából: x = ⎢ ⎥ ⎢M ⎥ ⎢M ⎥ ⎢x ⎥ ⎢μ ⎥ ⎣ p⎦ ⎣ p⎦ A szórás helyett kovariancia mátrix : cov(X,Y)= μ{(X-μ(X))(Y-μ(Y))} 23
Ha X=Y, akkor a kovariancia a változó varianciája. ⎛σ 2 ( X 1 ) cov( X 1 , X 2 )... ⎜ ⎜ cov( X 2 , X 1 ) σ 2 ( X 2 ) cov( X) = ⎜ M ⎜ ⎜ ⎝ cov( X n , X 1 )
⎞ ⎟ ⎟ ⎟. ⎟ 2 σ ( X n )⎟⎠
n-ed rendű mátrix, szimmetrikus, és nincs negatív sajátértéke. A korrelációs mátrix, ha: R(X,Y) = μ{(X-μ(X))(Y-μ(Y))}/{σ(X)σ(Y)}, ⎛1 R( X 1 , X 2 )... ⎜ ⎜ R( X 2 , X 1 ) 1 R( X ) = ⎜ M ⎜ ⎜R X , X ⎝ ( n 1) A verebek esetén: teljes hossz szarnytavolsag csor es fej hossz felkar hossz mellcsont hossza
⎞ ⎟ ⎟ ⎟ ⎟ 1⎟⎠
Mean 157.98 241.33
Variance 13.35 25.68
31.46
.63
18.47
.32
20.83
.98
24
>
var(vereb[,2:6]) X1 X2 X3 13.35 13.61 1.922 13.61 25.68 2.714 1.92 2.71 0.632 1.33 2.20 0.342 2.19 2.66 0.415
X4 1.331 2.198 0.342 0.318 0.339
X5 2.192 2.658 0.415 0.339 0.983
> cor(vereb[,2:6]) X1 X2 X3 X1 1.000 0.735 0.662 X2 0.735 1.000 0.674 X3 0.662 0.674 1.000 X4 0.645 0.769 0.763 X5 0.605 0.529 0.526
X4 0.645 0.769 0.763 1.000 0.607
X5 0.605 0.529 0.526 0.607 1.000
X1 X2 X3 X4 X5
Ha csoportokat alkotnak a megfigyelési egységek, akkor itt is lehet csoportok közötti (between groups) és csoportokon belüli kovariancia mátrixokról beszélni. A módszereknél általában feltétel a csoportokon belüli kovariancia mátrixok egyezősége.
25
Többváltozós problémák 1. Verebek a viharban TULEL
nem elte tul a vihart
tulelte a vihart
Group Total
Count Maximum Mean Median Minimum Std Deviation Variance
Count Maximum Mean Median Minimum Std Deviation Variance Count Maximum Mean Median Minimum Std Deviation Variance
teljes hossz 28 165.00 158.43 159.00 152.00
szarnytavolsag 28 252.00 241.57 242.00 230.00
csor es fej hossz 28 33.40 31.48 31.50 30.10
felkar hossz 28 19.80 18.45 18.50 17.20
mellcsont hossza 28 23.10 20.84 20.70 18.60
3.88
5.71
.85
.66
1.15
15.07 21 164.00 157.38 157.00 153.00
32.55 21 248.00 241.00 240.00 235.00
.73 21 32.80 31.43 31.40 30.30
.43 21 19.30 18.50 18.50 17.70
1.32 21 22.00 20.81 20.60 19.60
3.32
4.18
.73
.42
.76
11.05 49 165.00 157.98 158.00 152.00
17.50 49 252.00 241.33 242.00 230.00
.53 49 33.40 31.46 31.50 30.10
.18 49 19.80 18.47 18.50 17.20
.57 49 23.10 20.83 20.70 18.60
3.65
5.07
.79
.56
.99
13.35
25.68
.63
.32
.98
Milyen kérdéseket lehet feltenni? • Milyen kapcsolatban vannak egymással a mért változók? • Túlélők, nem túlélők átlagai, szórásai különböznek-e? (Variancia-analízis, F-próba, Levene próba) • Ha a túlélők és nem túlélők különböznek a mért változók eloszlásai szempontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoportot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index.
26
2. Egyiptomi koponyák Thébából származó férfi koponyák 5 korszakból. Mindegyikből 30-30 darab. 1. Korai predinasztikus kor (4000 ie) 2. Késő predinasztikus kor (3300 ie) 3. 12. 13. dinasztia (1850 ie) 4. Ptolemaioszi kor (200 ie) 5. Római kor (150 iu)
• Milyen kapcsolatban van a 4 mért érték egymással? • Van-e szignifikáns differencia a mintaátlagok illetve szórások között, és ha igen, akkor ez tükrözi-e fokozatos időbeli változást? • Lehetséges-e konstruálni egy f függvényét a 4 változónak, amely valamilyen értelemben visszatükrözi a minták közti különbségeket?
27
DINASZT
1.00
2.00
3.00
4.00
5.00
Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance
X1
X2
X3
X4
30 141.00 131.37 119.00
30 143.00 133.60 121.00
30 114.00 99.17 89.00
30 56.00 50.53 44.00
.94
.82
1.07
.50
5.13
4.47
5.88
2.76
26.31 30 148.00 132.37 123.00
19.97 30 145.00 132.70 124.00
34.63 30 107.00 99.07 90.00
7.64 30 56.00 50.23 45.00
.88
.85
.79
.54
4.81
4.65
4.35
2.96
23.14 30 140.00 134.47 126.00
21.60 30 145.00 133.80 123.00
18.89 30 106.00 96.03 87.00
8.74 30 60.00 50.57 45.00
.64
.91
.83
.65
3.48
4.98
4.55
3.55
12.12 30 144.00 135.50 129.00
24.79 30 142.00 132.30 120.00
20.72 30 107.00 94.53 86.00
12.60 30 60.00 51.97 46.00
.72
.94
.84
.52
3.92
5.13
4.59
2.82
15.36 30 147.00 136.17 126.00
26.36 30 138.00 130.33 120.00
21.09 30 103.00 93.50 81.00
7.96 30 58.00 51.37 44.00
.98
.91
.92
.68
5.35
4.97
5.06
3.72
28.63
24.71
25.57
13.83
28
Alapvető technika: eredeti változók olyan lineáris kombinációját létrehozni, ami összegzi az eredeti adathalmaz varianciáját. Az eredeti adatok: Objektum
X1
X2
....
Xp
1 2 M n
x11 x 21
x12 x 22
... ...
x1 p x2 p
x n1
xn 2
x np
Z i = a i1 X 1 + a i 2 X 2 +...+ a ip X p Az ilyen függvényeket szokták diszkriminancia függvényeknek, főkomponenseknek, kanonikus függvényeknek, faktoroknak nevezni.
analógia: regressziós függvény Időnként még egy plusz konstans is van benne, ekkor: Z i = ai 0 + ai1 X 1 + ai 2 X 2 + ... + aip X p
(Megj: ha az adatok standardizáltak, akkor a konstans 0.) A „látens” (extracted) változók általános tulajdonságai: • az első magyarázza a variancia legnagyobb részét, a második a maradékból a legnagyobb részt, stb.; • nem korreláltak, merőlegesek-függetlenek • számuk = p – a régi változók száma megj.: csak néhányat tartunk meg belőlük.
29
Sajátértékek, sajátvektorok p
Eredeti össz variancia: Sp(cov(X))= ∑ λi . i =1 p
Ha a változók standardizáltak, akkor ∑ λi =p. i =1
Sajátvektorok: új változók együtthatói, az aij-k. > eigen(cor(vereb[,2:6])) $values [1] 3.616 0.532 0.386 0.302 0.165 $vectors [,1] [,2] [,3] [,4] [,5] [1,] -0.452 0.0507 0.690 0.4204 -0.374 [2,] -0.462 -0.2996 0.341 -0.5479 0.530 [3,] -0.451 -0.3246 -0.454 0.6063 0.343 [4,] -0.471 -0.1847 -0.411 -0.3883 -0.652 [5,] -0.398 0.8765 -0.178 -0.0689 0.192 Hogy lehet a sajátértékeket sajátvektorokat kiszámítani? 1. Asszociációs mátrix s.é.-ei, s.v.-ai: spektrál felbontás 2. Az eredeti vagy a standardizált adatmátrix szinguláris érték felbontásával. (Kontingencia táblákra is működik.) R-mode analízis: a változók cov vagy R mátrixából indulunk ki. szkór (score): új változókból számítjuk ki a megfigyelési egységekre. Q-mode analízis: a megfigyelési egységek cov vagy R mátrixából indulunk ki, az objektumok lin. komb.-jait kapjuk. 30
(mátrix algebrával összekapcsolhatók) A Q-mode analízis különbségi mértékeken alapul (dissimilarity measures) s.é., s.v. számítás: kanonikus korreláció analízis, főkomponens analízis és korrespondencia analízis Ha az objektumok csoportokat alkotnak, akkor úgy lehet kiszámítani a komponenseket, hogy azok a csoportok közötti különbségeket a leginkább kihangsúlyozzák: MANOVA, diszkriminancia elemzés.
31
Többváltozós exploratív elemzés Többváltozós grafikonok Szokásos egyváltozósak. Chernoff arcok, csillagok
32
>stars(vereb[,2:6])
Szórásdiagram mátrix. >pairs(vereb[,2:6])
33
Szórás diagram az új, látens változókkal. Kétváltozós boxlot
34
35
Töbváltozós távolságok, hasonlóságok Hasonlósági mértékek (similarity measures): mennyire hasonlóak az objektumok: korreláció Különbözőségi mértékek (dissimilarity measures): többváltozós távolság. Többváltozós problémák - egyedi megfigyelések, minták, illetve populációk közötti távolságok. Egyedi megfigyelések közti távolságok: Legegyszerűbb eset: n egyeden p változót X 1 , X 2 ,..., X p mérünk . Az i-edik egyed mért értékei: xi1 , xi 2 ,..., xip , a j-ediké: x j1 , x j 2 ,..., x jp . Ha p=2, akkor a két pont távolságát a Pitagorasz tétel alapján számíthatjuk: dij =
(
x i 1 − x j1
) ( 2
+ xi 2 − x j 2
)
2
.
Több változó esetére is működik: d ij =
p
∑( k =1
xik − x jk
)
2
Euklideszi távolság. Ha egy változó sokkal variabilisebb a többinél, illetve a nagyságrendje sokkal nagyobb, akkor az dominálja a távolságot. ⇒ Standardizálás.
36
pl. Thaiföldi prehisztorikus kutyák kb ie 3500-ból származó kutyacsontokat találtak. Nem világos, hogy honnan származtatható a prehisztorikus kutya, az arany sakáltól (Canis aureus), vagy a farkastól. Az eredet kiderítése végett méréseket végeztek az alsó állkapocs csontokon, illetve más fajták állkapcsán. A mért változók: X1 - az állkapocs szélessége, X2 - az állkapocs magassága az első zápfog alatt, X3 - az első zápfog hossza, X4 - az első zápfog szélessége, X5 - az első és harmadik zápfog közötti távolság (beleértve a zápfogakat is), X6 - az első és negyedik zápfog közötti távolság (beleértve a zápfogakat is). A mérések átlagai: X1 X2 Modern kutya 9.7 21.0 Arany sakál 8.1 16.7 Kínai farkas 13.5 27.3 Indiai farkas 11.5 24.3 Kujon 10.7 23.5 Dingó 9.6 22.6 Prehisztorikus 10.3 22.1 kutya Forrás: Higham et al. (1980).
X3 19.4 18.3 26.8 24.5 21.4 21.1 19.1
X4 7.7 7.0 10.6 9.3 8.5 8.3 8.1
X5 32.0 30.3 41.9 40.0 28.8 34.4 32.3
X6 36.5 32.9 48.1 44.6 37.6 43.1 35.0
37
A standardizált értékek X1 Modern kutya -.46 Arany sakál -1.41 Kínai farkas 1.78 Indiai farkas .60 Kujon .13 Dingó -.52 Prehisztorikus -.11 kutya
X2 -.46 -1.79 1.48 .55 .31 .03 -.12
X3 -.68 -1.04 1.70 .96 -.04 -.13 -.78
X4 -.69 -1.29 1.80 .69 .00 -.17 -.34
X5 -.46 -.80 1.55 1.17 -1.10 .03 -.39
X6 -.57 -1.21 1.50 .88 -.37 .61 -.83
Proximity Matrix
1.912 5.382 3.386 1.512 1.559
7.121 5.059 3.190 3.183
Euclidean Distance 4:Indiai 5:Kujon kutya 3.386 1.512 5.059 3.190 2.139 4.575 2.139 2.911 4.575 2.911 4.214 2.197 1.669
.665
2.389
5.112
3 5.382450 7.120542 0.000000 2.138709 4.575420 4.214159 5.111632
4 3.385996 5.059430 2.138709 0.000000 2.910661 2.197401 3.227674
1:Modern kutya 1:Modern kutya 2:Arany sakal 3:Kinai kutya 4:Indiai kutya 5:Kujon 6:Dingo 7:Prehisztorikus kutya
2:Arany sakal 1.912
3:Kinai kutya 5.382 7.121
3.228
1.276
6:Dingo 1.559 3.183 4.214 2.197 1.669
7:Prehisztorikus kutya .665 2.389 5.112 3.228 1.276 1.704
1.704
This is a dissimilarity matrix
1 2 3 4 5 6 7
1 0.0000000 1.9123703 5.3824505 3.3859959 1.5122383 1.5592141 0.6647927
2 1.912370 0.000000 7.120542 5.059430 3.190303 3.183165 2.388512
5 1.512238 3.190303 4.575420 2.910661 0.000000 1.669135 1.276005
6 1.559214 3.183165 4.214159 2.197401 1.669135 0.000000 1.703691
7 0.6647927 2.3885124 5.1116319 3.2276738 1.2760053 1.7036909 0.0000000
Ez is négyzetes mátrix, szimmetrikus és 0-ák vannak az átlóban.
38
City-block (Manhattan) távolság: p
d ij = ∑ xik − x jk . k =1
Hasonló eredményt ad az előzőhöz, de nem olyan érzékeny az outlierekre. Csebisev (Chebychev) távolság: Ha csak 1 dimenzióban nézzük a különbséget. d ij = max xik − x jk k
Hatvány (Power, Costumized) távolság: Ha a növelni vagy csökkenteni akarjuk azoknak a dimenzióknak a súlyát, amelyek 1r n⎞ ⎛ p esetén különböznek az objektumok: d ij = ⎜ ∑ xik − y jk ⎟ . ⎝ k =1 ⎠ Az n és r értékét mi választhatjuk meg. Az n az egyedi dimenziók közötti távolságokat súlyozza, az r pedig az egyes megfigyelt egyedek közöttieket. Ha n = r, akkor Minkowsky távolságnak nevezzük. Bray-Curtis használatos.
(Kulczynski):
faj
abudancia
adatok
esetén
Gyakorisági értékek esetén: Chi-négyzet (Chi-square) . A szokásos módon számolt χ 2 -érték. Phi-négyzet (Phi-square) Az előző normalizálva. 39
Jaccard e.h.: bináris skálán mért (prezencia, abszencia) adatokra. a 1− a+b+c a – azoknak a változóknak a száma, amelyek esetén egyik objektum értéke sem 0 b – ahol az egyik 0, c – ahol a másik 0. Gower e.h.: lehetnek folytonos és kategoriális változók is. Dissim. mértékek tulajdonságai: metrikusság: háromszög készíthető a 3 pont páronkénti távolságaiból. Általában ilyenek, Bray-Curtis nem. MDA-nál lényeges tulajdonság.
40
41
Mikor melyiket használjuk? Ha a változók hasonló skálán mértek és nincs 0? értékük, akkor Euklideszi, City-block. Ha nem hasonló a skála, akkor először standardizálni kell! Fajok abundanciája esetén olyan kell, amely maximális akkor, ha nincs közös faj a két mintavételi egységen: Bray-Curtis, Kulczynski jó. Távolsági mátrixok összehasonlítása Mantel-teszt pl.: genetikus távolságok - földrajzi, időbeli távolságok. Távolságok populációk és minták között Mahalanobis távolság: Dij2
p
p
(
) (
)
= ∑ ∑ μ ri − μ rj v rs μ si − μ sj , r =1 s=1
ahol v rs a kovariancia mátrix inverzének az r-edik sorában és sedik oszlopában álló eleme. Másképp: ′ −1 2 Dij = μi − μ j C μi − μ j kvadratikus alak, ahol
(
)
(
)
42
⎡ μ1i ⎤ ⎢μ ⎥ 2i μi = ⎢ ⎥ , az i-edik populáció várható érték vektora. C a ⎢M ⎥ ⎢μ ⎥ ⎣ pi ⎦ kovariancia mátrix. Használható egy egyednek a populáció középpontjától mért távolságának mérésére is: Dij2
p
p
= ∑ ∑ ( xr − μ r )v rs ( x s − μ s ) , r =1 s =1
ahol az egyeden mért értékek: x1 , x2 ,..., x p és a megfelelő populáció átlagok: μ1 , μ2 ,..., μ p . Úgy tekinthető, mint az x megfigyelés többváltozós reziduuma, azaz, hogy milyen messze van x az összes változó eloszlásának középpontjától. Figyelembe veszi a változók közti korrelációt is. Ha a populáció többváltozós normális eloszlást követ, akkor D 2 χ 2 eloszlású p szabadsági fokkal. Ha D 2 értéke szignifikánsan nagy (P<0.001), akkor a megfigyelésünk vagy hibás, vagy egy extremális megfigyelés. A populáció átlagokat és a kovariancia mátrixot a mintából becsülhetjük.
43
pl. Az egyiptomi koponya minták közötti távolságok: Pooled Within-Groups Covarian
X1 X2 X3 X4 X1 X2 X3 X4
Correlati
X1 21.11 3.678E7.908E2.00 1.00 .00 .00 .13
X2 3.678E23.48 5.20 2.84 .00 1.00 .21 .18
a
X3 7.908E5.20 24.17 1.13 .00 .21 1.00 .07
X4 2.00 2.84 1.13 10.15 .13 .18 .07 1.00
a. The covariance matrix has 145 degrees Group Statistics
DINASZT 1.00
2.00
3.00
4.00
5.00
Total
X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4
Mean 131.3667 133.6000 99.1667 50.5333 132.3667 132.7000 99.0667 50.2333 134.4667 133.8000 96.0333 50.5667 135.5000 132.3000 94.5333 51.9667 136.1667 130.3333 93.5000 51.3667 133.9733 132.5467 96.4600 50.9333
Std. Deviation 5.1292 4.4691 5.8844 2.7635 4.8101 4.6472 4.3465 2.9558 3.4813 4.9786 4.5523 3.5495 3.9194 5.1337 4.5918 2.8221 5.3504 4.9712 5.0566 3.7184 4.8907 4.9393 5.3778 3.2079
Valid N (listwise) Unweighted Weighted 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 30 30.000 150 150.000 150 150.000 150 150.000 150 150.000
A Mahalanobis távolságok: 44
Dinasztia 1 2 3 4 5
1
2
3
4
0.091 0.903 1.881 2.697
0.729 1.594 2.176
0.443 0.911
0.219
5
megj: Az ún. Mantel teszttel lehet mérni két távolság mátrix hasonlóságát . Ebben az esetben például azt, hogy a dinasztiák távolságainak mátrixa korrelál-e az időbeli távolságok mátrixával. (igen) n
i −1
Teszt statisztika: Z = ∑∑ mij eij , ahol mij és eij a két i = 2 j =1
összehasonlítandó mátrix elemei. Az egyik mátrix sorainak random sorrendjeiből számított tapasztalati eloszlással hasonlítjuk össze. Ha korreláltak a mátrixok, akkor Z nagy lesz, P kicsi.
45