Vícerozměrná data • Extenze univarietních dat na více proměnných (p) • Datová matice: n x p • Hodnoty proměnných získány z jednoho subjektu (i) Předpoklad závislostí mezi proměnnými
Metoda hlavních komponent
• Rozsah MV souboru: n • Studium MV souborů: umělé proměnné vzniklé lineární funkcí původních proměnných x = w1 y1 + w2 y2 + ... + w p y p
Václav Adamec
[email protected]
• Váhy wi zvoleny podle různých kritérií
Multivarietní rozdělení
Bivarietní rozdělení
• Y ~ MVNp(µ,Σ) ; µ vektor populačních průměrů; Σ populační matice kovariancí • Funkce MVN pravděp. hustoty:
1
( 2π )
p/2
Σ
0.5
⋅ e −( y − µ )
T
Σ −1 ( y − µ ) / 2
• Mahalanobisova vzdálenost:
0.03
T
T −1
0.010 10
0.01 0.00 -10
5 0 -5
0 x1
-5 5
10 -10
10
d
• Determinanty: Generalizovaná variance |S|, |Σ| • Malý |Σ| výskyt kolinearity (lineárních závislostí) • Velký |Σ| absence kolinearity (lineárních závislostí)
0.015
0.02 d
∆ = z z = (y − µ) Σ
2 (y − µ) ~ χp
x2
2
0.005 0.000 -10
5 0
x2
f ( y) =
Bivarietni Gaussovo rozdeleni, r = 0.5
Bivarietni Gaussovo rozdeleni, r = 0.9
-5
0 x1
-5 5
10 -10
Konfidenční elipsy
4
4
2
2
0
0
-2
-2
-4
-4
-4
-2
0
2
• • • • •
Konfidencni elipsy: r = 0,5
x2
x2
Konfidencni elipsy: r = 0,9
Multivarietní rozdělení
4
Tvar elipsy MV rozdělení je dán ∆2 Hlavní podélná osa funkcí největšího charakteristického čísla λmax Vedlejší příčná osa funkcí nejmenšího charakteristického čísla λmin Univarietní normalita neznamená multivarietní normalitu Testy MVN problematičtější: Testy elipsoidního tvaru bivarietních rozdělení Multivarietní Q-Q plot Omezeně testy (multivarietní SW test, atd.)
-4
x1
-2
0
2
4
x1
Ilustrační data
Multivarietní Q-Q plot 2
2
Q -Q p lo t: M a h a la n o b is o va vzd a le n o s t d vs . kvantily χ p
• Kraniální míry fotbalistů (Rencher, 1995):
14
12
10
8 2
šířka hlavy obvod hlavy předo - zadní míra v úrovni očí výška oči - temeno výška uši - temeno šířka čelisti
d
V2 V3 V4 V5 V6 V7
6
4
2
0 0
5
10 K va ntily χ
15
2
Kovarianční a korelační matice
C orela ční m atic e
Za podmínky normality užitečné Symetrické matice p x p Výběrové (S, R) vs. Populační (Σ) Hlavní diagonála: variance (S, Σ) , jedničky (R) Mimo diagonální prvky: kovariance (S, Σ) , korelační koef. (R) σij = σji, rij = rji R má redukovanou škálu σ12 σ22 σ32 σ42 σ52 σ62
σ13 σ23 σ32 σ43 σ53 σ63
σ14 σ24 σ34 σ42 σ54 σ64
σ15 σ25 σ35 σ45 σ52 σ65
σ16 σ26 σ36 σ46 σ56 σ62
1 r 21 r31 R= r41 r51 r61
V2 V3 V4 V5
-1
r12 r13 r14 r15 r16 1 r23 r24 r25 r26 r32 1 r34 r35 r36 r42 r43 1 r45 r46 r52 r53 r54 1 r56 r62 r63 r64 r65 1
V2
Metoda hlavních komponent • Účel: • Hledání lineární f-ce proměnných maximalizující celkovou varianci • Zjednodušení struktury dat, redukce dimenze souboru (počtu proměnných) • Výběr žádaných (podobných, nepodobných) proměnných • Studium struktury disperse MV souboru nebo lineárních závislostí • Regrese hlavních komponent (řešení kolinearity v matici regresorů)
0
V6
σ12 σ21 σ Σ= 31 σ41 σ 51 σ61
1
V7
• • • • • • •
Korelační matice
V3
V4
V5
V6
V7
Rozklad na vlastní čísla • Většinou rozkládáme S, R nebo distanční matici (D) • Vždy symetrická čtvercová matice A = AT • Definujeme diagonální matici Λ (p x p) a matici korespondujících vlastních vektorů E (p x p) .
A = EΛE T • Platí:
Ay − Λ y = 0
• Matice Λ obsahuje p vlastních čísel λi uspořádaných sestupně • Matice E obsahuje p sloupců vlastních vektorů ei, kde každý sloupec přináleží jednomu vlastnímu číslu
Vlastnosti vlastních čísel p
∏
• Součin vlastních čísel:
Vlastnosti vlastních vektorů eiT ei =
λi = A
• Mají jednotkovou délku
= tr ( R ) = p
• Jsou vzájemně ortogonální
i =1
• Součet vlastních čísel:
p
∑λ i =1
iR
p
∑λ i =1
iS
= tr ( S ) =
p
∑s i =1
2 i
• Vlastní čísla λi ve vztahu λ1 ≥ λ2 ≥ ... ≥ λp • Počet nulových λi udává počet lineárních závislostí v y, singularitu E • Podíl λi k součtu všech vlastních čísel udává procento celkové variance vysvětlené λi • Podíly variance lze kumulovat
eiT e j =
∑e
∑ee i
j
2 i
= 1, ∀ i
= 0, ∀ i ≠ j
E T = E −1
• Matice E je pak ortonormální
EE T = I
• Hodnoty vlastního vektoru ei vyjadřují míru participace korespondující proměnné na varianci (závislosti)
Tabulkové vyjádření rozkladu
Grafické vyjádření rozkladu S c r e e p lo t
č 1 2 3 4 5 6
Lambda 3.323 1.374 0.476 0.325 0.156 0.088
Suma λi = 5.997 Součin λi = 0.001994
% Variance 57.871 23.931 8.290 5.654 2.725 1.530
Kumul % 57.871 81.802 90.091 95.745 98.470 100.000
5
4 3 .3 2 3
3
2 1 .3 7 4
1 0 .4 7 6
0 .3 2 5
0 .1 5 6
0 .0 8 8
5
6
0 1
2
3
4
E ig e n v a lu e s
První dva vlastní vektory
Hlavní komponenty
• Variance v matici S: V2
V3
V4
V5
V6
V7
0.0426 0.8088 0.1002 0.3459 0.0380 0.0324
• Princip: Výpočet nových proměnných (hlavních komponent), které zachovávají varianci, ale eliminují kovariance. • Výpočet: Z = YE T
pc 1 = z 1 = e1 y = e11 y 1 + e 12 y 2 + ... + e1 p y p
• Vlastní vektory (1. a 2.): V2 V3 V4 V5 V6 V7
E1 -0.2074 -0.8728 -0.2613 -0.3259 -0.0656 -0.1279
E2 0.142 0.219 0.231 -0.891 -0.222 0.187
T
pc 2 = z 2 = e 2 y = e 21 y 1 + e 22 y 2 + ... + e 2 p y p ... pc
λ1 0 Var ( pc ) = . 0
•
•
•
Hlavní komponenty pci jsou vzájemně ortogonální Variance pci are jsou maximální pro i=1, ale postupně klesají Hlavní komponenty nulových λi jsou téměř konstantní Nulové λi důležité pro detekci lineárních závislostí Poslední vlastní vektor: V2 V3 V4 0.731 -0.238 0.358
V5 0.113
V6 -0.235
0
. .
. 0
. 0
0 0 0 λ p
PC1 vs. PC2
V7 -0.460
PC1 vs. PC3
14
-6
12
-8
PC3
•
λ2
Grafy hlavních komponent
PC2
•
= z p = e p y = e p 1 y 1 + e p 2 y 2 + ... + e pp y p
• Variance PC:
Hlavní komponenty •
T
p
10
-10
8
-12
6
-14
Na „téměř“ lineární závislosti se podílí především V2 a V7 -70
-68
-66
-64 PC1
-62
-60
-70
-68
-66
-64
-62
-60
PC1
Počet vybraných vlastních čísel • Kritéria: Vlastní čísla vysvětlující nejméně 80–90 % variance Visuální posouzení grafu úpatí Λ Nadprůměrné λi , λi > 1.0
Poznámky • • • •
PCA je vztažena ke škále proměnných (rozdílná pro S a R) Multivarietní normalita výhodou Výstupy PCA ovlivněny extrémy v datech Koeficienty PC regrese jsou vychýlené, obtížně interpretovatelné
Asymptotický věrohodnostní test Metoda “broken stick“ (Jackson, 1993) Počet zvolený podle nejvyššího počtu metod
As far as the laws of mathematics refer to reality, they are not certain; as far as they are certain, they do not refer to reality. Albert Einstein