1. LEKCE 0. ÚVOD Situace: Mějme n objektů (subjektů, statistických jednotek, prvků, osob). Na každém z těchto objektů změříme nebo napozorujeme p veličin (proměnných, vlastností, ukazatelů, znaků). Jednotlivá p-rozměrná pozorování jsou nezávislá (navíc často normálně rozdělená se stejnými rozptyly). Těchto n objektů může tvořit buď úplný soubor (základní soubor - nejedná se o statistickou úlohu) nebo výběr z populace (výběrový soubor). Výběrový soubor lze určit: a) náhodným výběrem b) strukturovaným výběrem Veličiny: 1) kvantitativní (metrické) a) spojité (např. výška, váha) b) diskrétní (znaky, např. počet dětí, počet „výborně“ v indexu) a) poměrové (např. teplota - °K) b) intervalové (např. teplota - °C, °F) (takto data většinou nerozlišujeme) 2) kvalitativní (kategoriální) - pouze diskrétní a) ordinální (pořadové, např. společenská vrstva, příjmová kategorie) b) nominální – vícehodnotové (např. barva, rodinný stav) – dvouhodnotové (např. pohlaví) Poznámka: Hodnoty diskrétní proměnné se nazývají varianty, kategorie nebo úrovně. Vymezení oblasti zkoumání: Vícerozměrná statistická analýza je odvětvím statistiky, které se zabývá vztahy mezi skupinami závislých proměnných a mezi objekty, na kterých se tyto proměnné pozorují.
1
Dělení metod: 1) Zobecnění jednorozměrných metod – regrese (více násobná, vícerozměrná) – analýza rozptylu MANOVA – analýza kovariancí MANCOVA – testy hypotéz – odhady parametrů – kontingenční tabulky 2) Původní mnohorozměrné metody a) Úloha: snížení dimenze (počtu proměnných), zjednodušení struktury proměnných, hledání skryté struktury, třídění proměnných do skupin Postup: nalezení vhodné transformace proměnných – analýza hlavních komponent (PCA) – faktorová analýza (FA) – kanonické korelace (CC) b) Úloha: třídění objektů do skupin – diskriminační analýza (DA) – shluková analýza (CA) 1) Symetrické postavení proměnných – analýza hlavních komponent – faktorová analýza – kanonické korelace – shluková analýza – analýza kovariancí 2) Nesymetrické postavení proměnných – regrese – analýza rozptylu – diskriminační analýza – kontingenční tabulky Poznámka: 1) neuvažujeme vliv časové proměnné 2) nepostradatelnost výpočetního softwaru 3) zobrazování dat - grafické – projekce do rovin/prostoru – detekce odlehlých pozorování 4) uspořádání – ve více rozměrech neexistuje žádné přirozené uspořádání dat málo pořadových (neparametrických) metod
2
Typy analýz: X i j t ... data i=1 , ... , n - objekty, pozorování, kde n je počet pozorování j=1 ,... , p - proměnné, kde p je počet proměnných, dimenze úlohy t=1 , ... ,T - čas, kde T je časový horizont 1 ... jednorozměrná statistika 2 ... kazuistika 3 ... jednorozměrná časová řada 4 ... mnohorozměrná statistika 5 ... jednorozměrné longitudinální zjišťování 6 ... vícerozměrná časová řada
7 ... vícerozměrné longitudinální zjišťování
Poznámka: Úlohy 5 a 7 lze převést na úlohu 4 tak, že čas budeme uvažovat jako další proměnnou. Značení: veličina
náhodná
nenáhodná konstanta
nenáhodný parametr
a , b , c , ...
, , , 2
a , b , c , ... a=a1 , ... , an T
,, =1 , ... , p T
... V ,W , X , Y , Z skalár většinou s indexem jako složky vektoru(matice)
vektor
... v , w , x , y , z x= X 1 , ... , X p T
matice
... V ,W , X , Y , Z X = X i j
A , B ,C , ... A= ai , j E ... operátor střední hodnoty
Poznámka: 1) nerozlišujeme náhodné veličiny a jejich realizace 2) vektory jsou vždy sloupcové 3) řádky matice a i⋅ ... i-tý řádek matice A x i⋅ ... i-tý řádek matice X i⋅ ... i-tý řádek matice (jsou to sloupcové vektory) 4) sloupce matice a⋅ j ... j-tý sloupec matice A x⋅j ... j-tý sloupec matice X ⋅ j ... j-tý sloupec matice 3
B,M , , B= j k M = j k
5) indexy i ... objekty/pozorování j , k ... proměnné 6) rozměry X , x nebo X n× p , x p ×1 n × p p×1
Náhodný vektor x= X 1 , ... , X p T ... p-rozměrný náhodný vektor X j , j=1, ... , p ... náhodné veličiny, odpovídají p vlastnostem Základní charakteristiky: E x = E X 1 , ... , E X p T – n ×1
–
var x ... varianční matice (rozptyl)
–
var x = cov X j , X k j , k=1 , kde cov X j , X j =var X j x= X 1 , ... , X p T , y=Y 1 ,... , Y qT
p× p
p
p, q
cov x , y = cov X j , Y k j=1, k=1 p×q
platí: cov x , y =[cov y , x ]T Pravidla počítání: 1) c p ×1 , d q×1 , a , b∈ℝ ... konstanty E ac T x=ac T E x ... ( E je lineární operátor) var acT x =cT var x⋅c cov ac T x , bd T y =c T cov x , y ⋅d 2) C r× p , Ds×q , ar ×1 , b s×1 ... konstanty E aC x =aC E x var aC x =C var x CT cov aC x , b D y=C cov x , y D T Rozdělení náhodného vektoru: x~F p ... p-rozměrná distribuce (nespecifikovaná) ‒ F p x , x= x 1 , ... , x pT ... distribuční funkce x nenáhodná funkce: ℝ p ℝ1 (do 〈0,1〉 ) ‒
F p x=P X 1≤x 1 ,... , X p ≤x p
‒ pokud X j je spojitá ∀ j , tak F p je spojitá distribuce s hustotou f x ... nenáhodná funkce, ℝ p ℝ 1 (do 〈 0 ,∞ ), sdružená hustota náhodného vektoru x , f x x
4
Marginální hustota pro X j : f j x j=∫ ...∫ f x dx 1 ... dx j−1 dx j1 ... dx p , ℝ 1 ℝ 1
ℝ
ℝ
p−1
marginální hustota pro X j , X k p
f j k x j , x k =∫ ... ∫ f x ∏ dx l ℝ ℝ p−2
l=1 l≠ j ,k
obdobně pro libovolnou kombinaci složek Podmíněná hustota: např. např.
f x f p xp f x , x ,x X j , X k∣X l ... j k l j k l f l x l X 1 , ... , X p−1∣X p ...
Jestliže X 1 , ... , X p jsou nezávislé, pak platí: p
1)
f x =∏ f j x j ... faktorizace hustoty j=1
2) podmíněná hustota nezávisí na podmínce
5
2. LEKCE Náhodný výběr – nezávisle na sobě změříme n objektů, čímž získáme n replikací náhodného vektoru x x 1 , ... , x n ... nezávislé, p-rozměrné vektory – pokud jsou navíc stejně rozdělené: x 1 , ... , x n ... náhodný výběr (tj. nezávislé, stejně rozdělené náhodné vektory, i.i.d.) x i= X i i , ... , X i p T ... stav i-tého objektu vzhledem k p pozorovaným vlastnostem –
x T1 X 11 ⋯ X 1p – uspořádáme do datové matice: X = ⋮ = ⋮ ⋱ ⋮ n × p X n1 ⋯ X np x Tn – jednotlivá pozorování v řádcích x i=x i⋅ (i-tý řádek matice X , jsou p-rozměrná) – sdružené rozdělení datové matice: n
i pro x i spojité: f X =∏ f x i , kde f i je hustota x i i=1 n
pro
x i i.i.d. : f X =∏ f x i i=1
většinou je tvar f známý, tvar určuje rodinu rozdělení, odhadují se parametry Základní výběrové charakteristiky x 1 , ... , x n ... náhodný výběr,
X
n × p
... datová matice
1) Výběrový průměr n 1 x = ∑ x i , x= X 1 , ... , X p T n i=1 p ×1 1 x= X T 1n , kde 1n =1 , ... ,1T n n×1 E x=E x platí: 1 1 var x = var x 1 n x~ AN ...asymptoticky n ∞ (asymptoticky normální rozdělení, n-krát sníží původní rozptyl - výběrový průměr)
6
2) Wishartova matice n
n
W =∑ x i− x x i−x T =∑ x i xTi −n x x T
p × p
i=1
i=1
n
W =W j k , kde W j k =∑ X i j −X j X i k − X k i=1
je to matice čtverců a vnitřních součinů odchylek od průměru 1 T 1 T T T T T platí: W =X X−n 2 X 1n 1n X = X I n − 1n 1n X= X H X , kde n n
1 1 =1 ,... , 1T , H =I n− 1n 1Tn = n n×n
n n ×1
Lemma: Nechť x 1 , ... , x n jsou nezávislé,
1 n 1 − n ⋮ 1 − n
1 1 ⋯ − n n 1 1 1− ⋯ − n n ⋮ ⋱ ⋮ 1 1 − ⋯ 1− n n
1−
−
A =a ii je matice konstant. '
n ×n
n
T T Pak E X A X =∑ a i i var xi EX A EX . i=1
Důkaz: E X T A X = E
∑ ∑ a x x =E [∑ ∑ a [ x −E x x −E x x E x i
i
ii
'
i
'
T ' i
T
i
i
ii
'
i
'
i
i
'
i
i
'
T i
'
=∑ ∑ a i i E x i −E x i x i −E x i T ∑ ∑ ai i E x i E x i T =∑ ai i var x i EX T A EX '
i
i
'
'
'
covx i , x i
'
i
i
'
'
p×n n×n n× p
i
'
Důsledek: E W =n−1 var x 1 Důkaz: Nechť x 1 , ... , x n jsou nezávislé, stejně rozdělené H = n ×n
1 1 ⋯ − n n ⋮ ⋱ ⋮ 1 1 − ⋯ 1− n n
1−
ExT1 T , EX = ⋮ =1 n Ex 1 n × p E x T1
1Tn H 1n=1Tn I n − 1n 1n 1Tn 1n=1Tn 1 n−1Tn 1n =0 n
n
i=1
i=1
EW =E X T H X =∑ hi i var x 1 Ex1 1Tn H 1n ExT1 =var x 1 ∑ 1−
1 =var x 1 n−1 n
3) Výběrová varianční matice 1 S := W , S=s j k n−1 p × p je to matice výběrových rozptylů a kovariancí s j k ... kovariance mezi j-tou a k-tou proměnnou Platí: ES=var x1 ... nevychýlený odhad varianční matice Někdy se používá modifikace: 1 S ' = W ... vychýlený, ale maximálně věrohodný odhad (ML-odhad) n p × p 7
]
E x i x Ti −E x i E xTi ] = '
'
Poznámka: S , S ' jsou analogie jednorozměrného rozptylu. Jako jednorozměrná charakteristika se užívá determinant ∣S∣ nebo stopa Tr S . Poznámka: V řadě praktických úloh je třeba S invertovat a pro stabilitu řešení musí být matice nejen regulární, ale s determinantem dosti různým od nuly. 4) Výběrová korelační matice R =r j k ... výběrové korelační koeficienty p × p
−
1 2
−
1 2
R= Diag S S Diag S s r j k= j k s jj skk Platí: ER≠cor x 1 ... odhad je vychýlený Geometrická reprezentace – Q-reprezentace: shluk n bodů v p-rozměrném prostoru, proměnné=souřadnice – p=2 , určíme oblak dat – pokud data vycházejí z normálního rozdělení, potom má oblak dat tvar elipsy – provedeme transformaci na nezávislost, kde Y 1 ,Y 2 jsou nezávislé (nebo alespoň nekorelované) – dále nás zajímá: Máme nějaká odlehlá pozorování? Rozpadají se data na odlehlé skupiny? Leží data v prostoru nižší dimenze? – P-reprezentace: shluk p bodů v n-rozměrném prostoru, objekty=souřadnice bod P j= X 1 j −X j ,... , X n j− X jT , j=1 , ... , p n
2 2 čtverec vzdálenosti od počátku: ∥OP j∥ =∑ X i j −X j ... výběrový rozptyl j-té proměnné j=1
kosinus úhlu mezi OP j , OP k : 〈OP j , OPk 〉 cos j k = =r výběrová korelace mezi j-tou a k-tou proměnnou ∥OP j∥⋅∥OPk∥ j k Vektory určují p-rozměrný prostor vnořený do n-rozměrného. Jejich struktura udává míru vzájemných závislostí proměnných. j k ~0 ... těsná závislost j k ~90 ° ... nezávislost
8
I. MNOHOROZMĚRNÉ NORMÁLNÍ ROZDĚLENÍ x= X 1 , ... , X p T , p≥2 x ...náhodný vektor, X j ... náhodné veličiny
Definice: Řekneme, že x má mnohorozměrné (p-rozměrné) normální rozdělení, jestliže ∀ c p×1 : c T x má jednorozměrné normální rozdělení (značíme x~N p ). Poznámka: 1) Rozdělení p-rozměrného vektoru z je plně určeno jednorozměrným rozdělením jeho lineárních kombinací c T z , ∀ c p×1 (Cramér & Wold) 2) jednorozměrné rozdělení N , N 1 je definováno pomocí hustoty: 2
f x , , = 3)
1
−
2
e 2
x− 2 2
2
=2 2 −1 exp −
x−2 , kde x ∈ℝ , ∈ℝ , 2≥0 2 2
N p rozdělení lze definovat pomocí hustoty: p 1 − − 1 T −1 p p p× p 2 f x , , =2 ∣∣ 2 exp − x − x− , kde s∈ℝ , ∈ℝ , p.d. 2
{
}
I.1 Vlastnosti normálního rozdělení Věta: Nechť x~N p . Pak existuje jeho střední hodnota a rozptyl (tj. mají konečné prvky) a platí: ∀ c p×1 :c T x~N 1 c T E x , c T var x c . Důkaz: Je třeba dokázat konečnost momentů. víme: ∀ c p×1 :c T x~N 1 s konstantní střední hodnotou a konstantním rozptylem zvolíme c j :=0, ... , 0 , 1 , 0 ,... ,0T (1 je na j-té pozici) c jT x= X j~N 1 EX X j j , var ∞
∞
zvolíme c j k :=0 ,... , 0 , 1 , 0 , ... ,0 ,1 , 0 , ... , 0T c j kT x= X jX k ~N 1 EX j EX k , var X jvar X k 2 cov X j , X k ∞ Schwarz
cov X j , X k ≤
∞
∞
var X j var X k ∞
Značení: =1 , ... , p T :=Ex= EX 1 , ... , EX p T p ×1
= j k :=var x=cov X j , X k
p × p
x~N p , Poznámka: N p je plně určeno parametry a . 9
Poznámka: 1 T T Charakteristická funkce x t=exp it − t t 2 p ( t∈ℝ , i je komplexní jednotka)
{
} je definováno i pro
singulární.
T obecně: pro z~F p platí z t =E F exp {it z } . p
Věta: (o lineární transformaci) Nechť x~N p , , d q×1 , Bq× p jsou konstanty. Potom y :=dB x~N q d B , B BT . Důkaz: ∀ cq×1 : cT y=c T dc T B x=aeT x , což je lineární kombinace e T x posunutá o konstantu a ⇒ ~N 1 z definice Značení: (rozdělení na bloky) 1 2 x = 1 x r ×1 , = 1 r×1 , = 1 1 , kde p=rs p ×1 s×1 s×1 p× p x 2 1 2 2 2 2
Věta: (o marginálním rozdělení) Nechť x~N p , . Potom 1 x ~N r 1 , 11 . Marginální rozdělení je opět normální. Důkaz: V předchozí větě polož f =0 r×1 , Br × p= I r 0 . Potom
1
x =d B x
Poznámka: Obdobně platí pro libovolnou skupinu proměnných. Věta: 1 x , 2 x jsou nezávislé ⇔ 1 2=0 . Nezávislost je ekvivalentní s nekorelovaností. (Platí pouze u normálního rozdělení.) Důkaz: Pomocí charakteristické funkce.
{
}
{
x t=exp i t T − 1 t T t =exp i 1t T 1i 2t T 2− 1 1t T 11 1t − 1 2t T 2 2 2t − 1 1t T 1 2 2t − 1 2t T 2 1 1t 2
2
2
t = 1t p ×1 2t 1 x , 2 x jsou nezávislé ⇔ X t= x 1t x 2t ⇔ 1 2=0 1
2
10
1 2= T2 1
2
2
}
3. LEKCE Věta: (charakterizace normálního rozdělení) Nechť x~N p , , h =m≤ p . Pak existuje matice V p ×m a náhodný vektor z~N m 0 , I m tak, že x=V z skoro jistě. Důkaz: = V V T ... skeletní rozklad, h V =h =m p × p
p×m
z :=V − x− , kde V − je pseudoinverzní k V , tj. V V − V =V m × p
Zkoumejme z : – lineární transformace x ⇒ z~N m E z=0 – var z =var V − x =V − var x V − T =V − V V T V −T =V − V V − V T =: W –
m×m
Zkoumejme W : m=hV =hV V − V ≤min hV V − V ≤m , h – =m
≤m
– tedy rovnost: h V − V =m ... plná hodnost ⇒ existují inverze V − V −1 , W −1 platí: V − V W =V − V V − V V − V T =V − V V − V T =W V − V W =W ∣⋅W −1 V − V = Im ⇒W =I m a z~N m 0 , I m zbývá dokázat: x=V z skoro jistě ukážeme, že rozdíl levé a pravé strany je konstanta: var x−V z−=var x−V z=var x−V V − x−=var I −V V − x= = I −V V − V V T I −V V − T =V −V V − V V −V V − V T = 0 p× p
V
Poznámka: m=h se nazývá řád rozdělení. Pokud je hodnost plná m= p , potom mluvíme o regulárním rozdělení. Jinak mluvíme o singulárním rozdělení m p . Věta: (reprodukční vlastnost) n
Nechť x 1 , ... , x n~N p , a 1 , ... , an ∈ℝ . Potom
∑ ai x i~N p ∑ ai E x i , ∑ ∑ a i a i cov xi , x i '
i=1
11
i
i
i
'
'
.
Důkaz:
y := x 1 ~N 2 p 2 p×1 x2 potom a 1 x 1a2 x 2~ N p , protože a 1 x 1a2 x 2=B y , kde Pro n=2 :
B =a1 I p a2 I p .
p ×2 p
Lineární transformace zachovává normalitu. Důsledek: (náhodný výběr z N p ) n
Nechť x 1 , ... , x n~N p , jsou nezávislé. Potom
∑ ai xi ~N p ∑ ai , ∑ a2i i=1
i
.
i
n 1 1 1 Speciální případ: volíme a i= , i=1 ,... , n , potom x= ∑ x i~N p , n n i=1 n
.
Věta: (o hustotě) Nechť x~N p , , h = p (regulární rozdělení). Potom existuje hustota a má tvar: p 1 − − 1 f x ; , =2 2 ∣∣ 2 exp − x−T −1 x− , x ∈ℝ p proměnná , ∈ℝ p , 0 p.d. . 2 p ×p
{
}
Důkaz: víme (z charakterizační věty): x=V z skoro jistě, T kde z~N p 0 , I p , tj. z=Z 1 , ... , Z p , Z j~0,1 nezávislé sdružená hustota: p p 1 p p − − − z 2j 1 1 T 2 2 g z =∏ g z j =∏ 2 exp − =2 2 exp − ∑ z j =2 2 exp − z z 2 2 j 2 j=1 j=1 −1 z=V x− skoro jistě ... inverzní transformace
{ }
{
}
{
}
1
T víme: =V V ⇒∣V∣=∣∣2 1 − dz ∣ −1∣ jakobián= = V =∣∣ 2 dx
∣ ∣
−
1
−
−1 2 hustota x : f x =gV x −∣∣ =2
p 2
{
}
1
− 1 −1 T exp − x−T V V −1 x− ∣∣ 2 2 =
−1
Poznámka: Pro singulární rozdělení neexistuje hustota vzhledem k Lebesgueově míře. Dá se ale vyjádřit hustota na nadrovině dimenze m p , kde m=h , tj. řád rozdělení. Věta: n
n
T T Nechť x 1 , ... , x n jsou nezávislé, c=c 1 , ... , c n , d= d1 , ... , d n , u :=∑ c i x i , v :=∑ di x i . p×1
i=1
p×1
i=1
1) Nechť x 1 , ... , x n~N p , stejně rozdělené, c T d =0 . Potom u , v jsou nezávislé. 2) Nechť u , v jsou nezávislé. Potom x i~N p pro i s vlastností c i d i=0 . Přitom x i nemusí být stejně rozdělené.
12
Důkaz: Důkaz provedeme pouze pro první část. cov u , v =cov ∑ c i xi , ∑ d i x i =∑ ci d i var x i=var x 1 ∑ c i d i=0
'
i
i
'
'
i
i
T
=c d=0
víme N p : nekorelovanost ⇔ nezávislost Věta: (podmíněné rozdělení) Nechť x~N p , regulární. Potom
1
−1 x∣2 x ~N r 1 1 2 −1 2 2 2 x −2 , 1 1− 1 2 2 2 2 1 .
Důkaz: uvažujeme lineární transformaci −1 1 y := 1x −1 −1 2 2 2 2 x − 2 r ×1
y := 2x −2
2 s×1
y = 1 y ~N p 0 , var y 2y ukážeme, že 1 y , 2 y jsou nezávislé: −1 cov 1 y , 2 y =cov 1 x − 1 2 −1 2 2 2 x , 2 x = 1 2− 1 2 22 22 = 0 ⇒ 1 y , 2 y jsou nezávislé r ×s potom
p ×1
⇒ L 1 y∣2 y =L 1 y nezávisí na podmínce ( L značí rozdělení pravděpodobnosti) L 1 y =N r 0 , var 1 y −1 −1 −1 −1 var 1 y =var 1 x − 1 2 −1 2 2 2 x = 1 1 1 2 22 22 22 21−2 1 2 2 2 2 1= 11 − 1 2 2 2 2 1=: L 1 y∣2 y =N r 0 , 1 1⋅2 −1 posuneme o konstantu: 1 12 −1 22 2x −2 tj. 1 x∣2 x ~N r 1 1 2 2 2 2 x −2 , 1 1⋅2 ( 2 y =2 x −2 nemá vliv na podmiňování) 1 1 1 2 , ∣ ∣=∣ 2 2∣⋅∣ 11 − 1 2 −1 2 2 2 1∣ podmíněné rozdělení je regulární, neboť = 2 1 2 2 ≠0
Poznámka: 1) střední hodnota je lineární funkcí podmínky 2) rozptyl na podmínce nezávisí 3) podmíněné rozdělení je normální Značení: −1 11⋅2 :=1 1− 1 2 2 2 2 1 - podmíněný rozptyl r×r
Aplikace: Normální regrese neboli regrese X 1 na X 2 , ... , X p . Značení: r =1 , 2 x = X 2 , ... , X p T 1 x =X 1 T 1= 1 , 2=2 ,... , p 1 2 = 11 p × p 21 2 2
s= p−1
−1 X 1∣X 2 , ... , X p~ N 1 1 12 −1 22 2x −2 , 1 1− 12 22 21
13
≠0
≠0
1 1⋅2 r×r
Podmíněná střední hodnota: p
B 2 x =∑ j X j ... lineární regrese j=2
kde
T ... regresní parametry = 1 2 −1 2 2 =1 , ... , p
B
1× p−1
=1 − 1 2 −1 2 2 2=1−B2 ∣∣=∣ 2 2∣⋅ 1 1− 1 2 −1 2 2 2 1
∣
∣
1×1
1 , kde i j =−1 ∣ 2 2∣ 1 1 p 1 tedy X 1∣X 2 , ... , X p~ N 1 ∑ j X j , 1 1 2 podmíněný rozptyl:
∣∣
=
Speciální případ: p=2 x= X 1 , X 2 T , =1 , 2T =
21 ϱ 1 2 1 1 1 2 = 2 1 2 2 ϱ 1 2 22
, kde ϱ=
1 2 ... korelační koeficient 1 1 2 2
1 1=21 , 2 2= 22 −1 potom =
2 2
1 2 1−ϱ −ϱ1 2 2 1
2 2
2 2 X 1∣X 2~N 1 0 1 X 2 , 1 1−ϱ , kde 1= regresní přímka
1 ϱ − 2 −ϱ 1 2 1 2 1 1 = 2 2 ϱ 1 1− p 1 − 1 2 22
12 11 =ϱ =ϱ 1 , 0 =1−1 2 22 22 2
obdobně: 2
2
X 2∣X 1~N 1 01 X 1 , 2 1−ϱ , kde 1 =ϱ regresní přímka
2 , 0=2−1 1 1
Poznámka: Úhel mezi regresními přímkami je mírou lineární závislosti mezi X 1 a X 2 , a platí cos2∢= 0 ... přímky jsou kolmé... X 1 , X 2 jsou nezávislé , ϱ=0 1... přímky splývají ... X 1 , X 2 jsou lineárně závislé ,ϱ=±1
{
Obecně: 1 x∣2 x podmíněná střední hodnota = regresní funkce B 2 x , kde B =1 2 −1 2 2 = j k ... matice regresních parametrů r ×s
=1−B 2 ... vektor absolutních členů
r ×1
podmíněný rozptyl:
1 1⋅2 r ×s
rezidua z normální regrese:
= 1 1− 1 2 −1 22 21 =1 x −−B 2 x
r ×1
−1 reziduální rozptyl: var =var 1 x −B 2 x = 1 1B 22 BT −2 1 2 BT = 1 1 1 2 −1 22 22 22 21− −1 −2 1 2 −1 22 21 = 1 1− 1 2 2 2 2 1 = 11⋅2 tj. podmíněný rozptyl = reziduální rozptyl
14
Věta: (NNLP pro 1 x založený na 2 x ) Nechť 1 x p=B 2 x , kde B= 1 2 −1 2 2 , =1−B 2 . p Nechť 1 x = 2x je jiný lineární prediktor pro 1 x . Nechť 0 . Potom 1 x p je nevychýlený a platí: var 1 x −1 x p −var 1 x − 1x p ≥0 p.s.d. . (NNLP - Nejlepší Nestranný Lineární Prediktor) Důkaz: E 1 x p=E B 2x =1−B 2B 2= 1= E 1 x ... nevychýlenost nejprve pomocný výpočet: cov 1x −B 2 x , 2 x = 12 − 1 2 −1 2 2 2 2= 0 r ×s
var 1 x − 2 x −var 1 x −B 2 x =var 1 x −−B 2 x −B 2 x −var 1 x −B 2 x = =var 1x −B 2 x −B var 2 x −BT −2 cov 1x −B 2x ,−B 2 x −var 1x −B 2x = =−B 2 2 −BT 0 ⇒ 2 20 ∀ c≠0 : cT −B 2 2 −BT c=d T 22 d≥0 ⇒−B 22 −BT ≥0 ... (p.s.d.) Poznámka: x p má nejmenší reziduální 1) Lineární regresní funkce 2 x =1 1 2 −1 2 2 2 x −2 = 1 rozptyl mezi všemi lineárními prediktory založenými na 2 x (speciálně mezi všemi nestrannými prediktory), tj. NNLP. 2) U vychýlených prediktorů je lépe porovnávat MSE=varBiasBiasT .
15
4. LEKCE Parciální korelace
1 1⋅2 r ×r
= 1 1− 1 2 −1 2 2 2 1 ... varianční matice podmíněného rozdělení
varianční matice
1
1
x∣ 2x nebo reziduální
x −1 x p
x = X r 1 ,... , X p T ... nenáhodné, fixované hodnoty neovlivňující variabilitu 1 x 1 1⋅2 ... rozptyly a kovariance očištěné od vlivu 2 x , tj. parciální rozptyly a kovariance 1 1⋅2= j k⋅r 1 ,..., p rj ,k=1
2
r ×r
ϱ j k⋅r 1 ,..., p := X r1 ,... , X p
j k⋅r 1 , ... , p
j j⋅r1 ,... , p⋅ k k⋅r 1 , ..., p
... parciální korelace mezi X j a X k při pevných
Vícenásobná korelace Definice: Nechť j∈{1 ,... , r } . Potom maximální korelaci mezi X j a lineární kombinací koeficientem vícenásobné korelace.
2
x nazveme
Značení: ϱ X ⋅ x =max cor X j , c T 2 x j 2
s ×1
c
Věta: T Pro koeficient vícenásobné korelace platí ϱ X ⋅ x =cor X j , j⋅ x , kde j⋅ je j-tý řádek matice j 2
2
s×1
B =1 2 −1 22 .
r ×s
Důkaz: platí: Tj⋅= 1 2 Tj⋅ −1 22 Schwarzova nerovnost: Nechť A je symetrická, pozitivně semidefinitní: aT A b2≤a T A a bT A b 2
T
cor X j , c 2 x =
cov 2 X j , c T 2 x
1 2 Tj⋅c ] [ =
2
j j cT 2 2 c j j cT 22 c cov 2 X j , Tj⋅2 x = =cor 2 X j , Tj⋅ 2 x =ϱ2X ⋅ x T var X j var j⋅ 2 x
Tj⋅ 2 2 c ] [ =
2
j j cT 2 2 c
j 2
16
≤
Tj⋅ 2 2 j⋅c T 2 2 c Tj⋅ 2 2 j⋅ ⋅ T = j j cT 2 2 c j⋅ 2 2 j⋅
Platí: ϱ2X ⋅ x = j 2
Tj⋅ 2 2 j⋅ 1 2 Tj⋅ −1 2 2 2 1 j⋅ = jj jj
Lemma: j j 1−ϱ2X ⋅ x = j j⋅r 1 ,..., p j 2
Důkaz: 2 X j⋅2 x
1−ϱ
j j− 12 Tj⋅ −1 2 2 1 2 j⋅ = = 11⋅2 j j = j j⋅r1 ,... , p ≤1 jj jj jj
Poznámka: Žádný parciální rozptyl nemůže být větší než rozptyl. Poznámka: Uvedené vlastnosti regresní funkce jTj⋅ x , tj. NNLP a maximální korelace, nezávisí na normalitě. Elipsy konstantní hustoty V exponentu hustoty N p je výraz c 2 := x−T −1 x − , tj. kvadratická forma vzdálenosti x od v Mahalanobisově metrice. Geometrická představa: Kontury elipsoidu se středem v , kde poloosy jsou dány jako c j v j , tj. j , v j jsou vlastní čísla a ortonormální vlastní vektory . f x =k ... plochy konstantní hustoty
[
p
1
pokud je k dáno, dopočti c 2=−2 ln k 2 2 ∣∣2
]
Speciální případ p=2 : f x 1 , x 2 =k ... elipsy konstantní hustoty X 1 , X 2 jsou nezávislé, tak osy elipsy jsou rovnoběžné s osami souřadnic X 1 , X 2 jsou závislé, tak osy jsou pootočeny o úhel, který závisí na ϱ , 21 , 22 X 1 , X 2 závislé, 21 = 22
X 1 , X 2 nezávislé, ϱ=0
17
I.2 Odhady parametrů p× 1 , p× p nechť x 1 , ... , x n je náhodný výběr, označ E x 1= , var x 1= n 1 1 1 x = ∑ x i , W = x i−x x i−x T , S = W , S'= W n 1 n−1 n p ×1 p × p p× p víme: E x= , ES= ... nestranné odhady Poznámka: 1) E S j k ≠ j k , E r j k ≠ϱ j k transformace nezachovávají nestrannost 2) x je NNO pro , S je NNO pro Věta: x a S jsou nekorelované. Důkaz:
1 1 ⋯ − n n víme T W = X H X , kde H = ⋮ ⋱ ⋮ n ×n 1 1 − ⋯ 1− n n 1−
je symetrická idempotentní matice
n
h⋅i ... i-tý sloupec:
0 ∑ h⋅i=n×1 i=1
W l k =x⋅l H x⋅k =x⋅l H H X⋅k počítejme: cov H x⋅k , X i j =H
0 ⋮ 0 jk 0 ⋮ 0
= j k h⋅i
x⋅k = X 1 k , X 2 k ,... , X i k , ... , X n k T n 1 cov H x⋅k , X j = ∑ j k h⋅i= 0 ∀ j,k n i =1 n×1 cov H x⋅k , x =0 ∀ l , k tedy cov W l k , x=0 ⇒W , x jsou nekorelované ⇒ S , x jsou nekorelované.
{
Poznámka: S ' , x jsou nekorelované. Věta: Nechť x 1 , ... , x n je náhodný výběr z N p , . Potom x a S jsou nezávislé.
18
Maximálně věrohodné odhady (ML-odhady): Předpokládejme x 1 , ... , x n~N p , jsou nezávislé, 0 . Věrohodnostní funkce = sdružená hustota náhodného výběru, ale jako funkce parametrů L ... likelihood n n p 1 − − 1 T −1 2 L , =∏ f x i , , =∏ 2 ∣∣ 2 exp − x i− x i− = 2 i=1 i=1
{
−
=2
np 2
n 2
{
}
}
n
np
{ [
n
n
− − 1 1 ∣∣ exp − ∑ x i−T −1 x i− =2 2 ∣∣ 2 exp − st −1 ∑ x i− x i−T 2 i =1 2 i=1 −
1×1
platí st ABC =st BCA=st CAB np n 1 ln L , =− ln 2 ln∣−1∣− ∑ x i− −1 xi −= 2 2 2 i np n ∣ −1∣ 1 =− ln 2 ln − st −1 ∑ x i− x i−T 2 2 2 i
[
]
!
L , =max ,
argmax L , =argmax ln L , d 1 ! ln L, =− ∑ 2 −1 x i−=0 d 2 i −1 ∑ x i−=0 ∣⋅ i
∑ x i−=0 i
1 ∑ x i=x n =x ... nevychýlený odhad =
při derivování podle využijeme následujících vztahů: X je čtvercová matice, pak: d ∣X∣=∣X∣ X −1 dX d st AX= A T dX d n 1 ∣ −1∣ −1 −1 1 1 ! ln L , = − ∑ x i− x i−T = n −∑ xi − x i−T =0 −1 −1 2 ∣ ∣ 2 i 2 d i dosaď: =x n =∑ x i−x x i−x T
[
]
i
n =W 1 W =S ' ... mírně vychýlený odhad = n dosaď zpět np np n − − − 1 1 −1 2 1 2 L , =2 W exp − st n W W =2 2 n 2 n I
∣ ∣
{ [
p
]}
−
np 2
{
}
∣W ∣exp − 1 n p = 2 e 2 n
... věrohodnost předpokladu, že , = x , S ' , s ohledem na získaná data x 1 , ... , x n
19
−
np 2
∣W∣
]}
5. LEKCE Obecné vlastnosti ML-odhadů (pro nespecifikované rozdělení F p ) – (slabá) konzistence – asymptotická nevychýlenost – asymptotická normalita – invariance – asymptotická eficience (asymptotická vydatnost) Invariance: Nechť je ML-odhad , nechť je 1-1 (tj. vzájemně jednoznačná) funkce. Potom je ML-odhad . Asymptotická eficience Definice: Nechť y p ×1 je náhodný vektor. Potom množina {u p×1 :u− E y T var y −1 u−E y = p2} se nazývá koncentrační elipsoid vektoru y . Poznámka: Rovnoměrné rozdělení přes vnitřek koncentračního elipsoidu má stejnou střední hodnotu a rozptyl jako y . Definice: Nechť q×1 je parametr rozdělení s hustotou f y , . T d d ln f y , ln f y , se nazývá Fisherova informační matice o Potom I := E d d q ×q
[
q×1
]
1 ×q
parametru . Věta: Nechť t q×1 je nevychýlený odhad parametru (tj. E t= ), pořízený z náhodného výběru rozsahu n . Potom elipsoid {uq ×1 : nu−T I u−=q2} leží zcela uvnitř koncentračního elipsoidu vektoru t {uq ×1 : u−T var t −1 u−=q2} . 1 1 −1 I −1 je spodní mez pro rozptyl nevychýlených odhadů. Neboli var t− I ≥0 , kde n n Definice:
1 −1 neboli var t= I n e e≤1 Eficience odhadu je poměr objemů prvního a druhého elipsoidu . Odhad t se nazývá eficientní, pokud oba elipsoidy splývají
20
.
Poznámka: Pro regulární hustoty platí: I =−E
d2 ln f y , . d d T
Vlastnosti ML-odhadů speciálně pro N p , n 1 =x , =S '= W , kde W =∑ x i− x x i−x T n p × p i=1 i) (slabá) konzistence: P P , , n ∞ ii) E = ... nevychýlenost ∀ n 1 1 1 E = E W = n−1 =− ... vychýlený odhad n n n 1 − ... vychýlení n 1 lim − =0 ... asymptoticky nevychýlený n n ∞ 1 iii) víme x ~N p , ∀ n neboli n x−~N p 0 , ∀ n n iv) invariance r j k je ML-odhad ϱ j k ∀ j , k , neboť sada parametrů { j , j k } je 1-1 transformací { j , j j , ϱ j k } v) eficience =x je eficientní, tj. e =1 Důkaz: 1 víme: E x= ... nestranný odhad, var x = n 1 −1 x je eficientní, jestliže var x = I ... spodní mez n p 1 − − 1 hustota f x ; , =2 2 ∣∣ 2 exp − x −T −1 x− 2 p 1 1 ln f x ; , =− ln 2− ln ∣∣− x −T −1 x− 2 2 2 d 1 −1 ln f x ; , =− 2 x−=− −1 x− d 2 −1 I = E [− x− ][ − x−T −1 ]=−1 E x− x−T −1 = −1
{
}
var x=
1 1 I −1 = ... eficience tedy n n
není nestranný, nelze počítat eficienci 1 n−1 2 p p 1 e x , S= 1 ... asymptotická eficience n ∞ n 1 W je nevychýlený odhad kde S= n−1 jsou postačující statistiky pro , , neboť věrohodnostní funkce L , je vi) , funkcí pouze těchto statistik a parametrů
21
I.3 Testy a oblasti spolehlivosti pro při známém Věta: Nechť y~N p ,T je regulární. Potom y T T −1 y~2p , kde parametr necentrality =T T −1 . Pro =0 je rozdělení centrální. Důkaz: Skeletní rozklad T =C CT , kde C p× p regulární. z :=C−1 y , z~N p , E z=C−1 , var z =C−1 T C−1T =C−1 C CT C−1T =I p , p ×1 z= Z1 , ... , Z p T , kde Z j~N ⋅, 1 nezávislé, tedy
p
∑ z 2j ~2p 1 T
=z z p
2 T T −1 T −1 T −1 z T z= y T C−1T C−1 y= y T T −1 y , kde :=∑ E Z j = Ez E z = C C = T . 1
(konec důkazu)
1 Nechť x 1 , ... , x n je náhodný výběr z N p , , je známé, x~N p , n n x−~N p 0 , . dle věty: n x−T −1 x−~2p centrální i)
H 0 :=0 ... test celého vektoru naráz kritický obor tvoří ty hodnoty x 1 ,... , x n , pro které n x−0 T −1 x−0 2p (jednostranná kritická hodnota)
ii) oblast spolehlivosti pro , na hladině 1− { m p×1 : n x−mT −1 x−m≤2p } Poznámka: (duální vztah mezi i) a ii) ) Oblast spolehlivosti obsahuje ty hodnoty , které test hypotézy nezamítá. iii)
a
H 0 :1=2 pro 2 nezávislé náhodné výběry o rozsazích n1 , n2 n1 n2 1 2 T −1 1 2 x −x x −x 2p ... zamítám H 0 n1n2 n n 1 1 var x 1 −x 2 = = 1 2 n1 n2 n1 n2
iv) rozdělení za alternativní hypotézy H 1 :≠0 n x−~N p n −0 , n x−0 T −1 x−0 ~2p =n−0 T −1 −0
22
v) testování složek vektoru středních hodnot pokud zamítneme H 0 :=0 , tak se zajímáme, které složky přispěly k zamítnutí, tj. testujeme H 0j : j=0 j , j=1 , ... , p přitom ale chceme zachovat původní hladinu stanovenou pro H 0 H 0j testujeme na přísnější hladině j , tj. simultánní testy volíme j= , ∀ j=1 ,... , p p odvození: pomocí Bonferroniho nerovnosti P ∪ A j≤∑ P A j (rovnost pro A j disjunktní) j
označ:
j
j 0
A j ... nezamítnutí H C ACj ... zamítnutí H 0j , platí P H A j = j j A ... nezamítáme H 0 ⇔ ∩ A j ... nezamítáme ani jednu H 0 j 0
j
C chceme: P H A ≤ , tj. P H A ≥1− 0
0
C j
P A =P∩ A j=1−P ∪ A j
j
Bonferreni
≥
p
!
1−∑ P A =1−∑ j ≥1− j
≤∑ P j
vol j= p
23
C j
j=1
II. WISHARTOVO ROZDĚLENÍ Předpokládejme: x 1~N p 1 , ,... , x n~N p n , jsou nezávislé i ... střední hodnoty, ... varianční matice p × p
p ×1
Značení:
T1 T M = 2 , n × p ⋮ Tn
x T1 T x X = 2 n× p ⋮ x Tn
n
Y := X T X =∑ x i x Ti
,
p × p
i=1
Definice: Sdružené rozdělení prvků matice Y = X T X se nazývá p-rozměrné Wishartovo rozdělení o n stupních volnosti a s parametry , M . Značení: Y ~W p n , , M M =0 ... Y ~W p n , ... centrální rozdělení n × p
M≠0 ... necentrální rozdělení Speciální případ: p=1 X 1 ~N 1 1 , 2 , ... , X n~N 1 n , 2 jsou nezávislé n
n
Y =∑ X ~ , =∑ 2i
1×1
1
2 i
2 n
1
Poznámka: Wishartovo rozdělení je vícerozměrným zobecněním 2 rozdělení. II.1 Vlastnosti Wishartova rozdělení Věta: p×n ≠0, c T c 0 : Nechť Y ~W p n , , M . Potom ∀ c
=
z :=
cT Y c ~2p , kde T c c
cT M T M c . cT c
Důkaz: n
T Víme Y = X X=∑ xi x i , kde x i~N p i , nezávislé. T
1
c
T
∑ xi x i
z=
cT c
T i
c =∑ i
2
cT xi
cT c
=∑ U i
2 i
, kde U i ~N 1 nezávislé, var U i=
n
⇒ ∑ U 2i ~2n i=1
24
cT c =1 ∀ i cT c
T
n
=∑ E U i 2 =∑ i=1
i
c E xi
cT c
=
Důsledek: vol c j =0 , ..., 0 ,
cT ∑ E x i E x iT c i
cT c
c T ∑ i Ti c =
diagonální prvky Y j j mají 2 mnohorozměrným 2 .
cT c
=
cT M T M c cT c
Yjj ~2n jj rozdělení, mimodiagonální nikoliv. Proto W p není
, 0 , ... ,0 T , Z= j−tá pozice 1
i
25
6. LEKCE Věta: cT X T A X c ~2r , kde r =h A . T c c Obě rozdělení jsou zároveň buď centrální nebo necentrální. X T A X~W p r , , N ⇔ ∀ c p×1 : c T c≠0 platí z :=
Důkaz: ' ⇒' řešila předcházející věta ' ⇐' nechť z~2r , potom víme, že An×n je symetrická, idempotentní, h A =r , vlastní čísla jsou pouze 0 a 1, 1 ,... , r =1 , r 1 , ... , n=0 . n
r
T T Spektrální rozklad: A=∑ j p⋅j p =∑ p⋅j p⋅j =P P , kde p⋅j jsou ortonormální vlastní T ⋅j
j=1
vektory,
j=1
P = p⋅1 , ... , p⋅r .
n ×r
n
u j= X T p⋅j=∑ x i p i j kde x i~N p i , nezávislé i=1
r
r
j =1
j=1
X T A X=∑ X T p⋅j p⋅jT X =∑ u j uTj u j~N p , E u j= E X T p⋅j =M T p⋅j , j=1 ,... , r cov u j , uk =cov
n
n
n
p⋅jT p⋅k ∑ x i pi j , ∑ xi ' p i ' k =∑ ∑ pi j p i' k cov x i , x i ' = ∑ p i j pi k= i=1 i '=1 i i' i=1
=
ortonormální
r
= j k ⇒u j , uk jsou nezávislé ∀ j≠k , tedy X T A X=∑ u j u Tj =U T U ~W p r , , N , kde j =1
T 1
u N= EU =P M , U = ⋮ r× p uTr T
=
cT M T A M c =0 ⇔ A M =0 ⇔ P PT M =0 ⇔ N =0 T c c ∀c
p×1
Poznámka: X T A X~W p ⇔ A je symetrická idempotentní i) ii) rozdělení je centrální ⇔ A M =0
26
Věta: Nechť A1 , A 2 jsou symetrické matice řádu n a d n×1 je vektor konstant. Potom: X T A 1 X a X T A 2 X jsou nezávislé s Wishartovým rozdělením ⇔ ∀ c p ×1 : i) c T X T A 1 X c a c T X T A 2 X c jsou nezávislé s rozdělením k 2 . T p×1 : cT X T d a X T d a X A 1 X jsou nezávislé s rozdělením N p a W p ⇔ ∀ c c T X T A 1 X c jsou nezávislé s rozdělením N 1 a k 2 .
ii)
Důkaz: ' ⇒' zřejmé: transformace zachovávají nezávislost ' ⇐' i) platí: A1 , A 2 n×n , symetrické, idempotentní a navíc A1 A 2=0 r
T T spektrální rozklad: A1 =∑ p⋅j p⋅j=P P , kde p⋅j jsou ortonormální vlastní vektory j=1 s
T A2 =∑ q⋅k q⋅k =Q QT , kde q⋅k jsou ortonormální vlastní vektory k=1
T
T
A1 A 2=P P QQ =0 ⇔ P T Q=0 neboli p⋅jT q⋅k =0 ∀ j, k ... kolmost dále obdobně jako u předchozího důkazu
Poznámka: X T A 1 X~W p , X T A 2 X~W p nezávislé ⇔ A 1 A 2=0 i) T T ii) X d~N p , X A 1 X ~W p nezávislé ⇔ A 1 d=0 Důsledek: (náhodný výběr z N p ) Nechť x i~N p , nezávislé, i=1 , ... , n .
n
T Potom x~N p , 1 , W =∑ x i−x x i−x ~W p n−1 , a x ,W jsou nezávislé.
2
i=1
Důkaz:
1 víme: x~N p , n , W =X T H X , kde H n×n je symetrická, idempotentní, h H =n−1 ⇒ W ~W p n−1 , , N
T centrální rozdělení pro A M=0 , kde A=H a M = ⋮ = 1n T n × p T n×1
T T H M= I n − 1 1n 1Tn 1n T = 1n − 1 1n 1 n 1n = 0
n
n
=n
n× p
tedy W ~W p n−1, centrální
1 dle poznámky ii) : x ,W jsou nezávislé, pokud A d=0 , kde A=H , d= 1n n T T neboť x= 1 X 1 n=X d
H d=
n I n− 1 1n 1Tn 1 1n= 1 1n− 12 1n 1Tn 1n= 0 n n n n n×1
=n
27
Věta: (reprodukční vlastnost) Nechť Y 1~W p n 1 , , Y 2~W p n 2 , jsou nezávislé. Potom Y 1Y 2~W p n1n2 , . Důkaz: n1
Y 1=∑ x i x Ti , x i ~N p 0 , nezávislé i=1 n2
Y 2=∑ y i y Ti , y i~N p 0 , nezávislé i=1
}
nezávislé
společný výběr: x 1 , ... , x n , y 1 , ... , y n =z 1 ,... , z n n 1
2
1
2
n1n2
Y 1Y 2= ∑ z i , zi ~N p 0 , nezávislé i=1
Věta: (kvadratická transformace) Nechť Y ~W p n , , Bq× p . Potom B Y BT ~W q n , B BT . q×q
Důkaz: n
Y =∑ x i x Ti , x i~N p 0 , nezávislé. i=1
n
BY BT =∑ B x i xTi B T =∑ ui uTi , kde ui~ N q 0 , B BT jsou nezávislé. i
i=1
Lemma: (o nejmenších čtvercích) Nechť y~N n K , 2 I n , kde K n× p je matice konstant, p×1 je vektor parametrů (normální lineární regresní model). Potom R20 :=min y −K T y −K (RSČ) má rozdělení
2 2n−r , kde r =h K . Poznámka: T y−K , kde je MNČ-odhad. R20 = y−K 2 T T R0 =e e = y I−P y , kde I −P je projekce (symetrická, idempotentní matice), P= K K T K −1 K T , h P=r , h I −P=n−r . Věta: Nechť Y ~W p n , , 0 , n p−1 . Označ Y j k =Y −1, j k =−1 . Potom: pp ~2n− p 1 a je nezávislé na Y j k p−1 i) j ,k=1 pp Y cT −1 c p×1 ∀ c ≠0 : ~2n− p1 ii) T −1 c Y c Poznámka: Rozdělení
j j je stejné ∀ j=1 ,... , p . Yjj
28
Důkaz: n
i)
Y =∑ x i x Ti , x i~N p 0 , nezávislé, x i= X i 1 , ... , X i pT , i=1 , ... , n i=1
normální regrese X i p na X i 1 , ... , X i , p −1
∑
p −1
víme: X i p∣X i1 , ... , X i , p −1~N 1 n
p−1
j Xi j ,
j=1 2
1 , i=1 , ... ,n pp
RSČ: R =∑ X i p −∑ j X i j 2 0
i=1
j=1
při pevných X i 1 , ... , X i , p −1 : R20~k 2n−r (viz. lemma), 1 kde k = p p , r=h x⋅1 , ... , x⋅, p−1 = p−1 s pravděpodobností 1 2 n−r je standardní rozdělení a nezávisí na X i 1 , ... , X i , p −1 Y j k pj ,k−1=1 1 2 2 tedy je to nepodmíněné rozdělení: R0 ~ p p n− p 1 1 2 zbývá ukázat: R0 = p p Y označme X = U v , v=x⋅p
n × p
n× p−1
n×1
regrese v na U ... RSČ R20 =v T I −P v=v T I −U U T U −1 U T v=v T v −v T U U T U −1 U T v=∗
UT U U T v vT U vT v ∣Y∣=∣U T U∣⋅∣v T v−v T U U T U −1 U T v∣ ∣Y∣ 1 ∗= T = p p ∣U U∣ Y
zároveň: Y = X T X=
ii) uvažuj B p× p ortogonální, tj. BT B=B BT =I p nechť c je první řádek B , tj. c=b1⋅ víme: BY BT ~W p n , B B T postupuj dle i) , prvek (1,1) B Y BT −1=B Y −1 B T ... prvek (1,1) je c T Y −1 c B BT −1 =B −1 BT ... prvek (1,1) je c T −1 c c T −1 c 2 tedy T −1 ~n− p1 c Y c Značení: (rozdělení na bloky) Y Y 12 r 12 r Y = XT X = 11 = 11 , p × p Y 21 Y 22 s p × p 2 1 2 2 s , kde p=sr
r
s
r
s
Věta: (marginální rozdělení) Nechť Y ~W p n , . Potom Y 1 1~W r n , 1 1 .
29
Důkaz: n
Y =∑ x i x , x i~N p 0 , nezávislé, i=1
T i
x i=
n
x r , Y 11=∑ 1 x i 1 x Ti , kde s i=1 2xi 1 i
x ~N r 0 , 1 1
1 i
nezávislé. Věta: Nechť Y ~W p n , . Potom Y 2 2−Y 2 1 Y −1 22 −2 1 −1 1 1 Y 1 2~W s n−r , 1 1 1 2 22⋅1
Hustota Wishartova rozdělení Y ~W p n , n− p1 2
∣Y∣ f Y , =
np 2
2 E Y =n
exp − 1 st Y −1
{
p p−1 4
n 2
2
p
}
n1− j ∣∣ ∏ 2 j=1
, kde Y p × p symetrická, 0
−
n
2 charakteristická funkce: Y T =∣I−2 iT ∣ , kde T p× p je symetrická, i je imaginární jednotka, může být singulární pro Y ~W p n , , M platí E Y =n M T M
Definice:
1 Nechť y~N p , c , Y ~W p k , , 0 , nechť y a Y jsou nezávislé. Potom statistiku T 2=c k y T Y −1 y nazýváme Hotellingovo T-kvadrát.
Věta: Nechť k p−1 . Potom F=
T 2 k− p1 ~F p , k− p1 , kde =c T −1 . k p
Důkaz: T2 c y T −1 y y T −1 y T −1 2 =c y T Y −1 y= T −1 , kde c y y~ p a T −1 má při pevném y k y y y Y y y T Y −1 y 2k− p1 centrální rozdělení (viz. věta část ii)) Ale 2k− p1 nezávisí na podmínce y , tedy nepodmíněné rozdělení a je nezávislé na y T −1 y . Poznámka: Při =0 je F-rozdělení centrální.
30
7. LEKCE Lemma: n ×1 Nechť Bn×n je symetrická, pozitivně definitní. Pak pro libovolný vektor c platí T T 2 T −1 n ekvivalence: c B c≤1 ⇔c d ≤d B d , ∀ d ∈ℝ . Důkaz: 1 2
1 2
−1
Nechť B je pozitivně definitní ⇒ B=B B , existuje B =B Schwarzova nerovnost pro vektory: uT v 2≤uT u⋅v T v , ∀ u , v ∈ℝn 1
−
−
1 2
B
−
1 2
.
1
zvolíme u=B 2 c , v=B 2 d c T d 2≤c T B c⋅dT B−1 d , ∀ c , d ' ⇒' nechť c T B c≤1 , pak c T d 2≤d T B−1 d , ∀ d ' ⇐' zvolíme d=B c , potom c T B c2≤c T B B−1 B c=c T B c vyděl c T B c0 ⇒ c T B c≤1 Věta: (zobecněný Scheffé) 1 Nechť y~N p , , Y ~W p k , , nechť y , Y jsou nezávislé, je pozitivně definitní a c k p−1 . Nechť A je t-rozměrný podprostor v ℝ p . Potom pravděpodobnost, že nerovnost t 1 ∣aT y −aT ∣≤ F t ,k−t 1 aT Y a platí ∀ a∈A současně, je rovna 1− . k −t1 c
Důkaz:
T
a 1 , ... , at ... báze A ,
p ×1
A :=
t × p
a1 ⋮ T at
platí A ={a p ×1 : A T d=a , d ∈ℝt }
}
1 A AT nezávislé c T T A Y A ~W t k , A A
víme: A y− A ~N t 0 ,
Hotellingova statistika: T 2=k c A y− A T A Y AT −1 A y− A T 2 k −t1 víme: ~F t ,k−t 1 centrální k t 1 T k −t1 T −1 P A y −A c A Y A A y− A ≤1 =1− t F t , k−t1
{
=: c zlemmatu
kritická hodnota
volíme jako B zlemmatu
31
}
Použijeme lemma: P {[ A y− A T d ]2 ≤d T B−1 d , ∀ d ∈ℝt }=1− a= AT d probíhá A , když d probíhá ℝt F t ,k−t 1 T t P [ y −T a]2≤ a Y a , ∀ a∈A =1− k−t1 c Odmocním tvrzení věty. neboli aT y −a T 2 k −t1 P c≤F t , k−t1 , ∀ a∈A =1− t aT Y a
{
}
{
}
Důsledek:
1 Nechť x 1 , ... , x n je náhodný výběr z N p , , tedy x~N p , n
a
n
W =∑ x i− x x i−x T ~W p n−1 , .
p × p
1
Víme, že x ,W jsou nezávislé, tj. c=n , k =n−1 , vol A =ℝ p , tj. t= p .
{
Potom P ∣a T x−a T ∣≤
}
p F p , n− p T a W a, ∀ a∈ℝ p =1− . n− p n současně
Použití: – simultánní intervaly spolehlivosti pro a T p F p ,n− p T I a= a T x± a Wa n− p n pokryjí skutečné hodnoty současně ∀ a∈ℝ p s pravděpodobností 1− – simultánní testy hypotéz H a0 : a T =a T 0 , ∀ a∈ℝ p aT x−aT 0 2 n− p n mají společnou hladinu spolehlivosti , s testovými kritérii F a= p aT W a tj. F aF p , n− p ... zamítám H a0
〈
〉
Poznámka: Je možné pracovat s výběrovou varianční maticí S= W =n−1 S .
32
1 W nebo s Wishartovou maticí n−1
II.2 Testy hypotéz a oblasti spolehlivosti při neznámém x i~N p , nezávislé (náhodný výběr), neznámé n 1 x= x i , W =∑ x i−x xi −x T , x ,W nezávislé n 1 H : = i) 0 0 − Hotellingův test T 20=n n−1 x−0 T W −1 x−0 T 20 n− p n− p H F := = n x−0 T W −1 x−0 ~ F p ,n− p n−1 p p FF p ,n − p ... zamítáme H 0 Poznámka: Za alternativy H 1 : ≠0 má F necentrální F p ,n− p 0
− Test poměrem věrohodností np n − 2 e − 2 ∣W 0∣ 2 max L0 , n ∣W ∣ = = = np n max L , − ∣W 0∣ 2 e − 2 , ∣W ∣ 2 n
n 2
n
T T kde W 0 =∑ x i− 0 x i −0 =W n x−0 x−0 p × p
i =1
±x
±x
⋅
platí: −2 ln ~2dim−dim dim ... počet parametrů v neomezené věrohodnosti dim ... počet parametrů ve věrohodnosti omezené hypotézou zde dokážeme rozdělení určit přesně: 2 ∣W ∣ ∣W ∣ ∣W∣ n = = = 1 = T 1 1 1 − − ∣W 0∣ ∣W n x−0 x−0 ∣ T 2 2 2 2 W I p n W x−0 x−0 W n W
∣
∣ ∣
v
1 = = 1n x −0 W −1 x−0
∣∣
1 ... test poměrem věrohodností je funkcí T 20 1 n−1 Hottelinogovi statistiky (v předposlední rovnosti jsme využili vztahu ∣I v v T∣=1v T v ) T 20 2p ~ nezávislé víme: n−1 2n− p
}
2 n odtud: =
2n− p 1 n− p p ~ =Beta , 2 2 2 2 2 T0 n− p p 1 nezávislé n−1
Poznámka: T 20 ∣W n x −0 x −0T∣ = −1 neobsahuje inverzi W −1 n−1 ∣W∣ − Oblast spolehlivosti pro p n− p T −1 m∈ℝ : n x−m W x−m≤F p ,n− p p elipsoid se středem x , osy jsou určeny vlastními vektory W
{
}
33
∣
ii) Simultánní hypotézy o složkách při zamítnutí H 0 : =0 v bodě i) H 0j : j =0 j , j=1 , ... , p , při zachování původní hladiny , tj. simultánní testy − Bonferroni: 1-rozměrné testy na přísnější hladině p 2 2 X − X −o j F Bj =n n−1 j 0 j =n j F 1 , n−1 ... zamítáme H 0j , j=1 ,... , p W jj sj j p ekvivalentně ∣x −0 j∣ T Bj = F Bj = n j t n−1 ... zamítáme H 0j p s jj simultánní intervaly spolehlivosti pro j :
〈 〈
〉
sj j t n−1 n p ekvivalentně s X j± j j F 1,n−1 n p X j±
〉
− Scheffé testujeme: H a0 : a T =a T 0 volíme: a =a j=0 , ... , 0 , p ×1
1
j−tá pozice
, 0 , ... , 0
tj. H 0j : j =0 j , j=1 , ... , p 2 n− p n X j−0 j S F j= F p ,n− p ... zamítáme H 0j p n−1 sj j simultánní interval spolehlivosti: p n−1 X j± s F n− p n j j p ,n− p
〈
〉
Poznámka: Scheffého intervaly jsou obecně delší než Bonferonniho. Měly by se použít, pokud předem nevíme, kolik lineárních kombinací a T respektive kolik složek j budeme chtít testovat. Poznámka: Pokud H 0j nezamítáme pro žádné j a přesto zamítáme H 0 , pak je příčinou nepřijatelná kombinace složek. iii) Transformace Hottelingovy statistiky H C0 : C =C 0 , kde C q× p T 2C =n n−1C x−C 0 T C W C T −1 C x−C 0 T2 H platí: F c = c n−q ~ F q , n−q centrální n−1 q F c F q , n−q ... zamítáme H C0 C 0
−
C =I q ∣ Oq × p−q
q× p
test prvních q složek (nikoliv simultánní) 34
−
1 −1 0 ⋯ 0 C = 0 1 −1 ⋯ 0 ⋮ ⋱ ⋱ ⋱ ⋮ p−1× p 0 ⋯ 0 1 −1
... matice kontrastů
tj. H C0 : j = j1 , j=1 , ... , p−1 neboli 1=2=...= p −
C = I q ∣ −I q ... test symetrie, pro p=
q × p C 0
q 2
H : j =q j , j=1 ,.... , q
iv) Porovnání dvou nezávislých náhodných výběrů x11 , ... , x 1n ~N p 1 , při shodě variančních matic x12 , ... , x 2n ~N p 2 ,
}
1
2
−
H 0 : 1 = 2
H0
x 1− x 2 ~ N p 0 , 1
1 1 n1 n2
}
2
nezávislé
W W =:W ~W p n1n2−2 , n n n n 1 1 = 1 2 ⇒ c= 1 2 n1 n2 n1n2 n1n2 n n T 0=n1n2−2 1 2 x 1−x 2T W −1 x1− x 2 n1n 2 2 T0 n1n 2− p−1 n1n2− p−1 n1 n2 1 2 T −1 1 2 F= = x − x W x −x n1n2−2 p p n1n2 FF p ,n n − p−1 ... zamítáme H 0 1
2
Poznámka: Pokud 1≠ 2
1 1 1 2 n1 n2 nelze přejít na společnou matici W s Wishartovým rozdělením 1 1 2 a je možno sestavit W , T 20 , F Pokud n1 =n2=:n , pak je rozptyl n stejným způsobem jako výše. H0
x 1− x2 ~ N p 0 ,
− simultánní testy složek při zamítnutí H 0 : 1 = 2 2 tj. H 0j : 1 j = j , j=1 , ... , p Bonfferoni: jednorozměrné testy p=1 na přísnější hladině
p
2 2 n 1 n 2 X 1 ... zamítáme H j j −Xj F = F 1 ,n n −2 0 n1n 2 s jj p Scheffé: p , 2 2 n1n 2− p−1 n1 n2 X 1 j S j −X j F j= F p , n n − p−1 ... zamítáme H 0 p n1n2 W jj 1 W kde s j j= n1n2−2 j j B j
1
2
1
35
2
−
H 0 : 1 = 2 při neshodě variančních matic 1≠ 2 a při různém rozsahu n1≠n2 Problém: Nelze přejít na Hottelinga a na F-rozdělení. Asymptotický přístup: n1 , n2 ∞
S 1 S 2 K = x −x n1 n2 1
2 T
−1
⋅
x 1− x 2 ~2p
2 simultánní testy H 0j : 1 j = j , j=1 , ... , p 2 2 X 1 j −X j K = 2p ... zamítáme H 0j Scheffé: j 1 1 1 2 s s n1 j j n2 j j 2 Bonferroni: K j1 ... zamítáme H 0j p
− Porovnání dvou závislých výběrů (párový test) uvažuj rozdíly z i :=x 1i −x 2i , i=1 , ... , n dle i) testuj H 0 :z =0 nebo X := X 1 ∣X 2 n ×2 p
x = x1T , x 2 T T ,
2 p×1
= 1T , 2T T
2 p ×1
transformace Hottelinga dle iii) s maticí
C = I p ∣−I p
p ×2 p
test symetrie: j=p j , j=1 , ... , p , neboli H 0 :1=2
36
8. LEKCE Testy varianční matice H 0 : = 0 v) p× p
test poměrem věrohodností −
=
L , 0 = L ,
2 −
2 n 2
np 2
np 2
n 2
{
[
{
[ ]}
1 −1 ∣ 0∣ exp − st 0 W 2 −
]}
−
}
{
1 e =∣−1 st −1 0 W∣ exp − 0 W 2 n
=
−1
1 2
}=
−
np 2
−
∣W∣
n 2
np
np 2
K :=−2 ln =−n ln∣ 0 W∣st 0 W −n p ln −1
{ en
−1 ∣ 0∣ exp − st 0 W
1 − n2 1 1 W exp − st W W n 2 n
∣ ∣
n 2
−1
e n
n p 1−ln n ⋅
platí: K~
2 dim−dim
2 1 p p 1 2
=
1 dim = p p p = p p3 , dim = p 2 2
Poznámka: Při malém rozsahu výběru se testové kritérium K zde, i u dalších testů násobí zpřesňující konstantou. − speciálně H 0 : =Diag ... test diagonality tj. H 0 : P=I p ... korelační matice ⋅ K =−n ln ∣R∣~ 21 2
p p−1
odvození: 0=Diag { 0 1 , ... , 0 p } 1 0= Diag {W 11 , ... ,W p p } n diagonální prvky W
∣
−
1
−
1
∣
∣ −1 {W j j } 2 W Diag W j j 2 =∣n R∣=n p∣R∣ 0 W ∣= nDiag výběrová korelační matice
−1 st 0 W =st n R=n p K =−n ln n p∣R∣n p−n p 1−ln n=−ln n p n−n ln ∣R∣ln nn p=−n ln ∣R∣
37
− speciálně H 0 : = 2 I p ... test sféričnosti 1 ⋅ 2 K=−n ln ∣W ∣n p ln st W ~ 1 p p1−1 p 2 odvození: 0= 2 I p p 11 1 0= 2 I p 2 = W j j= st W , ∑ n p j=1 np
p
p
1 ∣ ∣ np ∣ ∣ W= W ∣ −1 0 W ∣= 2 st W np −1 st st W =n p 0 W = st W
[ ] p
np ∣ ∣ K=−n ln W n p−n p 1−ln n=−n p ln n pnp ln st W −n ln∣W∣ st W
st W −n ln∣W ∣ p 0=I p − speciálně H 0 : =I p , tj. ⋅ 2 K ~ 1 n p ln n=n p ln
2
vi)
p p1
H 0 : =0 ∧ = 0 test poměrem věrohodností: ⋅ 2 K '=Kn x−0T −1 0 x−0 ~ 1 2
dim =0
p p3
vii) ověření nezávislosti mezi 2 skupinami proměnných 1 2 r x = 1 x r×1 , var x= = 1 1 , p=rs s×1 p ×1 p× p 2 1 2 2 s 2x H 0 : 12 = 0 , tj. 1 x , 2 x jsou nezávislé
r ×s
test poměrem věrohodností 1 1 ⋅L2 2 , 22 L , ∣W∣ = 1 1 =...= ∣W 11∣⋅∣W 2 2∣ L ,
n 2
n
kde W l l =∑ l x i−l x l xi −l x T ,l=1 ,2 i=1 n
W =∑ x i−x x i−x T i=1
K =−2 ln =−n ln
∣W∣ ⋅ ~21 p −r − s ∣W 11∣⋅∣W 2 2∣ 2 2
2
2
1 3 1 2 2 dim = p p3 , dim = rs r s r s = p r s 2 2 2 2 2 střední hodnoty rozptyly
kovariance
1 dim −dim = p2−r 2−s 2 2
38
viii) porovnání dvou nezávislých výběrů xi1~ N p 1 , 1 , i=1 , ... ,n 1 , nezávislé nezávislé xi2~ N p 2 , 2 , i=1 , ... ,n 1 , nezávislé
}
H 0 : 1= 2 =: pokud nezamítneme H 0 , můžeme testovat shodu středních hodnot dle iv) při stejných variančních maticích test poměrem věrohodností: n1
n1n2 p
n2
, L1 2 , , ∣S ' 1 ∣ 2⋅∣S ' 2 ∣ 2 n 1n2 2 = =...= = n n n p n p 1 , 2 L1 2 1 , 2 , 2 ∣S '∣ n1 2 n2 2 1 1 2 W , S ' ... ML-odhady kde W =W W , S '= n 1n2 ⋅ K =−2 ln ~21 1
2
1
2
p p 1
39
2
1
2
n1 1 2
n2 2 2
∣W ∣ ⋅∣W ∣ n1n2 2
∣W∣
,
III. METODA HLAVNÍCH KOMPONENT PC, PCA ... Principal Components (Analysis) Metoda hlavních komponent je určena k redukci informace. Nástroj: Spektrální rozklad pro reálnou symetrickou matici B p× p p
B=P P =∑ j p j pTj , kde =Diag {1 , ... , p }, 1≥...≥ p jsou vlastní čísla B T
j=1
T T T P = p1 ,... , p p ... ortonormální vlastní vektory B , tj. p j pk = j k , tj. P P=P P =I p
p × p
Poznámka: i) symetrická matice má reálná vlastní čísla ii) B je p.s.d. ⇒ j≥0 ∀ j h B=r p ⇒ r 1=...= p=0 iii) B je p.d. ⇒ j0 ∀ j , h B= p iv) Pokud je vlastní číslo m-násobné, pak mu odpovídá m vlastních vektorů z ℝm . Nejsou určeny jednoznačně, lze volit ortonormální. Pomocné lemma: B p× p symetrická s vlastními čísly 1≥...≥ p . Potom dT B d max T =max d T B d= 1 i) d ≠0 d d ∥d∥=1 argmax ... d∗= p 1 ... vlastní vektor dT B d T ii) min T =min d B d= p d≠0 d d ∥d∥=1 argmin ... d ∗= p p ... vlastní vektor T iii) max d TB d =max d T B d=r1 d : d ⊥p ∥d∥=1 d d j=1, ... , r j
d T p j=0 j=1, ... , r
iv)
argmax ... d ∗= pr 1 ... vlastní vektor dT B d min T = min d T B d= p d : d ⊥p ∥d∥=1 d d j
d T p j=0 j=1, ... , r
j=1, ... , r
argmin ... d ∗= p p ... vlastní vektor r
∑ d Tj B d j v)
max d1 , ..., d r d j ⊥d k
j=1
T
d j dj
r
r
= max ∑ d B d j=∑ j d1 ,... , d r d Tj dk = j k
T j
j=1
j=1
argmax ...d ∗1 ,... , d ∗r = p1 , ... , p r
40
Důkaz: p
i)
∀ d p×1 : d=∑ c j p j j =1
p1 ,... , p p ... ortonormální báze ℝ p , pTj pk = j k p
B=∑ l p l pTl ... spektrální rozklad l=1
c j pTj ∑ l p l pTl ∑ c k p k ∑ ∑ ∑ c j c k l p Tj p l p Tl p k ∑ c 2j j ∑ c 2j ∑ d Bd j l k j k l j = = = ≤ = dT d ∑ c j pTj ∑ c k p k ∑ ∑ c j c k p Tj p k ∑ c 2j 1 ∑ c 2j 1 T
j
k
j
k
této hodnoty je dosaženo pro c 1=1 , c 2 =...=c p=0 , tzn.: d ∗= p1 nebo obecněji: c 1=a , c 2=...=c p=0 , tzn.: d ∗=a p 1 p
v)
d j=∑ c j k p k , j=1 ,... , r k=1
p
∥d j∥=1 ⇒ ∑ c2jk =1 k =1
p
T
d j d k ⇒ ∑ c jl ck l =0, j≠k l=1
}
C =c j k ortonormální řádky
r× p
doplníme C = c j k ortonormální řádky p× p
T
tj. platí C C=C C T =I p ... ortonormální řádky i sloupce p
p
j=1
k=1
∑ c 2j k=1 , ∑ c 2j k=1
tj.
C 1 2 :=c 2j k r
platí:
p
p
r
r
p
∑ ∑ c 2j k=∑ ∑ c 2j k =∑ ∑ c 2j k =r j=1 k=1
r
j=1 k=1 p 2 k jk j =1 k=1 r
k=1 j=1
p
∑ d Tj B d j=∑ ∑ c =∑ k j=1
k=1
r
!
∑ c 2j k j=1
= max
koeficienty u k
největším vlastním číslům přiřaď největší možné koeficienty r
p
j=1
j =1
ON
∑ c 2j k≤∑ c 2j k = 1 , za podmínky
r
p
∑ ∑ c 2j k=r k=1 j=1
prvním r vlastním číslům dáme koeficient roven 1, ostatním roven 0 tedy
r
r
j=1
k=1
∑ d Tj B d j≤∑ k⋅1
rovnost při volbě: c j j=1 , j=1 , ... ,r , c j k =0 , j≠k , k =1 , ... , p tzn. d ∗j = p j
1 ⋯ 0 C 1 2= ⋮ ⋱ ⋮ 0 ⋯ 1 ∗
stačí volit, aby C r byla ortogonální, tj. ortonormální řádky (a sloupce) i) r ×r
ii)
c j k =0 , j≠k , k r 41
j
9.LEKCE Úloha pro metodu hlavních komponent: nahradit x= X 1 , ... , X p menším počtem proměnných (latentních, skrytých), které by co nejvěrněji popisovaly původní soubor a to ve smyslu zachování varianční struktury. Postup: Omezíme se na lineární kombinace původních proměnných. x p×1 y r×1= D x , r p Nový soubor proměnných y=Y 1 , ... ,Y r T budeme vytvářet postupně, tak aby se vyčerpávalo maximum zbývající variability v x . Alternativa: Zvolit nový souřadnicový systém, tak aby se zjednodušila varianční struktura. Postup: – ortogonální transformace na diagonální strukturu – souřadnice = hlavní osy elipsoidu= vlastní vektory varianční matice – pokud jsou vlastní čísla různá, je řešení jednoznačné
protože chceme méně Y než X , nechali bychom jen Y 1
x= X 1 , ... , X p T ... náhodný vektor, nepředpokládá se, že je normálně rozdělený Bez újmy na obecnosti předpokládejme, že E x=0 var x = ... symetrická , pozitivně semidefinitní p× p
p
T T spektrální rozklad: =∑ j p j p j =P P , kde 1≥...≥ p ≥0 jsou vlastní čísla matice , j=1
p1 ,... , p p jsou ortonormální vlastní vektory matice a =Diag {1 , ... , p } . P PT =PT P= I p Definice: Náhodnou veličinu Y j := pTj x nazveme j-tou hlavní komponentou, j=1 ,... , p .
42
Věta: var Y j= j , j=1 ,... , p . Důkaz: p
var Y j=var pTj x = pTj p j= pTj ∑ k pk pTk p j= j p Tj p j pTj p j= j k=1
k j
=1
Poznámka: Jestliže h =m p , tak posledních p−m hlavních komponent jsou konstanty skoro jistě, neboť m1 =...= p=0 . Tedy var Y m1=...=var Y p=0 . Věta: Hlavní komponenty jsou nekorelované. Důkaz: T j
T k
T j
T j
cov Y j , Y k =cov p x , p x = p p k = p
p
∑ l pl pTl p k= j j k l=1
Věta: Pro hlavní komponenty platí: i) max var c T x=var Y 1 =1 ∥c∥=1
ii) iii)
min var c T x=var Y p = p
∥c∥=1
max var c T x =var Y r1 =r1
∥c∥=1 c⊥ p1 ,.... , pr r
iv)
max
r
r
j=1
j=1
∑ varc Tj x =∑ var Y j=∑ j
∥c j∥=1 j=1 T c j ck = jk j=1 ,..., r
Důkaz: Viz. pomocné lemma. Věta: p
m
j=1
j =1
∑ var X j=∑ var Y j
Nechť h =m p . Potom
.
Důkaz: p
p
m
m
j=1
j=1
j=1
T P =∑ j=∑ j =∑ var Y j ∑ var X j=st =st P PT =st P j=1
I
Poznámka: p
st =∑ var X j ... míra celkové variability v x . j=1
Příspěvek j-té komponenty:
var Y j p
∑ var X k
=
j ∈0,1 . st
k=1
Obvykle se uvažuje několik největších hlavních komponent. Například aby vyčerpaly 60-80% celkové variability. 43
Nejlepší lineární prediktor (NLP) pro x p ×1 založený na y r × 1 =D r× p x x x DT náhodný vektor, E =0 , var x = y y y D D DT víme, že nejlepší lineární prediktor je tvaru: x p=E x ∣ y= D x = D T D DT −1 D x ... lineární regresní funkce vlastnost NLP nezávisí na normalitě
reziduální rozptyl: var x− x p =var x ∣ y=D x =− DT D DT −1 D =:
p× p
míry přesnosti predikce: p
st =∑ j j nebo ∥∥= j=1
2j k ∑ ∑ j
k
? Jak volit D - souvislost s hlavními komponentami Věta: Nechť h =m≤ p . Pak st i ∥∥ nabývá minima, jestliže náhodné veličiny d Tj x , j=1 ,... , r jsou nekorelované a každá z nich je lineární kombinací prvních r hlavních r
r
k=1
k=1
T T komponent, tj. d j x=∑ c j k Y k =∑ c j k p k x , j=1 , ... , r , kde
C =c j k je regulární.
r ×r
Důkaz: Provedeme pro stopu
T
d1 D= ⋮ r × p d Tr
p
i)
p
!
st =st −st D T D DT −1 D =∑ j j−∑ Tj⋅D T D D T −1 D ⋅j= min
j=1
j=1
!
= max D
T j
D
∗
ukážeme, že se stačí omezit na nekorelované d x , j=1 ,... , r , s jednotkovými rozptyly ∗=∑ cov X j , D x var D x−1 cov D x , X j j T
D D =var D x ... symetrická , pozitivně semidefinitní r×r
nechť h D D T =r spektrální rozklad: D D T =U M U T D DT −1=U M −1 U T definuj: z :=U T D x ... lineární transformace r ×1
T T E z=0 , var z=U T D DT U =U U MU U =M ... diagonální I
I
tj. z má nekorelované složky Z1 , ... , Z r cov X j , z =cov X j ,U T D x = Tj⋅ DT U T T −1 ∗ ∑ U T D⋅j=∑ cov X j , z var z−1 cov z , X j j⋅ D U M j
cov X j , z
j
44
∗ se nezmění, jestliže Z j c j Z j , c j≠0 , neboť koeficienty c j se vykrátí 1 volíme c j= , j=1 , ... ,r , kde M =Diag {1 ,... , r } , tedy var z =I r j p
T T lze tedy uvažovat: var D x =D DT =I r a ∗=∑ j⋅ D D ⋅j p× p
j=1
ii) nechť r ≤m= p , tj. má plnou hodnost p
p
j=1
k=1
T T ∗=∑ Tj⋅∑ d k d k ⋅j =∑ d k k
1×1
p
∑ ⋅j ⋅jT d k=∑ d k 2 d k= max j
T
k=1
dj d k= jk
1 2
položíme e j := d j p
potom max T
∑ e Tk e k
viz lemma v
e j e k= j k k=1 ∗ 1
=
r
∑ k
, kde 1≥....≥r jsou vlastní čísla ,
k=1
−
∗ ∗ ... vlastní vektory , e j = p j a d j =∑
∗ r
e , ... , e
1 2
−
e∗j =∑
1 2
pj
iii) za d ∗j lze přímo brát p j , neboť cov p Tj x , pTk x = pTj p Tk = j j k koeficient j nemá vliv na ∗ T při volbě d ∗j = p j : d ∗T j x= p j x=Y j ... j-tá hlavní komponenta ∗
D =
r × p
pT1 ⋮ pTr
, D∗T = p 1 , ... , p r =: P r
iv) maximum v ∗ je rovněž dosaženo pro C D∗ , kde C r×r je regulární, neboť h C D DT C T =h D DT =r ∑ Tj⋅ DT C T C D DT C T −1 C D ⋅j=∑ ⋅j D T D DT −1 D ⋅j=∗ j
j
∗
T r ∗
speciálně pro D =P pak C D∗=C PTr =: D
r× p
r
d ∗j =∑ c j k p k k=1
d v)
∗T j
r
r
x=∑ c j k p x=∑ c j k Y k ... lineární kombinace prvních r hlavních komponent k=1
T k
k=1
m p ⇒ p−m hlavních komponent jsou konstantní skoro jistě pokud mr≤ p , tak vezmi prvních m hlavních komponent a doplň r−m konstant
Poznámka: Analýza hlavních komponent je vhodná, pokud jsou všechny složky x měřeny ve stejných X i j− X j X i j− X j = jednotkách. Pokud nejsou, může se použít normování U i j= a analýza se Xj var sj j provede s korelační maticí R namísto kovarianční matice S . Pozor: Změnou měřítka se mění hlavní komponenty.
45
Definice: Komponentní skóre pro i-tý objekt Y i j= pTj x i−x , i=1 ,... , n ; j=1 , ... ,r . Interpretace hlavních komponent: Vzájemně nezávislé, zobecněné, skryté vlivy, které vyvolávají variabilitu a ovlivňují kovarianční strukturu proměnných. Využití metody hlavních komponent v jiných metodách: 1) ortogonalizace proměnných v regresi 2) rozbor prostorového rozložení dat ve shlukové analýze 3) pomocná metoda ve faktorové analýze
46
IV. KANONICKÉ KORELACE CC ... Cannonical Correlations Pomocné lemma: Nechť A , B jsou symetrické matice řádu p , B je pozitivně definitní. Označ 1≥...≥ p vlastní čísla B−1 A , v 1 , ... , v p odpovídající vlastní vektory. Potom cT A c max cT A c=max T =1 , c ∗=v 1 i) c≠0 c Bc=1 c Bc cT A c min cT A c=min T = p , c∗=v p ii) c≠0 c Bc=1 c Bc r r cT A c j r iii) max ∑ c Tj A c j= max ∑ Tj =∑ j c ,..., c j=1 c , ..., c j=1 c B c j=1 j j T
T
1
r
1
c Tj Bc k= jk
r
c Tj Bc k=0 pro j≠k
Důkaz: B−1 A , B
−
1 2
AB
−
1 2
mají stejná vlastní čísla −1
B je pozitivně definitní ⇒ existují B , B i)
1 2
1 2
−
1 2
,B
1 2
symetrické
c T B c=cT B B c=:d T d 1 2
d=B c , c=B
−
1 2
d
max cT A c=max d T B T
−
1 2
T
c Bc=1
AB
−
1 2
d d=1
−
d=1 ... největší vlastní číslo B
1 2
AB
−
1 2
(viz. lemma u
hlavních komponent) d
∗
−
je vlastní vektor B −
c ∗=B
1 2
1 2
AB
−
1 2
d∗ −
−1 ∗ −1 c ∗ je vlastní vektor B−1 A , neboť B A c =B A B −
1
∗
∗
∗
=B 2 1 d =1 c , c =v 1 ii) , iii) bez důkazu
47
1 2
d∗=B
−
1 2
B
−
1 2
AB
−
1 2
d ∗=