AVDAT Geometrie metody nejmenších cˇ tvercu˚ Josef Tvrdík Katedra informatiky ˇ Pˇrírodovedecká fakulta Ostravská univerzita
Lineární model klasický lineární regresní model y = Xβ + ε, ε ∼ N(0, σ 2 I) ˇ odhad parametru˚ MNC b = (XT X)−1 XT y. ˆ = Xb je lineární kombinací vektoru˚ regresoru, Vektor y ˚ tj. leží ˇ nadrovine), ˇ jehož dimenze je rovna v prostoru (pˇrímce, rovine, poˇctu regresoru. ˚ Dosadíme-li za b, dostaneme ˆ = Xb = X(XT X)−1 XT y = Hy y Matice H = X(XT X)−1 XT je matice projekce vektoru y do prostoru urˇceného vektory regresoru. ˚
Lineární model – projekce
ˆ)T (y − y ˆ) → min vlastneˇ znamená, že tato RSS = (y − y projekce je ortogonální. ˆ ae=y−y ˆ jsou ortogonální vektory, Pak tedy vektory y ˆT e = eT y ˆ=0 y
(Xb)T (y − Xb) = bT XT y − bT XT Xb = bT (XT y − XT Xb) = 0, výraz v poslední závorce je nulový vektor, viz normální rovnice: XT y = XT Xb
Residua ˆ e=y−y vektor residuí ˆ složky ei = yi − yi residua. ˇ residuí je roven nule: Souˇcet a tedy i prum ˚ er n X i=1
ei =
n n n X X X (yi − yˆi ) = yi − yˆi = 0, i=1
i=1
i=1
¯, Z první normální rovnice platí y¯ = bT x T ¯ = [1, x¯1 , x¯2 , . . . , x¯k ], x n X i=1
(yˆi − y¯ ) =
n X i=1
yˆi −
n X i=1
yi = bT
n X ¯) = 0, (xi − x i=1
ˇ je nulový. nebot’ souˇcet odchylek od prum ˚ eru
Rozklad souˇctu cˇ tvercu˚ ¯)T (y − y ¯) TSS = (y − y TSS mužeme ˚ rozložit na dveˇ složky: ˆ−y ¯)T (^ ¯) MSS = (y y−y a už dˇríve definovanou ˆ)T (y − y ˆ) = eT e RSS = (y − y Platí tedy, že TSS = MSS + RSS, ˇ MSS je cˇ ást z TSS, která je vysvetlena závislostí na regresorech ˇ nelze. zbylou cˇ ást (RSS) lineární závislostí vysvetlit
Index determinace
R2 =
MSS TSS − RSS RSS = =1− TSS TSS TSS
0 ≤ R 2 ≤ 1. ˇ R 2 = 1, když RSS = 0, tzn. regresní model vysvetluje ˇ závislost vysvetlované veliˇciny na regresorech úplneˇ (dokonalá lineární závislost). ˇ R 2 = 0, model nevysvetluje nic, tedy RSS = TSS, tzn. b1 = b2 = . . . = bk = 0 a b0 = y¯ ˇ napˇr. pro k = 1 je regresní pˇrímka rovnobežná s osou x v úrovni b0 = y¯ .
ANOVA
zdroj variab. model error total
stupneˇ volnosti k n−k −1 n−1
souˇcet cˇ tvercu˚ MSS RSS TSS
ˇ prum ˚ erný cˇ tverec MSS/k RSS/(n − k − 1)
F MSS/k RSS/(n−k −1)
p−value 0. . . .
Za pˇredpokladu, že s2 = RSS/(n − k − 1) je nestranným odhadem rozptylu náhodné složky σ 2 a náhodné kolísání má ˇ ˇ normální rozdelení, má statistika F rozdelení F ∼ Fk ,n−k −1 a mužeme ˚ ji užít k testu hypotézy H0 : β1 = β2 = . . . = βk = 0 proti H1 : asponˇ jeden parametr βj 6= 0,
j = 1, 2, . . . , k
ˇ Smerodatná odchylka residuí, adjustovaný R 2 Duležitou ˚ informaci o variabiliteˇ residuí ei = yi − yˆi poskytuje ˇ smerodatná odchylka residuí (square root mean error) r RSS s= n−k −1
Index determinace má tendenci nadhodnocovat podíl modelu ˇ na vysvetlení celkové variability. Kvuli ˚ náhodnému kolísání jsou odhady bj 6= 0 i tehdy, když βj = 0, j = 1, 2, . . . , k . Adjustovaný index determinace 2 Radj =1−
n−1 RSS/(n − k − 1) =1− (1 − R 2 ) TSS/(n − 1) n−k −1
2 < R 2 . Rozdíl je výrazný tehdy, když n je jen o málo vetší ˇ Radj než k 2 se pˇribližuje R 2 pro n k . Radj
Regresní diagnostika – projekˇcní matice Vektor residuí – vyjádˇrit pomocí projekˇcní matice H: ˆ = Iy − Hy = (I − H)y e=y−y Kovarianˇcní matice residuí cov(e) = cov [(I − H)y] = (I − H)cov(y)(I − H)T = (I − H)σ 2 I(I − H)T = 2 σ (I − H)(I − H)T = σ 2 (I − H − HT + HHT ) = σ 2 (I − H) H je symetrická (HT = H) a idempotentní (H2 = H): HHT = H2 = X(XT X)−1 XT X(XT X)−1 XT = H
Regresní diagnostika – projekˇcní matice
Matice H s prvky hij , i, j = 1, 2, . . . , n je symetrická, ale nemusí být diagonální. Jak bylo v pˇredchozím odstavci ukázáno, kovarianˇcní matice vektoru residuí je rovna cov(e) = σ 2 (I − H) Nestranným odhadem parametru σ 2 je reziduální rozptyl (tzn. rozptyl εi ): 1 eT e s2 = n−k −1
Regresní diagnostika – residua Klasická residua e = y − Xb. Jejich rozptyly var(ei ) = se2 (1 − hii ), nejsou konstantní, i když var(i ) = σ 2 konstantní je. Normovaná residua ˇ ˇ Jsou to klasická residua, vydelená reziduální smerodatnou odchylkou: ei eNi = s Jejich rozptyl je roven var(eNi ) = 1 − hii , tedy nemusí být roven jedné.
Regresní diagnostika – residua Standardizovaná rezidua ˇ Nekdy vnitˇrneˇ studentizovaná residua (internally studentized) ei eSi = √ s 1 − hii jejich rozptyl je konstantní, roven jedné. Plneˇ studentizovaná rezidua JACKKNIFE residua, vždy pro i−tý bod se residuum poˇcítá z modelu, jehož parametry byly odhadnuty ze zbývajících n − 1 bodu. ˚ e(−i) √ eJi = . s(−i) 1 − hii ˇ kde s(−i) je residuální smerodatná odchylka pˇri vynechání ˇ i-tého bodu. Tato residua mají t−rozdelení, eJi ∼ t(n − k − 2).
Regresní diagnostika – leverage
Leverage Tyto charakteristiky ohodnocují vliv i-tého bodu na hodnoty odhadu˚ parametru. ˚ Jsou to diagonální prvky projekˇcní matice, tedy hodnoty hii . Platí, že 0 < hii < 1
a
n X
hii = k + 1,
i=1
ˇ kde k je poˇcet regresoru. ˚ Hodnota hii je úmerná vzdálenosti ˇ ˇ i-tého pozorování od težišt eˇ (v k -rozmerném prostoru ˇ než regresoru), ˚ hii se považuje za velké, když hii je vetší ˇ dvojnásobek prum ˚ erné hodnoty, tj. hii > 2(k + 1)/n).
Regresní diagnostika – Cookova vzdálenost Cookova vzdálenost Tato charakteristika slouží také k posouzení vlivu i-tého pozorování na odhady parametru˚ modelu, tj. na hodnoty b. Je ˇ to vlastneˇ relativní zmena reziduálního souˇctu cˇ tvercu˚ ˇ zpusobená ˚ vypuštením i-tého pozorování. Cookova vzdálenost pro i-té pozorování je definována Ci =
ˆ(−i) )T (y−y ˆ(−i) ) (y−y ps2
=
(b−b(−i) )T (X T X )(b−b(−i) ) ps2
=
hii 2 p(1−hii ) eSi
ˇ kde b(−i) jsou jsou jackknife odhady (spoˇcítané pˇri vypuštení i-tého bodu) a p je poˇcet odhadovaných parametru. ˚ Cookova vzdálenost ohodnocuje vliv i-tého pozorování na odhad vektoru regresních parametru˚ b. Je-li Cookova vzdálenost Ci ≥ 1, ˇ i-pozorování velmi podstatneˇ ovlivnuje odhady parametru. ˚
Regresní diagnostika – autokorelace Model autokorelaˇcního procesu prvního ˇrádu – AR(1): εi = ρ1 εi−1 + ui
kde
ui ∼ N(0, σ 2 )
Autokorelaˇcní koeficient prvního ˇrádu ρ1 odhadujeme jako Pn i=2 ei ei−1 ρˆ1 = P n 2 i=1 ei Durbin – Watsonova statistika Pn (ei − ei−1 )2 DW = i=2Pn ' 2 (1 − ρˆ1 ) 2 i=1 ei Pro tuto statistiku platí 0 ≤ DW ≤ 4, E(DW ) = 2 pˇri ρ1 = 0. Pˇri ˇ rozhodování je pro hodnoty statistiky velmi blízké dvema spoléhat na intuici a považovat residua za nekorelované.