8. Analýza rozptylu. Lineární model je popis závislosti, který je využíván v řadě disciplín matematické statistiky. Uvedeme jeho popis a tvrzení, která budeme využívat. Setkáme se s ním jednak v analýze rozptylu, kde uvedeme její základní variantu, tzv. jednoduché třídění a poté v lineární regresi. Popis modelu. Náhodný vektor Y = (Y1 , Y2 , . . . , Yn )T je sloupcový vektor typu (n, 1), X je číselná matice typu (n, k), β = (β1 , β2 , . . . , βk )T je sloupcový vektor neznámých parametrů typu (k, 1) a e = (e1 , e2 , . . . , ek ) je sloupcový náhodný vektor typu (k, 1). Říkáme, že se náhodný vektor Y řídí lineárním modelem, jestliže Y = X β + e ⇒ Yi =
k X
xij βj + ei , 1 ≤ i ≤ n
j=1
O náhodném vektoru e předpokládáme, že jeho souřadnice mají normální rozdělení, jsou navzájem nezávislé, pro střední hodnoty platí E(e) = o, tedy E(ei ) = 0, 1 ≤ i ≤ n a pro rozptyly D(ei ) = σ 2 , 1 ≤ i ≤ n. Pro ostatní prvky kovarianční matice je cov(ei , ej ) = 0, i 6= j, a tedy matice var(e) = σI, kde I je jednotková matice řádu n. Náhodný vektor e zahrnuje v sobě jednak náhodné odchylky od lineární závislosti a jednak nepřesnosti měření. Předpoklady o střední hodnotě a rozptylu zajišťují, že uvažujeme nezávislá měření, která jsou zatížena stejnou chybou. O číselné matici předpokládáme, že je n > k a že má hodnost h(X) = k. První nerovnost zaručuje, že máme víc měření, než je volných parametrů modelu. Druhá podmínka zaručí, že je h(X T X) = h(X) = k. Matice X T X je čtvercová a regulární řádu k, neboť při násobení matic je (k, n) × (n, k) = (k, k). Neznáme parametry modelu odhadujeme pomocí metody nejmenších čtverců. Jejich odhadem je náhodný vektor b = (b1 , b2 , . . . , bk ). pro který má minimum funkce S(β) = (Y − Xβ)T (Y − Xβ) =
n X
(Yi −
i=1
k X
xij βj )2
j=1
Pro výběr metody nejmenších čtverců nás přivádí tato úvaha, kterou budeme ilustrovat na příkladu se dvěma parametry. Předpokládáme, že pro náhodné veličiny platí: Yi = β0 + β1 xi + ei , 1 ≤ i ≤ n. 137
Náhodné veličiny (e1 , e2 , . . . , en ) jsou nezávislé a mají normální rozdělení N (0; σ 2 . Náhodné veličiny (Y1 , Y2 , . . . , Yn ) jsou nezávislé a mají normální rozdělení N (β0 + β1 xi ; σ 2 ). Sdružená hustota náhodného vektoru (Y1 , Y2 , . . . , Yn ) je rovna n P
− 2σ12 (yi −β0 −β1 xi )2 1 −n/2 −n − 2σS2 i=1 f (y, β0 , β1 , σ) = e . = (2π) σ e (2π)n /2σ n
Jestliže budeme hledat odhady (b0 , b1 ) parametrů (β0 , β1 ) metodou maximální věrohodnosti, pak dostaneme, že pro ně má být argument S/2σ 2 exponenciální funkce minimální. Výpočtemqzjistíme, že funkce f jako funkce proměnné σ nabývá maxima pro σ ˆ = S/n. Jedná se o extrém funkce −n − 2σS2 g(σ) = σ e v intervalu(0, ∞). Funkce je kladná a pro limity v krajních bodech platí, že lim g(σ) = σ→∞ lim g(σ) = 0
σ→0+
a pro stacionární bod dostaneme podmínku S
S
g 0 (σ) = −n σ −n−1 e− 2σ2 + σ −n e− 2σ2
S =0 σ3
Odtud po zkrácení rovnice dostaneme v u
uS S S −n σ −1 3 = 0 ⇒ σ 2 = ⇒ σ ˆ=t σ n n jediný stacionární bod, ve kterém musí mít funkce maximum. Použití metody nejmenších čtverců je podmíněno předpokladem o normalitě chyb. Pokud mají jiné rozdělení, je třeba najít odhady parametrů jinou metodou, která obvykle vyžaduje numerické řešení.
Příklad. Regresní analýza. Předpokládáme, že je náhodný vektor Y = (Y1 , Y2 , . . . , Yn )T lineární kombinací s náhodnou odchylkou e = (e1 , e2 , . . . , en ), kde náhodné veličiny ei mají normální rozdělení N (0; σ 2 ) a jsou navzájem nezávislé. Model s jedním parametrem, přímka procházející počátkem. Je Yi = β xi + ei , 1 ≤ i ≤ n, tedy
Y1 .. Yn
= β
x1 .. xn
138
+
e1 .. en
Matice X je sloupcový vektor typu (n, 1) a matice X T X je typu (1, 1) (číslo) a T
T
X X = (x1 , x2 , . . . , xn ).(x1 , x2 , . . . , xn ) =
n X
x2i .
i=1
Je vidět, že je matice regulární, součet čtverců je kladný. Model se dvěma parametry, přímka neprocházející počátkem. Je Yi = β0 + β1 xi + ei , 1 ≤ i ≤ n, tedy
Y1 .. Yn
=
1, x1 .. .. 1, xn
β0 β1
+
e1 .. en
Matice X je typu (n, 2) a matice X T X je typu (2, 2) a T
X X =
1, 1, . . . , 1 x1 , x2 , . . . , xn
1, x1 .. .. 1, xn
n P
=
n, P n
i=1 n P
i=1
i=1
xi ,
xi
2 xi
Také v tomto případě je matice regulární, její determinant je kladný. Obecný model, polynomiální aproximace. Je Yi = β0 + β1 xi + β2 x2i + . . . + βk−1 xk−1 + ei , 1 ≤ i ≤ n, tedy i
Y1 .. Yn
=
1, x1 , . . . , xk−1 1 .. .. .. .. k−1 1, xn , . . . , xn
β0 .. βk−1
+
e1 .. en
Matice X je typu (n, k) a matice X T X je čtvercová typu (k, ) a
XT X =
1, 1, . . . , 1 x1 , x2 , . . . , xn .. .. .. .. k−1 k−1 k−1 x1 , x2 , . . . , xn
n,
n P
xi , . . . ,
i=1 n n P P x , x2i , i=1 i i=1 .. .. n n P P xk−1 , xki , i i=1 i=1
139
..., .. ...,
1, x1 , . . . , xk−1 1 1, x2 , . . . , xk−1 2 .. .. .. .. k−1 1, xn , . . . , xn n P
xik−1
k xi i=1 .. n P x2k−2 i i=1 i=1 n P
=
Také v tomto případě je matice regulární, její determinant je kladný. Příklad. Analýza rozptylu. S lineárním modelem se setkáváme v tzv. jednoduchém třídění v analýze rozptylu, které je zobecněním dvouvýběrového t−testu na případ testování shody rozdělení tří a více souborů. Předpokládáme, že máme k, k ≥ 3, výběrů Yi1 , Yi2 , . . . , Yini , 1 ≤ i ≤ k, z normálního rozdělení N (µi ; σi2 ). Za předpokladů, že jsou rozptyly shodné, tedy σ 2 = σ12 = σ22 = . . . = σk2 testujeme shodu rozdělení, tudíž nulovou hypotézu H0 : µ1 = µ2 = . . . = µk . Náhodnou veličinu z výběrů můžeme vyjádřit ve tvaru (♠)
Yij = µi + eij , 1 ≤ j ≤ ni , 1 ≤ i ≤ k,
kde eij jsou nezávislé náhodné veličiny s normálním rozdělením N (0; σi2 ). Položme n = n1 + n2 + . . . + nk a β = (µ1 , µ2 , . . . , µk )T je sloupcový vektor parametrů. Jestliže označíme Y T = (Y11 , . . . , Y1n1 , Y21 , . . . , Yknk )T sloupcový vektor ze všech náhodných veličin z výběrů, pak můžeme vztah (♠) zapsat pomocí matic ve tvaru Y = X β + e, kde X je číselná matice
X=
1, .. 1, 0, .. .. 0, .. 0, .. 0,
0, .. 0, 1, .. .. 1, .. 0, .. 0,
140
..., .. ..., ..., .. .. ..., .. ..., .. ...,
0 .. 0 0 .. .. 0 .. 1 .. 1
Ta je složena z k matic Zi , 1 ≤ i ≤ k typů (ni , k), které mají vždy v i−tém sloupci 1 a jinde 0. Matic X T X je čtvercová řádu k a je
XT X =
1, 0, .. 0,
.. .. .. ..
1, 0, .. ..
0, 1, .. ..
.. .. .. ..
n, 1 0, = .. 0, Matice je regulární a k ní inverzní −1
T
(X X)
=
0, 1, .. ..
..0 ..0 .. 1
0, .. n2 , .. .. .. 0, .. matice
1, .. 1, 0, .. .. 0, .. 0, .. 0,
0, .. 0, 1, .. .. 1, .. 0, .. 0,
..., .. ..., ..., .. .. ..., .. ..., .. ...,
0 .. 0 0 .. .. 0 .. 1 .. 1
=
0 0 .. nk má vyjádření
1/n1 , 0, 0, 1/n2 , .. .. 0, 0,
.. 0 .. 0 .. .. .. 1/nk
V dalším textu budeme používat ještě matice
XT Y =
1, 0, .. 0,
.. .. .. ..
1, 0, .. ..
0, 1, .. ..
kde Yi. =
ni X
.. .. .. ..
0, 1, .. ..
..0 ..0 .. 1
Y11 Y12 .. Yknk
=
Y1. Y2. .. Yk.
Yij , 1 ≤ i ≤ k
j=1
a
b = (X T X)−1 X T Y =
1/n1 , 0, 0, 1/n2 , .. .. 0, 0, 141
.. 0 .. 0 .. .. .. 1/nk
Y1. Y2. .. Yk.
=
y1. y2. .. yk.
kde
1 yi. = ni
ni X
Yij , 1 ≤ i ≤ k.
j=1
Vlastnosti lineárního modelu. Uvažujeme náhodný vektor Y = (Y1 , Y2 , . . . , Yn ) a číselnou matici X typu (n, k). Předpokládáme, že se Y řídí lineárním modelem, tedy Y = X β + e, kde β = (β1 , β2 , . . . , βk )T je vektor neznámých parametrů a e je vektor náhodných veličin, které jsou nezávislé a mají normální rozdělení s parametry E(e) = o,
var(e) = σ 2 I.
Předpoklad E(e) = o znamená, že pozorování vektoru Y není zatíženo systematickou chybou. Vztah var(e) = σ 2 I zase znamená, že jsou měření souřadnic vektoru Y prováděna se stejnou přesností a že chyby měření nejsou korelované. Dále budeme předpokládat, že je n > k a že hodnost matice X je rovna k. Z uvedených předpokladů vyplývá, že je E(Y ) = X β a var(Y ) = σ 2 I. Odhad vektoru β hledáme metodou nejmenších čtverců, tedy z podmínky, že výraz S(β) = (Y − X β)T (Y − X β) je minimální. Hodnotu, pro kterou má funkce S minimum označíme b. Věta 1. Funkce S(β) nabývá svého minima pro b = (X T X)−1 X T Y Důkaz: Nejprve ověříme, že vektor b splňuje podmínku X T (Y − Xβ) = 0. Je totiž Y − Xb = Y − X(X T X)−1 X T Y ⇒ X T Y = X T Y − X T X(X T X)−1 X T Y = = X T Y − X T Y = 0. Potom je S(β) = (Y − Xβ)T (Y − Xβ) = 142
= [(Y − Xb) + (Xb − Xβ)]T [(Y − Xb) + (Xb − Xβ)] = = (Y − Xb)T (Y − Xb)+(b − β)T X T X(b − β)+(Y − Xb)T X(b−β)+ +(b − β)T X T (Y − Xb) = S(b) + (b − β)T X T X(b − β). Matice X T X je pozitivně definitní a je tudíž (b − β)T X T X(b − β) ≥ 0 pro každý vektor (b − β). Funkce S(β) má tudíž minimum pro β = b. Poznámka: Hodnota Yˆ = Xb je nejlepší lineární aproximací vektoru Y a chyba této aproximace je rovna R = Se , Se = (Y − Xb)T (Y − Xb) = Y T Y − Y T Xb − (Xb)T Y + (Xb)T Xb = = Y T Y − bT X T Y − (Y − Xb)T Xb = Y T Y − bT X T Y . Je to hodnota rovna Se = Y Y − Yˆ T Y = (Y − Yˆ )T Y = T
n X
(Yi − Yˆi )Yi .
i=1 R Hodnota Se = R se nazývá reziduální součet čtverců a hodnota s2 = n−k se nazývá reziduální rozptyl. Pro něj je E(s2 ) = σ 2 a je nestranným odhadem parametru σ 2 . Náhodné veličiny R a b jsou nezávislé. Věta 2. Pro odhad b platí: E(b) = β, var(b) = σ 2 (X T X)−1 . Důkaz. Protože je b = (X T X)−1 X T Y , je
E(b) = (X T X)−1 X T E(Y ) = (X T X)−1 X T Xβ = β. Dále je var(b) = (X T X)−1 X T var(Y )X(X T X)−1 = = (X T X)−1 X T σ 2 IX(X T X)−1 = σ 2 (X T X)−1 . Věta 3. Náhodná veličina b má normální rozdělení N (β; σ 2 (X T X)−1 ). Náhodná veličina σS2e má rozdělení χ2n−k . Náhodné veličiny b a Se jsou nezávislé. Věta 4. Jestliže je vij prvek matice (X T X)−1 , pak pro každé i, 1 ≤ i ≤ k, má náhodná veličina Ti =
b i − βi √ s vii 143
rozdělení t(n − k). Analýza rozptylu, jednoduché třídění. Předpokládáme, že máme náhodné výběry Yi1 , Yi2 , . . . , yini , 1 ≤ i ≤ k, které jsou nezávislé a mají rozdělení N (µi ; σi2 ), 1 ≤ i ≤ k. Testujeme hypotézu: H0 : µ1 = µ2 = . . . = µk proti alternativě H1 : hypotéza H0 neplatí. Použijeme lineárního modelu, kde minimalizujeme výraz S=
k X
ni X
i=1
2
(Yij − µi − eij )
.
j=1
Předpokládáme, že = µi = µ + αi , 1 ≤ i ≤ k a náhodné veličiny (eij ) jsou nezávislé a mají normální rozdělení N (0; σ 2 ). Testovaná hypotéza má tvar H0 : α1 = α2 = . . . = αk = 0. Popis algoritmu: 1. n = n1 + n2 + . . . + nk , k je počet výběrů. 2. Utvoříme tabulku dat a pomocných výsledků data
četnost součet průměr součet čtverců
Y11 , . . . , Y1n1
n1
Y1.
y1.
...
...
...
...
Yi1 , . . . , Yini
ni
Yi.
yi.
...
...
...
...
Yk1 , . . . , Yknk
nk
Yk.
yk.
celkem
n
Y..
y..
Je tedy: n = n1 + n2 + . . . + nk počet dat. ni P Yi. = Yij řádkový součet; Y.. = yi. =
j=1 k P
Yi. celkový součet;
i=1 1 ni Yi.
odhad střední hodnoty µi ; 144
n1 P j=1
Y1j2
... ni P j=1
Yij2
... n Pk
Ykj2
j=1 ni m P P
i=1 j=1
Yij2
y.. = n1 Y.. odhad střední hodnoty µ. Potom pro minimum kvadratické odchylky, reziduální součet čtverců, dostaneme: Se = ST − SA , kde ST =
ni m X X
Yij2
i=1 j=1
Y..2 , − n
Yi.2 Y..2 a SA = − . n i=1 ni k X
Hodnota SA se nazývá řádkový součet čtverců a hodnota ST celkový součet čtverců. 3. Vypočteme hodnotu testovací statistiky F =
n − k SA n−k SA = , k − 1 Se k − 1 ST − SA
která má rozdělení Fk−1,n−k . 4. Kritický obor testu je Wα = {F ; F ≥ Fk−1,n−k (α)}, kde kritickou hodnotu najdeme v tabulkách. Je obvykle α = 0, 05. Chyba 2. druhu v případě přijetí hypotézy je menší než α. Zamítnutí. V případě odmítnutí nás zajímá, pro které dvojice je µi 6= µj . To lze určit dvěma způsoby: Se a hledáme dvoA. Scheffé Použijeme odhadu rozptylu σ 2 ≈ s2 = n−k jice, pro které je |yi. − yj. | >
v u u u t
1 1 + (k − 1)s2 Fk−1,n−k (α). ni nj
Připomeneme, že yi. ≈ µi . B. Tukey Používáme v případě vyváženého třídění, kdy n1 = n2 = . . . = nk = r. Hledáme dvojice, kde 1 |yi. − yj. | > sqk,n−k (α) √ , r kde q(α) je kritická hodnota tzv. studentizovaného rozpětí. Studentizované rozpětí je náhodná veličina Q = Rs , kde R = maxXi − minXi je rozpětí náhodného výběru z rozdělení N (µ; σ 2 ) a s2 je odhad rozptylu σ 2 . Je pak P (Q ≥ qk,n−k ) = α 145
a kritickou hodnotu qk,n−k (α) nalezneme v tabulkách. 2 Při provádění testu předpokládáme, že je σ12 = σ22 = . . . = σm . Pokud nemáme tuto skutečnost zaručenu, musíme nejdříve otestovat hypotézu o rovnosti rozptylů: H0 = σ12 = σ22 = . . . = σk2 . 1. Barlettův test. Vypočteme:
ni 1 X 2 si = Y 2 − ni yi.2 , ni − 1 j=1 ij k 1 X s = (ni − 1)s2i , n − k i=1 2
odhad rozptylu σi2 ;
celkový odhad rozptylu;
k X 1 1 1 C =1+ − ; 3(k − 1) i=1 ni − 1 n − k
k X 1 B = (n − k) ln s2 − (ni − 1) ln s2i . C i=1
Náhodná veličina B má pro ni > 6 přibližně rozdělení χ2 (k − 1). Kritický obor testu je Wα = {B; B ≥ χ2m−1 (α)}. Pro vyvážené třídění, kde n1 = n2 = . . . = nk = r můžeme použít i tyto testy. 2. Hartleyův test. Testovací statistika Fmax
maxs2i = . mins2i
Kritický obor testu je Wα = {Fmax ; Fmax ≥ hk,ν (α)}, kde ν = r − 1 a kritické hodnoty jsou uvedeny v tabulkách. 3. Cochranův test Testovací statistika Gmax
maxs2i = 2 . s1 + . . . + s2k 146
Kritický obor testu je Wα = {Gmax ; Gmax ≥ Ck,ν }, ν = ni − 1 = r − 1 a kritické hodnoty nalezneme v tabulkách. Regresní analýza Hledáme závislosti mezi dvěma nebo více statistickými znaky, veličinami. Regresní analýza se zabývá zkoumáním závislostí hodnot závislé veličiny na nezávislé veličině. Koreláční analýza hledá vzájemný vztah mezi veličinami. Pomocí uvedeného modelu se dá řešit případ lineární závislosti. Uvedeme několik případů modelu. A. Přímka procházející počátkem. Situaci odpovídá model, kdy Yi = βxi + ei , 1 ≤ i ≤ n, kde náhodné veličiny e1 , e2 , . . . , en jsou nezávislé náhodné veličiny z rozdělením N (0; σ 2 ). Matice X = (x1 , x2 , . . . , xn )T je typu n × 1 a β je číslo (matice typu 1 × 1). Z věty 1 a příkladu 1 dostaneme, že odhadem parametru β je n P Yi xi . b = (X T X)−1 X T Y = i=1 n P 2 xi Pro odhad rozptylu dostaneme hodnotu Se =
n X
(Yi − Yˆi )Yi =
i=1
i=1 Se , s2 = n−1
n X
Yi2 − b
i=1
neboť Yˆi = bxi , 1 ≤ i ≤ n. Dále je X T X =
kde
n X
xi Yi ,
i=1 n P i=1
x2i . Z věty 4 dostaneme
b−β tvrzení o rozdělení náhodné veličiny T = √ . Ta má hodnotu s v11 b−β T = s
v u n uX t
x2i ∼ tn−1 .
i=1
Testujeme vhodnost modelu, kterou můžeme popsat jako nulovou hypotézu H0 : β = 0 proti alternativní hypotéze H1 : β 6= 0. V případě nezamítnutí hypotézy H0 je lineární model nevhodný, hypotéza H1 představuje lineární závislost hodnoty Y na hodnotě x. 147
B. Obecná přímka Situaci odpovídá model, kdy Yi = β0 + β1 xi + ei , 1 ≤ i ≤ n, kde náhodné veličiny e1 , e2 , . . . , en jsou nezávislé náhodné veličiny z rozdělením N (0; σ 2 ), tedy
Y1 .. Yn
=
1, x1 .. .. 1, xn
β0 β1
+
e1 .. en
Matice X je typu (n, 2) a matice X T X je typu (2, 2) a T
X X =
1, 1, . . . , 1 x1 , x2 , . . . , xn
n P
1, x1 .. .. 1, xn
=
n, P n
i=1 n P
i=1
i=1
xi ,
xi
x2i
Matice
XT Y =
1, 1, . . . , 1 x1 , x2 , . . . , xn
Y1 .. Yn
n P
=
i=1 n P i=1
Yi
Yi xi
je typu 2 × 1 a β je matice typu 2 × 1. Z věty 1 a příkladu 2 dostaneme, že odhadem parametrů β0 , β1 je
b = (X T X)−1 X T Y =
b0 b1
Odtud dostaneme vyjádření pro koeficienty přímky ve tvaru: 1 Y = n
n X i=1
Yi ,
n P
n X
1 x= xi , n i=1
b1 =
i=1 n P
Yi xi − nxY
i=1
x2i − n(x)2
,
b0 = Y − b1 x.
pro odhad rozptylu dostaneme hodnotu 1 Se = s2 = n−2 n−2
n X
Yi2 − b0
i=1
n X i=1
Yi − b1
n X
Yi xi .
i=1
Vhodnost lineárního modelu ověříme testem hypotézy o koeficientu β1 . Testujeme nulovou hypotézu H0 : β1 = 0 proti alternativní hypotéze 148
H1 : β1 6= 1. Pokud nulovou hypotézu H0 odmítneme, je lineární model vhodný pro popis závislosti. K tomu použijeme statistiku v
n uX b 1 − β1 b1 u t T2 = √ = x2 − n(x)2 , s v22 s i=1 i
která má rozdělení tn−2 . V případě přijetí alternativní hypotézy H1 můžeme určit intervaly spolehlivosti pro hodnoty β0 + β1 xk . Ty mají tvar b0 + b1 xk ±
v u u1 tn−2 (α) s u u tn
+
(x − x)2 n P i=1
x2i
−
n(x)2
.
Pokud chceme určit interval spolehlivosti pro celou přímku Y q= β0 + β1 x, pak musíme nahradit kritickou hodnotu tn−1 (α) hodnotou 2F2,n−2 (α). Dostaneme pás spolehlivosti pro regresní přímku ve tvaru b0 + b1 xk ±
q
v u u1 2F2,n−2 (α) s u u tn
(x − x)2
+
n P i=1
x2i − n(x)2
.
Pás je ohraničen dvoljicí hyperbol, který překrývá přímku y = β0 + β1 x se spolehlivostí (1 − α). C. Kvadratická regrese Situaci odpovídá model, kdy Yi = β0 + β1 xi + β2 x2i + ei , 1 ≤ i ≤ n, kde náhodné veličiny e1 , e2 , . . . , en jsou nezávislé náhodné veličiny z rozdělením N (0; σ 2 ), tedy
Y1 .. Yn
=
1, x1 , x21 .. .. .. 1, xn , x2n
β0 β1 β2
+
e1 .. en
Matice X je typu (n, 3) a matice X T X je typu (3, 3) a X T X =
=
1, 1, . . . , 1 x1 , x2 , . . . , xn x21 , x22 , . . . , x2n
1, x1 , x21 .. .. .. 1, xn , x2n
=
n,
P n i=1 n P i=1
149
xi , x2i ,
n P i=1 n P i=1 n P i=1
xi , x2i , x3i ,
n P
x2i
x3i i=1 n P x4i i=1
i=1 n P
Matice
XT Y =
1, 1, . . . , 1 x1 , x2 , . . . , xn x21 , x22 , . . . , x2n
Y1 , .. Yn
=
n P
Yi
i=1 P n Yx i=1 i i n P Yi x2i i=1
je typu 3 × 1 a β je matice typu 3 × 1. Z věty 1 a příkladu 2 dostaneme, že odhadem parametrů β0 , β1 , β2 je vektor −1
T
T
b = (X X) X Y =
b0 b1 b2
,
který dostaneme jeko řešení soustavy lineárních rovnic X T X = X T b. Odhad rozptylu σ 2 je 1 1 s2 = Se = n−3 n−3
n X
Yi2 − b0
i=1
n X
Yi − b1
i=1
n X i=1
Yi x2i − b2
n X
Yi x2i
i=1
Pro ověření vhodnosti kvadratické závislosti testujeme hypotézu H0 : β2 = 0 proti alternativě H1 : β2 6= 0. V případě přijetí nulové hypotézy stačí uvažovat, že závislost Yi na xi je pouze lineární. K tomu použijeme skutečnosti, že náhodná veličina b2 − β2 ∼ tn−3 , T3 = √ s v33 kde (X T X)−1 = (vij ). Hypotézu H0 zámítáme, tedy uvažujeme kvadratickou závislost v případě, že |T3 | ≥ tn−3 (α). Někdy je třeba testovat složenou hypotézu H0 : β1 = β2 = 0. Alternativní hypotézou je, že závislost Yi na xi je lineární nebo kvadratická. Za pltnosti hypotézy H0 dostáváme podmodel Yi = β0 + ei . Pro reziduální součet je R = (n − 3)s2 a reziduální roztyl je R1 =
n X
Yi2 − n(Y )2 .
i=1
Testovací statistika je F =
(R1 − R)(n − 3) ∼ F2,n−3 2R 150
Hypotézu H0 zamítáme, jestliže je F ≥ F2,n−3 (α). D. Lineární regrese z dvěma nezávislými proměnnými Situaci odpovídá model, kdy Yi = β0 + β1 xi + β2 zi + ei , 1 ≤ i ≤ n, kde náhodné veličiny e1 , e2 , . . . , en jsou nezávislé náhodné veličiny z rozdělením N (0; σ 2 ), tedy
Y1 .. Yn
=
1, x1 , z1 .. .. .. 1, xn , zn
β0 β1 β2
+
e1 .. en
Matice X je typu (n, 3) a matice X T X je typu (3, 3) a X T X = n P
=
1, x1 , z1 .. .. .. 1, xn , zn
1, 1, . . . , 1 x1 , x2 , . . . , xn z1 , z2 , . . . , zn
1, 1, . . . , 1 x1 , x2 , . . . , xn z1 , z2 , . . . , zn
n, xi , i=1 P n P n x , x2i , i i=1 i=1 n n P P zi , xi zi , i=1 i=1
=
n P
zi
xi zi i=1 n P 2 zi i=1 i=1 n P
Matice
XT Y =
Y1 Y2 .. Yn
n P
i=1 P n Yx i=1 i i n P Yi zi i=1
=
Yi
je typu 3 × 1 a β je matice typu 3 × 1. Z věty 1 a příkladu 2 dostaneme, že odhadem parametrů β0 , β1 , β2 je vektor b = (X T X)−1 X T Y =
b0 b1 b2
,
který dostaneme jeko řešení soustavy lineárních rovnic X T X = X T b. Odhad rozptylu σ 2 je 1 1 s2 = Se = n−3 n−3
n X
Yi2 − b0
i=1
n X i=1
151
Y i − b1
n X i=1
Yi x2i − b2
n X i=1
Yi zi
Pro ověření vhodnosti závislosti na dvou proměnných testujeme hypotézu H0 : β2 = 0 proti alternativě H1 : β2 6= 0. V případě přijetí nulové hypotézy stačí uvažovat závislost Yi pouze na xi . K tomu použijeme skutečnosti, že náhodná veličina b2 − β2 T3 = √ ∼ tn−3 , s v33 kde (X T X)−1 = (vij ). Hypotézu H0 zámítáme, tedy uvažujeme závislost na proměnné zi v případě, že |T3 | ≥ tn−3 (α). Obdobně můžeme testovat závislost na proměnné zi . Testujeme hypotézu H0 : β1 = 0 proti alternativě H1 : β1 6= 0. Testovací statistikou je b1 − β1 T = √ ∼ tn−3 . s v22 Závislost Yi na xi je prokázána, jestliže je |T2 | ≥ tn−3 (α). Někdy je třeba testovat složenou hypotézu H0 : β1 = β2 = 0. Alternativní hypotézou je, že závislost Yi je na xi a zi . Za platnosti hypotézy H0 dostáváme podmodel Yi = β0 + ei . Pro reziduální součet je R = (n − 3)s2 a reziduální roztyl je R1 =
n X
Yi2 − n(Y )2 .
i=1
Testovací statistika je (R1 − R)(n − 3) ∼ F2,n−3 2R Hypotézu H0 zamítáme, jestliže je F ≥ F2,n−3 (α). F =
E. Obecná polynomiální regrese Situaci odpovídá model, kdy + ei , 1 ≤ i ≤ n, tedy Yi = β0 + β1 xi + β2 x2i + . . . + βk−1 xk−1 i
Y1 .. Yn
=
1, x1 , . . . , .. .. .. 1, xn , . . . ,
k−1 x1 .. xnk−1
β0 .. βk−1
+
e1 .. en
Matice X je typu (n, k) a matice X T X je čtvercová řádu k a
XT X =
1, 1, . . . , 1 x1 , x2 , . . . , xn .. .. .. .. k−1 k−1 k−1 x1 , x2 , . . . , xn 152
1, x1 , . . . , xk−1 1 1, x2 , . . . , xk−1 2 .. .. .. .. k−1 1, xn , . . . , xn
=
n P
n, xi , i=1 n n P P x , x2i , i i=1 i=1 .. .. n n P P xk−1 , xki , i i=1 i=1
n P
k−1 xi i=1 n P k xi i=1 .. n P x2k−2 i i=1
..., ..., .. ...,
Matice
XT Y =
1, 1, . . . , 1 x1 , x2 , . . . , xn .. .. .. .. k−1 k−1 k−1 x1 , x2 , . . . , xn
T
Y1 Y2 .. Yn
=
n P
Yi i=1 n P Yx i=1 i i n P Yi xk−1 i i=1
je typu k × 1 a β je matice typu k × 1). Z věty 1 a příkladu 2 dostaneme, že odhadem parametrů β0 , . . . , βk−1 je vektor T
−1
T
b = (X X) X Y =
b0 .. bk−1
,
který dostaneme jeko řešení soustavy lineárních rovnic X T X = X T b. Závislost Yi na některé z mocnin xi ověříme testem hypotézy H0 : βj−1 = 0 proti alternativě H1 : βj−1 6= 0. Použijeme testovací statistiku Tj =
bj−1 − βj−1 ∼ tn−k , √ s vjj
kde (X T X)−1 = (vij ). Závislost považujeme za prokázanou, pokud je bj−1 Tj √ ≥ tn−k (α). s vjj
153