7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y1 , Y2 , . . . , Yn ) a číselnou matici X typu (n, k). Předpokládáme, že se Y řídí lineárním modelem, tedy Y = Xβ + e, kde β = (β1 , β2 , . . . , βk ) je vektor neznámých parametrů a e je vektor náhodných veličin, pro který platí E(e) = 0, D(e) = σ 2 E. Hledáme odchylku od lineární závislosti, která v sobě zahrnuje vlastní odchylku od lineární závislost a chyby při stanovování vektoru Y. Předpoklad E(e) = 0 znamená, že pozorování vektoru Y není zatíženo systematickou chybou. Vztah D(e) = σ 2 E zase znamená, že jsou měření souřadnic vektoru Y prováděna se stejnou přesností a že chyby měření nejsou korelované. Dále budeme předpokládat, že je n > k a že hodnost matice X je rovna k. Z uvedených předpokladů vyplývá, že je E(Y) = Xβ a D(Y = σ 2 E. Hodnotu vektoru β odhadujeme metodou nejmenších čtverců, tedy z podmínky, že výraz S(β) = (Y − Xβ)T (Y − Xβ) je minimální. Hodnotu, pro kterou má funkce S minimum označíme b. Věta 1. Funkce S(β) nabývá svého minima pro b = (XT X)−1 XT Y. Důkaz: Nejprve ověříme, že vektor b splňuje podmínku XT (Y − Xβ) = 0. Je totiž Y − Xb = Y − X(XT X)−1 XT Y ⇒ XT Y = XT Y − XT X(XT X)−1 XT Y = = XT Y − XT Y = 0. Potom je S(β) = (Y − Xβ)T (Y − Xβ) = (Y − Xβ)T (Y − Xβ) = = [(Y − Xb) + (Xb − Xβ)]T [(Y − Xb) + (Xb − Xβ)] = = (Y − Xb)T (Y − Xb) + (b − β)T XT X(b − β) + (Y − Xb)T X(b − β)+ +(b − β)T XT (Y − Xb) = S(b) + (b − β)T XT X(b − β). Matice XT X je pozitivně definitní a je tudíž (b − β)T XT X(b − β) ≥ 0 pro každý vektor (b − β). Funkce S(β) má tudíž minimum pro β = b.
76
ˆ = Xb je nejlepší lineární aproximací vektoru Y a chyba této Poznámka: Hodnota Y aproximace je rovna R = Se = (Y − Xb)T (Y − Xb) = YT Y − YT Xb − (Xb)T Y + (Xb)T Xb = = YT Y − bT XT Y − (Y − Xb)T Xb = YT Y − bT XT Y. Je to hodnota rovna ˆ T Y = (Y − Y) ˆ TY = Se = Y Y − Y T
n X
(Yi − Yˆi )Yi .
i=1 R Hodnota Se = R se nazývá reziduální součet čtverců a hodnota s2 = n−k se nazývá rezi2 2 duální rozptyl. Pro něj je E(s ) = σ a je nestranným odhadem parametru σ 2 . Náhodné veličiny R a b jsou nezávislé. Věta 2. Pro odhad b platí: E(b) = β, D(b) = σ 2 (XT X)−1 . Důkaz. Protže je b = (XT X)−1 XT Y, je
E(b) = (XT X)−1 XT E(Y) = (XT X)−1 XT Xβ = β. Dále je D(b) = (XT X)−1 XT D(Y)X(XT X)−1 = (XT X)−1 XT σ 2 EX(XT X)−1 = σ 2 (XT X)−1 . Věta 3. Náhodná veličina b má normální rozdělení N (β; σ 2 (XT X)−1 . Náhodná veličina σS2e má rozdělení χ2n−k . Náhodné veličiny b a Se jsou nezávislé. Věta 4. Jestliže je vij prvek matice (XT X)−1 , pak pro každé i, 1 ≤ i ≤ k, má náhodná veličina bi − βi Ti = √ s vii rozdělení t(n − k). 1. Jednoduché třídění. Předpokládáme, že máme náhodné výběry Yi1 , Yi2 , . . . , yini , 1 ≤ i ≤ m, které jsou nezávislé a mají rozdělení N (µi ; σi2 ), 1 ≤ i ≤ m. Testujeme hypotézu: H 0 : µ1 = µ2 = . . . = µm proti alternativě H1 : hypotéza H0 neplatí. Použijeme lineárního modelu, kde minimalizujeme výraz S=
m X
ni X
i=1
(Yij − µi − eij )2 .
j=1
Předpokládáme, že = mui = µ + αi , 1 ≤ i ≤ m a náhodné veličiny (eij ) jsou nezávislé a mají normální rozdělení N (0; σ 2 ). Testovaná hypotéza má tvar H0 : α1 = α2 = . . . = αm = 0. Popis algoritmu: 77
1. n = n1 + n2 + . . . + nm , m je počet výběrů. 2. Utvoříme tabulku dat a pomocných výsledků data
četnost součet
Y11 , . . . , Y1n1
n1
...
...
průměr součet čtverců
Y1.
n1 P
y1.
Y1j2
j=1
Yi1 , . . . , Yini
ni
...
...
... Yi.
...
... ni P
yi.
j=1
Ym1 , . . . , Ymnm
nm
celkem
n
... Ym. Y..
...
Yij2
... n m P
ym.
2 Ymj
j=1 ni m P P
y..
i=1 j=1
Yij2
Je tedy: n = n1 + n2 + . . . + nm počet dat. Yi. = Y.. =
ni P
Yij řádkový součet;
j=1 m P
Yi. celkový součet; i=1 1 Y odhad střední hodnoty µi ; ni i. 1 Y odhad střední hodnoty µ. n ..
yi. = y.. = Potom pro minimum kvadratické odchylky, reziduální součet čtverců, dostaneme: S e = ST − S A , kde ST =
ni m X X i=1 j=1
Yij2 −
Y..2 , n
a SA =
m X Yi.2 i=1
ni
−
Y..2 . n
Hodnota SA se nazývá řádkový součet čtverců a hodnota ST celkový součet čtverců. 3. Vypočteme hodnotu testovací statistiky F =
n − m SA n−m SA = , m − 1 Se m − 1 ST − S A
která má rozdělení Fm−1,n−m . 4. Kritický obor testu je Wα = {F ; F ≥ Fm−1,n−m (α)}, kde kritickou hodnotu najdeme v tabulkách. Je obvykle α = 0, 05. Chyba 2. druhu v případě přijetí hypotézy je menší než α. Zamítnutí. V případě odmítnutí nás zajímá, pro které dvojice je µi 6= µj . To lze určit dvěma způsoby: Se A. Scheffé Použijeme odhadu rozptylu σ 2 ≈ s2 = n−m a hledáme dvojice, pro které je s 1 1 |yi. − yk. | > + (m − 1)s2 Fm−1,n−m (α). ni nk 78
Připomeneme, že yi. ≈ µi . B. Tukey Používáme v případě vyváženého třídění, kdy n1 = n2 = . . . = nm = r. Hledáme dvojice, kde 1 |yi. − yk. | > sqm,n−m (α) √ , r kde q(α) je kritická hodnota tzv. studentizovaného rozpětí. Studentizované rozpětí je náhodná veličina Q = Rs , kde R = maxXi − minXi je rozpětí náhodného výběru z rozdělení N (µ; σ 2 ) a s2 je odhad rozptylu σ 2 . Je pak P (Q ≥ qm,n−m ) = α. 2 Při provádění testu předpokládáme, že je σ12 = σ22 = . . . = σm . Pokud nemáme tuto skutečnost zaručenu, musíme nejdříve otestovat hypotézu o rovnosti rozptylů: 2 H0 = σ12 = σ22 = . . . = σm . 1. Barlettův test. Vypočteme:
s2i =
s2 −
ni X
1 Yij2 − ni yi.2 , ni − 1 j=1 m 1 X (ni − 1)s2i , n − m i=1
odhad rozptylu σi2 ;
celkový odhad rozptylu;
m X 1 1 1 C =1+ − ; 3(m − 1) i=1 ni − 1 n − m
!
m X 1 B= (n − m) ln s2 − (ni − 1) ln s2i . C i=1
!
Náhodná veličina B má přibližně pro ni > 6 rozdělení χ2 (m − 1). Kritický obor testu je Wα = {B; B ≥ χ2m−1 (α)}. Pro vyvážené třídění, kde n1 = n2 = . . . = nm = r můžeme použít i tyto testy. 2. Hartleyův test. Testovací statistika Fmax =
maxs2i . mins2i
Kritický obor testu je Wα = {Fmax ; Fmax ≥ hm,ν (α)}, kde ν = r − 1 a kritické hodnoty jsou uvedeny v tabulkách. 3. Cochranův test Testovací statistika Gmax =
maxs2i . s21 + . . . + s2m
79
Kritický obor testu je Wα = {Gmax ; Gmax ≥ Cm,ν }, ν = ni − 1 = r − 1 a kritické hodnoty nalezneme v tabulkách. Neparametrické testy používáme v případech, že jsou výběry z rozdělení, které není normalní. Uvedeme zde Kruskalův-Wallisův test. Předpokládáme, že máme náhodné výběry Yi1 , Yi2 , . . . , Yini , 1 ≤ i ≤ m z rozdělení s distribuční funkcí Fi , 1 ≤ i ≤ m. Testujeme hypotézu H0 : F1 (x) = F2 (x) = . . . = Fm (x), x ∈ R proti alternativě H1 : hypotéza H0 neplatí. Popis algoritmu: 1. Uspořádáme hodnoty Yij , 1 ≤ j ≤ ni , 1 ≤ i ≤ m podle velikosti a každé hodnotě přiřadíme pořadí Rij . pokud soubor obsahuje několik shodných dat, přiřazujeme všem průměr s odpovídajících pořadí. 2. Vypočteme součty Ti pořadí pro jednotlivé soubory, tedy Ti =
ni X
Rij ,
(T1 + T2 + . . . + Tm =
j=1
n(n + 1) , n = n1 + n2 + . . . + nm ). 2
3. Vypočteme hodnotu testovací statistiky Q=
m X 12 Ti2 − 3(n + 1), n(n + 1) i=1 ni
která má v limitě rozdělení χ2 (m − 1). 4. Kritický obor testu je Wα = {Q; Q ≥ χ2m−1 (α)}. V případě zamítnutí hledáme dvojice, pro které je Fi 6= Fk . Označme ti = nTii , 1 ≤ i ≤ m průměrné pořadí v i−tém souboru. Potom je rozdíl mezi Fi a Fk signifikantní, pokud je s
|ti − tk | >
1 1 1 + n(n + 1)hm−1 (α), 12 ni nk
kde kritické hodnoty hm−1 (α) najdeme v tabulkách. Nemey-Miller(1966). Je-li n1 = n2 = . . . = nm = ν, pak jsou pro menší hodnoty rozsahů m a ν kritické hodnoty pro rozdíl ti −tk v tabulkách. Pro větší hodnoty použijeme kritéria s 1 |ti − tk | > m(mν + 1)qm,∞ (α), 12 kde qm,∞ (α) je kritická hodnota studentizovaného rozdělení.
80