Problematika anal´ yzy rozptylu Ing. Michael Rost, Ph.D.
´ Uvod do probl´ emu Jiˇ z um´ıte testovat shodu dvou stˇ redn´ıch hodnot prostˇ rednictv´ım t-test˚ u. Ot´ azka: Jak´ e pˇ redpoklady mus´ı b´ yt splnˇ eny, abyste mohli pouˇ z´ıt tyto parametrick´ e testy? V praxi se m˚ uˇ zeme setkat se situac´ı, ve kter´ e potˇ rebujeme simult´ annˇ e otestovat shodu k stˇ redn´ıch hodnot, kde k je vˇ etˇ s´ı neˇ z 2. Jak to prov´ est, to bude n´ apln´ı t´ eto pˇ redn´ aˇ sky ; −) Uvaˇ zujme n´ asleduj´ıc´ı pˇ r´ıklad:
c Rost 2006 °
Pˇ r´ıklad Klinickou studi´ı byla sledov´ ana z´ avislost mezi dietou a dobou, za kterou dojde ke koagulaci krve. Byly namˇ eˇ reny tyto hodnoty: Typ diety A
B
C
D
62 60 63 59 64 65 62 62
63 67 71 64 65 66 58 59
68 66 71 67 68 68 63 63
56 62 60 68 63 64 63 59
yij
Maj´ı r˚ uzn´ e diety vliv na dobu, za kterou dojde ke koagulaci krve? c Rost 2006 °
Pˇ r´ıklad
c Rost 2006 °
V´ ychoz´ı situace Situaci kter´ eˇ cel´ıme, lze obecnˇ e popsat n´ asleduj´ıc´ım zp˚ usobem (pˇ redpokl´ ad´ ame, ˇ ze m´ ame k soubor˚ u): ˇ c´ıslo v´ ybˇ eru
poˇ cet prvk˚ u
zjiˇ stˇ en´ e hodnoty sledovan´ eho znaku
pr˚ umˇ er
rozptyl
1 2 ... i ... k
n1 n2 ... ni ... nk
y11, y12, · · · , y1j , · · · , y1n1 y21, y22, · · · , y2j , · · · , y2n2 ... yi1, yi2, · · · , yij , · · · , yini ... yk1, yk2, · · · , ykj , · · · , yknk
y¯1 y¯2 ... y¯i ... y¯k
s2 1 s2 ...2 s2 ...i s2 k
c Rost 2006 °
Obecn´ y postup
1. Zformulovat hypot´ ezy: H0 vs. HA. 2. Ovˇ eˇ ren´ı pˇ redpoklad˚ u
Pozn´ amka : Uvˇ edomte si, ˇ ze pokud prov´ ad´ıte form´ aln´ı anal´ yzu ˇ ci statistick´ e testov´ an´ı, pˇ ri kter´ em vyuˇ z´ıv´ ate p-value, vych´ az´ıte z´ aroveˇ n z jist´ ych pˇ redpoklad˚ u. Ty vˇ sak nemus´ı b´ yt splnˇ eny. Stupeˇ n validity z´ıskan´ eho p-value z´ aleˇ z´ı na tom jakou shodu vykazuj´ı naˇ se data s teoretick´ ymi rozdˇ elen´ımi. Proto kaˇ zdop´ adnˇ e ovˇ eˇ rujte pˇ redpoklady vaˇ sich model˚ u! c Rost 2006 °
Ovˇ eˇ ren´ı pˇ redpoklad˚ u Pˇ red vlastn´ı anal´ yzou rozptylu je nutno odpovˇ edˇ et na nˇ ekolik ot´ azek:
• Poch´ az´ı jednotliv´ e v´ ybˇ ery z norm´ aln´ıho rozdˇ elen´ı?
• Jsou jednotliv´ e v´ ybˇ ery nez´ avisl´ e?
• Lze se domn´ıvat, ˇ ze v´ ybˇ ery maj´ı shodn´ e rozptyly?
Prvn´ı a tˇ ret´ı poˇ zadavek lze ovˇ eˇ rit prostˇ rednictv´ım r˚ uzn´ ych test˚ u.
c Rost 2006 °
Obecn´ y postup pokraˇ cov´ an´ı
2. Stanovit hodnotu α, nejˇ castˇ eji vol´ıme α = 0, 05 nebo α = 0, 01.
3. Zvolit adekv´ atn´ı testov´ e krit´ erium a stanovit hodnotu testov´ eho krit´ eria
4. Zjistit zda F ∈ K nebo zda p-value ≤ α
5. Z´ avˇ er
c Rost 2006 °
Specifikace nulov´ e a alternativn´ı hypot´ ezy V pˇ r´ıpadˇ eˇ ze potˇ rebujeme simult´ annˇ e otestovat shodu k stˇ redn´ıch hodnot, je nulov´ a a alternativn´ı hypot´ eza specifikov´ ana jako: H0 : µ1 = µ2 = . . . = µk−1 = µk HA : non H0 . Z´ aroveˇ n vˇ sak testujeme jeˇ stˇ e homoskedasiticitu: 2 = σk2 H0 : σ12 = σ22 = . . . = σk−1
HA : non H0 , a tu testujeme zpravidla jako prvn´ı!!!
c Rost 2006 °
Testov´ an´ı homoskedasticity
c Rost 2006 °
Testy homoskedasticity Pˇ redpoklad homoskedasticity (shody rozptyl˚ u) je moˇ zno otestovat napˇ r´ıklad prostˇ rednictv´ım tzv. Bartlettova testu. Bartlett˚ uv test je univerz´ aln´ım testem v tom smyslu, ˇ ze jej lze vyuˇ z´ıt k hodnocen´ı homoskedasticity u vyv´ aˇ zen´ ych i nevyv´ aˇ zen´ ych soubor˚ u. Testujeme hypot´ ezu: H0 : σ12 = σ22 = · · · = σk2 , HA : non H0 . Testov´ ym krit´ eriem Bartlettova testu je veliˇ cina B, kter´ a je definov´ ana jako B = [(n − k)ln s2 −
k X i=1
(ni − 1)ln s2 i ]/C . c Rost 2006 °
Testy homoskedasticity ribliˇ znˇ e plat´ı B ∼ χ2(k − 1). Plat´ı-li H0 a je-li ni ≥ 6, pak pˇ Testovanou hypot´ ezu zam´ıt´ ame pokud plat´ı B ≥ χ2 1−α (k − 1) . Jednotliv´ e symboly vyuˇ zit´ e pˇ ri v´ ypoˇ ctu testov´ e statistiky lze definovat takto: n
i X 1 2 si = (yij − y¯i)2 ni − 1 j=1
i = 1, · · · , k ,
celkov´ y rozptyl s jako n
k X i 1 X s= (yij − y¯i)2 , n − 1 i=1 j=1
a konstantu C
C =1+
k X
1 1 − /3(k − 1) . n − 1 n − k i=1 i c Rost 2006 °
Hartley˚ uv test Dalˇ s´ım testem je tzv. Hartley˚ uv test homoskedasticity. Testovac´ı statistika m´ a v pˇ r´ıpadˇ e Hartleyova testu tvar: max s2 i . Fmax = min s2 i Ke stanoven´ı kritick´ eho oboru je nutno vyuˇ z´ıt speci´ alnˇ e sestrojen´ ych tabulek, nebot’ testovan´ a dvojice rozptyl˚ u nen´ı n´ ahodnˇ e zvolena. Nulovou hypot´ ezu o shodˇ e rozptyl˚ u zam´ıt´ ame na hladinˇ e v´ yznamnosti α, pokud testovac´ı statistika Fmax pˇ rekroˇ c´ı jistou kritickou hodnotu.
c Rost 2006 °
Cochran˚ uv test Dalˇ s´ım testem pro ovˇ eˇ ren´ı homoskedasticity je tzv. Cochran˚ uv test. V pˇ r´ıpadˇ e jeho pouˇ zit´ı zam´ıt´ ame H0, hypot´ ezu pokud hodnota testov´ eho krit´ eria s2 max C= 2 2 + . . . + s s1 + s2 2 k pˇ rekroˇ c´ı kritickou hodnotu Cochranovy statistiky. Jin´ ymi slovy, pokud hodnota C bude n´ aleˇ zet do kritick´ eho oboru, kter´ y je definov´ an jako K = {C ≥ C1−α(k, n − 1)} , pak zam´ıt´ ame hypot´ ezu o shodˇ e rozptyl˚ u.
c Rost 2006 °
Leven˚ uv test homogenity rozptyl˚ u Leven˚ uv test v podstatˇ e prov´ ad´ı anal´ yzu rozptylu na rezidu´ıch. Vyuˇ z´ıv´ a pˇ ritom promˇ ennou zij = |yij − y¯i| pro i = 1, 2, · · · , k a j = 1, 2, · · · , ni. V´ ysledn´ a hodnota testov´ e statistiky F je porovn´ av´ ana s kritickou hodnotou F -rozdˇ elen´ı s k − 1 a n − k stupni volnosti. Pro jist´ e pˇ r´ıpady jsou navrˇ zeny i modifikace Levenova testu. V pˇ r´ıpadˇ eˇ sikmosti souboru lze vyuˇ z´ıt m´ısto y¯i. medi´ anu. V pˇ r´ıpadˇ e v´ yrazn´ e ˇ spiˇ catosti souboru je pak m´ısto y¯i. doporuˇ cov´ an 10 % oˇ rezan´ y pr˚ umˇ er.
c Rost 2006 °
Anal´ yza rozptylu - ANOVA
• Necht’ Yij je n´ ahodnou veliˇ cinou oznaˇ cuj´ıc´ı j-t´ e pozorov´ an´ı v r´ amci i-t´ e skupiny. Symbol yij pak bude pˇ redstavovat pozorovanou hodnotu veliˇ ciny Yij z´ıskanou proveden´ım experimentu. • Symbolem ni oznaˇ c´ıme poˇ cet pozorov´ an´ı v i-t´ e skupinˇ e. Pr˚ umˇ ery v jednotliv´ ych skupin´ ach tj. y¯1, y¯2, · · · , y¯k z´ısk´ ame jako n
1 Xi y¯i = yij . ni j=1
c Rost 2006 °
Anal´ yza rozptylu - ANOVA • Rozptyly uvnitˇ r jednotliv´ ych skupin oznaˇ c´ıme jako s2 i , kde i = 1, 2, · · · , k. Je zˇ rejm´ e, ˇ ze: n
i X 1 (yij − y¯i)2 s2 i = ni − 1 j=1
• Vnitroskupinov´ a tzv. pr˚ umˇ ern´ a rezidu´ aln´ı suma ˇ ctverc˚ u: n
k X i 1 X M SSr = (yij − y¯i)2 n − k i=1 j=1
c Rost 2006 °
Anal´ yza rozptylu - ANOVA • Celkov´ y pr˚ umˇ er oznaˇ c´ıme jako y¯ kde n
k X i 1 X y¯ = yij n i=1 j=1
n=
k X
ni .
i=1
• Pr˚ umˇ ern´ a suma ˇ ctverc˚ u vlivem r˚ uzn´ ych ´ urovn´ı faktor˚ u (skripta: Rozptyl mezi tˇ r´ıdami): k 1 X M SSA = ni(¯ yi − y¯)2 k − 1 i=1
c Rost 2006 °
Testov´ e krit´ erium
• Testov´ e krit´ erium M SSA F = . M SSr Kde pro testov´ e krit´ erium F za platnosti nulov´ e hypot´ ezy plat´ı: F ∼ F (v1 = k − 1; v2 = n − k) • Pokud symbolem F oznaˇ c´ıme hodnotu testov´ eho krit´ eria F urˇ cenou na z´ akladˇ e proveden´ eho experimentu, pak lze p-value definovat takto: P (F(k − 1; n − k) > F )
c Rost 2006 °
Tabulka anal´ yzy rozptylu V podstatˇ e je tato testovac´ı statistika zaloˇ zena na pomˇ eru pr˚ umˇ ern´ ych meziskupinov´ ych a vnitroskupinov´ ych souˇ ct˚ uˇ ctverc˚ u. V´ ysledky anal´ yzy rozptylu se zapisuj´ı do tzv. tabulky anal´ yzy rozptylu. Ta mˇ ela v minulosti sv˚ uj v´ yznam z hlediska v´ ypoˇ ct˚ u. V nejjednoduˇ sˇ s´ım pˇ r´ıpadˇ e m´ a n´ asleduj´ıc´ı podobu: Zdroj variability
Souˇ cet ˇ ctverc˚ u
Poˇ cet stupˇ n˚ u volnosti
Pr˚ umˇ ern´ y ˇ ctverec
Faktor
SSA
k−1
M SSA =
SSA k−1
Rezidu´ aln´ı
SSr
n−k
M SSr =
SSr n−k
Celkov´ y
SST
n−1
F
F =
Dosaˇ zen´ a hladina p
M SSA M SSr
p
c Rost 2006 °
Pˇ r´ıklad - pokraˇ cov´ an´ı
c Rost 2006 °