Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Zpracov´an´ı dat v edukaˇcn´ıch vˇed´ach Testov´an´ı hypot´ez Kamila Faˇcevicov´a Katedra matematick´ e anal´ yzy a aplikac´ı matematiky, Pˇr´ırodovˇ edeck´ a fakulta, UP v Olomouci
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Obsah semin´aˇr˚ u
´ 5.11. Uvod do matematick´e statistiky: • definice n´ ahodn´e veliˇciny a jejich ˇc´ıseln´ych charakteristik,
z´akladn´ı rozdˇelen´ı pravdˇepodobnosti, pr´ace v R. 19.11. Parametrick´e testy hypot´ez: • odhady parametr˚ u, princip testov´an´ı hypot´ez, testy stˇredn´ı
hodnoty a rozptylu, ANOVA, kontingenˇcn´ı tabulky, pr´ace v R. 3.12. Neparametrick´e testy: • neparametrick´ e alternativy test˚ u polohy, Kruskal-Wallis˚ uv test,
pr´ace v R.
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
N´ahodn´y v´ybˇer
• Experiment´ aln´ı data pˇredstavuj´ı realizace n´ahodn´ych veliˇcin. • V´ ysledky experimentu chceme zobecnit na celou populaci. • Na z´ akladˇe realizac´ı x1 , . . . , xn NV X chceme stanovit
hodnotu parametru θ. • Jsou-li pozorov´ an´ı realizacemi nez´avisl´ych, stejnˇe rozdˇelen´ych
NV, mluv´ıme o tzv. n´ahodn´em v´ybˇeru.
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Bodov´y odhad = n´ahodn´a veliˇcina T (X), od kter´e oˇcek´av´ame, ˇze • bude v pr˚ umˇeru (ve smyslu opakov´an´ı pokusu) odhadovat
skuteˇsnou hodnotu θ - nestrann´y, • bude nejm´ enˇe kol´ısat kolem skuteˇcn´e hodnoty - stejnomˇejnˇe
nejlepˇs´ı, • s rostouc´ım poˇ ctem pozorov´an´ı se bl´ıˇz´ı skuteˇcn´e hodnotˇe -
konzistentn´ı odhad. Napˇr. 1X X¯ = Xi n a S2 =
1 X (Xi − X¯ )2 n−1
jsou nejlepˇs´ı nestrann´e odhady stˇredn´ı hodnoty µ a rozptylu σ 2 .
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Intervalov´y odhad (T1 (X), T2 (X)) Upˇresˇ nuj´ı informaci o skuteˇcn´e hodnotˇe parametru. Plat´ı P [θ ∈ (T1 (X), T2 (X))] ≥ 1 − α,
α ∈ (0, 1) .
Pro X N(µ, σ 2 ) maj´ı intervalov´e odhady tvar σ ¯ σ ¯ P µ ∈ X − u1−α/2 √ , X + u1−α/2 √ ≥1−α n n pˇri zn´am´em rozptylu σ 2 , S S ¯ ¯ ≥ 1−α P µ ∈ X − tn−1 (1 − α/2) √ , X + tn−1 (1 − α/2) √ n n pˇri nezn´am´em rozptylu a " !# 2 (n − 1) 2 (n − 1) S S P σ2 ∈ , ≥ 1 − α) χ2n−1 (1 − α/2) χ2n−1 (α/2)
.
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Z´akladn´ı principy
Pˇredpokl´adejme, ˇze parametr θ m˚ uˇze nab´yvat hodnot z mnoˇziny Θ, a) tvrzen´ı H0 : θ ∈ Θ0 ⊂ Θ nazveme nulovou hypot´ezou a b) tvrzen´ı H1 : θ ∈ Θ1 , Θ0 ∩ Θ1 = 0, Θ0 ∪ Θ1 = Θ nazveme alternativn´ı hypot´ezou. Na z´akladˇe testu m˚ uˇzeme dospˇet ke dvˇema z´avˇer˚ um: 1. Zam´ıt´ame H0 ve prospˇech alternativy. 2. Hypot´ezu H0 nelze zam´ıtnout. Hypot´ezy NIKDY nepˇrij´ım´ame!
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Z´akladn´ı principy Pˇri rozhodov´an´ı o hypot´eze H0 se m˚ uˇzeme dopustit dvou chyb:
H0 zam´ıtneme H0 nezam´ıtneme
H0 je spr´avn´a chyba 1. druhu
H0 nen´ı spr´avn´a chyba 2. druhu
• Minimalizace pravdˇ epodobnosti obou chyb nar´az nen´ı moˇzn´a. • Poˇ zadujeme aby pr. chyby 1. druhu byla nejv´yˇse α - hladina
testu. • Hladinu testu vol´ıme vˇ etˇsinou 0.05 nebo 0.01. • Pˇr´ıliˇsn´ a pˇr´ısnost na chybu 1. druhu vede n´ar˚ ustu pr. chyby 2.
druhu.
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Postup
1. Stanoven´ı nulov´e a alternativn´ı hypot´ezy. 2. Stanoven´ı hladiny testu α. 3. Volba testov´e statistiky T a v´ypoˇcet jej´ı realizace. 4. Stanoven´ı kritick´eho oboru. 5. Rozhodnut´ı. Pokud T (x) leˇz´ı v kritick´em oboru, pak H0 zam´ıt´ame, v opaˇcn´em pˇr´ıpadˇe ji zam´ıtnout nelze.
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
P-value
= nejmenˇs´ı hladina, pˇri kter´e bychom hypot´ezu jeˇstˇe zam´ıtli. • Ud´ av´a m´ıru naˇs´ı jistoty pˇri rozhodov´an´ı o nulov´e hypot´eze.
ˇ ım bl´ıˇze je p-value 0 nebo 1, t´ım jsme si jistˇejˇs´ı. • C´ • Je-li p-value ≤ α, hypot´ ezu zam´ıt´ame. • Je-li p-value > α, hypot´ ezu zam´ıtnout nelze.
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Jednov´ybˇerov´y t-test
H0 : µ = µ 0 . H1 : µ 6= µ0 . Pˇredpoklady: X ∼ N(µ, σ 2 ), kdy µ ani σ 2 nezn´ame. Testov´a statistika: T (X) =
X¯ − µ √ n ∼ tn−1 . S
Kritick´y obor: (−∞, −tn−1 (1 − α/2)i ∪ htn−1 (1 − α/2), ∞) Funkce v R: t.test()
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Test rozptylu
H0 : σ 2 = σ02 . H1 : σ 2 6= σ02 . Pˇredpoklady: X ∼ N(µ, σ 2 ), kdy µ ani σ 2 nezn´ame. Testov´a statistika: T (X) =
(n − 1)S 2 ∼ χ2n−1 . σ2
Kritick´y obor: 0, χ2n−1 (α/2)i ∪ hχ2n−1 (1 − α/2), ∞ Funkce v R: onesample.var.test()
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
F-test shody rozptylu H0 : σ12 = σ22 . H1 : σ12 6= σ22 . Pˇredpoklady: X ∼ N(µ1 , σ12 ), Y ∼ N(µ2 , σ22 ) a X a Y jsou nez´avisl´e. Testov´a statistika: T =
Sn2 σ22 ∼ Fn−1,m−1 . 2 σ2 Sm 1
Kritick´y obor: (0, Fn−1,m−1 (α/2)i ∪ hFn−1,m−1 (1 − α/2), ∞) Funkce v R: var.test()
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Dvouv´ybˇerov´y t-test H0 : µ 1 = µ 2 . H1 : µ1 6= µ2 . Pˇredpoklady: X ∼ N(µ1 , σ 2 ), Y ∼ N(µ2 , σ 2 ), rozptyly σ 2 nezn´ame, ale jsou shodn´e a X a Y jsou nez´avisl´e. Testov´a statistika: X¯ − Y¯ − (µ1 − µ2 )
T =p 2 (n − 1)Sn2 + (m − 1)Sm
r
nm(n + m − 2) ∼ tn+m−2 n+m
Kritick´y obor: (−∞, −tn+m−2 (1 − α/2)i ∪ htn+m−2 (1 − α/2), ∞) Funkce v R: t.test()
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Kontingenˇcn´ı tabulky
P
X \Y 1 2 .. .
1 n11 n21 .. .
2 n12 n22 .. .
... ... ...
J n1J n2J .. .
n1. n2. .. .
I P
nI 1 n.1
nI 2 n.2
... ...
nIJ n.J
nI . n
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Kontingenˇcn´ı tabulky H0 : NV X a Y jsou nez´avisl´e. H1 : X a Y nejsou nez´avisl´e. Pˇredpoklady: nij jsou realizace multinomick´eho rozdˇelen´ı s n n parametry n a pij a i.n .j ≥ 5. Testov´a statistika: T =
ni. n.j 2 n ni. n.j n
I X J X nij − i=1 j=1
∼ χ2(I −1)(J−1) .
Kritick´y obor: hχ2(I −1)(J−1) (1 − α), ∞) Funkce v R: chisq.test()
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
ANOVA H0 : Sledovan´y faktor nem´a vliv (µ1 = · · · = µk ). H1 : Sledovan´y faktor m´a vliv. Pˇredpoklady: X1 ∼ N(µ1 , σ 2 ),. . . , Xk ∼ N(µk , σ 2 ) → vyˇzadujeme norm´aln´ı rozdˇelen´ı (shapiro.test()) a shodu rozptyl˚ u (bartlett.test()). Testov´a statistika: Se =
ni k X X
2 Yij − Y¯i. ,
i=1 j=1
SA =
k X
2 ni Y¯i. − Y¯.. ,
i=1
FA =
SA n − k ∼ Fk−1,n−k . Se k − 1
Kritick´y obor: hFk−1,n−k (1 − α), ∞) Funkce v R: aov(), anova()
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
ANOVA
V pˇr´ıpadˇe zam´ıtnut´ı nulov´e hypot´ezy chceme zjistit, mezi kter´ymi u ´rovnˇemi faktoru je v´yznamn´y rozd´ıl. K tomuto u ´ˇcelu vyuˇzijeme mnohon´asobn´e porovn´av´an´ı. • Scheffeho metoda - nevyv´ aˇzen´e tˇr´ıdˇen´ı, • Tukeyho metoda - vyv´ aˇzen´e tˇr´ıdˇen´ı. • V R pouˇ zijeme funkci TukeyHSV() - ´ uprava Tukeyho
metody na nevyv´ aˇ zen´ e tˇ r´ ıdˇ en´ ı.
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
´ PRACE VR
Vybran´ e parametrick´ e testy
Odhady parametr˚ u
Testov´ an´ı hypot´ ez
Vybran´ e parametrick´ e testy
Literatura
Andˇel J (2011) Z´aklady matematick´e statistiky. MatFyz Press, Praha. Hron K, Kunderov´a P (2015) Z´aklady poˇctu pravdˇepodobnosti a metod matematick´e statistiky. VUP, Olomouc.