Testování statistických hypotéz Při statistických šetřeních se často setkáváme s problémy tohoto druhu: (i) Máme zjistit, zda dva dané vzorky pocházejí z téhož ZS. (ii) Máme rozhodnout, zda rozdíly hodnot průměrů (resp. rozptylů) dvou vzorků náhodně vybraných z téhož ZS jsou náhodně vysvětlitelné nebo je příčina systematického charakteru. (iii) Máme rozhodnout, zda tvar empirického rozdělení četností získaného na základě vzorku s velkým rozsahem a připomínajícího jisté rozdělení je možno považovat za přibližně rovný teoretickému rozdělení a s jakou spolehlivostí. Tyto problémy se řeší metodou testů statistických hypotéz.
Statistická hypotéza Statistickou hypotézou rozumíme každý předpoklad o neznámé vlastnosti rozložení základního souboru. Statistické testy Prověřovaná statistická hypotéza se obvykle nazývá nulová H 0 . Proti nulové hypotéze stavíme alternativní hypotézu H1 . Kriteria, která slouží k prověřování nulové hypotézy, se nazývají statistické testy, popř. testy významnosti. Testovací kriterium Testovací kriterium je statistika (funkce náhodného výběru mající vztah k nulové hypotéze), jejíž rozdělení za předpokladu platnosti nulové hypotézy známe. Poznámka: Z tohoto rozdělení dokážeme určit kritické hodnoty testovacího kriteria (na hladině významnosti p), které určují obor prakticky možných hodnot, v nichž je pst realizace testovacího kriteria velká (rovna 1-p), od kritických oborů, v nichž je realizace testovacího kriteria málo pravděpodobná (rovna p). Při realizaci testovacího kriteria v kritických oborech nulovou hypotézu zamítáme, jinak ji přijímáme (na zvolené hladině významnosti p).
Výsledek testu Porovnání hodnoty testovacího kritéria s jeho kritickými hodnotami slouží k rozhodnutí o výsledku testu. Musíme si uvědomit, že nemůžeme mluvit o dokazování správnosti či nesprávnosti zvolené hypotézy - to není v možnostech statistické indukce. Závěr testu pouze rozhodne mezi dvěma možnostmi: hypotézu přijímáme (zamítáme alternativní hypotézu), leží-li pozorovaná hodnota testovacího kritéria v intervalu prakticky možných hodnot. Znamená to, že rozdíl mezi pozorovanou a teoretickou hodnotou testovacího kritéria je vysvětlitelný na dané hladině významnosti p náhodností výběru. hypotézu zamítáme (přijímáme alternativní hypotézu), leží-li pozorovaná hodnota testovacího kritéria v kritickém oboru. Rozdíly považujeme za statisticky významné na zvolené hladině významnosti p, tzn., že se nedají vysvětlit pouze náhodností výběru.
Stanovení hypotéz Při testování statistických hypotéz proti sobě stavíme testovanou tzv. nulovou hypotézu H 0 a alternativní hypotézu H1 , která nulovou hypotézu popírá. Stanovení hypotéz a postup testování vysvětlíme na testu parametru Θ . Testovanou hypotézu zapisujeme ve tvaru rovnosti H 0 : Θ = Θ0 , kde Θ0 ∈ R je očekávaná (testovaná) hodnota testovaného parametru Θ . Alternativní hypotézu formulujeme zpravidla ve tvaru: H1 : Θ ≠ Θ 0 , jednoduchá H1 : Θ > Θ 0 , pravostranná H1 : Θ < Θ 0 . levostranná Alternativní hypotéza je zvolena v kontextu s požadavky řešeného problému a určuje kritéria pro zamítnutí či nezamítnutí testované hypotézy.
Závěr testu Rozhodování o platnosti nulové hypotézy se provádí na základě posouzení statistiky t , zvané testovací kritérium a její příslušnosti do množiny přípustných hodnot Vα nebo do tzv. kritického oboru (tj. oboru hodnot nepřípustných) Wα = R − Vα . Kritický obor vymezuje interval hodnot testovacího kritéria, které jsou vzhledem k testovaným hypotézám málo pravděpodobné a vedou tedy k zamítnutí H 0 ve prospěch H1 . Kritický obor je definován pro H1 : jednoduchou pravostrannou levostrannou
Wα = {t : t < t D ∨ t > t H } , kde P (t < t D ) = P(t > t H ) = α / 2 , Wα = {t : t > t H } , kde P (t > t H ) = α , Wα = {t : t < t D } , kde P(t < t D ) = α .
Pokud je t ∈ Wα , je mezi testovanou hodnotou Θ0 parametru Θ a jejím odhadem příliš velký rozdíl. Pravděpodobnost platnosti nulové hypotézy je velmi nízká, proto je nulová hypotéza H 0 zamítnuta a přijata alternativní hypotéza H1 . Pokud t ∈ Vα , pak nulovou hypotézu není možno zamítnout, tj. připouštíme platnost H 0 .
Běžně se uvádí: (i)
Pokud není nulová hypotéza H 0 zamítnuta na hladině významnosti p = 0.05 , považuje se rozdíl mezi teoretickou hodnotou a zvoleným parametrem za nevýznamný (náhodně vysvětlitelný).
(ii)
Pokud je nulová hypotéza H 0 zamítnuta i na hladině významnosti p = 0.01 , považuje se rozdíl mezi teoretickou hodnotou a zvoleným parametrem za statisticky významný (signifikantní).
(iii)
Pokud je nulová hypotéza H 0 zamítnuta na hladině významnosti p = 0.05 , ale není zamítnuta na hladině významnosti p = 0.01 , uvádí se, že rozdíl mezi teoretickou hodnotou a zvoleným parametrem je slabě statisticky významný (někdy se uvádí, že test neposkytl pro daný rozsah výběru dostatečné informace k rozhodnutí).
Postup při testování: a) provedení náhodného výběru, b) formulace nulové a alternativní hypotézy, c) volba hladiny významnosti, d) volba testovacího kriteria, e) určení kritických hodnot testovacího kriteria, f) výpočet realizace testovacího kriteria, g) srovnání s kritickými ochotami, h) závěr testu.
Test jako rozhodování Při testování hypotéz mohou nastat čtyři možnosti, které popisuje následující tabulka: Závěr testu
Skutečnost
H0 platí
H0 platí
H0 neplatí
správný
chyba I.druhu
H0 neplatí chyba II.druhu Existují tedy dva druhy chyby: (i) chyba I. druhu, zamítnutí správné hypotézy, (ii) chyba II. druhu, přijetí nesprávné hypotézy.
správný
Příklad: Testování přiblížíme pomocí analogie se soudním procesem. Má padnout rozhodnutí, zda obžalovaný spáchal či nespáchal zločin. Řešení: Soudní systém se řídí zásadou, že obžalovaný je nevinen, dokud se nepodaří prokázat opak. Formulace hypotéz má tedy tuto podobu:
H 0 : Obžalovaný je nevinen. H1 : Obžalovaný je vinen. Různé možnosti vztahu mezi pravdou a rozhodnutím soudu vidíme v tabulce: Závěr soudu
Skutečnost
Obžalovaný je nevinen Obžalovaný je vinen Obžalovaný je nevinen
správný
chyba I. druhu
Obžalovaný je vinen
chyba II. druhu
správný
Chyba I. druhu má pro jedince fatální následky. Proto její možnost eliminujeme na nejmenší možnou míru. Soud musí jasně prokázat vinu obžalovaného. Jeho rozhodnutí také podléhají přezkoumání vyšších instancí. Odpovídá to volbě velmi malé hladiny významnosti. V mnoha jiných případech však nevíme zcela přesně, která chyba je pro nás důležitější.
Test významnosti rozdílu dvou rozptylů (F-test) Předpoklady: Jsou dány dva výběry o rozsazích n1 , n2 s rozptyly S12 , S 22 vybrané ze dvou základních souborů s rozděleními N ( μ1 , σ 12 ) a N ( μ 2 , σ 22 ) . Nulová hypotéza: H 0 : σ 12 = σ 22 Alternativní hypotéza: H1 : σ 12 ≠ σ 22 Testovací kritérium: n1 ( n2 − 1) .S12 TK = n2 ( n1 − 1) .S 22 Kritická hodnota: KH ( p) = F p (n1 − 1 , n2 − 1) 2
Indexy volíme tak, aby platilo TK > 1 . V praxi stačí volit indexy tak, aby v čitateli byla větší disperze. Závěr: Je-li TK > KH ( p) , pak H 0 se zamítá. Pro H 0 : σ 12 = σ 22 H1 : σ 12 > σ 22 je kritická hodnota KH ( p ) = Fp (n1 − 1 , n2 − 1)
Podrobněji Předpoklady: Jsou dány dva výběry o rozsazích n1 , n2 s emp. rozptyly S12 , S 22 vybrané ze dvou základních souborů s rozděleními N ( μ1 , σ 12 ) a N ( μ 2 , σ 22 ) . Nulová hypotéza: H 0 : σ 12 = σ 22 Alternativní hypotéza: H 1 : σ 12 ≠ σ 22 Testovací kritérium: n1 ( n2 − 1) .S12 TK = n2 ( n1 − 1) .S 22 Kritické hodnoty:
KH d ( p ) = F
1−
p ( n1 − 1 , n2 − 1) = 2
1 , F p ( n2 − 1 , n1 − 1)
KH h ( p ) = F p ( n1 − 1 , n2 − 1) 2
2
Je-li TK > 1 , pak stačí horní kvantil. V praxi stačí volit indexy tak, aby v čitateli byla větší disperze. Závěr: Je-li TK > KH h ( p ) , pak H 0 se zamítá. Pro H : σ2 =σ2
Jednostranné hypotézy n1 ( n2 − 1) .S12 TK = n2 ( n1 − 1) .S 22 Pro H 0 : σ 12 = σ 22 H1 : σ 12 > σ 22
Kritická hodnota: KH ( p ) = Fp (n1 − 1 , n2 − 1) Závěr: Je-li TK > KH ( p ) pak H 0 se zamítá. Pro H 0 : σ 12 = σ 22 H1 : σ 12 < σ 22
Kritická hodnota: KH ( p) = F1− p (n1 − 1 , n2 − 1) = Závěr: Je-li TK < KH ( p ) pak H 0 se zamítá.
1 Fp (n2 − 1 , n1 − 1)
Test významnosti rozdílu M − μ0 Předpoklady: Je dán výběr ze základního souboru s rozdělením N ( μ , σ 2 ) o rozsahu n se střední hodnotou M a emp. disperzí S 2 .
H 0 : μ = μ0 H1 : μ ≠ μ 0 TK =
M − μ0 n −1 S
KH ( p ) = t p (n − 1) Je-li TK > KH ( p ) , pak H 0 se zamítá. Pro H 0 : μ = μ0
H 0 : μ = μ0
H1 : μ > μ0
H1 : μ < μ0
KH ( p ) = t2 p (n − 1)
KH ( p ) = −t2 p (n − 1)
Je-li TK > KH ( p ) , pak H 0 se zamítá.
Je-li TK < KH ( p) , pak H 0 se zamítá.
Test významnosti rozdílu dvou výběrových průměrů (t-test) Předpoklady: Jsou dány dva výběry o rozsazích n1 , n2 , se středními hodnotami M 1 , M 2 a s rozptyly S12 , S 22 vybrané ze dvou základních souborů s rozděleními N ( μ1 , σ 12 ) a N ( μ 2 , σ 22 ) .
H 0 : μ1 = μ2 H1 : μ1 ≠ μ2
a) můžeme předpokládat σ 12 = σ 22 (prověříme F-testem) TK =
M1 − M 2 n1 S12 + n2 S 22
n1 n2 ( n1 + n2 − 2 ) n1 + n2
KH ( p ) = t p (n1 + n2 − 2)
Je-li TK > KH ( p ) , pak H 0 se zamítá.
b) můžeme předpokládat σ 12 ≠ σ 22 (prověříme F-testem)
TK =
M1 − M 2
( n1 − 1) ( n2 − 1)
( n2 − 1) S + ( n1 − 1) S ( n2 − 1) S12 t p ( n1 − 1) + ( n1 − 1) S22 t p ( n2 − 1) KH ( p ) = ( n2 − 1) S12 + ( n1 − 1) S22 2 1
2 2
Je-li TK > KH ( p ) , pak H 0 se zamítá.
Studentův test pro párované hodnoty Předpoklady: Jsou dány dva výběry o stejném rozsahu n , vybrané ze dvou základních souborů s normálním rozděleními, přičemž každému prvku x1i prvního výběru (hodnotě znaku X 1 ) odpovídá právě jeden prvek x2i druhého výběru (hodnota znaku X 2 ). Výběrem
jsou tedy páry ( x1i , x2i ) (i = 1, 2,..., n) . Netestujeme rozdíl středních hodnot, ale rozdíly mezi prvky, které tvoří pár v prvním a druhém výběru. Testovanou veličinou D jsou rozdíly hodnot znaků (ne absolutních hodnot) prvků, které tvoří pár ( di = x1i − x2i ). Označme d střední hodnotu znaku D a S d2 disperzi znaku D .
H 0 : μ1 = μ 2 H1 : μ1 ≠ μ 2 TK =
d Sd
n −1
KH ( p ) = t p (n − 1)
Je-li TK > KH ( p ) , pak H 0 se zamítá.
Testy dobré shody (testy přiléhavosti) Pearsonův test dobré shody pro jeden výběr (χ2 test) Předpoklady: Nechť výsledky pozorování jsou roztříděny do k tříd a v každé třídě je zjištěna třídní četnost ne (četnost empirická, experimentální). Uvažujme určité rozdělení, které budeme považovat za model pro náš výběr. Pro každou třídu určíme očekávanou četnost no (četnost teoretická). H 0 : základní soubor má očekávané rozdělení H1 : základní soubor nemá očekávané rozdělení
Shodu rozdělení výběru s rozdělením ZS testujeme srovnáním třídních četností. Dá se očekávat, že četnosti ve třídách by měly být úměrné pravděpodobnostem. Označme: k ………… počet tříd, nei ……..... empirické četnosti v i-té třídě,
noi ………. očekávané četnosti v i-té třídě, s …………. počet parametrů očekávaného rozdělení odhadnutých na základě výběru. k
( nei − noi )
i =1
noi
TK = ∑
2
KH ( p ) = χ p2 (k − s − 1) Je-li TK > KH ( p) , pak H 0 se zamítá.
Při použití testu se požaduje splnění podmínek: (i) Všechny očekávané třídní četnosti mají být větší než 1. (ii) Nejvýše 20% očekávaných četností má být menších než 5. Pokud tomu tak není, provede se sloučení tříd v nezbytném rozsahu.
Kolmogorovův-Smirnovův test dobré shody pro jeden výběr Předpoklady jsou stejné jako u předcházejícího testu.
H 0 : základní soubor má očekávané rozdělení H1 : základní soubor nemá očekávané rozdělení Shodu rozdělení výběru s rozdělením ZS testujeme srovnáním kumulativních četností. Označme: k ………. počet tříd, Nei ……..... kumulativní četnost výběru na horní hranici i-té třídy,
Noi ………. kumulativní četnost očekávanou, n ………. rozsah souboru. 1 max Nei − Noi n i Kritické hodnoty KH ( p ) (= D1; p ) jsou tabelovány pro n < 60 (tabulka č VIII). Pro n > 60 se užívají asymptotické vzorce ap KH ( p) = , n kde a p závisí pouze na hladině významnosti. TK =
Pro používané hladiny platí a0,05 = 1,36 a a0,01 = 1, 63 . Je-li TK > KH ( p ) , pak H 0 se zamítá.
Kolmogorovův-Smirnovův test dobré shody pro dva výběry Předpoklady: Jsou dány dva výběry s rozsahy n1 a n2 roztříděné do k tříd. Označme: N1i a N 2i ………….. kumulativní četnosti výběrů na horní hranici i-té třídy. F1i a F2i ……… …. příslušné třídní relativní kumulativní četnosti.
H 0 : oba výběry pocházejí z téhož ZS H1 : výběry nepocházejí z téhož ZS
a) pro výběry o malém rozsahu, n1 = n2 ≤ 40
TK = max N1i − N 2i i
Kritické hodnoty KH ( p ) (= D2; p ) jsou uvedeny v tabulkách (tabulka IX). b) pro n1 > 40 , n2 > 40 , (rozsahy mohou být i různé)
TK = max F1i − F2i i
Kritická hodnota se určí pomocí asymptotického vzorce n +n KH ( p) = a p 1 2 , n1.n2 kde a p závisí pouze na hladině významnosti. Pro používané hladiny platí a0,05 = 1,36 a a0,01 = 1, 63 . Je-li TK > KH ( p ) , pak H 0 se zamítá.
Dixonův test extrémních odchylek Označme:
x1 = min( xi ) …………… minimální hodnota souboru i
xn = max( xi ) …………... maximální hodnota souboru i
H 0 : hodnota x1 resp. xn se významně neliší od ostatních hodnot souboru H1 : hodnota x1 resp. xn se významně liší od ostatních hodnot souboru
TK1 =
x2 − x1 xn − x1
resp. TK n =
xn − xn −1 xn − x1
Kritické hodnoty KH1 ( p ) (= Q1; p ) resp. KH n ( p ) (= Qn; p ) jsou tabelovány (tabulka č. XI). Je-li TK1 > KH1 ( p ) resp. TK n > KH n ( p ) , pak H 0 se zamítá
Grubbsův test extrémních odchylek H 0 : hodnota x1 resp. xn se významně neliší od ostatních hodnot souboru H1 : hodnota x1 resp. xn se významně liší od ostatních hodnot souboru
TK1 =
x − x1 S
resp. TK n =
xn − x S
Kritické hodnoty KH1 ( p ) (= T1; p ) resp. KH n ( p ) (= Tn; p ) jsou tabelovány (tabulka č. X). Je-li TK1 > KH1 ( p) resp. TK n > KH n ( p ) , pak H 0 se zamítá. Poznámka: Dojdeme-li při použití testu k závěru, že odlehlou hodnotu je třeba vyloučit, pak ji vyloučíme a celý výpočet zopakujeme.