NEPARAMETRICKÉ METODY Jsou to metody, kdy předmětem testu hypotézy není tvrzení o hodnotě parametru nějakého konkrétního rozdělení, ale nulová hypotéza je formulována obecněji, např. jako shoda rozdělení nebo nezávislost veličin. Na rozdíl od parametrických metod, kterými testujeme hypotézy o parametrech normálního rozdělení a testované soubory musí splňovat přepoklad normality, neparametrické metody můžeme použít bez nutnosti splnění předpokladů normality. Tak silný předpoklad totiž při praktických aplikacích nebývá často splněn a proto je lepší zvolit některou neparametrickou metodu, která vycházejí z pořadí pozorovaných hodnot v jejich vzestupném uspořádání. Pokud se nulová hypotéza týká mediánu rozdělení, neparametrické metody jsou velmi vhodné a dokonce mají proti parametrickým i řadu výhod.
Obecně však platí, že tyto výhody jsou vyváženy nevýhodou – ve srovnání s testy parametrickými jsou neparametrické testy slabší, tzn. že pravděpodobnost zamítnutí nulové hypotézy v situaci, kdy neplatí, je menší. Proto by neparametrické testy měly být užívány jen tehdy, když předpoklady pro parametrické testy splněny nejsou. Shrnutí: Neparametrické testy můžeme použít i v případě, že neznáme rozložení náhodné veličiny – jsou univerzálnější. Ale mají menší statistickou účinnost, tj. schopnost rozpoznat i malé odchylky od nulové hypotézy. Výpočetně jsou jednodušší a rychlejší. Obvykle vyžadují větší počet pozorování než parametrické.
JEDNOVÝBĚROVÝ ZNAMÉNKOVÝ (MEDIÁNOVÝ) TEST Nejjednodušším testem pro jeden výběr je znaménkový test: 1. uvažujme výběr ze spojitého rozdělení (nemusí být symetrické) 2. testujeme nulovou hypotézu, že medián tohoto rozdělení = x0 proti jednostranné alternativě, že medián tohoto rozdělení > x0 , kde x0 je předem daná hodnota. Znaménkový test je založen na principu sledování procenta naměřených hodnot menších, než hodnota, se kterou soubor porovnáváme. Test zjistí, zda se toto procento statisticky významně liší od 50% - proto mediánový test. POSTUP: 1. Utvoříme rozdíly hodnot veličiny X a dané hodnoty x0: X1 − x0, X2 − x0, . . . , Xn − x0. 2. Náhodná veličina Z pak bude označovat počet těch rozdílů, které mají kladné znaménko, tj. testovou statistikou Z je počet hodnot, splňujících podmínku, že xi > x0.
Tabulka kritických hodnot k1 a k2 pro znaménkový test N 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
α = 0,05 k1 k2 0 6 0 7 0 8 1 8 1 9 1 9 2 10 2 11 2 12 3 12 3 13 4 13 4 14 4 15 5 15
α = 0,01 k1 k2 0 8 0 9 0 10 0 11 1 11 1 12 1 13 2 13 2 14 2 15 3 15 3 16 3 17
N 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
α = 0,05 k1 k2 5 16 5 17 6 17 6 18 7 18 7 19 7 20 8 20 8 21 9 21 9 22 9 23 10 23 10 24 11 24
α = 0,01 k1 k2 4 17 4 18 4 19 5 19 5 20 6 20 6 21 6 22 7 22 7 23 7 24 8 24 8 25 9 25 9 26
V případě malého rozsahu výběru (tj. pro malá n) jsou tabelována čísla k1, k2 tak, že
P ( Z £ k1 ) £
a 2
, P(Z ³ k 2 ) £
a 2
Kritické hodnoty k1, k2 je možné nalézt v tabulce. Hypotézu H0 tedy zamítáme, jestliže zjistíme, že Y ≤ k1 nebo Y ≥ k2.
Příklad na Znaménkový test naleznete v souboru „6a_priklad_neparametricke_testy.xlsx“
Za předpokladu platnosti hypotézy H0 má náhodná velicina Z binomické rozdělení, Z ~ Bi(n, p) , kde hodnota parametru p = 0,5 (z definice mediánu), n je rozsah výběru. Při oboustranném testu tvoří kritický obor jednak příliš malé hodnoty Z (tj. hodnoty ležící blízko nule), jednak příliš velké hodnoty Z (tj. hodnoty blízké n).
Pravděpodobnost P(Z ≥ z) ≤ α lze spočítat jako
æ n öæ 1 ö æ 1 ö P( Z ³ z ) = å çç ÷÷ç ÷ ç ÷ k = z è k øè 2 ø è 2 ø n
k
n-k
1 n æ nö = n × å çç ÷÷ 2 k=z è k ø
Z vlastností binomického rozdělení můžeme určit za platnosti nulové hypotézy střední hodnotu
n E (Z ) = n × p = 2 a rozptyl testové statistiky
n var( Z ) = n × p × (1 - p ) = 4
Pro větší rozsahy výběru je možno použít aproximaci rozložení testovací statistiky pomocí normálního rozložení. Náhodná veličina pak má přibližně normované normální rozdělení N (0, 1) Platí to přibližně pro n větší než 20.
U=
n 2 = 2Z - n n n 4
Z-
Znaménkový test bývá velmi často užíván jako test párový, kdy máme dva závislé výběry ze spojitých dat, tzn. dvě pozorování pro každý objekt a testujeme hypotézu, že mediány obou veličin jsou shodné, většinou proti hypotéze, že medián druhého výběru (měření) je větší (menší) než prvního výběru (měření). Jedná se např. o posouzení, zda došlo ke změně v čase apod. (snížení váhy nebo jiných ukazatelů po úpravě stravy, cvičení, zlepšení výkonu).
JEDNOVÝBĚROVÝ WILCOXONŮV TEST Wicoxonův test je silnější než znaménkové (snáz odhalí statisticky významné rozdíly). Použijeme ho především v případech, kdy rozsah výběru je malý a veličina nemá normální rozdělení. Tento test pracuje s pořadím naměřených hodnot. Seřadíme bez ohledu na znaménko odchylky od "normy" a budeme se ptát, zda se statisticky významně liší průměrné pořadí odchylek v kladném a záporném smyslu. Postup: 1. vypočteme absolutní odchylky d i = xi - m 2. seřadíme tyto odchylky podle velikosti a označíme ri pořadí hodnot di + R = å ri 3. R označíme součet všech hodnot, pro která je x ³m
+
i
R = å ri a R součet všech hodnot, pro která je x <m
-
i
4. menší z obou hodnot porovnáme s kritickou hodnotou Wilcoxonova testu 5. H0 zamítáme, pokud je Z < tabelovaná kritická hodnota Wilcoxonova testu Pro větší n není toto rozdělení tabelováno, proto vypočteme testovací statistiku
W =
R+ -
1 × n (n + 1) 4
1 × n (n + 1)(2n + 1) 24
a použijeme aproximaci rozložení testovací statistiky normálním rozložením. Příklad na Wicoxonův test naleznete v souboru „priklady_neparametricke_testy.xlsx“
DVOUVÝBĚROVÝ ZNAMÉNKOVÝ TEST neboli MEDIÁNOVÝ TEST Nejprve vypočteme medián pozorování z obou skupin spojených dohromady. Testovací statistika S je pak počet pozorování z prvního výběru, která jsou větší, než společný medián. Pro test využijeme to, že statistika S má hypergeometrické rozložení.
DVOUVÝBĚROVÝ WILCOXONŮV TEST Opět spojíme oba soubory a ke každému pozorování vypočteme pořadí v tomto společném souboru. Sečteme všechny pořadová čísla pozorování, která byla v prvním souboru a označíme je R +.
Pro menší rozsahy výběrů porovnáme R+ s kritickými hodnotami dvouvýběrového Wicoxonova testu Pro větší rozsahy použijeme aproximaci pomocí normálního rozložení tak, že vypočteme testovací statistiku W =
1 R + - × nx × n y 2 , která má normální rozdělení a pak stačí zjistit, zda W < u a nx × ny 2 × (n x + n y + 1) 12
Většina programů, které v nabízí tento test, vypočte i dosaženou hladinu významnosti (p-hodnotu).