´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
KGG/STG Statistika pro geografy 7. Testova´nı´ statisticky´ch hypote´z
Mgr. David Fiedor 30. brˇezna 2015
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Osnova
1
´ vod, pojmy U
2
Parametricke´ testy
3
Neparametricke´ testy
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Deˇlenı´ testu˚
parametricke´ - o parametrech rozdeˇlenı´ za´kladnı´ho souboru (pru˚meˇr, rozptyl, shoda pru˚meˇru˚, . . . ) vy´beˇr musı´ pocha´zet z norma´lnı´ho rozdeˇlenı´ data musı´ by´t intervalove´ho nebo pomeˇrove´ho typu
neparametricke´ - obdoba parametricky´ch pouzˇ´ıva´me v prˇ´ıpadech, kdy nelze pouzˇ´ıt test parametricky´ i pro data ordina´lnı´ho typu slabsˇ´ı nezˇ parametricke´ testy
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Za´kladnı´ charakteristika
u´kolem je rˇesˇit u´lohy o parametrech norma´lnı´ho rozdeˇlenı´ N (µ, σ2 ) stejneˇ jako u intervalove´ho odhadu (metoda testova´nı´) za´lezˇ´ı na znalosti, resp. neznalosti teˇchto parametru˚ z-test, t-test, F-test
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
z-test
jednovy´beˇrovy´ z-test dvouvy´beˇrovy´ z-test
z du˚vodu neexistence specia´lnı´ funkce pro tento test v programu STATISTICA - nebudeme uva´deˇt pro tento test testova´nı´ pomocı´ p-hodnoty
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ z-test
Necht’ X1 , . . . , Xn je na´hodny´ vy´beˇr z rozdeˇlenı´ N (µ, σ2 ), kde σ2 zna´me. Necht’ n ≥ 2 a c je konstanta. Test H0 : µ = c proti H1 : µ 6= c se nazy´va´ jednovy´beˇrovy´ z-test.
oboustranna´ varianta testu
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ z-test Testova´nı´ pomocı´ intervalu˚ spolehlivosti Vzorce pro meze 100(1 − α)% intervalu˚ spolehlivosti pro strˇednı´ hodnotu µ, jestlizˇe zna´me rozptyl σ2 : oboustranny ´: σ σ (d, h) = x¯ − √ z1−α/2 , x¯ + √ z1−α/2 n n σ levostranny´: (d, ∞) = x¯ − √ z1−α , ∞ n σ pravostranny´: (−∞, h ) = −∞, x¯ + √ z1−α n Stacˇı´ rozhodnout, zda dana´ hodnota c lezˇ´ı v dane´m intervalu (pokud ne, zamı´ta´me H0 ). 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Prˇ´ıklad ´ rˇad pro ochranu zˇivotnı´ho prostrˇedı´ vydal narˇ´ızenı´, U ktery´m pru˚myslovy´m podniku˚m urcˇuje maxima´lnı´ prˇ´ıpustnou koncentraci vinylchloridu ve vzduchu, 50 mg na kubicky´ kilometr (a to ve vzda´lenosti azˇ dvou kilometru˚ od podniku). Pracovnı´ci u´rˇadu provedli kontrolu na ru˚zny´ch mı´stech vzda´leny´ch do dvou kilometru˚ od podniku a v ru˚zny´ch dnech, takzˇe bylo zazamena´no celkem 100 meˇrˇenı´. Pru˚meˇrna´ koncentrace vinylchloridu vypocˇı´tana´ ze vsˇech meˇrˇenı´ byla 54 mg. Mu˚zˇeme tvrdit na hladineˇ vy´znamnosti α = 0,05, zˇe podnik dodrzˇuje stanovene´ limity, jestlizˇe vı´me, zˇe smeˇrodatna´ odchylka obsahu emitovany´ch la´tek v ovzdusˇ´ı je obecneˇ prˇi meˇrˇenı´ch 20 mg? Prˇedpokla´dejme, zˇe rozdeˇlenı´, z neˇhozˇ na´hodny´ vy´beˇr pocha´zı´, je norma´lnı´. 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
ˇ esˇenı´ R
Levostranny ´ interval spolehlivosti: 20 z1−0,05 , ∞ = (54 − 3,29, ∞) = (d, ∞) = 54 − √ 100 (50,71, ∞)
⇒ 50 nelezˇ´ı v intervalu spolehlivosti, proto zamı´ta´me nulovou hypote´zu na hladineˇ vy´znamnosti α = 0,05
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ z-test Testova´nı´ pomocı´ kriticke´ho oboru vypocˇteme realizaci testovacı´ho krite´ria t0 = kde vy´raz
√σ n
x¯ − c √σ n
,
oznacˇuje smeˇrodatnou chybu
stanovı´me kriticky´ obor W t0 ∈ W , H0 zamı´ta´me na hladineˇ vy´znamnosti α a prˇijı´ma´me H1 v opacˇne´m prˇ´ıpadeˇ nezamı´ta´me nulovou hypote´zu H0 na dane´ hladineˇ vy´znamnosti α
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ z-test Kriticke´ obory jednotlivy´ch variant majı´ na´sledujı´cı´ tvary: oboustranny´ test (testujeme H0 : µ = c proti H1 : µ 6= c): kriticky´ obor ma´ tvar W = (−∞, −z1−α/2 i ∪ hz1−α/2 , ∞) levostranny´ test (testujeme H0 : µ = c (resp. H0 : µ ≥ c) proti H1 : µ < c): kriticky´ obor ma´ tvar W = (−∞, −z1−α i pravostranny´ test (testujeme H0 : µ = c (resp. H0 : µ ≤ c) proti H1 : µ > c): kriticky´ obor ma´ tvar W = h z1 − α , ∞ )
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Prˇ´ıklad ´ rˇad pro ochranu zˇivotnı´ho prostrˇedı´ vydal narˇ´ızenı´, U ktery´m pru˚myslovy´m podniku˚m urcˇuje maxima´lnı´ prˇ´ıpustnou koncentraci vinylchloridu ve vzduchu, 50 mg na kubicky´ kilometr (a to ve vzda´lenosti azˇ dvou kilometru˚ od podniku). Pracovnı´ci u´rˇadu provedli kontrolu na ru˚zny´ch mı´stech vzda´leny´ch do dvou kilometru˚ od podniku a v ru˚zny´ch dnech, takzˇe bylo zazamena´no celkem 100 meˇrˇenı´. Pru˚meˇrna´ koncentrace vinylchloridu vypocˇı´tana´ ze vsˇech meˇrˇenı´ byla 54 mg. Mu˚zˇeme tvrdit na hladineˇ vy´znamnosti α = 0,05, zˇe podnik dodrzˇuje stanovene´ limity, jestlizˇe vı´me, zˇe smeˇrodatna´ odchylka obsahu emitovany´ch la´tek v ovzdusˇ´ı je obecneˇ prˇi meˇrˇenı´ch 20 mg? Prˇedpokla´dejme, zˇe rozdeˇlenı´, z neˇhozˇ na´hodny´ vy´beˇr pocha´zı´, je norma´lnı´. 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
ˇ esˇenı´ R Testova´nı´ pomocı´ kriticke´ho oboru vypocˇteme realizaci testovacı´ho krite´ria x¯ − c 54 − 50 =2 t0 = σ = 20 √
n
√
100
stanovı´me kriticky´ obor W = hz1−α , ∞) = h1,644854, ∞) t0 ∈ W , H0 zamı´ta´me na hladineˇ vy´znamnosti α a prˇijı´ma´me H1 ⇒ lze konstatovat na te´to hladineˇ vy´znamnosti, zˇe podnik porusˇuje narˇ´ızenı´ u´rˇadu pro ochranu zˇivotnı´ho prostrˇedı´ 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ z-test
Necht’ X11 , . . . , X1n1 je na´hodny´ vy´beˇr z rozdeˇlenı´ N (µ1 , σ12 ) a X21 , . . . , X2n2 je na neˇm neza´visly´ na´hodny´ vy´beˇr z rozdeˇlenı´ N (µ2 , σ22 ), prˇicˇemzˇ n1 ≥ 2, n2 ≥ 2 a σ12 , σ22 zna´me. Necht’ c je konstanta. Test H0 : µ1 − µ2 = c proti H1 : µ1 − µ2 6= c se nazy´va´ dvouvy´beˇrovy´ z-test.
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ z-test
Testova´nı´ pomocı´ intervalu˚ spolehlivosti Vzorce pro meze 100(1 − α)% intervalu˚ spolehlivosti pro parametricke´ funkce µ1 − µ2 , jestlizˇe zna´me rozptyly σ12 , σ22 : oboustranny ´ : (d, h ) = s s 2 2 2 2 σ1 σ σ1 σ x¯ 1 − x¯ 2 − + 2 z1−α/2 , x¯ 1 − x¯ 2 + + 2 z1−α/2 n1 n2 n1 n2 levostranny ´ :
s
(d, ∞) = x¯ 1 − x¯ 2 −
7. Testova´nı´ statisticky´ch hypote´z
σ12 n1
+
σ22 n2
z1 − α , ∞
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ z-test
pravostranny ´ :
s
(−∞, h) = −∞, x¯ 1 − x¯ 2 +
σ12 n1
+
σ22 n2
z1 − α
Stacˇı´ rozhodnout, zda dana´ hodnota c lezˇ´ı v dane´m intervalu (pokud ne, zamı´ta´me H0 ).
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ z-test Testova´nı´ pomocı´ kriticke´ho oboru vypocˇteme realizaci testovacı´ho krite´ria (x¯ 1 − x¯ 2 ) − c t0 = s σ12 σ22 + n1 n2 stanovı´me kriticky´ obor W t0 ∈ W , H0 zamı´ta´me na hladineˇ vy´znamnosti α a prˇijı´ma´me H1 v opacˇne´m prˇ´ıpadeˇ nezamı´ta´me nulovou hypote´zu H0 na dane´ hladineˇ vy´znamnosti α
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ z-test
Kriticke´ obory jednotlivy´ch variant majı´ na´sledujı´cı´ tvary: oboustranny´ test (testujeme H0 : µ1 − µ2 = c proti H1 : µ1 − µ2 6= c): kriticky´ obor ma´ tvar W = (−∞, −z1−α/2 i ∪ hz1−α/2 , ∞) levostranny´ test (testujeme H0 : µ1 − µ2 = c proti H1 : µ1 − µ2 < c): kriticky´ obor ma´ tvar W = (−∞, −z1−α i pravostranny´ test (testujeme H0 : µ1 − µ2 = c proti H1 : µ1 − µ2 > c): kriticky´ obor ma´ tvar W = hz1−α , ∞)
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
t-test
jednovy´beˇrovy´ t-test pa´rovy´ t-test dvouvy´beˇrovy´ t-test
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ t-test
Necht’ X1 , . . . , Xn je na´hodny´ vy´beˇr z rozdeˇlenı´ N (µ, σ2 ), kde σ2 nezna´me. Necht’ n ≥ 2 a c je konstanta. Test H0 : µ = c proti H1 : µ 6= c se nazy´va´ jednovy´beˇrovy´ t-test.
⇒ rozptyl nezna´me - proto vyuzˇitı´ Studentova t-rozdeˇlenı´ pro ν = n − 1 stupnˇu˚ volnosti
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ t-test Testova´nı´ pomocı´ intervalu˚ spolehlivosti Vzorce pro meze 100(1 − α)% intervalu˚ spolehlivosti pro strˇednı´ hodnotu µ, jestlizˇe nezna´me rozptyl σ2 : oboustranny ´ : (d, h ) = s s x¯ − √ t1−α/2 (n − 1), x¯ + √ t1−α/2 (n − 1) n n s levostranny´: (d, ∞) = x¯ − √ t1−α (n − 1), ∞ n s pravostranny´: (−∞, h ) = −∞, x¯ + √ t1−α (n − 1) n Stacˇı´ rozhodnout, zda dana´ hodnota c lezˇ´ı v dane´m intervalu (pokud ne, zamı´ta´me H0 ). 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ t-test
Testova´nı´ pomocı´ kriticke´ho oboru vypocˇteme realizaci testovacı´ho krite´ria t0 =
x¯ − c √s n
stanovı´me kriticky´ obor W t0 ∈ W , H0 zamı´ta´me na hladineˇ vy´znamnosti α a prˇijı´ma´me H1 v opacˇne´m prˇ´ıpadeˇ nezamı´ta´me nulovou hypote´zu H0 na dane´ hladineˇ vy´znamnosti α
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ t-test
Kriticke´ obory jednotlivy´ch variant majı´ na´sledujı´cı´ tvary: oboustranny´ test (testujeme H0 : µ = c proti H1 : µ 6= c): kriticky´ obor ma´ tvar W = (−∞, −t1−α/2 (n − 1)i ∪ ht1−α/2 (n − 1), ∞) levostranny´ test (testujeme H0 : µ = c proti H1 : µ < c): kriticky´ obor ma´ tvar W = (−∞, −t1−α (n − 1)i pravostranny´ test (testujeme H0 : µ = c proti H1 : µ > c): kriticky´ obor ma´ tvar W = ht1−α (n − 1), ∞)
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Jednovy´beˇrovy´ t-test Testova´nı´ pomocı´ p-hodnoty Vy´znam p-hodnoty spocˇı´va´ v tom, zˇe na´m urcˇı´ nejnizˇsˇ´ı mozˇnou hladinu vy´znamnosti, prˇi ktere´ jesˇteˇ zamı´ta´me nulovou hypote´zu H0 , tedy: a) Je-li p ≤ α, pak zamı´ta´me nulovou hypote´zu H0 na hladineˇ vy´znamnosti α. b) Je-li p > α, pak nezamı´ta´me nulovou hypote´zu H0 na hladineˇ vy´znamnosti α. Proměnná Účast u voleb 2010
Test průměrů vůči referenční konstantě (hodnotě) (Volební účast ORP Jablunkov) Průměr Sm.odch. N Sm.chyba Referenční t SV p konstanta 62,60000 -8,26392 10 0,000009 55,73364 2,755733 11 0,830885
Obra´zek: Tabulka vy´sledku˚ jednovy´beˇrove´ho t-testu s vyznacˇenou p-hodnotou 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Prˇ´ıklad
Data obsahujı´ procentua´lnı´ hodnoty u´cˇastı´ volicˇu˚ u parlamentnı´ch voleb v roce 2010 v jednotlivy´ch obcı´ch ORP Jablunkov. Testujte hypote´zu na hladineˇ vy´znamnosti α = 0, 05, zˇe volicˇi v ORP Jablunkov jsou ˇ eske´ me´neˇ zodpoveˇdny´mi obcˇany nezˇ volicˇi v cele´ C republice (za u´rovenˇ zodpoveˇdnosti volicˇu˚ vezmeˇte procentua´lnı´ u´cˇast u voleb v jednotlivy´ch obcı´ch a srovnejte tuto hodnotu s celorepublikovy´m pru˚meˇrem, ktery´ cˇinil 62, 6 %).
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Prˇ´ıklad ´ cˇast u parlamentnı´ch voleb 2010 (%) Na´zev obce U Bocanovice 55, 26 Bukovec 60, 43 Dolnı´ Lomna´ 55, 68 Hornı´ Lomna´ 52, 32 Hra´dek 56, 66 Hrcˇava 51, 23 Jablunkov 55, 62 Milı´kov 59, 26 Mosty u Jablunkova 53, 76 Na´vsı´ 57, 76 Pı´sek 55, 09 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
ˇ esˇenı´ R hypote´za H0 , kterou budeme testovat, bude tvaru H0 : µ = 62, 6 proti alternativnı´ hypote´ze H1 : µ < 62, 6 levostranna´ varianta t-testu prvnı´ mozˇnost je vypocˇı´tat si vy´beˇrovy´ pru˚meˇr a smeˇrodatnou odchylku a hodnoty zadat do testu rozdı´lu˚, ktery´ zı´ska´me takto: Statistiky – Za´kladnı´ statistiky/tabulky – Testy rozdı´lu˚: r, %, pru˚meˇry – OK ; uprostrˇed ma´me volbu Rozdı´ly mezi dveˇma pru˚meˇry (norma´lnı´ rozdeˇlenı´), ve ktere´ vypı´sˇeme hodnoty Pr1: ¯ SmOd1: s, N1: n, Pr2: c a zasˇkrtneme Jednostr. a x, Vy´beˇrovy´ pru˚meˇr vs. strˇednı´ hodnota druha´ cesta vedoucı´ k vy´sledku je na´sledujı´cı´: Statistiky – Za´kladnı´ statistiky/tabulky – t-test, samost. vzorek – OK 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Pa´rovy´ t-test
pa´rovy´ test se obecneˇ vyznacˇuje vza´jemnou spojitostı´ obou vy´beˇru˚ oba vy´beˇry spolu nejenom souvisı´, ale majı´ take´ stejny´ rozsah na´hodne´ velicˇiny proto mu˚zˇeme zapsat takto: (Y1 , Z1 ), . . . , (Yn , Zn ), kde n ≥ 2 prˇedmeˇtem nasˇeho za´jmu je zjistit, zda rozdı´l strˇednı´ch hodnot je roven neˇjake´ konstanteˇ, resp. porovnat tento rozdı´l s neˇjakou hodnotou
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Pa´rovy´ t-test
lze vytvorˇit tzv. rozdı´lovy´ na´hodny´ vy´beˇr X1 = Y1 − Z1 , . . . , Xn = Yn − Zn strˇednı´ hodnota µ tohoto rozdı´love´ho na´hodne´ho vy´beˇru je rovna rozdı´lu strˇednı´ch hodnot velicˇin Y a Z , tj. µ = µ1 − µ2
⇒ redukce na jeden vy´beˇr - pouzˇitı´ vzorce pro jednovy´beˇrovy´ t-test
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Prˇ´ıklad
Ma´me k dispozici data obsahujı´cı´ pru˚meˇrne´ dennı´ teploty v cˇervenci 2010 a 2011 na stanici Botanicka´ zahrada (Brno). Pokuste se zjistit, zda existuje rozdı´l mezi teplotami nameˇrˇeny´mi v cˇervenci roku 2010 a v cˇervenci roku 2011. Nulovou hypote´zu o shodeˇ strˇednı´ch hodnot pru˚meˇrny´ch dennı´ch teplot testujte na hladineˇ vy´znamnosti α = 0, 05.
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
ˇ esˇenı´ R
teploty meˇrˇeny na stejne´ stanici a rozsah obou vy´beˇru˚ je stejny´ (n = 31) ⇒ pa´rovy´ test rozdı´lovy´ na´hodny´ vy´beˇr - otestujeme normalitu pouzˇijeme t-test Statistiky – Za´kladnı´ statistiky/tabulky – t-test, za´visle´ vzorky – OK na karteˇ Detailnı´ vy´sledky ma´me mozˇnost upravit mozˇne´ zvy´razneˇnı´ p-hodnoty i urcˇit meze intervalu spolehlivosti
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
ˇ esˇenı´ R
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ t-test
Necht’ X11 , . . . , X1n1 je na´hodny´ vy´beˇr z rozdeˇlenı´ N (µ1 , σ2 ) a X21 , . . . , X2n2 je na neˇm neza´visly´ na´hodny´ vy´beˇr z rozdeˇlenı´ N (µ2 , σ2 ), prˇicˇemzˇ n1 ≥ 2, n2 ≥ 2 a σ2 nezna´me. Necht’ c je konstanta. Test H0 : µ1 − µ2 = c proti H1 : µ1 − µ2 6= c se nazy´va´ dvouvy´beˇrovy´ t-test.
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ t-test
nejpouzˇ´ıvaneˇjsˇ´ı parametricky´ test jizˇ z definice ovsˇem plynou omezenı´ pouzˇitı´ tohoto testu - vy´beˇry pocha´zı´ z norma´lnı´ch rozdeˇlenı´, jsou neza´visle´ a acˇkoliv nezna´me σ2 , vı´me, zˇe je shodny´
⇒ shodu rozptylu˚ oveˇrˇujeme F-testem
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ t-test Testova´nı´ pomocı´ intervalu˚ spolehlivosti Vzorce pro meze 100(1 − α)% intervalu˚ spolehlivosti pro parametricke´ funkce µ1 − µ2 , jestlizˇe nezna´me rozptyly σ12 , σ22 , ale vı´me, zˇe jsou shodne´: oboustranny r ´: 1 1 (d, h) = x¯ 1 − x¯ 2 − s∗ + t1−α/2 (n1 + n2 − 2), n1 n2 r 1 1 + t (n + n2 − 2) x¯ 1 − x¯ 2 + s∗ n1 n2 1−α/2 1 levostranny ´ : (r d, ∞) = 1 1 + t (n + n2 − 2), ∞ x¯ 1 − x¯ 2 − s∗ n1 n2 1−α 1 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ t-test
pravostranny ´ : (−∞, rh ) = 1 1 + t (n + n2 − 2) −∞, x¯ 1 − x¯ 2 + s∗ n1 n2 1−α 1
Stacˇı´ rozhodnout, zda dana´ hodnota c lezˇ´ı v dane´m intervalu (pokud ne, zamı´ta´me H0 ).
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ t-test
V intervalech spolehlivosti se vyskytl nezna´my´ symbol s∗ , ktery´ vycha´zı´ z jizˇ drˇ´ıve zavedene´ho va´zˇene´ho pru˚meˇru vy´beˇrovy´ch rozptylu˚ a ktery´ tudı´zˇ vypocˇı´ta´me takto: s (n1 − 1)s12 + (n2 − 1)s22 s∗ = n1 + n2 − 2
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ t-test Testova´nı´ pomocı´ kriticke´ho oboru vypocˇteme realizaci testovacı´ho krite´ria (x¯ − x¯ ) − c t0 = 1r 2 1 1 s∗ + n1 n2 stanovı´me kriticky´ obor W t0 ∈ W , H0 zamı´ta´me na hladineˇ vy´znamnosti α a prˇijı´ma´me H1 v opacˇne´m prˇ´ıpadeˇ nezamı´ta´me nulovou hypote´zu H0 na dane´ hladineˇ vy´znamnosti α
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ t-test Kriticke´ obory jednotlivy´ch variant majı´ na´sledujı´cı´ tvary: oboustranny´ test (testujeme H0 : µ1 − µ2 = c proti H1 : µ1 − µ2 6= c): kriticky´ obor ma´ tvar W = (−∞, −t1−α/2 (n1 + n2 − 2)i ∪ ht1−α/2 (n1 + n2 − 2), ∞) levostranny´ test (testujeme H0 : µ1 − µ2 = c proti H1 : µ1 − µ2 < c): kriticky´ obor ma´ tvar W = (−∞, −t1−α (n1 + n2 − 2)i pravostranny´ test (testujeme H0 : µ1 − µ2 = c proti H1 : µ1 − µ2 > c): kriticky´ obor ma´ tvar W = ht1−α (n1 + n2 − 2), ∞)
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Dvouvy´beˇrovy´ t-test
Testova´nı´ pomocı´ p-hodnoty Vy´znam p-hodnoty spocˇı´va´ v tom, zˇe na´m urcˇı´ nejnizˇsˇ´ı mozˇnou hladinu vy´znamnosti, prˇi ktere´ jesˇteˇ zamı´ta´me nulovou hypote´zu H0 , tedy: a) Je-li p ≤ α, pak zamı´ta´me nulovou hypote´zu H0 na hladineˇ vy´znamnosti α. b) Je-li p > α, pak nezamı´ta´me nulovou hypote´zu H0 na hladineˇ vy´znamnosti α.
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
F-test Necht’ X11 , . . . , X1n1 je na´hodny´ vy´beˇr z rozdeˇlenı´ N (µ1 , σ12 ) a X21 , . . . , X2n2 je na neˇm neza´visly´ na´hodny´ vy´beˇr z rozdeˇlenı´ N (µ2 , σ22 ), prˇicˇemzˇ n1 ≥ 2, n2 ≥ 2 a σ2 σ2 σ12 , σ22 nezna´me. Test H0 : 12 = 1 proti H1 : 12 6= 1 se σ2 σ2 nazy´va´ F-test.
⇒ vyuzˇ´ıvat budeme Fisher-Snedecorova rozdeˇlenı´ pro (ν1 , ν2 ) = (n1 − 1, n2 − 1) stupnˇu˚ volnosti
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
F-test Testova´nı´ pomocı´ intervalu˚ spolehlivosti Vzorce pro meze 100(1 − α)% intervalu˚ spolehlivosti pro σ2 podı´l rozptylu˚ 12 : σ2 oboustranny´: (d, h ) = s12 s12 s22 s22 , F1−α/2 (n1 − 1, n2 − 1) Fα/2 (n1 − 1, n2 − 1) s12 s22 levostranny´: (d, ∞) = , ∞ F1−α (n1 − 1, n2 − 1)
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
F-test
s12 s22 pravostranny´: (0, h ) = 0, Fα (n1 − 1, n2 − 1)
Stacˇı´ rozhodnout, zda cˇı´slo 1 lezˇ´ı v dane´m intervalu (pokud ne, zamı´ta´me H0 ).
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
F-test
Testova´nı´ pomocı´ kriticke´ho oboru s12 vypocˇteme realizaci testovacı´ho krite´ria t0 = 2 s2 stanovı´me kriticky´ obor W t0 ∈ W , H0 zamı´ta´me na hladineˇ vy´znamnosti α a prˇijı´ma´me H1 v opacˇne´m prˇ´ıpadeˇ nezamı´ta´me nulovou hypote´zu H0 na dane´ hladineˇ vy´znamnosti α
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
F-test Kriticke´ obory jednotlivy´ch variant majı´ na´sledujı´cı´ tvary: σ2 oboustranny´ test (testujeme H0 : 12 = 1 proti H1 : σ2 2 σ1 6= 1): kriticky´ obor ma´ tvar W = σ22 (0, Fα/2 (n1 − 1, n2 − 1)i ∪ hF1−α/2 (n1 − 1, n2 − 1), ∞) σ2 levostranny´ test (testujeme H0 : 12 = 1 proti H1 : σ2 2 σ1 < 1): kriticky´ obor ma´ tvar σ22 W = (0, Fα (n1 − 1, n2 − 1)i σ12 pravostranny´ test (testujeme H0 : 2 = 1 proti H1 : σ2 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
F-test Testova´nı´ pomocı´ p-hodnoty Vy´znam p-hodnoty spocˇı´va´ v tom, zˇe na´m urcˇı´ nejnizˇsˇ´ı mozˇnou hladinu vy´znamnosti, prˇi ktere´ jesˇteˇ zamı´ta´me nulovou hypote´zu H0 , tedy: a) Je-li p ≤ α, pak zamı´ta´me nulovou hypote´zu H0 na hladineˇ vy´znamnosti α. b) Je-li p > α, pak nezamı´ta´me nulovou hypote´zu H0 na hladineˇ vy´znamnosti α. Proměnná Podíl katolíků na celkovém počtu obyvatel (%)
t-testy; grupováno:Grupovací proměnná - okres (Podíl věřících) Skup. 1: 1 Skup. 2: 2 Průměr Průměr t sv p Poč.plat Poč.plat. Sm.odch. Sm.odch. F-poměr p 1 2 1 2 1 2 Rozptyly Rozptyly 46,10702 67,19388 -7,45369 162 0,000000 77 87 16,54307 19,33868 1,366537 0,165620
Obra´zek: Tabulka vy´sledku˚ dvouvy´beˇrove´ho t-testu spolecˇneˇ s F-testem s vyznacˇeny´mi p-hodnotami 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
Prˇ´ıklad
Zajı´mava´ data na´m poskytuje take´ scˇı´ta´nı´ lidu z roku 2001. Z dat veˇnujı´cı´ch se na´bozˇenske´mu vyzna´nı´ se zameˇrˇ´ıme na pocˇty rˇ´ımsky´ch katolı´ku˚ v jednotlivy´ch obcı´ch okresu˚ Fry´dek-Mı´stek a Zlı´n. Na hladineˇ vy´znamnosti 0, 05 testujte hypote´zu, zˇe se strˇednı´ hodnoty podı´lu˚ pocˇtu katolı´ku˚ na celkove´m pocˇtu obyvatel jednotlivy´ch obcı´ za okresy Fry´dek-Mı´stek a Zlı´n nelisˇ´ı. (Prˇi oveˇrˇova´nı´ normality dat zjistı´te mı´rne´ porusˇenı´, prˇesto pouzˇijte k oveˇrˇenı´ parametricky´ test.)
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
ˇ esˇenı´ R novy´ datovy´ soubor, do ktere´ho zkopı´rujeme hodnoty celkove´ho pocˇtu obyvatel a pocˇtu rˇ´ımsky´ch katolı´ku˚ za jednotlive´ obce obou okresu˚ hodnoty vlozˇ´ıme pod sebe a vytvorˇenı´m nove´ promeˇnne´ urcˇı´me pomocı´ cˇı´sel 0 a 1 prˇ´ıslusˇnost k okresu˚m Fry´dek-Mı´stek (0) a Zlı´n (1) - grupovacı´ promeˇnna´ do dlouhe´ho jme´na nove´ promeˇnne´ vlozˇ´ıme vzorec k urcˇenı´ procentua´lnı´ch hodnot vy´sledku˚ Statistiky – Za´kladnı´ statistiky/tabulky – t-test, neza´visle´, dle skupin1 – OK 1 Kdybychom
nemeˇli data vlozˇena´ pod sebou odlisˇena´ grupovacı´ promeˇnnou, ale vedle sebe, pouzˇili bychom t-test, neza´visle´, dle promeˇn. 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
ˇ esˇenı´ R zada´me promeˇnnou (podı´l katolı´ku˚ na celkove´m pocˇtu obyvatel) a grupovacı´ promeˇnnou (hodnoty 1 a 2) na karteˇ Mozˇnosti prˇ´ılezˇitost k volbeˇ konkre´tnı´ hladiny vy´znamnosti (oznacˇeno symbolem p) varianta dvouvy´beˇrove´ho t-testu se separovany´mi promeˇnny´mi, kterou uzˇ´ıva´me, pokud se rozptyly obou vy´beˇru˚ lisˇ´ı a nechceme pouzˇ´ıt neparametrickou variantu tohoto testu na karteˇ Detailnı´ vy´sledky si mu˚zˇeme nechat vykreslit ru˚zne´ grafy, vcˇetneˇ N-P plotu a box plotu
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
z-test t-test F-test
ˇ esˇenı´ - interpretace testu R
zkontrolovat p-hodnotu F-testu, kterou na´m syste´m automaticky poskytnul pod na´zvem p Rozptyly - musı´ by´t veˇtsˇ´ı nezˇ zvolena´ hladina vy´znamnosti p-hodnota je rovna 0, 000000, proto zamı´ta´me hypote´zu o shodeˇ strˇednı´ch hodnot a mu˚zˇeme konstatovat, zˇe na hladineˇ vy´znamnosti α = 0, 05 se strˇednı´ hodnoty podı´lu˚ rˇ´ımsky´ch katolı´ku˚ jednotlivy´ch obcı´ v teˇchto okresech lisˇ´ı 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Neparametricke´ testy - vlastnosti vyuzˇ´ıva´me v prˇ´ıpadech, kdy nezna´me rozdeˇlenı´ za´kladnı´ho souboru, z neˇhozˇ dany´ na´hodny´ vy´beˇr pocha´zı´ v prˇ´ıpadech, kdy na´hodny´ vy´beˇr nepocha´zı´ z norma´lnı´ho rozdeˇlenı´ nebo v prˇ´ıpadeˇ, kdy zkouma´me data ordina´lnı´ho typu majı´ obecneˇ mensˇ´ı sı´lu, tj. nepravdivou hypote´zu zamı´tajı´ s mensˇ´ı pravdeˇpodobnostı´ nezˇ testy parametricke´
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Neparametricke´ testy - vlastnosti Veˇtsˇina zde uvedeny´ch testu˚ patrˇ´ı do skupiny porˇadovy´ch, tzn. zˇe prˇi prova´deˇnı´ testu˚ budeme urcˇovat porˇadı´ hodnot, ktere´ bude slouzˇit k vy´pocˇtu testovacı´ho krite´ria namı´sto pu˚vodnı´ch hodnot. Jestlizˇe ma´me da´na rea´lna´ cˇı´sla x1 , x2 , . . . , xn , pak porˇadı´m cˇı´sla xi nazveme pocˇet teˇch cˇı´sel x1 , x2 , . . . , xn , ktera´ jsou mensˇ´ı nebo rovna cˇı´slu xi . V prˇ´ıpadeˇ rovnosti hodnot neˇkolika cˇı´sel zava´dı´me pru˚meˇrne´ porˇadı´, ktere´ je rovno aritmeticke´mu pru˚meˇru porˇadı´ cˇı´sel, jejichzˇ hodnoty jsou si rovny.
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Neparametricke´ testy
Vybrane´ neparametricke´ testy, jimizˇ se budeme zaby´vat: Wilcoxonu˚v test K-S test Kruskalu˚v-Wallisu˚v test (K-W test) a media´novy´ test
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Wilcoxonu˚v test
neparametricky´ ekvivalent t-testu budeme prˇedpokla´dat spojitost rozdeˇlenı´, z neˇhozˇ dany´ na´hodny´ vy´beˇr pocha´zı´ data asponˇ ordina´lnı´ho typu, tj. ordina´lnı´, intervalove´ nebo pomeˇrove´ uvedeme pouze variantu testova´nı´ pomocı´ kriticke´ho oboru pro vsˇechny typy tohoto testu (jednovy´beˇrovy´, pa´rovy´ i dvouvy´beˇrovy´)
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Jednovy´beˇrovy´ Wilcoxonu˚v test
Necht’ X1 , X2 , . . . , Xn je na´hodny´ vy´beˇr ze spojite´ho rozdeˇlenı´ o rozsahu n. Budeme testovat hypote´zu H0 : Med (x ) = c, kde c je rea´lna´ konstanta, proti jedne´ z teˇchto variant: oboustranna´ alternativa H1 : Med (x ) 6= c levostranna´ alternativa H1 : Med (x ) < c pravostranna´ alternativa H1 : Med (x ) > c
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Jednovy´beˇrovy´ Wilcoxonu˚v test Postup provedenı´ testu a) Nejprve utvorˇ´ıme rozdı´ly Yi = Xi − c (pro i = 1, 2, . . . , n). Nastane-li prˇ´ıpad, zˇe jsou neˇktere´ rozdı´ly rovny nule, pak je vyloucˇı´me a za n jizˇ bereme pouze pocˇet nenulovy´ch hodnot. b) Absolutnı´ hodnoty rozdı´lu˚, tedy |Yi |, usporˇa´da´me vzestupneˇ podle velikosti a urcˇı´me jejich porˇadı´, resp. pru˚meˇrne´ porˇadı´, pokud jsou si neˇktere´ hodnoty |Yi | rovny. c) Zavedeme du˚lezˇite´ oznacˇenı´ statistik: + SW – oznacˇuje soucˇet porˇadı´ prˇes kladne´ hodnoty Yi − SW – oznacˇovat soucˇet porˇadı´ prˇes za´porne´ hodnoty Yi
+ − Prˇitom musı´ platı´ vztah: SW + SW = 7. Testova´nı´ statisticky´ch hypote´z
n (n + 1) . 2
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Jednovy´beˇrovy´ Wilcoxonu˚v test d) Azˇ po tuto chvı´li byl postup testova´nı´ oboustranne´ hypote´zy i jednostranny´ch hypote´z stejny´. Nynı´ je potrˇeba rozlisˇit chova´nı´ testovy´ch statistik pro jednotlive´ prˇ´ıpady, proto: pro oboustrannou hypote´zu se testova´ statistika rovna´ + − mensˇ´ı z hodnot SW , SW + pro levostrannou hypote´zu se testova´ statistika rovna´ SW − pro pravostrannou hypote´zu se testova´ statistika rovna´ SW
e) Nulovou hypote´zu H0 zamı´ta´me na zvolene´ hladineˇ vy´znamnosti α, kdyzˇ je testova´ statistika mensˇ´ı nebo rovna kriticke´ hodnoteˇ, kterou nalezneme v tabulka´ch (tato hodnota za´visı´ na rozsahu n a hladineˇ vy´znamnosti α). 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Pa´rovy´ Wilcoxonu˚v test
postup jako u pa´rove´ho t-testu (prˇevod na jednovy´beˇrovy´ test) vytvorˇ´ıme rozdı´lovy´ na´hodny´ vy´beˇr X1 = Y1 − Z1 , . . . , Xn = Yn − Zn testujeme hypote´zu H0 : Med (y ) − Med (z ) = c, proti alternativnı´ hypote´ze H1 : Med (y ) − Med (z ) 6= c, resp. proti jednostranny´m alternativa´m
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Prˇ´ıklad
ˇ eskou republiku na Hodnota indexu sta´rˇ´ıa pro celou C konci roku 2010 byla rovna 107, 8. Na hladineˇ vy´znamnosti α = 0, 1 testujte hypote´zu, zˇe media´n hodnot indexu˚ sta´rˇ´ı pro okresy Strˇedocˇeske´ho kraje se nelisˇ´ı od hodnoty 107, 8. Zjisˇteˇna´ data jsou uvedena v tabulce. a Poc ˇet
65 lety´ch a starsˇ´ıch na 100 obyvatel ve veˇku 0 – 14.
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Prˇ´ıklad Na´zev okresu Index sta´rˇ´ı (%) Benesˇov 105, 7 Beroun 98, 6 Kladno 101, 4 Kolı´n 107, 6 Kutna´ Hora 119, 2 Meˇlnı´k 96, 8 Mlada´ Boleslav 97, 9 Nymburk 96, 1 Praha-vy´chod 71, 5 Praha-za´pad 67, 2 Prˇ´ıbram 108, 1 Rakovnı´k 108, 6 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
ˇ esˇenı´ R po oveˇrˇenı´ normality zjistı´me, zˇe nelze pouzˇ´ıt parametricky´ test jednovy´beˇrovy´ Wilcoxonu˚v test - nenı´ prˇ´ımo implementova´n v syste´mu STATISTICA obejdeme situaci tı´m, zˇe pouzˇijeme pa´rovy´ Wilcoxonu˚v test Statistiky – Neparametricka´ statistika – Porovna´nı´ dvou za´visly´ch vzorku˚ (promeˇnne´) – OK
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
ˇ esˇenı´ R Nedopustili jsme se chyby? syste´m STATISTICA pracuje s asymptotickou variantou testu - my jsme vsˇak meˇli pouze dvana´ct pozorova´nı´ je zapotrˇebı´ oveˇrˇit nasˇe pocˇı´na´nı´ - mu˚zˇeme vsˇak pouzˇ´ıt vypocˇtenou hodnotu testovacı´ho krite´ria (oznacˇeno pı´smenem T = 14) z tabulek zjistı´me kritickou hodnotu: 13 na hladineˇ vy´znamnosti α zamı´ta´me nulovou hypote´zu o shodeˇ media´nu hodnot indexu˚ sta´rˇ´ı a konstanty 107, 8
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Dvouvy´beˇrovy´ Wilcoxonu˚v test v programu STATISTICA pod na´zvem test Mann-Whitney obdobneˇ jako dvouvy´beˇrovy´ t-test je nejpouzˇ´ıvaneˇjsˇ´ım neparametricky´m testem Necht’ X1 , . . . , Xn a Y1 , . . . , Ym (prˇicˇemzˇ rozsahy n a m jsou obecneˇ ru˚zne´) jsou dva neza´visle´ na´hodne´ vy´beˇry ze dvou spojity´ch rozdeˇlenı´, jejichzˇ distribucˇnı´ funkce se mohou lisˇit pouze posunutı´m = musı´ „vypadat stejneˇ“. Oznacˇme Med (x ), resp. Med (y ) media´n prvnı´ho, resp. druhe´ho rozdeˇlenı´. Testujeme hypote´zu, zˇe media´ny teˇchto dvou rozdeˇlenı´ jsou shodne´ proti alternativeˇ, zˇe jsou rozdı´lne´, tj.: H0 : Med (x ) − Med (y ) = 0 proti H1 : Med (x ) − Med (y ) 6= 0. 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Test Mann-Whitney Postup provedenı´ testu a) Vsˇechny hodnoty usporˇa´da´me vzestupneˇ podle velikosti (n + m hodnot). b) Secˇteme porˇadı´ vsˇech hodnot X1 , . . . , Xn a oznacˇı´me ∑ R1 . Obdobneˇ secˇteme porˇadı´ vsˇech hodnot Y1 , . . . , Ym a oznacˇı´me ∑ R2 . c) Vypocˇı´ta´me testova´ statistiky U1 a U2 podle na´sledujı´cı´ch vzorcu˚, prˇicˇemzˇ platı´ vztah U1 + U2 = mn: U1 = nm +
n (n + 1) − ∑ R1 2
U2 = nm +
m (m + 1) − ∑ R2 2
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Test Mann-Whitney
d) Pokud je mensˇ´ı z hodnot U1 , U2 mensˇ´ı nebo rovna nezˇ kriticka´ hodnota, kterou nalezneme v tabulka´ch (v za´vislosti na rozsazı´ch vy´beˇru˚ a hladineˇ vy´znamnosti α), pak nulovou hypote´zu o shodeˇ media´nu˚ obou rozdeˇlenı´ zamı´ta´me na dane´ hladineˇ vy´znamnosti α a prˇijı´ma´me alternativnı´ hypote´zu.
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Prˇ´ıklad
Ze souboru Pru˚mysl 1987 vyberte podniky v okresu Karvina´ a Most (jak vı´te, oba okresy jsou teˇzˇebneˇ zameˇrˇeny) a vytvorˇte ukazatel spocˇı´vajı´cı´ v podı´lu celkove´ho obratu podniku (podle klasifikace CZ-NACE spadajı´cı´ch do kategorie 10) a pocˇtu vsˇech zameˇstnancu˚. Existuje rozdı´l mezi media´ny „vy´nosnostı´“ podniku˚ zameˇrˇeny´ch na teˇzˇbu v obou regionech? Testujte tuto hypote´zu na hladineˇ vy´znamnosti α = 0, 05.
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
ˇ esˇenı´ R graficke´ i pocˇetnı´ metody oveˇrˇova´nı´ normality dat sveˇdcˇı´ v tomto prˇ´ıpadeˇ o porusˇenı´ tohoto prˇedpokladu pro pouzˇitı´ parametricky´ch metod otevrˇeme si prˇipraveny´ soubor, kde promeˇnna´ Rozdeˇlenı´ podniku˚ podle okresu˚ je tzv. grupovacı´ promeˇnnou Statistiky – Neparametricka´ statistika – Porovna´nı´ dvou neza´visly´ch vzorku˚ (skupiny) – OK zvolı´me promeˇnne´ (promeˇnna´ Obrat prˇepocˇteny´ na jednoho pracovnı´ka bude za´visle promeˇnnou; grupovacı´ promeˇnnou jsme jizˇ zmı´nili vy´sˇe) a hladinu vy´znamnosti testu zvolı´me ikonu Mann-Whitneyu˚v U test (pouzˇ´ıt lze i dvouvy´beˇrovy´ K-S test) 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
ˇ esˇenı´ - interpretace testu R
vystupujı´ zde dveˇ p-hodnoty pod symbolem U vystupuje hodnota testove´ statistiky, cozˇ je mensˇ´ı z hodnot U1 , U2 symbol Z oznacˇuje asymptotickou hodnotu testove´ statistiky, pro kterou vystupuje p-hodnota pod na´zvem U´rovenˇ p pro rozsahy vy´beˇru˚ pod 30 porovna´va´me s hladinou vy´znamnosti α prˇesnou p-hodnotu (2*1 str. prˇesne´ p), ktera´ je urcˇena pro testovou statistiku U p-hodnota = 0, 289503, proto na hladineˇ vy´znamnosti α = 0, 05 nezamı´ta´me nulovou hypote´zu o shodeˇ media´nu˚ obou vy´beˇru˚ 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
K-S test pouzˇitı´ nejenom pro testova´nı´ normality dat v prˇ´ıpadeˇ, kdy nelze pouzˇ´ıt test Mann-Whitney (distribucˇnı´ funkce se nelisˇ´ı pouze posunutı´m) X1 , . . . , Xn a Y1 , . . . , Ym jsou dva neza´visle´ na´hodne´ vy´beˇry ze dvou spojity´ch rozdeˇlenı´ - testujeme hypote´zu, zˇe distribucˇnı´ funkce rozdeˇlenı´, z nichzˇ na´hodne´ vy´beˇry pocha´zejı´, jsou shodne´ hodnota testove´ statistiky uda´va´ nejveˇtsˇ´ı absolutnı´ rozdı´l mezi hodnotami vy´beˇrovy´ch distribucˇnı´ch funkcı´ pro jake´koliv rea´lne´ x cˇı´m veˇtsˇ´ı hodnota, tı´m veˇtsˇ´ı pravdeˇpodobnost zamı´tnutı´ H0 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
K-W test a media´novy´ test
oba testy patrˇ´ı mezi vı´cevy´beˇrove´ (asponˇ dva neza´visle´ na´hodne´ vy´beˇry o obecneˇ ru˚zny´ch rozsazı´ch) neparametricke´ testy neparametricka´ obdoba parametricky´ch testu˚ zalozˇeny´ch na analy´ze rozptylu jednoduche´ho, resp. dvojne´ho trˇ´ıdeˇnı´ K-W test je nepatrneˇ silneˇjsˇ´ı
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
K-W test a media´novy´ test Necht’ je da´no m ≥ 2 neza´visly´ch na´hodny´ch vy´beˇru˚ o rozsazı´ch n1 , n2 , . . . , nm . Prˇedpokla´dejme, zˇe tyto vy´beˇry pocha´zejı´ ze spojity´ch rozdeˇlenı´ a oznacˇme jejich celkovy´ rozsah n = n1 + n2 + · · · + nm . Na dane´ hladineˇ vy´znamnosti α testujeme hypote´zu, zˇe vsˇechny tyto na´hodne´ vy´beˇry pocha´zejı´ z te´hozˇ rozdeˇlenı´. K-W test patrˇ´ı mezi porˇadove´ testy media´novy´ test pracuje s media´nem urcˇeny´m ze vsˇech n hodnot a testova´ statistika je pak zalozˇena na pocˇtu hodnot jednotlivy´ch vy´beˇru˚, ktere´ jsou veˇtsˇ´ı nebo rovny media´nu testove´ statistiky teˇchto testu˚ se rˇ´ıdı´ rozdeˇlenı´m χ2 (m − 1), kdyzˇ H0 platı´ 7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy
´ vod, pojmy U Parametricke´ testy Neparametricke´ testy
Wilcoxonu˚v test K-S test K-W test a media´novy´ test
Deˇkuji za pozornost...
7. Testova´nı´ statisticky´ch hypote´z
KGG/STG Statistika pro geografy