Úvod
Testy statistických hypotéz Václav Adamec
[email protected]
Statistické hypotézy
• Testování: kvalifikovaná procedura vedoucí v zamítnutí nebo nezamítnutí nulové hypotézy v podmínkách nejistoty • Testy jsou vázány na rozdělení náhodných veličin • Testy jsou podmíněny formulací vědeckého problému a experimentálním designem • Hypotéza: předpoklad o statistických parametrech nebo jejich kombinacích. Typy: hypotéza nulová H0 a alternativní H1 • Testovací statistika: numerická charakteristika vypočtená z dat popř. z parametrů. Má známé rozdělení
Typy chyb při statistickém testování
• Nulová hypotéza H0: formulace negativním způsobem (efekt neexistuje) H0: θ = θ0 • H0 vytváří předpoklad o rozdělení parametrů nebo testovací statistiky • Alternativní hypotéza H1: formulace mimo obor hodnot nulové hypotézy. Obsahuje alternativní předpoklad, který chceme dokázat – Dvoustranná H1: θ ≠ θ0 – Levostranná H1 : θ < θ0 – Pravostranná H1 : θ > θ0
• H0 zamítáme, je-li vypočtená testovací statistika v oblasti zamítnutí • Oblast zamítnutí H0 je určena typem H1 a parametry rozdělení testovací statistiky
Rozhodnutí o H0
Realita o H0
H0 zamítnuta
H0 nezamítnuta
H0 pravdivá
chyba I. typu (α)
(1- α)
H0 nepravdivá
síla testu (1-β)
chyba II. typu (β)
Chyby při statistickém testování • Chyba I. Typu (α): H0 zamítnuta a zároveň H0 je pravdivá. Rozdíly prohlášeny za průkazné, avšak průkazné nejsou (H0 je pravdivá). Test produkoval nesprávný pozitivní nález • Chyba II. Typu (β): H0 nezamítnuta a zároveň je H0 nepravdivá. Rozdíly prohlášeny za neprůkazné, avšak průkazné jsou (H0 je nepravdivá). Test produkoval nesprávný negativní nález • Situace 1 - α a 1 - β jsou korektní – V případě (1-α) H0 nezamítáme H0 je pravdivá – V případě (1-β) H0 zamítáme a H0 je nepravdivá
• Oba typy chyb nemohou nastat současně • Kontrolujeme pouze α s ohledem na míru přijatelného rizika důsledků chyby I. typu
Síla testu •
Pravděpodobnost 1-β se nazývá síla statistického testu. Vysoká hodnota 1 - β je žádoucí pro úspěch testování Síla testu závisí na:
• – – – –
• • •
Rozsahu souboru: vyšší n zvyšuje sílu Variabilitě dat: kontrolovaná variabilita zvyšuje sílu Zvolené hodnotě alfa: vysoká alfa zvyšuje sílu, (ale i chybu I. typu …) Ploše překryvu rozdělení testovací statistiky za platnosti H0 a H1. Vysoký překryv snižuje sílu testu
Žádoucí hodnota 1-β u testů je > 80 % Testy s jednostrannou H1 mají vyšší sílu než oboustranné H1 Testy jednovýběrové mají vyšší sílu než dvou-výběrové na shodných datech
Rozsah souboru a síla testu
Vliv překrytí rozdělení za H0 a H1
P ow er of one-sam ple z -test 0.5
1.0
Distributions of the statistic under H0 and H1
Alter. distribution H1:mu = 3
Power
0.4
0.8
Null distribution H0:mu = 0
0.1
0.2
0.2
0.4
Density
power
0.3
0.6
Z 0.975
n = 100 n = 30 n = 10
0.0
0.0
β -1.0
-0.5
0.0 delta alpha=0.05, delta=-1:1, sd=1
0.5
1−β α
1.0
-4
-2
0
2
4
6
8
Malé překrytí rozdělení za H0 a H1
Síla testu
0.5
Distributions of the statistic under H0 and H1
Alter. distribution H1:mu = 6
0.4
Null distribution H0:mu = 0
• Negativně působí na sílu testu (obecně): Power
Z 0.975
Heterogenita variancí Sériové závislosti residuí (pod-specifikovaný model) Odchylky od normality (extrémní šikmost) Vysoký počet proměnných v testovací statistice
0.1
0.2
Density
0.3
– – – –
1−β 0.0
α
-2
0
2
4
6
8
P-value
• Je pravděpodobnost výskytu extrémnější hodnoty testovací statistiky, než té, která byla empiricky vypočtena • Synonyma: vypočtená průkaznost nebo vypočtená alfa • Účel: rovnocenné kritérium (ne)zamítnutí H0 • Testovací kritérium: p-value < alfa J zamítáme H0 • Hodnota p-value testu je určena typem H1 a parametry rozdělení testovací statistiky, z kterého se zjišťuje.
Úskalí statistických testů
• Zamítnutí H0 závisí na: – – – –
rozsahu souboru zvolené hodnotě alfa variabilitě dat parametrech rozdělení testovací statistiky za platnosti H0 a H1
• Manipulací těchto veličin lze dosáhnout zamítnutí každé H0 ! • Statisticky průkazný rozdíl neznamená prakticky významný rozdíl !
Z-test nebo t-test ? • Fakt: Lokační míry lze odhadovat relativně snadněji a spolehlivěji než dispersní míry • Z - testy o parametrech se používají v situacích, je-li známa σ2, tedy kvalitní odhad rozptylu • Výběrová rozdělení se mohou lišit v lokační míře, avšak mají stejný a známý rozptyl • T-testy o parametrech se používají v situacích, není-li známa σ2, tedy když máme méně kvalitní odhad rozptylu s2 • Výběrová rozdělení se mohou lišit v lokační míře, avšak mají stejný ale neznámý rozptyl • Rozptyly z dvou nebo více výběrů mohou být stejnorodé nebo různorodé
Testy na normalitu • • • •
Test dobré shody: neparametrický aproximační test vycházející z χ2 rozdělení Použitelný pro více typů rozdělení, především nespojitá Využívá intervalového třídění výběru do p tříd (p ≈ n 1/2) Kalkulace empirických (O) a očekávaných (E) četností (z funkce F(x))
(Oi − Ei )2 2 ~ χp−1 Ei i=1
Předpoklady testů • Normální rozdělení výběrového souboru s daným průměrem a rozptylem • Konstantnost a sériová nezávislost rozdělení hodnot (I.I.D.) • Obecná formule Z – testu: θ −θ 0 Zobs = ~ N(0,1) • se(θ −θ0 ) • Obecná formule T – testu:
t obs =
• Pozn.: θ - θ0 rozdíl parametrů; se(θ - θ0) = střední chyba rozdílu
Jedno-výběrový z-test a t-test • Z - test: Testujeme, zda-li se průměr výběru liší od specifikované hodnoty µ0, za dostupnosti rozptylu populace σ2. H0 : µ = µ0
Z obs =
p
χ2obs = ∑
• Shapiro – Wilks test: Snad nejlepší test normality • Kalkuluje statistiku W podobnou čtverci korelace mezi empirickými a teoretickými kvantilami • Test je levostranný ! Nízká hodnota W (již okolo 0.9 !) zamítá H0: Y ~ N(µ,σ2). • Kolmogorov – Smirnov test: test pro jeden (K) nebo dva soubory (S) a spojitá rozdělení. max Fˆ ( y) − F0 ( y) • Porovnává F(y) empirického a rozdělení H0: D= n • Vysoká hodnota D zamítá H0. (pravostranný test)
θ −θ0 ~ tν se (θ − θ 0 )
• Oblasti zamítnutí H0:
µ − µ0 ~ N (0,1) σ/ n
H1 : µ > µ0 → zobs > z1−α
H1 : µ < µ0 → zobs < zα
H1 : µ ≠ µ0 → zobs > z1−α / 2
• T - test: Testujeme, zda-li se průměr výběru liší od specifikované hodnoty µ0, za dostupnosti výběrového rozptylu s2. t obs =
H1 : µ ≠ µ0 → tobs > t1−α / 2;n−1
µ − µ0 s/
n
~ t n −1
H1 : µ > µ0 →tobs > t1−α;n−1
H1 : µ < µ0 → tobs < tα;n−1
Oblast zamítnutí H0
F-test o dvou rozptylech • F - test homogenity dvou nezávislých souborů
Z 0.95
Reject H0! 0.2
H α
0.0
Density
0.4
Rejection region of the statistic: one-sided H1
-4
-2
0
2
0
:
σ σ
2 1 2 2
= 1
H
1
:
σ σ
2 1 2 2
≠ 1
H
• Testovací statistika:
4
Fobs =
T
• Oblasti zamítnutí H0:
Z 0.025
– Oboustranná H1:
Fobs < Fα / 2;n1 −1;n2 −1
– Pravostranná H1:
Fobs > F1−α ;n1 −1;n2 −1
– Levostranná H1:
Fobs < Fα ;n1 −1;n2 −1
Z 0.975
Reject H0!
Reject H0!
σ σ
2 1 2 2
< 1
H
1
:
σ σ
2 1 2 2
> 1
s12 ~ Fn1 −1; n2 −1 s 22
Fobs > F1−α / 2;n1 −1;n2 −1
0.2
Density
0.4
Rejection region of the statistic: two-sided H1
:
1
α 2
0.0
α 2
-4
-2
0
2
4
T
Dvou-výběrový z-test
Dvou-výběrový t-test (sdružený)
• Dva nezávislé soubory o průměrech a známých rozptylech σ12 a σ22. y1 ~ N(µ1,σ12 / n1) H0 : µ1 = µ2
• Testovací statistika:
y2 ~ N(µ2 ,σ 22 / n2 )
y1 − y2 ~ N(µ1 − µ2 ,
H 1 : µ1 ≠ µ 2 Z obs =
H1 : µ1 < µ2 y1 − y 2
σ 12 n1
+
σ 22
σ
2 1
n1
+
σ
2 2
n2
)
H1 : µ1 > µ2
~ N (0,1)
n2
• Oblast zamítnutí H0 je shodná s jedno-výběrovým z-testem
• Dva nezávislé soubory o průměrech a neznámých rozptylech s12 a s22. Rozptyly jsou si rovny! (n − 1)s12 + (n2 − 1)s22 s 2p = 1 • Sdružený odhad rozptylu σ2: n1 + n2 − 2 • Sp2 je odhadem společné variance obou souborů • Za podmínky normality: • Testovací statistika:
y1 − y2 ~ N ( µ1 − µ 2 , σ p2 ( t obs =
y1 − y 2 1 1 + s n1 n 2 2 p
1 1 + )) n1 n2
~ t n1 + n 2 − 2
Dvou-výběrový t-test (Welschův)
Centrální limitní věta
• Dva nezávislé soubory o průměrech a neznámých rozptylech s12 a s22. Rozptyly si rovny nejsou ! y1 − y 2 w obs = ~ tν • Welschova testovací statistika: s 12 s 22 + n 2 n1 • Stupně volnosti ν se aproximují podle Satterthwaita: 2 s12 s 22 + n n ν = 2 12 2 2 (s / n ) (s / n ) 2 1 1 + 2 2 n2 − 1 n1 − 1
z=
1000 výběrů,ni=10,a=0,b=20,uniformní densita Rozdeleni prumeru
Z-test o jednom výběrovém poměru • Aplikace CLV: • Testujeme, zda se výběrový poměr π rovná populačnímu poměru π0
Normal Q-Q Plot
14
140
H0 : π = π 0
12
120
-3
10
15
H1 : π < π 0
π − π 0 ± 0 .5 / n ~ N (0,1) π 0 (1 − π 0 )
10
Sample Quantiles
20
5
z obs =
H1 : π > π 0
• n představuje rozsah výběrového souboru • Korekce na kontinuitu v čitateli (Yates) když n*min(π,1-π) < 5
40
0
H1 : π ≠ π 0
n
8
60
• Testovací statistika:
6
Frequency
80
y − E( yi ) y −µ = ~ N (0,1) Var( yi ) / n σ / n
• Výhoda: možnost normální aproximace při dostatečném rozsahu • Minimální rozsah n závisí na typu rozdělení (menší pro souměrná, větší pro nesouměrná)
• Welschův t - test vykazuje méně ν a proto má i nižší 1 – β než sdružený t-test. • Použití: Je-li jedna z variancí je více než trojnásobek druhé
100
• Znění: Jestliže yi je náhodný výběrový soubor o rozsahu n, společné střední hodnotě µ a varianci σ2, pak rozdělení výběrových průměrů aproximuje Gaussovo rozdělení o průměru µ a varianci σ2/n pokud se n přibližuje asymptotě (∞). • Důsledek: výběrové průměry souborů pocházející z kteréhokoliv rozdělení mají přibližně normální rozdělení, je-li n dostatečně velké
-2
-1
0
1
2
3
– Je záporná o hodnotě - 0.5/n když π > π0 – Je kladná o hodnotě + 0.5/n když π < π0
Theoretical Quantiles
s
Z-test rovnosti dvou výběrových poměrů
Příklad testu dvou výběrových poměrů
• Testujeme, zda se výběrový poměr π1 rovná výběrovému poměru π2
H1 :π1 −π2 ≠0
H0 : π1 −π2 = 0 • Testovací statistika:
zobs =
H1 :π1 −π2 >0
π1 − π 2
1 1 + n1 n2
H1 :π1 −π2 <0
~ N (0,1)
π (1 − π )
• n1 a n2 představují rozsahy výběrových souborů • CLV aplikovatelná, když min(π,1-π) * min(n1,n2) ≥ 5 • Test je ekvivalentní testu rovnosti obou výběrových poměrů π1 a π2 sdruženému poměru π. Odhad π se vypočítá: n πˆ =
• Ekvivalentní je Chi-kvadrát test 2 x 2 kontingenční tabulky 2 = χ obs
∑
Počty albínů ve 2 populacích: 8 a 15 Rozsahy populací: 67 a 78 Výběrové poměry populací: 8 / 67 = 0,1194 a 15 / 68 = 0,1923 Sdružený poměr populací: 23 / 145 = 0,1586 Testovací statistika : (0,1194 - 0,1923)/odm(0,1586*(1-0,1586)*(1/67 + 1/78)) = -1,198 P-value = 0,231 (dvoustranná H1: rozdíly neprůkazné)
uspech
i
n
n.. ( n11n00 − n10 n01 ) 2 ~ χ 12 n1. n0. n.1n.0
χ2 test o rovnosti více poměrů • Testujeme, zda se výběrové poměry π1 π2 ... πp rovnají
H0 :π1 =π2 = ...=π p
H 1 : nerovnost
• Výpočet sdružené hodnoty π
∑n ∑n
uspech
πˆ =
i
i
i
• Výpočet dílčích statistik zi
zi =
π i − π ± 0 .5 / ni ~ N (0 ,1) π (1 − π ) ni
• Souhrnná statistika χ2 je pak
χ
2 obs
=
p
∑z i =1
2 i
~ χ
2 p −1
Rozšíření na polychotomický případ
• Testujeme, zda se multinomické výběrové poměry π1 π2 ... πj rovnají mezi k skupinami • Nejsnazší řešení přes rekonstrukci kontingenční tabulky a χ2 test nezávislosti • Příklad: Ve čtyřech výběrech z různých populací laboratorních myší (n1 = 120; n2 =120; n3 = 96; n4= 116; ) byly pozorovány relativní četnosti alel A1, A2 a A3. Testujte, zda se četnosti liší mezi populacemi.
• Řešení možné i χ2 testem (2 x p) kontingenční tabulky
Potřebný rozsah náhodného výběru
Příklady na rozsah výběru
• Minimální rozsah výběru (n) lze určit úpravou vzorců testovací statistiky nebo tzv. přípustné chyby ∆ používané k sestavení (1-α)*100 % intervalu spolehlivosti. • Výsledné hodnoty n se obvykle zaokrouhlují nahoru • jednovýběrový z - test jednostranné H1: • jednovýběrový z - test dvoustranné H1:
n=
(z n=
• k = koeficient n1 / n2
∆2
∆2
(1−α / 2)
+ z(1−β ) ) ⋅ (σ12 +σ22 / k) 2
(1−α )
(z
2
2
(z n= n=
+ z(1−β ) ) ⋅ σ 2
(1−α )
2 (1−α / 2) + z(1−β ) ) ⋅ σ
• dvouvýběrový z - test jednostranné H1: • dvouvýběrový z - test dvoustranné H1:
(z
∆2
+ z(1−β ) ) ⋅ (σ +σ / k) 2
2 1
2 2
∆2
• Rozpětí křídel dospělých jedinců jistého ptačího druhu je v průměru µ0 = 48 cm. Biolog chce objevit nový poddruh, který se liší nejméně o 4 cm. Kolik jedinců musí být odchyceno a změřeno, jestliže σ rozpětí je 6,5 cm? Předpokládáme 1-β = 0,95, α = 0,05. jednostranná H1: n = (z 0,95 + z 0,95)2*6,52 / 42 = 28,5773 ≈ 29 dvoustranná H1: n = (z 0,975 + z 0,95)2*6,52 / 42 = 34,3142 ≈ 35 • Chceme zjistit jestli se četnost homozygotů alely jistého genu u importované landrace průkazně liší od domácí populace, kde je známá frekvence p0 = 30%. Kolik jedinců je potřeba genotypovat, chceme-li zjistit minimální rozdíl 3%. Předpokládáme 1-β = 0,90, α = 0,05, maximální varianci. jednostranná H1: n = (z 0,95 + z0,90)2*0,52 / 0,032 = 2378,85 ≈ 2379 dvoustranná H1: n = (z 0,975 + z0,90)2*0,52 / 0,032 = 2918.73 ≈ 2919
• V případě t-testu: n se násobí (ν + 3)/(ν + 1), kde ν jsou stupně volnosti pro chybu (Cox and Cochran).
Statistiky jsou nejvyšším vývojovým stádiem lži...