Lekce 3
Testování hypotéz „Vlajkovou lodí“ matematické statistiky jsou techniky testování hypotéz. Formulace hypotéz a jejich ověřování jsou základním mechanismem postupu lidského poznání. Pokud jsou informace, potřebné k ověření hypotézy, čerpány z náhodného výběru z rozdělení pravděpodobnosti náhodné veličiny, jde o statistické hypotézy, které jsou vyslovovány o parametrech rozdělení náhodných veličin, o jejich nezávislosti, o tvaru rozdělení, o odlehlých hodnotách atd. atd. Již několikrát jsme se zmiňovali o tom, že slyší-li laik „parametr rozdělení náhodné veličiny“, domnívá se zpravidla, že jde o pojem, který nemá žádnou souvislost s praktickým životem. Ovšem řada hodnot, které laik vnímá jako „konstanty“ — typicky množství výrobku v obalu, rozměr součástky apod. jsou ve skutečnosti náhodné veličiny (i když s poměrně „nepatrnou“ variabilitou). Sestrojit např. plnicí linku, která by plnila do obalu konstantní množství výrobku, stejně jako obráběcí stroj, produkující absolutně identické obrobky, je nemožné. Musíme se tedy spokojit s tím, že nikoli jednotlivé realizace, ale příslušné střední hodnoty, rozptyly apod. je třeba mít pod maximální kontrolou, neboť rozhodují o kvalitě či jakosti výrobků, využití systémů hromadné obsluhy a v mnoha dalších situacích.
alternativní hypotéza; dvouvýběrové testy; hladina významnosti; homogenita rozptylů; chyba druhého druhu; chyba prvního druhu; jednoduchá hypotéza; jednostranná hypotéza; jednovýběrové testy; kritický obor; neparametrický test; nevýznamný rozdíl; nulová hypotéza; obor „přijetí“; oboustranná hypotéza; odlehlá hodnota; síla testu; složená hypotéza; test dobré shody; testovaná hypotéza; testování; testové kritérium; vysoce významný rozdíl; významný rozdíl; zamítnutí; znaménková metoda
3.1
Základní pojmy a obecný postup při testování
Statistickou hypotézou rozumíme předpoklad o určitých vlastnostech náhodné veličiny (o úrovni, variabilitě, nezávislosti dvou náhodných veličin, o zákonu rozdělení) vyslovený nezávisle na eventuálních informacích o ní. Příklady statistických hypotéz náhodný výběr pochází z rozdělení náhodné veličiny, jejíž parametr je roven předpokládané hodnotě c, dva náhodné výběry pochází z rozdělení náhodných veličin se stejnou hodnotou parametrů, dvě náhodné veličiny jsou nezávislé, počet vadných výrobků v dodávce nepřesahuje číslo c, náhodný výběr pochází z rovnoměrného (Poissonova apod.) rozdělení. Praktický význam ověřování takovýchto tvrzení (zdánlivě od „života“ odtržených) v různých oblastech vědy i praxe je značný. Jako adekvátní příklad lze uvést např. statistickou přejímku. Proti testované (také nulové) hypotéze stavíme její protiklad — alternativní hypotézu (např. parametr není roven předpokládané hodnotě c, náhodné veličiny nejsou nezávislé, náhodná veličina nemá rovnoměrné rozdělení). Smyslem testování hypotéz je zamítnutí nulové hypotézy a přijetí hypotézy alternativní. Pouze v tomto případě, kdy se testovaná hypotéza ukáže jako neudržitelná, lze hovořit o jednoznačném výsledku testu. Pokud se nulovou hypotézu nepodaří zamítnout, nelze to považovat za důkaz její správnosti, neboť současně lze zpravidla sestrojit nekonečně mnoho dalších (různých) nulových hypotéz,
22
které by společně s původní za daných okolností zůstaly rovněž nezamítnuty. Testy vycházející z tohoto principu nazýváme testy významnosti a pouze těmito testy se nadále budeme zabývat. Vzhledem k tomu, že při testování hypotéz jsme odkázáni na informace z náhodného výběru, existuje riziko, že výsledek testu nebude v souladu s realitou. Tuto problematiku budeme řešit zanedlouho. Obecný postup testování hypotéz Formulace testované (nulové) hypotézy H 0 a alternativní hypotézy H1 . Např. testovanou (nulovou) hypotézu, že „plnicí linka je správně nastavena“, budeme formulovat jako H 0 : µ = c (kde c je požadované množství výrobku v obalu), kdežto alternativu můžeme zformulovat různě — např. jako H1 : µ ≠ c — „plnicí linka je nesprávně nastavena“, jako H1 : µ < c — „linka plní menší
množství“ případně H1 : µ > c — „linka plní větší množství“. Hypotézu, která obsahuje pouze jeden možný případ (takovou hypotézou je právě testovaná hypotéza obsahující =), označíme jako jednoduchou. Alternativní hypotéza je naproti tomu hypotézou složenou, a to buď oboustrannou ( ≠ ) nebo jednostrannou (>, <). V souvislosti s tím se hovoří též o jednostranných a oboustranných testech. Podobně jako u konfidenčních intervalů je vhodný tvar alternativní hypotézy odvozen od konkrétního zadání úlohy.
Najděte možné slovní vyjádření a interpretaci hypotéz
H 0 : θ = c; H 1 : θ ≠ c !
Volba hladiny významnosti α . Hladina významnosti je pravděpodobnost (riziko) nesprávného zamítnutí pravdivé nulové hypotézy. Tuto pravděpodobnost lze (na rozdíl od pravděpodobnosti nesprávného nezamítnutí nepravdivé hypotézy) předem zvolit. Prakticky se hladina významnosti často volí na hodnotách α = 0,05; α = 0,01 (tj. stejně jako riziko odhadu), případně podle okolností i jinak. Získání informací z výběru a výpočet hodnoty testového kritéria. Testové kritérium je náhodná veličina — statistika, jejíž rozdělení pravděpodobnosti za předpokladu platnosti nulové hypotézy je známo. Jsou tedy známy i jeho kvantily, resp. pravděpodobnosti, že se testové kritérium odchýlí od své předpokládané hodnoty o více, než je libovolná zadaná hodnota. Obvyklými testovými kritérii jsou veličiny s normovaným normálním, Studentovým, Pearsonovým nebo Fisherovým–Snedecorovým rozdělením.
Vraťte se k první lekci a odpovězte na otázku, které z dále uvedených nulových hypotéz lze/nelze testovat pomocí právě uvedených rozdělení:
H 0 : θ1 = θ 2 ; H 0 :
σ 12 µ ; H0 : 1 2 σ2 µ2
. Nevyhovující
hypotézy se pokuste přeformulovat do takového tvaru, aby byly ověřitelné. (3–1)
Některé testy ovšem vyžadují konstrukci speciálních testových kritérií. Obor hodnot testového kritéria, do kterého při platnosti nulové hypotézy a zvolené hladině významnosti α kritérium padá prakticky jistě — tj. s pravděpodobností 1 − α , nazýváme oborem „přijetí“ (správněji však oborem nezamítnutí) testované hypotézy. Doplňkem oboru přijetí je tzv. kritický obor, v němž je výskyt testového kritéria za předpokladu platnosti testované hypotézy jevem prakticky nemožným. Pokud se v něm tedy hodnota testového kritéria přesto nachází, svědčí to s velkou pravděpodobností o její neudržitelnosti a ve prospěch alternativní hypotézy. Hranice kritického oboru tvoří tzv. kritické hodnoty, které jsou zároveň i kvantily rozdělení testového kritéria. U oboustranných testů, na které se až na nezbytné výjimky omezíme, je kritický obor testového kritéria tvořen vždy dvěma samostatnými intervaly, které ohraničují 100
α
2
% a 100(1 −
α
2
)% kvantily testového kritéria. Pokud má testové kritérium
např.
23
Obr. 3.1 Kritický obor testového kritéria U rozdělení N [0; 1] , je kritický obor oboustranného testu při hladině významnosti α = 0,05 tvořen všemi hodnotami testového kritéria, které (viz obr. 3.1) buď nedosahují kritické hodnoty u α = −u α = − u0,975 = −1,96 nebo přesahu-
φ(u) 0.4 Obor přijetí Kritický obor
2
0.2
1−
2
jí kritickou hodnotu u α = u0,975 = +1,96 . 1−
0
-3
uα 2
-1
0
1
u
1−
α
2
u
2
Pomocí tabulek kvantilů Studentova rozdělení porovnejte právě uvedené hranice s hranicemi kritického oboru při oboustranném testu pro rozsah výběru 5, 10,15,20, 30!
Hypotézy, ke kterým nelze sestrojit testové kritérium se známým zákonem rozdělení, nelze testovat.
Interpretace výsledků testování. Jednoznačným výsledkem testu je zamítnutí testované hypotézy a přijetí hypotézy alternativní. Pokud je předmětem testování rozdíl skutečné a předpokládané hodnoty parametru, hovoří se v tomto případě o prokázání významného (na hladině α = 0,05 ), resp. vysoce významného ( α = 0,01 ), rozdílu. Pokud existující rozdíl nepostačí k zamítnutí nulové hypotézy, hovoří se o statisticky nevýznamném rozdílu. Protože jsme při testování odkázáni na informace z náhodného výběru, je přirozené, že výsledek testu nemusí být vždy v souladu se skutečností.
Nastane-li případ, že testovaná hypotéza je sice pravdivá, ale hodnota testového kritéria přesto padne do kritického oboru, dojde k neoprávněnému zamítnutí testované hypotézy — k chybě prvního druhu. Pravděpodobnost tohoto výsledku je předem známá a dokonce volitelná — jde o pravděpodobnost odpovídající zvolené hladině významnosti α .
Nastane-li opačný případ, tj. že testovaná hypotéza není pravdivá, ale testové kritérium přesto nepadne do kritického oboru, dojde k neoprávněnému nezamítnutí nepravdivé testované hypotézy — chybě druhého druhu. Zatímco pravděpodobnost chyby prvního druhu je předem známá a volitelná, lze pravděpodobnost chyby druhého druhu β stanovit (nejde o triviální problém) až po známém výsledku testu. Tato pravděpodobnost je totiž proměnlivá a navíc nepřímo úměrná pravděpodobnosti chyby prvního druhu (čím nižší α , tím vyšší β ).
Sestavte čtyřpolní tabulku, jejíž řádky obsahují výrok o testované hypotéze (pravda/nepravda) a sloupce možné výsledky testu (zamítnutí/nezamítnutí). Označte pole obsahující výsledek, který je v souladu se skutečností a lokalizujte v tabulce chybu prvního a druhého druhu. Zvažte interpretaci rizika, pokud testovací procedurou je statistická přejímka. Čí riziko představují pravděpodobnost chyby prvního a druhého druhu? (3–2)
Velmi důležitou kategorií je síla testu 1 − β , což je pravděpodobnost oprávněného zamítnutí testované hypotézy. Problematikou síly testů se kvůli její náročnosti zabývat nebudeme, ale musíme alespoň upozornit na to, že je-li rozdíl skutečné a předpokládané hodnoty parametru (např. µ ,σ 2 ,θ
24
apod.) malý, je při malém rozsahu výběru velmi obtížné hypotézu zamítnout (síla testu je malá a reálně hrozí, že i nepravdivá hypotéza zůstane nezamítnuta). Opačným případem je situace, kdy při extrémně vysokém rozsahu výběru (takové případy se stávají, typicky např. při testování hypotéz o tvaru rozdělení) je každý i sebemenší rozdíl bezdůvodně indikován jako významný a i pravdivou hypotézu tedy „nelze nezamítnout“. V souvislosti s chybami při testování si můžeme položit otázku, co můžeme očekávat při mnohonásobném opakovaném provádění statistického testu.
Při jednotlivých pokusech je pravděpodobnost, že se dopustíme chyby prvního a druhého druhu, dána pravděpodobnostmi α , β a uživatel (pokud jsou tyto pravděpodobnosti malé) vůbec nemusí kalkulovat s tím, že se těchto chyb skutečně dopustí.
Při mnohonásobném opakování určitého testu je naopak prakticky jisté, že 100 α % vý-
sledků bude nesprávných z titulu neoprávněného zamítnutí pravdivé hypotézy a 100 β % výsledků bude nesprávných z titulu nezamítnutí nepravdivé hypotézy (které výsledky to konkrétně jsou, se pochopitelně nikdy nedozvíme).
3.2
Jednovýběrové testy o parametrech rozdělení
Veškeré potřebné údaje o některých nejfrekventovanějších testech shromáždíme do tabulky. Tvar alternativních hypotéz a kritických oborů vypovídá o tom, že jde o oboustranné testy. Tab. 3.1 Přehled jednovýběrových testů Hypotéza
H0
H1
µ=c
µ≠c
Testové kritérium
U=
Xn −c
σ
Stupně volnosti
Kritický obor
( −∞;−u
1−
α
>∪
2
1−
α
; ∞)
x
2
n
µ=c
σ2 = c θ =c
µ≠c
σ2 ≠ c θ ≠c
t=
χ2 = U=
Xn −c S n −1 n (n − 1) S n2−1 c p−c c(1 − c ) n
( −∞;−t
1−
α
>∪
2
1−
α
; ∞)
1−
2
( −∞;−u
1−
α
2
>∪
2
1−
α 2
; ∞)
Známé σ nebo
n > 30
n −1
Neznámé σ a
n −1
x
2
(0; χ α2 > ∪ < χ 2 α ; ∞)
Podmínky testu
x
n ≤ 30
nc(1 − c ) > 9
Příklad 3.1 Vrátíme se nyní k příkladu 2.1 ( se žárovkami) a ověříme hypotézu, že tvrzení výrobce o střední hodnotě životnosti je pravdivé, tj. H 0 : µ = 2400 proti alternativě H 1 : µ ≠ 2400 . Zvolíme obě obvyklé hladiny významnosti (tj. 0,05 i 0,01). Výběr v úloze 2.1 má n = 25, x = 2022, sn −1 = 426 . Realizace testového kritéria u =
2022 − 2400 = −4,44 . 426 25 25
Hranice kritického oboru pro α = 0,05 ± t0,975 [24] = ±2,064 pro α = 0,01 ± t0,995 [24] = ±2,797 . Testové kritérium spadá do kritického oboru při obou hladinách významnosti. Testovanou hypotézu tedy na obou hladinách zamítáme, přijímáme hypotézu alternativní. Rozdíl mezi udávanou a skutečnou životností můžeme označit za vysoce významný.
K jakému výsledku bychom dospěli, pokud bychom rozhodovali na základě výběru pouhých pěti (osmi) žárovek? Všechny ostatní hodnoty zůstanou zachovány. (3–3)
Pokud jste počítali správně, vidíte, že stejný rozdíl můžeme podle okolností prohlásit za nevýznamný, významný nebo vysoce významný. Důležitou roli při tom sehrává rozsah výběru. Čím je rozsah výběru menší, tím je obtížnější testovanou hypotézu zamítnout. Při tom roste pravděpodobnost, že se dopustíme chyby druhého druhu.
Je korektní zapsat všechna testová kritéria v tabulce 3.1 obecně jako této příležitosti význam symbolů
Tn − c ? Připomeňte si při D (Tn )
Tn , D(Tn ) . (3–4)
Při podrobnějším srovnání výsledků úlohy 2.1 a 3.1 bychom dovodili, že existuje vzájemně jednoznačný vztah mezi konfidenčním intervalem a testem hypotézy, který můžeme formulovat takto: Je-li na hladině významnosti α testovaná hypotéza o neznámém parametru H 0 : Θ = c zamítnuta, pak konfidenční interval při riziku α neobsahuje číslo c , a naopak. Nelze však prohlásit, že jde o zbytečné zdvojení problematiky. Ne ke všem testům hypotéz totiž odpovídající konfidenční intervaly existují.
Než postoupíte dál, vypočtěte ve cvičení k této lekci úlohy 1 a 2!
Počítačové řešení Uvádíme ukázku řešení testu hypotézy H 0 : µ = 7 proti alternativě H 1 : µ ≠ 7 při neznámém σ (pro tento test se obecně vžil název „t–test“) Proměnná Zadaná hodnota
n 10
Průměr 7,7000 7,0000
t-statistika = Stupně volnosti = dvoustranná pravděpodobnost =
Směrodatná odchylka 1,6364
Směrodatná chyba 0,5175
1,3527 9,0000 0,2091
Rozdíl mezi průměry = 0,7000 95% konfidenční interval = -0,4706 <> 1,8706 Rozsah výběru = Výběrový rozptyl = Síla testu = Významnost = 1- nebo 2-stranný test = Minimální rozlišitelný rozdíl =
10,0000 2,6778 0,8066 0,9500 2,0000 0,7000
Vidíme, že na rozdíl od námi prezentovaného postupu (vedle toho, že program poskytuje podstatně více informací, včetně síly testu, která mimochodem není vysoká) se zde nesrovnává vypočtená hodnota t s hodnotami tabulkovými, ale počítá se pravděpodobnost, s jakou se může vyskytnout odchylka 0,7 za předpokladu platnosti testované hypotézy. Vzhledem k tomu, že tato pravděpodobnost je poměrně vysoká (0,2091), hypotézu v tomto případě nelze zamítnout. Pravděpodobnost chyby druhého druhu je ovšem 1 – 0,8066 = 0,1934, tedy poměrně vysoká. Lze např. vypočítat, že za jinak stejných podmínek by pro dosažení síly testu 1 − β = 0,90 byl třeba výběr o rozsahu n = 60 (zatímco v našem příkladu to bylo jen deset).
26
3.3
Dvouvýběrové testy o parametrech rozdělení
Všechny údaje o těchto testech opět prezentujeme v podobě tabulky (3.2). Podoba alternativní hypotézy a jí odpovídající vymezení kritického oboru odpovídají oboustranným testům. Nejpoužívanější je test hypotézy H 0 : µ1 − µ 2 = 0 , u kterého přichází v úvahu tyto varianty:
Dva nezávislé výběry buď se známými rozptyly σ 12 , σ 22 (případně s extrémně vysokými rozahy výběrů n1 , n 2 ) nebo s neznámými rozptyly, které jsou nahrazeny bodovými odhady S12 , S 22 . Pokud tyto výběrové rozptyly nevedou k zamítnutí hypotézy
σ 12 = 1 , jde σ 22
o nezamítnutí hypotézy o homogenitě rozptylů. V tom případě má testové kritérium počet stupňů volnosti n1 + n 2 − 2 . Pokud je hypotéza o homogenitě rozptylů zamítnuta, jde o případ nehomogenních rozptylů. V tomto případě má testové kritérium rozdělení s tzv. redukovaným počtem stupňů volnosti (způsob výpočtu neuvádíme, je možno ho dohledat v příslušné literatuře a my se tomuto případu vyhneme).
Dva závislé výběry s párově uspořádanými dvojicemi měření x i , y i (kdy n1 = n 2 ). V tomto případě nahrazujeme zjištěné hodnoty jejich rozdíly ve dvojicích d i = x i − y i a
d=
1 n 1 n d , s = (d i − d ) 2 . ∑ ∑ i d n i =1 n − 1 i =1
σ 12 U testu hypotézy = 1 má kritický obor jen jednu část. Nejde o to, že by se jednalo o jedσ 22 nostranný test, ale druhou část kritického oboru není třeba vyšetřovat z toho důvodu, že testové kritérium je konstruováno tak, aby výsledek nebyl menší než jedna (větší rozptyl dělíme menším). Příklad 3.2 V návaznosti na příklad 2.5 provedeme test homogenity rozptylů na hladině významnosti 0,05 a 0,01. Použijeme údaje z příkladu 2.5.
2,32 F = 2 = 2,35 F0,975 [24; 20] = 2,408 F0,995 [24; 20] = 3,222 . Hypotézu o homogenitě rozptylů te1,5 dy nezamítáme. Příklad 3.3 V návaznosti na příklad 2.4 (poté, co jsme se přesvědčili o homogenitě rozptylů) ověříme shodu nastavení linek. Údaje opět budeme čerpat z příkladu 2.4. Rozptyly považujeme za neznámé a homogenní.
t=
501 − 498 25 + 21 24 ⋅ 2,3 2 + 20 ⋅ 1,5 2 25 ⋅ 21 25 + 21 − 2
= 5,13 t 0, 975 [44] ≈ u 0,975 = 1,960 t 0,995 [44] ≈ u 0,995 = 2,576 .
Hypotézu tedy zamítáme a rozdíl v nastavení obou linek považujeme za vysoce významný. Výsledek tedy opět koresponduje s příslušným konfidenčním intervalem z příkladu 2.4.
Než postoupíte dál, vypočtěte ve cvičení k této lekci úlohy 3 a 4!
27
Tab. 3.2 Přehled dvouvýběrových testů
Hypotéza
H0
µ1 − µ 2 = 0
Testové kritérium
H1
X1 − X2
U=
µ1 − µ 2 ≠ 0
σ 12 n1
µ1 − µ 2 = 0
µ1 − µ 2 ≠ 0
µ1 − µ 2 = 0
µ1 − µ 2 ≠ 0
E ( D) = 0
E ( D) ≠ 0
σ 12 =1 σ 22
σ 12 ≠1 σ 22
θ1 − θ 2 = 0
θ1 − θ 2 ≠ 0
t=
( −∞;−u
σ 22
n1 + n2 (n1 − 1) S12 + ( n2 − 1) S 22 n1n2 n1 + n2 − 2
X1 − X 2 n 2 S + n1 S 2 1
t=
2 2
n1 n 2
D n S ( D)
F=
1−
α
>∪
2
1−
α
; ∞)
Stupně volnosti
Podmínky testu
x
Nezávislé výběry, známé rozptyly nebo velké rozsahy výběrů
2
n2
X1 − X2
t=
U=
+
Kritický obor
( −∞;−t
( −∞;−t ( −∞;−t
S12 ≥1 S 22
p1 − p2 ( n1 p1 + n2 p2 )( n − n1 p1 − n2 p2 ) ( n1 + n2 )n1n2
1−
1−
1−
>∪
α 2
>∪
α 2
>∪
α 2
1−
( −∞;−u
28
1−
α 2
α
1−
1−
1−
α
; ∞)
n1 + n2 − 2
Nezávislé výběry, neznámé homogenní rozptyly
; ∞)
redukované
Nezávislé výběry, neznámé nehomogenní rozptyly
n −1
Párově uspořádané výběry,
n1 − 1; n 2 − 1
Test homogenity rozptylů
2
α 2
α
; ∞)
2
; ∞)
2
>∪
1−
α 2
; ∞)
x
D = X −Y
Velké rozsahy výběrů
3.4 Testování shody rozdělení (ukázka) Náhodný výběr z rozdělení pravděpodobnosti může být malého rozsahu (v tom případě bude zpravidla netříděný) nebo velkého rozsahu, přičemž může být tříděný nebo netříděný. Probereme pouze případ výběru velkého rozsahu n, tříděného do k tříd. Testuje se hypotéza, že hodnoty jsou náhodným výběrem z určitého rozdělení pravděpodobnosti. Pokud jsou známy parametry tohoto rozdělení, hovoříme o úplně specifikovaném problému, pokud parametry rozdělení neznáme, jde o neúplně specifikovaný problém. Princip testu spočívá v obou případech v tom, že pozorované (empirické, skutečné) četnosti ni (i = 1,2,..., k ) v jednotlivých třídách se porovnávají s četnostmi očekávanými (vypočtenými, teoretickými) ni′ , stanovenými pro příslušné rozdělení pravděpodobnosti náhodné veličiny. Testovým kritériem je veličina χ 2 =
(ni − ni′ ) 2 , která má za předpokladu platnosti testo∑ ni′ i =1 k
vané hypotézy Pearsonovo rozdělení s počtem stupňů volnosti, který je
u úplně specifikovaného problému, kdy jsou známy parametry, dán jako k − 1, u neúplně specifikovaného problému, kdy je třeba z výběru nejprve odhadnout parametry rozdělení a teprve pak určovat příslušné teoretické četnosti, roven k − p − 1 , kde p je počet odhadovaných parametrů. Podmínkou použití Pearsonova rozdělení je ni′ > 5 ve všech třídách. V případě, že tato podmínka není splněna, je třeba sousední třídy spojit, čímž dojde k poklesu počtu stupňů volnosti testového kritéria. Příklad 3.4 Ověříme hypotézu, že výběr o rozsahu n = 80 tříděný do k = 5 tříd, pochází z rovnoměrného rozdělení R[0;100] . Oba parametry považujeme za známé, α = 0,05 . Řešení viz pracovní tabulka 3.3. Tab. 3.3 Pracovní tabulka k testu dobré shody Vymezení Empirická Teoretická Intervalu četnost četnost
0; 20)
Vypočtená hodnota χ 2 = 3,3750 .
( n i − n i′ ) 2 n i′
Tabulková hodnota χ 02,95 [4] = 9,49 .
11
16
1,5625
20
16
1,0000
14
16
0,2500
60; 80)
16
16
0,0000
80;100)
19
16
0,5625
Součet
80
80
3,3750
20; 40)
40; 60)
Hypotézu tedy není možno zamítnout. Nejčastěji se pomocí testů shody rozdělení (kterých je velký počet — viz různé situace naznačené na začátku tohoto odstavce) ověřuje normalita rozdělení pravděpodobnosti náhodné veličiny.
Teoretické četnosti ni′ se stanovují pro diskrétní náhodnou veličinu jako součin rozsahu výběru n a hodnoty pravděpodobnostní funkce P(x),
pro spojitou náhodnou veličinu n1′ = nF ( x1 ), další hodnoty jsou pak stanoveny jako ni′ = n( F ( xi ) − F ( xi −1 )) a poslední hodnota n k′ = n(1 − F ( x k )), kde F (x ) je distribuční funkce.
29
Kritický obor tohoto testu je množina všech hodnot testového kritéria, které přesahují hodnotu 100(1 − α )% kvantilu rozdělení χ 2 — tento test existuje jen jako jednostranný (žádné rozdělením nemůže z principu být např. „rovnoměrnější“ než rozdělení rovnoměrné). Test se nazývá testem dobré shody.
3.5 Odlehlé hodnoty Klasické řešení problému identifikace odlehlých hodnot Toto řešení reprezentuje např. Grubbsův test extrémních odchylek, založený za předpokladu normálního rozdělení N µ ;σ 2 na tom, že P X − µ > 2σ = 0,046 < α = 0,05 . Při této hladině vý-
[
]
[
]
znamnosti tedy považujeme za odlehlou hodnotu každou hodnotu h, pro kterou h − X n > 2 S n −1 . Příklad 3. 5 Je dán náhodný výběr (uspořádaný podle velikosti) 2,3,4,5,6,7,8,9,10,50 , pro který x = 10,4 a
s n −1 = 14,15 . Pro hodnotu h = 50 je 50 − 10,4 = 2,80s n−1 a tato hodnota je tedy celkem podle očekávání identifikována jako odlehlá.
Podobně jako v předchozím případě mějme výběr 2,3,4,5,6,7,8,9,100,100 , který má
x = 24,4 a s n −1 = 39,9 . Vyjádřete se k hodnotě h = 100 . (3–5)
Použití aritmetického průměru a směrodatné odchylky není pro řešení problému odlehlých hodnot příliš efektivní a vede často k výsledkům, které jsou v rozporu s logikou. Robustní řešení problému identifikace odlehlých hodnot K řešení problému identifikace odlehlých hodnot lze s úspěchem využít robustního přístupu založeného na charakteristice MAD (median absolute deviation), tj. prostřední (mediánové) absolutní odchylce od mediánu jako robustní charakteristice variability. MAD je prostřední v řadě uspořádaných
MAD , kde σ je směro0,6745 MAD datná odchylka N µ ;σ 2 . Klasické kritérium je tedy nahrazeno kritériem h − ~ x >2 . 0,6745 odchylek x(i ) − ~ x a mezi ní a směrodatnou odchylkou je vztah estσ =
[
]
Příklad 3. 6 Pro oba výběry z příkladu 3.5 je medián roven 6,5 a MAD = 2,5 . Proto 2
MAD = 7,41 . Jako 0,6745
odlehlá tedy bude označena každá hodnota, jejíž odchylka od mediánu je větší než právě vypočtená hodnota. To se u prvního výběru týká — stejně jako u klasického přístupu založeného na odchylce od průměru — právě nejvyšší hodnoty 50 , u níž je tato odchylka rovna 43,5 .
Řešte odlehlé hodnoty z příkladu (3–5). (3–6)
Tento odstavec chápeme současně jako malou demonstraci významu „neklasických“ robustních metod ve statistice. Je třeba si ovšem uvědomit, že žádná metoda nedokáže identifikovat hrubé chyby za situace, kdy je hrubou chybou zatížena významná část pozorování. Rozhodnutí o vyloučení odlehlé hodnoty je vždy problematické. Nevyloučení odlehlé hodnoty, která je hrubou chybou, představuje problém, stejně jako vyloučení odlehlé hodnoty, která hrubou chybou není. Výskyt odlehlých hodnot lze např. očekávat u silně asymetrických rozdělení.
30
3.6 Neparametrické metody a testy (ukázka) Neparametrické metody předpokládají takové úpravy v datech, kterými se neznámé rozdělení (za cenu ztráty části informace obsažené v datech), převede na rozdělení známé. Jednou z těchto metod je tzv. znaménková metoda, kterou se hodnoty náhodného výběru z neznámého spojitého rozdělení převedou na posloupnost symbolů dvojího druhu (např. znamének + a –), čímž je ztracena informace o jejich velikosti. Nechť X 1 , X 2 ,..., X n je náhodným výběrem z neznámého spojitého rozdělení s mediánem x0,50 . Testovaná hypotéza H 0 : x0,50 = c proti oboustranné alternativě H 1 : x0,50 ≠ c . Počet kladných odchylek od mediánu v souboru o rozsahu n označíme jako náhodnou veličinu Z. Tato veličina má binomické rozdělení se střední hodnotou E ( Z ) =
n n a rozptylem D 2 ( Z ) = . Je-li rozsah 2 4
2Z − n aproximovat rozdělením N [0;1] . Kritický n obor testového kritéria je stejný jako u všech ostatních oboustranných testů s kritériem U. výběru dostatečně velký, lze potom veličinu U =
Ve výběru o rozsahu n = 50 předpokládáme hodnotu mediánu x0,50 = 330 . V datech bylo ovšem zjištěno celkem 35 kladných odchylek od této hodnoty. Ověříme hypotézu o hodnotě mediánu na hladině významnosti α = 0,01 . (3–7)
Další používanou neparametrickou metodou je metoda pořadová, při níž nahrazujeme hodnoty uspořádaného náhodného výběru pořadovými čísly, čímž se (za cenu ztráty informace o rozdílech sousedních hodnot) dostáváme k diskrétnímu rovnoměrnému rozdělení.
Σ
1. Nejcennější technikou matematické statistiky je testování hypotéz. 2. Obecný postup při testování předpokládá formulaci hypotéz (testované a alternativní), volbu hladiny významnosti, výpočet testového kritéria a vyhodnocení testu. 3. Při testování dospějeme buď k zamítnutí testované hypotézy (a přijetí alternativní hypotézy) nebo k jejímu nezamítnutí. 4. Protože při testování vycházíme z informací z náhodného výběru, je testovací procedura zatížena chybami — chybou prvního a druhého druhu. 5. Nejvýznamnější skupinou testů jsou testy o parametrech rozdělení pravděpodobnosti náhodných veličin. V této souvislosti jsme probrali některé nejfrekventovanější jedno- a dvouvýběrové testy. 6. Dalším úkolem testování je ověřovat hypotézy o tvaru rozdělení náhodných veličin. V této souvislosti jsme se omezili pouze na ukázku tzv. testu dobré shody. 7. Pomocí testování lze rovněž ve výběru ošetřit odlehlá pozorování. V této souvislosti jsme ukázali rovněž jeden robustní postup, který se prakticky využívá v laboratorní praxi. 8. Rezignujeme-li na tvar rozdělení, lze využít neparametrických metod a testů. V této souvislosti jsme se omezili na ukázku znaménkové metody a jednovýběrového znaménkového testu o mediánu náhodné veličiny. 31
9. Problematiku testování jsme probrali pouze na úrovni „lehkého“ úvodu. Čtenář se po prostudování lekce rozhodně nestane expertem na danou problematiku. 10. Z praktického hlediska významnou aplikací testovací procedury je několikrát citovaná statistická přejímka.
(3–1)
Testovat lze pouze hypotézu o rozptylech. Ostatní hypotézy je třeba přeformulovat: H 0 : θ1 − θ 2 = 0, H 0 : µ1 − µ 2 = 0 .
(3–2)
Pravděpodobnost chyby prvního druhu je riziko dodavatele (vyhovující dodávka je odmítnuta). Pravděpodobnost chyby druhého druhu je riziko odběratele (nevyhovující dodávka je přijata).
(3–3)
Při stejném rozdílu x − c = −378 bychom pro n = 5 dospěli k nezamítnutí nulové hypotézy ( t = −1,98 ). Pro n = 8 t = −2,51 . Stejný rozdíl bychom tedy prohlásili v prvním případě za nevýznamný a ve druhém za významný.
(3–4)
S výjimkou testu o rozptylu všechna testová kritéria skutečně vyhovují tomuto obecnému zápisu a vyjadřují rozdíl mezi vypočtenou a předpokládanou hodnotou v čitateli v násobcích směrodatné chyby ve jmenovateli.
(3–5)
Pro
h = 100 je 100 − 24,4 = 1,89s n−1 a tato hodnota tedy překvapivě jako od-
lehlá identifikována není. (3–6)
Pro druhý z výběrů je hodnota MAD stejná jako ve 3.6 a tudíž i zde budou jako odlehlé označeny hodnoty stejně vzdálené od mediánu, jako u prvního výběru. To se týká (tentokrát v souladu s očekáváním) obou nejvyšších hodnot (jejich odchylka od mediánu je 93,5 ), které první metoda jako odlehlé neodhalila.
(3–7)
Testové kritérium
u=
2 ⋅ 35 − 50 = 2,83 > u0, 995 = 2,58 . Hypotézu o hodnotě 50
mediánu tedy zamítáme, neboť rozdíl skutečného ( z = 35) a předpokládaného počtu
n = 25 kladných odchylek je natolik velký, že hypotéza o hodnotě mediánu není udr2 žitelná.
1.
Na hladině významností 0,05 ověřte hypotézu
H 0 : σ 2 = 250000 proti obou-
stranné alternativě. Použijte data z příkladu 2.2. 2.
Z 360 náhodně vybraných automobilů určité série mělo určitou vadu 22 %. Ověřte hypotézu, že tuto vadu má 1/3 všech vozů proti alternativě, že 1/3 vozů tuto vadu nemá. Pracujte s 1% hladinou významnosti.
3.
V návaznosti na úlohu 2 formulujeme úlohu, že v sesterském montážním závodě se z 240 náhodně vybraných vozů závada projevila u 18 % vozů. Ověřte hypotézu o stejné četnosti vady v obou montážních závodech proti alternativě o nestejné četnosti. Zvolte obě běžně používané hladiny významnosti.
4.
V tabulce jsou uvedeny časy (v min.) spotřebované na určitou výrobní operaci u 6 dělníků na počátku ( xi ) a konci ( y i ) zácviku. Ověřte hypotézu, že zácvik neměl vliv na spotřebu času proti oboustranné alternativě. Hladinu významnosti zvolte např. α = 0,10 .
32
Dělník
1
2
3
4
5
6
xi
12
20
14
16
14
12
yi
12
12
9
11
15
12
5.
Při povrchním pohledu lze říct, že oboustranné testy mají kritický obor složený ze dvou částí. Mezi testy, které jsme probrali, jsou dvě výjimky. Zatímco jedna se jako jednostranný test pouze „tváří“, existuje skupina testů, které jsou z principu jednostranné. Popište tyto výjimky.
6.
Existuje v principu situace, kdy můžeme prohlásit výskyt chyby prvního/druhého druhu za jev (absolutně) nemožný?
33