VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA STAVEBNÍ
HELENA KOUTKOVÁ
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA MODUL GA03 M4 ZÁKLADY TESTOVÁNÍ HYPOTÉZ
STUDIJNÍ OPORY PRO STUDIJNÍ PROGRAMY S KOMBINOVANOU FORMOU STUDIA
c Helena Koutková, Brno 2004
Obsah Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Podstata testování statistických hypotéz 1.1 Statistická hypotéza a její test . . . . . . . . . . . . . . . 1.2 Proces testování hypotéz . . . . . . . . . . . . . . . . . . 1.2.1 Chyby při testování . . . . . . . . . . . . . . . . . 1.2.2 Obecný postup při testování statistických hypotéz 1.2.3 Výsledky testů a jejich interpretace . . . . . . . . 1.3 Kontrolní otázky . . . . . . . . . . . . . . . . . . . . . . 1.4 Klíč a výsledky cvičení . . . . . . . . . . . . . . . . . . . 2 Některé parametrické testy 2.1 Testy hypotéz o střední hodnotě normálního rozdělení . 2.1.1 Testy o střední hodnotě při známém rozptylu . 2.1.2 Testy o střední hodnotě při neznámém rozptylu 2.2 Testy o rozptylu normálního rozdělení . . . . . . . . . . 2.2.1 Testy o rozptylu při známé střední hodnotě . . . 2.2.2 Testy o rozptylu při neznámé střední hodnotě . 2.3 P-hodnota testu . . . . . . . . . . . . . . . . . . . . . . 2.4 Souvislost mezi testy hypotéz a intervalovými odhady . 2.5 Kontrolní otázky . . . . . . . . . . . . . . . . . . . . . 2.6 Cvičení . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Klíč a výsledky cvičení . . . . . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
4
. . . . . . .
5 5 8 9 13 13 13 15
. . . . . . . . . . .
16 17 17 24 28 28 30 31 33 34 34 36
3 Testy dobré shody 37 3.1 Kontrolní otázky . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2 Cvičení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.3 Klíč a výsledky cvičení . . . . . . . . . . . . . . . . . . . . . . . 49 Literatura
51
Úvod Další oblastí statistických metod je testování statistických hypotéz. V minulém modulu jsme předpokládali, že známe typ rozdělení náhodné veličiny X. Realizaci náhodného výběru z X zpracovanou do určité statistiky jsme pak využívali ke konstrukci bodového a intervalového odhadu parametrů rozdělení nebo parametrické funkce. V tomto modulu se budeme naopak zabývat otázkou, jak použít realizaci náhodného výběru z X zpracovanou do určité statistiky k ověřování (testování) našich předpokladů (domněnek, hypotéz) o hodnotách parametrů rozdělení, resp. parametrických funkcí, typu rozdělení apod. Modul je rozdělen do tří kapitol. Kapitola 1 je určena k zavedení základních pojmů z teorie testování hypotéz a k vysvětlení podstaty testování hypotéz. Tuto kapitolu považuje autorka za nejdůležitější v tomto modulu. Její zvládnutí zaručuje, že pomocí příslušné literatury budete umět testovat hypotézy nejen zde probírané, ale jiné. Kapitola 2 je věnována testům o parametrech normálního rozdělení. Kapitola 3 je zaměřena na testy dobré shody, pomocí kterých ověřujeme hypotézy o typu rozdělení, z něhož výběr pochází.
Požadované znalosti K zvládnutí tohoto modulu potřebujete znát základy teorie pravděpodobnosti tak, jak bylo uvedeno v předchozím modulu. Dále potřebujete znát pojmy zavedené v předchozím modulu - a to zejména pojmy: náhodný výběr a jeho realizace, statistika, bodový a intervalový odhad parametrů rozdělení nebo parametrické funkce, bodový a intervalový odhad střední hodnoty a rozptylu normálního rozdělení, výběrová rozdělení - tvrzení 3.1 (ta budeme potřebovat ke konstrukci testů o parametrech normálního rozdělení). Autorka děkuje RNDr. Marii Budíkové, Dr. z PřF MU v Brně a svému kolegovi RNDr. Oldřichu Dlouhému za přečtení textu a cenné připomínky.
Kapitola 1 Podstata testování statistických hypotéz Cíle Cílem této kapitoly je: • zavést základní pojmy z teorie testování statistických hypotéz; • objasnit proces testování hypotéz; • vysvětlit interpretaci výsledků testů.
Doba potřebná ke studiu Pro nastudování této kapitoly budete potřebovat minimálně 3 hodiny bez řešení kontrolních otázek.
Klíčová slova Statistická hypotéza, parametrické a neparametrické hypotézy, jednoduché a složené hypotézy, nulová hypotéza, alternativní hypotéza, test hypotézy, testová statistika, kritický obor, obor nezamítnutí, chyba prvního druhu, chyba druhého druhu, hladina významnosti testu, síla testu.
1.1
Statistická hypotéza a její test
Než se naučíte testovat (ověřovat) domněnky (hypotézy, předpoklady) o pravděpodobnostním chování náhodné veličiny X, musíte se seznámit se základními pojmy z této oblasti. Definice 1.1:
Statistická hypotéza
Statistickými hypotézami rozumíme tvrzení o rozdělení náhodných veličin. Statistické hypotézy se mohou např. týkat parametrů rozdělení, parametrických funkcí, tvaru rozdělení apod.
6
Podstata testování statistických hypotéz Pokud se hypotézy týkají hodnot parametrů rozdělení nebo parametrických funkcí, mluvíme o parametrických hypotézách a příslušné testy se rovněž nazývají parametrické. V ostatních případech mluvíme o neparametrických hypotézách a neparametrických testech. Příklad 1.1: Příklady statistických hypotéz jsou např. tvrzení: 1. Náhodná chyba měření nemá systematickou složku. 2. Pravděpodobnost výroby vadného výrobku je 0.01. 3. Počet kazů v běžném metru izolačního materiálu má Poissonovo rozdělení s parametrem 0.2. 4. Zatížení silničního mostu je normální náhodná veličina. 5. Variabilita stogramových balíčků kávy vyjádřená směrodatnou odchylkou je maximálně 1 gram. V příkladu 1.1 je hypotéza 2 parametrická (týká se parametru alternativního rozdělení). Pokud by v případě 1 a 5 byl znám typ rozdělení (např. kdybychom věděli, že sledovaná veličina má normální rozdělení), pak by se opět jednalo o parametrické hypotézy. Ostatní hypotézy nejsou parametrické. Dále dělíme hypotézy na jednoduché a složené. Pokud je hypotéza formulována tak, že jednoznačně určuje rozdělení náhodné veličiny, nazýváme ji jednoduchou hypotézou. Hypotéza, která rozdělení náhodné veličiny jednoznačně nespecifikuje, se nazývá složená hypotéza. Hypotézy 2 a 3 v příkladě 1.1 jsou jednoduché hypotézy, zbývající jsou složené. Při testování hypotéz proti sobě klademe vždy dvě hypotézy. Jednu z nich nazýváme nulová hypotéza a značíme H0 , druhou nazýváme alternativní hypotéza k hypotéze H0 a značíme H. Definice 1.2:
Nulová a alternativní hypotéza
Nulová hypotéza H0 je hypotéza, která je testovaná. Alternativní hypotéza H je hypotéza popírající platnost nulové hypotézy H0 . Alternativní hypotéza nemusí být nutně opačná k hypotéze H0 . Víme-li např. jistě, že náhodná chyba měření X je normální náhodná veličina a domníváme se, že µ = 0, nemusí mít H nutně tvar µ 6= 0. Může se stát, že předem bezpečně víme, že musí platit µ ≥ 0. Za této dodatečné informace má pak H tvar: µ > 0. Již známe typy hypotéz, které jsou v matematické statistice uvažovány a teď zbývá přejít k tomu, co rozumíme testem hypotézy.
1.1 Statistická hypotéza a její test Definice 1.3:
Test statistické hypotézy
Testem statistické hypotézy H0 rozumíme postup, který na základě realizace náhodného výběru z X vede k zamítnutí nebo nezamítnutí hypotézy H0 . Je-li k hypotéze H0 stanovena alternativní hypotéza H, mluvíme o testu hypotézy H0 proti hypotéze H. Na následujícím příkladu objasníme několik základních pojmů z oblasti testování statistických hypotéz. Příklad 1.2: Mějme dvě „falešnéÿ hrací kostky. Víme, že pravděpodobnost padnutí čísla šest na jedné z nich je 0.1, na druhé 0.5. Na základě pěti hodů jednou kostkou máme rozhodnout, zda jsme si vybrali tu, na které padá šestka častěji, tj. tu kostku, kterou budeme dále nazývat výhodnější. Řešení: Označme p pravděpodobnost jevu, že při jednom hodu vybranou kostkou padne číslo šest. Za nulovou hypotézu H0 zvolme hypotézu, že námi vybraná kostka je pro nás nevýhodná, za alternativní hypotézu H pak hypotézu, že tato kostka je výhodná. Tj. budeme testovat jednoduchou hypotézu H0 : p = 0.1 proti jednoduché hypotéze H : p = 0.5. Naše rozhodnutí o zamítnutí, resp. nezamítnutí H0 chceme udělat na základě pěti hodů vybranou kostkou. Zřejmě p ∈ {0.1, 0.5}, protože nevíme, kterou kostku jsme si vybrali. Nazvěme hod vybranou kostkou úspěšný, jestliže padne číslo šest. Nechť Xi je počet úspěchů v i-tém hodu touto kostkou (i=1,2,. . . ,5). Potom je zřejmě (X1 , X2 , . . . , X5 ) náhodný výběr z rozdělení X ∼ A(p), kde p ∈ {0.1, 0.5}. Statistika T = X1 + X2 + · · · + X5 je pak počet úspěchů v 5-ti hodech vybranou kostkou. Rozhodnutí o zamítnutí, resp. nezamítnutí H0 založíme tedy na realizaci t statistiky T . Obor hodnot statistiky T je zřejmě množina {0, 1, . . . , 5}. Je třeba připustit, že všechny tyto hodnoty jsou možné, jak při platnosti H0 , tak při platnosti H. Platí-li však H0 , pak zřejmě velké hodnoty statistiky T dostaneme výjimečně a naopak, platí-li H, dostaneme velké hodnoty statistiky T často. Řekněme tedy např., že H0 zamítneme (tj. přijmeme H), je-li t ∈ {2, 3, 4, 5} a H0 nezamítneme, je-li t ∈ {0, 1}. Toto rozdělení oboru hodnot statistiky T se jeví rozumné. Můžeme jenom pochybovat, zda hranice mezi oběma částmi oboru hodnot statistiky T byla volena optimálně. Prozkoumejme za tím účelem pravděpodobnost toho, že se při rozhodování o platnosti H0 , resp. H dopustíme omylu. Náhodná veličina T má zřejmě binomické rozdělení Bi(n, p), kde n = 5 a p = 0.1 v případě platnosti H0 , resp. p = 0.5 v případě platnosti H. Tj. statistika T má pravděpodobnostní funkci 5 t p (1 − p)5−t pro t = 0, 1, . . . , 5 t q(t; p) = , 0 jinak kde p = 0.1 , resp. p = 0.5 v případě platnosti hypotézy H0 , resp. H.
7
8
Podstata testování statistických hypotéz I když poměrně vzácně, může i při platnosti H0 : p = 0.1 nastat případ, že šestka padne alespoň 2-krát. Protože v tomto případě H0 zamítneme, bude pravděpodobnost, že T ∈ {2, 3, 4, 5} při platnosti H0 : p = 0.1, tj. P T ∈ {2, 3, 4, 5}/p = 0.1 ,
představovat riziko mylného zamítnutí H0 . Platí-li H0 : p = 0.1 je T ∼ Bi(5, 0.1) a tedy 5 P 5 P T ∈ {2, 3, 4, 5}/p = 0.1) = 0.1t 0.95−t t t=2 . = 0.0729 + 0.0081 + 0.0005 + 0.0000 = 0.0815.
Riziko mylného zamítnutí H0 je tedy asi 8%-ní, tj. mýlíme se tímto způsobem v průměru asi v osmi případech ze sta. Stejně tak může nastat případ, že při platnosti H : p = 0.5 dostaneme nízký výsledek, který nás vede k zamítnutí H a přijetí H0 . Riziko takového omylu určíme zcela obdobně: 1 1 P P 5 5 t 5−t P T ∈ {0, 1}/p = 0.5 = 0.5 0.5 0.55 = t t . t=0 . t=0 = 0.0313 + 0.1563 = 0.1876.
Vidíme tedy, že riziko mylného nezamítnutí H0 je téměř 19%-ní - tj. mýlíme se v průměru v asi 19-ti případech ze sta. V právě uvedeném příkladu si zejména všimněme, že přicházely v úvahu dva druhy chyb. Vztah mezi výsledkem testu a realitou a z něj vyplývajících možností chyb můžeme schématicky znázornit tak, jako v tabulce 1.1. Tabulka 1.1: Vztah mezi výsledkem testu a skutečností Rozhodnutí H0 zamítáme H0 nezamítáme
1.2
Skutečnost H0 je pravdivá H0 není pravdivá mylné zamítnutí H0 správné rozhodnutí spravné rozhodnutí mylné nezamítnutí H0
Proces testování hypotéz
Přejděme nyní k obecnějšímu výkladu principů testování statistických hypotéz. Jak již bylo uvedeno, stojí proti sobě dvě hypotézy týkající se náhodné veličiny X, nulová hypotéza H0 a alternativní hypotéza H. Své rozhodnutí o zamítnutí H0 zakládáme na realizaci náhodného výběru (X1 , X2 , . . . , Xn ) z rozdělení X, přesněji řečeno na realizaci určité statistiky T = T (X1 , X2 , . . . , Xn ). Statistiku T nazýváme testová statistika nebo testové kritérium. Lze ji chápat jako
1.2 Proces testování hypotéz
9
míru nesouladu výsledků pokusu s nulovou hypotézou. Obor hodnot statistiky T (tj. výběrový prostor) rozdělíme na dvě disjunktní části - jednu z nich označíme W a budeme nazývat kritickým oborem nebo oborem zamítnutí pro test hypotézy H0 , druhou označíme V a nazveme oborem nezamítnutí pro test hypotézy H0 . Testování pak může vést ke dvěma závěrům. Jestliže zjistíme, že pro realizaci t statistiky T platí t ∈ W, hypotézu H0 zamítneme. V opačném případě, kdy t ∈ V , tj. t∈ / W, hypotézu H0 nezamítneme. Zavedenou terminologii shrneme do následující definice. Definice 1.4: nutí
Testová statistika, kritický obor, obor nezamít-
Testová statistika nebo testové kritérium je statistika, kterou použijeme k rozhodování o zamítnutí nebo nezamítnutí hypotézy H0 . Kritický obor nebo obor zamítnutí je množina všech hodnot testové statistiky, které vedou k zamítnutí H0 . Obor nezamítnutí je množina všech hodnot testové statistiky, které vedou k nezamítnutí H0 . Úkol 1.1: Co jsme v příkladu 1.2 zvolili za testovou statistiku, kritický obor a obor nezamítnutí?
1.2.1
Chyby při testování
Protože testování provádíme na základě náhodného výběru, můžeme se vlivem náhody při našem rozhodování o zamítání, resp. nezamítání hypotézy H0 dopustit jedné ze dvou chyb (viz tab. 1.1): Definice 1.5:
Chyba prvního a druhého druhu
Chyby 1. druhu se dopustíme, jestliže nulová hypotéza H0 platí, ale na základě testu, tj. na základě výsledku t ∈ W , tuto hypotézu zamítáme. Chyby 2. druhu se dopustíme, jestliže nulová hypotéza H0 neplatí, ale na / W , tuto hypotézu nezamítáme. základě testu, tj. na základě výsledku t ∈ Úkol 1.2: 1. Označte v tabulce 1.1, které rozhodnutí je chyba 1. druhu a které rozhodnutí je chyba 2. druhu.
10
Podstata testování statistických hypotéz 2. Vraťte se k příkladu 1.2 a formulujte, co tam byla chyba 1. a chyba 2. druhu. Pomocí čeho jsme měřili „velikostÿ těchto chyb? Samozřejmě budeme chtít, aby obě chyby byly co nejmenší. Jejich velikost budeme měřit pomocí pravděpodobnosti. Pravděpodobnost chyby 1. druhu je zřejmě P T ∈ W/H0 a pravděpodobnost chyby 2. druhu je
P (T ∈ / W/H .
Uvědomme si, že pro vyjádření pravděpodobnosti chyby 1. druhu musíme znát rozdělení statistiky T za platnosti hypotézy H0 . Je-li H0 jednoduchá hypotéza, je rozdělení náhodné veličiny X za platnosti H0 určeno jednoznačně, a tedy i rozdělení statistiky T za platnosti H0 je určeno jednoznačně. Tedy pravděpodobnost chyby 1. druhu, tj. P T ∈ W/H0 , je určena jednoznačně. Je-li H0 složená hypotéza, není rozdělení náhodné veličiny X za platnosti H0 určeno jednoznačně, a tedy i rozdělení statistiky T za platnosti H0 nemusí být určeno jednoznačně. Tedy pravděpodobnost chyby 1. druhu, tj. P T ∈ W/H0 , nemusí být určena jednoznačně. Podobné úvahy platí pro vyjádření pravděpodobnosti chyby druhého druhu, tj. P T ∈ / W/H .
Definice 1.6:
Hladina významnosti a síla testu
Číslo α, které udává v případě jednoduché nulové hypotézy H0 pravděpodobnost chyby 1. druhu a v případě složené nulové hypotézy H0 , nejmenší horní hranici pravděpodobnosti chyby 1. druhu, nazýváme hladina významnosti testu hypotézy H0 . Číslo, které udává v případě jednoduché alternativní hypotézy H pravděpodobnost chyby 2. druhu a v případě složené alternativní hypotézy H, nejmenší horní hranici pravděpodobnosti chyby 2. druhu, značíme β. Číslo 1 − β se nazývá síla testu. Z výše uvedeného plyne, že α = P T ∈ W/H0
v případě jednoduché hypotézy H0 a v případě složené hypotézy H0 je α ≥ P T ∈ W/H0 . V případě složené hypotézy H je / W/H β≥P T ∈
a v případě jednoduché alternativní hypotézy H platí / W/H . β=P T ∈
1.2 Proces testování hypotéz
11
Požadavek kladený na hladinu významnosti testu α tedy zaručuje, že riziko mylného zamítnutí H0 je maximálně 100α procentní (mýlíme se tímto způsobem průměrně maximálně v 100α případech ze sta). Podobně definiční požadavek pravděpodobnosti chyby 2. druhu β zaručuje, že riziko mylného přijetí H0 (v neprospěch H) je maximálně 100β procentní. Jak již bylo řečeno, je přirozené požadovat, aby čísla α i β byla co nejmenší. To je ale problém, protože pravděpodobnosti obou chyb spolu souvisí. Z porovnání obou diagramů na obrázku 1.1. je ihned patrné, že za jinak stejných podmínek (nestane-li se nic, co by ovlivnilo rozdělení statistiky T při platnosti H0 , resp. H) má snížení pravděpodobnosti chyby 1. druhu za následek zvýšení pravděpodobnosti chyby 2. druhu a naopak. Obrázek 1.1: Vyjádření vztahu mezi pravděpodobnostmi obou druhů chyb při testu jednoduché hypotézy H0 proti jednoduché hypotéze H. Hustota testové statistiky T za platnosti H0 [H] je označena f [g].
Úkol 1.3: V příkladu 1.2 jsme testovali proti sobě dvě jednoduché hypotézy o parametru p alternativního rozložení X; totiž hypotézu H0 : p = 0.1 proti hypotéze H : p = 0.5. K dispozici byl náhodný výběr z X o rozsahu n = 5. Za testovou statistiku jsme zvolili statistiku T =
5 X
Xi
i=1
a za kritický obor množinu n o W = t; t ∈ {2, 3, 4, 5} .
12
Podstata testování statistických hypotéz Za těchto podmínek jsme zjistili, že α = 0.0815, β = 0.1876. Vypočtěte pravděpodobnosti obou druhů chyb v případě, že: a) zmenšíme kritický obor na n o W1 = t; t ∈ {3, 4, 5} ;
b) zvětšíme rozsah náhodného výběru dvojnásobně a kritický obor W2 zvolíme proporcionální původnímu, tj. n o W2 = t; t ∈ {4, 5, . . . , 10} .
Sledujte, jak se tyto pravděpodobnosti budou měnit při změněných podmínkách. Výsledek: a) α = 0.0086, β = 0.5000; b) α = 0.0128, β = 0.1719. Pozor: P10 V případě b) je testová statistika T = i=1 Xi , která má rozdělení T ∼ Bi(10, p).
Všimněte si, že jste v předchozím úkolu snížení pravděpodobnosti chyb obou druhů dosáhli tak, že jste zvětšili rozsah náhodného výběru. (Tím se změnilo rozdělení testové statistiky.) Zvětšení rozsahu náhodného výběru však nemusí být vždycky možné (např. realizace náhodného výběru může být již provedena a není možné v ní pokračovat). Ukázali jsme, že kritický obor W nelze obecně volit tak, aby byly současně obě chyby tak malé, jak bychom si přáli. Proto se obvykle trvá jenom na tom, aby hladina významnosti testu α bylo nějaké, předem dané (samozřejmě malé) číslo z intervalu (0,1). V technické praxi se nejčastěji volí α = 0.05 nebo α = 0.01. Mluvíme pak o testu hypotézy H0 na hladině významnosti α. Z možných testů H0 na dané hladině významnosti α (tj. z možných voleb testové statistiky T a kritického oboru W ) pak volíme ten, při kterém je β nejmenší. To ale neznamená, že β bude dostatečně malé. Minimalizaci β při pevně zvoleném α můžeme považovat za základní myšlenku volby kritického oboru. Z výše uvedeného vyplývá, že hlavním teoretickým problémem testování hypotéz je vhodná volba testové statistiky T a následné určení jejího rozdělení. Volbou testové statistiky se zabývají rozsáhlejší učebnice matematické statistiky, zde budou pro nejběžnější situace testové statistiky, zajišťující výhodné vlastnosti testu, uvedeny (až na výjimky) bez odvození. Když známe testovou statistiku T pro test hypotézy H0 a její rozdělení, nebývá již obtížné určit kritický obor pro test hypotézy H0 proti hypotéze H na dané hladině významnosti α. Za kritický obor W zvolíme ty hodnoty testové statistiky T , které svědčí proti H0 a ve prospěch H - tím rozhodneme o umístění kritického oboru v množině možných hodnot testové statistiky T . Velikost kritického oboru W pak určíme na základě požadavku kladeného na hladinu významnosti testu α. Rozhodneme-li se ponechat stranou všechny teoretické problémy testování hypotéz naznačené výše, můžeme řešení konkrétních úloh různého druhu shrnout do následujícího obecného postupu.
1.3 Kontrolní otázky
1.2.2
Obecný postup při testování statistických hypotéz
Na základě všeho, co je nám známo o sledované náhodné veličině X a s uvážením zamýšleného rozsahu realizace náhodného výběru z rozdělení X: 1. Formulujeme nulovou hypotézu H0 a volíme alternativní hypotézu H k hypotéze H0 , volíme hladinu významnosti testu α. 2. Stanovíme (nejčastěji vyhledáme) testovou statistiku T pro test nulové hypotézy H0 . Z realizace náhodného výběru z X vypočítáme její realizaci t. 3. Stanovíme (vyhledáme) kritický obor W pro test hypotézy H0 proti hypotéze H na hladině významnosti α. 4. Rozhodneme: - jestliže t ∈ W , potom H0 zamítneme;
- jestliže t ∈ / W , potom H0 nezamítáme.
1.2.3
Výsledky testů a jejich interpretace
V případě zamítnutí nulové hypotézy H0 přijmeme alternativní hypotézu H (s maximálně 100α procentním rizikem mylného přijetí H v neprospěch H0 ). V technické literatuře se v tomto případě často setkáváme s formulací: „Výsledky testu jsou statisticky významné na hladině významnosti α.ÿ V případě nezamítnutí nulové hypotézy H0 nelze říci, že hypotézu H0 přijímáme. Pravděpodobnost chyby druhého druhu může být totiž velká. Test uzavřeme s tím, že se H0 nepodařilo na základě zjištěných údajů a použitého testu zamítnout. V aplikacích se v tomto případě opět často vyskytuje formulace „Výsledky testu nejsou statisticky významné na hladině významnosti α.ÿ Lepší by samozřejmě bylo vyjádřit pravděpodobnost chyby 2. druhu. Ta se ale někdy určuje dost obtížně (především v případě složené alternativní hypotézy). Bez znalosti pravděpodobnosti chyby druhého druhu postupujeme často tak, že za alternativní hypotézu H volíme ten výrok o rozdělení X, který chceme prokázat, nebo spíše, jehož potvrzení vede k nějakým závažným opatřením.
1.3
Kontrolní otázky
1. Vysvětlete následující pojmy: nulová hypotéza, alternativní hypotéza, parametrická a neparametrická hypotéza, jednoduchá a složená hypotéza. 2. Co je základem pro testování hypotézy a z čeho vytvoříte kritický obor pro test hypotézy? 3. Jakých chyb se můžeme dopustit při testování hypotéz? 4. Vysvětlete následující pojmy: hladina významnosti testu, síla testu.
13
14
Podstata testování statistických hypotéz 5. Popište, jaký je obecný postup při testování hypotéz. 6. Jak lze interpretovat výsledky testů? 7. Při soudním procesu stojí proti sobě dvě hypotézy „vinenÿ a „nevinenÿ. Kterou z nich byste považovali za nulovou a kterou za alternativní? 8. Při současné technologii je pravděpodobnost výroby zmetku p = 0.05. a) Po rekonstrukci výrobní linky byla obnovena výroba, ale technologický postup se nezměnil. Na základě náhodného výběru chceme zjistit, zda nedošlo ke změně kvality výroby. b) Byly provedeny změny v technologii s cílem zvýšit kvalitu výroby. Na základě náhodného výběru máme posoudit, zda se tyto změny projevily očekávaným způsobem. c) Zavedení nové technologie mělo za cíl snížit náklady. Zajímá nás, zda nedošlo ke snížení kvality výroby. Ve všech uvedených případech formulujte nulovou a alternativní hypotézu. Určete, zda se jedná o parametrické nebo neparametrické hypotézy a zda se jedná o jednoduché nebo složené hypotézy. 9. Formulte sami nějakou a) parametrickou b) neparametrickou hypotézu a k ní alternativní hypotézu. Určete, zda se jedná o jednoduché nebo složené hypotézy. 10. Určete, zda jsou následující tvrzení pravdivá: a) Zamítnutí nepravdivé nulové hypotézy je chyba 1. druhu. b) Zamítnutí pravdivé nulové hypotézy označujeme jako chybu 2. druhu. c) Pokud testem nezamítneme nulovou hypotézu, pak je tato hypotéza pravdivá. d) Pokud testem zamítneme nulovou hypotézu, pak je pravdivá alternativní hypotéza. e) Jestliže hodnota testové statistiky neleží v kritickém oboru, přijmeme alternativní hypotézu. f ) Jestliže hodnota testové statistiky leží v kritickém oboru, přijmeme alternativní hypotézu. g) Zamítneme-li nulovou hypotézu na hladině významnosti 0.01, pak ji zamítáme i na hladině významnosti 0.05. h) Platí: α + β = 1. 11. Doplňte následující věty: a) Alternativní hypotéza H .... . . . . platnost nulové hypotézy. b) Obor hodnot testové statistiky se dělí na nezamítnutí.
........
obor a obor
1.4 Klíč a výsledky cvičení
15
c) Chybou 2. druhu se rozumí nezamítnutí . . . . . . . . nulové hypotézy. d) Nulovou hypotézu ........ , pokud hodnota testové statistiky leží v kritickém oboru. e) Zmenšením pravděpodobnosti chyby 1. druhu se obecně pravděpodobnost chyby 2. druhu a obráceně.
........
f ) Pravděpodobnost chyby 1. a 2. druhu lze současně zmenšit, když ........ rozsah výběru.
1.4
Klíč a výsledky cvičení
Otázky: 7. Nulová je nevinen. Pokud nenalezneme dostatečný důvod ji zamítnout, presumpce neviny vyžaduje obviněného považovat za nevinného do té doby, dokud se nepodaří získat přesvědčivé důkazy o jeho vině. Přijmout hypotézu vinen vyžaduje, aby riziko omylu bylo malé. 8. Zajímá nás parametr p alternativního rozdělení. Bude se tedy jednat o parametrické hypotézy. V případě a) H0 : p = 0.05, H : p 6= 0.05; H0 je jednoduchá, H je složená hypotéza. V případě b) H0 : p ≤ 0.05, H : p > 0.5; obě hypotézy jsou složené. V případě c) H0 : p ≥ 0.05, H : p < 0.05; obě hypotézy jsou složené. 10.
a) Ne - zamítnutí nulové nepravdivé hypotézy není chyba. b) Ne - zamítnutí pravdivé nulové hypotézy je chyba 1. druhu. c) Ne - nulová hypotéza může, ale nemusí být pravdivá. Neznáme riziko mylného přijetí nulové hypotézy. Pouze se nám ji nepodařilo zamítnout. Někdy jsme ale nuceni se chovat, jako by pravdivá byla. d) Ano - s rizikem omylu maximálně 100α procent. e) Ne - nezamítáme nulovou hypotézu. f ) Ano. g) Ano. h) Ne - to by bylo hodně špatné. Jedná se sice o „spojité nádobyÿ, ale ne v tomto smyslu.
11. a) popírá; b) kritický; c) nepravdivé; d) zamítáme; e) zvětšuje; f ) zvětšíme.
Kapitola 2 Některé parametrické testy Cíle Po přečtení a nastudování této kapitoly budete umět: • testovat hypotézy o hodnotách parametrů normálního rozdělení v jednotlivých situacích; • princip testování pomocí P -hodnoty testu; • testovat hypotézy pomocí intervalových odhadů.
Doba potřebná ke studiu Pokud jste pořádně pochopili předchozí kapitolu, měly by Vám stačit 4 hodiny bez řešení příkladů.
Klíčová slova Jednovýběrový u-test, jednovýběrový t-test, párový t-test, test o roztylu normálního rozdělení, P-hodnota testu. V minulé kapitole jste se seznámili se základními pojmy a podstatou testování hypotéz. V této kapitole nás budou zajímat parametrické testy. Budeme chtít na základě realizace náhodného výběru z rozdělení X, které je závislé na ϑ). parametru ϑ ∈ Θ , testovat hypotézy o hodnotě parametrické funkce τ (ϑ V aplikacích se můžeme setkat s následujícími formulacemi hypotéz o paϑ): rametrické funkci τ (ϑ ϑ) = τ0 , ϑ ) = τ0 , ϑ) = τ0 , A) H0 : τ (ϑ B) H0 : τ (ϑ C) H0 : τ (ϑ ϑ ) < τ0 , ϑ ) 6 = τ0 , ϑ ) > τ0 , H : τ (ϑ H : τ (ϑ H : τ (ϑ kde τ0 je nějaké předem dané číslo. Alternativní hypotézu v případě A, resp. B nazýváme pravostrannou, resp. levostrannou. K těmto formulacím přistoupíme tehdy, chceme-li prokázat, že odchylka od τ0 je v jednom směru. V případě C je alternativní hypotéza oboustranná a použijeme ji tehdy, když není třeba vyslovit soud o směru odchylky.
2.1 Testy hypotéz o střední hodnotě normálního rozdělení V případě A a B se častěji setkáváme se situací, kdy je nulová hypotéza opačná k alternativní. Tj. místo formulací hypotéz A a B je častější formulace ϑ) ≤ τ0 , ϑ ) ≥ τ0 , Bs ) H0 : τ (ϑ As ) H0 : τ (ϑ
ϑ) > τ0 , ϑ ) < τ0 , H : τ (ϑ H : τ (ϑ kde jsou nulové hypotézy jistě složené. Poznámka 2.1:
Zpravidla lze pro všechny výše uvedené testy stanovit stejnou testovou staϑ) = τ0 určeno jednoznačně, tak, tistiku T , jejíž rozdělení je za platnosti τ (ϑ že testy A a As na hladině významnosti α mají stejné kritické obory, podobně jako testy B a Bs . Pouze riziko mylného zamítnutí nulové hypotézy v testu As , resp. testu Bs je maximálně 100α procentní a ne 100α procentní jako v testu A, resp. B. Je-li totiž např. WA kritický obor pro test A na ϑ) = τ0 ) = α, potom hladině významnosti α, tj. P (T ∈ WA /τ (ϑ ϑ) ≤ τ0 ) ≤ P (T ∈ WA /τ (ϑ ϑ) = τ0 ) = α. P (T ∈ WA /τ (ϑ Můžeme tedy zpravidla místo testu As uvažovat test A, ačkoliv si nejsme ϑ) ≥ τ0 , a místo testu Bs uvažovat test B, ačkoliv si nejsme jisti, že platí τ (ϑ ϑ ) ≤ τ0 . jisti, že platí τ (ϑ V této kapitole se omezíme jen na případ normálního rozdělení a jako parametrické funkce nás budou zajímat pouze parametry tohoto rozdělení µ a σ 2 nebo směrodatná odchylka σ. Přepokládejme tedy dále, že (X1 , X2 , . . . , Xn ) je náhodný výběr z rozdělení X ∼ N (µ, σ 2 ), kde oba nebo některý z parametrů µ, σ 2 neznáme.
2.1
Testy hypotéz o střední hodnotě normálního rozdělení
Budou nás zajímat testy o střední hodnotě µ normální náhodné veličiny X. Tj. budeme chtít neznámou střední hodnotu µ porovnávat s nějakým předem daným číslem µ0 . Např. nás může zajímat, zda je střední hodnota délky cihly 290 mm. Protože normální rozdělení má ještě jeden parametr - rozptyl σ 2 , mohou nastat dvě situace: - rozptyl σ 2 známe; - rozptyl σ 2 neznáme. Přejděme tedy k první situaci.
2.1.1
Testy o střední hodnotě při známém rozptylu
Příklad 2.1: Navrhněte test statistické hypotézy T1 : H0 : µ = µ0 proti hypotéze H : µ > µ0 T2 : H0 : µ = µ0 proti hypotéze H : µ < µ0
17
18
Některé parametrické testy T3 : H0 : µ = µ0 proti hypotéze H : µ 6= µ0 na hladině významnosti α. Řešení: Protože nás zajímají testy o střední hodnotě µ náhodné veličiny X, vyjdeme z nejlepšího nestranného odhadu střední hodnoty, tj. statistiky X. Jestliže platí hypotéza H0 (tj. je-li skutečná střední hodnota náhodné veličiny X rovna číslu µ0 ) má náhodná veličina X rozdělení N (µ0 , σ 2 ). Tedy statistika X − µ0 √ n T = σ má za platnosti µ = µ0 rozdělení N (0, 1). (Viz tvrzení 3.1 v předcházejícím modulu). V prospěch hypotézy H0 budou svědčit ty realizace (x1 , x2 , . . . , xn ) náhodného výběru z X, pro které bude realizace x statistiky X „blízkáÿ číslu µ0 , tj. pro které bude realizace t statistiky T „blízkáÿ nule. Zvolme tedy statistiku T za testovou statistiku pro test hypotézy H0 : µ = µ0 . Nyní zbývá určit kritické obory pro jednotlivé uvažované alternativy. 1. V případě testu T1 budou zřejmě v prospěch hypotézy H svědčit ty realizace (x1 , x2 , . . . , xn ) náhodného výběru z X, pro které bude x „podstatněÿ větší než číslo µ0 , tj. pro něž x − µ0 bude větší než nějaká kladná konstanta, tj. pro které bude realizace t statistiky T větší než nějaká kladná konstanta k1 . Za kritický obor W1 pro test T1 hypotézy H0 proti hypotéze H lze tedy zvolit množinu n o W1 = t; t > k1 , kde k1 > 0. Číslo k1 vyberme tak, aby hladina významnosti testu byla α, tj. požadujeme, aby α = P T ∈ W1 /H0 = P T > k1 /µ = µ0 . Odtud (viz obrázek 2.1 1)) P T ≤ k1 /µ = µ0 = 1 − α ⇒ k1 = u(1 − α).
Kritickým oborem W1 pro test hypotézy H0 proti hypotéze H na hladině významnosti α je tedy množina n o W1 = t; t > u(1 − α) .
2. V prospěch hypotézy H v případě testu T2 svědčí ty realizace x statistiky X, pro které je x „podstatněÿ menší než číslo µ0 , tj. ty realizace t testové statistiky T , které jsou menší než nějaká záporná konstanta k2 . Kritický obor W2 bude mít tedy tvar n o W2 = t; t < k2 .
Číslo k2 opět vybereme na základě požadavku kladeného na hladinu významnosti testu α. Požadujeme, aby α = P T ∈ W2 /H0 = P T < k2 /µ = µ0 .
2.1 Testy hypotéz o střední hodnotě normálního rozdělení Obrázek 2.1: Volba kritického oboru pro test hypotézy H0 : µ = µ0 rozdělení N (µ, σ 2 ) se známým rozptylem σ 2 proti hypotéze 1) H : µ > µ0 , 2) H : µ < µ0 , 6 µ0 na hladině významnosti α. 3) H : µ =
Odtud (viz obrázek 2.1 2)) k2 = u(α). Vzhledem k tomu, že prakticky volíme α malé číslo (0.01 nebo 0.05), je u(α) < 0 a pro práci s tabulkami potřebujeme „převodníÿ vztah u(α) = −u(1 − α). Tedy kritický obor W2 pro test T2 na hladině významnosti α je n o W2 = t; t < −u(1 − α) . 3. V testu T3 lze zřejmě volit za kritický obor W3 pro test hypotézy H0 proti hypotéze H na hladině významnosti α množinu (viz obrázek 2.1 3)) n α α o W3 = t; t < −u(1 − ) ∪ t > u(1 − ) . 2 2
V našich úvahách byla nejtěžší volba vhodné testové statistiky pro test nulové hypotézy. Potřebovali jsme totiž, aby byla tato testová statistika „rozumnáÿ, tj. aby měla vypovídací schopnost o střední hodnotě a zároveň jsme potřebovali znát rozdělení testové statistiky za platnosti nulové hypotézy. Při testu hypotézy H0 : µ = µ0 jsme vyšli z bodového odhadu střední hodnoty, tj. statistky X. Rozdělení statistiky X známe. Víme, že je za platnosti hypotézy H0 normální s parametry µ0 a σ 2 . Tuto statistiku jsme mohli použít za testovou statistiku, což by bylo jistě názornější. V praxi se však jako testové statistiky používají vhodné funkce bodových odhadů, které je snadné porovnat s kvantily některého známého rozdělení. Při našem postupu jsme podstatně využili
19
20
Některé parametrické testy skutečnost, že nás zajímá test o střední hodnotě normálního rozdělení se známým rozptylem. Volba kritických oborů a jejich určení pro jednotlivé možné alternativy pak byly už velmi snadné. Všechny výše uvedené testy o střední hodnotě normálního rozdělení při známém rozptylu na hladině významnosti α shrnuje následující tvrzení. Tvrzení 2.1:
Testy o střední hodnotě při známém rozptylu
Je-li (X1 , X2 , . . . , Xn ) náhodný výběr z rozdělení X ∼ N (µ, σ 2 ) s neznámou střední hodnotou µ a známým rozptylem σ 2 a µ0 předem dané číslo, potom lze pro testy T1 : hypotézy H0 : µ = µ0 proti hypotéze H : µ > µ0 , T2 : hypotézy H0 : µ = µ0 proti hypotéze H : µ < µ0 , T3 : hypotézy H0 : µ = µ0 proti hypotéze H : µ 6= µ0 za testovou statistiku volit stejnou statistiku T =
X − µ0 √ n, σ
která má za platnosti µ = µ0 rozdělení N (0, 1). Za kritické obory Wi (i = 1, 2, 3) pro testy Ti (i = 1, 2, 3) na hladině významnosti α lze postupně volit množiny n o W1 = t; t > u(1 − α) , n o W2 = t; t < −u(1 − α) , n α α o W3 = t; t < −u(1 − ) ∪ t > u(1 − ) . 2 2
Jsou-li nulové hypotézy v testech T1 a T2 opačné k alternativním, zůstává tvrzení v platnosti.
Poznámka 2.2:
Jednovýběrové u-testy
Testy o střední hodnotě normálního rozdělení při známém rozptylu se nazývají jednovýběrové u-testy podle rozdělení testové statistiky. Tyto testy lze použít i v případě náhodného výběru z rozdělení, které není normální v případě, že je rozsah výběru n > 30. Příklad 2.2: Z náhodného výběru o rozsahu n = 10 výsledků zkoušek krychelné pevnosti betonu třídy B20 z určité výrobny byl zjištěn průměr 28.8 MPa. Z předchozí zkušenosti je známo, že pevnost je normální náhodná veličina se známou směrodatnou odchylkou 2.4 MPa. Na hladině významnosti 0.05 máme ověřit, zda daná výrobna nezmenšila střední krychelnou pevnost 31 MPa. Řešení: Náhodnou veličinou X je zde krychelná pevnost betonu. Předpokládáme, že X ∼ N (µ, σ 2 ), kde σ = 2.4 MPa. Jsou tedy splněny předpoklady tvzení 2.1.
2.1 Testy hypotéz o střední hodnotě normálního rozdělení 1. Budeme testovat hypotézu H0 : µ = 31 MPa proti hypotéze H : µ < 31 MPa na hladině významnosti 0.05. Jedná se o test T2 z tvrzení 2.1, kde µ0 = 31 MPa. 2. Za testovou statistiku lze tedy zvolit statistiku T =
X − µ0 √ n. σ
Máme dáno µ0 = 31, σ = 2.4, x = 28.8, n = 10, odtud pro realizaci t testové statistiky T dostaneme . . 28.8 − 31 √ t= 10 = −2.899. 2.4 3. Kritický obor W pro test H0 proti H na hladině významnosti α je pak množina n o W = W2 = t; t < −u(1 − α) . Pro α = 0.05 je
o n u(1 − α) = u(0.95) = 1.645 ⇒ W = t; t < −1.645 . 4. Protože t ∈ W , zamítáme hypotézu H0 a přijímáme hypotézu H. Výrobna snížila střední krychelnou pevnost betonu, riziko omylu je maximálně 5%.
Úkol 2.1: Odběratel s dodavatelem uzavřeli smlouvu o dodávce pytlů cementu. Při známém rozptylu plnicího stroje σ 2 = 2.5 kg 2 musí být střední hodnota hmotnosti pytlů 50 kg. Pro ověření toho, že plnicí stroj pracuje dobře, bylo náhodně vybráno 40 pytlů a získán aritmetický průměr jejich hmotnosti x = 49.2 kg. Rozhodněte, zda je hmotnost dodávaných pytlů 50 kg. Hladinu významnosti testu volte 0.05. Výsledek: Vzhledem k tomu, že n > 30 a známe σ 2 , lze použít tvrzení 2.1. Střední hodnota hmotnosti pytlů není 50 kg. Riziko omylu je 5%. H0 : µ = 50, H : µ 6= 50, t = −3.2, W = {t; t < −1.960 ∪ t > 1.960}. Vraťme se zpět k tvrzení 2.1. Tam bylo v souladu z poznámkou 2.1 konstatováno, že tvrzení zůstává v platnosti i v případě, že v testech T1 a T2 jsou nulové hypotézy opačné k alternativním. V těchto testech sice zůstávají předpoklady o rozdělení a alternativní hypotézy stejné jako v původních, ale situace je zde složitější než v případě původních testů. Problém je, že nulové hypotézy už nejsou jednoduché, ale složené. Uvažujme např. test T1s : hypotézy H0 : µ ≤ µ0 proti hypotéze H : µ > µ0 na hladině významnosti α. Pokud testovou statistiku pro test T1s zvolíme stejně jako pro test T1 , bude mít kritický obor W1s pro test T1s stejný tvar jako pro
21
22
Některé parametrické testy test T1 , tj. W1s = {t; t > k}, kde k je nějaká kladná konstanta. Lze jenom pochybovat o tom, zda pro test T1s na hladině významnosti α je skutečně W1s = W1 , tj. k = u(1 − α). Vzhledem k tomu, že H0 : µ ≤ µ0 je složená hypotéza, ptáme se, zda P (T ∈ W1 /µ ≤ µ0 ) ≤ α = P (T ∈ W1 /µ = µ0 ) , (2.1) tj. zda
P T > u(1 − α)/µ ≤ µ0 ≤ α.
(2.2)
Pro zájemce v následujícím příkladu ukážeme, že skutečně vztah (2.2) platí. Příklad 2.3: (pro zájemce) Ověřte platnost vztahu (2.2). Řešení: Označme µ∗ takové číslo, pro které platí µ∗ ≤ µ0 . Vztah (2.2) platí právě tehdy, když (2.3) pro každé µ∗ ≤ µ0 . P T > u(1 − α)/µ = µ∗ ≤ α
√ 0 Statistika T = X−µ n má rozdělení N (0, 1) za platnosti µ = µ0 . My poσ čítáme pravděpodobnost za platnosti µ = µ∗ . Je-li µ = µ∗ , nemá rozdělení √ ∗ n. Zřejmě N (0, 1) statistika T, ale statistika T∗ = X−µ σ T =
(X − µ∗ ) + (µ∗ − µ0 ) √ µ∗ − µ0 √ X − µ0 √ n= n = T∗ + n. σ σ σ
Vyjádřeme tedy pravděpodobnost ve vztahu (2.3) pomocí statistiky T∗ . Dostaneme µ∗ − µ0 √ P T > u(1 − α)/µ = µ∗ = P T∗ + n > u(1 − α)/µ = µ∗ σ µ∗ − µ0 √ n/µ = µ∗ (2.4) = P T∗ > u(1 − α) − σ √ √ 0 0 Je-li µ∗ ≤ µ0 , potom µ∗ −µ n ≤ 0, odtud u(1 − α) − µ∗ −µ n ≥ u(1 − α). σ σ Tedy pro každé µ∗ ≤ µ0 platí µ∗ − µ0 √ P T∗ > u(1 − α) − n/µ = µ∗ ≤ P T∗ > u(1 − α)/µ = µ∗ = α. σ
(Nakreslete si obrázek!) Odtud a ze vztahu (2.4) dostáváme, že vztah (2.3) a tedy i (2.2) platí. Příklad 2.4: (pro zájemce) Byla provedena realizace náhodného výběru z X ∼ N (µ, 4) o rozsahu n = 9 a vypočten x = 5.5. a) Ověřte, že na základě naměřených dat nelze na hladině významnosti 0.05 rozhodnout o zamítnutí hypotézy H0 : µ ≤ 6. b) Určete riziko mylného přijetí hypotézy H0 v neprospěch hypotézy µ = 7.
2.1 Testy hypotéz o střední hodnotě normálního rozdělení
23
c) Určete rozsah n náhodného výběru z X tak, aby riziko mylného přijetí hypotézy H0 v neprospěch hypotézy µ = 7 bylo maximálně 5%. Řešení: a) 1. Budeme testovat hypotézu H0 : µ ≤ 6 proti hypotéze H : µ > 6 na hladině významnosti 0.05. Můžeme použít stejnou testovou statistiku i kritický obor jako v testu T1 z tvrzení 2.1, kde µ0 = 6. 2. Testová statistika je statistika T =
X − µ0 √ n. σ
Máme µ0 = 6, σ = 2, n = 9, x = 5.5. Realizace testové statistiky je t = −0.75. 3. Kritický obor je množina
Pro α = 0.05 je
o W = W1 = t; t > u(1 − α) . n
o n n o W = t; t > u(0.95) = t; t > 1.645 .
4. Protože t ∈ / W, nezamítáme hypotézu H0 . b) Máme vypočítat
P (T ∈ / W/µ = 7) = P (T ≤ 1.645/µ = 7),
(2.5)
kde
X −6 · 3. 2 Z tvrzení 2.1 víme, že T má za platnosti µ = 6 rozdělení N (0, 1). Ve vztahu (2.5) počítáme pravděpodobnost za platnosti, že skutečná střední hodnota je 7. Za tohoto předpokladu nemá rozdělení N (0, 1) statistika T , ale statistika T =
T∗ = Zřejmě
X −7 · 3. 2
3 T = T∗ + . 2 Vyjádřeme tedy pravděpodobnost ve vztahu (2.5) pomocí statistiky T ∗ , dostaneme 3 ∗ P T ≤ 1.645/µ = 7 = P T + ≤ 1.645/µ = 7 2 . = P (T ∗ ≤ 0.145/µ = 7) = Φ(0.145) = 0.60.
24
Některé parametrické testy Riziko mylného přijetí hypotézy µ ≤ 6 v neprospěch hypotézy µ = 7 je přibližně 60%. c) Máme určit rozsah n výběru z X tak, aby / W/µ = 7) = P (T ≤ 1.645/µ = 7) ≤ 0.05, P (T ∈
(2.6)
kde
X −6 √ · n. 2 Rozdělení N (0, 1) má za podmínky µ = 7 statistika T =
T0 =
X −7 √ · n. 2
Zřejmě
1√ n. 2 Vyjádřeme tedy pravděpodobnost ve vztahu (2.6) pomocí statistiky T 0 , dostaneme 1√ 0 n ≤ 1.645/µ = 7 0.05 ≥ P T + 2 1√ 0 n/µ = 7 0.05 ≥ P T ≤ 1.645 − 2 1√ 0.05 ≥ Φ 1.645 − n 2 1√ n Φ u(0.05) ≥ Φ 1.645 − 2 1√ u(0.05) ≥ 1.645 − n 2 1√ −u(0.95) ≥ 1.645 − n. 2 Odtud T = T0 +
−1.645 ≥ 1.645 −
√ 1√ n ⇒ n ≥ 6.58 ⇒ n ≥ 43.2964. 2
Riziko mylného přijetí H0 : µ ≤ 6 v neprospěch µ = 7 bude maximálně 5% v případě rozsahu výběru n ≥ 44.
2.1.2
Testy o střední hodnotě při neznámém rozptylu
Rozptyl rozdělení, z něhož výběr pochází, obvykle neznáme. Pro testy o střední hodnotě µ normálního rozdělení nelze v tomto případě samozřejmě použít předchozí výsledky z tvrzení 2.1, protože neznáme rozptyl. Uvědomme si ale, že nestranným odhadem skutečné střední hodnoty µ je opět statistika X. Odhadem rozptylu σ 2 je statistika S 2 . Statistika T =
X − µ0 √ n S
2.1 Testy hypotéz o střední hodnotě normálního rozdělení má za platnosti µ = µ0 rozdělení t(n − 1) (viz tvrzení 3.1 z předcházejícího modulu). Zvolíme-li tedy T za testovou statistiku, kritické obory pro jednotlivé testy budou analogické kritickým oborům v tvrzení 2.1. Budou se lišit pouze tím, že se v nich budou vyskytovat místo kvantilů rozdělení N(0,1) kvantily rozdělení t(n − 1). Výsledky shrnuje tvrzení 2.2. Tvrzení 2.2:
Testy o střední hodnotě při neznámém rozptylu
Je-li (X1 , X2 , . . . , Xn ) náhodný výběr z rozdělení X ∼ N (µ, σ 2 ) s neznámou střední hodnotou µ a neznámým rozptylem σ 2 a µ0 předem dané číslo, potom lze pro testy T4 : hypotézy H0 : µ = µ0 proti hypotéze H : µ > µ0 , T5 : hypotézy H0 : µ = µ0 proti hypotéze H : µ < µ0 , T6 : hypotézy H0 : µ = µ0 proti hypotéze H : µ 6= µ0 za testovou statistiku volit stejnou statistiku T =
X − µ0 √ n, S
která má za platnosti µ = µ0 rozdělení t(n − 1). Za kritické obory Wi (i = 4, 5, 6) pro testy Ti (i = 4, 5, 6) na hladině významnosti α lze postupně volit množiny n o W4 = t; t > t(n − 1; 1 − α) , n o W5 = t; t < −t(n − 1; 1 − α) , n α α o W6 = t; t < −t(n − 1; 1 − ) ∪ t > t(n − 1; 1 − ) . 2 2
Jsou-li nulové hypotézy v testech T4 a T5 opačné k alternativním zůstává tvrzení v platnosti.
Poznámka 2.3:
Jednovýběrové t-testy
Testy o střední hodnotě normálního rozdělení při neznámém rozptylu se nazývají jednovýběrové t-testy podle rozdělení testové statistiky. Jednovýběrové t-testy lze stejně jaku u-testy použít i v případě, že se nejedná o normální rozdělení, je-li rozsah výběru větší než 30. Příklad 2.5: Při zkoušce šestnácti náhodně vybraných ocelových tyčí byly zjištěny následující meze kluzu v MPa: 249, 250, 248, 255, 246, 250, 246, 245, 243, 245, 251, 248, 246, 245, 250, 249. Požaduje se, aby střední hodnota meze kluzu byla 250 MPa. Ověřte, zda je tento předpoklad splněn. Přípustné riziko omylu je maximálně 5%. Předpokládejte, že mez kluzu má přibližně normální rozdělení.
25
26
Některé parametrické testy Řešení: Náhodnou veličinou X je zde mez kluzu oceli. Předpokládáme, že X ∼ N (µ, σ 2 ) a ani jeden z paramterů µ a σ 2 není znám. Jsou tedy splněny předpoklady z tvrzení. 2.2. 1. Budeme testovat hypotézu H0 : µ = 250 MPa proti hypotéze H : µ 6= 250 MPa na hladině významnosti 0.05. Jedná se o test T6 z tvrzení 2.2, kde µ0 = 250 MPa. 2. Za testovou statistiku lze tedy zvolit statistiku T =
X − µ0 √ n. S
Výpočtem dostaneme µ b = x = 247.875 MPa, . b = s = 3.008 MPa. σ
Odtud realizace t testové statistiky T je . 247.875 − 250 √ . 16 = −2.826. t= 3.008 3. Kritický obor W pro test H0 proti H na hladině významnosti α je pak množina n α o α W = W6 = t; t < −t(n − 1; 1 − ) ∪ t > t(n − 1; 1 − ) . 2 2 Pro α = 0.05 je
α ) = t(15, 0.975) = 2.131 ⇒ 2 n o W = t; t < −2.131 ∪ t > 2.131 .
t(n − 1; 1 −
4. Protože t ∈ W, zamítáme hypotézu H0 a přijímáme hypotézu H. Tedy střední hodnota meze kluzu oceli není rovna 250 MPa, riziko omylu je maximálně 5%. Příklad 2.6: Krychelná pevnost betonu třídy 40 se zkoušela na deseti vzorcích jednak určitou nedestruktivní metodou, jednak destruktivně. Výsledné hodnoty v MPa jsou zapsány v následující tabulce: Vz. 1 2 3 4 5
Pevnost (x1i ) nedestr. m. 51.9 49.1 50.5 49.8 50.1
Pevnost (x2i ) destr. m. 49.1 48.2 50.5 47.1 50.9
Vz. 6 7 8 9 10
Pevnost (x1i ) nedestr. m 50.3 52.0 50.0 49.9 50.5
Pevnost (x2i ) destr. m 50.5 49.0 51.6 49.5 51.0
2.1 Testy hypotéz o střední hodnotě normálního rozdělení Zjistěte, zda se výsledky podle nedestruktivní metody v průměru jen náhodně liší od destruktivních zkoušek. Přípustné riziko omylu je 5%. Řešení: Nechť X1 [X2 ] je pevnost betonu měřená nedestruktivní [destruktivní] metodou. Máme testovat hypotézu E(X1 ) = E(X2 ) proti hypotéze E(X1 ) 6= E(X2 ) na hladině významnosti 0.05. Označme X = X1 − X2 , potom E(X1 ) = E(X2 ) právě tehdy, když E(X) = 0. 1. Můžeme tedy testovat hypotézu 6 0 MPa H0 : E(X) = 0 MPa proti hypotéze H : E(X) = na hladině významnosti 0.05. Realizace náhodného výběru z X je 2.8, 0.9, 0.0, 2.7, -0.8, -0.2, 3.0, -1.6, 0.4, -0.5. 2. Má-li náhodná veličina X normální rozdělení nebo je-li rozsah výběru větší než 30, jsou splněny předpoklady tvrzení 2.2. Celý problém je pak převeden na použití jednovýběrového t-testu. Za testovou statistiku pro test hypotézy H0 proti hypotéze H pak lze použít statistiku T =
X − µ0 √ n, S
kde µ0 = 0 a n = 10. Postupně dostaneme µ b = x = 0.670 M P a, . σ b = s = σn−1 = 1.636 M P a.
Odtud
. . 0.670 − 0 √ 10 = 1.295. t= 1.636
3. Za kritický obor W lze zvolit množinu n α α o W = t; t < −t(n − 1; 1 − ) ∪ t > t(n − 1; 1 − ) . 2 2 Pro α = 0.05 je
t(n − 1; 1 − odtud
α ) = t(9; 0.975) = 2.262, 2
n o W = t; t < −2.262 ∪ t > 2.262 .
4. Protože t ∈ / W, nebyla na hladině významnosti 0.05 prokázána odlišnost ve výsledcích obou metod. Poznámka 2.4:
Párový t-test
Jednovýběrový t-test aplikovaný na porovnávání středních hodnot dvou veličin měřených na stejných objektech se nazývá párový t-test.
27
28
Některé parametrické testy
2.2
Testy o rozptylu normálního rozdělení
Dále nás budou zajímat testy o rozptylu σ 2 náhodné veličiny X. Tj. budeme chtít neznámý rozptyl porovnávat s předem daným číslem σ02 . Potom mohou nastat podobně jako v odstavci 2.1 dvě situace - střední hodnotu µ známe; - střední hodnotu µ neznáme. Věnujme se opět nejprve prvnímu případu.
2.2.1
Testy o rozptylu při známé střední hodnotě
Příklad 2.7: Navrhněte test statistické hypotézy H0 : σ 2 = σ02 proti hypotéze H : σ 2 < σ02 na hladině významnosti α. Řešení: Protože nás zajímají testy o rozptylu σ 2 náhodné veličiny X, vyjdeme z nestranného odhadu roztylu, když známe střední hodnotu µ, tj. statistiky S02 . Jestliže je skutečný rozptyl náhodné veličiny X roven číslu σ02 , má náhodná veličina X rozdělení N (µ, σ02 ). Tedy statistika T =
nS02 σ02
má za podmínky σ 2 = σ02 rozdělení χ2 (n) (viz tvrzení 3.1 z předcházejícího modulu). V prospěch hypotézy H0 budou zřejmě svědčit ty realizace (x1 , . . . , xn ) náhodného výběru (X1 , . . . , Xn ) z rozdělení X, pro které bude realizace s20 s2 statistiky S02 „blízkáÿ číslu σ02 , tj. pro které bude σ02 blízké číslu jedna, tj. pro 0 které bude realizace t statistiky T blízká číslu n (rozsahu výběru). Zvolme tedy T za testovou statistiku pro test hypotézy H0 . Nyní zbývá určit kritický obor pro test hypotézy H0 proti hypotéze H na hladině významnosti α. V prospěch hypotézy H budou zřejmě svědčit ty realizace s20 , které budou „dostatečněÿ menší než číslo σ02 , tj. ty realizace t testové statistiky T , které budou „dostatečněÿ menší než číslo n. Zvolme tedy za kritický obor W pro test hypotézy H0 proti hypotéze H množinu n o W = t; t < k , kde k je nějaká kladná konstanta menší než n. Číslo k vybereme tak, aby hladina významnosti testu byla α, tj. aby platilo α = P T ∈ W/H0 = P T < k/σ 2 = σ02 . Odtud (viz obrázek 2.2)
k = χ2 (n; , α).
Kritickým oborem W pro test hypotézy H0 proti hypotéze H na hladině významnosti α je tedy množina o n 2 W = t; t < χ (n; α) .
2.2 Testy o rozptylu normálního rozdělení Obrázek 2.2: Volba kritického oboru W pro test hypotézy H0 : σ 2 = σ02 rozdělení N (µ, σ 2 ) se známou střední hodnotou µ proti hypotéze H : σ 2 < σ02 na hladině významnosti α.
Úkol 2.2: Navrhněte testy statistické hypotézy H0 : σ 2 = σ02 pro ostatní možné alternativy. Nakreslete si obrázky. Testy o rozptylu při známé střední hodnotě shrnuje následující tvrzení. Tvrzení 2.3:
Testy o rozptylu při známé střední hodnotě
Je-li (X1 , X2 , . . . , Xn ) náhodný výběr z rozdělení X ∼ N (µ, σ 2 ) s neznámým rozptylem σ 2 a známou střední hodnotou µ a σ02 předem dané číslo, potom lze pro testy T7 : hypotézy H0 : σ 2 = σ02 proti hypotéze H : σ 2 > σ02 , T8 : hypotézy H0 : σ 2 = σ02 proti hypotéze H : σ 2 < σ02 , T9 : hypotézy H0 : σ 2 = σ02 proti hypotéze H : σ 2 6= σ02 za testovou statistiku volit stejnou statistiku T =
nS02 , σ02
která má za platnosti σ 2 = σ02 rozdělení χ2 (n). Za kritické obory Wi (i = 7, 8, 9) pro testy Ti (i = 7, 8, 9) na hladině významnosti α lze postupně volit množiny n o W7 = t; t > χ2 (n; 1 − α) , n o W8 = t; t < χ2 (n; α) , n α o α 2 2 W9 = t; t < χ (n; ) ∪ t > χ (n; 1 − ) . 2 2 Jsou-li nulové hypotézy v testech T7 a T8 opačné k alternativním, zůstává tvrzení v platnosti.
Příklad 2.8: Směrodatná odchylka zařízení na plnění lahví mléka nemá překročit 1 ml. Při kontrole byly zjištěny objemy 10 lahví v l:
29
30
Některé parametrické testy 1.0155 0.9874 1.0281 0.9893
1.0110 1.0052
0.9952 1.0236
1.0159 0.9871
Předpokládáme, že data pochází z normálního rozdělení se známou střední hodnotou µ = 1 l. Můžeme zařízení považovat za dostatečně přesné s přípustným rizikem omylu 1%? Řešení: Předpokládáme, že objem lahví je normální náhodná veličina se známou střední hodnotou 1 l a zajímá nás rozptyl. Předpoklady z tvrzení 2.3 jsou splněny. 1. Budeme testovat hypotézu H0 : σ 2 ≤ 0.012 l2 proti hypotéze H : σ 2 > 0.012 l2
na hladině významnosti 0.01. Můžeme použít test T7 , kde σ02 = 0.012 . 2. Testová statistika je tedy statistika T =
nS02 . σ02
Máme n = 10, µ = 1, potom 10
s02
1 X . 10 · 2.45 · 10−4 . 2 . −4 2 = (xi − 1) = 2.45 · 10 l =⇒ t = = 24.50. 10 i=1 0.012
3. Kritický obor W na hladině významnosti α je W = {t; t > χ2 (n; 1 − α)}. Pro α = 0.01 a n = 10 je χ2 (n; 1 − α) = χ2 (10; 0.99) = 23.21 ⇒ W = {t; t > 23.21} 4 Vzhledem k tomu, že t ∈ W, zamítáne nulovou hypotézu na hladině významnosti 0.01. Zařízení není dostatečně přesné. Riziko omylu je maximálně 1%.
2.2.2
Testy o rozptylu při neznámé střední hodnotě
Pro testy o hodnotě rozptylu σ 2 normálního rozdělení nelze opět obecně použít tvrzení 2.3. Odhadem σ 2 při neznámé střední hodnotě je statistika S 2 . Statistika (n − 1)S 2 T = σ02 má za podmínky σ 2 = σ02 rozdělení χ2 (n − 1) (viz tvrzení 3.1 z předcházejícího modulu). Když zvolíme T za testovou statistiku, pak kritické obory pro jednotlivé testy dostaneme zcela analogicky jako v odstavci 2.2.1. Budeme pracovat s rozdělením χ2 (n − 1) místo s rozdělením χ2 (n).
2.3 P-hodnota testu Tvrzení 2.4:
31
Testy o rozptylu při neznámé střední hodnotě
Je-li (X1 , X2 , . . . , Xn ) náhodný výběr z rozdělení X ∼ N (µ, σ 2 ) s neznámým rozptylem σ 2 a neznámou střední hodnotou µ a σ02 předem dané číslo, potom lze pro testy T10 : hypotézy H0 : σ 2 = σ02 proti hypotéze H : σ 2 > σ02 , T11 : hypotézy H0 : σ 2 = σ02 proti hypotéze H : σ 2 < σ02 , T12 : hypotézy H0 : σ 2 = σ02 proti hypotéze H : σ 2 6= σ02 za testovou statistiku volit stejnou statistiku T =
(n − 1)S 2 , σ02
která má za platnosti σ 2 = σ02 rozdělení χ2 (n − 1). Za kritické obory Wi (i = 10, 11, 12) pro testy Ti (i = 10, 11, 12) na hladině významnosti α lze postupně volit množiny n o W10 = t; t > χ2 (n − 1; 1 − α) , o n W11 = t; t < χ2 (n − 1; α) , n α α o 2 2 W12 = t; t < χ (n − 1; ) ∪ t > χ (n − 1; 1 − ) . 2 2
Jsou-li nulové hypotézy v testech T10 a T11 opačné k alternativním, zůstává tvrzení v platnosti. Poznámka 2.5: Testy hypotéz o rozptylu normálního rozdělení nelze použít v případě, kdy se nejedná o normální rozdělení. Úkol 2.3: Řešte předchozí příklad za předpokladu, že neznáte skutečnou střední hodnotu. . . b = s = 0.015, t = 20.25, W = Výsledek: H0 : σ 2 ≤ 0.012 , H : σ 2 > 0.012 , σ {t; t > 21.67}, t ∈ / W. Nezamítáme H0 . Data nedávají dostatek argumentů pro to, abychom udělali závěr, že zařízení není dostatečně přesné (s rizikem omylu 0.01).
2.3
P-hodnota testu
Při klasickém přístupu k tesování hypotéz, kterým jsme se doposud zabývali, je hladina významnosti testu α zvolena předem. Při testování hypotéz se však stále častěji používá postup, při kterém se určí nejmenší hladina, při které bychom ještě hypotézu H0 zamítli -tzv. P - hodnota testu. Vyjadřuje nejmenší horní hranici pravděpodobnosti počítané za platnosti nulové hypo-
32
Některé parametrické testy tézy, že dostaneme právě naši realizaci t testové statistiky T nebo realizaci ještě více odporující nulové hypotéze. Tak se např. při provedení testů z tvrzení 2.2 vypočítá realizace t testové statistiky X − µ0 √ T = n S a následně P -hodnota testu. V případě pravostranné alternativní hypotézy, tj. v případě testu T4 , svědčí proti nulové hypotéze ty realizace testové statistiky, které jsou větší než nějaká konstanta. Potom P = P (T > t/µ = µ0 ). V případě levostranné alternativní hypotézy, tj. v případě testu T5 , dostaneme P = P (T < t/µ = µ0 ). V případě oboustranné alternativní hypotézy, tj. v případě testu T6 , dostaneme P = min {P (T < t/µ = µ0 ), P (T > t/µ = µ0 )} . 2 Nakreslete si obrázky! Když zamítneme hypotézu H0 a přijmeme hypotézu H, dopustíme se maximálně 100P procentního omylu. Je-li tedy např. P =0.04, zamítáme H0 s rizikem omylu maximálně 4%. Tedy hypotézu H0 na hladině významnosti 0.05 zamítáme a na hladině významnosti 0.01 nezamítáme. K výpočtu P hodnoty testu potřebujeme znát distribuční funkci testové statistiky T za platnosti nulové hypotézy. Vzhledem k tomu, že v běžných statistických tabulkách nejsou tabelovány hodnoty distribučních funkcí (kromě rozdělení N (0, 1)), ale kvantily, nejsme v praktických úlohách obecně schopni vypočítat P - hodnotu testu bez použití speciálního software. Příklad 2.9: Vraťte se k příkladu 2.2 a řešte jej pomocí P -hodnoty testu. Řešení: V příkladu 2.2 jsme testovali hypotézu H0 : µ = 31M P a proti hypotéze H : µ < 31M P a. Jednalo se o test T2 z tvrzení 2.1. Hypotézu H0 jsme zamítli s rizikem omylu 5%. Realizace t testové statistiky T byla t = −2.899. Pro P - hodnotu testu dostáváme P = P (T < −2.899/µ = 31). Testová statistika T má podle tvrzení 2.1 za platnosti µ = 31 rozdělení N (0, 1) s distribuční funkcí Φ. Odtud . P = Φ(−2.899) = 1 − Φ(2.899) = 1 − 0.9981 = 0.0019. Tedy hypotézu H0 zamítáme s maximálním rizikem omylu 0.19%. Úkol 2.4: Řešte úlol 2.1 pomocí P - hodnoty testu. Výsledek: Pro P -hodnotu testu platí P = 0.0014. Hmotnost pytlů cementu není 50kg, riziko omylu je 0.14%.
2.4 Souvislost mezi testy hypotéz a intervalovými odhady Vidíme tedy, že při použití P -hodnoty můžeme získat přesnější závěry o zamítnutí H0 . Z toho důvodu většina statistických programů používá právě P -hodnotu testu, V anglicky psaných výstupech se P -hodnota označuje jako P -value, Sig. level, P a podobně. Pro provedení testů o střední hodnotě a rozptylu normální náhodné veličiny s oběma neznámými parametry můžeme využít např. STATGRAPHICS a to nabídku Describe 7−→ Numeric Data 7−→ One-Sample Analysis.
2.4
Souvislost mezi testy hypotéz a intervalovými odhady
V předchozím modulu jsme se zabývali intervalovými odhady parametrů rozdělení, v této kapitole jsme se naučili testovat hypotézy o hodnotách těchto parametrů. Oba postupy spolu úzce souvisí. Uvažujme např. test T11 z tvrzení 2.4 hypotézy H0 : σ 2 = σ02 proti hypotéze H : σ 2 < σ02 na hladině výnamnosti α. Podle tvrzení 2.4 je testová statistika T =
(n − 1)S 2 σ02
a kritický obor je množina W = W11 = {t; t < χ2 (n − 1; α)}. Hypotézu H0 zamítneme právě tehdy, když (n − 1)s2 (n − 1)s2 2 2 (n − 1; < χ α) ⇔ σ > 0 σ02 χ2 (n − 1; α) (n − 1)s2 2 ⇔ σ0 ∈ / 0; 2 χ (n − 1; α) Tedy hypotézu H : σ 2 < σ02
přijmeme (s rizikem omylu maximálně 100α%), když σ02 neleží v realizaci 100(1 − α)% -ního pravostranného intervalového odhadu rozptylu normálního rozdělení s neznámou střední hodnotou µ.
Pro test T10 z tvrzení 2.4 bychom dostali, že hypotézu H : σ 2 > σ02
přijmeme (s rizikem omylu maximálně 100α%), když σ02 neleží v realizaci 100(1 − α)% -ního levostranného intervalového odhadu rozptylu normálního rozdělení s neznámou střední hodnotou µ.
A podobně pro test T12 z tohoto tvrzení hypotézu
33
34
Některé parametrické testy H : σ 2 6= σ02
přijmeme (s rizikem omylu maximálně 100α%), když σ02 neleží v realizaci 100(1 − α)% -ního oboustranného intervalového odhadu rozptylu normálního rozdělení s neznámou střední hodnotou µ.
Při testování hypotéz o parametrech rozdělení jsme tedy místo kritických oborů mohli konstruovat příslušné intervaly spolehlivosti a o zamítnutí nebo nezamítnutí nulové hypotézy H0 rozhodnout na základě výše naznačeného postupu. Příklad 2.10: Využijte při testování střední hodnoty v příkladu 2.5 postup testování pomocí intervalového odhadu. Řešení V příkladu 2.5 jsme testovali hypotézu H0 : µ = 250 MPa proti hypotéze H : µ 6= 250 MPa na hladině významnosti 0.05 o střední hodnotě normálního rozdělení při neznámém rozptylu σ 2 . Hypotézu H přijmeme s rizikem omylu 100α% právě tehdy, když µ0 = 250 neleží v realizaci 100(1 − α)% - ního oboustranného intervalového odhadu střední hodnoty µ normálního rozdělení s neznámým rozptylem σ 2 . Podle kapitoly 3 předchozího modulu dostaneme, že realizace 95 procentního oboustranného intervalového odhadu střední hodnoty µ je v našem případě interval h246.272, 249.478i. Protože tento interval neobsahuje hodnotu µ0 = 250, přijímáme hypotézu H s rizikem omylu 5%.
2.5
Kontrolní otázky
1. Jaké znáte testy o parametrech normálního rozdělení? 2. Jaké předpoklady musí splňovat jednovýběrový a párový t-test? 3. Lze použít testy o parametrech normálního rozdělení i v případě, že náhodný výběr nepochází z normálního rozděleni? 4. Jak testujeme pomocí P - hodnoty testu? 5. Jak testujeme pomocí intervalového odhadu?
2.6
Cvičení
1. Dlouhodobým statistickým šetřením bylo zjištěno, že průměrná rychlost autobusové linky je 40 km/h. Při změně trasy byly zjištěn následující průměrné rychlosti v (km/h): 41, 39, 42, 39, 43, 45, 40, 38. Ověřte na hladině významnosi 0.05, zda změna trasy vede ke zvýšení průměrné rychlosti. 2. Při odběru deseti vzorků posypového materiálu na dálnici byl získán následující soubor poměrných hodnot obsahu určité chemikálie vzhledem
2.6 Cvičení
35
k normovanému předpisu: 0.96, 0.73, 0.83, 0.55, 0.79, 1.34, 0.60, 1.19, 1.35, 1.13. Předpokládáme, že realizace pochází z normálního rozdělení. Ověřte na hladině významnosti 0.05, zda a) střední hodnota obsahu je menší než 0.8; b) směrodatná odchylka obsahu je menší než 0.2. 3. Pro kontrolu správnosti nastavení měřícího přístroje bylo provedeno 10 zkušebních měření se správnou hodnotou 20. Byly získány tyto výsledky: 20.23, 20.21, 20.19, 20.16, 20.26, 20.22, 20.23, 20.26, 20.23, 20.29. Předpokládáme, že chyba měření má normální rozdělení. Ověřte na hladině významnosti 0.05, zda je chyba měření zatížena systematickou chybou. 4. Měřicí přístroj nevykazuje systematické chyby. Při měření konstantní veličiny jsme zjistili následující chyby měření v mm: Třída 1. 2.
-0.02 – -0.01 -0.01 – 0.00
nj 3 10
Třída 3. 4.
0.00 – 0.01 0.01 – 0.02
nj 9 4
Ověřte na hladině významnosti 0.01, zda je přesnost měřicího přístroje vyjádřená směrodatnou odchylkou 0.01 mm. 5. Osm náhodně vybraných domácností v sídlišti mělo v roce 2002 a 2003 spotřebu studené vody v m3 na osobu: Domácnost Spotřeba 2002 (X1 ) Spotřeba 2003 (X2 )
1 23 25
2 29 27
3 10 11
4 15 14
5 20 19
6 21 19
7 23 24
8 13 13
Ověřte na hladině významnosti 0.05, zda došlo u domácností sídliště ke snížení spotřeby studené vody. 6. Při výrobě stěnových panelů se předpokládá, že směrodatná odchylka jejich výšky je 3 mm. Z patnácti náhodně vybraných panelů byla odhadnuta . směrodatná odchylka σ b = s = 3.74 mm. Předpokládáme, že výška panelů má přibližně normální rozdělení. Ověřte na hladině významnosti 0.01, zda je směrodatná odchylka skutečně 3 mm pomocí a) klasického přístupu k testování hypotéz, b) intervalového odhadu, c) P-hodnoty testu. 7. Při sledování doby bezporuchového chodu určitého typu zařízení byly zjištěny následující výsledky v hodinách: 210, 65, 51, 174, 63, 263, 61, 72. Předpokládá se, že bezporuchový chod zařízení X má přibližně exponenciální rozdělení s parametry 0 a λ, tj. hustotu g(x) = (1/λ)exp(−x/λ) pro x ≥ 0, pro jiná x je g(x) = 0. Ověřte na hladině významnosti 0.05, zda je střední doba bezporuchového chodu zařízení větší než 70 hodin.
36
Některé parametrické testy
2.7
Klíč a výsledky cvičení
Cvičení: . . 1. H0 : µ ≤ 40, H : µ > 40, x = 40.875, s = 2.357, t = 1.050, W = {t; t > 1.895}, t 6∈ W . Na hladině významnosti 0.05 se nepodařilo prokázat, že změna trasy vede ke zvýšení průměrné rychlosti. . . 2. x = 0.947, s = 0.293. a) H0 : µ ≤ 0.8, H : µ > 0.8, t = 1.587, W = {t; t > 1.833}, t 6∈ W . Na hladině významnosti 0.05 se nepodařilo prokázat, že je . střední hodnota obsahu větší než 0.8. b) H0 : σ 2 ≤ 0.22 , H : σ 2 > 0.22 , t = 19.316, W = {t; t > 16.92}, t ∈ W . Směrodatná odchylka obsahu je větší než 0.2 s rizikem omylu 5%. . . 3. H0 : µ = 20, H : µ 6= 20, x = 20.228, s = 0.037, t = 2.393, W = {t; t < −2.262 ∪ t > 2.262}, t ∈ W . Měřicí přístroj vykazuje systematické chyby. Riziko omylu je 5%. . . 4. H0 : σ 2 = 0.012 , H : σ 2 6= 0.012 , σb2 = s20 = 7.88 · 10−5 , t = 20.488, W = {t; t < 11.16 ∪ t > 48.29}, t 6∈ W . Na hladině významnosti 0.01 nezamítáme hypotézu, že je přesnost měřícího přístroje vyjádřená směrodatnou odchylkou 0.01. b = x = −0.250, σ b = 5. H0 : µ = E(X2 ) − E(X1 ) ≥ 0, H : µ < 0, µ . . s = 1.488, t = −0.475, W = {t; t < −1.895}, t 6∈ W . Zjištěné údaje nepotvrzují zmenšení spotřeby vody. . 6. H0 : σ 2 = 32 , H : σ 2 6= 32 a) t = 21.76, W = {t; t < 4.075 ∪ t > 31.32}, t 6∈ W . Nezamítáme hypotézu, že je směrodatná odchylka rovna 3 mm. b) 3 ∈ h2.500, 6.932). Hypotézu H0 nezamítáme. c) P = 2(1 − P (T < 21.76/σ 2 = 32 )) ∈ (0.1, 0.2). P- hodnota testu je větší než 0.01, hypotézu H0 na hladině významnosti 0.01 nezamítáme, riziko mylného zamítnuti je větší než 10%. 7. Zajímá nás střední hodnota bezporuchového chodu zařízení X. Protože náhodná veličina X nemá normální rozdělení a rozsah výběru je menší než 30, nemůžeme použít testy o střední hodnotě normálního rozdělení. Protože E(X) = λ, zajímají nás testy o parametru λ exponenciálního rozdělení. Bodovým odhadem parametru λ je X. V literatuře (např. [12]) nalezneme, že statistika T = 2nX má za platnosti λ = λ0 rozdělení χ2 (2n) λ0 (v našem případě λ0 = 70). Testujeme H0 : λ ≤ 70, H : λ > 70. Statistiku T zvolíme za testovou statistiku. Potom W = {t; t > χ2 (2n; 1 − α)}, x = 119.875, t = 27.4, W = {t; t > 26.3}, t ∈ W . Střední doba bezporuchového chodu zařízení je větší než 70 hodin s rizikem omylu maximálně 5%.
Kapitola 3 Testy dobré shody Cíle Po přečtení a nastudování této kapitoly budete umět testovat nulovou hypotézu, že náhodný výběr o dostatečně velkém rozsahu pochází ze stanoveného rozdělení.
Doba potřebná ke studiu K nastudování a pochopení této kapitoly budete potřebovat minimálně 3 hodiny.
Klíčová slova Pearsonův χ2 - test dobré shody (čtěte chí-kvadrát). V teorii pravděpodobnosti jsme předpokládali, že známe zákon rozdělení náhodné veličiny X, tj. známe její distribuční funkci, resp. rozdělovací funkci. V matematické statistice jsme pak dosud předpokládali, že známe typ rozdělení až na nějaké parametry ϑ1 , ϑ2 , . . . , ϑm . K úplné znalosti rozdělení náhodné veličiny X pak v této situaci stačilo tyto parametry odhadnout. Pokud si však rozdělením, resp. tvarem rozdělení nejsme jisti, je zapotřebí testovat, zda není předpoklad o tvaru rozdělení chybný. Připomeňme v této souvislosti histogram a úsečkový diagram rozdělení četností z kapitoly 1 předchozího modulu. Podle jejich tvaru lze usuzovat na tvar rozdělovací funkce náhodné veličiny X. K tomu je samozřejmě vhodné znát grafy některých důležitých rozdělovacích funkcí, abychom měli histogram, resp. úsečkový diagram s čím srovnávat. Tak např. z histogramu rozdělení relativních četností pevnosti betonu z příkladu 1.5 kapitoly 1 předchozího modulu se lze domnívat, že pevnost betonu bude mít normální a ne např. exponenciální rozdělení. Podobně z úsečkového diagramu rozdělení absolutních četností počtu aut čekajících na zelenou z následujícího příkladu téže kapitoly nebudeme asi usuzavat na to, že má počet aut klasické rozdělení. Ve cvičení k této kapitole budete testovat hypotézu, zda má Poissonovo rozdělení. Tyto tzv. grafické metody však slouží pouze k vytvoření domněnky o tvaru rozdělení. Je-li vytvořena hypotéza (domněnka) o tvaru rozdělení náhodné veličiny X, přejdeme
38
Testy dobré shody k některému z testů, kterým tuto hypotézu nezamítneme, resp. zamítneme s dostatečně malým rizikem omylu. Tyto testy nazýváme testy (dobré) shody. My se zde budeme zabývat pouze jedním testem shody - a to Pearsonovým χ2 -testem dobré shody. Je zapotřebí si uvědomit, že hypotézu, vytvořenou z určité realizace náhodného výběru z X, bychom správně měli ještě ověřit na jiné realizaci náhodného výběru z X. Pro použití Pearsonova testu dobré shody je zapotřebí znát jeho podstatu, vyspělejší uživatel statistiky pak může využít nějaký statistický software např. STATGRAPHICS, kde má možnost použít testy dobré shody v případě porovnávání s 22 základními typy rozdělení (viz nabídka Describe 7−→ Distribution Fitting). Přitom testování je založeno na P -hodnotě testu. My zde provedeme výklad klasického přístupu. Domníváme se, že náhodná veličina X má rozdělovací funkci g(x; ϑ1 , . . . , ϑm ), kde ϑ1 , . . . , ϑm jsou neznámé parametry. Připouštíme i m = 0, tj. že rozdělovací funkce je g(x) a nejsou v ní obsaženy žádné neznámé parametry. Je-li m ≥ 1, použijeme realizaci (x1 , x2 , . . . , xn ) náhodného výběru (X1 , X2 , . . . , Xn ) z X pro výpočet realizací odhadů parametrů ϑ1 , ϑ2 , . . . , ϑm - označme je ϑb1 , ϑb2 , . . . , ϑbm . Realizace odhadů dosadíme za parametry do rozdělovací funkce g, dostaneme rozdělovací funkci g(x; ϑb1 , ϑb2 , . . . , ϑbm ), která již neobsahuje neznámé parametry. Pearsonův test dobré shody je pak test hypotézy H0 : X má rozdělovací funkci g(x; ϑb1 , ϑb2 , . . . , ϑbm ) proti hypotéze H: X nemá rozdělovací funkci g(x; ϑ1 , ϑ2 , . . . , ϑm ) pro žádný z možných parametrů ϑ1 , ϑ2 , . . . , ϑm na hladině významnosti α. Dále budeme stručně psát, že testujeme H0 : X ∼ g(x; ϑb1 , ϑb2 , . . . , ϑbm ) proti H : X 6∼ g(x; ϑ1 , ϑ2 , . . . , ϑm ).
Příklad 3.1: Domníváme se, že náhodná veličina X má rozdělení 1) N (0, 1), 2) N (µ, 1), 3) N (µ, σ 2 ). V situaci 1 nejsou v rozdělení žádné neznáme parametry, tedy m = 0. V situaci 2 máme jeden neznámý parametr µ, tedy m = 1. Musíme vypočítat realizaci µ b odhadu µ. V situaci 3 máme m = 2 a musíme vypočítat 2 b b a σ odhadů parametrů µ a σ 2 . Potom bychom v jednotlivých realizace µ situacích testovali hypotézy 1) H0 : X ∼ N (0, 1) proti H : X 6∼ N (0, 1),
µ, 1) proti H : X 6∼ N (µ, 1) pro žádné µ ∈ R, 2) H0 : X ∼ N (b 3) H0 : X ∼ N (b µ, σb2 ) R × (0, ∞).
proti
H : X 6∼ N (µ, σ 2 ) pro žádné (µ, σ 2 ) ∈
V případě zamítnutí hypotézy H0 v testu 1 nemá veličina X normální rozdělení s parametry 0 a 1, ale může mít normální rozdělení s jinými parametry. V případě zamítnutí hypotézy H0 v testu 2 nemá veličina X normální rozdělení s rozptylem 1, ale může mít normální rozdělení s rozptylem různým od čísla 1. A v případě zamítnutí hypotézy H0 v testu 3 nemá veličina X normální rozdělení.
39 Postup při samotném testu je pak následující: Předpokládáme, že platí hypotéza H0 , tj. že náhodná veličina X má rozdělovací funkci g(x; ϑb1 , ϑb2 , . . . , ϑbm ). Obor hodnot náhodné veličiny X rozdělíme do k disjunktních tříd Ωj (j = 1, 2, . . . , k) a to zpravidla následovně: • intervalů v případě spojité náhodné veličiny;
• jednobodových, resp. vícebodových množin obsahujících body oboru hodnot náhodné veličiny X v případě diskrétní náhodné veličiny. Označme Nj absolutní četnost třídy Ωj , tj. počet veličin X1 , X2 , . . . , Xn , které nabudou hodnoty z třídy Ωj pro j = 1, 2, . . . , k. Uvědomme si, že Nj je pro každé j náhodnou veličinou. Zřejmě N1 + N2 + · · · + Nk = n. Označme dále pj = P X ∈ Ωj /H0 , j = 1, 2, . . . , k.
(3.1)
Zdůrazněme, že pravděpodobnosti pj počítáme za předpokladu platnosti hypotézy H0 . Protože Ω1 ∪ Ω2 ∪ · · · ∪ Ωk = Ω, platí
p1 + p2 + · · · + pk = 1.
Za testovací kritérium zvolil K. Pearson statistiku
T =
k X (Nj − npj )2 , np j j=1
(3.2)
která má za platnosti hypotézy H0 při „dostatečněÿ velkém rozsahu výběru n přibližně rozdělení χ2 (k − m − 1). „Dostatečnáÿ velikost rozsahu n je zaručena tím, že lze realizaci náhodného výběru z X roztřídit do tříd Ωj tak, že
npj ≥ 1 pro každé j, npj ≥ 5 pro alespoň 80% j.
(3.3) (3.4)
Pearsonův test dobré shody by se měl tedy používat v případě splnění podmínek (3.3) a (3.4). Zbývá určit kritický obor pro test hypotézy H0 proti hypotéze H. Kdyby platila hypotéza H0 , pak by pravděpodobnost, že výsledek pokusu X nabude hodnoty ze třídy Ωj , byla pj (viz vztah (3.1)). Odhad pravděpodobnosti, že
40
Testy dobré shody výsledek pokusu padne do třídy Ωj , je zřejmě počet příznivých výsledků ku celkovému počtu možných výsledků - tedy náhodná veličina Nj /n. Takže v prospěch hypotézy H0 svědčí ty realizace nj /n veličiny Nj /n , které jsou „dosta. . tečněÿ blízké číslu pj , tj. pro které „nj /n = pj ÿ, tj. pro které „nj = npj ÿ pro každé j = 1, . . . , k. Číslo nj se někdy v této souvislosti nazývá empirická četnost třídy Ωj a číslo npj pak teoretická četnost třídy Ωj . V prospěch hypotézy H0 svědčí tedy ty realizace t testové statistiky T , které jsou „blízkéÿ číslu nula. Odtud dostáváme, že kritický obor W pro test hypotézy H0 proti hypotéze H na hladině významnosti α je množina n o W = t; t > χ2 (k − m − 1; 1 − α .
(3.5)
Vraťme se nyní k výpočtu pravděpodobností pj (j = 1, 2, . . . , k). V případě spojité náhodné veličiny X je třída Ωj interval. Označme jeho krajní body jako aj−1 , aj pro j = 1, . . . , k. Potom pj = P X ∈ Ωj /H0 = P aj−1 < X < aj /H0 Zaj = g(x; ϑb1 , ϑb2 , . . . , ϑbm ) dx pro j = 1, 2, . . . , k. aj−1
Výhodnější pro výpočty se často jeví vyjádřit nejprve v hypotéze H0 z hustoty g distribuční funkci G náhodné veličiny X a pak teprve počítat pj . Zřejmě Zx G(x; ϑb1 , ϑb2 , . . . , ϑbm ) = g(v; ϑb1 , ϑb2 , . . . , ϑbm ) dv, potom −∞ pj = G(aj ; ϑb1 , ϑb2 , . . . , ϑbm ) − G(aj−1 ; ϑb1 , ϑb2 , . . . , ϑbm ) pro j = 1, 2, . . . , k.
V případě diskrétní náhodné veličiny X je Ωj jednobodová nebo vícebodová podmnožina oboru hodnot veličiny X, potom X pj = P X ∈ Ωj /H0 = g(x; ϑb1 , ϑb2 , . . . , ϑbm ) pro j = 1, 2, . . . , k. x∈Ωj
Příklad 3.2: Při zavádění internetu do domácností se předpokládá zájem 20%. Z 80 náhodně vybraných domácností velkého sídliště projevilo zájem o internet 10. Potvrzuje tento průzkum původní předpoklad? Přípustné riziko omylu je 5 %. Řešení: Označme 0 domácnost nebude mít zájem o internet, X= 1 domácnost bude mít zájem o internet. Máme ověřit, zda P (X = 1) = 0.2. Náhodná veličina X má za tohoto předpokladu alternativní rozdělení s parametrem p = 0.2, tj. pravděpodobnostní
41 funkci
0.8 pro x = 0, 0.2 pro x = 1, g(x) = jinak. 0
1. Budeme testovat hypotézu
H0 : X ∼ g(x) proti hypotéze H : X 6∼ g(x)
na hladině významnosti 0.05.
2. Test hypotézy o parametru p alternativního rozdělení jsme převedli na test o rozdělení náhodné veličiny X. Realizaci náhodného výběru z X máme roztříděnou do k = 2 tříd Ω1 = {0} , Ω2 = {1} - viz sloupec 2 a 3 tabulky 3.1. Do této tabulky zapisujeme i další výsledky. Budeme chtít použít Pearsonův test dobré shody. Pro výpočet realizace testové statistiky (3.2) a k ověření podmínek použitelnosti testu (3.3) a (3.4) musíme vypočítat teoretické pravděpodobnosti (3.1) , tj. pj = P X ∈ Ωj /H0 pro j = 1, 2. Platí-li hypotéza H0 , má náhodná veličina X rozdělovací funkci g a tedy p1 = P (X = 0/H0 ) = 0.8,
p2 = P (X = 1/H0 ) = 0.2.
Odtud pro teoretické četnosti npj dostaneme np1 = 64,
np2 = 16.
Podmínky použitelnosti Pearsonova testu jsou tedy splněny. Vypočítáme realizaci t testové statistiky (3.2), tj. statistiky T =
k X (Nj − npj )2 npj j=1
- výpočty jsou v tabulce 3.1. V posledním řádku tabulky jsou prováděny součty (tam, kde to má smysl) jednak pro kontrolu výpočtů (sloupce 3 5) a jednak pro samotný výpočet realizace t testové statistiky T (sloupec 6). Tedy 2 X (70 − 64)2 (10 − 16)2 (nj − npj )2 = + t= npj 64 16 j=1 = 0.5625 + 2.2500 = 2.8125.
3. Kritický obor W pro Perasonův test dobré shody na hladině významnosti α je (3.5), tj. n o W = t; t > χ2 (k − m − 1; 1 − α) . Vzhledem k tomu, že počet tříd je dva (tj. k = 2), v rozdělení g nejsou neznámé parametry (tj. m = 0) a α = 0.05, dostaneme n o o n W = t; t > χ2 (1; 0.95) = t; t > 3.842 .
42
Testy dobré shody Tabulka 3.1: Třída
nj
pj
npj
(nj −npj )2 npj
Ω1
0
70
0.8
64
0.5625
Ω2
1
10
0.2
16
2.2500
Součet
×
80
1
80
2.8125
4. Protože t ∈ / W , hypotézu H0 na hladině významnosti 0.05 nezamítáme. Výsledky testu nejsou statisticky významné na hladině významnosti 0.05. Data nedávají dostatek argumentů pro to, abychom udělali závěr, že předpokládaný zájem o zavedení internetu do domácností není 20%. Vraťme se ještě k tabulce 3.1. Ve sloupci 5 jsou uvedena čísla npj , tj. teoretické četnosti tříd Ωj , ve sloupci 3 jsou pak uvedeny empirické četnosti nj . Kdyby platila hypotéza H0 , pak by v první třídě mělo být přibližně 64 výsledků a v druhé třídě přibližně 16 výsledků. Tj. za platnosti nulové hypotézy by o internet z 80 domácností nemělo mít zájem přibližně 64 a mělo mít zájem přibližně 16 domácností.
Příklad 3.3: Prohlídkou pěti set tabulí skla byly zjištěny tyto počty bublin v jednotlivých tabulích Počet bublin Počet tabulí
0 246
1 181
2 64
3 7
4 a více 2
.
Ověřte na hladině významnosti 0.05, zda má počet bublin v tabuli skla Poissonovo rozdělení. Řešení: Náhodnou veličinou X je zde počet bublin v tabuli skla. Máme ověřit, zda má náhodná veličina Poissonovo rozdělení. Budeme chtít použít χ2 test dobré shody. K dispozici máme realizaci náhodného výběru z X o rozsahu n = 500, která byla roztříděna do pěti tříd. V první řadě si uvědomme, že empirická četnost v poslední třídě je velmi malá. Dá se očekávat, že by i teoretická četnost odpovídající této třídě byla velmi malá, a proto sloučíme poslední dvě třídy. Východiskem pro výpočy jsou tedy sloupce 2 a 3 tabulky 3.2. Domníváme-li se, že má náhodná veličina X Poissonovo rozdělení, tj. X ∼ P o(λ), neznáme v rozdělovací funkci veličiny X parametr λ, proto jej musíme nejprve odhadnout. Z teorie pravděpodobnosti víme, že E(X) = λ, z kapitoly 2 předchozího modulu víme, že nestranným odhadem E(X) = λ b = x tohoto odhadu je X. Vypočítejme tedy z dat v tabulce 3.2 realizaci λ parametru λ. Dostaneme b = x = 0.672. λ
43 Tabulka 3.2: Třída
Počet bublin
nj
pj
npj
(nj −npj )2 npj
Ω1
0
246
0.511
255.5
0.353
Ω2
1
181
0.343
171.5
0.526
Ω3
2
64
0.115
57.5
0.735
Ω4
3 a více
9
0.031
15.5
2.726
Součet
×
500
1.000
500.0
4.340
1. Budeme testovat hypotézu H0 : X ∼ P o(0.672) proti hypotéze na hladině významnosti 0.05.
H : X 6∼ P o(λ)
2. Předpokládejme tedy, že platí hypotéza H0 , tj. náhodná veličina X má pravděpodobnostní funkci 0.672x e−0.672 pro x = 0, 1, 2, . . . , g(x) = x! 0 jinak.
Pro výpočet testové statistiky χ2 -testu dobré shody a ověření podmínek jeho použitelnosti potřebujeme vypočítat teoretické pravděpodobnosti (3.1). Postupně dostaneme 0.6720 e−0.672 p1 = P X ∈ Ω1 /H0 = P X = 0/H0 = g(0) = 0! 0.6721 e−0.672 p2 = P X ∈ Ω2 /H0 = P X = 1/H0 = g(1) = 1! 2 −0.672 0.672 e p3 = P X ∈ Ω3 /H0 = P X = 2/H0 = g(2) = 2! p4 = P X ∈ Ω3 /H0 = P X ≥ 3/H0 = 1 − P X < 3/H0 = 1 − P X = 0/H0 + P X = 1/H0 + P X = 2/H0 . = 1 − g(0) + g(1) + g(2) = 0.031.
. = 0.511, . = 0.343, . = 0.115,
Výsledky jsou uvedeny ve sloupci 4 tabulky 3.2. Ze sloupce 5 téže tabulky plyne, že jsou splněny podmínky použitelnosti χ2 testu (3.3) a (3.4). Přejděme tedy k výpočtu realizace t testové statistiky (3.2), dostaneme 4 X (nj − npj )2 . (246 − 255.5)2 (9 − 15.5)2 . = + ··· + t= = 4.340 npj 255.5 15.5 j=1
(viz součet v posledním sloupci tabulky 3.2).
44
Testy dobré shody 3. Kritický obor W pro χ2 - test na hladině významnosti α je (3.5), tj. n o W = t; t > χ2 (k − m − 1; 1 − α) . Máme k = 4, m = 1, α = 0.05, dostaneme n o n o 2 W = t; t > χ (2; 0.95) = t; t > 5.992 .
/ W , nezamítáme hypotézu H0 na hladině významnosti 0.05, 4. Protože t ∈ tj. nezamítáme hypotézu o shodě s Poissonovým rozdělením.
Příklad 3.4: Ověřte na hladině významnosti 0.01, resp. 0.05, zda má náhodná veličina X rozdělovací funkci 3x2 pro x ∈ (0, 1) , g(x) = 0 jinak. Realizace náhodného výběru z X byla roztříděna následovně: Interval 0.0 − 0.2 0.2 − 0.4 0.4 − 0.6 0.6 − 0.8 0.8 − 1.0 Počet výsledků 4 10 16 29 41
Řešení: 1. Budeme testovat hypotézu H0 : X ∼ g(x) proti hypotéze
na hladině významnosti 0.01, resp. 0.05.
H0 : X 6∼ g(x)
2. Budeme chtít použít χ2 - test dobré shody. Předpokládejme tedy, že platí hypotéza H0 , tj. náhodná veličina X má hustotu g. K dispozici máme realizaci náhodného výběru z X o rozsahu n = 100, která je roztříděna do pěti intervalů - označme je Ωj (j = 1, . . . , 5). Nejprve vypočítáme pravděpodobnosti (3.1), tj. pj = P X ∈ Ωj /H0 pro j = 1, . . . , 5. Označme aj−1 , aj krajní body intervalu Ωj pro j = 1, . . . , 5. Potom pj = P X ∈ Ωj /H0 = P aj−1 < X < aj /H0 pro j = 1, . . . , 5. Pravděpodobnosti pj budeme počítat pomocí hodné veličiny X. Postupně dostaneme 0 Zx Rx 2 3v dv = x3 G(x) = g(v) dv = 0 −∞ 1
distribuční funkce G ná-
pro x ∈ (−∞, 0i , pro x ∈ (0, 1) , pro x ∈ h1, ∞) .
45 Potom pj = G(aj ) − G(aj−1 ) pro j = 1, . . . , 5. Tedy p1 = G(a1 ) − G(a0 ) = G(0.2) − G(0.0) = 0.008 − 0.000 = 0.008, p2 = G(a2 ) − G(a1 ) = G(0.4) − G(0.2) = 0.064 − 0.008 = 0.056, ... p5 = G(a5 ) − G(a4 ) = G(1.0) − G(0.8) = 1.000 − 0.512 = 0.296. Vypočítané hodnoty G(aj ) v horních hranicích intervalů Ωj jsou ve sloupci 4, hodnoty pj jsou ve sloupci 5 tabulky 3.3. Ze sloupce 6 téže tabulky je patrné, že není splněna první podmínka (3.3) použitelnosti χ2 - testu shody. Tento nedostatek lze v naší situaci odstranit tak, že sloučíme první a druhou třídu, dostaneme tak prvních šest sloupců v tabulce 3.4. Obecně se to však podařit nemusí. V praxi se pokládá za dostačující, aby byl rozsah výběru větší než 50. Nyní můžeme přistoupit k samotnému provedení χ2 - testu dobré shody. Tabulka 3.3: Třída aj−1 − aj
G(aj )
nj
pj
npj
Ω1
0.0 − 0.2
4
0.008
0.008
0.8
Ω2
0.2 − 0.4
10
0.064
0.056
5.6
Ω3
0.4 − 0.6
16
0.216
0.152
15.2
Ω4
0.6 − 0.8
29
0.512
0.296
29.6
Ω5
0.8 − 1.0
41
1.000
0.488
48.8
Součet
×
100
×
1.000
100.0
Tabulka 3.4: Třída aj−1 − aj
nj
G(aj )
pj
npj
(nj −npj )2 npj
Ω1
0.0 − 0.4
14
0.064
0.064
6.4
9.025
Ω2
0.4 − 0.6
16
0.216
0.152
15.2
0.042
Ω3
0.6 − 0.8
29
0.512
0.296
29.6
0.012
Ω4
0.8 − 1.0
41
1.000
0.488
48.8
1.247
Součet
×
100
×
1.000
100.0
10.326
46
Testy dobré shody Realizace t testové statistiky (3.2) je 4 X (14 − 6.4)2 (16 − 15.2)2 (29 − 29.6)2 (nj − npj )2 t= + + = np 6.4 15.2 29.6 j j=1
(41 − 48.8)2 + = 9.025 + 0.042 + 0.012 + 1.247 = 10.326 48.8
3. Kritický obor Wα pro χ2 - test na hladině významnosti α je (3.5), tj. n o Wα = t; t > χ2 (k − m − 1; 1 − α) .
V hustotě g v hypotéze H0 nebyly žádné neznámé parametry, tj. m = 0. Realizaci náhodného výběru z X máme přerozdělenou do čtyř tříd, tj. k = 4. Tedy n o Wα = t; t > χ2 (3; 1 − α) .
Pro α = 0.01 a α = 0.05 dostáváme o o n n W0.01 = t; t > χ2 (3; 0.99) = t; t > 11.35) ,
n o n o W0.05 = t; t > χ2 (3; 0.95) = t; t > 7.815) .
/ W0.01 , nezamítáme hypotézu H0 na hladině významnosti 4. Protože t ∈ 0.01. Protože t ∈ W0.05 , zamítáme hypotézu H0 na hladině významnosti 0.05. Tedy na této hladině významnosti přijímáme hypotézu H, tj. realizace náhodného výběru nepochází z rozdělení s hustotou g, riziko omylu je 5%.
Příklad 3.5: Vraťte se k příkladu 8 ze cvičení kapitoly 1 předchozího modulu a zjistěte, zda je vlhkost stavebního materiálu Hobrex normální náhodná veličina. Přípustné riziko omylu je 5%. Řešení: Náhodnou veličinou X je vlhkost stavebního materiálu Hobrex. Domníváme-li se, že X je normální náhodná veličina, tj. X ∼ N (µ, σ 2 ), neznáme v rozdělovací funkci náhodné veličiny X dva parametry µ a σ 2 , které musíme nejprve odhadnout. K dispozici máme realizaci náhodného výběru z X o rozsahu n = 100, která byla roztříděna do pěti tříd Ωj j = 1, . . . , 5. Realizace µ baσ b odhadů µ a σ jste počítali v příkladu 8. Dostali jste b = x = 22.12 [%], µ . σ b = s = 0.86 [%].
1. Budeme testovat hypotézu
H0 : X ∼ N (22.12, 0.862 )
na hladině významnosti 0.05.
proti hypotéze
H : X 6∼ N (µ, σ 2 )
47 2. Předpokládejme tedy, že X ∼ N (22.12, 0.862 ). K ověření podmínek použitelnosti Pearsonova testu a provedení samotného testu potřebujeme vypočítat pravděpodobnosti (3.1), tj. pj = P X ∈ Ωj /H0 . Označme opět aj−1 , aj krajní body intervalu Ωj pro j = 1, . . . , 5. Potom pj = P aj−1 < X < aj /H0 .
Platí-li hypotéza H0 , má veličina X rozdělení N (22.12, 0.862 ). Označme její distribuční funkci F a vyjádřeme ji pomocí distribuční funkce Φ rozdělení N (0, 1), jejíž hodnoty jsou tabelovány. Potom x − 22.12 X ∼ N (22.12, 0.862 ) ∼ F (x) = Φ . 0.86 Odtud pro j = 1, 2, . . . , 5 platí pj = P aj−1 < X < aj /H0 = F (aj ) − F (aj−1 ) a − 22.12 a − 22.12 j−1 j −Φ . =Φ 0.86 0.86 Stačí tedy pomocí tabulek distribuční funkce Φ rozdělení N (0, 1) uraj − 22.12 ). Výsledky jsou uvedeny ve čit hodnoty distribuční funkce Φ( 0.68 sloupci 6 tabulky 3.5. Potom a − 22.12 a − 22.12 1 1 p1 = Φ − Φ(−∞) = Φ = Φ(−1.59) = 0.0559, 0.86 0.86 a − 22.12 a − 22.12 1 2 −Φ = Φ(−0.43) − Φ(−1.59) p2 = Φ 0.86 0.86 = 0.3336 − 0.0559 = 0.2777, ... a − 22.12 4 p5 = Φ(∞) − Φ = 1 − Φ(2.6) = 1 − 0.9712 = 0.0288. 0.86 Hodnoty pj jsou uvedeny ve sloupci 6 téže tabulky. Ze sloupce 7 je patrné, že jsou splněny podmínky použitelnosti χ2 - testu, tj. podmínky (3.3) a (3.4). Ze sloupce 8 dostáváme realizaci t testové statistiky (3.2) χ2 - testu, tj. 5 X (nj − npj )2 . t= = 0.518. npj j=1
3. Kritický obor W pro χ2 - test shody na hladině významnosti α je (3.5), tj. o n 2 W = t; t > χ (k − m − 1; 1 − α) . Máme k = 5, m = 2, α = 0.05, dostaneme o o n n 2 W = t; t > χ (2; 0.95) = t; t > 5.992) .
4. Protože t ∈ / W , nezamítáme hypotézu H0 na hladině významnosti 0.05, tj. nezamítáme hypotézu o shodě s normálním rozdělením.
48
Testy dobré shody Tabulka 3.5: Třída
aj−1 − aj
nj
aj −x s
Φ(
aj −x s )
pj
npj
(nj −npj )2 npj
Ω1
− 20.75
5
-1.59
0.0559
0.0559
5.59
0.062
Ω2
20.75 − 21.75
27
-0.43
0.3336
0.2777
27.77
0.021
Ω3
21.75 − 22.75
46
0.73
0.7673
0.4337
43.37
0.159
Ω4
22.75 − 23.75
20
1.90
0.9712
0.2039
20.39
0.007
Ω5
23.75 −
2
∞
1.0000
0.0288
2.88
0.269
×
100
×
×
1.0000 100.00
0.518
Součet
3.1
Kontrolní otázky
1. Jaký je postup při Pearsonově testu dobré shody? 2. Jaké podmínky by měly být splněny pro použití Pearsonova testu dobré shody? 3. Co znamenají čísla k a m ve vztahu (3.5)? 4. Proč nelze pro test shody použít statistiku T =
3.2
Cvičení
Pk
j=1 (Nj
− npj )?
1. Cestovní kancelář předpokládá, že ze zákazníků, kteří mají zájem o pobytový zájezd u moře, bude mít 25% zájem pouze o snídani, 50% o polopenzi a 10% o plnou penzi. Pro ověření tohoto předpokladu náhodně vybrali 100 zájemců o tento druh zájezdu a zjistili, že 20 má zájem pouze o snídani, 46 o polopenzi a 9 o plnou penzi. Můžeme na hladině významnosti 0.05, resp. 0.01 považovat předpoklad cestovní kanceláře za správný? 2. Při parlamentních volbách získaly dvě nejsilnější strany 30% a 20% hlasů, zbytek byl rozdělen mezi ostatní strany. Při volbách do obecního zastupitelstva v jedné obci získaly tyto strany postupně 1400 a 900 z 5000 odevzdaných hlasů. Ověřte na hladině významnosti 0.05, zda rozdělení hlasů při místních volbách odpovídá výsledkům při parlamentních volbách. 3. Posuďte charakter následujících úloh a řešte je: a) Je známo, že 50% výrobků je I. jakosti, 40% výrobků je II. jakosti a 10% výrobků je vadných. Jaká je pravděpodobnost, že z 60 náhodně vybraných výrobků budou 3 vadné? b) Z 60 náhodně vybraných výrobků bylo 28 I. jakosti, 29 II. jakosti a 3 vadné.
3.3 Klíč a výsledky cvičení
49
1. V jakém rozmezí lze očekávat s pravděpodobností 0.95 podíl vadných výrobků? 2. Lze tvrdit, že podíl vadných výrobků je 10%? Přípustné riziko omylu je 5%. 3. Má výrobce pravdu, když tvrdí, že 50% výrobků je I. jakosti, 40% výrobků je II. jakosti a zbývající nevyhovující? 4. Ověřte na hladině významnosti 0.05, zda realizace náhodného výběru roztříděná do následující tabulky pochází z rozdělení s hustotou f (x) = a(1 + x2 ) pro x ∈ (−1, 1) a f (x) = 0 pro jiná x. Interval Četnost
-1.0 – -0.5 20
-0.5 – 0.0 4
0.0 – 0.5 7
0.5 – 1.0 21
5. Předpokládáme, že u 42 náhodně vybraných elektronických prvků určitého typu byla změřena životnost (v hodinách) a výsledky byly roztříděny do následující tabulky: Doba Četnost
0–1000 13
1000–2000 17
2000–3000 5
3000–4000 3
4000–5000 3
5000–6000 1
Ověřte na hladině významnosti 0.01, zda lze životnost tohoto typu prvků považovat za náhodnou veličinu s exponenciálním rozdělením. 6. Máme ověřit na hladině významnosti 0.05, zda jsou okamžiky vzniku zmetků při výrobě rovnoměrně rozděleny během osmihodinové pracovní doby. Za tím účelem byl určitou dobu sledován vznik zmetků během této pracovní doby, výsledkem byly okamžiky vzniku 80 zmetků. Tyto okamžiky byly roztříděny do osmi 1-hodinových intervalů a zjistily se následující četnosti: Hodina Četnost
1 10
2 15
3 20
4 10
5 8
6 7
7 5
8 5
7. Zjistěte, zda lze pro pevnost betonu v příkladě 1.5 kapitoly 1 předchozího modulu použít model normálního rozdělení. Přípustné riziko omylu je 1%. 8. Ověřte na hladině významnosti 0.05, zda se počet aut čekajících na zelenou v příkladu 1.4 kapitoly 1 předchozího modulu řídí Poissonovým rozdělením.
3.3
Klíč a výsledky cvičení
Otázky: 4. Protože T = 0. Cvičení:
50
Testy dobré shody . 1. t = 8.087, W0.01 = {t; t > 11.35}, W0.05 = {t; t > 7.815}. Na hladině významnosti 0.05, resp. 0.01 zjištěné údaje dávají, resp. nedávají dostatek argumentů, abychom udělali závěr, že předpoklad cestovní kanceláře je nesprávný. . 2. t = 32.667, W = {t; t > 5.992}. Rozdělení hlasů při místních volbách neodpovídá rozdělení hlasů při parlamentních volbách. Riziko omylu je 5%. 3.
a) Tato úloha je pravděpodobnostní. Je-li X počet vadných výrobků mezi 60 výrobky, potom X ∼ Bi(n = 60, p = 0.1), odtud P (X = 3) = 0.084. Z 60 náhodně vybraných výrobků budou 3 vadné s pravděpodobností 0.084. b) Všechny úlohy jsou z oblasti matematické statistiky. 1. Jde o konstukci 95 procentního inervalového odhadu parametru p (střední hodnoty) alternativního rozdělení. Vzhledem k tomu, že n > 30, lze použít inervalový odhad střední hodnoty rozdělení . N (µ, σ 2 ). Dostaneme x = 0.05, s = 0.286, 0 ≤ p ≤ 0.106. 2. Jde o úlohu testování hypotéz o parametru p alternativního rozdělení. Vzhledem k tomu, že 0.1 ∈ h0, 0.106i, na hladině významnosti 0.05 nezamítáme hypotézu, že podíl vadných výrobků je 10%. 3. Jedná se o test hypotézy o rozdělení náhodné veličiny, tj. testy . shody. Protože t = 2.675, W = {t; t > 5.992}, nezamítáme hypotézu, že výrobce má pravdu.
4. Konstanta a v tomto případě není parametrem rozdělení, ale na základě vlastností hustoty dostaneme a = 3/8. Potom H0 : X ∼ f (x) = (3/8)(1 + x2 ) pro x ∈ (−1, 1), f (x) = 0 pro jiné x, H: X 6∼ f (x), . t = 8.613, W = {t; t > 7.815}. Realizace náhodného výběru nepochází z rozdělení s hustotou f. Riziko omylu je 5%. 5. Náhodná veličina X má exponenciální rozdělení s parametrem λ, jestliže má distribuční funkci F (x) = 1 − exp(− λx ) pro x ≥ 0, F (x) = 0 pro jiná . . b=x= x. Platí E(X) = λ, odtud λ 1762, t = 5.956, W = {t; t > 9.21}. Nezamítáme shodu s exponenciálním rozdělením.
6. H0 : X ∼ Ro(0, 8) ∼ f (x) = 1 pro x ∈ h0, 8i, f (x) = 0 pro jiná x, t = 18.8, W = {t; t > 14.07}. Okamžiky vzniku zmetků během osmihodinové pracovní doby nejsou rovnoměrně rozděleny. Riziko omylu je 5% . . 7. Z příkladu 1.8 předchozího modulu máme x = 29.650, s = 2.517, potom . t = 0.013, W = {t; t > 9.210}. Nezamítáme shodu s normálním rozdělením. . . b= 4.05, t = 5.840, W = {t; t > 14.07}. Nezamítáme shodu s Poissono8. λ vým rozdělením.
Literatura [1] Anděl, J.: Statistické metody. MATFYZPRESS Praha 1993. [2] Cyhelský, L., Hustopecký, J., Závodský, P.: Příklady k teorii statistiky. SNTL/ALFA Praha 1978. [3] Friedrich, V.: Statistika 1 - vysokoškolská učebnice pro DS. EF ZU Plzeň 2002. [4] Hátle, J., Likeš, J.: Základy počtu pravděpodobnosti a matematické statistiky. SNTL/ALFA Praha 1972. [5] Hebák, P., Kahounová, J.: Počet pravděpodobnosti v příkladech. SNTL Praha 1988. [6] Jarušková, D., Hála, M.: Pravděpodobnost a matematická statistika 12. ČVUT Praha 2000. [7] Jarušková, D.: Matematická statistika 12. ČVUT Praha 1995. [8] Koutková, H., Moll, I.: Úvod do pravděpodobnosti a matematické statistiky. VUT Brno 2001. [9] Koutková, H., Dlouhý, O.: Sbírka příkladů z pravděpodobnosti a matematické statistiky. VUT Brno 2002. [10] Křivý, J.: Základy matematické statistiky. Ostrava 1983. [11] Likeš, J., Laga, J.: Základní statistické tabulky. SNTL Praha 1978. [12] Likeš, J., Machek, J.: Matematická statistika. Matematika pro vysoké školy technické. Sešit XI. SNTL Praha 1981. [13] Novovičová, J.: Pravděpodobnost a matematická statistika 12. ČVUT Praha. 1999. [14] Škrášek, J., Tichý, Z.: Základy aplikované matematiky III. SNTL Praha 1990. [15] Vorlíček, M., Holický M., Špačková, M.: Pravděpodobnost a matematická statistika pro inženýry. VUT Praha 1979. [16] Walpole, R. E., Myers, R. H.: Probability and Statistics for Engineers and Scientists. MACMILLAN PUBLISHING COMPANY New York 1990.