Masarykova univerzita Ekonomicko–spra´vnı´ fakulta
Statistika II distancˇnı´ studijnı´ opora
Marie Budı´kova´
Brno 2006
Tento projekt byl realizova´n za financˇnı´ podpory Evropske´ unie v ra´mci programu SOCRATES — Grundtvig. Za obsah produktu odpovı´da´ vy´lucˇneˇ autor, produkt nereprezentuje na´zory Evropske´ komise a Evropska´ komise neodpovı´da´ za pouzˇitı´ informacı´, jezˇ jsou obsahem produktu. This project was realized with financial support of European Union in terms of program SOCRATES — Grundtvig. Author is exclusively responsible for content of product, product does not represent opinions of European Union and European Commission is not responsible for any uses of informations, which are content of product
Recenzoval: Statistika II Vydala Masarykova univerzita Ekonomicko–spra´vnı´ fakulta Vyda´nı´ prvnı´ Brno, 2006 c Marie Budı´kova´, 2006
ISBN
Identifikace modulu Znak CN KMSTII, KMSTII Na´zev Statistika II Urcˇenı´ Celozˇivotnı´ magisterske´ studium, kombinovane´ magisterske´ studium Autor RNDr. Marie Budı´kova´, Dr. Garant doc. RNDr. Jaroslav Micha´lek, CSc.
Cı´l Vymezenı´ cı´le Cı´lem kurzu je naucˇit studenty za´kladnı´ techniky matematicke´ statistiky pro analy´zu rea´lny´ch ekonomicky´ch dat a za´rovenˇ je prˇipravit pro studium dalsˇ´ıch statisticky´ch metod pouzˇ´ıvany´ch v ekonomii. Dovednosti a znalosti zı´skane´ po studiu textu˚ Studenti se sezna´mı´ s podstatou rˇady uzˇitecˇny´ch statisticky´ch metod a naucˇ´ı se tyto metody aplikovat na rea´lna´ data. Prˇitom budou vyuzˇ´ıvat softwarovy´ produkt STATISTICA. Zı´skajı´ znalosti, ktere´ jim umozˇnı´ usporˇa´dat experiment tak, aby bylo mozˇno statisticky korektneˇ vyhodnotit jeho vy´sledky, naucˇ´ı se posuzovat vlastnosti dat pomocı´ diagnosticky´ch grafu˚, zvla´dnou rˇesˇenı´ u´loh o jednom, dvou a vı´ce neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ a dozvı´ se, jak analyzovat za´vislost dvou velicˇin.
ˇ asovy´ pla´n C Rozsah prˇedmeˇtu je da´n akreditacı´ a je rozdeˇlen do peˇti tutoria´lu˚ po cˇtyrˇech hodina´ch. V 1. tutoria´lu jsou zarˇazena te´mata
Za´kladnı´ pojmy matematicke´ statistiky Na´hodny´ vy´beˇr a statistiky odvozene´ z na´hodne´ho vy´beˇru Bodove´ a intervalove´ odhady parametru˚ a parametricky´ch funkcı´ ´ vod do testova´nı´ hypote´z U Usporˇa´da´nı´ pokusu˚ Jednoduche´ pozorova´nı´ Dvojne´ pozorova´nı´ Mnohona´sobne´ pozorova´nı´ Za´kladnı´ informace o statisticke´m programove´m syste´mu STATISTICA
Ve 2. tutoria´lu jsou zarˇazena te´mata
Diagnosticke´ grafy a testy normality dat Krabicovy´ diagram, norma´lnı´ pravdeˇpodobnostnı´ graf, kvantil–kvantilovy´ graf, histogram, dvourozmeˇrny´ tecˇkovy´ diagram Kolmogorovu˚v-Smirnovu˚v test normality Shapiru˚v-Wilksu˚v test normality V syste´mu STATISTICA je uka´za´no jak konstruovat uvedene´ typy diagnosticky´ch grafu˚ jak prova´deˇt uvedene´ testy normality Ve 3. tutoria´lu jsou zarˇazena te´mata
U´lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ Rozlozˇenı´ statistik odvozeny´ch z vy´beˇrove´ho pru˚meˇru a vy´beˇrove´ho rozptylu Intervaly spolehlivosti pro strˇednı´ hodnotu a rozptyl a testova´nı´ hypote´z o teˇchto parametrech (jednovy´beˇrovy´ t-test, test o rozptylu) Na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´, pa´rovy´ t-test U´lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ Rozlozˇenı´ statistik odvozeny´ch z vy´beˇrovy´ch pru˚meˇru˚ a vy´beˇrovy´ch rozptylu˚ Intervaly spolehlivosti pro rozdı´l strˇednı´ch hodnot a podı´l rozptylu˚ a testova´nı´ hypote´z o teˇchto parametricky´ch funkcı´ch (dvouvy´beˇrovy´ t-test, F-test) V syste´mu STATISTICA je uka´za´no jak zı´skat meze intervalu˚ spolehlivosti pro parametry norma´lnı´ho rozlozˇenı´ jak prova´deˇt testy hypote´z o parametrech norma´lnı´ho rozlozˇenı´ Ve 4. tutoria´lu jsou zarˇazena te´mata
Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´ Testova´nı´ hypote´zy o shodeˇ strˇednı´ch hodnot asponˇ trˇ´ı neza´visly´ch na´hodny´ch vy´beˇru˚ z norma´lnı´ch rozlozˇenı´ Testy shody rozptylu˚ (Levenu˚v test, Bartlettu˚v test) Metody mnohona´sobne´ho porovna´va´nı´ (Tukeyova metoda, Scheffe´ho metoda) Vy´znam prˇedpokladu˚ v analy´ze rozptylu Porˇadove´ testy o media´nech Pojem porˇadı´ Jednovy´beˇrove´ a pa´rove´ porˇadove´ testy Dvouvy´beˇrove´ porˇadove´ testy Neparametricke´ obdoby analy´zy rozptylu jednoduche´ho trˇ´ıdeˇnı´ V syste´mu STATISTICA je uka´za´no jak zı´skat tabulku analy´zy rozptylu a interpretovat ji jak prova´deˇt metody mnohona´sobne´ho porovna´va´nı´ jak prova´deˇt neparametricke´ testy o media´nech V 5. tutoria´lu je zarˇazeno te´ma
Analy´za za´vislosti dvou na´hodny´ch velicˇin Testova´nı´ neza´vislosti velicˇin nomina´lnı´ho typu (chı´-kvadra´t test, podmı´nky dobre´ aproximace, Crame´ru˚v koeficient, Fisheru˚v prˇesny´ test ve cˇtyrˇpolnı´ tabulce, podı´l sˇancı´)
Testova´nı´ neza´vislosti velicˇin ordina´lnı´ho typu (Spearmanu˚v koeficient porˇadove´ korelace) Testova´nı´ neza´vislosti velicˇin intervalove´ho cˇi pomeˇrove´ho typu (vy´beˇrovy´ koeficient korelace, jeho vlastnosti, testova´nı´ hypote´zy o neza´vislosti velicˇin s dvourozmeˇrny´m norma´lnı´m rozlozˇenı´m) V syste´mu STATISTICA je uka´za´no jak zı´skat kontingencˇnı´ tabulku, vypocˇ´ıtat Crame´ru˚v koeficient, oveˇrˇit podmı´nky dobre´ aproximace, prove´st chı´-kvadra´t test neza´vislosti jak pro cˇtyrˇpolnı´ tabulku prove´st Fisheru˚v prˇesny´ test jak vypocˇ´ıtat Spearmanu˚v koeficient porˇadove´ korelace a s jeho pomocı´ testovat hypote´zu o neza´vislosti jak orientacˇneˇ oveˇrˇit dvourozmeˇrnou normalitu dat, jak vypocˇ´ıtat vy´beˇrovy´ koeficient korelace a jak testovat hypote´zu o neza´vislosti ˇ asova´ na´rocˇnost C prezencˇnı´ cˇa´st samostudium POT
20 hodin 115 hodin 9 hodin
Celkovy´ studijnı´ cˇas 144 hodin Harmonogram Za´rˇ´ı 4. ty´den
prvnı´ tutoria´l, sezna´menı´ s kursem a pozˇadavky, zada´nı´ POT – 4 hodiny
ˇ ´ıjen R 1. a 2. ty´den 3. ty´den 4. ty´den Listopad 1. ty´den 2. ty´den 3. ty´den 4. ty´den Prosinec 1. ty´den 2. ty´den 3. a 4. ty´den
samostudium a prˇ´ıprava na tutoria´l – 20 hodin druhy´ tutoria´l – 4 hodiny samostudium a pra´ce s PC – 10 hodin samostudium a prˇ´ıprava na tutoria´l – 10 hodin trˇetı´ tutoria´l – 4 hodiny samostudium a prˇ´ıprava na tutoria´l – 10 hodin rˇesˇenı´ prvnı´ch dvou u´kolu˚ z POTu – 3 hodiny cˇtvrty´ tutoria´l – 4 hodiny samostudium a prˇ´ıprava na tutoria´l– 10 hodin rˇesˇenı´ trˇetı´ho a cˇtvrte´ho u´kolu z POTu – 3 hodiny pa´ty´ tutoria´l – 4 hodiny rˇesˇenı´ pa´te´ho, sˇeste´ho a sedme´ho u´kolu z POTu – 3 hodiny samostudium a odesla´nı´ POTu tutorovi – 15 hodin
Leden Prˇ´ıprava na zkousˇku a prˇ´ıpadne´ opravy POTu – 40 hodin
Zpusob studia ˚ Studijnı´ pomu˚cky Za´kladnı´ literatura
BUDI´KOVA´, M.: Statistika II. Distancˇnı´ studijnı´ opora HANOUSEK, J. A CHARAMZA, P.: Modernı´ metody zpracova´nı´ dat – matematicka´ statistika pro kazˇde´ho. EDUCA 1992. ISBN 80-85623-31-5 HINDLS, R., HRONOVA´, S. A SEGER, J.: Statistika pro ekonomy. Professional Publishing 2002. ISBN 80-86419-26-6 OSECKY´ P.: Statisticke´ vzorce a veˇty. ESF MU, Brno 1999 ISBN 80-2102057-1 Doplnˇkova´ literatura
BUDI´KOVA´, M., MIKOLA´Sˇ, Sˇ., OSECKY´, P.: Teorie pravdeˇpodobnosti a matematicka´ statistika – sbı´rka prˇ´ıkladu˚. Brno, 1998. ISBN 80-210-1832-1 HENDL, J.: Prˇehled statisticky´ch metod zpracova´nı´ dat. Analy´za a metaanaly´za dat. 1. vyda´nı´, 2004. ISBN 80-7178-820-1 WONNANCOT, T. H. A WONNANCOT, R. J.: Statistika pro obchod a hospoda´rˇstvı´ . Praha, Victoria Publishing 1993. ISBN 80-85605-09-0 Vybavenı´
PC CD-ROM se syste´mem STATISTICA Na´vod pra´ce se studijnı´m textem Text je rozdeˇlen do osmi kapitol a dvou prˇ´ıloh. Prvnı´ prˇ´ıloha obsahuje statisticke´ tabulky, druha´ zada´nı´ POT. Studium textu prˇedpokla´da´ znalost za´kladnı´ch pojmu˚ popisne´ statistiky a pocˇtu pravdeˇpodobnosti v rozsahu distancˇnı´ studijnı´ opory Statistika autorky Marie Budı´kove´ a take´ schopnost pracovat se syste´mem STATISTICA. V u´vodnı´ cˇa´sti kazˇde´ kapitoly je vymezen jejı´ cı´l a je uveden prˇiblizˇny´ cˇas, ktery´ budete potrˇebovat ke zvla´dnutı´ prˇ´ıslusˇne´ho te´matu. V kazˇde´ kapitole je zarˇazeno neˇkolik vzorovy´ch prˇ´ıkladu˚ s podrobny´m na´vodem, jak je vyrˇesˇit pomocı´ syste´mu STATISTICA. Kapitoly jsou uzavrˇeny strucˇny´m shrnutı´m probrane´ la´tky a pote´ na´sledujı´ kontrolnı´ ota´zky, autokorekcˇnı´ test a nerˇesˇene´ prˇ´ıklady s vy´sledky. Kromeˇ prˇ´ıkladu˚, k jejichzˇ rˇesˇenı´ potrˇebujete syste´m STATISTICA, jsou v ucˇebnı´m textu te´zˇ prˇ´ıklady teoreticke´ho charakteru nebo vy´pocˇetneˇ jednoduche´ prˇ´ıklady, u nichzˇ vystacˇ´ıte s kapesnı´m kalkula´torem. Rovneˇzˇ tyto prˇ´ıklady jsou du˚lezˇite´, protozˇe prˇi jejich podrobne´m rˇesˇenı´ dobrˇe pochopı´te podstatu urcˇite´ statisticke´ metody. Tabulkova´ prˇ´ıloha obsahuje vybrane´ statisticke´ tabulky, a to jak pro parametricke´, tak pro neparametricke´ metody. Druha´ prˇ´ıloha je veˇnova´na zada´nı´ samostatne´ pra´ce – POT. Hlavnı´m cı´lem POTu je naucˇit va´s nejen pouzˇ´ıvat statisticke´ metody prˇi zpracova´nı´ rozsa´hle´ho datove´ho souboru, ale take´ spra´vneˇ interpretovat vy´sledky teˇchto metod a prezentovat je v prˇehledne´ a srozumitelne´ podobeˇ.
Obsah
Obsah
Strucˇny´ obsah Kapitola 1
Za´kladnı´ pojmy matematicke´ statistiky Zava´dı´ pojem na´hodne´ho vy´beˇru z jednorozmeˇrne´ho a vı´cerozmeˇrne´ho rozlozˇenı´ a pojem statistiky jako transformace na´hodne´ho vy´beˇru. Uva´dı´ prˇ´ıklady du˚lezˇity´ch statistik. Ukazuje, jak na za´kladeˇ znalosti na´hodne´ho vy´beˇru bodoveˇ cˇi intervaloveˇ odhadnout parametry rozlozˇenı´, z neˇhozˇ na´hodny´ vy´beˇr pocha´zı´. Zaby´va´ se ota´zkou, jak na dane´ hladineˇ vy´znamnosti testovat hypote´zy o parametrech rozlozˇenı´, z neˇhozˇ dany´ na´hodny´ vy´beˇr pocha´zı´. Popisuje trˇi zpu˚soby, jak testovat nulovou hypote´zu proti alternaivnı´ hypote´ze. Kapitola 2
Usporˇa´da´nı´ pokusu˚ Vysveˇtluje rozdı´l mezi jednoduchy´m, dvojny´m a mnohona´sobny´m pozorova´nı´m, prˇicˇemzˇ v ra´mci dvojne´ho pozorova´nı´ rozlisˇuje dvouvy´beˇrove´ a pa´rove´ porovna´va´nı´ a v ra´mci mnohona´sobne´ho pozorova´nı´ rozlisˇuje mnohovy´beˇrove´ a blokove´ porovna´va´nı´. Kapitola 3
Diagnosticke´ grafy a testy normality dat Zaby´va´ se zpu˚sobem konstrukce krabicove´ho diagramu, norma´lnı´ho pravdeˇpodobnostnı´ho grafu, kvantil–kvantilove´ho grafu, histogramu a dvourozmeˇrne´ho tecˇkove´ho diagramu. Popisuje Kolmogorovu˚vSmirnovu˚v test normality a Shapiru˚v-Wilksu˚v test normality a ukazuje, jak uvedene´ grafy zkonstruovat v syste´mu STATISTICA a jak prove´st testy normality v tomto syste´mu. Kapitola 4
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ U Veˇnuje se vlastnostem statistik odvozeny´ch z na´hodne´ho vy´beˇru z norma´lnı´ho rozlozˇenı´. Ukazuje, jak bodoveˇ a intervaloveˇ odhadnout strˇednı´ hodnotu a rozptyl norma´lnı´ho rozlozˇenı´, z neˇhozˇ dany´ na´hodny´ vy´beˇr pocha´zı´ a jak testovat hypote´zy o teˇchto parametrech. Popisuje zpu˚sob, jak pomocı´ syste´mu STATISTICA zı´skat meze intervalu˚ spolehlivosti pro parametry norma´lnı´ho rozlozˇenı´ a prova´deˇt testy hypote´z o teˇchto parametrech. Kapitola 5
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ U Veˇnuje se vlastnostem statistik odvozeny´ch ze dvou neza´visly´ch na´hodny´ch vy´beˇru˚ z norma´lnı´ch rozlozˇenı´. Ukazuje, jak bodoveˇ a intervaloveˇ odhadnout rozdı´l strˇednı´ch hodnot a podı´l rozptylu˚ dvou norma´lnı´ch rozlozˇenı´, z nichzˇ dane´ na´hodne´ vy´beˇry pocha´zejı´ a jak testovat hypote´zy o teˇchto parametricky´ch funkcı´ch. Popisuje zpu˚sob, jak pomocı´ syste´mu STATISTICA zı´skat meze intervalu˚ spolehlivosti pro rozdı´l strˇednı´ch hodnot a podı´l rozptylu˚ a prova´deˇt testy hypote´z o teˇchto parametricky´ch funkcı´ch. Kapitola 6
Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´ Zaby´va´ se situacı´, kdy se hodnotı´ vliv faktoru o asponˇ trˇech u´rovnı´ch na variabilitu hodnot sledovane´ na´hodne´ velicˇiny. Popisuje dveˇ metody mnohona´sobne´ho porovna´va´nı´, ktere´ umozˇnı´ identifikovat dvojice
na´hodny´ch vy´beˇru˚, ktere´ se vy´znamneˇ lisˇ´ı strˇednı´ hodnotou. Veˇnuje pozornost vy´znamu jednotlivy´ch prˇedpokladu˚ v analy´ze rozptylu a ukazuje, jak tuto analy´zu prove´st v syste´mu STATISTICA. Kapitola 7
Porˇadove´ testy o media´nech Popisuje testy hypote´z o media´nu jednoho spojite´ho rozlozˇenı´ a ukazuje, jak hodnotit shodu dvou neza´visly´ch na´hodny´ch vy´beˇru˚ ze spojity´ch rozlozˇenı´ lisˇ´ıcı´ch se posunem cˇi hodnotit shodu asponˇ trˇ´ı neza´visly´ch na´hodny´ch vy´beˇru˚ ze spojity´ch rozlozˇenı´ lisˇ´ıcı´ch se posunem a identifikovat dvojice vy´znamneˇ odlisˇny´ch na´hodny´ch vy´beˇru˚. Popisuje zpu˚sob provedenı´ porˇadovy´ch testu˚ o media´nech v syste´mu STATISTICA. Kapitola 8
Analy´za za´vislosti dvou na´hodny´ch velicˇin Vysveˇtluje, jak prova´deˇt test neza´vislosti v kontingencˇnı´ tabulce a jak hodnotit intenzitu za´vislosti dvou na´hodny´ch velicˇin nomina´lnı´ho typu pomocı´ Crame´rova koeficientu. Popisuje rovneˇzˇ Fisheru˚v prˇesny´ test ve cˇtyrˇpolnı´ kontingencˇnı´ tabulce. Veˇnuje se testova´nı´ porˇadove´ neza´vislosti dvou na´hodny´ch velicˇin ordina´lnı´ho typu pomocı´ Spearmanova koeficientu porˇadove´ korelace a testova´nı´ hypote´zy o neza´vislosti dvou na´hodny´ch velicˇin intervalove´ho cˇi pomeˇrove´ho typu, ktere´ se rˇ´ıdı´ dvourozmeˇrny´m norma´lnı´m rozlozˇenı´m. Ukazuje pouzˇitı´ syste´mu STATISTICA prˇi analy´ze za´vislosti.
Obsah
´ plny´ obsah U Obsah . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1. Za´kladnı´ pojmy matematicke´ statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1. Motivace
16
1.2. Na´hodny´ vy´beˇr a statistiky odvozene´ z na´hodne´ho vy´beˇru
16
Pojem na´hodne´ho vy´beˇru
16
Pojem statistiky, prˇ´ıklady du˚lezˇity´ch statistik
16
1.3. Bodove´ a intervalove´ odhady parametru˚ a parametricky´ch funkcı´
17
Typy bodovy´ch odhadu˚
18
Vlastnosti du˚lezˇity´ch statistik
19
Pojem intervalu spolehlivosti
19
Postup prˇi konstrukci intervalu spolehlivosti
20
Prˇ´ıklad
20
Sˇ´ırˇka intervalu spolehlivosti
21
Prˇ´ıklad
21
´ vod do testova´nı´ hypote´z 1.4. U
22
Nulova´ a alternativnı´ hypote´za
22
Chyba 1. a 2. druhu
22
Testova´nı´ pomocı´ kriticke´ho oboru
23
Testova´nı´ pomocı´ intervalu spolehlivosti
24
Testova´nı´ pomocı´ p-hodnoty
24
Prˇ´ıklad
25
2. Usporˇa´da´nı´ pokusu˚ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1. Motivace
32
2.2. Jednoduche´ pozorova´nı´
32
2.3. Dvojne´ pozorova´nı´
32
Dvouvy´beˇrove´ porovna´va´nı´
33
Pa´rove´ porovna´va´nı´
33
2.4. Mnohona´sobne´ pozorova´nı´
33
Mnohovy´beˇrove´ porovna´va´nı´
33
Blokove´ porovna´va´nı´
33
3. Diagnosticke´ grafy a testy normality dat .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37 3.1. Motivace
38
3.2. Krabicovy´ diagram
38
Popis diagramu
38
Prˇ´ıklad
39
3.3. Norma´lnı´ pravdeˇpodobnostnı´ graf (N–P plot)
40
Prˇ´ıklad
41
Popis grafu
41
Prˇ´ıklad
42
3.4. Kvantil–kvantilovy´ graf (Q–Q plot)
43
Popis grafu
43
Prˇ´ıklad
43
3.5. Histogram
44
Popis grafu
44
Prˇ´ıklad
44
3.6. Dvourozmeˇrny´ tecˇkovy´ diagram
44
Popis diagramu
44
Prˇ´ıklad
45
3.7. Kolmogorovu˚v-Smirnovu˚v test normality dat
46
Popis testu
46
Pozna´mka ke K-S testu ve STATISTICE
46
Prˇ´ıklad
46
3.8. Shapiru˚v-Wilksu˚v test normality dat
47
Prˇ´ıklad
47
3.9. Vzorovy´ prˇ´ıklad
48
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ . . . . . . . . . . . . . . . . . . . . . . . 59 4. U 4.1. Motivace
60
4.2. Rozlozˇenı´ statistik odvozeny´ch z vy´beˇrove´ho pru˚meˇru a vy´beˇrove´ho rozptylu
60
Prˇ´ıklad
60
σ2
4.3. Intervaly spolehlivosti pro parametry µ , σ Prˇehled vzorcu˚
62
Prˇ´ıklad
63
σ2
4.4. Testova´nı´ hypote´z o parametrech µ , σ Provedenı´ testu˚ o parametrech µ ,
61
σ2
pomocı´ kriticke´ho oboru
Prˇ´ıklad 4.5. Na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´
64 64 65 66
Interval spolehlivosti pro parametr µ
66
Pa´rovy´ t-test
66
Prˇ´ıklad
66
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ . . . . . . . . . 73 5. U 5.1. Motivace
74
5.2. Rozlozˇenı´ statistik odvozeny´ch z vy´beˇrovy´ch pru˚meˇru˚ a vy´beˇrovy´ch rozptylu˚
74
Prˇ´ıklad
75
Obsah
5.3. Intervaly spolehlivosti pro parametricke´ funkce µ 1 − µ 2 , σ 21 /σ 22
75
Prˇehled vzorcu˚
76
Prˇ´ıklad
77
Prˇ´ıklad
78
5.4. Testova´nı´ hypote´z o parametricky´ch funkcı´ch
µ 1 − µ 2 , σ 21 /σ 22
Prˇehled testu˚ Provedenı´ testu˚ o parametricky´ch funkcı´ch
78 78
µ1 − µ2 , σ12 /σ22
Prˇ´ıklad
pomocı´ kriticke´ho oboru
79 80
6. Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 6.1. Motivace
88
6.2. Oznacˇenı´
89
6.3. Testova´nı´ hypote´zy o shodeˇ strˇednı´ch hodnot
89
6.4. Testy shody rozptylu˚
90
Levenu˚v test
90
Bartlettu˚v test
90
6.5. Metody mnohona´sobne´ho porovna´va´nı´
91
Tukeyova metoda
91
Scheffe´ho metoda
91
6.6. Prˇ´ıklad
91
6.7. Vy´znam prˇedpokladu˚ v analy´ze rozptylu
95
7. Porˇadove´ testy o media´nech .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .101 7.1. Motivace
102
7.2. Jednovy´beˇrove´ porˇadove´ testy
102
Jednovy´beˇrovy´ Wilcoxonu˚v test
102
Prˇ´ıklad
103
Pa´rovy´ Wilcoxonu˚v test
104
Prˇ´ıklad
105
7.3. Dvouvy´beˇrove´ porˇadove´ testy
106
Dvouvy´beˇrovy´ Wilcoxonu˚v test
106
Prˇ´ıklad
107
7.4. Kruskalu˚v-Wallisu˚v test a media´novy´ test
108
Formulace proble´mu
108
Kruskalu˚v-Wallisu˚v test
108
Media´novy´ test
108
Metody mnohona´sobne´ho porovna´va´nı´
108
Prˇ´ıklad
109
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 8.1. Motivace
116
8.2. Testova´nı´ neza´vislosti nomina´lnı´ch velicˇin
116
Popis testu
116
Podmı´nky dobre´ aproximace
117
Meˇrˇenı´ sı´ly za´vislosti
117
Prˇ´ıklad
117
ˇ tyrˇpolnı´ tabulky C
120
Prˇ´ıklad
121
8.3. Testova´nı´ neza´vislosti ordina´lnı´ch velicˇin
122
Popis testu
122
Prˇ´ıklad
123
8.4. Testova´nı´ neza´vislosti intervalovy´ch cˇi pomeˇrovy´ch velicˇin
124
Pearsonu˚v koeficient korelace
124
Vy´beˇrovy´ koeficient korelace
124
Koeficient korelace dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´
125
Testova´nı´ hypote´zy o neza´vislosti
125
Prˇ´ıklad
126
Prˇ´ıloha A – Statisticke´ tabulky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Prˇ´ıloha B – Zada´nı´ POT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Rejstrˇ´ık . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Obsah
Motivace Na´hodny´ vy´beˇr a statistiky odvozene´ z na´hodne´ho vy´beˇru Bodove´ a intervalove´ odhady parametru˚ a parametricky´ch funkcı´ ´ vod do testova´nı´ hypote´z U
1
Za´kladnı´ pojmy matematicke´ statistiky
1. Za´kladnı´ pojmy matematicke´ statistiky
Cı´l kapitoly Po prostudova´nı´ te´to kapitoly budete – rozumeˇt pojmu „na´hodny´ vy´beˇr“ – zna´t vlastnosti du˚lezˇity´ch statistik odvozeny´ch z na´hodne´ho vy´beˇru – zna´t vlastnosti bodovy´ch a intervalovy´ch odhadu˚ parametru˚ a parametricky´ch funkcı´ – umeˇt formulovat nulovou a alternativnı´ hypote´zu o parametru cˇi parametricke´ funkci – zna´t trˇi zpu˚soby, jak testovat nulovou hypote´zu proti alternativnı´ hypote´ze na dane´ hladineˇ vy´znamnosti
ˇ asova´ za´teˇzˇ C Na prostudova´nı´ te´to kapitoly a splneˇnı´ u´kolu˚ s nı´ spojeny´ch budete potrˇebovat asi 18 hodin studia.
1.1
Motivace
Prˇi aplikaci metod popisne´ statistiky dospı´va´me pomocı´ zjisˇteˇny´ch dat k za´veˇru˚m, ktere´ se ty´kajı´ pouze vy´beˇrove´ho souboru. Naproti tomu matematicka´ statistika na´m umozˇnˇuje na za´kladeˇ znalosti na´hodne´ho vy´beˇru a statistik z neˇj odvozeny´ch (tj. naprˇ. vy´beˇrove´ho pru˚meˇru, vy´beˇrove´ho rozptylu, vy´beˇrove´ho koeficientu korelace, hodnoty vy´beˇrove´ distribucˇnı´ funkce apod.) ucˇinit za´veˇry o parametrech nebo tvaru rozlozˇenı´, z neˇhozˇ dany´ na´hodny´ vy´beˇr pocha´zı´. Cˇasto se jedna´ o bodove´ cˇi intervalove´ odhady parametru˚ a parametricky´ch funkcı´ a testova´nı´ hypote´z o nich.
1.2 1.2.1
Na´hodny´ vy´beˇr a statistiky odvozene´ z na´hodne´ho vy´beˇru Pojem na´hodne´ho vy´beˇru
Necht’ X1 , . . ., Xn jsou stochasticky neza´visle´ na´hodne´ velicˇiny, ktere´ majı´ vsˇechny ˇ ekneme, zˇe X1 , . . ., Xn je na´hodny´ vy´beˇr rozsahu n z rozlostejne´ rozlozˇenı´ L(ϑ ). R ˇ zˇenı´ L(ϑ ). (C´ıselne´ realizace x1 , . . ., xn na´hodne´ho vy´beˇru X1 , . . ., Xn usporˇa´dane´ do sloupcove´ho vektoru prˇedstavujı´ datovy´ soubor.) Necht’(X1,Y1 ), . . ., (Xn,Yn ) jsou stochasticky neza´visle´ dvourozmeˇrne´ na´hodne´ vekˇ ekneme, zˇe tory, ktere´ majı´ vsˇechny stejne´ dvourozmeˇrne´ rozlozˇenı´ L2 (ϑ ). R (X1 ,Y1), . . ., (Xn,Yn ) je dvourozmeˇrny´ na´hodny´ vy´beˇr rozsahu n z dvourozmeˇrne´ho rozlozˇenı´ L2 (ϑ ). (Cˇ´ıselne´ realizace (x1 , y1), . . ., (xn, yn ) na´hodne´ho vy´beˇru (X1 ,Y1), . . ., (Xn,Yn ) usporˇa´dane´ do matice typu n × 2 prˇedstavujı´ dvourozmeˇrny´ datovy´ soubor.) Analogicky lze definovat p-rozmeˇrny´ na´hodny´ vy´beˇr rozsahu n z p-rozmeˇrne´ho rozlozˇenı´ L p (ϑ ).
16
1.2.2
Pojem statistiky, prˇ´ıklady du˚lezˇity´ch statistik
Libovolna´ funkce T = T (X1, . . ., Xn) na´hodne´ho vy´beˇru X1 , . . ., Xn (resp. p-rozmeˇrne´ho na´hodne´ho vy´beˇru) se nazy´va´ statistika. a) Necht’X1 , . . ., Xn je na´hodny´ vy´beˇr, n ≥ 2. 1 n Statistika M = ∑ Xi se nazy´va´ vy´beˇrovy´ pru˚meˇr, n i=1 1 n Statistika S2 = ∑ (Xi − M)2 vy´beˇrovy´ rozptyl, n − 1 i=1 √ Statistika S = S2 vy´beˇrova´ smeˇrodatna´ odchylka. Pro libovolne´, ale pevneˇ zvolene´ rea´lne´ cˇ´ıslo x je statistikou te´zˇ hodnota vy´beˇrove´ distribucˇnı´ funkce Fn (x) =
1 card{i; Xi ≤ x}. n
b) Necht’ X11 , . . ., X1n1 , . . ., X p1 , . . ., X pn p je p stochasticky neza´visly´ch na´hodp
ny´ch vy´beˇru˚ o rozsazı´ch n1 ≥ 2, . . ., n p ≥ 2. Celkovy´ rozsah je n = ∑ n j . j=1
S12 , . . ., S2p
Oznacˇme M1 , . . ., Mp vy´beˇrove´ pru˚meˇry a vy´beˇrove´ rozptyly jednotlivy´ch vy´beˇru˚. Necht’c1 , . . ., c p jsou rea´lne´ konstanty, asponˇ jedna nenulova´. p
Statistika ∑ c j M j se nazy´va´ linea´rnı´ kombinace vy´beˇrovy´ch pru˚meˇru˚. j=1
p
Statistika S∗2 =
∑ (n j − 1)S2j
j=1
se nazy´va´ va´zˇeny´ pru˚meˇr vy´beˇrovy´ch rozptylu˚. n− p c) Necht’ (X1 ,Y1 ), . . ., (Xn,Yn ) je na´hodny´ vy´beˇr z dvourozmeˇrne´ho rozlozˇenı´. Oznacˇme M1 =
1 n
n
∑ Xi , M2 =
i=1
1 n
n
∑ Yi .
i=1
1 n Statistika S12 = ∑ (Xi − M1 )(Yi − M2 ) je vy´beˇrova´ kovariance, n − 1 i=1 statistika n Xi − M1 Yi − M2 1 · pro S1 S2 6= 0, ∑ S2 R12 = n − 1 i=1 S1 0 jinak. vy´beˇrovy´ koeficient korelace.
(Cˇ´ıselne´ realizace m, s2 , s, s12 , r12 statistik M, S2 , S, S12 , R12 odpovı´dajı´ cˇ´ıselny´m charakteristika´m znaku˚ v popisne´ statistice, ale u rozptylu, smeˇrodatne´ odchylky, 1 , nikoli n1 , jak kovariance a koeficientu korelace je multiplikativnı´ konstanta n−1 tomu bylo v popisne´ statistice.)
17
1. Za´kladnı´ pojmy matematicke´ statistiky
1.3
Bodove´ a intervalove´ odhady parametru˚ a parametricky´ch funkcı´
Vycha´zı´me z na´hodne´ho vy´beˇru X1 , . . ., Xn z rozlozˇenı´ L(ϑ ), ktere´ za´visı´ na parametru ϑ . Mnozˇinu vsˇech prˇ´ıpustny´ch hodnot tohoto parametru oznacˇ´ıme Ξ. Parametr ϑ nezna´me a chceme ho odhadnout pomocı´ dane´ho na´hodne´ho vy´beˇru (prˇ´ıpadneˇ chceme odhadnout neˇjakou parametrickou funkci h(ϑ )). Bodovy´m odhadem parametricke´ funkce h(ϑ ) je statistika Tn = T (X1, . . ., Xn ), ktera´ naby´va´ hodnot blı´zky´ch h(ϑ ), at’je hodnota parametru ϑ jaka´koliv. Existujı´ ru˚zne´ metody, jak konstruovat bodove´ odhady (naprˇ. metoda momentu˚ cˇi metoda maxima´lnı´ veˇrohodnosti, ale teˇmi se zde zaby´vat nebudeme) a take´ ru˚zne´ typy bodovy´ch odhadu˚. Omezı´me se na odhady nestranne´, asymptoticky nestranne´ a konzistentnı´. Intervalovy´m odhadem parametricke´ funkce h(ϑ ) rozumı´me interval (D, H), jehozˇ meze jsou statistiky D = D(X1, . . . , Xn), H = H(X1, . . ., Xn ) a ktery´ s dostatecˇneˇ velkou pravdeˇpodobnostı´ pokry´va´ h(ϑ ), at’je hodnota parametru ϑ jaka´koliv. 1.3.1
Typy bodovy´ch odhadu˚
Necht’X1 , . . ., Xn je na´hodny´ vy´beˇr z rozlozˇenı´ L(ϑ ), h(ϑ ) je parametricka´ funkce, T, T1, T2 , . . . jsou statistiky. ˇ ekneme, zˇe statistika T je nestranny´m odhadem parametricke´ funkce h(ϑ ), a) R jestlizˇe ∀ϑ ∈ Ξ : E(T ) = h(ϑ ). (Vy´znam nestrannosti spocˇ´ıva´ v tom, zˇe odhad T nesmı´ parametrickou funkci h(ϑ ) systematicky nadhodnocovat ani podhodnocovat. Nenı´-li tato podmı´nka splneˇna, jde o vychy´leny´ odhad.) b) Jsou-li T1 , T2 nestranne´ odhady te´zˇe parametricke´ funkce h(ϑ ), pak rˇekneme, zˇe T1 je lepsˇ´ı odhad nezˇ T2 , jestlizˇe ∀ϑ ∈ Ξ : D(T1) < D(T2).
c) Posloupnost {Tn }8 ´va´ posloupnost asymptoticky nestranny´ch odn=1 se nazy hadu˚ parametricke´ funkce h(ϑ ), jestlizˇe ∀ϑ ∈ Ξ : lim E(Tn) = h(ϑ ).
8
n→
(Vy´znam asymptoticke´ nestrannosti spocˇ´ıva´ v tom, zˇe s rostoucı´m rozsahem vy´beˇru klesa´ vychy´lenı´ odhadu.) d) Posloupnost {Tn }8 ´va´ posloupnost konzistentnı´ch odhadu˚ paramen=1 se nazy tricke´ funkce h(ϑ ), jestlizˇe ∀ϑ ∈ Ξ ∀ε > 0 : lim P |Tn − h(ϑ )| > ε = 0.
8
n→
(Vy´znam konzistence spocˇ´ıva´ v tom, zˇe s rostoucı´m rozsahem vy´beˇru klesa´ pravdeˇpodobnost, zˇe odhad se bude realizovat daleko od parametricke´ funkce h(ϑ ).)
18
Lze doka´zat, zˇe z nestrannosti odhadu vyply´va´ jeho asymptoticka´ nestrannost a z asymptoticke´ nestrannosti vyply´va´ konzistence, pokud posloupnost rozptylu˚ odhadu konverguje k nule. 1.3.2 Vlastnosti du˚lezˇity´ch statistik a) Necht’ X1 , . . ., Xn je na´hodny´ vy´beˇr z rozlozˇenı´ se strˇednı´ hodnotou µ , rozptylem σ 2 a distribucˇnı´ funkcı´ Φ(x). Necht’ n ≥ 2. Oznacˇme Mn vy´beˇrovy´ pru˚meˇr, Sn2 vy´beˇrovy´ rozptyl a pro libovolne´, ale pevneˇ dane´ x ∈ R Fn (x) hodnotu vy´beˇrove´ distribucˇnı´ funkce.
σ2 , n 2 2 2 2 Sn je nestranny´m odhadem σ (tj. E(Sn ) = σ ), at’jsou hodnoty parametru˚ µ , σ 2 jake´koli. Da´le platı´, zˇe pro libovolne´, ale pevneˇ dane´ x ∈ R je vy´beˇrova´ distribucˇnı´ funkce Fn (x) nestranny´m odhadem Φ(x) (tj. E(Fn (x)) = Φ(x)) s rozptylem D(Fn (x)) = Φ(x)(1 − Φ(x))/n, at’je hodnota distribucˇnı´ funkce Φ(x) jaka´koliv. 2 8 Posloupnost {Mn }8 je posloupnost konzistentnı ´ ch odhadu ˚ µ . Sn n=1 je n=1 posloupnost konzistentnı´ch odhadu˚ σ 2 . Pro libovolne´, ale pevneˇ dane´ x ∈ R je {Fn (x)}8 ˚ Φ(x). n=1 posloupnost konzistentnı´ch odhadu b) Necht’ X11 , . . ., X1n1 , . . ., X p1 , . . ., X pn p je p stochasticky neza´visly´ch na´hodny´ch vy´beˇru˚ o rozsazı´ch n1 ≥ 2, . . ., n p ≥ 2 z rozlozˇenı´ se strˇednı´mi hodnoPak Mn je nestranny´m odhadem µ (tj. E(Mn ) = µ ) s rozptylem D(M) =
p
tami µ1 , . . ., µ p a rozptylem σ 2 . Celkovy´ rozsah je n = ∑ n j . Necht’c1 , . . ., c p j=1
jsou rea´lne´ konstanty, asponˇ jedna nenulova´. Pak linea´rnı´ kombinace vy´beˇrop
vy´ch pru˚meˇru˚ ∑ c j M j je nestranny´m odhadem linea´rnı´ kombinace strˇednı´ch j=1
p
hodnot ∑ c j µ j , at’jsou strˇednı´ hodnoty µ1 , . . ., µ p jake´koli a va´zˇeny´ pru˚meˇr j=1
p
vy´beˇrovy´ch rozptylu˚ S∗2 =
∑ (n j − 1)S2j
j=1
n− p
je nestranny´m odhadem rozptylu
σ 2 , at’je rozptyl σ 2 jaky´koliv. c) Necht’ (X1,Y1 ), . . ., (Xn,Yn) je na´hodny´ vy´beˇr z dvourozmeˇrne´ho rozlozˇenı´ s kovariancı´ σ12 a koeficientem korelace ρ . Pak vy´beˇrova´ kovariance S12 je nestranny´m odhadem kovariance σ12 , at’ je kovariance σ12 jaka´koli, avsˇak E(R12 ) je rovno ρ pouze prˇiblizˇneˇ (shoda je vyhovujı´cı´ pro n > 30), at’ je korelacˇnı´ koeficient ρ jaky´koli. 1.3.3
Pojem intervalu spolehlivosti
Necht’X1 , . . ., Xn je na´hodny´ vy´beˇr z rozlozˇenı´ L(ϑ ), h(ϑ ) je parametricka´ funkce, α ∈ (0, 1), D = D(X1 , . . ., Xn), H = H(X1, . . ., Xn ) jsou statistiky.
a) Interval (D, H) se nazy´va´ 100(1 − α )% (oboustranny´) interval spolehlivosti pro parametrickou funkci h(ϑ ), jestlizˇe: ∀ϑ ∈ Ξ : P(D < h(ϑ ) < H) ≥ 1 − α . b) Interval (D, ) se nazy´va´ 100(1 − α )% levostranny´ interval spolehlivosti pro parametrickou funkci h(ϑ ), jestlizˇe: ∀ϑ ∈ Ξ : P(D < h(ϑ )) ≥ 1 − α .
8
19
1. Za´kladnı´ pojmy matematicke´ statistiky
8
c) Interval (− , H) se nazy´va´ 100(1− α )% pravostranny´ interval spolehlivosti pro parametrickou funkci h(ϑ ), jestlizˇe: ∀ϑ ∈ Ξ : P(h(ϑ ) < H) ≥ 1 − α . d) Cˇ´ıslo α se nazy´va´ riziko (zpravidla α = 0,05, me´neˇ cˇasto 0,1 cˇi 0,01), cˇ´ıslo 1 − α se nazy´va´ spolehlivost. 1.3.4
Postup prˇi konstrukci intervalu spolehlivosti
a) Vyjdeme ze statistiky V , ktera´ je nestranny´m bodovy´m odhadem parametricke´ funkce h(ϑ ). b) Najdeme tzv. pivotovou statistiku W , ktera´ vznikne transformacı´ statistiky V , je monoto´nnı´ funkcı´ h(ϑ ) a prˇitom jejı´ rozlozˇenı´ je zna´me´ a na h(ϑ ) neza´visı´. Pomocı´ zna´me´ho rozlozˇenı´ pivotove´ statistiky W najdeme kvantily wα /2 , w1−α /2 tak, zˇe platı´: ∀ϑ ∈ Ξ : P wα /2 < W < w1−α /2 ≥ 1 − α .
c) Nerovnost wα /2 < W < w1−α /2 prˇevedeme ekvivalentnı´mi u´pravami na nerovnost D < h(ϑ ) < H.
d) Statistiky D, H nahradı´me jejich cˇ´ıselny´mi realizacemi d, h a zı´ska´me tak 100(1 − α )% empiricky´ interval spolehlivosti, o neˇmzˇ prohla´sı´me, zˇe pokry´va´ h(ϑ ) s pravdeˇpodobnostı´ asponˇ 1 − α . (Tvrzenı´, zˇe (d, h) pokry´va´ h(ϑ ) s pravdeˇpodobnostı´ asponˇ 1 − α je trˇeba cha´pat takto: jestlizˇe mnohona´sobneˇ neza´visle zı´ska´me realizace x1 , . . ., xn na´hodne´ho vy´beˇru X1 , . . ., Xn z rozlozˇenı´ L(ϑ ) a pomocı´ kazˇde´ te´to realizace sestrojı´me 100(1 − α )% empiricky´ interval spolehlivosti pro h(ϑ ), pak podı´l pocˇtu teˇch intervalu˚, ktere´ pokry´vajı´ h(ϑ ) k pocˇtu vsˇech sestrojeny´ch intervalu˚ bude prˇiblizˇneˇ 1 − α .) 1.3.5
Prˇ´ıklad
Necht’ X1 , . . ., Xn je na´hodny´ vy´beˇr z N(µ , σ 2 ), kde n ≥ 2 a rozptyl σ 2 zna´me. Sestrojte 100(1 − α )% interval spolehlivosti pro nezna´mou strˇednı´ hodnotu µ . ˇ esˇenı´: R
V tomto prˇ´ıpadeˇ parametricka´ funkce h(ϑ ) = µ . Nestranny´m odhadem strˇednı´ hodnoty je vy´beˇrovy´ pru˚meˇr (viz 1.3.2 (a)) M =
1 n
n
∑ Xi . Protozˇe M je linea´rnı´
i=1
kombinacı´ norma´lneˇ rozlozˇeny´ch na´hodny´ch velicˇin, bude mı´t take´ norma´lnı´ rozσ2 lozˇenı´ se strˇednı´ hodnotou E(M) = µ a rozptylem D(M) = . Pivotovou statisn M−µ tikou W bude standardizovana´ na´hodna´ velicˇina U = σ ∼ N(0, 1). Kvantil wα /2 = uα /2 = −u1−α /2 , w1−α /2 = u1−α /2 .
√
n
∀ϑ ∈ Ξ : 1 − α ≤ P(−u1−α /2 < U < u1−α /2 ) = ! σ σ M−µ P −u1−α /2 < σ < u1−α /2 = P M − √ u1−α /2 < µ < M + √ u1−α /2 . √ n n n
20
Meze 100(1 − α )% intervalu spolehlivosti pro strˇednı´ hodnotu µ prˇi zna´me´m rozptylu σ 2 tedy jsou:
σ D = M − √ u1−α /2 , n
σ H = M + √ u1−α /2 . n
Prˇi konstrukci jednostranny´ch intervalu˚ spolehlivosti se riziko nepu˚lı´, tedy σ a 100(1 − α )% levostranny´ interval spolehlivosti pro µ je M − √ u1−α , n σ pravostranny´ je − , M + √ u1−α . n
8
8
Dosadı´me-li do vzorcu˚ pro dolnı´ a hornı´ mez cˇ´ıselnou realizaci m vy´beˇrove´ho pru˚meˇru M, dostaneme 100(1 − α )% empiricky´ interval spolehlivosti. 1.3.6
ˇ ´ırˇka intervalu spolehlivosti S
Necht’(d, h) je 100(1 − α )% empiricky´ interval spolehlivosti pro h(ϑ ) zkonstruovany´ pomocı´ cˇ´ıselny´ch realizacı´ x1 , . . ., xn na´hodne´ho vy´beˇru X1 , . . ., Xn z rozlozˇenı´ L(ϑ ). a) Prˇi konstantnı´m riziku klesa´ sˇ´ırˇka h–d s rostoucı´m rozsahem na´hodne´ho vy´beˇru. b) Prˇi konstantnı´m rozsahu na´hodne´ho vy´beˇru klesa´ sˇ´ırˇka h–d s rostoucı´m rizikem. Za´vislost dolnı´ a hornı´ meze na rozsahu vy´beˇru (prˇi konst. riziku)
1.3.7
Za´vislost dolnı´ a hornı´ meze na riziku (prˇi konst. rozsahu vy´beˇru)
Prˇ´ıklad
Vyuzˇitı´ bodu 1.3.6 (a) prˇi stanovenı´ minima´lnı´ho rozsahu vy´beˇru z norma´lnı´ho rozlozˇenı´: Necht’ X1 , . . ., Xn je na´hodny´ vy´beˇr z N(µ , σ 2 ), kde σ 2 zna´me. Jaky´ musı´ by´t minima´lnı´ rozsah vy´beˇru n, aby sˇ´ırˇka 100(1 − α )% empiricke´ho intervalu spolehlivosti pro strˇednı´ hodnotu µ neprˇesa´hla cˇ´ıslo ∆? ˇ esˇenı´: R
σ σ 2σ Pozˇadujeme, aby ∆ ≥ h − d = m + √ u1−α /2 − m − √ u1−α /2 = √ u1−α /2 . n n n
21
1. Za´kladnı´ pojmy matematicke´ statistiky
4σ 2 u21−α /2
Z te´to podmı´nky dostaneme, zˇe n ≥ ∆2 prˇirozene´ cˇ´ıslo vyhovujı´cı´ te´to podmı´nce.
1.4
. Za rozsah vy´beˇru zvolı´me nejmensˇ´ı
´ vod do testova´nı´ hypote´z U
Nulovou hypote´zou rozumı´me neˇjake´ tvrzenı´ o parametrech nebo typu rozlozˇenı´, z neˇhozˇ pocha´zı´ na´hodny´ vy´beˇr. Nulova´ hypote´za vyjadrˇuje neˇjaky´ teoreticky´ prˇedpoklad, cˇasto skepticke´ho ra´zu a uzˇivatel ji musı´ stanovit prˇedem, bez prˇihle´dnutı´ k datove´mu souboru. Proti nulove´ hypote´ze stavı´me alternativnı´ hypote´zu, ktera´ rˇ´ıka´, co platı´, kdyzˇ neplatı´ nulova´ hypote´za. Naprˇ. nulova´ hypote´za tvrdı´, zˇe strˇednı´ hodnota hmotnosti balı´cˇku˚ cukru baleny´ch na automaticke´ lince se nezmeˇnila serˇ´ızenı´m automatu, zatı´mco alternativnı´ hypote´za tvrdı´ opak. Postup, ktery´ je zalozˇen na dane´m na´hodne´m vy´beˇru a s jehozˇ pomocı´ rozhodneme o zamı´tnutı´ cˇi nezamı´tnutı´ nulove´ hypote´zy, se nazy´va´ testova´nı´ hypote´z. 1.4.1
Nulova´ a alternativnı´ hypote´za
Necht’X1 , . . ., Xn je na´hodny´ vy´beˇr z rozlozˇenı´ L(ϑ ), kde parametr ϑ ∈ Ξ nezna´me. Necht’h(ϑ ) je parametricka´ funkce a c dana´ rea´lna´ konstanta. a) Oboustranna´ alternativa: Tvrzenı´ H0 : h(ϑ ) = c se nazy´va´ jednoducha´ nulova´ hypote´za. Proti nulove´ hypote´ze postavı´me slozˇenou alternativnı´ hypote´zu H1 : h(ϑ ) 6= c. b) Levostranna´ alternativa: Tvrzenı´ H0 : h(ϑ ) ≥ c se nazy´va´ slozˇena´ pravostranna´ nulova´ hypote´za. Proti jednoduche´ nebo slozˇene´ pravostranne´ nulove´ hypote´ze postavı´me slozˇenou levostrannou alternativnı´ hypote´zu H1: h(ϑ ) < c. c) Pravostranna´ alternativa: Tvrzenı´ H0: h(ϑ ) ≤ c se nazy´va´ slozˇena´ levostranna´ nulova´ hypote´za. Proti jednoduche´ nebo slozˇene´ levostranne´ nulove´ hypote´ze postavı´me slozˇenou pravostrannou alternativnı´ hypote´zu H1 : h(ϑ ) > c. Testova´nı´m H0 proti H1 rozumı´me rozhodovacı´ postup zalozˇeny´ na na´hodne´m vy´beˇru X1 , . . ., Xn, s jehozˇ pomocı´ zamı´tneme cˇi nezamı´tneme platnost nulove´ hypote´zy. 1.4.2
Chyba 1. a 2. druhu
Prˇi testova´nı´ H0 proti H1 se mu˚zˇeme dopustit jedne´ ze dvou chyb: chyba 1. druhu spocˇ´ıva´ v tom, zˇe H0 zamı´tneme, acˇ ve skutecˇnosti platı´ a chyba 2. druhu spocˇ´ıva´ v tom, zˇe H0 nezamı´tneme, acˇ ve skutecˇnosti neplatı´. Situaci prˇehledneˇ zna´zornˇuje tabulka: skutecˇnost H0 platı´ H0 neplatı´
22
rozhodnutı´ H0 nezamı´ta´me H0 zamı´ta´me spra´vne´ rozhodnutı´ chyba 1. druhu chyba 2. druhu spra´vne´ rozhodnutı´
Pravdeˇpodobnost chyby 1. druhu se znacˇ´ı α a nazy´va´ se hladina vy´znamnosti testu (veˇtsˇinou by´va´ α = 0,05, me´neˇ cˇasto 0,1 cˇi 0,01). Pravdeˇpodobnost chyby 2. druhu se znacˇ´ı β . Cˇ´ıslo 1 − β se nazy´va´ sı´la testu a vyjadrˇuje pravdeˇpodobnost, s jakou test vypovı´, zˇe H0 neplatı´. 1.4.3
Testova´nı´ pomocı´ kriticke´ho oboru
Najdeme statistiku T0 = T0 (X1, . . ., Xn ), kterou nazveme testovy´m krite´riem (testovou statistikou). Mnozˇina vsˇech hodnot, jichzˇ mu˚zˇe testove´ krite´rium naby´t, se rozpada´ na obor nezamı´tnutı´ nulove´ hypote´zy (znacˇ´ı se V ) a obor zamı´tnutı´ nulove´ hypote´zy (znacˇ´ı se W a nazy´va´ se te´zˇ kriticky´ obor). Tyto dva obory jsou oddeˇleny kriticky´mi hodnotami (pro danou hladinu vy´znamnosti α je lze najı´t ve statisticky´ch tabulka´ch). Jestlizˇe cˇ´ıselna´ realizace t0 testove´ho krite´ria T0 padne do kriticke´ho oboru W , pak nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti α a znamena´ to skutecˇne´ vyvra´cenı´ testovane´ hypote´zy. Jestlizˇe t0 padne do oboru nezamı´tnutı´ V , pak jde o pouhe´ mlcˇenı´, ktere´ platnost nulove´ hypote´zy jenom prˇipousˇtı´. Pravdeˇpodobnosti chyb 1. a 2. druhu nynı´ zapı´sˇeme takto: P(T0 ∈ W /H0 platı´) = α ,
P(T0 ∈ V /H1 platı´) = β .
Stanovenı´ kriticke´ho oboru pro danou hladinu vy´znamnosti α : Oznacˇme tmin (resp. tmax ) nejmensˇ´ı (resp. nejveˇtsˇ´ı) hodnotu testove´ho krite´ria. Kriticky´ obor v prˇ´ıpadeˇ oboustranne´ alternativy ma´ tvar W = (tmin , Kα /2 (T )i ∪ hK1−α /2 (T ),tmax ), kde Kα /2 (T ) a K1−α /2 (T ) jsou kvantily rozlozˇenı´, jı´mzˇ se rˇ´ıdı´ testove´ krite´rium T0, je-li nulova´ hypote´za pravdiva´. Kriticky´ obor v prˇ´ıpadeˇ levostranne´ alternativy ma´ tvar: W = (tmin , Kα (T )i. Kriticky´ obor v prˇ´ıpadeˇ pravostranne´ alternativy ma´ tvar: W = hK1−α (T ),tmax). Doporucˇuje se dodrzˇovat na´sledujı´cı´ postup: – Stanovı´me nulovou hypote´zu a alternativnı´ hypote´zu. Prˇitom je vhodne´ zvolit jako alternativnı´ hypote´zu ten prˇedpoklad, jehozˇ prˇijetı´ znamena´ za´vazˇne´ opatrˇenı´ a meˇlo by k neˇmu dojı´t jen s maly´m rizikem omylu. – Zvolı´me hladinu vy´znamnosti α . Zpravidla volı´me α = 0,05, me´neˇ cˇasto 0,1 nebo 0,01. – Najdeme vhodne´ testove´ krite´rium a na za´kladeˇ zjisˇteˇny´ch dat vypocˇ´ıta´me jeho realizaci. – Stanovı´me kriticky´ obor.
23
1. Za´kladnı´ pojmy matematicke´ statistiky
– Jestlizˇe realizace testove´ho krite´ria padla do kriticke´ho oboru, nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti α . V opacˇne´m prˇ´ıpadeˇ nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti α . 1.4.4
Testova´nı´ pomocı´ intervalu spolehlivosti
Sestrojı´me 100(1 − α )% empiricky´ interval spolehlivosti pro parametrickou funkci h(ϑ ). Pokryje-li tento interval hodnotu c, pak H0 nezamı´ta´me na hladineˇ vy´znamnosti α , v opacˇne´m prˇ´ıpadeˇ H0 zamı´ta´me na hladineˇ vy´znamnosti α . Pro test H0 proti oboustranne´ alternativeˇ sestrojı´me oboustranny´ interval spolehlivosti. Pro test H0 proti levostranne´ alternativeˇ sestrojı´me pravostranny´ interval spolehlivosti. Pro test H0 proti pravostranne´ alternativeˇ sestrojı´me levostranny´ interval spolehlivosti. 1.4.5
Testova´nı´ pomocı´ p-hodnoty
p-hodnota uda´va´ nejnizˇsˇ´ı mozˇnou hladinu vy´znamnosti pro zamı´tnutı´ nulove´ hypote´zy. Je-li p-hodnota ≤ α , pak H0 zamı´ta´me na hladineˇ vy´znamnosti α , je-li p-hodnota > α , pak H0 nezamı´ta´me na hladineˇ vy´znamnosti α . Zpu˚sob vy´pocˇtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T0 ≤ t0 ), P(T0 ≥ t0 )}. Pro levostrannou alternativu p = P(T0 ≤ t0 ). Pro pravostrannou alternativu p = P(T0 ≥ t0 ).
p-hodnota vyjadrˇuje pravdeˇpodobnost, s jakou cˇ´ıselne´ realizace x1 , . . ., xn na´hodne´ho vy´beˇru X1 , . . ., Xn podporujı´ H0 , je-li pravdiva´. Statisticke´ programove´ syste´my poskytujı´ ve svy´ch vy´stupech p-hodnotu. Jejı´ vy´pocˇet vyzˇaduje znalost distribucˇnı´ funkce rozlozˇenı´, ktery´m se rˇ´ıdı´ testove´ krite´rium T0 , je-li H0 pravdiva´. Vzhledem k tomu, zˇe v beˇzˇny´ch statisticky´ch tabulka´ch jsou uvedeny pouze hodnoty distribucˇnı´ funkce standardizovane´ho norma´lnı´ho rozlozˇenı´, bez pouzˇitı´ specia´lnı´ho software jsme schopni vypocˇ´ıtat p-hodnotu pouze pro test hypote´zy o strˇednı´ hodnoteˇ norma´lnı´ho rozlozˇenı´ prˇi zna´me´m rozptylu. Ilustrace vy´znamu p-hodnoty pro test nulove´ hypote´zy proti oboustranne´, levostranne´ a pravostranne´ alternativeˇ:
(Zvonovita´ krˇivka reprezentuje hustotu rozlozˇenı´, ktery´m se rˇ´ıdı´ testove´ krite´rium, je-li nulova´ hypote´za pravdiva´.)
24
1.4.6
Prˇ´ıklad
10× neza´visle na sobeˇ byla zmeˇrˇena jista´ konstanta µ . Vy´sledky meˇrˇenı´ byly: 2 1,8
2,1
2,4
1,9
2,1
2
1,8
2,3
2,2.
Tyto vy´sledky povazˇujeme za cˇ´ıselne´ realizace na´hodne´ho vy´beˇru X1, . . ., X10 z rozlozˇenı´ N(µ , 0,04). Neˇjaka´ teorie tvrdı´, zˇe µ = 1,95. Proti nulove´ hypote´ze H0 : µ = 1,95 postavı´me oboustrannou alternativu H1: µ 6= 1, 95. Na hladineˇ vy´znamnosti 0,05 testujte H0 proti H1 vsˇemi trˇemi popsany´mi zpu˚soby. ˇ esˇenı´: R
m=
1 (2 + · · · + 2,2) = 2,06, 10
σ 2 = 0,04,
n = 10,
α = 0,05,
c = 1,95.
a) Test provedeme pomocı´ kriticke´ho oboru. Pro u´lohy o strˇednı´ hodnoteˇ norma´lnı´ho rozlozˇenı´ prˇi zna´me´m rozptylu poM−µ uzˇ´ıva´me pivotovou statistiku U = σ ∼ N(0, 1) (viz 1.3.5). Testove´ kri√ n M−c te´rium tedy bude T0 = σ a bude mı´t rozlozˇenı´ N(0, 1), pokud je nulova´ √ n hypote´za pravdiva´. Vypocˇ´ıta´me realizaci testove´ho krite´ria: t0 =
2,06 − 1,95 = 1,74. 0,2 √ 10
Stanovı´me kriticky´ obor:
8
8
W = (tmin , Kα /2 (T )i ∪ hK1−α /2 (T ),tmax ) = (− , uα /2 i ∪ hu1−α /2 , ) =
8 8 = (−8, −1,96i ∪ h1,96, 8)
8
8
= (− , −u1−α /2 i ∪ hu1−α /2 , ) = (− , −u0,975 i ∪ hu0,975 , ) =
Protozˇe 1,74 ∈ / W , H0 nezamı´ta´me na hladineˇ vy´znamnosti 0,05. b) Test provedeme pomocı´ intervalu spolehlivosti. Meze 100(1 − α )% empiricke´ho intervalu spolehlivosti pro strˇednı´ hodnotu µ prˇi zna´me´m rozptylu σ 2 jsou (viz 1.3.5): σ σ (d, h) = m − √ u1−α /2 , m + √ u1−α /2 . n n V nasˇem prˇ´ıpadeˇ dosta´va´me: 0,2 0,2 d = 2,06 − √ · u0,975 = 2,06 − √ · 1,96 = 1,936, 10 10
h = 2,184.
Protozˇe 1,95 ∈ (1,936; 2,184), H0 nezamı´ta´me na hladineˇ vy´znamnosti 0,05.
25
1. Za´kladnı´ pojmy matematicke´ statistiky
c) Test provedeme pomocı´ p-hodnoty. Protozˇe proti nulove´ hypote´ze stavı´me oboustrannou alternativu, pouzˇijeme vzorec
p = 2 min{P(T0 ≤ t0), P(T0 ≥ t0)} = 2 min{P(T0 ≤ 1,74), P(T0 ≥ 1,74)} = = 2 min{Φ(1,74), 1 − Φ(1,74)} = 2 min{0,95907, 1 − 0,95907} = = 0,08186. Jelikozˇ 0,08186 > 0,05, nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti 0,05.
Shrnutı´ kapitoly ´ strˇednı´m pojmem matematicke´ statistiky je pojem na´hodne´ho vy´beˇru, a to jednoU rozmeˇrne´ho i vı´cerozmeˇrne´ho. Transformacı´ jednoho nebo vı´ce na´hodny´ch vy´beˇru˚ vznika´ na´hodna´ velicˇina zvana´ (vy´beˇrova´) statistika. K nejdu˚lezˇiteˇjsˇ´ım statistika´m patrˇ´ı vy´beˇrovy´ pru˚meˇr, vy´beˇrovy´ rozptyl, vy´beˇrova´ smeˇrodatna´ odchylka, hodnoty vy´beˇrove´ distribucˇnı´ funkce, vy´beˇrova´ kovariance, vy´beˇrovy´ koeficient korelace. Jelikozˇ statistika je na´hodna´ velicˇina, ma´ smysl pocˇ´ıtat jejı´ strˇednı´ hodnotu a rozptyl. Uka´zali jsme si vlastnosti strˇednı´ hodnoty a rozptylu vy´beˇrove´ho pru˚meˇru cˇi hodnoty vy´beˇrove´ distribucˇnı´ funkce a strˇednı´ hodnoty vy´beˇrove´ho rozptylu, vy´beˇrove´ kovariance a vy´beˇrove´ho koeficientu korelace. Na za´kladeˇ znalosti na´hodne´ho vy´beˇru aproximujeme nezna´mou hodnotu parametru cˇi parametricke´ funkce bodovy´m odhadem parametricke´ funkce. Zpravidla pozˇadujeme, aby tento odhad meˇl jiste´ zˇa´doucı´ vlastnosti. K teˇm patrˇ´ı nestrannost, resp. asymptoticka´ nestrannost cˇi konzistence, pokud pracujeme s posloupnostı´ bodovy´ch odhadu˚ te´zˇe parametricke´ funkce. Bodove´ odhady vsˇak majı´ jednu znacˇnou nevy´hodu – nevı´me, s jakou pravdeˇpodobnostı´ odhadujı´ hodnotu nezna´me´ parametricke´ funkce. Tuto nevy´hodu odstranˇujı´ intervalove´ odhady parametricke´ funkce: jsou to intervaly, jejichzˇ meze jsou statistiky a ktere´ s prˇedem danou dostatecˇneˇ velkou pravdeˇpodobnostı´ pokry´vajı´ hodnotu nezna´me´ parametricke´ funkce. Pokud do vzorcu˚ pro meze 100(1 − α )% intervalu spolehlivosti pro danou parametrickou funkci dosadı´me cˇ´ıselne´ realizace na´hodne´ho vy´beˇru, dostaneme 100(1 − α )% empiricky´ interval spolehlivosti. Tvrzenı´ o parametrech rozlozˇenı´, z neˇhozˇ pocha´zı´ dany´ na´hodny´ vy´beˇr, nazy´va´me nulovou hypote´zou. Proti nulove´ hypote´ze stavı´me alternativnı´ hypote´zu, ktera´ rˇ´ıka´, co platı´, kdyzˇ neplatı´ nulova´ hypote´za. Prˇi testova´nı´ nulove´ hypote´zy proti alternativnı´ hypote´ze se mu˚zˇeme dopustit bud’ chyby 1. druhu (nulovou hypote´zu zamı´tneme, acˇ ve skutecˇnosti platı´) nebo chyby 2. druhu (nulovou hypote´zu nezamı´tneme, acˇ ve skutecˇnosti neplatı´). Pravdeˇpodobnost chyby 1. druhu se znacˇ´ı α a nazy´va´ se hladina vy´znamnosti testu. Klasicky´ prˇ´ıstup k testova´nı´ hypote´z spocˇ´ıva´ v nalezenı´ vhodne´ho testove´ho krite´ria. Mnozˇina hodnot, jichzˇ mu˚zˇe testove´ krite´rium naby´t, se rozpada´ na obor nezamı´tnutı´ nulove´ hypote´zy a na kriticky´ obor. Tyto dva neslucˇitelne´ obory jsou oddeˇleny kriticky´mi hodnotami. Pokud se testove´ krite´rium realizuje v kriticke´m oboru, nulovou
26
hypote´zu zamı´ta´me na hladineˇ vy´znamnosti α a prˇijı´ma´me alternativnı´ hypote´zu. V opacˇne´m prˇ´ıpadeˇ nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti α . Tı´m jsme ovsˇem neproka´zali jejı´ pravdivost, mu˚zˇeme pouze rˇ´ıci, zˇe nasˇe data nejsou natolik pru˚kazna´, abychom mohli nulovou hypote´zu zamı´tnout. Test nulove´ hypote´zy proti alternativnı´ hypote´ze lze te´zˇ prove´st pomocı´ intervalu spolehlivosti. Ma´me-li k dispozici statisticky´ software, mu˚zˇeme vypocˇ´ıtat p-hodnotu jako nejmensˇ´ı mozˇnou hladinu vy´znamnosti pro zamı´tnutı´ nulove´ hypote´zy.
Kontrolnı´ ota´zky 1. Vysveˇtlete pojem „na´hodny´ vy´beˇr“ a „statistika“ a uved’te prˇ´ıklady du˚lezˇity´ch 2. 3. 4. 5. 6. 7. 8.
statistik. K cˇemu slouzˇ´ı bodovy´ odhad parametricke´ funkce a jake´ typy bodovy´ch odhadu˚ zna´te? Definujte interval spolehlivosti a popisˇte zpu˚sob jeho konstrukce. Jaky´ vliv na sˇ´ırˇku intervalu spolehlivosti ma´ riziko a jaky´ vliv ma´ rozsah vy´beˇru? Co rozumı´me pojmem „testova´nı´ hypote´z“? Popisˇte nulovou a alternativnı´ hypote´zu. Vysveˇtlete rozdı´l mezi chybou 1. a 2. druhu. Popisˇte trˇi zpu˚soby testova´nı´ hypote´z.
Autokorekcˇnı´ test 1. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´?
a) Na´hodny´m vy´beˇrem rozumı´me objekty za´kladnı´ho souboru, ktere´ byly vybra´ny do vy´beˇrove´ho souboru na´hodneˇ, naprˇ. losova´nı´m. b) Na´hodny´m vy´beˇrem rozumı´me posloupnost stochasticky neza´visly´ch a stejneˇ rozlozˇeny´ch na´hodny´ch velicˇin cˇi vektoru˚. c) Cˇ´ıselne´ realizace na´hodne´ho vy´beˇru usporˇa´dane´ do vektoru cˇi matice tvorˇ´ı datovy´ soubor. 2. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´? a) Vy´beˇrovy´ rozptyl je aritmeticky´m pru˚meˇrem kvadra´tu˚ centrovany´ch slozˇek na´hodne´ho vy´beˇru. b) Cˇ´ıselne´ realizace vy´beˇrove´ho pru˚meˇru se mohou vy´beˇr od vy´beˇru lisˇit. c) V definici va´zˇene´ho pru˚meˇru vy´beˇrovy´ch rozptylu˚ hrajı´ roli vah rozsahy jednotlivy´ch na´hodny´ch vy´beˇru˚. 3. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´? a) Statistika je nestranny´m odhadem parametricke´ funkce, pokud jejı´ strˇednı´ hodnota je rovna te´to parametricke´ funkci, at’je hodnota parametru jaka´koliv. b) Posloupnost statistik je posloupnostı´ konzistentnı´ch odhadu˚ parametricke´ funkce, pokud s rostoucı´m rozsahem na´hodne´ho vy´beˇru roste
27
1. Za´kladnı´ pojmy matematicke´ statistiky
pravdeˇpodobnost, zˇe odhady se budou realizovat daleko od parametricke´ funkce, at’je hodnota parametru jaka´koliv. c) Ma´me-li dva nestranne´ odhady te´zˇe parametricke´ funkce, tak za lepsˇ´ı povazˇujeme ten, ktery´ ma´ veˇtsˇ´ı rozptyl, at’je hodnota parametru jaka´koliv. 4. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´? a) Vy´beˇrovy´ pru˚meˇr je nestranny´m odhadem strˇednı´ hodnoty. b) Vy´beˇrova´ smeˇrodatna´ odchylka je nestranny´m odhadem smeˇrodatne´ odchylky. c) Vy´beˇrovy´ koeficient korelace je nestranny´m odhadem koeficientu korelace. 5. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´? a) Prˇi konstrukci intervalu spolehlivosti pro parametrickou funkci musı´me zna´t statistiku, ktera´ je nestranny´m bodovy´m odhadem te´to parametricke´ funkce. b) Empiricky´ 100(1 − α )% interval spolehlivosti slouzˇ´ı jako odhad nezna´me´ho parametricke´ funkce v tomto smyslu: pravdeˇpodobnost, zˇe tento interval pokry´va´ skutecˇnou hodnotu parametricke´ funkce, je asponˇ 1 − α . c) Prˇi konstantnı´m riziku α klesa´ sˇ´ırˇka empiricke´ho 100(1 − α )% intervalu spolehlivosti s rostoucı´m rozsahem na´hodne´ho vy´beˇru. 6. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´? a) Kriticky´ obor a obor nezamı´tnutı´ nulove´ hypote´zy jsou vzˇdy disjunktnı´. b) Pravdeˇpodobnost chyby 2. druhu lze urcˇit na za´kladeˇ znalosti rizika α. c) Pokud byla nulova´ hypote´za zamı´tnuta na hladineˇ vy´znamnosti 0,01, byla by zamı´tnuta i na hladineˇ vy´znamnosti 0,05. Spra´vne´ odpoveˇdi: 1b), c) 2b) 3a) 4a) 5a), b), c) 6a), c)
Prˇ´ıklady 1. Neza´visle opakovana´ laboratornı´ meˇrˇenı´ urcˇite´ konstanty jsou charakteri-
zova´na na´hodny´m vy´beˇrem X1, . . ., Xn z rozlozˇenı´ se strˇednı´ hodnotou µ a rozptylem σ 2 . Uvazˇme statistiky M=
1 n ∑ Xi, n i=1
L=
X1 + Xn . 2
Dokazˇte, zˇe M a L jsou nestranne´ odhady konstanty µ a zjisteˇte, ktery´ z nich je lepsˇ´ı. Vy´sledek:
Vy´pocˇtem zjistı´me, zˇe E(M) = µ , E(L) = µ , tudı´zˇ statistiky M a L jsou nestranne´ odhady konstanty µ . Pro posouzenı´ kvality vypocˇteme D(M) = σ2 σ2 , D(L) = . Vidı´me tedy, zˇe pro n ≥ 3 je lepsˇ´ım odhadem vy´beˇrovy´ n 2 pru˚meˇr M.
28
2. Necht’ X1 , . . ., Xn je na´hodny´ vy´beˇr z rozlozˇenı´ N(µ ; 0,04). Jaky´ musı´ by´t
nejmensˇ´ı rozsah na´hodne´ho vy´beˇru, aby sˇ´ırˇka 95% empiricke´ho intervalu spolehlivosti pro nezna´mou strˇednı´ hodnotu µ neprˇesa´hla cˇ´ıslo 0,16? Vy´sledek: 25
3. Necht’ X1 , . . ., X9 je na´hodny´ vy´beˇr z rozlozˇenı´ N(µ ; 0,01). Realizace vy´beˇ-
rove´ho pru˚meˇru je m = 3. Sestrojte 100(1 − α )% empiricky´ interval spolehlivosti pro nezna´mou strˇednı´ hodnotu µ , je-li a) α = 0,01, b) α = 0,05, c) α = 0,1. Vy´sledek:
ad a) 2,914 < µ < 3,086 s pravdeˇpodobnostı´ asponˇ 0,99. ad b) 2,935 < µ < 3,065 s pravdeˇpodobnostı´ asponˇ 0,95. ad c) 2,945 < µ < 3,055 s pravdeˇpodobnostı´ asponˇ 0,90. Vidı´me, zˇe s rostoucı´m rizikem klesa´ sˇ´ırˇka intervalu spolehlivosti. 4. Necht’X1 , . . ., Xn je na´hodny´ vy´beˇr z rozlozˇenı´ N(µ ; 0, 01). Realizace vy´beˇrove´ho pru˚meˇru je m = 3. Sestrojte 95% empiricky´ interval spolehlivosti pro nezna´mou strˇednı´ hodnotu µ , je-li a) n = 4, b) n = 9, c) n = 16. Vy´sledek:
ad a) 2,902 < µ < 3,098 s pravdeˇpodobnostı´ asponˇ 0,95. ad b) 2,935 < µ < 3,065 s pravdeˇpodobnostı´ asponˇ 0,95. ad c) 2,951 < µ < 3,049 s pravdeˇpodobnostı´ asponˇ 0,95. Vidı´me, zˇe s rostoucı´m rozsahem vy´beˇru klesa´ sˇ´ırˇka intervalu spolehlivosti. 5. Je zna´mo, zˇe vy´sˇka hochu˚ ve veˇku 9,5 azˇ 10 let ma´ norma´lnı´ rozlozˇenı´ s nezna´mou strˇednı´ hodnotou µ a zna´my´m rozptylem σ 2 = 39,112 cm2 . Deˇtsky´ le´karˇ na´hodneˇ vybral 15 hochu˚ uvedene´ho veˇku, zmeˇrˇil je a vypocˇ´ıtal realizaci vy´beˇrove´ho pru˚meˇru m = 139,13 cm. Podle jeho na´zoru by vy´sˇka hochu˚ v tomto veˇku nemeˇla prˇesa´hnout 142 cm s pravdeˇpodobnostı´ asponˇ 0,95. Lze tvrzenı´ le´karˇe akceptovat? Vy´sledek:
Testujeme H0: µ ≤ 142 proti H1 : µ > 142 na hladineˇ vy´znamnosti 0,05.
8
Testova´nı´ pomocı´ kriticke´ho oboru: W = h1,6449, ), realizace testove´ho krite´ria je −1,7773. Protozˇe testove´ krite´rium se nerealizuje v kriticke´m oboru, nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti 0,05. Testova´nı´ pomocı´ intervalu spolehlivosti: 95% empiricky´ levostranny´ interval spolehlivosti pro strˇednı´ hodnotu µ je (136,47; ). Protozˇe cˇ´ıslo 142 patrˇ´ı do tohoto intervalu, nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti 0,05.
8
Testova´nı´ pomocı´ p-hodnoty: p = 0,9622. Protozˇe p-hodnota je veˇtsˇ´ı nezˇ hladina vy´znamnosti 0,05, nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti 0,05.
29
1. Za´kladnı´ pojmy matematicke´ statistiky
30
Motivace Jednoduche´ pozorova´nı´ Dvojne´ pozorova´nı´ Mnohona´sobne´ pozorova´nı´
2
Usporˇa´da´nı´ pokusu˚
2. Usporˇa´da´nı´ pokusu˚
Cı´l kapitoly Po prostudova´nı´ te´to kapitoly budete – – – –
schopni spra´vne´ napla´novat pokus rozezna´vat jednoduche´, dvojne´ a mnohona´sobne´ pozorova´nı´ v ra´mci dvojne´ho pozorova´nı´ rozlisˇovat dvouvy´beˇrove´ a pa´rove´ porovna´va´nı´ v ra´mci mnohona´sobne´ho pozorova´nı´ rozlisˇovat mnohovy´beˇrove´ a blokove´ porovna´va´nı´
ˇ asova´ za´teˇzˇ C Na prostudova´nı´ te´to kapitoly a splneˇnı´ u´kolu˚ s nı´ spojeny´ch budete potrˇebovat asi 2 hodiny studia.
2.1
Motivace
Abychom mohli spra´vneˇ vyhodnotit vy´sledky pokusu, musı´ by´t pokus dobrˇe napla´nova´n. V za´vislosti na za´meˇrech experimenta´tora rozezna´va´me neˇkolik typu˚ usporˇa´da´nı´ pokusu˚: jednoduche´ pozorova´nı´ (zkoumajı´ se hodnoty na´hodne´ velicˇiny pozorovane´ za ty´chzˇ podmı´nek), dvojne´ pozorova´nı´ (zkouma´ se rozdı´lnost hodnot na´hodne´ velicˇiny pozorovane´ za dvojı´ch ru˚zny´ch podmı´nek) a mnohona´sobne´ pozorova´nı´ (zkouma´ se rozdı´lnost hodnot na´hodne´ velicˇiny pozorovane´ za r ≥ 3 ru˚zny´ch podmı´nek). Podle typu usporˇa´da´nı´ pokusu pak volı´me vhodnou statistickou metodu. V te´to kapitole probereme pouze ty nejjednodusˇsˇ´ı typy usporˇa´da´nı´ pokusu˚. V praxi (naprˇ. v medicı´nske´m nebo zemeˇdeˇlske´m vy´zkumu) pouzˇ´ıvajı´ veˇdci cˇasto velmi slozˇite´ pla´ny experimentu˚. V doporucˇene´ literaturˇe [HENDL] je pla´nova´nı´ experimentu˚ veˇnova´na podkapitola 2.4. V na´sledujı´cı´m textu se zameˇrˇ´ıme na situaci, kdy zkouma´me hmotnostnı´ prˇ´ıru˚stky stejneˇ stary´ch selat te´hozˇ plemene prˇi ru˚zny´ch vy´krmny´ch dieta´ch. Urcˇitou vy´krmnou dietu aplikujeme naprˇ. po dobu pu˚l roku. Kazˇdy´ den zjisˇt’ujeme hmotnostı´ prˇ´ıru˚stky kazˇde´ho selete a po uplynutı´ pu˚l roku vypocˇteme pro kazˇde´ sele pru˚meˇrny´ hmotnostnı´ prˇ´ıru˚stek.
2.2
Jednoduche´ pozorova´nı´
Na´hodna´ velicˇina je pozorova´na za ty´chzˇ podmı´nek. Situace je charakterizova´na jednı´m na´hodny´m vy´beˇrem X1 , . . ., Xn . (Na´hodneˇ vybereme n stejneˇ stary´ch selat te´hozˇ plemene, podrobı´me je jedine´ vy´krmne´ dieteˇ a zjistı´me hmotnostnı´ prˇ´ıru˚stky. Tak dostaneme realizaci jednoho na´hodne´ho vy´beˇru.) Pokud lze ocˇeka´vat, zˇe na´hodny´ vy´beˇr pocha´zı´ z norma´lnı´ho rozlozˇenı´, mu˚zˇeme naprˇ. konstruovat interval spolehlivosti pro nezna´mou strˇednı´ hodnotu, nezna´my´ rozptyl cˇi smeˇrodatnou odchylku pru˚meˇrny´ch dennı´ch hmotnostnı´ch prˇ´ıru˚stku˚ nebo testovat hypote´zu, zˇe strˇednı´ hodnota pru˚meˇrny´ch dennı´ch hmotnostnı´ch prˇ´ıru˚stku˚ neklesne pod urcˇitou hranici. (Tyto u´koly budeme rˇesˇit ve 4. kapitole.)
32
2.3
Dvojne´ pozorova´nı´
Zkouma´ se rozdı´lnost hodnot na´hodne´ velicˇiny pozorovane´ za dvojı´ch ru˚zny´ch podmı´nek. Existujı´ dveˇ odlisˇna´ usporˇa´da´nı´ tohoto pokusu. 2.3.1
Dvouvy´beˇrove´ porovna´va´nı´
Situace je charakterizova´na dveˇma neza´visly´mi na´hodny´mi vy´beˇry X11 , . . ., X1n1 a X21 , . . ., X2n2 . (Z populace vsˇech dostupny´ch stejneˇ stary´ch selat te´hozˇ plemene na´hodneˇ vybereme n1 +n2 jedincu˚. Na´hodneˇ je rozdeˇlı´me na dva soubory o rozsazı´ch n1 a n2 , prvnı´ podrobı´me vy´krmne´ dieteˇ cˇ. 1 a druhy´ vy´krmne´ dieteˇ cˇ. 2. Tak dostaneme realizace dvou neza´visly´ch na´hodny´ch vy´beˇru˚.) Za prˇedpokladu, zˇe dane´ na´hodne´ vy´beˇry pocha´zejı´ z norma´lnı´ch rozlozˇenı´, lze naprˇ. konstruovat interval spolehlivosti pro rozdı´l strˇednı´ch hodnot cˇi podı´l rozptylu˚ pru˚meˇrny´ch dennı´ch hmotnostnı´ch prˇ´ıru˚stku˚ nebo testovat hypote´zu o stejne´ u´cˇinnosti obou vy´krmny´ch diet. (Tyto u´koly budeme rˇesˇit v 5. kapitole.) 2.3.2
Pa´rove´ porovna´va´nı´
Situace je charakterizova´na jednı´m na´hodny´m vy´beˇrem (X11 , X12 ), . . ., (Xn1, Xn2 ) ´ loha z dvourozmeˇrne´ho rozlozˇenı´. Pa´rem se rozumı´ dvojice (Xi1 , Xi2 ), i = 1, . . ., n. U se zpravidla prˇeva´dı´ na jednoduche´ pozorova´nı´ na´hodne´ho vy´beˇru rozdı´lu˚ Xi1 − Xi2 , kde i = 1, . . ., n. (Na´hodneˇ vybereme n vrhu˚ stejneˇ stary´ch selat te´hozˇ plemene a z nich vzˇdy dva sourozence a na´hodneˇ jim prˇirˇadı´me 1. a 2. vy´krmnou dietu. Tak dostaneme realizaci na´hodne´ho vy´beˇru z dvourozmeˇrne´ho rozlozˇenı´.) Lze-li dvourozmeˇrny´ na´hodny´ vy´beˇr povazˇovat za vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´, budeme se zaby´vat konstrukcı´ intervalu spolehlivosti pro rozdı´l strˇednı´ch hodnot pru˚meˇrny´ch dennı´ch hmotnostnı´ch prˇ´ıru˚stku˚ nebo testovat hypoˇ esˇenı´ u´kolu˚ tohoto typu je popsa´no te´zu o stejne´ u´cˇinnosti obou vy´krmny´ch diet. (R ve 4. kapitole.)
2.4
Mnohona´sobne´ pozorova´nı´
Zkouma´ se rozdı´lnost hodnot na´hodne´ velicˇiny pozorovane´ za r ≥ 3 ru˚zny´ch podmı´nek. Existujı´ dveˇ odlisˇna´ usporˇa´da´nı´ tohoto pokusu. 2.4.1
Mnohovy´beˇrove´ porovna´va´nı´
Situace je charakterizova´na r neza´visly´mi na´hodny´mi vy´beˇry X11 , . . ., X1n1 , . . ., Xr1 , . . ., Xrnr . (Z populace vsˇech dostupny´ch stejneˇ stary´ch selat te´hozˇ plemene na´hodneˇ vybereme n1 + n2 + · · · + nr jedincu˚. Na´hodneˇ je rozdeˇlı´me na r souboru˚ o rozsazı´ch n1 , n2 , . . ., nr . Selata z prvnı´ho souboru podrobı´me vy´krmne´ dieteˇ cˇ. 1, . . . , selata z r-te´ho souboru podrobı´me vy´krmne´ dieteˇ cˇ. r. Tak dostaneme realizace r neza´visly´ch na´hodny´ch vy´beˇru˚.) Za prˇedpokladu, zˇe vsˇechny na´hodne´ vy´beˇry se rˇ´ıdı´ norma´lnı´m rozlozˇenı´m s ty´mzˇ rozptylem, mu˚zˇeme testovat hypote´zu o stejne´ u´cˇinnosti vsˇech r vy´krmny´ch diet. (Tomuto proble´mu je veˇnova´na 6. kapitola.)
33
2. Usporˇa´da´nı´ pokusu˚
2.4.2
Blokove´ porovna´va´nı´
Situace je charakterizova´na jednı´m na´hodny´m vy´beˇrem (X11 , X12 , . . ., X1r ), . . ., (Xn1 , Xn2 , . . ., Xnr ) z r-rozmeˇrne´ho rozlozˇenı´. Blokem se rozumı´ r-tice (Xi1 , Xi2, . . ., Xir ), i = 1, . . . , n. (Na´hodneˇ vybereme n vrhu˚ stary´ch selat te´hozˇ plemene a z nich vzˇdy r sourozencu˚ a na´hodneˇ jim prˇirˇadı´me 1. azˇ r-tou vy´krmnou dietu. Tak dostaneme realizaci na´hodne´ho vy´beˇru z r-rozmeˇrne´ho rozlozˇenı´.) Vyhodnocenı´ vy´sledku˚ prˇi blokove´m porovna´va´nı´ se prova´dı´ naprˇ. pomocı´ Friedmanova testu. Jeho popis se jizˇ vymyka´ na´plni prˇedmeˇtu Statistika II. Poucˇenı´ lze nale´zt v doporucˇene´ literaturˇe [HENDL] na str. 360.
Shrnutı´ kapitoly Existujı´ trˇi za´kladnı´ zpu˚soby usporˇa´da´nı´ pokusu˚: – jednoduche´ pozorova´nı´ (na´hodna´ velicˇina je pozorova´na za ty´chzˇ podmı´nek), – dvojne´ pozorova´nı´ (na´hodna´ velicˇina je pozorova´na za dvojı´ch ru˚zny´ch podmı´nek, prˇicˇemzˇ lze pouzˇ´ıt bud’ dvouvy´beˇrove´ porovna´va´nı´ – vy´sledkem jsou dva neza´visle´ na´hodne´ vy´beˇry nebo pa´rove´ porovna´va´nı´ – vy´sledkem je jeden na´hodny´ vy´beˇr z dvourozmeˇrne´ho rozlozˇenı´) – mnohona´sobne´ pozorova´nı´ (na´hodna´ velicˇina je pozorova´na za r ≥ 3 ru˚zny´ch podmı´nek, prˇicˇemzˇ lze pouzˇ´ıt bud’mnohovy´beˇrove´ porovna´va´nı´ – vy´sledkem je r ≥ 3 neza´visly´ch na´hodny´ch vy´beˇru˚ nebo blokove´ porovna´va´nı´ – vy´sledkem je jeden na´hodny´ vy´beˇr z r-rozmeˇrne´ho rozlozˇenı´). Spra´vne´mu usporˇa´da´nı´ pokusu˚ je zapotrˇebı´ veˇnovat patrˇicˇnou pozornost, nebot’ prˇi nevhodne´m usporˇa´da´nı´ nelze efektivneˇ vyuzˇ´ıt informace obsazˇene´ v datech a prostrˇedky vynalozˇene´ na jejich zı´ska´nı´ jsou znehodnoceny.
Kontrolnı´ ota´zky 1. Popisˇte trˇi zpu˚soby pla´nova´nı´ pokusu˚. 2. Jak se lisˇ´ı dvouvy´beˇrove´ a pa´rove´ porovna´va´nı´? 3. Jak se lisˇ´ı mnohovy´beˇrove´ a blokove´ porovna´va´nı´?
Autokorekcˇnı´ test 1. Z na´sledujı´cı´ch trˇ´ı mozˇnostı´ vyberte spra´vnou:
Pokud u neˇkolika osob meˇrˇ´ıme krevnı´ tlak prˇed za´teˇzˇ´ı a po za´teˇzˇi, jedna´ se o a) jednoduche´ pozorova´nı´ b) dvouvy´beˇrove´ porovna´va´nı´ c) pa´rove´ porovna´va´nı´. 2. Z na´sledujı´cı´ch trˇ´ı mozˇnostı´ vyberte spra´vnou: Na´hodneˇ vybereme dostatecˇny´ pocˇet rodin s deˇtmi a zkouma´me, zda pocˇet deˇtı´ ovlivnˇuje pru˚meˇrne´ rocˇnı´ vy´daje rodiny na pru˚myslove´ zbozˇ´ı. V tomto prˇ´ıpadeˇ se jedna´ o a) pa´rove´ porovna´va´nı´ b) mnohovy´beˇrove´ porovna´va´nı´ c) blokove´ porovna´va´nı´.
34
3. Z na´sledujı´cı´ch trˇ´ı mozˇnostı´ vyberte spra´vnou:
Na´hodneˇ vybereme dostatecˇny´ pocˇet muzˇu˚ a zˇen se stejny´m pracovnı´m zarˇazenı´m. Zkouma´me, zda pohlavı´ ma´ vliv na vy´sˇi pru˚meˇrne´ho rocˇnı´ho platu. Pro tuto situaci vyuzˇijeme a) blokove´ porovna´va´nı´ b) pa´rove´ porovna´va´nı´ c) dvouvy´beˇrove´ porovna´va´nı´. Spra´vne´ odpoveˇdi: 1c)
2b)
3c)
35
2. Usporˇa´da´nı´ pokusu˚
36
Motivace Krabicovy´ diagram Norma´lnı´ pravdeˇpodobnostnı´ graf (N–P plot) Kvantil–kvantilovy´ graf (Q–Q plot) Histogram Dvourozmeˇrny´ tecˇkovy´ diagram Kolmogorovu˚v-Smirnovu˚v test normality dat Shapiru˚v-Wilksu˚v test normality dat Vzorovy´ prˇ´ıklad
3
Diagnosticke´ grafy a testy normality dat
3. Diagnosticke´ grafy a testy normality dat
Cı´l kapitoly Po prostudova´nı´ te´to kapitoly budete – zna´t zpu˚sob konstrukce krabicove´ho diagramu, norma´lnı´ho pravdeˇpodobnostnı´ho grafu, kvantil–kvantilove´ho grafu, histogramu a dvourozmeˇrne´ho tecˇkove´ho diagramu a budete umeˇt tyto grafy vytvorˇit v syste´mu STATISTICA – schopni pomocı´ teˇchto diagnosticky´ch grafu˚ orientacˇneˇ posoudit povahu dat – umeˇt v syste´mu STATISTICA prova´deˇt testy normality dat
ˇ asova´ za´teˇzˇ C Na prostudova´nı´ te´to kapitoly a splneˇnı´ u´kolu˚ s nı´ spojeny´ch budete potrˇebovat asi 20 hodin studia.
3.1
Motivace
Diagnosticke´ grafy slouzˇ´ı prˇedevsˇ´ım k tomu, aby na´m pomohly orientacˇneˇ posoudit povahu dat a urcˇit smeˇr dalsˇ´ı statisticke´ analy´zy. Prˇi zpracova´nı´ dat se cˇasto prˇedpokla´da´ splneˇnı´ urcˇity´ch podmı´nek. V prˇ´ıpadeˇ jednoho na´hodne´ho vy´beˇru je to prˇedevsˇ´ım normalita (posuzujeme ji pomocı´ N–P plotu, Q–Q plotu, histogramu) a neprˇ´ıtomnost vybocˇujı´cı´ch hodnot (odhalı´ je krabicovy´ diagram neboli box plot). U dvou cˇi vı´ce neza´visly´ch na´hodny´ch vy´beˇru˚ sledujeme kromeˇ normality te´zˇ shodu strˇednı´ch hodnot nebo shodu rozptylu˚ – homoskedasticitu (porovna´va´me vzhled krabicovy´ch diagramu˚). V prˇ´ıpadeˇ jednoho dvourozmeˇrne´ho na´hodne´ho vy´beˇru cˇasto posuzujeme dvourozmeˇrnou normalitu dat (pouzˇijeme dvourozmeˇrny´ tecˇkovy´ diagram s prolozˇenou 100(1 − α )% elipsou konstantnı´ hustoty pravdeˇpodobnosti). Vzhledem k du˚lezˇitosti prˇedpokladu normality se vedle graficke´ho posouzenı´ doporucˇuje te´zˇ pouzˇitı´ neˇktere´ho testu normality, naprˇ. Kolmogorovova-Smirnovova testu nebo Shapirova-Wilksova testu. K za´veˇru˚m teˇchto testu˚ vsˇak prˇistupujeme s urcˇitou opatrnostı´. Ma´me-li k dispozici rozsa´hlejsˇ´ı datovy´ soubor (orientacˇneˇ n > 30) a test zamı´tne na obvykle´ hladineˇ vy´znamnosti 0,01 nebo 0,05 hypote´zu o normaliteˇ, i kdyzˇ vzhled diagnosticky´ch grafu˚ sveˇdcˇ´ı jenom o lehke´m porusˇenı´ normality, nedopustı´me se za´vazˇne´ chyby, pokud pouzˇijeme statistickou metodu zalozˇenou na normaliteˇ dat.
3.2 3.2.1
Krabicovy´ diagram Popis diagramu
Umozˇnˇuje posoudit symetrii a variabilitu datove´ho souboru a existenci odlehly´ch cˇi extre´mnı´ch hodnot. Zpu˚sob konstrukce je zrˇejmy´ z obra´zku:
38
Odlehla´ hodnota lezˇ´ı mezi vneˇjsˇ´ımi a vnitrˇnı´mi hradbami, tj. v intervalu (x0,75 + 1, 5q, x0,75 + 3q) cˇi v intervalu (x0,25 − 3q, x0,25 − 1, 5q). Extre´mnı´ hodnota lezˇ´ı za vneˇjsˇ´ımi hradbami, tj. v intervalu (x0,75 + 3q, ) cˇi v intervalu (− , x0,25 − 3q).
8
3.2.2
8
Prˇ´ıklad
U 30 doma´cnostı´ byl zjisˇt’ova´n pocˇet cˇlenu˚.
Pocˇet cˇlenu˚
1
2
3
4
5
6
Pocˇet doma´cnostı´
2
6
4
10
5
3
Pro tyto u´daje sestrojte krabicovy´ diagram. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Data zapı´sˇeme do datove´ho okna programu STATISTICA. Po spusˇteˇnı´ programu zada´me Soubor – Novy´ – Pocˇet promeˇnny´ch 2, Pocˇet prˇ´ıpadu˚ 6, OK. Prvnı´ promeˇnnou prˇejmenujeme na Pocˇet cˇlenu˚, druhou na Pocˇet doma´cnostı´. (Prˇejmenova´nı´ uskutecˇnı´me tak, zˇe 2× klikneme mysˇ´ı na na´zev promeˇnne´ a tı´m se otevrˇe okno se specifikacemi promeˇnne´.) Vytvorˇenı´ krabicove´ho diagramu: Grafy – 2D Grafy – Krabicove´ grafy. Abychom syste´mu STATISTICA sdeˇlili, zˇe pracujeme s u´daji, pro ktere´ zna´me absolutnı´ cˇetnosti, klikneme mysˇ´ı na tlacˇ´ıtko s obra´zkem za´vazˇ´ı – na obra´zku je v krouzˇku.
39
3. Diagnosticke´ grafy a testy normality dat
V oke´nku Va´hy prˇ´ıpadu˚ pro analy´zu/graf zasˇkrtneme Status Zapnuto a zada´me Promeˇnna´ vah Pocˇet doma´cnostı´, OK. Na panelu 2D Krabicove´ grafy zada´me Promeˇnne´ – Za´visle promeˇnne´ Pocˇet cˇlenu˚, OK. Dostaneme krabicovy´ digram
Z obra´zku lze vycˇ´ıst, zˇe media´n je 4 (asponˇ polovina doma´cnostı´ ma´ asponˇ 4 cˇleny), dolnı´ kvartil 2 (asponˇ cˇtvrtina doma´cnostı´ ma´ asponˇ 2 cˇleny), hornı´ kvartil 5 (asponˇ trˇi cˇtvrtiny doma´cnostı´ majı´ asponˇ 5 cˇlenu˚), minimum 1, maximum 6. Kvartilova´ odchylka je 5 − 2 = 3. Datovy´ soubor vykazuje urcˇitou nesymetrii – media´n je posunut smeˇrem k hornı´mu kvartilu, soubor je tedy za´porneˇ zesˇikmen. Odlehle´ ani extre´mnı´ hodnoty se nevyskytujı´.
40
3.3
Norma´lnı´ pravdeˇpodobnostnı´ graf (N–P plot)
Prˇed popisem tohoto grafu se musı´me sezna´mit s pojmem porˇadı´ cˇ´ısla v posloupnosti cˇ´ısel: Necht’x1 , . . ., xn je posloupnost rea´lny´ch cˇ´ısel. a) Jsou-li cˇ´ısla navza´jem ru˚zna´, pak porˇadı´m Ri cˇ´ısla xi rozumı´me pocˇet teˇch cˇ´ısel x1 , . . ., xn , ktera´ jsou mensˇ´ı nebo rovna cˇ´ıslu xi . b) Vyskytujı´-li se mezi dany´mi cˇ´ısly skupinky stejny´ch cˇ´ısel, pak kazˇde´ takove´ skupince prˇirˇadı´me pru˚meˇrne´ porˇadı´.
3.3.1
Prˇ´ıklad
a) Jsou da´na cˇ´ısla 9, 4, 5, 7, 3, 1. b) Jsou da´na cˇ´ısla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. Stanovte porˇadı´ teˇchto cˇ´ısel. ˇ esˇenı´ R
ad a) usp. cˇ´ısla 1 porˇadı´ 1
3 2
4 3
5 4
7 5
9 6
ad b) usp. cˇ´ısla 6 6 6 6 7 porˇadı´ 1 2 3 4 5 pru˚m. porˇadı´ 2,25 2,25 2,25 2,25 5,5
3.3.2
7 6 5,5
8 7 7
9 8 8,5
9 9 8,5
10 10 10
Popis grafu
N–P plot umozˇnˇuje graficky posoudit, zda data pocha´zejı´ z norma´lnı´ho rozlozˇenı´. Zpu˚sob konstrukce: na vodorovnou osu vyna´sˇ´ıme usporˇa´dane´ hodnoty x(1) ≤ · · · ≤ x(n) a na svislou osu 3j−1 kvantily uα j , kde α j = , prˇicˇemzˇ j je porˇadı´ j-te´ usporˇa´dane´ hodnoty (jsou3n + 1 li neˇktere´ hodnoty stejne´, pak za j bereme pru˚meˇrne´ porˇadı´ odpovı´dajı´cı´ takove´ skupince). Pocha´zejı´-li data z norma´lnı´ho rozlozˇenı´, pak vsˇechny dvojice x( j) , uα j budou lezˇet na prˇ´ımce. Pro data z rozlozˇenı´ s kladnou sˇikmostı´ se dvojice x( j) , uα j budou rˇadit do konka ´ vnı´ krˇivky, zatı´mco pro data z rozlozˇenı´ se za´pornou sˇikmostı´ se dvojice x( j) , uα j budou rˇadit do konvexnı´ krˇivky.
41
3. Diagnosticke´ grafy a testy normality dat
Rozlozˇenı´ s kladnou sˇikmostı´ Histogram
Norma´lnı´ rozlozˇenı´ Histogram
Rozlozˇenı´ se za´pornou sˇikmostı´ Histogram
N–P plot
N–P plot
N–P plot
Krabicovy´ diagram
Krabicovy´ diagram
Krabicovy´ diagram
3.3.3
Prˇ´ıklad
Desetkra´t neza´visle na sobeˇ byla zmeˇrˇena jista´ konstanta. Vy´sledky meˇrˇenı´: 2
1,8
2,1
2,4
1,9
2,1
2
1,8
2,3
2,2.
Pomocı´ norma´lnı´ho pravdeˇpodobnostnı´ho grafu posud’te, zda se tato data rˇ´ıdı´ norma´lnı´m rozlozˇenı´m. ˇ esˇenı´: R
Po zapsa´nı´ dat do promeˇnne´ nazvane´ Meˇrˇenı´ zvolı´me Grafy – 2D Grafy – Norma´lnı´ pravdeˇpodobnostnı´ grafy – Promeˇnne´ Meˇrˇenı´, OK.
42
Protozˇe dvojice x( j) , uα j te´meˇrˇ lezˇ´ı na prˇ´ımce, lze usoudit, zˇe data pocha´zejı´ z norma´lnı´ho rozlozˇenı´.
3.4 3.4.1
Kvantil–kvantilovy´ graf (Q–Q plot) Popis grafu
Umozˇnˇuje graficky posoudit, zda data pocha´zejı´ z neˇjake´ho zna´me´ho rozlozˇenı´ (naprˇ. syste´m STATISTICA nabı´zı´ 8 typu˚ rozlozˇenı´: beta, exponencia´lnı´, Gumbelovo, gamma, log-norma´lnı´, norma´lnı´, Rayleighovo a Weibulovo). Pro na´s je nejdu˚lezˇiteˇjsˇ´ı pra´veˇ norma´lnı´ rozlozˇenı´. Zpu˚sob konstrukce: na svislou osu vyna´sˇ´ıme usporˇa´dane´ hodnoty x(1) ≤ · · · ≤ x(n) j − radj , a na vodorovnou osu kvantily Kα j (X) vybrane´ho rozlozˇenı´, kde α j = n + nadj prˇicˇemzˇ radj a nadj jsou korigujı´cı´ faktory ≤ 0,5, implicitneˇ radj = 0,375 a nadj = 0,25. (Jsou-li neˇktere´ hodnoty x(1) ≤ · · · ≤ x(n) stejne´, pak za j bereme pru˚meˇrne´ porˇadı´ odpovı´dajı´cı´ takove´ skupince.) Pokud vybrane´ rozlozˇenı´ za´visı´ na neˇjaky´ch parametrech, pak se tyto parametry odhadnou z dat nebo je mu˚zˇe zadat uzˇivatel. Body (Kα j (X), x( j)) se metodou nejmensˇ´ıch cˇtvercu˚ prolozˇ´ı prˇ´ımka. Cˇ´ım me´neˇ se body odchylujı´ od te´to prˇ´ımky, tı´m je lepsˇ´ı soulad mezi empiricky´m a teoreticky´m rozlozˇenı´m. 3.4.2
Prˇ´ıklad
Pro data z prˇ´ıkladu 3.3.3 posud’te pomocı´ kvantil–kvantilove´ho grafu, zda pocha´zejı´ z norma´lnı´ho rozlozˇenı´. ˇ esˇenı´: R
Zvolı´me Grafy – 2D Grafy – Grafy typu Q–Q – ponecha´me implicitnı´ nastavenı´ na norma´lnı´ rozlozˇenı´ (pokud bychom chteˇli zmeˇnit nastavenı´ na jiny´ typ rozlozˇenı´, zvolili bychom ho na za´lozˇce Detaily) – Promeˇnne´ Meˇrˇenı´, OK.
Vzhled grafu nasveˇdcˇuje tomu, zˇe data pocha´zejı´ z norma´lnı´ho rozlozˇenı´.
43
3. Diagnosticke´ grafy a testy normality dat
3.5
Histogram
3.5.1
Popis grafu
Umozˇnˇuje porovnat tvar hustoty cˇetnosti s tvarem hustoty pravdeˇpodobnosti vybrane´ho teoreticke´ho rozlozˇenı´. (Ve STATISTICE je pojem histogramu sˇirsˇ´ı, skry´va´ se za nı´m i sloupkovy´ diagram.) Zpu˚sob konstrukce ve STATISTICE: na vodorovnou osu se vyna´sˇejı´ trˇ´ıdicı´ intervaly (implicitneˇ 10, jejich pocˇet lze zmeˇnit, stejneˇ tak i meze trˇ´ıdicı´ch intervalu˚) cˇi varianty znaku a na svislou osu absolutnı´ nebo relativnı´ cˇetnosti trˇ´ıdicı´ch intervalu˚ cˇi variant. Do histogramu se mu˚zˇe zakreslit tvar hustoty (cˇi pravdeˇpodobnostnı´ funkce) vybrane´ho teoreticke´ho rozlozˇenı´. Kromeˇ osmi typu˚ rozlozˇenı´ uvedeny´ch u Q–Q plotu umozˇnˇuje STATISTICA pouzˇ´ıt jesˇteˇ dalsˇ´ı cˇtyrˇi rozlozˇenı´: Laplaceovo, logisticke´, geometricke´, Poissonovo. 3.5.2
Prˇ´ıklad
U 70 doma´cnostı´ byly zjisˇt’ova´ny ty´dennı´ vy´daje na nealkoholicke´ na´poje (v Kcˇ). Vy´daje (35, 65i (65, 95i (95, 125i (125, 155i (155, 185i (185, 215i Pocˇet dom. 7 16 27 14 4 2 Nakreslete histogram ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Vytvorˇ´ıme novy´ datovy´ soubor s dveˇma promeˇnny´mi Vy´daje a Pocˇet doma´cnostı´. Do promeˇnne´ Vy´daje zapı´sˇeme strˇedy trˇ´ıdicı´ch intervalu˚, do promeˇnne´ Pocˇet doma´cnostı´ odpovı´dajı´cı´ absolutnı´ cˇetnosti trˇ´ıdicı´ch intervalu˚. V menu zvolı´me Grafy – Histogramy – pomocı´ tlacˇ´ıtka s obra´zkem za´vazˇ´ı zada´me promeˇnnou vah Pocˇet doma´cnostı´ – OK, Promeˇnna´ Vy´daje – zapneme volbu Vsˇechny hodnoty – OK. Dostaneme histogram:
Vidı´me, zˇe tvar histogramu nenı´ symetricky´. Male´ hodnoty jsou cˇetneˇjsˇ´ı nezˇ velke´ – datovy´ soubor je kladneˇ zesˇikmen.
3.6 3.6.1
Dvourozmeˇrny´ tecˇkovy´ diagram Popis diagramu
Ma´me dvourozmeˇrny´ datovy´ soubor (x1 , y1 ), . . ., (xn, yn ), ktery´ je realizacı´ dvourozmeˇrne´ho na´hodne´ho vy´beˇru (X1,Y1 ), . . ., (Xn,Yn) z dvourozmeˇrne´ho rozlozˇenı´.
44
Na vodorovnou osu vyneseme hodnoty x j , na svislou hodnoty yk a do prˇ´ıslusˇny´ch pru˚secˇ´ıku˚ nakreslı´me tolik tecˇek, jaka´ je absolutnı´ cˇetnost dvojice (x j , yk ). Jedna´-li se o na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´, meˇly by tecˇky zhruba rovnomeˇrneˇ vyplnit vnitrˇek elipsovite´ho obrazce. Vrstevnice hustoty dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´ jsou totizˇ elipsy – viz na´sledujı´cı´ obra´zek. Graf hustoty a vrstevnice dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´ s parametry µ1 = 0, µ2 = 0, σ12 = 1, σ22 = 1, ρ = −0,5:
Do dvourozmeˇrne´ho tecˇkove´ho diagramu mu˚zˇeme jesˇteˇ zakreslit 100(1 − α )% elipsu konstantnı´ hustoty pravdeˇpodobnosti. Bude-li vı´ce nezˇ 100α % tecˇek lezˇet vneˇ te´to elipsy, sveˇdcˇ´ı to o porusˇenı´ dvourozmeˇrne´ normality. Bude-li mı´t hlavnı´ osa elipsy kladnou resp. za´pornou smeˇrnici, znamena´ to, zˇe mezi velicˇinami X a Y existuje urcˇity´ stupenˇ prˇ´ıme´ resp. neprˇ´ıme´ linea´rnı´ za´vislosti. 3.6.2
Prˇ´ıklad
Ma´me k dispozici vy´sledky testu˚ ze dvou prˇedmeˇtu˚ zjisˇteˇne´ u osmi na´hodneˇ vybrany´ch studentu˚ urcˇite´ho oboru. Cˇ´ıslo studenta 1 2 3 4 5 6 7 8 Pocˇet bodu˚ v 1. testu 80 50 36 58 42 60 56 68 Pocˇet bodu˚ ve 2. testu 65 60 35 39 48 44 48 61 Pomocı´ dvourozmeˇrne´ho tecˇkove´ho diagramu se zakreslenou 95% elipsou konstantnı´ hustoty pravdeˇpodobnosti a histogramy pro pocˇty bodu˚ v 1. a 2. testu posud’te, zda tato data lze povazˇovat za realizace na´hodne´ho vy´beˇru z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Vytvorˇ´ıme novy´ datovy´ soubor se dveˇma promeˇnny´mi Test1 a Test2 a osmi prˇ´ıpady. Nynı´ nakreslı´me dvourozmeˇrny´ tecˇkovy´ diagram: Grafy – 2D Grafy – Bodove´ grafy s histogramy. V typu prolozˇenı´ pro bodovy´ graf vypneme linea´rnı´ prolozˇenı´. Promeˇnne´ – X – Test1, Y – Test2 – OK. Dostaneme dvourozmeˇrny´ tecˇkovy´ diagram pro vektorovou promeˇnnou (Test1, Test2) a histogramy pro Test1 a Test2. Nynı´ do diagramu zakreslı´me 95% elipsu konstantnı´ hustoty pravdeˇpodobnosti: 2× klikneme na pozadı´ grafu a otevrˇe se okno s na´zvem Vsˇ. mozˇnosti. Vybereme Graf: Elipsa, zvolı´me Prˇidat novou elipsu. Po vykreslenı´ elipsy zmeˇnı´me meˇrˇ´ıtko: na vodorovne´ ose bude minimum 0, maximum 120, na svisle´ ose bude minimum 0, maximum 100. (Stacˇ´ı 2× kliknout na cˇ´ıselny´ popis osy a na za´lozˇce Meˇrˇ´ıtka vybrat manua´lnı´ mo´d.)
45
3. Diagnosticke´ grafy a testy normality dat
Obra´zek sveˇdcˇ´ı o tom, zˇe prˇedpoklad dvourozmeˇrne´ normality je opra´vneˇny´ a zˇe mezi pocˇty bodu˚ z 1. a 2. testu bude existovat urcˇity´ stupenˇ prˇ´ıme´ linea´rnı´ za´vislosti, tzn., zˇe u studentu˚, kterˇ´ı meˇli vysoky´ resp. nı´zky´ pocˇet bodu˚ v 1. testu, lze ocˇeka´vat vysoky´ resp. nı´zky´ pocˇet bodu˚ ve 2. testu.
3.7
Kolmogorovu˚v-Smirnovu˚v test normality dat
3.7.1
Popis testu
Testujeme hypote´zu, ktera´ tvrdı´, zˇe na´hodny´ vy´beˇr X1 , . . ., Xn pocha´zı´ z norma´lnı´ho rozlozˇenı´ s parametry µ a σ 2 . Distribucˇnı´ funkci tohoto rozlozˇenı´ oznacˇme ΦT (x). Necht’Fn (x) je vy´beˇrova´ distribucˇnı´ funkce. Testovou statistikou je statistika Dn = sup |Fn (x) − ΦT (x)|. Nulovou hypote´zu zamı´ta´me na hladineˇ vy´znam-
8
8
− <x<
nosti α , kdyzˇ Dn ≥ Dn (α ), kde Dn (α ) je tabelovana´ kriticka´ hodnota. Pro n ≥ 30 r 1 2 lze Dn (α ) aproximovat vy´razem ln . 2n α
V prˇ´ıpadeˇ, zˇe nezna´me parametry µ a σ 2 norma´lnı´ho rozlozˇenı´, zmeˇnı´ se rozlozˇenı´ testove´ statistiky Dn . Prˇ´ıslusˇne´ modifikovane´ kvantily byly urcˇeny pomocı´ simulacˇnı´ch studiı´. 3.7.2
Pozna´mka ke K-S testu ve STATISTICE
Test normality poskytuje hodnotu testove´ statistiky (ozn. d) a dveˇ p-hodnoty. Prvnı´ se vztahuje k prˇ´ıpadu, kdy µ a σ 2 zna´me prˇedem, druha´ (ozn. Liliefors p) se vztahuje k prˇ´ıpadu, kdy µ a σ 2 nezna´me. Objevı´-li se ve vy´stupu p = n.s. (tj. non significant), pak hypote´zu o normaliteˇ nezamı´ta´me na hladineˇ vy´znamnosti 0,05. 3.7.3
Prˇ´ıklad
Jsou da´ny hodnoty 10, 12, 8, 9, 16. Pomocı´ K-S testu zjisteˇte na hladineˇ vy´znamnosti 0, 05, zda tato data pocha´zejı´ z norma´lnı´ho rozlozˇenı´. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Vytvorˇ´ıme novy´ datovy´ soubor o jedne´ promeˇnne´ nazvane´ X a peˇti prˇ´ıpadech. Do promeˇnne´ X zapı´sˇeme uvedene´ hodnoty. V menu vybereme Statistika – Za´kladnı´ statistiky/tabulky – Popisne´ statistiky – OK, Promeˇnne´ X – OK. Na za´lozˇce zvolı´me
46
Normalita a vybereme bud’ Tabulky cˇetnostı´ nebo histogramy. Zvolı´me naprˇ. tabulku cˇetnostı´:
(V poslednı´m rˇa´dku symbol ChD znamena´ chybeˇjı´cı´ data – v nasˇem prˇ´ıpadeˇ se v souboru nevyskytujı´). Vidı´me, zˇe testova´ statistika K-S testu je d = 0,22409, odpovı´dajı´cı´ Lilieforsova p-hodnota je veˇtsˇ´ı nezˇ 0,2, tedy hypote´zu o normaliteˇ nezamı´ta´me na hladineˇ vy´znamnosti 0,05. Stejny´ vy´sledek dostaneme, pokud necha´me vykreslit histogram.
3.8
Shapiru˚v-Wilksu˚v test normality dat
Testujeme hypote´zu, ktera´ tvrdı´, zˇe na´hodny´ vy´beˇr X1 , . . ., Xn pocha´zı´ z rozlozˇenı´ N(µ , σ 2 ). Test je zalozˇen na zjisˇteˇnı´, zda body v kvantil–kvantilove´m grafu jsou vy´znamneˇ odlisˇne´ od regresnı´ prˇ´ımky prolozˇene´ teˇmito body. S-W test se pouzˇ´ıva´ prˇedevsˇ´ım pro vy´beˇry mensˇ´ıch rozsahu˚, n < 50. 3.8.1
Prˇ´ıklad
Pro data z prˇ´ıkladu 3.7.3 proved’te S-W test. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Postupujeme stejneˇ jako v prˇedesˇle´m prˇ´ıkladeˇ, ale na za´lozˇce Normalita zasˇkrtneme Shapiro-Wilksu˚v W test. Vykreslı´me histogram:
47
3. Diagnosticke´ grafy a testy normality dat
Testova´ statistika S-W testu je W = 0,9124, odpovı´dajı´cı´ p-hodnota je 0,48215, tedy hypote´zu o normaliteˇ nezamı´ta´me na hladineˇ vy´znamnosti 0,05.
3.9
Vzorovy´ prˇ´ıklad
Zada´nı´ prˇ´ıkladu:
Vedenı´ pojisˇt’ovny (zameˇrˇene´ na pojisˇteˇnı´ automobilu˚) pozˇa´dalo manazˇera oddeˇlenı´ marketingove´ho vy´zkumu o provedenı´ pru˚zkumu, ktery´ by uka´zal na´zory za´kaznı´ku˚ na uvazˇovany´ novy´ syste´m pojisˇteˇnı´ aut. Na´hodneˇ bylo vybra´no 110 soucˇasny´ch za´kaznı´ku˚ pojisˇt’ovny a ti byli telefonicky sezna´meni s na´sledujı´cı´m textem: „Nasˇe pojisˇt’ovna nabı´zı´ novy´ syste´m pojisˇteˇnı´ aut vy´hradneˇ pro cesty nad 300 km. Za rocˇnı´ poplatek 12 tisı´c Kcˇ budete pojisˇteˇni pro prˇ´ıpad libovolny´ch potı´zˇ´ı s autem prˇi vsˇech cesta´ch nad 300 km. V prˇ´ıpadeˇ nehody pojisˇt’ovna uhradı´ opravu, cestovnı´ na´klady a poprˇ. i neˇktere´ dalsˇ´ı vy´lohy, jako je ubytova´nı´ a stravova´nı´ v hotelu, telefon atd. Stupnicı´ od 1 (jednoznacˇny´ neza´jem) do 5 (jednoznacˇny´ za´jem) laskaveˇ vyja´drˇete svu˚j postoj k nabı´zene´mu nove´mu typu pojisˇteˇnı´. Da´le uved’te svu˚j veˇk, pocˇet cest nad 300 km v lonˇske´m roce, sta´rˇ´ı vasˇeho auta a va´sˇ rodinny´ stav. Deˇkujeme.“ Zı´skane´ odpoveˇdi byly zaznamena´ny do datove´ho souboru a zako´dova´ny takto: POSTOJ . . . postoj k nove´mu typu pojisˇteˇnı´ (jednoznacˇny´ neza´jem = 1, lehky´ neza´jem = 2, neutra´lnı´ postoj = 3, lehky´ za´jem = 4, jednoznacˇny´ za´jem = 5). RODSTAV . . . rodinny´ stav (svobodny´ = 1, rozvedeny´, ovdoveˇly´ = 2, zˇenaty´ = 3). VEK . . . veˇk v dokoncˇeny´ch letech. STARIAUT . . . sta´rˇ´ı auta v letech. CESTY . . . pocˇet cest nad 300 km v prˇedesˇle´m roce. Uka´zka cˇa´sti datove´ho souboru:
48
´ kol 1. U
Zjisteˇte absolutnı´ a relativnı´ cˇetnosti a absolutnı´ a relativnı´ kumulativnı´ cˇetnosti promeˇnny´ch POSTOJ a RODSTAV.
Na´vod:
V menu zvolı´me polozˇku Statistika – Za´kladnı´ statistiky/tabulky – Tabulky cˇetnostı´ – OK.
Pro analy´zu vybereme promeˇnne´ POSTOJ, RODSTAV – OK. Zvolı´me Vy´pocˇet: Tabulky cˇetnostı´. Zı´ska´me tabulku cˇetnostı´ pro POSTOJ
a pro RODSTAV
49
3. Diagnosticke´ grafy a testy normality dat
´ kol 2. U
Absolutnı´ cˇetnosti promeˇnny´ch POSTOJ a RODSTAV. Zna´zorneˇte graficky pomocı´ vy´secˇove´ho diagramu. Na´vod:
V menu zvolı´me Grafy – 2D grafy – Vy´secˇove´ grafy.
Vybereme promeˇnne´ POSTOJ, RODSTAV a dostaneme na´sledujı´cı´ grafy:
Z prvnı´ho diagramu je zrˇejme´, zˇe nejme´neˇ za´kaznı´ku˚ projevilo jednoznacˇny´ neza´jem o novy´ typ pojisˇteˇnı´. Ostatnı´ varianty jsou zastoupeny vcelku rovnomeˇrneˇ. Co se ty´ka´ rodinne´ho stavu za´kaznı´ku˚, vidı´me, zˇe v dane´m souboru jsou s prˇiblizˇneˇ stejnou cˇetnostı´ zastoupeni zˇenatı´ a svobodnı´ za´kaznı´ci. Rozvedeny´ch cˇi ovdoveˇly´ch je nejme´neˇ. Vsˇechny tabulky a grafy se ukla´dajı´ do pracovnı´ho sesˇitu. Listovat v nich lze pomocı´ stromove´ struktury v leve´m okneˇ.
50
´ kol 3. U
Vypocˇteˇte na´sledujı´cı´ cˇ´ıselne´ charakteristiky: a) POSTOJ (ordina´lnı´ promeˇnna´) – modus, media´n, dolnı´ a hornı´ kvartil, kvartilova´ odchylka. b) RODSTAV (nomina´lnı´ promeˇnna´) – modus. c) VEK, STARIAUT, CESTY (pomeˇrove´ promeˇnne´) – pru˚meˇr, smeˇrodatna´ odchylka, sˇikmost, sˇpicˇatost.
Na´vod:
ad a) Statistika – Za´kladnı´ statistiky/tabulky – Popisne´ statistiky – Promeˇnne´ POSTOJ – OK. Na za´lozˇce Detaily vybereme Media´n, Modus, Dolnı´ & hornı´ kvartily, Kvartilove´ rozpeˇtı´ – Souhrn. Dostaneme tabulku
Vidı´me, zˇe media´n, modus a hornı´ kvartil jsou stejne´ – je to varianta 4 „lehky´ za´jem“. Dolnı´m kvartilem je varianta 2 „lehky´ neza´jem“. ad b) V tabulce Popisne´ statistiky zmeˇnı´me promeˇnnou na RODSTAV – OK. Na za´lozˇce Detaily vybereme Modus – Souhrn. Dostaneme tabulku
V nasˇem datove´m souboru je nejcˇetneˇjsˇ´ı variantou rodinne´ho stavu varianta 1 „svobodny´“. ad c) V tabulce Popisne´ statistiky zmeˇnı´me promeˇnne´ na VEK, STARIAUT, CESTY – OK. Na za´lozˇce Detaily vybereme Pru˚meˇr, Smeˇrodat. odchylka, Sˇikmost, Sˇpicˇatost – Souhrn. Dostaneme tabulku
51
3. Diagnosticke´ grafy a testy normality dat
Pru˚meˇrny´ veˇk za´kaznı´ku˚ je 39,6 roku, smeˇrodatna´ odchylka veˇku cˇinı´ 8,8 roku. Rozlozˇenı´ veˇku vykazuje kladnou sˇikmost (podpru˚meˇrne´ hodnoty veˇku jsou cˇetneˇjsˇ´ı nezˇ nadpru˚meˇrne´) a za´pornou sˇpicˇatost (rozlozˇenı´ veˇku je plosˇsˇ´ı nezˇ norma´lnı´ rozlozˇenı´). Pru˚meˇrne´ sta´rˇ´ı auta je 4,2 roku se smeˇrodatnou odchylkou 2,4 roku. Rozlozˇenı´ sta´rˇ´ı aut je kladneˇ zesˇikmene´ a sˇpicˇateˇjsˇ´ı nezˇ norma´lnı´ rozlozˇenı´. Pru˚meˇrny´ pocˇet cest v prˇedesˇle´m roce cˇinil 7,2 se smeˇrodatnou odchylkou 5,3. Rozlozˇenı´ pocˇtu cest je znacˇneˇ kladneˇ zesˇikmene´ a podstatneˇ sˇpicˇateˇjsˇ´ı nezˇ norma´lnı´ rozlozˇenı´. Pozna´mka: Pokud bychom chteˇli porovnat variabilitu uvedeny´ch trˇ´ı promeˇnny´ch, mohli bychom vypocˇ´ıtat koeficienty variace (koeficient variace je podı´l smeˇrodatne´ odchylky a pru˚meˇru). Do tabulky s vypocˇ´ıtany´mi cˇ´ıselny´mi charakteristikami prˇida´me dalsˇ´ı promeˇnnou nazvanou CV: Promeˇnne´ – Prˇidat – Kolik 1 – Za Sˇpicˇatost – Jme´no CV – do oke´nka Dlouhe´ jme´no napı´sˇeme =v2/v1 – OK. Dostaneme tabulku
Vidı´me, zˇe nejvysˇsˇ´ı variabilitu ma´ promeˇnna´ CESTY, nejnizˇsˇ´ı VEK. ´ kol 4. U
Vytvorˇte histogram promeˇnne´ VEK se sˇesti trˇ´ıdicı´mi intervaly h23, 29i, (29, 35i, (35, 41i, (41, 47i, (47, 53i, (53, 59i.
Na´vod:
V menu vybereme Grafy – Histogramy – Promeˇnne´ VEK, OK. Odsˇkrtneme Typ prolozˇenı´: Norma´lnı´. V za´lozˇce Detaily vybereme Hranice – Urcˇit hranice – zada´me hornı´ meze intervalu˚, tj. 29 35 41 47 53 59, OK, OK. Dostaneme histogram – v tomto tvaru:
52
Ze vzhledu histogramu lze soudit, zˇe v souboru za´kaznı´ku jsou nejvı´ce zastoupeni lide´ od 35 do 47 let. Soubor vykazuje kladne´ zesˇikmenı´, protozˇe mladsˇ´ı veˇkove´ kategorie jsou zastoupeny s vysˇsˇ´ı cˇetnostı´ nezˇ starsˇ´ı veˇkove´ kategorie. ´ kol 5. U
Vytvorˇte kategorizovany´ histogram promeˇnne´ VEK podle promeˇnne´ RODSTAV. Na´vod:
Postupujeme stejneˇ jako v prˇedesˇle´m prˇ´ıpadeˇ, jenom na za´lozˇce Kategorizovany´ zvolı´me Kategorie X – Zapnuto, Zmeˇnit promeˇnnou – RODSTAV, OK, OK Dostaneme trˇi histogramy:
´ kol 6. U
Sestrojte krabicovy´ diagram promeˇnne´ CESTY. S jeho pomocı´ zjisteˇte, zda promeˇnna´ CESTY obsahuje odlehle´ cˇi extre´mnı´ hodnoty. Na´vod:
V menu Grafy zvolı´me 2D Grafy – Krabicove´ grafy – Promeˇnne´ – Za´visle promeˇnne´ – CESTY – OK, OK.
53
3. Diagnosticke´ grafy a testy normality dat
Media´n je posunut k dolnı´mu kvartilu, cozˇ sveˇdcˇ´ı o kladneˇ zesˇikmene´m rozlozˇenı´. Vyskytujı´ se odlehle´ i extre´mnı´ hodnoty, jedna´ se tedy o sˇpicˇate´ rozlozˇenı´. Pro promeˇnnou STARIAUT sestrojte N–P graf a s jeho pomocı´ posud’te normalitu te´to promeˇnne´.
´ kol 7. U
Na´vod:
Grafy – 2D Grafy – Norma´lnı´ pravdeˇpodobnostnı´ grafy – Promeˇnne´ STARIAUT – OK.
Tecˇky v NP grafu se znacˇneˇ odchylujı´ od zakreslene´ prˇ´ımky a rˇadı´ se do konka´vnı´ho tvaru. Datovy´ soubor vykazuje kladne´ zesˇikmenı´, nejedna´ se tedy o norma´lnı´ rozlozˇenı´. ´ kol 8. U
Rozhodneˇte pomocı´ K-S testu a S-W testu na hladineˇ vy´znamnosti 0,05, zda lze u´daje o veˇku za´kaznı´ku˚ povazˇovat za realizace na´hodne´ho vy´beˇru z norma´lnı´ho rozlozˇenı´. Na´vod:
Statistika – Za´kladnı´ statistiky/tabulky – Popisne´ statistiky – OK – Promeˇnne´ VEK – OK. Na za´lozˇce zasˇkrtneme K-S & Lilieforsu˚v test normality a Shaphiro-Wilksu˚v W test – zvolı´me Tabulky cˇetnostı´.
54
Ve vy´stupu se objevı´ tabulka, v nı´zˇ je uvedena hodnota testove´ statistiky pro K-S test (d = 0,11222) a S-W test (W = 0,96695) a odpovı´dajı´cı´ p-hodnoty. U K-S testu uvazˇujeme Lilieforsovo p, ktere´ je pocˇ´ıta´no na za´kladeˇ parametru˚ odhadnuty´ch z dat. V nasˇem prˇ´ıpadeˇ p < 0,01 a pro S-W test p = 0,00783, tedy oba testy zamı´tajı´ na hladineˇ vy´znamnosti 0,05 hypote´zu o normaliteˇ. Vy´pocˇet je vhodne´ doplnit N–P grafem:
Pomocı´ dvourozmeˇrne´ho tecˇkove´ho diagramu posud’te, zda mezi veˇkem za´kaznı´ka a pocˇtem cest nad 300 km v prˇedesˇle´m roce existuje neˇjaka´ linea´rnı´ za´vislost.
´ kol 9. U
Na´vod:
Grafy – Bodove´ grafy – Promeˇnne´ X – VEK, Y – CESTY – OK. OK. Dostaneme tento graf:
Vidı´me, zˇe s rostoucı´m veˇkem za´kaznı´ka poneˇkud klesa´ pocˇet cest, mezi promeˇnny´mi VEK a CESTY tedy existuje dosti slaba´ neprˇ´ıma´ linea´rnı´ za´vislost.
Shrnutı´ kapitoly Prˇi urcˇenı´ smeˇru statisticke´ analy´zy dat pouzˇ´ıva´me diagnosticke´ grafy, ktere´ umozˇnı´ posoudit
55
3. Diagnosticke´ grafy a testy normality dat
– normalitu dat cˇi tvar rozlozˇenı´ (N–P plot, Q–Q plot, histogram) – existenci odlehly´ch cˇi extre´mnı´ch hodnot (krabicovy´ graf ) – dvourozmeˇrnou normalitu dat (dvourozmeˇrny´ tecˇkovy´ diagram) Kromeˇ graficke´ho zna´zorneˇnı´ dat pouzˇ´ıva´me testy normality dat, naprˇ. Kolmogorovu˚v–Smirnovu˚v test (ve veˇtsˇineˇ rea´lny´ch situacı´ jeho variantu poskytujı´cı´ Lilieforsovu p-hodnotu) nebo Shapiru˚v-Wilksu˚v test. Musı´me si by´t ovsˇem veˇdomi toho, zˇe pro vy´beˇry veˇtsˇ´ıch rozsahu˚ (orientacˇneˇ n > 30) i male´ odchylky od normality mohou by´t statisticky vy´znamne´, i kdyzˇ veˇcneˇ nikoliv. V takove´m prˇ´ıpadeˇ se nedopustı´me za´vazˇne´ chyby, pokud pouzˇijeme metodu zalozˇenou na prˇedpokladu normality dat.
Kontrolnı´ ota´zky 1. K cˇemu slouzˇ´ı diagnosticke´ grafy? 2. Popisˇte zpu˚sob konstrukce krabicove´ho diagramu. 3. Jak budete interpretovat situaci, kdy v krabicove´m diagramu je media´n po4. 5. 6. 7.
sunut smeˇrem k dolnı´mu kvartilu? V dvourozmeˇrne´m tecˇkove´m diagramu jsou tecˇky zhruba rovnomeˇrneˇ rozpty´leny uvnitrˇ kruhove´ho obrazce. Co lze rˇ´ıci o vztahu velicˇin X a Y ? Jak se lisˇ´ı provedenı´ K-S testu normality dat v prˇ´ıpadeˇ, kdy zna´me parametry norma´lnı´ho rozlozˇenı´ od prˇ´ıpadu, kdy je nezna´me? Jak souvisı´ S-W test normality dat s kvantil–kvantilovy´m grafem? Pro datovy´ soubor o rozsahu n = 50 byl vytvorˇen norma´lnı´ pravdeˇpodobnostnı´ graf a kvantil–kvantilovy´ graf. Pomocı´ teˇchto grafu˚ posud’te, zda se data mohou rˇ´ıdit norma´lnı´m rozlozˇenı´m. N–P plot Q–Q plot
Vy´sledek: Data nepocha´zejı´ z norma´lnı´ho rozlozˇenı´, vzhled obou diagramu˚ sveˇdcˇ´ı o znacˇne´m kladne´m zesˇikmenı´.
Autokorekcˇnı´ test 1. Z 99 hodnot byl sestrojen histogram. Urcˇete, ktery´ ze trˇ´ı uvedeny´ch krabico-
vy´ch diagramu˚ byl sestrojen ze stejny´ch hodnot.
56
a) Prvnı´ krabicovy´ diagram. b) Druhy´ krabicovy´ diagram. c) Trˇetı´ krabicovy´ diagram. 2. Urcˇete, ktera´ tvrzenı´ jsou pravdiva´: a) Odlehla´ hodnota v datove´m souboru lezˇ´ı za vneˇjsˇ´ımi hradbami. b) Extre´mnı´ hodnota v datove´m souboru lezˇ´ı mezi vnitrˇnı´mi a vneˇjsˇ´ımi hradbami. c) Extre´mnı´ hodnota je vı´ce vzda´lena od media´nu nezˇ odlehla´ hodnota. 3. Urcˇete, ktera´ tvrzenı´ jsou pravdiva´: a) Pocha´zejı´-li data z norma´lnı´ho rozlozˇenı´, budou se tecˇky v norma´lnı´m pravdeˇpodobnostnı´m grafu rˇadit do prˇ´ımky. b) Pocha´zejı´-li data z rozlozˇenı´ s kladnou sˇikmostı´, budou se tecˇky v norma´lnı´m pravdeˇpodobnostnı´m grafu rˇadit do konvexnı´ krˇivky. c) Pocha´zejı´-li data z rozlozˇenı´ se za´porou sˇikmostı´, budou se tecˇky v norma´lnı´m pravdeˇpodobnostnı´m grafu rˇadit do konka´vnı´ krˇivky. 4. Urcˇete, ktera´ tvrzenı´ jsou pravdiva´: a) Pokud se v dvourozmeˇrne´m tecˇkove´m diagramu seskupujı´ tecˇky do elipsovite´ho u´tvaru, jehozˇ hlavnı´ osa je prˇ´ımka s kladnou smeˇrnicı´, lze usoudit, zˇe mezi velicˇinami X a Y existuje urcˇity´ stupenˇ prˇ´ıme´ linea´rnı´ za´vislosti. b) Pokud se v dvourozmeˇrne´m tecˇkove´m diagramu seskupujı´ tecˇky do kruhovite´ho u´tvaru, lze usoudit, zˇe mezi velicˇinami X a Y existuje urcˇity´ stupenˇ nelinea´rnı´ za´vislosti. c) Pokud v dvourozmeˇrne´m tecˇkove´m diagramu lezˇ´ı vsˇechny tecˇky na prˇ´ımce se za´pornou smeˇrnicı´, lze usoudit, zˇe mezi velicˇinami X a Y existuje u´plna´ neprˇ´ıma´ linea´rnı´ za´vislost. Spra´vne´ odpoveˇdi: 1b)
2c)
3a)
4a), c)
Prˇ´ıklady 1. Beˇhem semestru se studenti podrobili pı´semne´mu testu z matematiky, v neˇmzˇ
bylo mozˇno zı´skat 0 azˇ 10 bodu˚. Vy´sledky jsou uvedeny v tabulce: Pocˇet bodu˚ 0 1 2 3 4 5 6 7 8 9 10 Pocˇet studentu˚ 1 4 6 7 11 15 19 17 12 6 3 Pro pocˇet bodu˚ sestrojte krabicovy´ diagram. Je pocˇet bodu˚ symetricky rozlozˇen kolem media´nu? Vyskytujı´ se v datech odlehle´ nebo extre´mnı´ hodnoty?
57
3. Diagnosticke´ grafy a testy normality dat
Vy´sledek: x0,25 = 1, x0,50 = 6, x0,75 = 7, media´n je posunut k hornı´mu kvartilu, data vykazujı´ za´pornou sˇikmost. Odlehle´ ani extre´mnı´ hodnoty se nevyskytujı´. 2. Pro pocˇet bodu˚ z 1. prˇ´ıkladu sestrojte norma´lnı´ pravdeˇpodobnostnı´ graf. 3. Pro pocˇet bodu˚ z 1. prˇ´ıkladu sestrojte kvantil–kvantilovy´ graf pro norma´lnı´ rozlozˇenı´. 4. Pro pocˇet bodu˚ z 1. prˇ´ıkladu testujte pomocı´ K-S testu na hladineˇ vy´znamnosti 0,05 hypote´zu, zˇe se rˇ´ıdı´ norma´lnı´m rozlozˇenı´m. Zjisteˇte hodnotu testove´ statistiky a odpovı´dajı´cı´ p-hodnotu. Vy´sledek: Testova´ statistika = 0,12895, Liliefors p < 0,01, hypote´zu o normaliteˇ zamı´ta´me na hladineˇ vy´znamnosti 0,05. 5. Pro pocˇet bodu˚ z 1. prˇ´ıkladu testujte pomocı´ S-W testu na hladineˇ vy´znamnosti 0,05 hypote´zu, zˇe se rˇ´ıdı´ norma´lnı´m rozlozˇenı´m. Zjisteˇte hodnotu testove´ statistiky a odpovı´dajı´cı´ p-hodnotu. Vy´sledek: Testova´ statistika = 0,96906, p < 0,01784, hypote´zu o normaliteˇ zamı´ta´me na hladineˇ vy´znamnosti 0,05. 6. Na 10 automobilech stejne´ho typu se testovaly dva druhy benzı´nu lisˇ´ıcı´ se oktanovy´m cˇ´ıslem. U kazˇde´ho automobilu se prˇi pru˚meˇrne´ rychlosti 90 km/h meˇrˇil dojezd (tj. dra´ha, kterou ujede na dane´ mnozˇstvı´ benzı´nu) prˇi pouzˇitı´ kazˇde´ho z obou druhu˚ benzı´nu. Vy´sledky: cˇ´ıslo auta 1 2 3 4 5 6 7 8 9 10 benzı´n A 17,5 20,0 18,9 17,9 16,4 18,9 17,2 17,5 18,5 18,2 benzı´n B 17,8 20,8 19,5 18,3 16,6 19,5 17,5 17,9 19,1 18,6 Pro uvedena´ data sestrojte dvourozmeˇrny´ tecˇkovy´ diagram se zakreslenou 95% elipsou konstantnı´ hustoty pravdeˇpodobnosti. Mohou data pocha´zet z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´? Vy´sledek: ano.
58
Motivace Rozlozˇenı´ statistik odvozeny´ch z vy´beˇrove´ho pru˚meˇru a vy´beˇrove´ho rozptylu Intervaly spolehlivosti pro parametry µ , σ 2 Testova´nı´ hypote´z o parametrech µ , σ 2 Na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´
4
´ lohy o jednom na´hodne´m U vy´beˇru z norma´lnı´ho rozlozˇenı´
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ 4. U
Cı´l kapitoly Po prostudova´nı´ te´to kapitoly budete – zna´t vlastnosti pivotovy´ch statistik odvozeny´ch z na´hodne´ho vy´beˇru z norma´lnı´ho rozlozˇenı´ a budete je umeˇt pouzˇ´ıt pro rˇesˇenı´ konkre´tnı´ch u´loh – umeˇt sestrojit intervaly spolehlivosti pro strˇednı´ hodnotu a rozptyl norma´lnı´ho rozlozˇenı´ – prova´deˇt testy hypote´z o strˇednı´ hodnoteˇ a rozptylu norma´lnı´ho rozlozˇenı´
ˇ asova´ za´teˇzˇ C Na prostudova´nı´ te´to kapitoly a splneˇnı´ u´kolu˚ s nı´ spojeny´ch budete potrˇebovat asi 5 hodin studia.
4.1
Motivace
Mnoho na´hodny´ch velicˇin, s nimizˇ se setka´va´me ve vy´zkumu i praxi, se rˇ´ıdı´ norma´lnı´m rozlozˇenı´m. Za jisty´ch prˇedpokladu˚ obsazˇeny´ch v centra´lnı´ limitnı´ veˇteˇ se da´ rozlozˇenı´ jiny´ch na´hodny´ch velicˇin aproximovat norma´lnı´m rozlozˇenı´m. Proto je zapotrˇebı´ veˇnovat velkou pozornost pra´veˇ na´hodny´m vy´beˇru˚m z norma´lnı´ho rozlozˇenı´. Norma´lnı´ rozlozˇenı´ je charakterizova´no dveˇma parametry – strˇednı´ hodnotou µ a rozptylem σ 2 . Budeme tedy rˇesˇit u´lohy, ktere´ se ty´kajı´ teˇchto parametru˚. Jedna´ se prˇedevsˇ´ım o jednovy´beˇrovy´ t-test cˇi test o rozptylu. Sezna´mı´me se rovneˇzˇ se situacı´, kdy ma´me k dispozici jeden na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´ a posuzujeme rozdı´lnost strˇednı´ch hodnot obou na´hodny´ch velicˇin. K rˇesˇenı´ tohoto proble´mu slouzˇ´ı pa´rovy´ t-test.
4.2
Rozlozˇenı´ statistik odvozeny´ch z vy´beˇrove´ho pru˚meˇru a vy´beˇrove´ho rozptylu
Necht’X1 , . . ., Xn je na´hodny´ vy´beˇr z rozlozˇenı´ N(µ , σ 2 ). Pak platı´ a) Vy´beˇrovy´ pru˚meˇr M a vy´beˇrovy´ rozptyl S2 jsou stochasticky neza´visle´. M−µ 2 b) M ∼ N(µ , σn ), tedy U = σ ∼ N(0, 1). √ n
(Pivotova´ statistika U slouzˇ´ı k rˇesˇenı´ u´loh o µ , kdyzˇ σ 2 zna´me.) (n − 1)S2 ∼ χ 2 (n − 1). c) K = σ2 (Pivotova´ statistika K slouzˇ´ı k rˇesˇenı´ u´loh o σ 2 , kdyzˇ µ nezna´me.) n
∑ (Xi − µ )2
∼ χ 2 (n). σ2 (Tato pivotova´ statistika slouzˇ´ı k rˇesˇenı´ u´loh o σ 2 , kdyzˇ µ zna´me.) M−µ e) T = S ∼ t(n − 1). d)
i=1
√
n
(Pivotova´ statistika T slouzˇ´ı k rˇesˇenı´ u´loh o µ , kdyzˇ σ 2 nezna´me.)
60
4.2.1
Prˇ´ıklad
Na vy´robnı´ lince jsou automaticky baleny balı´cˇky ry´zˇe o deklarovane´ hmotnosti 1 000 g. Pu˚sobenı´m na´hodny´ch vlivu˚ hmotnost balı´cˇku˚ kolı´sa´. Lze ji povazˇovat za na´hodnou velicˇinu, ktera´ se rˇ´ıdı´ norma´lnı´m rozlozˇenı´m se strˇednı´ hodnotou 996 g a smeˇrodatnou odchylkou 18 g. Jaka´ je pravdeˇpodobnost, zˇe na´hodneˇ vybrany´ balı´cˇek ry´zˇe neprojde vy´stupnı´ kontrolou, jestlizˇe je povolena´ tolerance ±30 g od deklarovane´ hmotnosti 1 000 g? ˇ esˇenı´: R
Pouzˇijeme pivotovou statistiku U z bodu (b). X ∼ N(996, 182 ),
U=
X − 996 ∼ N(0, 1) 18
P(X ∈ / h970, 1 030i) = 1 − P(970 < X < 1 030) = 1 030 − 996 970 − 996
Vyuzˇijeme toho, zˇe STATISTICA pomocı´ funkce INormal(x;mu;sigma) umı´ vypocˇ´ıtat hodnotu distribucˇnı´ funkce norma´lnı´ho rozlozˇenı´ se strˇednı´ hodnotou mu a smeˇrodatnou odchylkou sigma. Tedy P(X ∈ / h970, 1 030i) = 1 − P(970 < X < 1 030) = 1 − [Φ(1 030) − Φ(970)] = = 1 − Φ(1 030) + Φ(970), kde Φ je distribucˇnı´ funkce rozlozˇenı´ N(996, 182 ). Otevrˇeme novy´ datovy´ soubor o jedne´ promeˇnne´ a jednom prˇ´ıpadu. Dvakra´t klikneme na na´zev promeˇnne´ Prom1. Do Dlouhe´ho jme´na te´to promeˇnne´ napı´sˇeme =1-INormal(1030;996;18)+INormal(970;996;18). V promeˇnne´ Prom1 se objevı´ hodnota 0,10376.
61
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ 4. U
4.3
Intervaly spolehlivosti pro parametry µ , σ 2
V kapitole 1 jsme se sezna´mili s pojmem intervalu spolehlivosti pro parametrickou funkci h(ϑ ). Nynı´ se budeme zaby´vat specia´lnı´mi prˇ´ıpady, kdy za parametrickou funkci h(ϑ ) povazˇujeme strˇednı´ hodnotu µ nebo rozptyl σ 2 norma´lnı´ho rozlozˇenı´. V prˇ´ıkladu 1.3.5. jsme si uka´zali zpu˚sob, jak zkonstruovat interval spolehlivosti pro strˇednı´ hodnotu µ , kdyzˇ rozptyl σ 2 zna´me. Odvozenı´ intervalu spolehlivosti pro dalsˇ´ı trˇi situace (tj. pro µ , kdyzˇ σ 2 nezna´me, pro σ 2 , kdyzˇ µ nezna´me a konecˇneˇ pro σ 2 , kdyzˇ µ zna´me) prova´deˇt nebudeme, uvedeme jen prˇehled vzorcu˚ pro meze 100(1 − α )% empiricky´ch intervalu˚ spolehlivosti pro tyto parametry . 4.3.1 Prˇehled vzorcu˚ a) Interval spolehlivosti pro µ , kdyzˇ σ 2 zna´me (vyuzˇitı´ pivotove´ statistiky M−µ U = σ ∼ N(0, 1)) √ n
σ σ Oboustranny´: (d, h) = m − √ u1−α /2 , m + √ u1−α /2 n n σ Levostranny´: (d, ) = m − √ u1−α , n σ Pravostranny´: (− , h) = − , m + √ u1−α n 2 b) Interval spolehlivosti pro µ , kdyzˇ σ nezna´me (vyuzˇitı´ pivotove´ statistiky M−µ T = S ∼ t(n − 1))
8
8
8
8
√ n
s s Oboustranny´: (d, h) = m − √ t1−α /2 (n − 1), m + √ t1−α /2 (n − 1) n n s Levostranny´: (d, ) = m − √ t1−α (n − 1), n s Pravostranny´: (− , h) = − , m + √ t1−α (n − 1) n 2 c) Interval spolehlivosti pro σ , kdyzˇ µ nezna´me (vyuzˇitı´ pivotove´ statistiky (n − 1)S2 K= ∼ χ 2 (n − 1)) σ2 !
8
8
8
8
(n − 1)s2 (n − 1)s2 , 2 (n − 1) χα2 /2 (n − 1) χ1− α /2 ! (n − 1)s2 Levostranny´: (d, ) = , 2 (n − 1) χ1− α (n − 1)s2 Pravostranny´: (− , h) = − , 2 χα (n − 1) d) Interval spolehlivosti pro σ 2 , kdyzˇ µ zna´me (vyuzˇitı´ pivotove´ statistiky Oboustranny´: (d, h) =
8
8
n
∑ (Xi − µ )2
i=1
σ2
62
∼ χ 2 (n))
8
8
n
− µ )2
n
− µ )2
∑ (xi ∑ (xi i=1 i=1 Oboustranny´: (d, h) = 2 , 2 χ1−α /2 (n) χα /2 (n) n 2 (x − µ ) ∑ i=1 i Levostranny´: (d, ) = χ 2 (n) ,
8
8
1−α
n
2 (x − µ ) ∑ i i=1 Pravostranny´: (− , h) = , − 2 χα (n)
8
4.3.2
8
Prˇ´ıklad
10kra´t neza´visle na sobeˇ byla zmeˇrˇena jista´ konstanta µ . Vy´sledky meˇrˇenı´ byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto vy´sledky povazˇujeme za cˇ´ıselne´ realizace na´hodne´ho vy´beˇru X1, . . ., X10 z rozlozˇenı´ N(µ , σ 2 ), kde parametry µ , σ 2 nezna´me. Najdeˇte 95% empiricky´ interval spolehlivosti pro µ , a to a) oboustranny´, b) levostranny´, c) pravostranny´. ˇ esˇenı´: R
Vypocˇteme realizaci vy´beˇrove´ho pru˚meˇru: m = 2,06, vy´beˇrove´ho rozptylu: s2 = 0,0404 a vy´beˇrove´ smeˇrodatne´ odchylky: s = 0,2011. Riziko α je 0,05. Jde o situaci popsanou v bodeˇ (b), kde vyuzˇ´ıva´me pivotovou statistiku T , ktera´ se rˇ´ıdı´ Studentovy´m rozlozˇenı´m t(9). V tabulka´ch najdeme kvantil t0,975 (9) = 2,2622 pro oboustranny´ interval spolehlivosti a kvantil t0,95 (9) = 1,8331 pro jednostranne´ intervaly spolehlivosti. ad a)
s 0,2011 2,2622 = 1,92 d = m − √ t1−α /2 (n − 1) = 2,06 − √ n 10 s 0,2011 2,2622 = 2,20 h = m + √ t1−α /2 (n − 1) = 2,06 + √ n 10 1,92 < µ < 2,20 s pravdeˇpodobnostı´ asponˇ 0,95.
ad b)
0,2011 s 1,8331 = 1,94 d = m − √ t1−α (n − 1) = 2,06 − √ n 10 1, 94 < µ s pravdeˇpodobnostı´ asponˇ 0,95.
ad c)
s 0,2011 1,8331 = 2,18 h = m + √ t1−α (n − 1) = 2,06 + √ n 10 µ < 2,18 s pravdeˇpodobnostı´ asponˇ 0,95.
63
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ 4. U
ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor o jedne´ promeˇnne´ (nazveme ji Meˇrˇenı´) a 10 prˇ´ıpadech. Do te´to promeˇnne´ zapı´sˇeme vy´sledky meˇrˇenı´. ad a) Meze 100(1 − α )% empiricke´ho oboustranne´ho intervalu spolehlivosti pro strˇednı´ hodnotu prˇi nezna´me´m rozptylu vypocˇteme takto: Statistika – Za´kladnı´ statistiky/tabulky – Popisne´ statistiky – OK, Promeˇnne´ – Meˇrˇenı´ – OK. Na za´lozˇce Detaily vybereme Meze spolehl. pru˚m. a ponecha´me implicitneˇ nastavenou hodnotu 95 %. Po kliknutı´ na Souhrn dostaneme tabulku
Po zaokrouhlenı´ na dveˇ desetinna´ mı´sta dostaneme vy´sledek 1,92 < µ < 2,20 s pravdeˇpodobnostı´ asponˇ 0,95. ad b), c) tabulku
U volby Meze spolehl. pru˚m. zmeˇnı´me hodnotu na 90 %. Dostaneme
Odtud zı´ska´me dolnı´ mez 95% empiricke´ho levostranne´ho intervalu spolehlivosti pro strˇednı´ hodnotu: 1,94 < µ s pravdeˇpodobnostı´ asponˇ 0,95 a hornı´ mez 95% empiricke´ho pravostranne´ho intervalu spolehlivosti pro strˇednı´ hodnotu: µ < 2,18 s pravdeˇpodobnostı´ asponˇ 0,95.
4.4
Testova´nı´ hypote´z o parametrech µ , σ 2
a) Necht’X1 , . . ., Xn je na´hodny´ vy´beˇr z N(µ , σ 2 ), kde σ 2 zna´me. Necht’n ≥ 2 a c je konstanta. Test H0: µ = c proti H1 : µ 6= c se nazy´va´ z-test. b) Necht’X1 , . . ., Xn je na´hodny´ vy´beˇr z N(µ , σ 2 ), kde σ 2 nezna´me. Necht’n ≥ 2 a c je konstanta. Test H0 : µ = c proti H1 : µ 6= c se nazy´va´ jednovy´beˇrovy´ t-test. c) Necht’X1, . . ., Xn je na´hodny´ vy´beˇr z N(µ , σ 2 ), kde µ nezna´me. Necht’n ≥ 2 a c je konstanta. Test H0: σ 2 = c proti H1 : σ 2 6= c se nazy´va´ test o rozptylu. 4.4.1
Provedenı´ testu˚ o parametrech µ , σ 2 pomocı´ kriticke´ho oboru
V kapitole 1 byly uvedeny trˇi zpu˚soby testova´nı´ hypote´z – pomocı´ kriticke´ho oboru, pomocı´ intervalu spolehlivosti a pomocı´ p-hodnoty. V tomto odstavci si uka´zˇeme, jak testovat hypote´zy o strˇednı´ hodnoteˇ µ a rozptylu σ 2 pomocı´ kriticke´ho oboru.
64
a) Provedenı´ z-testu H0: µ = c proti H1 : µ 6= c (resp. H1 : µ < c resp. H1 : µ > c) zamı´ta´me na hladineˇ vy´znamnosti α , jestlizˇe m − c m−c m−c σ ≥ u1−α /2 (resp. σ ≤ −u1−α resp. σ ≥ u1−α ). √ √ √ n n n b) Provedenı´ jednovy´beˇrove´ho t-testu H0: µ = c proti H1 : µ 6= c (resp. H1 : µ < c resp. H1 : µ > c) zamı´ta´me na hladineˇ vy´znamnosti α , jestlizˇe m − c s ≥ t1−α /2 (n − 1) √n m−c m−c (resp. s ≤ −t1−α (n − 1) resp. s ≥ t1−α (n − 1)). √
√ n
n
c) Provedenı´ testu o rozptylu H0: σ 2 = c proti H1 : σ 2 6= c (resp. H1: σ 2 < c resp. H1: σ 2 > c) zamı´ta´me na hladineˇ vy´znamnosti α , jestlizˇe (n − 1)s2 (n − 1)s2 2 ≤ χα2 /2 (n − 1) nebo ≥ χ1− α /2 (n − 1) c c (n − 1)s2 (n − 1)s2 2 (resp. ≤ χα2 (n − 1), resp. ≥ χ1− α (n − 1)). c c Prˇed provedenı´m ktere´hokoli z uvedeny´ch testu˚ je zapotrˇebı´ oveˇrˇit normalitu dat pomocı´ diagnosticky´ch grafu˚ a testu˚ normality popsany´ch v kapitole 3. Zjistı´me-li u jednovy´beˇrove´ho t-testu, zˇe rozsah souboru je maly´ (n < 30) a porusˇenı´ normality je vy´razneˇjsˇ´ı, doporucˇuje se prˇejı´t k neparametricke´mu jednovy´beˇrove´mu Wilcoxonovu testu (viz kapitola 7). Pro vy´beˇry veˇtsˇ´ıch rozsahu˚ nenı´ mı´rne´ porusˇenı´ normality na prˇeka´zˇku pouzˇitı´ uvedeny´ch testu˚. 4.4.2
Prˇ´ıklad
Podle u´daju˚ na obalu cˇokola´dy by jejı´ cˇista´ hmotnost meˇla by´t 125 g. Vy´robce dostal neˇkolik stı´zˇnostı´ od kupujı´cı´ch, ve ktery´ch tvrdili, zˇe hmotnost cˇokola´d je nizˇsˇ´ı nezˇ deklarovany´ch 125 g. Z tohoto du˚vodu oddeˇlenı´ kontroly na´hodneˇ vybralo 50 cˇokola´d a zjistilo, zˇe jejich pru˚meˇrna´ hmotnost je 122 g a smeˇrodatna´ odchylka 8, 6 g. Za prˇedpokladu, zˇe hmotnost cˇokola´d se rˇ´ıdı´ norma´lnı´m rozlozˇenı´m, mu˚zˇeme na hladineˇ vy´znamnosti 0,01 povazˇovat stı´zˇnosti kupujı´cı´ch za opra´vneˇne´? ˇ esˇenı´: R
X1 , . . ., X50 je na´hodny´ vy´beˇr z N(µ , σ 2 ). Testujeme hypote´zu H0: µ = 125 proti levostranne´ alternativeˇ H1: µ < 125. Protozˇe nezna´me rozptyl σ 2 , pouzˇijeme jednovy´beˇrovy´ t-test. Realizace testove´ho krite´ria t0 =
m−c √s n
=
122 − 125 8,6 √ 50
= −2,4667.
65
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ 4. U
Hodnotu t0 porovna´me s opacˇnou hodnotou kvantilu t0,99 (49) = 2,4049. Jelikozˇ −2,4667 ≤ −2,4049, zamı´ta´me nulovou hypote´zu na hladineˇ vy´znamnosti 0,01. Stı´zˇnosti kupujı´cı´ch tedy lze povazˇovat za opra´vneˇne´ (s rizikem omylu nejvy´sˇe 1 %). ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor se dveˇma promeˇnny´mi (nazveme je t0 a kvantil) a o jednom prˇ´ıpadu. Do Dlouhe´ho jme´na promeˇnne´ t0 napı´sˇeme =(122-125)*sqrt(50)/8,6 (tı´m vypocˇteme realizaci testove´ho krite´ria) a do Dlouhe´ho jme´na promeˇnne´ kvantil napı´sˇeme =-VStudent(0,99;49) (tı´m vypocˇteme opacˇnou hodnotu kvantilu t0,99 (49). Protozˇe −2,46665 ≤ −2,40489, zamı´ta´me nulovou hypote´zu na hladineˇ vy´znamnosti 0,01.
4.5
Na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´
2 ! Xn X1 µ1 σ1 σ12 , . . ., Necht’ je na´hodny´ vy´beˇr z rozlozˇenı´ N2 , , σ12 σ22 Y1 Yn µ2
prˇicˇemzˇ n ≥ 2. Oznacˇ´ıme µ = µ1 − µ2 a zavedeme rozdı´lovy´ na´hodny´ vy´beˇr Z1 = X1 −Y1 , . . ., Zn = Xn −Yn . Vypocˇteme M=
4.5.1
1 n ∑ Zi , n i=1
S2 =
1 n ∑ (Zi − M)2 . n − 1 i=1
Interval spolehlivosti pro parametr µ
Pro vy´pocˇet mezı´ 100(1 − α )% empiricke´ho intervalu spolehlivosti pro strˇednı´ hodnotu µ pouzˇijeme vzorec uvedeny´ v 4.3.1 (b). 4.5.2
Pa´rovy´ t-test
Testujeme H0 : µ1 − µ2 = 0 (tj. µ = 0) proti H1 : µ1 − µ2 6= 0 (tj. µ 6= 0). Prˇechodem k rozdı´love´mu na´hodne´mu vy´beˇru prˇevedeme pa´rovy´ t-test na jednovy´beˇrovy´ t-test, jehozˇ provedenı´ je popsa´no v 4.4.1 (b). Prˇed provedenı´m pa´rove´ho t-testu je zapotrˇebı´ se asponˇ orientacˇneˇ prˇesveˇdcˇit o dvourozmeˇrne´ normaliteˇ dat pomocı´ dvourozmeˇrne´ho tecˇkove´ho diagramu. Je-li rozsah vy´beˇru maly´ (n < 30) a porusˇenı´ normality je vy´razneˇjsˇ´ı, je zapotrˇebı´ mı´sto pa´rove´ho testu pouzˇ´ıt neparametricky´ pa´rovy´ Wilcoxonu˚v test (viz kapitola 7). Pro vy´beˇry veˇtsˇ´ıch rozsahu˚, ktere´ vykazujı´ jen mı´rne´ porusˇenı´ normality, mu˚zˇeme pouzˇ´ıt pa´rovy´ t-test. 4.5.3
Prˇ´ıklad
Na 10 automobilech stejne´ho typu se testovaly dva druhy benzı´nu lisˇ´ıcı´ se oktanovy´m cˇ´ıslem. U kazˇde´ho automobilu se prˇi pru˚meˇrne´ rychlosti 90 km/h meˇrˇil dojezd (tj.
66
dra´ha, kterou ujede na dane´ mnozˇstvı´ benzı´nu) prˇi pouzˇitı´ kazˇde´ho z obou druhu˚ benzı´nu. Vy´sledky: Cˇ´ıslo auta 1 2 3 4 5 6 7 8 9 10 benzı´n A 17, 5 20, 0 18, 9 17, 9 16, 4 18, 9 17, 2 17, 5 18, 5 18, 2 benzı´n B 17, 8 20, 8 19, 5 18, 3 16, 6 19, 5 17, 5 17, 9 19, 1 18, 6 Za prˇedpokladu, zˇe dojezd se rˇ´ıdı´ norma´lnı´m rozlozˇenı´m, testujte na hladineˇ vy´znamnosti 0,05 hypote´zu, zˇe rozdı´l strˇednı´ch hodnot dojezdu prˇi dvou druzı´ch benzı´nu se nelisˇ´ı. ˇ esˇenı´: R
Pomocı´ dvourozmeˇrne´ho tecˇkove´ho diagramu se zakreslenou 95% elipsou konstantnı´ hustoty pravdeˇpodobnosti posoudı´me opra´vneˇnost prˇedpokladu o dvourozmeˇrne´ normaliteˇ dat.
Vidı´me, zˇe tecˇky se rˇadı´ do velmi u´zke´ho elipsovite´ho obrazce. Data mu˚zˇeme povazˇovat za realizace na´hodne´ho vy´beˇru z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´. Prˇejdeme k rozdı´love´mu na´hodne´mu vy´beˇru. Oznacˇ´ıme µ = µ1 − µ2 . Testujeme hypote´zu H0 : µ = 0 proti H1 : µ 6= 0 na hladineˇ vy´znamnosti 0,05. Vypocˇteme m = −0,46, s = 0,1838 a testove´ krite´rium t0 = −7,9148. Absolutnı´ hodnotu testove´ho krite´ria porovna´me s kvantilem t0,975 (9) = 2,2622. Protozˇe 7,9148 ≥ 2,2622, zamı´ta´me nulovou hypote´zu na hladineˇ vy´znamnosti 0,05. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor se dveˇma promeˇnny´mi benzı´n A, benzı´n B a o deseti prˇ´ıpadech. Do teˇchto promeˇnny´ch zapı´sˇeme zjisˇteˇne´ hodnoty. Dvourozmeˇrny´ tecˇkovy´ diagram vytvorˇ´ıme podobneˇ jako v prˇ´ıkladu 3.6.2. Nynı´ provedeme pa´rovy´ t-test: Statistika – Za´kladnı´ statistiky/tabulky – t-test, za´visle´ vzorky – OK, Promeˇnne´ – 1. seznam promeˇnny´ch benzı´n A, benzı´n B – OK – Souhrn. Dostaneme tabulku
67
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ 4. U
Vidı´me, zˇe testova´ statistika se realizovala hodnotou −7,91484, pocˇet stupnˇu˚ volnosti = 9, odpovı´dajı´cı´ p-hodnota = 0,000024 ≤ 0,05, tedy nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti 0,05.
Shrnutı´ kapitoly V praxi se cˇasto setka´va´me s na´hodny´m vy´beˇrem z norma´lnı´ho rozlozˇenı´. Toto rozlozˇenı´ je charakterizova´no strˇednı´ hodnotou µ a rozptylem σ 2 . Prˇi rˇesˇenı´ u´loh o teˇchto dvou parametrech pouzˇ´ıva´me cˇtyrˇi pivotove´ statistiky, ktere´ jsou odvozeny z vy´beˇrove´ho pru˚meˇru M a vy´beˇrove´ho rozptylu S2 . Jsou zavedeny ve 4.2. Pro vy´pocˇet mezı´ 100(1 − α )% empiricky´ch intervalu˚ spolehlivosti pro µ cˇi pro σ 2 slouzˇ´ı vzorce uvedene´ ve 4.3.1. Meze lze pocˇ´ıtat te´zˇ pomocı´ syste´mu STATISTICA, jak je uvedeno v prˇ´ıkladu 4.3.2. Testova´nı´ hypote´z o strˇednı´ hodnoteˇ a rozptylu je popsa´no ve 4.4 vcˇetneˇ zpu˚sobu, jak prˇi teˇchto testech vyuzˇ´ıt syste´m STATISTICA. Jedna´ se o jednovy´beˇrovy´ z-test, jednovy´beˇrovy´ t-test a test o rozptylu. V situaci, kdy ma´me k dispozici jeden na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´ a posuzujeme rozdı´lnost strˇednı´ch hodnot obou na´hodny´ch velicˇin, pouzˇijeme pa´rovy´ t-test popsany´ ve 4.5. Prˇi oveˇrˇova´nı´ prˇedpokladu normality se opı´ra´me o diagnosticke´ grafy cˇi o testy normality dat popsane´ ve 3. kapitole.
Kontrolnı´ ota´zky 1. Jake´ pivotove´ statistiky odvozene´ z vy´beˇrove´ho pru˚meˇru M a vy´beˇrove´ho
2. 3. 4. 5.
68
rozptylu S2 pouzˇ´ıva´me prˇi rˇesˇenı´ u´loh o strˇednı´ hodnoteˇ µ a rozptylu σ 2 norma´lnı´ho rozlozˇenı´? Jak vypadajı´ meze 100(1 − α )% empiricke´ho intervalu spolehlivosti pro nezna´mou strˇednı´ hodnotu µ , kdyzˇ rozptyl σ 2 nenı´ zna´m? Jake´ testy o parametrech norma´lnı´ho rozlozˇenı´ zna´te? V jake´ situaci a za jaky´ch podmı´nek pouzˇijete jednovy´beˇrovy´ t-test? V jake´ situaci a za jaky´ch podmı´nek pouzˇijete pa´rovy´ t-test?
Autokorekcˇnı´ test 1. Ma´me-li sestrojit interval spolehlivosti pro strˇednı´ hodnotu norma´lnı´ho roz-
lozˇenı´ a nezna´me rozptyl, pouzˇijeme pivotovou statistiku, ktera´ se rˇ´ıdı´ a) standardizovany´m norma´lnı´m rozlozˇenı´m, b) Pearsonovy´m chı´-kvadra´t rozlozˇenı´m, c) Studentovy´m rozlozˇenı´m. 2. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´? a) 100(1 − α )% empiricky´ interval spolehlivosti pro nezna´mou smeˇrodatnou odchylku norma´lnı´ho rozlozˇenı´ prˇi nezna´me´ strˇednı´ hodnoteˇ ma´ meze v v u n u n 2 u 2 u u ∑ (xi − µ ) u ∑ (xi − µ ) t i=1 i=1 t , . 2 2 χ1−α /2 (n) χα /2 (n)
b) 100(1 − α )% empiricky´ interval spolehlivosti pro nezna´mou strˇednı´ hodnotu norma´lnı´ho rozlozˇenı´ prˇi zna´me´m rozptylu ma´ meze σ σ m − √ u1−α /2 , m + √ u1−α /2 . n n
c) 100(1 − α )% empiricky´ interval spolehlivosti pro nezna´my´ rozptyl norma´lnı´ho rozlozˇenı´ prˇi zna´me´ strˇednı´ hodnoteˇ ma´ meze ! (n − 1)s2 (n − 1)s2 , 2 . 2 χ1− χ (n − 1) (n − 1) α /2 α /2 3. Jednovy´beˇrovy´ t-test slouzˇ´ı k testova´nı´ hypote´zy
a) o strˇednı´ hodnoteˇ norma´lnı´ho rozlozˇenı´ prˇi nezna´me´m rozptylu, b) o smeˇrodatne´ odchylce norma´lnı´ho rozlozˇenı´ prˇi nezna´me´ strˇednı´ hodnoteˇ, c) o strˇednı´ hodnoteˇ norma´lnı´ho rozlozˇenı´ prˇi zna´me´m rozptylu. 4. Necht’ je da´n na´hodny´ vy´beˇr rozsahu n z rozlozˇenı´ N(µ , σ 2 ), kde rozptyl σ 2 zna´me. Jak musı´me zmeˇnit rozsah na´hodne´ho vy´beˇru, chceme-li, aby sˇ´ırˇka 100(1 − α )% empiricke´ho intervalu spolehlivosti pro nezna´mou strˇednı´ hodnotu µ klesla na polovinu? a) Rozsah zveˇtsˇ´ıme 2×. b) Rozsah zveˇtsˇ´ıme 4×. c) Rozsah zmensˇ´ıme na polovinu. 5. Necht’je da´n na´hodny´ vy´beˇr rozsahu n z rozlozˇenı´ N(µ , σ 2 ), kde parametry µ , σ 2 nezna´me. Da´le je da´na rea´lna´ konstanta c. Testujeme nulovou hypote´zu H0: σ 2 = c proti levostranne´ alternativeˇ H1 : σ 2 < c. Kriticky´ obor pro tento test ma´ tvar 2 (n − 1) a) W = 0, χ1− α b) W = 0, χα2 (n − 1) 2 (n − 1), c) W = χ1− α
8
Spra´vne´ odpoveˇdi: 1c)
2b)
3a)
4b)
5b)
69
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ 4. U
Prˇ´ıklady 1. Lze prˇedpokla´dat, zˇe hmotnost pomerancˇu˚ doda´vany´ch do obchodnı´ sı´teˇ se
rˇ´ıdı´ norma´lnı´m rozlozˇenı´m se strˇednı´ hodnotou 170 g a smeˇrodatnou odchylkou 12 g. Jaka´ je pravdeˇpodobnost, zˇe celkova´ hmotnost devı´ti na´hodneˇ vybrany´ch pomerancˇu˚ baleny´ch do sı´t’ky prˇekrocˇ´ı 1,5 kg? Vy´sledek: Hledana´ pravdeˇpodobnost je 0,797. 2. Pocˇet bodu˚ v testu inteligence je na´hodna´ velicˇina, ktera´ se rˇ´ıdı´ rozlozˇenı´m N(100, 225). Jaka´ je pravdeˇpodobnost, zˇe pru˚meˇr v na´hodneˇ vybrane´ skupineˇ 20 osob bude veˇtsˇ´ı nezˇ 105 bodu˚? Vy´sledek: Hledana´ pravdeˇpodobnost je 0,06811. 3. Prˇi prova´deˇnı´ urcˇite´ho pokusu bylo zapotrˇebı´ udrzˇovat v laboratorˇi konstantnı´ teplotu 26,5 ◦ C. Teplota byla v jednom pracovnı´m ty´dnu 46× nama´tkoveˇ kontrolova´na v ru˚zny´ch dennı´ch a nocˇnı´ch hodina´ch. Z vy´sledku˚ meˇrˇenı´ byly vypocˇteny realizace vy´beˇrove´ho pru˚meˇru a vy´beˇrove´ smeˇrodatne´ odchylky: m = 26,33 ◦ C, s = 0,748 ◦ C. Za prˇedpokladu, zˇe vy´sledky meˇrˇenı´ teploty se rˇ´ıdı´ rozlozˇenı´m N(µ , σ 2 ), vypocˇteˇte 95% empiricky´ interval spolehlivosti a) pro strˇednı´ hodnotu µ b) pro smeˇrodatnou odchylku σ . Vy´sledek: ad a) Dosazenı´m do vzorce 4.3.1 (b) dostaneme 26,11 ◦ C < µ < 26,55 ◦ C s pravdeˇpodobnostı´ asponˇ 0,95. ad b) Dosazenı´m do vzorce 4.3.1 (d), kde meze odmocnı´me, dostaneme 0,62 ◦ C < σ < 0,94 ◦ C s pravdeˇpodobnostı´ asponˇ 0,95. 4. U 25 na´hodneˇ vybrany´ch dvoulitrovy´ch lahvı´ s nealkoholicky´m na´pojem byl zjisˇteˇn prˇesny´ objem na´poje. Vy´beˇrovy´ pru˚meˇr cˇinil m = 1,99 l a vy´beˇrova´ smeˇrodatna´ odchylka s = 0,1 l. Prˇedpokla´dejme, zˇe objem na´poje v la´hvi je na´hodna´ velicˇina s norma´lnı´m rozlozˇenı´m. a) Na hladineˇ vy´znamnosti 0,05 oveˇrˇte tvrzenı´ vy´robce, zˇe za´kaznı´k nenı´ znevy´hodneˇn. b) Na hladineˇ vy´znamnosti 0,05 oveˇrˇte tvrzenı´ vy´robce, zˇe smeˇrodatna´ odchylka je 0,08 l. Vy´sledek: ad a) Testujeme hypote´zu H0: µ = 2 proti levostranne´ alternativeˇ H1 : µ < 2 pomocı´ jednovy´beˇrove´ho t-testu (viz 4.4.1 (b)). Jelikozˇ hodnota testove´ho krite´ria −0,5 nelezˇ´ı v kriticke´m oboru ( ; −2,064i, nezamı´ta´me nulovou hypote´zu na hladineˇ vy´znamnosti 0,05. ad b) Testujeme hypote´zu H0: σ = 0,08 proti oboustranne´ alternativeˇ H1: σ 6= 0,08 pomocı´ testu o rozptylu (viz 4.4.1 (c)). Jelikozˇ hodnota testove´ho krite´ria 37,5 nelezˇ´ı v kriticke´m oboru (0; 12,4i ∪ h39,4; ), nejsme opra´vneˇni na hladineˇ vy´znamnosti 0,05 zamı´tnout tvrzenı´ vy´robce.
8
8
5. Bylo vybra´no sˇest novy´ch vozu˚ te´zˇe znacˇky a po urcˇite´ dobeˇ bylo zjisˇteˇno,
o kolik mm se sjely jejich leve´ a prave´ prˇednı´ pneumatiky. Vy´sledky: (1,8; 1,5),
70
(1,0; 1,1),
(2,2; 2,0),
(0,9; 1,1),
(1,5; 1,4),
(1,6; 1,4).
Za prˇedpokladu, zˇe uvedene´ dvojice tvorˇ´ı na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´ s vektorem strˇednı´ch hodnot (µ1 , µ2 ), testujte na hladineˇ vy´znamnosti 0,05 hypote´zu, zˇe obeˇ pneumatiky se sjı´zˇdeˇjı´ stejneˇ rychle. Vy´sledek: Vzhled dvourozmeˇrne´ho tecˇkove´ho diagramu nenı´ v rozporu s prˇedpokladem o dvourozmeˇrne´m norma´lnı´m rozlozˇenı´. Prˇejdeme k rozdı´love´mu na´hodne´mu vy´beˇru a testujeme nulovou hypote´zu H0: µ = 0 proti oboustranne´ alternativeˇ H1 : µ 6= 0 pomocı´ pa´rove´ho t-testu. Hodnota testove´ho krite´ria = 1,0512, pocˇet stupnˇu˚ volnosti = 5. Protozˇe odpovı´dajı´cı´ p-hodnota = 0,3411 je veˇtsˇ´ı nezˇ hladina vy´znamnosti 0,05, nelze na hladineˇ vy´znamnosti 0,05 zamı´tnout nulovou hypote´zu. Ke stejne´mu rozhodnutı´ dospeˇjeme, pokud stanovı´me kriticky´ obor: W = (− ; −2,571) ∪ (2,571; ). Testove´ krite´rium se nerealizuje v kriticke´m oboru, tedy nelze na hladineˇ vy´znamnosti 0,05 zamı´tnout nulovou hypote´zu. 6. Umeˇle prˇipraveny´ vzorek minera´lu obsahoval 10 % krˇemene a byl 12kra´t promeˇrˇen. Vy´sledky meˇrˇenı´ byly:
8
8
8,7 10,2 10,07 9,75 9,65 10,37 10,14 10,5 9,48 11,22 9,49 9,86 Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe obsah krˇemene byl stanoven spra´vneˇ. Vy´sledek: K-S test ani S-W test nezamı´tajı´ na hladineˇ vy´znamnosti 0,05 normalitu dat. Testujeme nulovou hypote´zu H0 : µ = 10 proti oboustranne´ ´ loha vede na jednovy´beˇrovy´ t-test. Realizace tesalternativeˇ H1 : µ 6= 10. U tove´ho krite´ria = −0,262, pocˇet stupnˇu˚ volnosti = 9. Protozˇe odpovı´dajı´cı´ p-hodnota = 0,7981 je veˇtsˇ´ı nezˇ hladina vy´znamnosti 0,05, nelze na hladineˇ vy´znamnosti 0,05 zamı´tnout nulovou hypote´zu.
71
´ lohy o jednom na´hodne´m vy´beˇru z norma´lnı´ho rozlozˇenı´ 4. U
72
Motivace Rozlozˇenı´ statistik odvozeny´ch z vy´beˇrovy´ch pru˚meˇru˚ a vy´beˇrovy´ch rozptylu˚ Intervaly spolehlivosti pro parametricke´ funkce µ 1 − µ 2 , σ 21 /σ 22 Testova´nı´ hypote´z o parametricky´ch funkcı´ch µ 1 − µ 2 , σ 21 /σ 22
5
´ lohy o dvou neza´visly´ch U na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ 5. U
Cı´l kapitoly Po prostudova´nı´ te´to kapitoly budete zna´t vlastnosti pivotovy´ch statistik odvozeny´ch ze dvou neza´visly´ch na´hodny´ch vy´beˇru˚ z norma´lnı´ch rozlozˇenı´ a budete je umeˇt pouzˇ´ıt pro rˇesˇenı´ konkre´tnı´ch u´loh umeˇt sestrojit intervaly spolehlivosti pro rozdı´l strˇednı´ch hodnot a podı´l rozptylu˚ dvou norma´lnı´ch rozlozˇenı´ prova´deˇt testy hypote´z o rozdı´lu strˇednı´ch hodnot a podı´lu rozptylu˚ dvou norma´lnı´ch rozlozˇenı´
ˇ asova´ za´teˇzˇ C Na prostudova´nı´ te´to kapitoly a splneˇnı´ u´kolu˚ s nı´ spojeny´ch budete potrˇebovat asi 5 hodin studia.
5.1
Motivace
V tomto prˇ´ıpadeˇ je nasˇ´ım u´kolem porovnat strˇednı´ hodnoty cˇi rozptyly dvou norma´lnı´ch rozlozˇenı´ na za´kladeˇ znalosti dvou neza´visly´ch na´hodny´ch vy´beˇru˚ porˇ´ızeny´ch z teˇchto rozlozˇenı´. Zpravidla konstruujeme intervaly spolehlivosti pro rozdı´l strˇednı´ch hodnot nebo podı´l rozptylu˚ respektive hodnotı´me shodu strˇednı´ch hodnot pomocı´ dvouvy´beˇrove´ho t-testu cˇi dvouvy´beˇrove´ho z-testu a shodu rozptylu˚ pomocı´ F-testu.
5.2
Rozlozˇenı´ statistik odvozeny´ch z vy´beˇrovy´ch pru˚meˇru˚ a vy´beˇrovy´ch rozptylu˚
Necht’X11 , . . ., X1n1 je na´hodny´ vy´beˇr z rozlozˇenı´ N(µ1 , σ12 ) a X21 , . . ., X2n2 je na neˇm neza´visly´ na´hodny´ vy´beˇr z rozlozˇenı´ N(µ2 , σ22 ), prˇicˇemzˇ n1 ≥ 2 a n2 ≥ 2. Oznacˇme M1 , M2 vy´beˇrove´ pru˚meˇry a S12 , S22 vy´beˇrove´ rozptyly. Pak platı´: (n1 − 1)S12 + (n2 − 1)S22 jsou stochasticky neza´n1 + n2 − 2 visle´. σ12 σ22 , tedy b) M1 − M2 ∼ N µ1 − µ2 , + n1 n2 (M1 − M2 ) − (µ1 − µ2 ) s U= ∼ N(0, 1). σ12 σ22 + n1 n2
a) Statistiky M1 − M2 a S∗2 =
(Pivotova´ statistika U slouzˇ´ı k rˇesˇenı´ u´loh o µ1 − µ2 , kdyzˇ σ12 a σ22 zna´me.) (n1 + n2 − 2)S∗2 ∼ χ 2 (n1 + n2 − 2). c) Jestlizˇe σ12 = σ22 =: σ 2 , pak K = σ2 (Pivotova´ statistika K slouzˇ´ı k rˇesˇenı´ u´loh o nezna´me´m spolecˇne´m rozptylu σ 2 .)
74
d) Jestlizˇe σ12 = σ22 =: σ 2 , pak T =
(M1 − M2 ) − (µ1 − µ2 ) r ∼ t(n1 + n2 − 2). 1 1 S∗ + n1 n2
(Pivotova´ statistika T slouzˇ´ı k rˇesˇenı´ u´loh o µ1 − µ2 , kdyzˇ σ12 a σ22 nezna´me, ale vı´me, zˇe jsou shodne´.) S2 /S2 e) F = 12 22 ∼ F(n1 − 1, n2 − 1). σ1 /σ2 (Pivotova´ statistika F slouzˇ´ı k rˇesˇenı´ u´loh o σ12 /σ22 .) 5.2.1
Prˇ´ıklad
Necht’jsou da´ny dva neza´visle´ na´hodne´ vy´beˇry, prvnı´ pocha´zı´ z rozlozˇenı´ N(2, 3/2) a ma´ rozsah 10, druhy´ pocha´zı´ z rozlozˇenı´ N(3, 4) a ma´ rozsah 5. Jaka´ je pravdeˇpodobnost, zˇe vy´beˇrovy´ pru˚meˇr 1. vy´beˇru bude mensˇ´ı nezˇ vy´beˇrovy´ pru˚meˇr 2. vy´beˇru? ˇ esˇenı´: R
σ12 σ22 Statistika M1 − M2 se podle 5.2 (b) rˇ´ıdı´ rozlozˇenı´m N µ1 − µ2 , + , kde n1 n2 σ 2 σ 2 1,5 4 µ1 − µ2 = 2 − 3 = −1, 1 + 2 = + = 0,95, tj. M1 − M2 ∼ N(−1; 0,95) n1 n2 10 5 (M1 − M2 ) − (µ1 − µ2 ) M1 − M2 + 1 s √ = Tedy statistika U = 0,95 σ12 σ22 + n1 n2
Dosta´va´me 0+1 = Φ(1,026) = 0,8475. P(M1 < M2 ) = P(M1 − M2 < 0) = P U < √ 0,95 S pravdeˇpodobnostı´ prˇiblizˇneˇ 84,8 % je vy´beˇrovy´ pru˚meˇr 1. vy´beˇru mensˇ´ı nezˇ vy´beˇrovy´ pru˚meˇr 2. vy´beˇru. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor o jedne´ promeˇnne´ a jednom prˇ´ıpadu. Dvakra´t klikneme na na´zev promeˇnne´ Prom1. Do Dlouhe´ho jme´na te´to promeˇnne´ napı´sˇeme = INormal(0;-1;sqrt(0,95)). V promeˇnne´ Prom1 se objevı´ hodnota 0,847549.
5.3
Intervaly spolehlivosti pro parametricke´ funkce µ 1 − µ 2 , σ 21 /σ 22
Budeme zaby´vat specia´lnı´mi prˇ´ıpady, kdy za parametrickou funkci h(ϑ ) povazˇujeme rozdı´l strˇednı´ch hodnot µ1 − µ2 nebo podı´l rozptylu˚ σ12 /σ22 dvou norma´lnı´ch rozlozˇenı´. Prˇi konstrukci intervalu spolehlivosti pro rozdı´l strˇednı´ch hodnot bud’ rozptyly zna´me nebo nezna´me a vı´me, zˇe jsou shodne´ cˇi nikoliv. Shodu rozptylu˚
75
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ 5. U
oveˇrˇujeme pomocı´ F-testu. Uvedeme jen prˇehled vzorcu˚ pro meze 100(1 − α )% empiricky´ch intervalu˚ spolehlivosti pro parametricke´ funkce µ1 − µ2 , σ12 /σ22 . 5.3.1 Prˇehled vzorcu˚ a) Interval spolehlivosti pro µ1 − µ2 , kdyzˇ σ12 , σ22 zna´me (M1 − M2 ) − (µ1 − µ2 ) q 2 ∼ N(0, 1)) (vyuzˇitı´ pivotove´ statistiky U = σ1 σ22 n1 + n2
Oboustranny´: (d, h) = q 2 q 2 σ1 σ22 σ1 σ22 = m1 − m2 − n1 + n2 u1−α /2 , m1 − m2 + n1 + n2 u1−α /2 q 2 σ1 σ22 Levostranny´: (d, ) = m1 − m2 − n1 + n2 u1−α , q 2 σ1 σ22 Pravostranny´: (− , h) = − , m1 − m2 + n1 + n2 u1−α
8
8
8
8
b) Interval spolehlivosti pro µ1 − µ2 , kdyzˇ σ12 , σ22 nezna´me, ale vı´me, zˇe jsou shodne´ (M1 − M2 ) − (µ1 − µ2 ) q ∼ t(n1 + n2 − 2)). (vyuzˇitı´ pivotove´ statistiky T = S∗ n11 + n12 q Oboustranny´: (d, h) = m1 − m2 − s∗ n11 + n12 t1−α /2 (n1 + n2 − 2), q 1 1 m1 − m2 + s∗ n1 + n2 t1−α /2 (n1 + n2 − 2) q Levostranny´: (d, ) = m1 − m2 − s∗ n11 + n12 t1−α (n1 + n2 − 2), q 1 1 Pravostranny´: (− , h) = − , m1 − m2 + s∗ n1 + n2 t1−α (n1 + n2 − 2)
8 8
8
8
c) Interval spolehlivosti pro spolecˇny´ nezna´my´ rozptyl σ 2 (n1 + n2 − 2)S∗2 ∼ χ 2 (n1 + n2 − 2)) (vyuzˇitı´ pivotove´ statistiky K = σ2 !
(n1 + n2 − 2)s2∗ (n1 + n2 − 2)s2∗ , 2 2 χ1− α /2 (n1 + n2 − 2) χα /2 (n1 + n2 − 2) ! (n1 + n2 − 2)s2∗ Levostranny´: (d, ) = , 2 (n + n − 2) χ1− 2 α 1 (n1 + n2 − 2)s2∗ Pravostranny´: (− , h) = − , 2 χα (n1 + n2 − 2) σ2 d) Interval spolehlivosti pro podı´l rozptylu˚ 12 σ2 Oboustranny´: (d, h) =
8
8
8
8
(vyuzˇitı´ pivotove´ statistiky F = Oboustranny´: (d, h) =
76
S12 /S22 ∼ F(n1 − 1, n2 − 1)) σ12 /σ22
s21 /s22 s21 /s22 , F1−α /2 (n1 − 1, n2 − 1) Fα /2 (n1 − 1, n2 − 1)
!
8
8
s21 /s22 , Levostranny´: (d, ) = F1−α (n1 − 1, n2 − 1) s21 /s22 Pravostranny´: (− , h) = − , Fα (n1 − 1, n2 − 1) Upozorneˇnı´: Nenı´-li v 5.3.1 (b) splneˇn prˇedpoklad o shodeˇ rozptylu˚, lze sestrojit asponˇ prˇiblizˇny´ 100(1 − α )% interval spolehlivosti pro µ1 − µ2 . V tomto prˇ´ıpadeˇ ma´ statistika T prˇiblizˇneˇ rozlozˇenı´ t(ν ), kde pocˇet stupnˇu˚ volnosti
8
ν=
8
(s21 /n1 + s22 /n2 )2 . (s21/n1 )2 (s22 /n2 )2 + n1 − 1 n2 − 1
Nenı´-li ν cele´ cˇ´ıslo, pouzˇijeme v tabulka´ch kvantilu˚ Studentova rozlozˇenı´ linea´rnı´ interpolaci. 5.3.2
Prˇ´ıklad
Ve dvou na´drzˇ´ıch se zkoumal obsah chlo´ru (v g/l). Z prvnı´ na´drzˇe bylo odebra´no 25 vzorku˚, z druhe´ na´drzˇe 10 vzorku˚. Byly vypocˇteny realizace vy´beˇrovy´ch pru˚meˇru˚ a rozptylu˚: m1 = 34,48, m2 = 35,59, s21 = 1,7482, s22 = 1,7121. Hodnoty zjisˇteˇne´ z odebrany´ch vzorku˚ povazˇujeme za realizace dvou neza´visly´ch na´hodny´ch vy´beˇru˚ z rozlozˇenı´ N(µ1 , σ 2 ) a N(µ2 , σ 2 ). Sestrojte 95% empiricky´ interval spolehlivosti pro rozdı´l strˇednı´ch hodnot µ1 − µ2 . ˇ esˇenı´: R
´ loha vede na vzorec 5.3.1 (b). Vypocˇteme va´zˇeny´ pru˚meˇr vy´beˇrovy´ch rozptylu˚ a U najdeme odpovı´dajı´cı´ kvantily Studentova rozlozˇenı´: s2∗ =
(n1 − 1)s21 + (n2 − 1)s22 24 · 1,7482 + 9 · 1,7121 = = 1,7384, n1 + n2 − 2 33 t0,975 (33) = 2,035.
Dosadı´me do vzorcu˚ pro dolnı´ a hornı´ mez intervalu spolehlivosti: r 1 1 d = m1 − m2 − s ∗ + t1−α /2 (n1 + n2 − 2) = n1 n2 r p 1 1 + · 2,035 = −2,114 = 34,48 − 35,59 − 1,7384 · 25 10 r 1 1 h = m1 − m2 + s ∗ + t /2 (n1 + n2 − 2) = n1 n2 1−αr p 1 1 + · 2,035 = −0,106 = 34,48 − 35,59 + 1,7384 · 25 10
Zjistili jsme, zˇe −2,114 g/l < µ1 − µ2 < −0,106 g/l s pravdeˇpodobnostı´ asponˇ 0,95.
ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor o jednom prˇ´ıpadu a dvou promeˇnny´ch, ktere´ nazveme dm a hm. Do Dlouhe´ho jme´na promeˇnne´ dm napı´sˇeme =34,48-35,59-sqrt((24*
77
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ 5. U
1,7482+9*1,7121)/33)*sqrt(1/25+1/10)*VStudent(0,975;33). Dostaneme vy´sledek −2,11368. (Prˇitom funkce VStudent(x;sv) poskytuje x% kvantil Studentova rozlozˇenı´ s pocˇtem stupnˇu˚ volnosti sv.) Do Dlouhe´ho jme´na promeˇnne´ hm napı´sˇeme =34,48-35,59+sqrt((24*1,7482+9* 1,7121)/33)*sqrt(1/25+1/10)*VStudent(0,975;33). Dostaneme vy´sledek −0,10632. 5.3.3
Prˇ´ıklad
V prˇ´ıkladu 5.3.2 nynı´ prˇedpokla´da´me, zˇe dane´ dva na´hodne´ vy´beˇry pocha´zejı´ z rozlozˇenı´ N(µ1 , σ12 ) a N(µ2 , σ22 ). Sestrojte 95% empiricky´ interval spolehlivosti pro podı´l rozptylu˚. ˇ esˇenı´: R
´ loha vede na vzorec 5.3.1 (d). U d=
s21/s22 1,7482/1,7121 1,7482/1,7121 = = 0,28 = F1−α /2 (n1 − 1, n2 − 1) F0,975 (24,9) 3,6142
h=
s21 /s22 1,7482/1,7121 1,7482/1,7121 = = = 2,76 Fα /2 (n1 − 1, n2 − 1) F0,025 (24,9) 1/2,7027
Dosta´va´me, zˇe 0,28 <
σ12 < 2,76 s pravdeˇpodobnostı´ asponˇ 0,95. σ22
ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor o jednom prˇ´ıpadu a dvou promeˇnny´ch, ktere´ nazveme dm a hm. Do Dlouhe´ho jme´na promeˇnne´ dm napı´sˇeme =(1,7482/1,7121)/ VF(0,975;24;9). Dostaneme vy´sledek 0,282521. (Prˇitom funkce VF(x;ny´;omega) poskytuje x% kvantil Fisherova–Snedecorova rozlozˇenı´ s pocˇtem stupnˇu˚ volnosti cˇitatele ny´ a jmenovatele omega.) Do Dlouhe´ho jme´na promeˇnne´ hm napı´sˇeme =(1,7482/1,7121)/VF(0,025;24;9). Dostaneme vy´sledek 2,759698.
5.4 5.4.1
Testova´nı´ hypote´z o parametricky´ch funkcı´ch µ 1 − µ 2 , σ 21 /σ 22 Prˇehled testu˚
a) Necht’ X11 , . . ., X1n1 je na´hodny´ vy´beˇr z rozlozˇenı´ N(µ1 , σ12 ) a X21 , . . ., X2n2 je na neˇm neza´visly´ na´hodny´ vy´beˇr z rozlozˇenı´ N(µ2 , σ22 ), prˇicˇemzˇ n1 ≥ 2, n2 ≥ 2 a σ12 , σ22 zna´me. Necht’c je konstanta. Test H0 : µ1 − µ2 = c proti H1: µ1 − µ2 6= c se nazy´va´ dvouvy´beˇrovy´ z-test. b) Necht’ X11 , . . ., X1n1 je na´hodny´ vy´beˇr z rozlozˇenı´ N(µ1 , σ 2 ) a X21 , . . ., X2n2 je na neˇm neza´visly´ na´hodny´ vy´beˇr rozlozˇenı´ N(µ2 , σ2 ), prˇicˇemzˇ n1 ≥ 2 a n2 ≥ 2 a σ 2 nezna´me. Necht’ c je konstanta. Test H0: µ1 − µ2 = c proti H1: µ1 − µ2 6= c se nazy´va´ dvouvy´beˇrovy´ t-test.
78
c) Necht’ X11 , . . ., X1n1 je na´hodny´ vy´beˇr z rozlozˇenı´ N(µ1 , σ12 ) a X21 , . . ., X2n2 je na neˇm neza´visly´ na´hodny´ vy´beˇr rozlozˇenı´ N(µ2 , σ22 ), prˇicˇemzˇ n1 ≥ 2 a σ2 σ2 n2 ≥ 2. Test H0: 12 = 1 proti H1 : 12 6= 1 se nazy´va´ F-test. σ2 σ2 5.4.2
Provedenı´ testu˚ o parametricky´ch funkcı´ch µ 1 − µ 2 , σ 21 /σ 22 pomocı´ kriticke´ho oboru
a) Provedenı´ dvouvy´beˇrove´ho z-testu Hypote´zu H0: µ1 − µ2 = c proti H1: µ1 − µ2 6= c (resp. H1 : µ1 − µ2 < c, resp. H1 : µ1 − µ2 > c) zamı´ta´me na hladineˇ vy´znamnosti α , jestlizˇe m1 − m2 − c ≥ u1−α /2 q 2 2 σ σ 1 2 + n1
(resp.
n2
m1 − m2 − c q 2 ≤ −u1−α , σ1 σ22 n1 + n2
b) Provedenı´ dvouvy´beˇrove´ho t-testu
resp.
m1 − m2 − c q 2 ≥ u1−α ). σ1 σ22 n1 + n2
Hypote´zu H0: µ1 − µ2 = c proti H1 : µ1 − µ2 6= c (resp. H1: µ1 − µ2 < c resp. H1 : µ1 − µ2 > c) zamı´ta´me na hladineˇ vy´znamnosti α , jestlizˇe m1 − m2 − c ≥ t1−α /2 (n1 + n2 − 2) q s∗ n1 + n1 1
(resp. resp.
c) Provedenı´ F-testu
2
m1 − m2 − c q ≤ −t1−α (n1 + n2 − 2), s∗ n11 + n12 m1 − m2 − c q ≥ t1−α (n1 + n2 − 2)). s∗ n11 + n12
σ12 σ12 σ12 σ12 = 1 proti H : = 6 1 (resp. H : < 1, resp. H : > 1) 1 1 1 σ22 σ22 σ22 σ22 zamı´ta´me na hladineˇ vy´znamnosti α , jestlizˇe
Hypote´zu H0:
s21 s21 (n + n − 2) nebo ≤ F ≥ F1−α /2 (n1 + n2 − 2) 2 α /2 1 s22 s22 s2 s2 (resp. 21 ≤ Fα (n1 + n2 − 2), resp. 21 ≥ F1−α (n1 + n2 − 2)). s2 s2 Podobneˇ jako v kapitole 4 musı´me oveˇrˇit normalitu dat. Pokud vy´beˇry mensˇ´ıch rozsahu˚ (pod 30) vykazujı´ vy´razneˇjsˇ´ı odchylky od normality, doporucˇuje se mı´sto dvouvy´beˇrove´ho t-testu pouzˇ´ıt neparametricky´ dvouvy´beˇrovy´ Wilcoxonu˚ test (viz kapitola 7).
79
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ 5. U
Prˇed provedenı´m dvouvy´beˇrove´ho t-testu bychom se meˇli F-testem prˇesveˇdcˇit o shodeˇ rozptylu˚. Zamı´tne-li F-test na dane´ hladineˇ vy´znamnosti hypote´zu o shodeˇ rozptylu˚, musı´me pro testova´nı´ hypote´zy o shodeˇ strˇednı´ch hodnot pouzˇ´ıt specia´lnı´ variantu dvouvy´beˇrove´ho t-testu, tzv. dvouvy´beˇrovy´ t-test se separovany´mi odhady rozptylu˚. Musı´me si by´t veˇdomi rozdı´lu mezi dvouvy´beˇrovy´m t-testem a pa´rovy´m t-testem. Dvouvy´beˇrovy´ t-test je zalozˇen na prˇedpokladu neza´vislosti dany´ch dvou vy´beˇru˚. Pokud v situaci, ktera´ vede na pa´rovy´ test, pouzˇijeme dvouvy´beˇrovy´ t-test, mu˚zˇeme dostat nepravdive´ vy´sledky. Naopak, majı´-li dva neza´visle´ vy´beˇry stejny´ rozsah a my pouzˇijeme pa´rovy´ t-test mı´sto dvouvy´beˇrove´ho t-testu, nedopustı´me se hrube´ chyby, pouze me´neˇ efektivneˇ vyuzˇijeme informaci obsazˇenou v datech. 5.4.3
Prˇ´ıklad
V restauraci „U bı´le´ho konı´cˇka“ meˇrˇili ve 20 prˇ´ıpadech cˇas obsluhy za´kaznı´ka. Vy´sledky v minuta´ch: 6, 8, 11, 4, 7, 6, 10, 6, 9, 8, 5, 12, 13, 10, 9, 8, 7, 11, 10, 5. V restauraci „Zlaty´ lev“ bylo dane´ pozorova´nı´ uskutecˇneˇno v 15 prˇ´ıpadech s teˇmito vy´sledky: 9, 11, 10, 7, 6, 4, 8, 13, 5, 15, 8, 5, 6, 8, 7. Za prˇedpokladu, zˇe uvedene´ hodnoty pocha´zejı´ ze dvou norma´lnı´ch rozlozˇenı´, na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe strˇednı´ hodnoty doby obsluhy jsou v obou restauracı´ch stejne´. ˇ esˇenı´: R
Na hladineˇ vy´znamnosti 0,05 testujeme nulovou hypote´zu H0: µ1 − µ2 = 0 proti oboustranne´ alternativeˇ H1 : µ1 − µ2 6= 0. Je to u´loha na dvouvy´beˇrovy´ t-test. Prˇed provedenı´m tohoto testu je vsˇak nutne´ pomocı´ F-testu testovat shodu rozptylu˚. σ2 σ2 Na hladineˇ vy´znamnosti 0,05 tedy testujeme H0 : 12 = 1 proti H1 : 12 6= 1. Podle σ2 σ2 5.4.2 (c) nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti α , jestlizˇe s21 ≤ Fα /2 (n1 − 1, n2 − 1) s22
nebo
s21 ≥ F1−α /2 (n1 − 1, n2 − 1). s22
Vypocˇteme m1 = 8,25, m2 = 8,13, s21 = 6,307, s22 = 9,41. V nasˇem prˇ´ıpadeˇ
s21 6,307 = 0,6702. V tabulka´ch najdeme = 9,41 s22
1 1 = = 0,3778, F0,975 (14, 19) 2,6469 F1−α /2 (n1 − 1, n2 − 1) = F0,975 (19, 14) = 2,8607.
Fα /2 (n1 − 1, n2 − 1) = F0,025 (19, 14) =
8
Protozˇe 0,6702 nepatrˇ´ı do kriticke´ho oboru h0; 0,3778i ∪ h2,8607; ), hypote´zu o shodeˇ rozptylu˚ nezamı´ta´me na hladineˇ vy´znamnosti 0,05. Nynı´ se vra´tı´me k dvouvy´beˇrove´mu t-testu.
80
a) Testova´nı´ pomocı´ kriticke´ho oboru: Podle 5.4.2 (b) nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti α , kdyzˇ absolutnı´ hodnota realizace testove´ statistiky |m1 − m2 − c| ≥ t1−α /2 (n1 + n2 − 2), |t0| = q s∗ n11 + n12 kde
s2∗ =
(n1 − 1)s21 + (n2 − 1)s22 19 · 8,13 + 14 · 9,41 = = 7,623. n1 + n2 − 2 33
V tabulka´ch najdeme t0,975 (33) = 1,96. Dosadı´me do vzorce pro vy´pocˇet absolutnı´ hodnoty realizace testove´ statistiky |8,25 − 8,13| |m1 − m2 − c| q q =√ = 0,124 1 1 s∗ n11 + n12 + 15 7,623 · 20
Protozˇe 0,124 < 1,96, nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti 0,05. b) Testova´nı´ pomocı´ intervalu spolehlivosti: Podle 5.3.1 (b) ma´me r 1 1 + t1−α /2 (n1 + n2 − 2), (d, h) = m1 − m2 − s∗ n1 n2 r 1 1 + t (n1 + n2 − 2) m1 − m2 + s ∗ n1 n2 1−α /2 V tabulka´ch najdeme t0,975 (33) = 1,96. r p 1 1 + · 1,96 = −1,73, d = 8,25 − 8,13 − 7,623 · r 20 15 p 1 1 + · 1,96 = 1,97. h = 8,25 − 8,13 + 7,623 · 20 15
Protozˇe 0 ∈ (−1,73; 1,97), nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti 0,05. c) Testova´nı´ pomocı´ p-hodnoty: Podle 1.4.6 (c) dosta´va´me p = 2 min{P(T0 ≤ t0 ), P(T0 ≥ t0 )} = = 2 min{P(T0 ≤ 0,124), P(T0 ≥ 0,124)} = = 2 min{Φ(0,124), 1 − Φ(0,124)}, kde Φ(x) je distribucˇnı´ funkce Studentova rozlozˇenı´ s pocˇtem stupnˇu˚ volnosti 33. Pomocı´ statisticke´ho software zı´ska´me Φ(0,124) = 0,549, tedy p = 2 · (1 − 0,549) = 0,902. Protozˇe 0,902 > 0,05, nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti 0,05. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor o dvou promeˇnny´ch a 35 prˇ´ıpadech. Prvnı´ promeˇnnou nazveme OBSLUHA, druhou ID. Do promeˇnne´ OBSLUHA napı´sˇeme nejprve doby
81
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ 5. U
obsluhy v prvnı´ restauraci a pote´ doby obsluhy ve druhe´ restauraci. Do promeˇnne´ ID, ktera´ slouzˇ´ı k rozlisˇenı´ prvnı´ a druhe´ restaurace, napı´sˇeme 20kra´t jednicˇku a 15kra´t dvojku. Pomocı´ NP-grafu a S-W testu oveˇrˇ´ıme normalitu dat v obou skupina´ch. Grafy – 2D Grafy – Norma´lnı´ pravdeˇpodobnostnı´ grafy – zasˇkrtneme S-W test, Promeˇnne´ OBSLUHA, OK, Kategorizovany´ – Kategorie X, zasˇkrtneme Zapnuto, Zmeˇnit promeˇnnou – ID, OK. Dostaneme graf
V obou prˇ´ıpadech se tecˇky odchylujı´ od prˇ´ımky jenom ma´lo. Rovneˇzˇ p-hodnoty S-W testu jsou v obou prˇ´ıpadech veˇtsˇ´ı nezˇ 0,05, tedy hypote´zy o normaliteˇ nezamı´ta´me na hladineˇ vy´znamnosti 0,05. Nynı´ provedeme dvouvy´beˇrovy´ t-test soucˇasneˇ s testem o shodeˇ rozptylu˚: Statistika – Za´kladnı´ statistiky a tabulky – t-test, neza´visle´, dle skupin – OK, Promeˇnne´ – Za´visle´ promeˇnne´ OBSLUHA, Grupovacı´ promeˇnna´ ID – OK.
Po kliknutı´ na tlacˇ´ıtko Souhrn dostaneme tabulku
82
Vidı´me, zˇe testova´ statistika pro test shody rozptylu˚ se realizuje hodnotou 1,492952 (je to prˇevra´cena´ hodnota k cˇ´ıslu 0,6702, ktere´ jsme vypocˇ´ıtali prˇi rucˇnı´m postupu), odpovı´dajı´cı´ p-hodnota je 0,41044, tedy na hladineˇ vy´znamnosti 0,05 nezamı´ta´me hypote´zu o shodeˇ rozptylu˚. (Upozorneˇnı´: v prˇ´ıpadeˇ zamı´tnutı´ hypote´zy o shodeˇ rozptylu˚ je zapotrˇebı´ v tabulce t-testu pro neza´visle´ vzorky dle skupin zasˇkrtnout volbu Test se samostatny´mi odhady rozptylu.) Da´le z tabulky plyne, zˇe testova´ statistika pro test shody strˇednı´ch hodnot se realizuje hodnotou 0,12373, pocˇet stupnˇu˚ volnosti je 33, odpovı´dajı´cı´ p-hodnota 0,902279, tedy hypote´zu o shodeˇ strˇednı´ch hodnot nezamı´ta´me na hladineˇ vy´znamnosti 0,05. Znamena´ to, zˇe s rizikem omylu nejvy´sˇe 5% se neproka´zal rozdı´l ve strˇednı´ch hodnota´ch dob obsluhy v restauracı´ch „U bı´le´ho konı´cˇka“ a „Zlaty´ lev“. Tabulku jesˇteˇ doplnı´me krabicovy´mi diagramy. Na za´lozˇce Detaily zasˇkrtneme krabicovy´ graf a vybereme volbu Pru˚meˇr/SmOdch/1,96*SmOdch.
Z grafu je videˇt, zˇe pru˚meˇrna´ doba obsluhy v prvnı´ restauraci je nepatrneˇ delsˇ´ı a ma´ mensˇ´ı variabilitu nezˇ ve druhe´ restauraci. Extre´mnı´ ani odlehle´ hodnoty se zde nevyskytujı´.
Shrnutı´ kapitoly V te´to kapitole jsme porovna´vali strˇednı´ hodnoty cˇi rozptyly dvou norma´lnı´ch rozlozˇenı´ na za´kladeˇ znalosti dvou neza´visly´ch na´hodny´ch vy´beˇru˚ porˇ´ızeny´ch z teˇchto rozlozˇenı´. Vzorce pro vy´pocˇet mezı´ 100(1 − α )% empiricky´ch intervalu˚ spolehliσ2 vosti pro parametricke´ funkce µ1 − µ2 cˇi 12 jsou uvedene´ v 5.3.1. Meze lze pocˇ´ıtat σ2 te´zˇ pomocı´ syste´mu STATISTICA, jak je uvedeno v prˇ´ıkladech 5.3.2 a 5.3.3. Testova´nı´ hypote´z o rozdı´lu strˇednı´ch hodnot a podı´lu rozptylu je popsa´no ve 5.4 vcˇetneˇ zpu˚sobu, jak prˇi teˇchto testech vyuzˇ´ıt syste´m STATISTICA. Jedna´ se o dvouvy´beˇrovy´ z-test, dvouvy´beˇrovy´ t-test a F-test. Provedenı´ dvouvy´beˇrove´ho t-testu a F-testu v syste´mu STATISTICA je popsa´nu v prˇ´ıkladu 5.4.3.
83
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ 5. U
Kontrolnı´ ota´zky 1. Ktere´ pivotove´ statistiky pouzˇ´ıva´me prˇi rˇesˇenı´ u´loh o rozdı´lu strˇednı´ch hodnot 2. 3. 4. 5.
a podı´lu rozptylu˚ dvou norma´lnı´ch rozlozˇenı´? Jake´ meze ma´ 100(1 − α )% empiricky´ interval spolehlivosti pro podı´l smeˇrodatny´ch odchylek dvou norma´lnı´ch rozlozˇenı´? V cˇem spocˇ´ıva´ rozdı´l mezi dvouvy´beˇrovy´m z-testem a dvouvy´beˇrovy´m t-testem? V jaky´ch situacı´ch pouzˇ´ıva´me dvouvy´beˇrovy´ t-test a v jaky´ch a pa´rovy´ t-test? K cˇemu slouzˇ´ı F-test?
Autokorekcˇnı´ test 1. Na za´kladeˇ znalosti dvou neza´visly´ch na´hodny´ch vy´beˇru˚ o rozsazı´ch n1 a n2
ze dvou norma´lnı´ch rozlozˇenı´ se shodny´m rozptylem ma´me sestrojit interval spolehlivosti pro rozdı´l strˇednı´ch hodnot. Pouzˇijeme pivotovou statistiku, ktera´ se rˇ´ıdı´ a) standardizovany´m norma´lnı´m rozlozˇenı´m b) Fisherovy´m–Snedecorovy´m rozlozˇenı´m F(n1 − 1, n2 − 1) c) Studentovy´m rozlozˇenı´m t(n1 + n2 − 1) 2. Na za´kladeˇ znalosti dvou neza´visly´ch na´hodny´ch vy´beˇru˚ o rozsazı´ch n1 a n2 ze dvou norma´lnı´ch rozlozˇenı´ s nezna´my´mi strˇednı´mi hodnotami ma´me sestrojit interval spolehlivosti pro podı´l rozptylu˚. Pouzˇijeme pivotovou statistiku, ktera´ se rˇ´ıdı´ a) standardizovany´m norma´lnı´m rozlozˇenı´m b) Fisherovy´m - Snedecorovy´m rozlozˇenı´m F(n1 − 1, n2 − 1) c) Studentovy´m rozlozˇenı´m t(n1 + n2 − 1) 3. Testujeme-li hypote´zu o shodeˇ strˇednı´ch hodnot dvou norma´lnı´ch rozlozˇenı´ se shodny´m, ale nezna´my´m rozptylem na za´kladeˇ znalosti dvou neza´visly´ch na´hodny´ch vy´beˇru˚, pouzˇijeme a) dvouvy´beˇrovy´ t-test b) dvouvy´beˇrovy´ z-test c) F-test 4. Testujeme-li hypote´zu o shodeˇ rozptylu˚ dvou norma´lnı´ch rozlozˇenı´ na za´kladeˇ znalosti dvou neza´visly´ch na´hodny´ch vy´beˇru˚, pouzˇijeme a) dvouvy´beˇrovy´ t-test b) dvouvy´beˇrovy´ z-test c) F-test Spra´vne´ odpoveˇdi: 1c)
2b)
3a)
4c)
Prˇ´ıklady 1. Bylo vylosova´no 11 stejneˇ stary´ch selat te´hozˇ plemene. Sˇesti z nich byla
prˇedepsa´na vy´krmna´ dieta cˇ. 1 a zbyly´m peˇti vy´krmna´ dieta cˇ. 2. Pru˚meˇrne´ dennı´ prˇ´ıru˚stky v Dg za dobu pu˚l roku jsou na´sledujı´cı´: dieta cˇ. 1: 62, 54, 55, 60, 53, 58 dieta cˇ. 2: 52, 56, 49, 50, 51.
84
Zjisˇteˇne´ hodnoty povazˇujeme za realizace dvou neza´visly´ch na´hodny´ch vy´beˇru˚ pocha´zejı´cı´ch z rozlozˇenı´ N(µ1 , σ12 ) a N(µ2 , σ22 ). Sestrojte 95% empiricky´ interval spolehlivosti pro podı´l rozptylu˚ a 95% empiricky´ interval spolehlivosti pro rozdı´l strˇednı´ch hodnot µ1 − µ2 . Vy´sledek: 0,1872 <
σ12 < 12,9541 s pravdeˇpodobnostı´ asponˇ 0,95. σ22
0,99 Dg < µ1 − µ2 < 9,81 Dg s pravdeˇpodobnostı´ asponˇ 0,95. 2. Pro u´daje z prˇ´ıkladu 1. testujte na hladineˇ vy´znamnosti 0,05 hypote´zu, zˇe
obeˇ vy´krmne´ diety majı´ stejny´ vliv na hmotnostnı´ prˇ´ıru˚stky selat. Vy´sledek: Testujeme hypote´zu H0 : µ1 − µ2 = 0 proti H1: µ1 − µ2 6= 0 1. zpu˚sob – pomocı´ intervalu spolehlivosti. 95% empiricky´ interval spolehlivosti pro µ1 − µ2 je interval (0,99; 9,81). Neobsahuje nulu, proto H0 zamı´ta´me na hladineˇ vy´znamnosti 0,05. 2. zpu˚sob – pomocı´ kriticke´ho oboru. Protozˇe testove´ krite´rium se realizuje hodnotou 2,771, ktera´ patrˇ´ı do kriticke´ho oboru (− ; −2,2622i ∪ h2,2622; ), H0 zamı´ta´me na hladineˇ vy´znamnosti 0,05.
8
8
3. Ma´me k dispozici realizace dvou neza´visly´ch na´hodny´ch vy´beˇru˚ z rozlozˇenı´
N(µ1 , σ 2 ) a N(µ2 , σ 2 ) o rozsazı´ch n1 = 10, n2 = 15. Vy´beˇrove´ pru˚meˇry se realizovaly hodnotami m1 = 120,56, m2 = 124,13, vy´beˇrove´ rozptyly hodnotami s21 = 9,14, s22 = 8,95. Lze na za´kladeˇ teˇchto vy´sledku˚ zamı´tnout na hladineˇ vy´znamnosti 0,1 nulovou hypote´zu H0: µ1 − µ2 = 0 ve prospeˇch oboustranne´ alternativy H1: µ1 − µ2 6= 0? Vy´sledek: Nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti 0,1.
4. Vy´robce limona´d chteˇl zjistit, zda zmeˇna technologie vy´roby se projevı´ v pro-
deji limona´d. Proto sledoval po 14 na´hodneˇ vybrany´ch dnu˚ prˇed zavedenı´m novy´ch limona´d trzˇby v urcˇite´m regionu a zjistil, zˇe za den utrzˇil v pru˚meˇru 39 600 Kcˇ se smeˇrodatnou odchylkou 5 060 Kcˇ. Po zavedenı´ novy´ch limona´d proveˇrˇil stejny´m zpu˚sobem trzˇby v 11 na´hodneˇ vybrany´ch dnech v te´mzˇ regionu a zjistil pru˚meˇrny´ prˇ´ıjem 41 200 Kcˇ se smeˇrodatnou odchylkou 4 310 Kcˇ. Prˇedpokla´dejte, zˇe trzˇby za stary´ typ limona´d se rˇ´ıdı´ rozlozˇenı´m N(µ1 , σ12 ) a trzˇby za novy´ typ limona´d se rˇ´ıdı´ rozlozˇenı´m N(µ2 , σ22 ). a) Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu H0 :
σ12 H1: 2 = 6 1. σ2
σ12 = 1 proti σ22
b) Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu H0: µ1 − µ2 = 0 proti H1: µ1 − µ2 6= 0.
85
´ lohy o dvou neza´visly´ch na´hodny´ch vy´beˇrech z norma´lnı´ch rozlozˇenı´ 5. U
Vy´sledek: ´ loha vede na F-test. Vypocˇteme realizaci testove´ho krite´ria: ad a) U s21 5 0602 = 1,3783, = s22 4 3102 da´le najdeme prˇ´ıslusˇne´ kvantily: Fα /2 (n1 − 1, n2 − 1) = F0,025 (13, 10) = 0,3077,
F1−α /2 (n1 − 1, n2 − 1) = F0,975 (13, 10) = 3,5832. s21 = 1,3783 se nerealizuje v kriticke´m s22 oboru W = (0; 0,3077i ∪ h3,5832; ), nelze na hladineˇ vy´znamnosti 0,05 zamı´tnout hypote´zu o shodeˇ rozptylu˚. ´ loha vede na dvouvy´beˇrovy´ t-test. Protozˇe jsme na hladineˇ vy´znamad b) U nosti 0,05 nezamı´tli hypote´zu o shodeˇ rozptylu˚, mu˚zˇeme rozptyly σ12 , σ22 povazˇovat za shodne´ a za jejich odhad vezmeme va´zˇeny´ pru˚meˇr vy´beˇrovy´ch rozptylu˚ Protozˇe testove´ krite´rium
8
s2∗ =
13 · 5 0602 + 10 · 4 3102 = 22 548 165,217. 23
Vypocˇteme realizaci testove´ho krite´ria: m1 − m2 − c 39 600 − 41 200 q q = −0,8363 =√ 1 1 s∗ n11 + n12 + 11 22 548 165,217 · 14 t1−α /2 (n1 + n2 − 2) = t0,975 (23) = 2,0687
Protozˇe testove´ krite´rium −0,8363 se nerealizuje v kriticke´m oboru W = ( ; −2,0687i ∪ h2,0687; ), na hladineˇ vy´znamnosti 0,05 nelze zamı´tnout hypote´zu o shodeˇ strˇednı´ch hodnot.
8
86
8
Motivace Oznacˇenı´ Testova´nı´ hypote´zy o shodeˇ strˇednı´ch hodnot Testy shody rozptylu˚ Metody mnohona´sobne´ho porovna´va´nı´ Prˇ´ıklad Vy´znam prˇedpokladu˚ v analy´ze rozptylu
6
Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´
6. Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´
Cı´l kapitoly Po prostudova´nı´ te´to kapitoly budete umeˇt – hodnotit vliv faktoru o r ≥ 3 u´rovnı´ch na variabilitu hodnot sledovane´ na´hodne´ velicˇiny – sestrojit tabulku analy´zy rozptylu – identifikovat dvojice na´hodny´ch vy´beˇru˚, ktere´ se vy´znamneˇ lisˇ´ı strˇednı´ hodnotou – prove´st test shody rozptylu˚ – zna´zornit rozlozˇenı´ dat v dany´ch r ≥ 3 na´hodny´ch vy´beˇrech graficky pomocı´ kategorizovany´ch krabicovy´ch diagramu˚
ˇ asova´ za´teˇzˇ C Na prostudova´nı´ te´to kapitoly a splneˇnı´ u´kolu˚ s nı´ spojeny´ch budete potrˇebovat asi 5 hodin studia.
6.1
Motivace
Zajı´ma´me se o proble´m, zda lze urcˇity´m faktorem (tj. nomina´lnı´ na´hodnou velicˇinou A) vysveˇtlit variabilitu pozorovany´ch hodnot na´hodne´ velicˇiny X, ktera´ je intervalove´ho cˇi pomeˇrove´ho typu. Naprˇ. zkouma´me, zda metoda vy´uky urcˇite´ho prˇedmeˇtu (faktor A) ovlivnˇuje pocˇet bodu˚ dosazˇeny´ch studenty v za´veˇrecˇne´m testu (na´hodna´ velicˇina X). Prˇedpokla´da´me, zˇe faktor A ma´ r ≥ 3 u´rovnı´ a i-te´ u´rovni odpovı´da´ ni vy´sledku˚ Xi1 , . . ., Xini , ktere´ tvorˇ´ı na´hodny´ vy´beˇr z rozlozˇenı´ N(µi , σ 2 ), i = 1, . . ., r a jednotlive´ na´hodne´ vy´beˇry jsou stochasticky neza´visle´, tedy Xi j = µi + εi j , kde εi j jsou stochasticky neza´visle´ na´hodne´ velicˇiny s rozlozˇenı´m N(0, σ 2 ), i = 1, . . . , r, j = 1, . . ., ni . Vy´sledky lze zapsat do tabulky faktor A u´rovenˇ 1 u´rovenˇ 2 .. .
vy´sledky X11 , . . ., X1n1 X21 , . . ., X2n2 .. .
u´rovenˇ r
Xr1 , . . ., Xrnr
Na hladineˇ vy´znamnosti α testujeme nulovou hypote´zu, ktera´ tvrdı´, zˇe vsˇechny strˇednı´ hodnoty jsou stejne´ proti alternativnı´ hypote´ze, ktera´ tvrdı´, zˇe asponˇ jedna dvojice strˇednı´ch hodnot se lisˇ´ı. Jedna´ se tedyozobecneˇnı´ dvouvy´beˇrove´ho r t-testu a na prvnı´ pohled se zda´, zˇe stacˇ´ı utvorˇit dvojic na´hodny´ch vy´beˇru˚ 2 a na kazˇdou dvojici aplikovat dvouvy´beˇrovy´ t-test. Tento postup vsˇak nelze pouzˇ´ıt, nebot’nezarucˇuje splneˇnı´ podmı´nky, zˇe pravdeˇpodobnost chyby 1. druhu je nejvy´sˇe α . Proto ve 30. letech 20. stoletı´ vytvorˇil R. A. Fisher metodu ANOVA (analy´za rozptylu, v popsane´ situaci konkre´tneˇ analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´), ktera´ uvedenou podmı´nku splnˇuje.
88
Pokud na hladineˇ vy´znamnosti α zamı´tneme nulovou hypote´zu, zajı´ma´ na´s, ktere´ dvojice strˇednı´ch hodnot se od sebe lisˇ´ı. K rˇesˇenı´ tohoto proble´mu slouzˇ´ı metody mnohona´sobne´ho porovna´va´nı´, naprˇ. Scheffe´ho nebo Tukeyova metoda.
6.2
Oznacˇenı´
V analy´ze rozptylu jednoduche´ho trˇ´ıdeˇnı´ se pouzˇ´ıva´ na´sledujı´cı´ oznacˇenı´. r
n = ∑ ni . . . . . . . . . celkovy´ rozsah vsˇech r vy´beˇru˚ i=1 ni
Xi. = ∑ Xi j . . . . . . soucˇet hodnot v i-te´m vy´beˇru j=1
Mi. =
1 Xi. . . . . . . . vy´beˇrovy´ pru˚meˇr v i-te´m vy´beˇru ni ni
r
X.. = ∑ ∑ Xi j . . . soucˇet hodnot vsˇech vy´beˇru˚ i=1 j=1
1 M.. = X.. . . . . . . . celkovy´ pru˚meˇr vsˇech r vy´beˇru˚ n
6.3
Testova´nı´ hypote´zy o shodeˇ strˇednı´ch hodnot
Na´hodne´ velicˇiny Xi j se rˇ´ıdı´ modelem M0 : Xi j = µ + αi + εi j
pro i = 1, . . . , r,
j = 1, . . . , ni ,
prˇicˇemzˇ εi j jsou stochasticky neza´visle´ na´hodne´ velicˇiny s rozlozˇenı´m N(0, σ 2 ), µ je spolecˇna´ cˇa´st strˇednı´ hodnoty za´visle promeˇnne´ velicˇiny, αi je efekt faktoru A na u´rovni i. Parametry µ , αi nezna´me. Pozˇadujeme, aby platila tzv. reparametrizacˇnı´ rovnice: r
∑ αi = 0.
i=1
Zavedeme soucˇty cˇtvercu˚ r
ni
ST = ∑ ∑ (Xi j − M.. )2 . . . celkovy´ soucˇet cˇtvercu˚ (charakterizuje variabilitu jedi=1 j=1
notlivy´ch pozorova´nı´ kolem celkove´ho pru˚meˇru), ma´ pocˇet stupnˇu˚ volnosti fT = n − 1, r
SA = ∑ (Mi. − M.. )2 . . . . . . skupinovy´ soucˇet cˇtvercu˚ (charakterizuje variabilitu i=1
mezi jednotlivy´mi na´hodny´mi vy´beˇry), ma´ pocˇet stupnˇu˚ volnosti fA = r − 1, r
ni
SE = ∑ ∑ (Xi j − Mi. )2 . . . rezidua´lnı´ soucˇet cˇtvercu˚ (charakterizuje variabilitu i=1 j=1
uvnitrˇ jednotlivy´ch vy´beˇru˚), ma´ pocˇet stupnˇu˚ volnosti fE = n − r.
89
6. Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´
Lze doka´zat, zˇe ST = SA +SE . Scˇ´ıtanec (Mi. −M.. ) prˇedstavuje bodovy´ odhad efektu αi . Kdyby neza´lezˇelo na faktoru A, platila by hypote´za α1 = · · · = αr = 0 a dostali bychom model M1 : Xi j = µ + εi j . SA / fA , SE / fE ktera´ se rˇ´ıdı´ rozlozˇenı´m F(r − 1, n − r), je-li model M1 spra´vny´. Hypote´zu o nevy´znamnosti faktoru A tedy zamı´tneme na hladineˇ vy´znamnosti α , kdyzˇ platı´: Rozdı´l mezi modely M0 a M1 oveˇrˇujeme pomocı´ testove´ statistiky FA =
FA ≥ F1−α (r − 1, n − r). Vy´sledky vy´pocˇtu˚ zapisujeme do tabulky analy´zy rozptylu jednoduche´ho trˇ´ıdeˇnı´. Zdroj variability
soucˇet cˇtvercu˚
stupneˇ volnosti
podı´l
skupiny
SA
fA = r − 1
SA / fA
rezidua´lnı´ celkovy´
SE ST
fE = n − r fT = n − 1
SE / fE —
6.4
FA SA / fA FA = SE / fE — —
Testy shody rozptylu˚
Prˇed provedenı´m analy´zy rozptylu je zapotrˇebı´ oveˇrˇit prˇedpoklad o shodeˇ rozptylu˚ v dany´ch r vy´beˇrech. 6.4.1
Levenu˚v test Polozˇme Zi j = Xi j − Mi. . Oznacˇ´ıme MZi =
r
SZE = ∑
ni
1 ni
ni
∑ Zi j ,
j=1
∑ (Zi j − MZi)2,
i=1 j=1
MZ =
1 r ni ∑ ∑ Zi j , n i=1 j=1 r
SZA = ∑ ni (MZi − MZ )2 . i=1
Platı´-li hypote´za o shodeˇ rozptylu˚, pak statistika FZA =
SZA /(r − 1) ∼ F(r − 1, n − r). SZE /(n − r)
H0 tedy zamı´ta´me na hladineˇ vy´znamnosti α , kdyzˇ FZA ≥ F1−α (r − 1, n − r). 6.4.2
Bartlettu˚v test
Platı´-li hypote´za o shodeˇ rozptylu˚, pak statistika 1 B= C
90
r
(n − r) ln S∗2 − ∑ (ni − 1) ln Si2 i=1
!
ma´ prˇiblizˇneˇ rozlozˇenı´ χ 2 (r − 1), kde r 1 1 1 C = 1+ − , ∑ 3(r − 1) i=1 ni − 1 n − r 1 ni Si2 = ∑ (Xi j − Mi. )2 je vy´beˇrovy´ rozptyl i-te´ho vy´beˇru, ni − 1 j=1 SE 1 r je va´zˇeny´ pru˚meˇr vy´beˇrovy´ch rozptylu˚. S∗2 = ∑ (ni − 1)Si2 = n − r i=1 n−r 2 (r − 1, n − r). H0 zamı´ta´me na prˇiblizˇne´ hladineˇ vy´znamnosti α , kdyzˇ B ≥ χ1− α Bartlettu˚v test lze pouzˇ´ıt, pokud rozsahy vsˇech vy´beˇru˚ jsou asponˇ 7.
6.5
Metody mnohona´sobne´ho porovna´va´nı´
Zamı´tneme-li na hladineˇ vy´znamnosti α hypote´zu o shodeˇ strˇednı´ch hodnot, chceme zjistit, ktere´ dvojice strˇednı´ch hodnot se lisˇ´ı na dane´ hladineˇ vy´znamnosti α . 6.5.1
Tukeyova metoda
Majı´-li vsˇechny vy´beˇry ty´zˇ rozsah p (rˇ´ıka´me, zˇe trˇ´ıdeˇnı´ je vyva´zˇene´), pouzˇijeme Tukeyovu metodu: rovnost strˇednı´ch hodnot µk a µl zamı´tneme na hladineˇ vy´znamnosti α , kdyzˇ S∗ |Mk. − Ml . | ≥ q1−α (r, n − r) √ , p kde hodnoty q1−α (r, n − r) jsou kvantily studentizovane´ho rozpeˇtı´ a najdeme je ve statisticky´ch tabulka´ch. 6.5.2
Scheffe´ho metoda
Nemajı´-li vsˇechny vy´beˇry stejny´ rozsah, pouzˇijeme Scheffe´ho metodu: rovnost strˇednı´ch hodnot µk a µl zamı´tneme na hladineˇ vy´znamnosti α , kdyzˇ s 1 1 F1−α (r − 1, n − r) + |Mk. − Ml . | ≥ S∗ (r − 1) nk nl Pozor, mu˚zˇe nastat situace, kdy prˇi zamı´tnutı´ H0 nenajdeme vy´znamny´ rozdı´l u zˇa´dne´ dvojice strˇednı´ch hodnot. Pak je vy´znamneˇ rozdı´lna´ neˇktera´ slozˇiteˇjsˇ´ı kombinace strˇednı´ch hodnot, tzv. kontrast.
6.6
Prˇ´ıklad
U cˇtyrˇ odru˚d brambor (oznacˇeny´ch symboly A, B, C, D) se zjisˇt’ovala celkova´ hmotnost brambor vyrostly´ch vzˇdy z jednoho trsu. Vy´sledky (v kg): odru˚da A B C D
hmotnost 0,9 0,8 1,3 1,0 1,3 1,5 1,1 1,2
0,6 1,3 1,6 1,0
0,9 1,1
1,5
91
6. Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe strˇednı´ hodnota hmotnosti trsu brambor neza´visı´ na odru˚deˇ. Zamı´tnete-li nulovou hypote´zu, zjisteˇte, ktere´ dvojice odru˚d se lisˇ´ı na hladineˇ vy´znamnosti 0,05. ˇ esˇenı´: R
Data povazˇujeme za realizace cˇtyrˇ neza´visly´ch na´hodny´ch vy´beˇru˚ ze cˇtyrˇ norma´lnı´ch rozlozˇenı´ se stejny´m rozptylem. Testujeme hypote´zu, zˇe vsˇechny cˇtyrˇi strˇednı´ hodnoty jsou stejne´. M1. = 0,8, M2. = 1,2, M3. = 1,4, M4. = 1,1, M.. = 1,14, SE = 0,3, SA = 0,816, ST = 1,116, FA = 9,97, F0,95 (3, 11) = 3,59. Protozˇe testova´ statistika se realizuje v kriticke´m oboru, H0 zamı´ta´me na hladineˇ vy´znamnosti 0,05. Vy´sledky zapı´sˇeme do tabulky ANOVA Zdroj variability Soucˇet cˇtvercu˚ Stupneˇ volnosti
podı´l
FA
skupiny
SA = 0,816
fA = 3
SA /3 = 0,272
SA / fA = 9,97 SE / fE
rezidua´lnı´ celkovy´
SE = 0,3 ST = 1,116
fE = 11 fT = 14
SE /11 = 0,02727 —
— —
Nynı´ pomocı´ Scheffe´ho metody zjistı´me, ktere´ dvojice odru˚d se lisˇ´ı na hladineˇ vy´znamnosti 0,05. Srovna´vane´ odru˚dy A, B A, C A, D B, C B, D C, D
Rozdı´ly |Mk. − Ml . | Prava´ strana vzorce 0,4 0,41 0,67 0,36 0,3 0,41 0,2 0,40 0,1 0,44 0,3 0,40
Na hladineˇ vy´znamnosti 0,05 se lisˇ´ı odru˚dy A a C. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor o dvou promeˇnny´ch a 15 prˇ´ıpadech. Prvnı´ promeˇnnou nazveme HMOTNOST, druhou ID. Do promeˇnne´ HMOTNOST zapı´sˇeme zjisˇteˇne´ hmotnosti, do promeˇnne´ ID, ktera´ slouzˇ´ı k rozlisˇenı´ odru˚d, zapı´sˇeme 4kra´t jednicˇku, 3kra´t dvojku, 5kra´t trojku a 3kra´t cˇtyrˇku. Pomocı´ NP-grafu a S-W testu oveˇrˇ´ıme normalitu dat v dany´ch cˇtyrˇech skupina´ch. Grafy – 2D Grafy – Norma´lnı´ pravdeˇpodobnostnı´ grafy – zasˇkrtneme S-W test, Promeˇnne´ HMOTNOST, OK, Kategorizovany´ – Kategorie X, zasˇkrtneme Zapnuto, Zmeˇnit promeˇnnou – ID, OK. Dostaneme graf
92
Vidı´me, zˇe ve vsˇech cˇtyrˇech prˇ´ıpadech jsou odchylky tecˇek od prˇ´ımky jenom male´ a data tedy lze povazˇovat za realizace na´hodny´ch vy´beˇru˚ z norma´lnı´ch rozlozˇenı´. Nynı´ budeme na hladineˇ vy´znamnosti 0,05 testovat hypote´zu o shodeˇ rozptylu˚: Statistika – Za´kladnı´ statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK, Promeˇnne´ – Za´visle´ promeˇnne´ HMOTNOST, Grupovacı´ promeˇnna´ ID – OK.
Na za´lozˇce ANOVA & testy vybereme Leveneovy testy. Ve vy´stupu dostaneme tabulku
93
6. Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´
Testova´ statistika Levenova testu se realizuje hodnotou 1,047619, pocˇet stupnˇu˚ volnosti cˇitatele je 3, jmenovatele 11, odpovı´dajı´cı´ p-hodnota je 0,410027, tedy na hladineˇ vy´znamnosti 0,05 nezamı´ta´me hypote´zu o shodeˇ rozptylu˚. Da´le budeme na hladineˇ vy´znamnosti 0,05 testovat hypote´zu o shodeˇ strˇednı´ch hodnot. Na za´lozˇce ANOVA & testy vybereme Analy´za rozptylu. Ve vy´stupu dostaneme tabulku
Testova´ statistika FA se realizuje hodnotou 9,97333, pocˇet stupnˇu˚ volnosti cˇitatele je 3, jmenovatele 11, odpovı´dajı´cı´ p-hodnota je 0,001805, tedy na hladineˇ vy´znamnosti 0,05 zamı´ta´me hypote´zu o shodeˇ strˇednı´ch hodnot. Vytvorˇ´ıme jesˇteˇ tabulku s hodnotami vy´beˇrovy´ch pru˚meˇru˚ a vy´beˇrovy´ch smeˇrodatny´ch odchylek tak, zˇe na za´lozˇce Popisne´ statistiky zvolı´me Vy´pocˇet: Tabulka statistik.
Rovneˇzˇ sestrojı´me krabicove´ diagramy tak, zˇe na za´lozˇce Popisne´ statistiky zvolı´me Kategoriz. krabicovy´ graf. Vybereme typ Pru˚meˇr/SmOdch/1.96SmOdch.
Vidı´me, zˇe nejnizˇsˇ´ı pru˚meˇrnou hmotnost ma´ odru˚da A, nejnizˇsˇ´ı variabilitu hmotnosti vykazuje odru˚da D.
94
Abychom zjistili, ktere´ dvojice odru˚d se lisˇ´ı na hladineˇ vy´znamnosti 0,05, na za´lozˇce Posthoc vybereme Scheffe´u˚v test.
V tabulce jsou uvedeny p-hodnoty pro testova´nı´ hypote´z o shodeˇ dvojic strˇednı´ch hodnot. Pouze jedina´ z teˇchto p-hodnot je mensˇ´ı nebo rovna 0,05, tedy na hladineˇ vy´znamnosti 0,05 se lisˇ´ı odru˚dy A a C.
6.7
Vy´znam prˇedpokladu˚ v analy´ze rozptylu
a) Neza´vislost jednotlivy´ch na´hodny´ch vy´beˇru˚ – velmi du˚lezˇity´ prˇedpoklad, musı´ by´t splneˇn, jinak dostaneme nesmyslne´ vy´sledky. b) Normalita – ANOVA nenı´ prˇ´ılisˇ citliva´ na porusˇenı´ normality, zvla´sˇt’pokud majı´ vsˇechny vy´beˇry rozsah nad 20 (du˚sledek centra´lnı´ limitnı´ veˇty). Prˇi vy´razneˇjsˇ´ım porusˇenı´ normality se doporucˇuje Kruskalu˚v-Wallisu˚v test. c) Shoda rozptylu˚ – mı´rne´ porusˇenı´ nevadı´, prˇi veˇtsˇ´ım se doporucˇuje Kruskalu˚v-Wallisu˚v test. Test shody rozptylu˚ ma´ smysl prova´deˇt azˇ po oveˇrˇenı´ prˇedpokladu normality.
Shrnutı´ kapitoly Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´ slouzˇ´ı k hodnocenı´ vlivu faktoru o r ≥ 3 u´rovnı´ch na variabilitu hodnot sledovane´ na´hodne´ velicˇiny s norma´lnı´m rozlozˇenı´m. Test hypote´zy o shodeˇ strˇednı´ch hodnot odvodil R. A. Fisher. Vy´pocˇty spojene´ s testova´nı´m te´to hypote´zy se zapisujı´ do tabulky ANOVA. Dojde-li na dane´ hladineˇ vy´znamnosti α k zamı´tnutı´ nulove´ hypote´zy, pouzˇijeme neˇkterou z metod mnohona´sobne´ho porovna´va´nı´ (naprˇ. Scheffe´ho nebo Tukeyovu metodu), abychom identifikovali dvojice na´hodny´ch vy´beˇru˚, ktere´ prˇispeˇly k zamı´tnutı´ nulove´ hypote´zy. ANOVA prˇedpokla´da´ shodu rozptylu˚. Hypote´zu o shodeˇ rozptylu˚ mu˚zˇeme testovat pomocı´ Bartlettova testu nebo Levenova testu. Vlastnosti rozlozˇenı´ dat v dany´ch r ≥ 3 na´hodny´ch vy´beˇrech graficky zna´zornˇujeme pomocı´ kategorizovany´ch krabicovy´ch diagramu˚ typu pru˚meˇr–smeˇrodatna´ odchylka–1,96 smeˇrodatna´ odchylka.
Kontrolnı´ ota´zky 1. Jaky´ proble´m rˇesˇ´ı analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´? 2. Jak je definova´n celkovy´, skupinovy´ a rezidua´lnı´ soucˇet cˇtvercu˚ a co tyto
soucˇty cˇtvercu˚ charakterizujı´? 3. Popisˇte zpu˚sob testova´nı´ hypote´zy o shodeˇ strˇednı´ch hodnot. 4. Jak se testuje hypote´za o shodeˇ rozptylu˚?
95
6. Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´
5. Ktere´ metody mnohona´sobne´ho porovna´nı´ se pouzˇ´ıvajı´ v analy´ze rozptylu
jednoduche´ho trˇ´ıdeˇnı´? 6. Pojednejte o vy´znamu prˇedpokladu˚ v analy´ze rozptylu jednoduche´ho trˇ´ıdeˇnı´.
Autokorekcˇnı´ test 1. Z na´sledujı´cı´ch trˇ´ı mozˇnostı´ vyberte tu spra´vnou:
2.
3.
4.
Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´ slouzˇ´ı k vyhodnocenı´ dat, ktere´ vznikly: a) prˇi pa´rove´m usporˇa´da´nı´ pokusu b) prˇi blokove´m usporˇa´da´nı´ pokusu c) prˇi mnohovy´beˇrove´m usporˇa´da´nı´ pokusu. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´? Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´ vyzˇaduje, aby a) jednotlive´ na´hodne´ vy´beˇry byly stochasticky neza´visle´ b) jednotlive´ na´hodne´ vy´beˇry pocha´zely z binomicke´ho rozlozˇenı´ c) jednotlive´ na´hodne´ vy´beˇry meˇly stejny´ rozptyl. Ktera´ z na´sledujı´cı´ch tvrzenı´ jsou pravdiva´? a) Celkovy´ soucˇet cˇtvercu˚ charakterizuje variabilitu jednotlivy´ch pozorova´nı´ kolem celkove´ho pru˚meˇru. b) Skupinovy´ soucˇet cˇtvercu˚ charakterizuje variabilitu jednotlivy´ch pozorova´nı´ kolem skupinovy´ch pru˚meˇru˚. c) Rezidua´lnı´ soucˇet cˇtvercu˚ charakterizuje variabilitu skupinovy´ch pru˚meˇru˚ kolem celkove´ho pru˚meˇru. Nulovou hypote´zu o shodeˇ strˇednı´ch hodnot zamı´ta´me na hladineˇ vy´znamnosti α , kdyzˇ testove´ krite´rium F se realizuje v kriticke´m oboru a) W = 0, Fα (r − 1, n − r) b) W = 0, F1−α (r − 1, n − r) c) W = F1−α (r − 1, n − r), Pokud zamı´tneme hypote´zu o shodeˇ strˇednı´ch hodnot a vsˇechny vy´beˇry majı´ stejny´ rozsah, pak pro zjisˇteˇnı´, ktere´ dvojice strˇednı´ch hodnot se lisˇ´ı na zvolene´ hladineˇ vy´znamnosti, pouzˇijeme a) Tukeyovu metodu mnohona´sobne´ho porovna´va´nı´ b) Bartlettu˚v test c) Levenu˚v test
8
5.
Spra´vne´ odpoveˇdi: 1c)
2a), c) 3a)
4c)
5a)
Prˇ´ıklady 1. Jsou zna´my meˇsı´cˇnı´ trzˇby (v tisı´cı´ch Kcˇ) trˇ´ı prodavacˇu˚ za dobu pu˚l roku.
1. prodavacˇ: 2. prodavacˇ: 3. prodavacˇ:
96
12 10 19
10 12 18
9 11 16
10 12 16
11 14 17
9 13 15
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe strˇednı´ hodnoty trzˇeb vsˇech trˇ´ı prodavacˇu˚ jsou stejne´. Pokud zamı´tneme nulovou hypote´zu, zjisteˇte, trzˇby ktery´ch dvou prodavacˇu˚ se lisˇ´ı na hladineˇ vy´znamnosti 0,05. Vy´sledek: M1. = 10,17, M2. = 12, M3. = 16,83, M.. = 13, SE = 27,7, SA = 142,3, ST = 170, FA = 38,58, F0,975 (2, 15) = 3,6823, H0 tedy zamı´ta´me na hladineˇ vy´znamnosti 0,05. Vy´sledky zapı´sˇeme do tabulky ANOVA Zdroj variability Soucˇet cˇtvercu˚ Stupneˇ volnosti
podı´l
FA
skupiny
SA = 142,3
fA = 2
SA / fA = 71,17
SA / fA = 38,58 SE / fE
rezidua´lnı´ celkovy´
SE = 27,7 ST = 170
fE = 15 fT = 17
SE / fE = 1,84 —
— —
Nynı´ pomocı´ Tukeyovy metody zjistı´me, ktere´ dvojice prodavacˇu˚ se lisˇ´ı na hladineˇ vy´znamnosti 0,05. Srovna´vanı´ prodavacˇi Rozdı´ly |Mk. − Ml . | Prava´ strana vzorce 1, 2 1,83 2,03 ∗ 1, 3 6,67 2,03 ∗ 2, 3 4,83 2,03 Prava´ strana: √ √ S∗ 1,84 1,84 q1−α (r, n − r) √ = q0,95 (3, 15) √ = 4,83 √ = 2,03, p 6 6 SE = 1,84. n−r Na hladineˇ vy´znamnosti 0,05 se lisˇ´ı trzˇby prodavacˇu˚ 1, 3 a 2, 3. 2. Je da´no peˇt neza´visly´ch na´hodny´ch vy´beˇru˚ o rozsazı´ch 5, 7, 6, 8, 5, prˇicˇemzˇ i-ty´ vy´beˇr pocha´zı´ z rozlozˇenı´ N(µi , σ 2 ), i = 1, . . ., 5. Byl vypocˇten celkovy´ soucˇet cˇtvercu˚ ST = 15 a rezidua´lnı´ soucˇet cˇtvercu˚ SE = 3. Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu o shodeˇ strˇednı´ch hodnot. kde S∗2 =
Vy´sledek: n = 5 + 7 + 6 + 8 + 5 = 31, r = 5, SA = ST − SE = 15 − 3 = 12 SA /(r − 1) 12/4 F= = = 26, F0,95 (4, 26) = 2,9752 SE /(n − r) 3/26 Protozˇe F ≥ F0,95 (4, 26), H0 zamı´ta´me na hladineˇ vy´znamnosti 0,05.
3. Je da´na neu´plna´ tabulka ANOVA. Mı´sto otaznı´ku˚ doplnˇte chybeˇjı´cı´ cˇ´ısla. zdroj variability soucˇet cˇtvercu˚ stupneˇ volnosti podı´l F skupiny ? 2 ? ? rezidua´lnı´ 16,033 ? ? — celkovy´ 17,301 35 — —
97
6. Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´
Vy´sledek: zdroj variability skupiny rezidua´lnı´ celkovy´
soucˇet cˇtvercu˚ 1,268 16,033 17,301
stupneˇ volnosti 2 33 35
podı´l 0,634 0,486 —
F 1,304 — —
3. Studenti byli vyucˇova´ni prˇedmeˇtu za vyuzˇitı´ peˇti pedagogicky´ch metod:
tradicˇnı´ zpu˚sob, programova´ vy´uka, audiotechnika, audiovizua´lnı´ technika a vizua´lnı´ technika. Z kazˇde´ skupiny byl vybra´n na´hodny´ vzorek studentu˚ a vsˇichni byli podrobeni te´muzˇ pı´semne´mu testu. Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe znalosti vsˇech studentu˚ jsou stejne´ a neza´visı´ na pouzˇite´ pedagogicke´ metodeˇ. V prˇ´ıpadeˇ zamı´tnutı´ nulove´ hypote´zy zjisteˇte, ktere´ vy´beˇry se lisˇ´ı na hladineˇ vy´znamnosti 0,05. metoda pocˇet bodu˚ tradicˇnı´ 76,2 48,3 85,1 63,7 91,6 87,2 programova´ 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4 audio 67,3 60,1 55,4 72,3 40,0 audiovizua´lnı´ 75,8 81,6 90,3 78,0 67,8 57,6 vizua´lnı´ 50,5 70,2 88,8 67,1 77,7 73,9 Vy´sledek: Vsˇech peˇt na´hodny´ch vy´beˇru˚ ma´ rozlozˇenı´ blı´zke´ norma´lnı´mu rozlozˇenı´. Levenu˚v test shody rozptylu˚ ma´ testove´ krite´rium 0,819, pocˇet stupnˇu˚ volnosti je 4 a 26, odpovı´dajı´cı´ p-hodnota je 0,5248, tedy na hladineˇ vy´znamnosti 0,05 hypote´zu o shodeˇ rozptylu˚ nezamı´ta´me. Analy´za rozptylu ma´ testove´ krite´rium 1,6236, pocˇet stupnˇu˚ volnosti je 4 a 26, odpovı´dajı´cı´ p-hodnota je 0,1983, tedy na hladineˇ vy´znamnosti 0,05 hypote´zu o shodeˇ strˇednı´ch hodnot nezamı´ta´me. Znamena´ to, zˇe na hladineˇ vy´znamnosti 0,05 se neproka´zaly odlisˇnosti ve znalostech studentu˚. 4. Pan Nova´k mu˚zˇe cestovat z mı´sta bydlisˇteˇ do mı´sta pracovisˇteˇ trˇemi ru˚zny´mi zpu˚soby: tramvajı´ (zpu˚sob A), autobusem (zpu˚sob B) a metrem s na´sledny´m prˇestupem na tramvaj (zpu˚sob C). Ma´me k dispozici jeho nameˇrˇene´ cˇasy cestova´nı´ do pra´ce v dobeˇ rannı´ sˇpicˇky (vcˇetneˇ cˇeka´nı´ na prˇ´ıslusˇny´ spoj) v minuta´ch. Zpu˚sob A: 32, 39, 42, 37, 34, 38 Zpu˚sob B: 30, 34, 28, 26, 32 Zpu˚sob C: 40, 37, 31, 39, 38, 33, 34 Pro vsˇechny trˇi zpu˚soby dopravy vypocˇteˇte pru˚meˇrne´ cˇasy cestova´nı´. Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe doba cestova´nı´ do pra´ce neza´visı´ na zpu˚sobu dopravy. V prˇ´ıpadeˇ zamı´tnutı´ nulove´ hypote´zy zjisteˇte, ktere´ zpu˚soby dopravy do pra´ce se od sebe lisˇ´ı na hladineˇ vy´znamnosti 0,05. Vy´sledek: Pru˚meˇrne´ cˇasy cestova´nı´ pro trˇi zpu˚soby dopravy jsou 37 min, 30 min, 36 min. Vsˇechny trˇi na´hodne´ vy´beˇry majı´ rozlozˇenı´ blı´zke´ norma´lnı´mu rozlozˇenı´. Levenu˚v test shody rozptylu˚ ma´ testove´ krite´rium 0,1054, pocˇet stupnˇu˚ volnosti je 2 a 15, odpovı´dajı´cı´ p-hodnota je 0,9007, tedy na hladineˇ vy´znamnosti
98
0,05 hypote´zu o shodeˇ rozptylu˚ nezamı´ta´me. Analy´za rozptylu ma´ testove´ krite´rium 6,7151, pocˇet stupnˇu˚ volnosti je 2 a 15, odpovı´dajı´cı´ p-hodnota je 0,0083, tedy na hladineˇ vy´znamnosti 0,05 hypote´zu o shodeˇ strˇednı´ch hodnot zamı´ta´me. Scheffe´ho metoda mnohona´sobne´ho porovna´va´nı´ proka´zala na hladineˇ vy´znamnosti 0,05 rozdı´l mezi zpu˚soby A a B a mezi zpu˚soby B a C.
99
6. Analy´za rozptylu jednoduche´ho trˇ´ıdeˇnı´
100
Motivace Jednovy´beˇrove´ porˇadove´ testy Dvouvy´beˇrove´ porˇadove´ testy Kruskalu˚v-Wallisu˚v test a media´novy´ test
7
Porˇadove´ testy o media´nech
7. Porˇadove´ testy o media´nech
Cı´l kapitoly Po prostudova´nı´ te´to kapitoly budete umeˇt – prova´deˇt testy hypote´z o media´nu jednoho spojite´ho rozlozˇenı´ – hodnotit shodu dvou neza´visly´ch na´hodny´ch vy´beˇru˚ ze spojity´ch rozlozˇenı´ lisˇ´ıcı´ch se posunem – hodnotit shodu asponˇ trˇ´ı neza´visly´ch na´hodny´ch vy´beˇru˚ ze spojity´ch rozlozˇenı´ lisˇ´ıcı´ch se posunem a identifikovat dvojice vy´znamneˇ odlisˇny´ch na´hodny´ch vy´beˇru˚
ˇ asova´ za´teˇzˇ C Na prostudova´nı´ te´to kapitoly a splneˇnı´ u´kolu˚ s nı´ spojeny´ch budete potrˇebovat asi 5 hodin studia.
7.1
Motivace
Prˇi pouzˇ´ıva´nı´ t-testu˚ cˇi analy´zy rozptylu by meˇl by´t splneˇn prˇedpoklad normality dat. Pro vy´beˇry veˇtsˇ´ıch rozsahu˚ (n ≥ 30) nema´ mı´rne´ porusˇenı´ normality za´vazˇny´ dopad na vy´sledky. Neˇkdy se vsˇak setka´va´me s vy´beˇry maly´ch rozsahu˚, ktere´ pocha´zejı´ z vy´razneˇ nenorma´lnı´ch rozlozˇenı´. Pro pra´ci s nimi byly vytvorˇeny tzv. neparametricke´ testy, ktere´ nevyzˇadujı´ konkre´tnı´ typ rozlozˇenı´ (naprˇ. norma´lnı´), stacˇ´ı naprˇ. prˇedpokla´dat, zˇe distribucˇnı´ funkce rozlozˇenı´, z neˇhozˇ na´hodny´ vy´beˇr pocha´zı´, je spojita´. Tyto neparametricke´ testy se rovneˇzˇ pouzˇ´ıvajı´ v situacı´ch, kdy zkoumana´ data nemajı´ intervalovy´ cˇi pomeˇrovy´ charakter, ale pouze ordina´lnı´ charakter. Ve srovna´nı´ s klasicky´mi parametricky´mi testy jsou vsˇak neparametricke´ testy slabsˇ´ı, tzn., zˇe nepravdivou hypote´zu zamı´tajı´ s mensˇ´ı pravdeˇpodobnostı´ nezˇ testy parametricke´. V te´to kapitole se omezı´me na ty neparametricke´ testy, ktere´ jsou zalozˇeny na porˇadı´ a ty´kajı´ se media´nu˚. Nazy´vajı´ se porˇadove´ testy.
7.2
Jednovy´beˇrove´ porˇadove´ testy
Jde o neparametricke´ obdoby jednovy´beˇrove´ho t-testu a pa´rove´ho t-testu. 7.2.1
Jednovy´beˇrovy´ Wilcoxonu˚v test
Necht’ X1 , . . ., Xn je na´hodny´ vy´beˇr ze spojite´ho rozlozˇenı´ s hustotou ϕ (x), ktera´ je symetricka´ kolem media´nu x0,50 , tj. ϕ (x0,50 + x) = ϕ (x0,50 − x). Necht’ c je rea´lna´ konstanta. Testujeme hypote´zu H0 : x0,50 = c proti oboustranne´ alternativeˇ H1: x0,50 6= c (resp. proti levostranne´ alternativeˇ H1 : x0,50 < c, resp. proti pravostranne´ alternativeˇ H1 : x0,50 > c). Utvorˇ´ıme rozdı´ly Yi = Xi − c, i = 1, . . ., n. (Jsou-li neˇktere´ rozdı´ly nulove´, pak za n bereme jen pocˇet nenulovy´ch hodnot.)
102
Absolutnı´ hodnoty |Yi | usporˇa´da´me vzestupneˇ podle velikosti a spocˇteme porˇadı´ Ri .
+ Zavedeme statistiku SW = ∑ R+ ˇ je soucˇet porˇadı´ prˇes kladne´ hodnoty Yi . i , coz Yi >0
− Analogicky zavedeme statistiku SW = ∑ R− ˇ je soucˇet porˇadı´ prˇes za´porne´ i , coz Yi <0
+ − hodnoty Yi . Prˇitom platı´, zˇe soucˇet SW + SW = n(n + 1)/2. Za platnosti H0 statistika + + + SW ma´ strˇednı´ hodnotu E(SW ) = n(n + 1)/4 a rozptyl D(SW ) = n(n + 1)(2n + 1)/24.
H0 zamı´ta´me na hladineˇ vy´znamnosti α , kdyzˇ testova´ statistika je mensˇ´ı nebo rovna + − tabelovane´ kriticke´ hodnoteˇ. Testova´ statistika = min(SW , SW ) pro oboustrannou + − alternativu, = SW pro levostrannou alternativu, = SW pro pravostrannou alternativu. + Pro n ≥ 30 lze vyuzˇ´ıt asymptoticke´ normality statistiky SW . Platı´-li H0 , pak
+ + + SW − E SW SW − n(n+1) 4 q U0 = q ≈ N(0, 1). = + n(n+1)(2n+1) D SW 24
Kriticky´ obor pro oboustrannou alternativu ma´ tvar:
8
8
W = (− , −u1−α /2 i ∪ hu1−α /2 , ). (Analogicky pro jednostranne´ alternativy.) H0 zamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti α , kdyzˇ U0 ∈ W . Wilcoxonu˚v test se hodı´ jen pro vy´beˇr ze symetricke´ho rozlozˇenı´. Nenı´-li tento prˇedpoklad splneˇn, lze pouzˇ´ıt naprˇ. zname´nkovy´ test (viz [HENDL], str. 193). Prˇ´ıklad
7.2.2
U 12 na´hodneˇ zemı´ bylo zjisˇteˇno procento populace starsˇ´ı 60 let: 4,9
6,0
6,9
17,6
4,5
12,3
5,7
5,3
9,6
13,5
15,7
7,7.
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe media´n procenta populace starsˇ´ı 60 let je 12 proti oboustranne´ alternativeˇ. ˇ esˇenı´: R
Vypocˇteme rozdı´ly pozorovany´ch hodnot od cˇ´ısla 12: −7,1
− 6,0
− 5,1 5,6
− 7,5 0,3
− 6,3
− 6,7
− 2,4 1,5 3,7
− 4,3.
Absolutnı´ hodnoty teˇchto rozdı´lu˚ usporˇa´da´me vzestupneˇ podle velikosti. Kladne´ rozdı´ly prˇitom oznacˇ´ıme tucˇneˇ: usp. |xi − 12| porˇadı´
0,3 1
1,5 2
2,4 3
3,7 4
4,3 5
5,1 6
5,6 7
6 8
6,3 9
6,7 10
7,1 11
7,5 12
+ − SW = 14, SW = 64, n = 12, α = 0,05, tabelovana´ kriticka´ hodnota = 13, testova´ + − statistika = min(SW , SW ) = min(14, 64) = 14. Protozˇe 14 > 13, H0 nezamı´ta´me na hladineˇ vy´znamnosti 0,05.
103
7. Porˇadove´ testy o media´nech
ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor se dveˇma promeˇnnou a dvana´cti prˇ´ıpady. Prvnı´ promeˇnnou nazveme PROCENTA, druhou KONSTANTA. Do promeˇnne´ PROCENTA napı´sˇeme zjisˇteˇna´ procenta populace starsˇ´ı 60 let a promeˇnnou KONSTANTA vyplnı´me cˇ´ısly 12 (do Dlouhe´ho jme´na promeˇnne´ KONSTANTA napı´sˇeme =12). Statistika – Neparametricka´ statistika – Porovna´nı´ dvou za´visly´ch vzorku˚ (promeˇnne´) – OK.
Promeˇnne´ – 1. seznam promeˇnny´ch – PROCENTA, 2. seznam promeˇnny´ch – KONSTANTA, OK, Wilcoxonu˚v pa´rovy´ test. Dostaneme tabulku
+ − V te´to tabulce je symbolem T oznacˇena testova´ statistika min(SW , SW ), symbolem Z realizace asymptoticke´ testove´ statistiky U0. Uvedena´ p-hodnota je vypocˇ´ıta´na pro realizaci asymptoticke´ testove´ statistiky U0 . Protozˇe p ≤ 0,05, hypote´zu H0: x0,50 = 12 zamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti 0,05. Pokud bychom chteˇli prove´st prˇesny´ test a nikoliv pouze asymptoticky´, vyhledali bychom ve statisticky´ch tabulka´ch kritickou hodnotu jednovy´beˇrove´ho Wilcoxonova testu pro n = 12, α = 0,05 (viz vy´sˇe). Protozˇe tato hodnota je 13, nulovou hypote´zu nezamı´ta´me na hladineˇ vy´znamnosti 0,05.
104
7.2.3
Pa´rovy´ Wilcoxonu˚v test
Necht’ (X1,Y1 ), . . ., (Xn,Yn) je na´hodny´ vy´beˇr ze spojite´ho dvourozmeˇrne´ho rozlozˇenı´. Testujeme H0: x0,50 − y0,50 = c proti H1 : x0,50 − y0,50 6= c (resp. proti jednostranny´m alternativa´m). Utvorˇ´ıme rozdı´ly Zi = Xi − Yi , i = 1, . . . , n a testujeme hypote´zu o media´nu z0,50 , tj. H0 : z0,50 = c proti H1 : z0,50 6= c. 7.2.4
Prˇ´ıklad
K zjisˇteˇnı´ cenovy´ch rozdı´lu˚ mezi urcˇity´mi dveˇma druhy zbozˇ´ı bylo na´hodneˇ vybra´no 15 prodejen a byly zjisˇteˇny ceny zbozˇ´ı A a ceny zbozˇ´ı B: (11, 10), (14, 11), (11, 9), (13, 9), (11, 9), (10, 9), (12, 10), (10, 8), (12, 11), (11, 9), (13, 10), (14, 10), (14, 12), (19, 15), (14, 12). Na hladineˇ vy´znamnosti 0,05 je trˇeba testovat hypote´zu, zˇe media´n cenovy´ch rozdı´lu˚ cˇinı´ 3 Kcˇ. ˇ esˇenı´: R
Jedna´ se o pa´rovy´ test. Vypocˇteme rozdı´ly mezi cenou zbozˇ´ı A a cenou zbozˇ´ı B, cˇ´ımzˇ u´lohu prˇevedeme na jednovy´beˇrovy´ test. Vy´pocˇty usporˇa´da´me do tabulky: cˇ. prodejny 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
cena zbozˇ´ı A 11 14 11 13 11 10 12 10 12 11 13 14 14 19 14
cena zbozˇ´ı B rozdı´l 10 1 11 3 9 2 9 4 9 2 9 1 10 2 8 2 11 1 9 2 10 3 10 4 12 2 15 4 12 2
|rozdı´l − media´n| porˇadı´ 2 12 0 — 1 5,5 1 5,5 1 5,5 2 12 1 5,5 1 5,5 2 12 1 5,5 0 — 1 5,5 1 5,5 1 5,5 1 5,5
Tucˇneˇ jsou vytisˇteˇna porˇadı´ pro kladne´ hodnoty rozdı´l − media´n.
+ − SW = 16,5, SW = 74,5, n = 13, α = 0,05, tabelovana´ kriticka´ hodnota = 17, testova´ + − statistika = min(SW , SW ) = min(16,5; 74,5) = 16,5. Protozˇe 16,5 ≤ 17, H0 zamı´ta´me na hladineˇ vy´znamnosti 0,05.
ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor se cˇtyrˇmi promeˇnny´mi a 15 prˇ´ıpady. Prvnı´ promeˇnnou nazveme CENA A, druhou CENA B, trˇetı´ ROZDI´L a cˇtvrtou KONSTANTA. Do promeˇnny´ch CEANA A a CENA B zapı´sˇeme ceny zbozˇ´ı A a B, do Dlouhe´ho jme´na promeˇnne´ ROZDI´L napı´sˇeme = v1-v2 a promeˇnnou KONSTANTA vyplnı´me samy´mi trojkami. Nynı´ provedeme pa´rovy´ Wilcoxonu˚v test:
105
7. Porˇadove´ testy o media´nech
Statistika – Neparametricka´ statistika – Porovna´nı´ dvou za´visly´ch vzorku˚ (promeˇnne´) – OK. Promeˇnne´ – 1. seznam promeˇnny´ch – ROZDI´L, 2. seznam promeˇnny´ch – KONSTANTA, OK, Wilcoxonu˚v pa´rovy´ test. Dostaneme tabulku
Podobneˇ jako v prˇ´ıkladu 7.2.2 je symbolem T oznacˇena testova´ statistika + − min(SW , SW ), symbolem Z realizace asymptoticke´ testove´ statistiky U0 . Uvedena´ p-hodnota je vypocˇ´ıta´na pro realizaci asymptoticke´ testove´ statistiky U0 . Protozˇe p ≤ 0,05, hypote´zu H0: z0,50 = 3 zamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti 0,05. Pokud bychom chteˇli prove´st prˇesny´ test a nikoliv pouze asymptoticky´, vyhledali bychom ve statisticky´ch tabulka´ch kritickou hodnotu jednovy´beˇrove´ho Wilcoxonova testu pro n = 13, α = 0,05 (viz vy´sˇe). Protozˇe tato hodnota je 17 a testova´ statistika 16,5, nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti 0,05.
7.3
Dvouvy´beˇrove´ porˇadove´ testy
Jedna´ se o neparametrickou obdobu dvouvy´beˇrove´ho t-testu. 7.3.1
Dvouvy´beˇrovy´ Wilcoxonu˚v test
Necht’X1 , . . ., Xn a Y1 , . . .,Ym jsou dva neza´visle´ na´hodne´ vy´beˇry ze dvou spojity´ch rozlozˇenı´, jejichzˇ distribucˇnı´ funkce se mohou lisˇit pouze posunutı´m. Oznacˇme x0,50 media´n prvnı´ho rozlozˇenı´ a y0,50 media´n druhe´ho rozlozˇenı´. Testujeme hypote´zu, zˇe distribucˇnı´ funkce teˇchto rozlozˇenı´ jsou shodne´ neboli media´ny jsou shodne´ proti alternativeˇ, zˇe jsou rozdı´lne´. Vsˇech n + m hodnot X1 , . . ., Xn a Y1 , . . .,Ym usporˇa´da´me vzestupneˇ podle velikosti. Zjistı´me soucˇet porˇadı´ hodnot X1 , . . ., Xn a oznacˇ´ıme ho T1 . Soucˇet porˇadı´ hodnot Y1 , . . .,Ym oznacˇ´ıme T2 . Vypocˇteme statistiky U1 = mn + n(n + 1)/2 − T1 ,
U2 = mn + m(m + 1)/2 − T2 .
Prˇitom platı´ U1 +U2 = mn. Pokud min(U1,U2) ≤ tabelovana´ kriticka´ hodnota (pro dane´ rozsahy vy´beˇru˚ m, n a dane´ α ), pak nulovou hypote´zu o totozˇnosti obou distribucˇnı´ch funkcı´ zamı´ta´me na hladineˇ vy´znamnosti α . Pro velka´ n, m (prakticky n, m > 30) lze vyuzˇ´ıt asymptoticke´ normality statistiky U1 . V prˇ´ıpadeˇ platnosti H0 ma´ statistika U1 − mn 2 U0 = q
mn(m+n+1) 12
asymptoticky rozlozˇenı´ N(0, 1). Kriticky´ obor pro oboustrannou alternativu ma´ tvar: W = (− , −u1−α /2 i ∪ hu1−α /2 , ). (Analogicky pro jednostranne´ alternativy.) H0 zamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti α , kdyzˇ U0 ∈ W .
8
106
8
Dvouvy´beˇrovy´ Wilcoxonu˚v test se pouzˇ´ıva´ v situacı´ch, kdy distribucˇnı´ funkce rozlozˇenı´, z nichzˇ dane´ dva neza´visle´ na´hodne´ vy´beˇry pocha´zejı´, se mohou lisˇit pouze posunutı´m. 7.3.2
Prˇ´ıklad
Bylo vybra´no 10 polı´ stejne´ kvality. Na cˇtyrˇech z nich se zkousˇel novy´ zpu˚sob hnojenı´, zbyly´ch sˇest bylo osˇetrˇeno stary´m zpu˚sobem. Pole byla oseta psˇenicı´ a sledoval se jejı´ hektarovy´ vy´nos. Je trˇeba zjistit, zda novy´ zpu˚sob hnojenı´ ma´ ty´zˇ vliv na pru˚meˇrne´ hektarove´ vy´nosy psˇenice jako stary´ zpu˚sob hnojenı´. hektarove´ vy´nosy prˇi nove´m zpu˚sobu: hektarove´ vy´nosy prˇi stare´m zpu˚sobu:
51 45
52 54
49 48
55 44
49 4
50
51 6
52 7
53
50
53
54
8
9
ˇ esˇenı´: R
usp. hodnoty porˇadı´ x-ovy´ch hodnot porˇadı´ y-ovy´ch hodnot
44
45
48
1
2
3
5
55 10
T1 = 4 + 6 + 7 + 10 = 27, T2 = 1 + 2 + 3 + 5 + 8 + 9 = 28 U1 = 4 · 6 + 4 · 5/2 − 27 = 7, U2 = 4 · 6 + 6 · 7/2 − 28 = 17 Kriticka´ hodnota pro α = 0,05, min(4, 6) = 4, max(4, 6) = 6 je 2. Protozˇe min(7, 17) > 2, nemu˚zˇeme na hladineˇ vy´znamnosti 0,05 zamı´tnout hypote´zu, zˇe novy´ zpu˚sob hnojenı´ ma´ na hektarove´ vy´nosy psˇenice stejny´ vliv jako stary´ zpu˚sob. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor se dveˇma promeˇnny´mi VY´NOS a ID a 10 prˇ´ıpady. Do promeˇnne´ VY´NOS zapı´sˇeme hektarove´ vy´nosy psˇenice a do promeˇnne´ ID, ktera´ slouzˇ´ı k rozlisˇenı´ nove´ho a stare´ho zpu˚sobu hnojenı´, napı´sˇeme 4kra´t jednicˇku a 6kra´t dvojku. Nynı´ provedeme dvouvy´beˇrovy´ Wilcoxonu˚v test, ktery´ je ve STATISTICE uveden pod na´zvem Mannu˚v – Whitneyu˚v test: Statistika – Neparametricka´ statistika – Porovna´nı´ dvou neza´visly´ch vzorku˚ (skupiny) – OK. Promeˇnne´ – Seznam za´visly´ch promeˇnny´ch – VY´NOS, Neza´v. (grupov.) promeˇnne´ – ID – OK, Mann–Whitneyu˚v U test. Dostaneme tabulku
Zde je symbolem U oznacˇena testova´ statistika min(U1 ,U2). V nasˇem prˇ´ıpadeˇ U = 7, odpovı´dajı´cı´ p-hodnotu najdeme v poslednı´m sloupci pod oznacˇenı´m 2*1 str. prˇesne´ p. Protozˇe 0,352381 > 0,05, nezamı´ta´me na hladineˇ vy´znamnosti 0,05 nulovou hypote´zu. Vy´pocˇet jesˇteˇ doplnı´me krabicovy´m diagramem. Na za´lozˇce Za´kl. vy´sledky vybereme Krabicovy´ graf dle skupin, OK, promeˇnna´ VY´NOS, OK. Dostaneme graf
107
7. Porˇadove´ testy o media´nech
Je zrˇejme´, zˇe media´n hektarovy´ch vy´nosu˚ prˇi stare´m zpu˚sobu hnojenı´ je mensˇ´ı nezˇ prˇi nove´m zpu˚sobu a take´ vidı´me, zˇe variabilita hektarovy´ch vy´nosu˚ prˇi stare´m zpu˚sobu hnojenı´ je veˇtsˇ´ı nezˇ prˇi nove´m zpu˚sobu.
7.4
7.4.1
Kruskalu˚v-Wallisu˚v test a media´novy´ test (neparametricke´ obdoby analy´zy rozptylu jednoduche´ho trˇ´ıdeˇnı´) Formulace proble´mu
Necht’je da´no r ≥ 3 neza´visly´ch na´hodny´ch vy´beˇru˚ o rozsazı´ch n1 , . . ., nr . Prˇedpokla´da´me, zˇe tyto vy´beˇry pocha´zejı´ ze spojity´ch rozlozˇenı´. Oznacˇme n = n1 +· · ·+nr . Chceme testovat hypote´zu, zˇe vsˇechny tyto vy´beˇry pocha´zejı´ z te´hozˇ rozlozˇenı´. 7.4.2
Kruskalu˚v-Wallisu˚v test
Vsˇech n hodnot serˇadı´me do rostoucı´ posloupnosti a urcˇ´ıme porˇadı´ kazˇde´ hodnoty. Oznacˇme T j soucˇet porˇadı´ teˇch hodnot, ktere´ patrˇ´ı do j-te´ho vy´beˇru, j = 1, . . . , r (kontrola: musı´ platit T1 + · · · + Tr = n(n + 1)/2). Testova´ statistika ma´ tvar: Q=
12 n(n + 1)
r
T j2
j=1
nj
∑
− 3(n + 1).
Platı´-li H0 , ma´ statistika Q asymptoticky rozlozˇenı´ χ 2 (r − 1). H0 tedy zamı´tneme 2 (r − 1). na asymptoticke´ hladineˇ vy´znamnosti α , kdyzˇ Q ≥ χ1− α 7.4.3
Media´novy´ test r P2 j nj j=1
Testova´ statistika ma´ tvar QM = 4 ∑
− n, kde Pj je pocˇet hodnot v j-te´m vy´beˇru,
ktere´ jsou veˇtsˇ´ı nebo rovny media´nu vypocˇtene´mu ze vsˇech n hodnot. Platı´-li H0 , ma´ statistika QM asymptoticky rozlozˇenı´ χ 2 (r − 1). H0 tedy zamı´tneme na asymptoticke´ 2 (r − 1). hladineˇ vy´znamnosti α , kdyzˇ QM ≥ χ1− α
108
Metody mnohona´sobne´ho porovna´va´nı´
7.4.4
Zamı´tneme-li H0 , zajı´ma´ na´s, ktere´ dvojice na´hodny´ch vy´beˇru˚ se lisˇ´ı na zvolene´ hladineˇ vy´znamnosti. a) Neme´nyiho metoda Pouzˇ´ıva´ se v prˇ´ıpadeˇ, zˇe vsˇechny vy´beˇry majı´ ty´zˇ rozsah p. Je-li |Tl − Tk | ≥ tabelovana´ kriticka´ hodnota (pro dane´ p, r, α ), pak na hladineˇ vy´znamnosti α zamı´ta´me hypote´zu, zˇe l-ty´ a k-ty´ vy´beˇr pocha´zejı´ z te´hozˇ rozlozˇenı´. b) Obecna´ metoda mnohona´sobne´ho porovna´va´nı´ Jestlizˇe s 1 1 1 n(n + 1)hKW (α ), + |Tl − Tk | ≥ 12 n1 nk
pak na hladineˇ vy´znamnosti α zamı´ta´me hypote´zu, zˇe l-ty´ a k-ty´ vy´beˇr pocha´zejı´ z te´hozˇ rozlozˇenı´. Kritickou hodnotu hKW (α ) najdeme ve specia´lnı´ch statisticky´ch tabulka´ch. Prˇi veˇtsˇ´ıch rozsazı´ch vy´beˇru˚ je mozˇno ji nahradit 2 (r − 1). kvantilem χ1− α
7.4.5
Prˇ´ıklad
V roce 1980 byly zı´ska´ny trˇi neza´visle´ vy´beˇry obsahujı´cı´ u´daje o pru˚meˇrny´ch rocˇnı´ch prˇ´ıjmech (v tisı´cı´ch dolaru˚) cˇtyrˇ socia´lnı´ch skupin ve trˇech ru˚zny´ch oblastech USA. jizˇnı´ oblast: 6 10 15 29 pacificka´ oblast: 11 13 17 131 severovy´chodnı´ oblast: 7 14 28 25 Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe prˇ´ıjmy v teˇchto oblastech se nelisˇ´ı. Zamı´tnete-li nulovou hypote´zu, vysˇetrˇete, ktere´ dvojice vy´beˇru˚ se od sebe lisˇ´ı na hladineˇ vy´znamnosti 0,05. ˇ esˇenı´: R
Kruskalu˚v-Wallisu˚v test Usp. hodnoty Porˇadı´ 1. vy´beˇru Porˇadı´ 2. vy´beˇru Porˇadı´ 3. vy´beˇru
Q=
12 12 · 13
6 1
7
2
10 3
11
13
4
5
14
15 7
17
25
28
29 11
131
8 6
12 9
10
T1 = 22, T2 = 29, T3 = 27, 222 292 272 2 − 3 · 13 = 0,5, χ0,95 (2) = 5,991. + + 4 4 4
Protozˇe Q < 5,991, H0 nezamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti 0,05. Rozdı´ly mezi pru˚meˇrny´mi rocˇnı´mi prˇ´ıjmy v uvedeny´ch trˇech oblastech se neproka´zaly.
109
7. Porˇadove´ testy o media´nech
Media´novy´ test Media´n vsˇech 12 hodnot je 14,5. V 1. vy´beˇru lezˇ´ı nad media´nem 2 hodnoty, ve 2. vy´beˇru 2 hodnoty, ve 3. vy´beˇru 2 hodnoty. Testova´ statistika 1 2 2 2 QM = 4 (2 + 2 + 2 ) − 12 = 0, 4 2 (2) = 5,991. Protoz odpovı´dajı´cı´ kvantil χ0,95 ˇ e QM < 5,991, H0 nezamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti 0,05.
ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor se dveˇma promeˇnny´mi PRˇI´JEM a ID a s 12 prˇ´ıpady. Do promeˇnne´ PRˇI´JEM zapı´sˇeme hodnoty prˇ´ıjmu, do promeˇnne´ ID, ktera´ slouzˇ´ı jako identifika´tor oblasti, napı´sˇeme 4kra´t jednicˇku, 4kra´t dvojku a 4kra´t trojku. Nynı´ provedeme Kruskalu˚v-Wallisu˚v a media´novy´ test. Statistika – Neparametricka´ statistika – Porovna´nı´ vı´ce neza´visly´ch vzorku˚ (skupiny) – OK. Promeˇnne´ – Za´visle promeˇnne´ – PRˇI´JEM, Neza´v. (grupov.) promeˇnna´ – ID – OK, Shrnutı´: Kruskal-Wallis ANOVA a media´novy´ test, Vy´pocˇet. Pro K-W test dostaneme tabulku
Testova´ statistika se realizuje hodnotou 0,5, pocˇet stupnˇu˚ volnosti je 2, odpovı´dajı´cı´ p-hodnota = 0,7788, tedy na asymptoticke´ hladineˇ vy´znamnosti 0,05 nezamı´ta´me hypote´zu o shodeˇ media´nu˚. Pro media´novy´ test ma´me tabulku
Realizace testove´ statistiky = 0, pocˇet stupnˇu˚ volnosti = 2, odpovı´dajı´cı´ p-hodnota = 1, tedy na asymptoticke´ hladineˇ vy´znamnosti 0,05 nezamı´ta´me hypote´zu o shodeˇ media´nu˚.
110
Vy´pocˇet jesˇteˇ doplnı´me krabicovy´m diagramem. Na za´lozˇce Za´kl. vy´sledky vybereme Krabicovy´ graf, promeˇnna´ PRˇI´JEM, OK, Typ krabicove´ho grafu Media´n/Kvartily/Rozpeˇtı´, OK. Dostaneme graf
Vidı´me, zˇe media´ny se lisˇ´ı jenom nepatrneˇ, ale druha´ skupina (tj. pacificka´ oblast) vykazuje velkou variabilitu. Je to dı´ky hodnoteˇ 131. Pozna´mka:
Pokud bychom na dane´ hladineˇ vy´znamnosti α zamı´tli hypote´zu o shodeˇ media´nu˚, mohli bychom pomocı´ metody mnohona´sobne´ho porovnı´va´nı´ zjistit, ktere´ dvojice skupin se lisˇ´ı na hladineˇ vy´znamnosti α . Na za´lozˇce Za´kladnı´ vy´sledky stacˇ´ı zasˇkrtnout Vı´cena´s. porovna´nı´ pru˚meˇrne´ho porˇadı´ pro vsˇ. sk. Vy´stupnı´ tabulka obsahuje p-hodnoty pro test shody media´nu˚ dvojic skupin.
Shrnutı´ kapitoly V neˇktery´ch situacı´ch se setka´va´me s na´hodny´mi vy´beˇry maly´ch rozsahu˚, ktere´ pocha´zejı´ z vy´razneˇ nenorma´lnı´ch rozlozˇenı´. V takovy´ch prˇ´ıpadech nelze pouzˇ´ıt klasicke´ testy zalozˇene´ na prˇedpokladu normality, ktere´ byly popsa´ny ve 4., 5. a 6. kapitole. Mı´sto nich pouzˇ´ıva´me neparametricke´ testy, ktere´ nepotrˇebujı´ splneˇnı´ prˇedpokladu normality, stacˇ´ı naprˇ. prˇedpokla´dat spojitost distribucˇnı´ funkce rozlozˇenı´, z neˇhozˇ dany´ na´hodny´ vy´beˇr pocha´zı´. Pro testova´nı´ hypote´zy o media´nu pouzˇ´ıva´me jednovy´beˇrovy´ cˇi pa´rovy´ Wilcoxonu˚v test, cozˇ je neparametricka´ obdoba jednovy´beˇrove´ho cˇi pa´rove´ho t.testu. Ma´me-li testovat hypote´zu o shodeˇ media´nu˚ dvou rozlozˇenı´, ktera´ se mohou lisˇit jen posunutı´m (tj. testujeme hypote´zu o shodeˇ teˇchto dvou rozlozˇenı´), aplikujeme dvouvy´beˇrovy´ Wilcoxonu˚v test – neparametrickou obdobu dvouvy´beˇrove´ho t-testu. Jako neparametricka´ obdoba analy´zy rozptylu jednoduche´ho trˇ´ıdeˇnı´ slouzˇ´ı Kruskalu˚v-Wallisu˚v test nebo media´novy´ test. Prˇi zamı´tnutı´ nulove´ hypote´zy identifikujeme dvojice odlisˇny´ch vy´beˇru˚ pomocı´ metod mnohona´sobne´ho porovna´va´nı´, a to bud’ obecnou metodu mnohona´sobne´ho porovna´va´nı´ nebo Neme´niyho metodu. Prˇi prova´deˇnı´ neparametricky´ch testu˚ potrˇebujeme specia´lnı´ tabulky kriticky´ch hodnot. Jsou obsazˇeny v prˇ´ıloze A tohoto ucˇebnı´ho textu. Vsˇechny uvedene´ testy jsou implementova´ny v syste´mu STATISTICA.
111
7. Porˇadove´ testy o media´nech
Kontrolnı´ ota´zky 1. V jaky´ch situacı´ch pouzˇ´ıva´me neparametricke´ testy? 2. Jaka´ je nevy´hoda neparametricky´ch testu˚ oproti testu˚m parametricky´m? 3. Jak vypocˇ´ıta´me porˇadı´ cˇ´ısla v dane´ posloupnosti cˇ´ısel? 4. Popisˇte rozdı´l mezi jednovy´beˇrovy´m a pa´rovy´m Wilcoxonovy´m testem. 5. Jake´ podmı´nky musı´ by´t splneˇny pro dvouvy´beˇrovy´ Wilcoxonu˚v test? 6. K cˇemu slouzˇ´ı Kruskalu˚v-Wallisu˚v test? 7. Jak provedeme media´novy´ test? 8. Ktere´ metody mnohona´sobne´ho porovna´va´nı´ zna´te?
Autokorekcˇnı´ test 1. Ma´me za u´kol zjistit, zda trˇi neza´visle´ vy´beˇry pocha´zejı´ z te´hozˇ rozlozˇenı´.
Prˇitom vsˇechny majı´ maly´ rozsah (mensˇ´ı nezˇ 30) a vykazujı´ odchylky od norma´lnı´ho rozlozˇenı´. Jaky´ test pouzˇijeme? a) Analy´zu rozptylu jednoduche´ho trˇ´ıdeˇnı´, b) media´novy´ test, c) Kruskalu˚v-Wallisu˚v test. 2. Testujeme hypote´zu, zˇe dva neza´visle´ na´hodne´ vy´beˇry pocha´zejı´ z te´hozˇ rozlozˇenı´. Oba vy´beˇry majı´ maly´ rozsah (mensˇ´ı nezˇ 30) a diagnosticke´ grafy i testy normality poukazujı´ na za´vazˇneˇjsˇ´ı odchylky od norma´lnı´ho rozlozˇenı´. Jaky´ test pouzˇijeme? a) Pa´rovy´ Wilcoxonu˚v test, b) dvouvy´beˇrovy´ t-test, c) dvouvy´beˇrovy´ Wilcoxonu˚v test. 3. Pomocı´ K-W testu testujeme na asymptoticke´ hladineˇ vy´znamnosti 0,05 hypote´zu, zˇe peˇt neza´visly´ch na´hodny´ch vy´beˇru˚ o rozsazı´ch 4, 7, 5, 4, 5 pocha´zı´ z te´hozˇ rozlozˇenı´. Kriticky´ obor ma´ tvar: a) W = h9,488; ), b) W = h0,711; ), c) W = h0; 9,488). 4. Ma´me dvourozmeˇrny´ na´hodny´ vy´beˇr z dvourozmeˇrne´ho rozlozˇenı´, ktere´ se vy´razneˇ lisˇ´ı od norma´lnı´ho rozlozˇenı´. K testova´nı´ hypote´zy, zˇe media´ny obou slozˇek tohoto rozlozˇenı´ jsou stejne´, pouzˇijeme a) jednovy´beˇrovy´ t-test, b) dvouvy´beˇrovy´ Wilcoxonu˚v test, c) pa´rovy´ Wilcoxonu˚v test.
8 8
Spra´vne´ odpoveˇdi:
1b), c)
2c)
3a)
4c)
Prˇ´ıklady 1. U 10 na´hodneˇ vybrany´ch vzorku˚ benzı´nu byly zjisˇteˇny na´sledujı´cı´ hodnoty
oktanove´ho cˇ´ısla: 98,2
112
96,8
96,3
99,8
96,9
98,6
95,6
97,1
97,7
98,0.
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe media´n oktanove´ho cˇ´ısla je 98 proti oboustranne´ alternativeˇ. Vy´sledek: Pouzˇijeme jednovy´beˇrovy´ Wilcoxonu˚v test. Testova´ statistika se realizuje hodnotou 12, tabelovana´ kriticka´ hodnota pro α = 0,05 a n = 9 je 5. Protozˇe 12 > 5, H0 nezamı´ta´me na hladineˇ vy´znamnosti 0,05. 2. Vy´robce urcˇite´ho vy´robku se ma´ rozhodnout mezi dveˇma dodavateli poloto-
varu˚ vyra´beˇjı´cı´ch je ru˚zny´mi technologiemi. Rozhodujı´cı´ je procentnı´ obsah urcˇite´ la´tky. 1. technologie: 2. technologie:
1,52 1,75
1,57 1,67
1,71 1,56
1,34 1,66
1,68 1,72
1,79
1,64
1,55
Na hladineˇ vy´znamnosti 0,05 posud’te pomocı´ dvouvy´beˇrove´ho Wilcoxonova testu, zda je opra´vneˇny´ prˇedpoklad, zˇe obeˇ technologie poskytujı´ stejne´ procento u´cˇinne´ la´tky. Vy´sledek: Testova´ statistika se realizuje hodnotou 12, tabelovana´ kriticka´ hodnota pro α = 0,05, min(5, 8) = 5, max(5, 8) = 8 je 6. Protozˇe min(28, 12) > 2, nemu˚zˇeme na hladineˇ vy´znamnosti 0,05 zamı´tnout hypote´zu, zˇe obeˇ technologie poskytujı´ stejne´ procento u´cˇinne´ la´tky. 3. Vy´robce kola´cˇu˚ v pra´sˇku ma´ 4 nove´ recepty a chce zjistit, zda se jejich kvalita
lisˇ´ı. Upekl proto 5 kola´cˇu˚ z kazˇde´ho druhu a dal je poroteˇ k ohodnocenı´. recept A: recept B: recept C: recept D:
72 85 94 91
88 89 94 93
70 86 88 92
87 82 87 95
71, 88, 89, 94.
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe recepty se nelisˇ´ı. Vy´sledek: Pouzˇijeme Kruskalu˚v-Wallisu˚v test. Vsˇech 20 hodnot usporˇa´da´me vzestupneˇ podle velikosti a stanovı´me soucˇet porˇadı´ pro recepty A, B, C, D: T1 = 23,5, T2 = 37,5, T3 = 66, T4 = 83. Testova´ statistika: 12 Q= 20 · 21
23,52 37,52 662 832 + + + 5 5 5 5
− 3 · 21 = 12,45,
2 (3) = 7,81. Protoz ˇ e Q ≥ 7,81, H0 zamı´ta´me na asymptoticke´ hladineˇ χ0,95 vy´znamnosti 0,05. Neme´nyiho metoda proka´zala, zˇe na hladineˇ vy´znamnosti 0,05 se lisˇ´ı recepty A a D.
4. U osmi osob byl zmeˇrˇen systolicky´ krevnı´ tlak prˇed pokusem a po neˇm.
cˇ. osoby tlak prˇed tlak po
1 130 139
2 185 190
3 162 175
4 136 135
5 147 155
6 181 175
7 128 158
8 139 149
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe pokus neovlivnı´ systolicky´ krevnı´ tlak
113
7. Porˇadove´ testy o media´nech
Vy´sledek: Pa´rovy´ Wilcoxonu˚v test poskytl p-hodnotu 0,04995, tedy H0 zamı´ta´me na hladineˇ vy´znamnosti 0,05. 5. Majitel obchodu chteˇl zjistit, zda velikost na´kupu˚ (v dolarech) placeny´ch kreditnı´mi kartami Master/EuroCard a Visa jsou prˇiblizˇneˇ stejne´. Na´hodneˇ vybral 7 na´kupu˚ placeny´ch Master/EuroCard: 42 77 46 73 78 33 37 a 9 placeny´ch Visou: 39 10 119 68 76 126 53 79 102. Lze na hladineˇ vy´znamnosti 0,05 tvrdit, zˇe media´ny na´kupu˚ placeny´ch teˇmito dveˇma typy karet se shodujı´? Vy´sledek: Dvouvy´beˇrovy´ Wilcoxonu˚v test poskytl p-hodnotu 0,2523, H0 tedy nezamı´ta´me na hladineˇ vy´znamnosti 0,05. 6. Z produkce trˇ´ı podniku˚ vyra´beˇjı´cı´ch televizory bylo vylosova´no 10, 8 a 12 kusu˚. Byly zı´ska´ny na´sledujı´cı´ vy´sledky zjisˇt’ova´nı´ citlivosti teˇchto televizoru˚ v mikrovoltech: 1. podnik: 420 560 600 490 550 570 340 480 510 460 2. podnik: 400 420 580 470 470 500 520 530 3. podnik: 450 700 630 590 420 590 610 540 740 690 540 670 Oveˇrˇte na hladineˇ vy´znamnosti 0,05 hypote´zu o shodeˇ u´rovneˇ citlivosti televizoru˚ v jednotlivy´ch podnicı´ch. Vy´sledek: K-W test poskytl testovou statistiku 3,2043, pocˇet stupnˇu˚ volnosti = 2, odpovı´dajı´cı´ p-hodnota = 0,0165, H0 zamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti 0,05. Lisˇ´ı se vy´robky podniku˚ 2 a 3.
114
Motivace Testova´nı´ neza´vislosti nomina´lnı´ch velicˇin Testova´nı´ neza´vislosti ordina´lnı´ch velicˇin Testova´nı´ neza´vislosti intervalovy´ch cˇi pomeˇrovy´ch velicˇin
8
Analy´za za´vislosti dvou na´hodny´ch velicˇin
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin
Cı´l kapitoly Po prostudova´nı´ te´to kapitoly budete umeˇt – prova´deˇt test neza´vislosti v kontingencˇnı´ tabulce – hodnotit intenzitu za´vislosti dvou na´hodny´ch velicˇin nomina´lnı´ho typu pomocı´ Crame´rova koeficientu – prova´deˇt Fisheru˚v prˇesny´ test ve cˇtyrˇpolnı´ kontingencˇnı´ tabulce a pocˇ´ıtat podı´l sˇancı´ na u´speˇch za dvojı´ch ru˚zny´ch podmı´nek – prova´deˇt test porˇadove´ neza´vislosti dvou na´hodny´ch velicˇin ordina´lnı´ho typu pomocı´ Spearmanova koeficientu porˇadove´ korelace – testovat hypote´zu o neza´vislosti dvou na´hodny´ch velicˇin intervalove´ho cˇi pomeˇrove´ho typu, ktere´ se rˇ´ıdı´ dvourozmeˇrny´m norma´lnı´m rozlozˇenı´m
ˇ asova´ za´teˇzˇ C Na prostudova´nı´ te´to kapitoly a splneˇnı´ u´kolu˚ s nı´ spojeny´ch budete potrˇebovat asi 15 hodin studia.
8.1
Motivace
Prˇi zpracova´nı´ dat se velmi cˇasto setka´me s u´kolem zjistit, zda dveˇ na´hodne´ velicˇiny jsou stochasticky neza´visle´. Naprˇ. na´s mu˚zˇe zajı´mat, zda ve sledovane´ populaci je barva ocˇ´ı a barva vlasu˚ neza´visla´ nebo zda pocˇet dnu˚ absence a veˇk pracovnı´ka jsou neza´visle´. Testova´nı´ hypote´zy o neza´vislosti se prova´dı´ ru˚zny´mi zpu˚soby podle toho, jake´ho typu jsou dane´ na´hodne´ velicˇiny – zda jsou nomina´lnı´, ordina´lnı´, intervalove´ cˇi pomeˇrove´. Prˇi zkouma´nı´ za´vislosti je nesmı´rneˇ du˚lezˇite´ prove´st logicky´ rozbor proble´mu. Nema´ smysl se zaby´vat hleda´nı´m za´vislosti v prˇ´ıpadech, kdyzˇ – – – –
z logicky´ch du˚vodu˚ nemu˚zˇe existovat, za´vislost je zpu˚sobena forma´lnı´mi vztahy mezi velicˇinami, soubor dvourozmeˇrny´ch dat je nehomogennı´, za´vislost je zpu˚sobena spolecˇnou prˇ´ıcˇinou.
Zpravidla chceme take´ zjistit intenzitu prˇ´ıpadne´ za´vislosti sledovany´ch dvou velicˇin. K tomuto u´cˇelu byly zkonstruova´ny ru˚zne´ koeficienty, ktere´ naby´vajı´ hodnot od 0 do 1 (resp. od −1 do 1). Cˇ´ım je takovy´ koeficient blizˇsˇ´ı 1 (resp. −1), tı´m je za´vislost mezi dany´mi dveˇma velicˇinami silneˇjsˇ´ı a cˇ´ım je blizˇsˇ´ı 0, tı´m je slabsˇ´ı.
8.2 8.2.1
Testova´nı´ neza´vislosti nomina´lnı´ch velicˇin Popis testu
Necht’X,Y jsou dveˇ nomina´lnı´ na´hodne´ velicˇiny (tj. obsahova´ interpretace je mozˇna´ jenom u relace rovnosti). Necht’ X naby´va´ variant x[1] , . . ., x[r] a Y naby´va´ variant y[1] , . . ., y[s]. Porˇ´ıdı´me dvourozmeˇrny´ na´hodny´ vy´beˇr rozsahu n z rozlozˇenı´, ktery´m se rˇ´ıdı´ dvourozmeˇrny´ diskre´tnı´ na´hodny´ vektor (X,Y ). Zjisˇteˇne´ absolutnı´ cˇetnosti n jk dvojice variant (x[ j] , y[k] ) usporˇa´da´me do kontingencˇnı´ tabulky:
116
y x n jk x[1] .. .
y[1]
...
y[s]
n j.
n11 .. .
...
n1s .. .
n1. .. .
x[r] n.k
nr1 n.1
nrs n.s
nr. n
... ... ...
Testujeme hypote´zu H0 : X, Y jsou stochasticky neza´visle´ na´hodne´ velicˇiny proti H1 : X, Y nejsou stochasticky neza´visle´ na´hodne´ velicˇiny. Testova´ statistika ma´ tvar: n j. n.k 2 n jk − r s n K= ∑ ∑ . n j. n.k j=1 k=1 n Platı´-li H0 , pak K se asymptoticky rˇ´ıdı´ rozlozˇenı´m χ 2 ((r − 1)(s − 1)). Hypote´zu o neza´vislosti velicˇin X, Y tedy zamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti α , 2 ((r − 1)(s − 1)). kdyzˇ K ≥ χ1− α 8.2.2
Podmı´nky dobre´ aproximace n j. n.k se nazy´va´ teoreticka´ cˇetnost. Rozlozˇenı´ statistiky K lze aproximovat Vy´raz n 2 rozlozˇenı´m χ ((r − 1)(s − 1)), pokud teoreticke´ cˇetnosti asponˇ v 80 % prˇ´ıpadu˚ naby´vajı´ hodnoty veˇtsˇ´ı nebo rovne´ 5 a ve zbyly´ch 20 % neklesnou pod 2. Nenı´-li splneˇna podmı´nka dobre´ aproximace, doporucˇuje se slucˇova´nı´ neˇktery´ch variant. 8.2.3
Meˇrˇenı´ sı´ly za´vislosti r K Crame´ru˚v koeficient: V = , kde m = min{r, s}. Tento koeficient naby´va´ n(m − 1) hodnot mezi 0 a 1. Cˇ´ım blı´zˇe je 1, tı´m je teˇsneˇjsˇ´ı za´vislost mezi X a Y , cˇ´ım blı´zˇe je 0, tı´m je tato za´vislost volneˇjsˇ´ı. 8.2.4
Prˇ´ıklad
V sociologicke´m pru˚zkumu byl z uchazecˇu˚ o studium na vysoky´ch sˇkola´ch porˇ´ızen na´hodny´ vy´beˇr rozsahu 360. Mimo jine´ se zjisˇt’ovala socia´lnı´ skupina, ze ktere´ uchazecˇ pocha´zı´ a typ sˇkoly, na kterou se hla´sı´. Vy´sledky jsou zaznamena´ny v kontingencˇnı´ tabulce: Typ sˇkoly univerzitnı´ technicky´ ekonomicky´ n.k
Socia´lnı´ skupina I II III IV 50 30 10 50 30 50 20 10 10 20 30 50 90 100 60 110
n j. 140 110 110 360
117
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin
Na asymptoticke´ hladineˇ vy´znamnosti 0,05 testujte hypote´zu o neza´vislosti typu sˇkoly a socia´lnı´ skupiny. Vypocˇteˇte Crame´ru˚v koeficient. ˇ esˇenı´: R
n1. n.1 140 · 90 n1. n.2 140 · 100 = = 35, = = 38,9, n 360 n 360 n1. n.3 140 · 60 n1. n.4 140 · 110 = = 23,3, = = 42,8, n 360 n 360 n2. n.1 110 · 90 = = 27,5, n 360 n2. n.3 110 · 60 = = 18,3, n 360
n2. n.2 110 · 100 = = 30,6, n 360 n2. n.4 110 · 110 = = 33,6, n 360
n3. n.1 110 · 90 = = 27,5, n 360 n3. n.3 110 · 60 = = 18,3, n 360
n3. n.2 110 · 100 = = 30,6, n 360 n3. n.4 110 · 110 = = 33,6, n 360
K=
(50 − 33,6)2 (50 − 35)2 (30 − 38,9)2 + +···+ = 76,84, 35 38,9 33,6 2 r = 3, s = 4, χ0,95 (6) = 12,6.
Protozˇe K ≥ 12,6, hypote´zu o neza´vislosti typu sˇkoly a socia´lnı´ skupiny zamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti 0,05. Crame´ru˚v koeficient: r 76,4 = 0,3267. V= 360 · 2 Podmı´nky dobre´ aproximace jsou splneˇny, protozˇe vsˇechny teoreticke´ cˇetnosti jsou veˇtsˇ´ı nezˇ 5. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor o 12 prˇ´ıpadech a trˇech promeˇnny´ch TYP SˇKOLY, SOC. SKUPINA, CˇETNOST). Do promeˇnne´ TYP SˇKOLY napı´sˇeme varianty typu sˇkoly x[1] = 1 (univerzitnı´), x[2] = 2 (technicky´), x[3] = 3 (ekonomicky´), prˇicˇemzˇ kazˇda´ varianta se objevı´ cˇtyrˇikra´t pod sebou. Do promeˇnne´ SOC. SKUPINA napı´sˇeme trˇikra´t pod sebe vsˇechny varianty y[1] = 1, y[2] = 2, y[3] = 3, y[4] = 4. Do promeˇnne´ CˇETNOST napı´sˇeme absolutnı´ cˇetnosti jednotlivy´ch dvojic variant (x[ j] , y[k] ). Statistika – Za´kladnı´ statistiky/tabulky – Kontingencˇnı´ tabulky – OK – klikneme mysˇ´ı na tlacˇ´ıtko s obra´zkem za´vazˇ´ı – Status zapnuto – Promeˇnna´ vah CˇETNOST – OK – Specif. tabulky – List 1 TYP SˇKOLY – List 2 SOC. SKUPINA – OK.
118
Prˇesveˇdcˇ´ıme se o splneˇnı´ podmı´nek dobre´ aproximace. Na za´lozˇce Mozˇnosti zasˇkrtneme Ocˇeka´vane´ cˇetnosti, zvolı´me Vy´pocˇet. Dostaneme kontingencˇnı´ tabulku teoreticky´ch cˇetnostı´:
Vidı´me, zˇe vsˇechny teoreticke´ cˇetnosti jsou dostatecˇneˇ velke´, veˇtsˇ´ı nezˇ 5. V tabulce je rovneˇzˇ uvedena realizace testove´ statistiky K = 76,8359, pocˇet stupnˇu˚ volnosti = 6. Odpovı´dajı´cı´ p-hodnota je blı´zka´ 0, tedy na asymptoticke´ hladineˇ vy´znamnosti 0,05 zamı´ta´me hypote´zu o neza´vislosti typu sˇkoly a socia´lnı´ skupiny, z nı´zˇ uchazecˇ pocha´zı´. Da´le vypocˇteme Crame´ru˚v koeficient. Na za´lozˇce Mozˇnosti zasˇkrtneme Fı´ & Crame´rovo C&V. Prˇejdeme na za´lozˇku Detailnı´ vy´sledky a vybereme Detailnı´ 2-rozm. tabulky.
119
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin
V te´to tabulce najdeme Crame´ru˚v koeficient V = 0,3266749 a take´ hodnotu testove´ statistiky K s pocˇtem stupnˇu˚ volnosti 6 a odpovı´dajı´cı´ p-hodnotou blı´zkou 0. Vy´pocˇet jesˇteˇ doplnı´me graficky´m zna´zorneˇnı´m simulta´nnı´ch absolutnı´ch cˇetnostı´ promeˇnny´ch TYP SˇKOLY a SOC. SKUPINA. Na za´lozˇce Detailnı´ vy´sledky zvolı´me 3D histogramy.
Pozna´mka:
Graf lze ru˚zneˇ nata´cˇet, stacˇ´ı v menu vybrat Forma´t – Vsˇ. mozˇnosti – Zorny´ bod. 8.2.5
ˇ tyrˇpolnı´ tabulky C
Necht’ r = s = 2. Pak hovorˇ´ıme o cˇtyrˇpolnı´ kontingencˇnı´ tabulce a pouzˇ´ıva´me oznacˇenı´: n11 = a, n12 = b, n21 = c, n22 = d. X x[1] x[2] n.k
Y y[1] a c a+c
n j. y[2] b d b+d
a+b c+d n
Pro tuto tabulku navrhl R. A. Fisher prˇesny´ (exaktnı´) test neza´vislosti zna´my´ jako Fisheru˚v faktoria´lovy´ test. (Je popsa´n naprˇ. v knize ZVA´RA, K.: Biostatistika, Karolinum, Praha 1998.) STATISTICA poskytuje p-hodnotu pro tento test. Jestlizˇe vyjde p ≤ α , pak hypote´zu o neza´vislosti zamı´ta´me na hladineˇ vy´znamnosti α .
ad , ktera´ se nazy´va´ podı´l bc sˇancı´ (odds ratio). Mu˚zˇeme si prˇedstavit, zˇe pokus se prova´dı´ za dvojı´ch ru˚zny´ch okolnostı´ a mu˚zˇe skoncˇit bud’ u´speˇchem nebo neu´speˇchem. Ve cˇtyrˇpolnı´ch tabulka´ch pouzˇ´ıva´me charakteristiku OR =
120
Vy´sledek pokusu u´speˇch neu´speˇch n.k
okolnosti I II a b c d a+c b+d
n j. a+b c+d n
a Pomeˇr pocˇtu u´speˇchu˚ k pocˇtu neu´speˇchu˚ (tzv. sˇance) za prvnı´ch okolnostı´ je , za c b ad druhy´ch okolnostı´ je . Podı´l sˇancı´ je OR = . Pomocı´ 100(1 − α )% asymptoticd bc ke´ho intervalu spolehlivosti pro podı´l sˇancı´ lze na asymptoticke´ hladineˇ vy´znamnosti α testovat hypote´zu o neza´vislosti nomina´lnı´ch velicˇin X a Y . Asymptoticky´ 100(1 − α )% interval spolehlivosti pro prˇirozeny´ logaritmus skutecˇne´ho podı´lu sˇancı´ ma´ meze: r 1 1 1 1 . ln OR ± + + + u a b c d 1−α /2 Jestlizˇe po odlogaritmova´nı´ nezahrne interval spolehlivosti 1, pak hypote´zu o neza´vislosti zamı´tneme na asymptoticke´ hladineˇ vy´znamnosti α . 8.2.6
Prˇ´ıklad
U 125 uchazecˇu˚ o studium na jistou fakultu byl hodnocen dojem, jaky´m zapu˚sobili na komisi u u´stnı´ prˇijı´macı´ zkousˇky. Na asymptoticke´ hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe prˇijetı´ na fakultu a dojem u prˇijı´macı´ zkousˇky jsou neza´visle´ velicˇiny. prˇijetı´ ano ne n.k
dojem dobry´ sˇpatny´ 17 11 39 58 56 69
n j. 28 97 125
ˇ esˇenı´: R
ad 17 · 58 = = 2,298, ln OR = 0,832, bc r 11 · 39 r 1 1 1 1 1 1 1 1 + + + = + + + = 0,439, u0,975 = 1,96, a b c d 17 11 39 58 ln dm = 0,832 − 0,439 · 1,96 = −0,028, ln hm = 0,832 + 0,439 · 1,96 = 1,692, OR =
dm = e−0,028 = 0,972,
hm = e1,692 = 5,433.
Protozˇe interval (0,972; 5,433) obsahuje cˇ´ıslo 1, na asymptoticke´ hladineˇ vy´znamnosti 0,05 nezamı´ta´me hypote´zu o neza´vislosti dojmu u prˇijı´macı´ zkousˇky a prˇijetı´ na fakultu. ˇ esˇenı´ pomocı´ syste´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor se trˇemi promeˇnny´mi PRˇIJETI´, DOJEM, CˇETNOST a se cˇtyrˇmi prˇ´ıpady. Promeˇnna´ PRˇIJETI´ ma´ varianty 1 (prˇijat), 2 (neprˇijat), promeˇnna´
121
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin
DOJEM ma´ varianty 1 (dobry´), 2 (sˇpatny´). Zpu˚sob zada´nı´ dat je podobny´ jako v prˇ´ıkladu 8.2.4. Nesmı´me zapomenout zadat va´hovou promeˇnnou CˇETNOST. Provedeme Fisheru˚v prˇesny´ test. Na za´lozˇce Mozˇnosti zasˇkrtneme Fisher exakt., prˇejdeme na za´lozˇku Detailnı´ vy´sledky a vybereme Detailnı´ 2-rozm. tabulky.
Vidı´me, zˇe p-hodnota Fisherova prˇesne´ho testu je 0,08331, tedy na hladineˇ vy´znamnosti 0,05 nezamı´ta´me hypote´zu, zˇe dojem a prˇijetı´ na fakultu jsou neza´visle´ velicˇiny.
8.3 8.3.1
Testova´nı´ neza´vislosti ordina´lnı´ch velicˇin Popis testu
Necht’X,Y jsou dveˇ ordina´lnı´ na´hodne´ velicˇiny (tj. obsahova´ interpretace je mozˇna´ jenom u relace rovnosti a relace usporˇa´da´nı´). Porˇ´ıdı´me dvourozmeˇrny´ na´hodny´ vy´beˇr (X1,Y1 ), . . ., (Xn,Yn ) z rozlozˇenı´, jı´mzˇ se rˇ´ıdı´ na´hodny´ vektor (X,Y ). Oznacˇ´ıme Ri porˇadı´ na´hodne´ velicˇiny Xi a Qi porˇadı´ na´hodne´ velicˇiny Yi , i = 1, . . ., n. Testujeme hypote´zu H0: X, Y jsou porˇadoveˇ neza´visle´ na´hodne´ velicˇiny proti oboustranne´ alternativeˇ H1 : X, Y jsou porˇadoveˇ za´visle´ na´hodne´ velicˇiny (resp. proti levostranne´ alternativeˇ H1 : mezi X a Y existuje neprˇ´ıma´ porˇadova´ za´vislost resp. proti pravostranne´ alternativeˇ H1 : mezi X a Y existuje prˇ´ıma´ porˇadova´ za´vislost). Testova´ statistika se nazy´va´ Spearmanu˚v koeficient porˇadove´ korelace a ma´ tvar: rS = 1 −
n 6 (Ri − Qi )2 . ∑ n(n2 − 1) i=1
H0 zamı´ta´me na hladineˇ vy´znamnosti α a) ve prospeˇch oboustranne´ alternativy, kdyzˇ |rS | ≥ rS,1−α (n) b) ve prospeˇch levostranne´ alternativy, kdyzˇ rS ≤ −rS,1−α (n) c) ve prospeˇch pravostranne´ alternativy, kdyzˇ rS ≥ rS,1−α (n),
kde rS,1−α (n) je kriticka´ hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulka´ch. Pro n > 30 H0 zamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti α ve u1−α /2 prospeˇch oboustranne´ alternativy, kdyzˇ |rS | ≥ √ (analogicky pro jednostranne´ n−1 alternativy). Spearmanu˚v koeficient rS soucˇasneˇ meˇrˇ´ı sı´lu porˇadove´ za´vislosti na´hodny´ch velicˇin X, Y . Naby´va´ hodnot z intervalu h−1, 1i. Cˇ´ım je jeho hodnota blizˇsˇ´ı −1 (resp. 1),
122
tı´m je silneˇjsˇ´ı neprˇ´ıma´ (resp. prˇ´ıma´) porˇadova´ za´vislost velicˇin X, Y . Cˇ´ım je jeho hodnota blizˇsˇ´ı 0, tı´m je slabsˇ´ı porˇadova´ za´vislost velicˇin X, Y . 8.3.2
Prˇ´ıklad
Dva le´karˇi hodnotili stav sedmi pacientu˚ po te´mzˇ chirurgicke´m za´kroku. Postupovali tak, zˇe nejvysˇsˇ´ı porˇadı´ dostal nejteˇzˇsˇ´ı prˇ´ıpad. Cˇ´ıslo pacienta Hodnocenı´ 1. le´karˇe Hodnocenı´ 2. le´karˇe
1 4 4
2 1 2
3 6 5
4 5 6
5 3 1
6 2 3
7 7 7
Vypocˇteˇte Spearmanu˚v koeficient rS a na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe hodnocenı´ obou le´karˇu˚ jsou porˇadoveˇ neza´visla´. ˇ esˇenı´: R
rS = 1 −
6 (4 − 4)2 + (1 − 2)2 + (6 − 5)2 + (5 − 6)2 + 1(72 − 1) + (3 − 1)2 + (2 − 3)2 + (7 − 7)2 = 0,857.
Kriticka´ hodnota: rS, 0,95 (7) = 0,745. Protozˇe 0,857 ≥ 0,745, nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti 0,05. ˇ esˇenı´ pomocı´ syte´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor se dveˇma promeˇnny´mi 1.LE´KARˇ,. 2.LE´KARˇ a sedmi prˇ´ıpady. Do teˇchto promeˇnny´ch zapı´sˇeme zjisˇteˇna´ hodnocenı´. Statistika – Neparametricka´ statistika – Korelace – OK, Vytvorˇit Detailnı´ report, Promeˇnne´ – 1. seznam promeˇnny´ch 1.LE´KARˇ,. 2. seznam promeˇnny´ch 2.LE´KARˇ – OK – Spearman R.
Spearmanu˚v koeficient korelace nabyl hodnoty 0,857143, asymptoticka´ testova´ statistika se realizovala cˇ´ıslem 3,721042, odpovı´dajı´cı´ p-hodnota je 0,013697, tedy na asymptoticke´ hladineˇ vy´znamnosti 0,05 zamı´ta´me hypote´zu o porˇadove´ neza´vislosti hodnocenı´ obou le´karˇu˚. Pokud bychom chteˇli prove´st prˇesny´ test, nikoliv asymptoticky´ test, museli bychom pouzˇ´ıt statisticke´ tabulky a vyhledat v nich kritickou hodnotu rS, 0,95 (7) – viz vy´sˇe. Vy´pocˇet jesˇteˇ doplnı´me dvourozmeˇrny´m tecˇkovy´m diagramem. Grafy – Bodove´ grafy – vypneme Typ prolozˇenı´ – Promeˇnne´ – X 1.LE´KARˇ, Y 2.LE´KARˇ, OK, OK.
123
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin
Vidı´me, zˇe s rostoucı´m hodnocenı´m 1. le´karˇe roste hodnocenı´ 2. le´karˇe a naopak. Tedy mezi obeˇma promeˇnny´mi existuje urcˇity´ stupenˇ prˇ´ıme´ porˇadove´ za´vislosti.
8.4 8.4.1
Testova´nı´ neza´vislosti intervalovy´ch cˇi pomeˇrovy´ch velicˇin Pearsonu˚v koeficient korelace
V teorii pravdeˇpodobnosti byl zaveden Pearsonu˚v koeficient korelace na´hodny´ch velicˇin X, Y (ktere´ jsou asponˇ intervalove´ho charakteru) vztahem p p C(X,Y ) p p pro D(X) D(Y ) > 0, D(X) D(Y ) R(X,Y ) = 0 jinak Prˇipomeneme jeho vlastnosti: a) b) c) d)
R(X, X) = 1 R(X,Y ) = R(Y, X) R(a + bX, c + dY ) = sgn(bd)R(X,Y ) −1 ≤ R(X,Y ) ≤ 1 a rovnosti je dosazˇeno tehdy a jen tehdy, kdyzˇ existujı´ rea´lne´ konstanty a, b, b 6= 0 tak, zˇe P(Y = a + bX) = 1, prˇicˇemzˇ R(X,Y ) = 1 pro b > 0 a R(X,Y ) = −1 pro b < 0.
Z teˇchto vlastnostı´ plyne, zˇe R(X,Y ) je vhodnou mı´rou teˇsnosti linea´rnı´ho vztahu na´hodny´ch velicˇin X, Y . 8.4.2
Vy´beˇrovy´ koeficient korelace
R(X,Y ) veˇtsˇinou nemu˚zˇeme pocˇ´ıtat prˇ´ımo, protozˇe to vyzˇaduje znalost simulta´nnı´ho rozlozˇenı´ na´hodne´ho vektoru (X,Y ). V praxi jsme veˇtsˇinou odka´za´ni na na´hodny´ vy´beˇr rozsahu n z dvourozmeˇrne´ho rozlozˇenı´ dane´ho distribucˇnı´ funkcı´ Φ(x, y). Z tohoto dvourozmeˇrne´ho na´hodne´ho vy´beˇru mu˚zˇeme stanovit: vy´beˇrove´ pru˚meˇry
124
M1 =
1 n
n
∑ Xi ,
i=1
M2 =
1 n
n
∑ Yi ,
i=1
vy´beˇrove´ rozptyly
S12 =
vy´beˇrovou kovarianci
1 n−1
n
∑ (Xi − M1 )2 , S22 =
i=1
S12 =
1 n−1
1 n−1
n
∑ (Yi − M2 )2 ,
i=1
n
∑ (Xi − M1 )(Yi − M2 )
i=1
S12 (pro S1 S2 > 0). S1 S2 Vlastnosti a), b), c), d) koeficientu korelace se prˇena´sˇejı´ i na vy´beˇrovy´ koeficient korelace. a s jejich pomocı´ zavedeme vy´beˇrovy´ koeficient korelace R12 =
8.4.3
Koeficient korelace dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´
Necht’na´hodny´ vektor (X,Y ) ma´ dvourozmeˇrne´ norma´lnı´ rozlozˇenı´ s hustotou
ϕ (x, y) =
2πσ1 σ2
1 p
1 − ρ2
e
−
1 2(1−ρ 2 )
x−µ1 σ1
2
−2ρ
y−µ2 x−µ1 y−µ2 σ1 σ2 + σ2
2
,
prˇicˇemzˇ µ1 = E(X), µ2 = E(Y ), σ12 = D(X), σ22 = D(Y ), ρ = R(X,Y ). Margina´lnı´ hustoty jsou:
ϕ1 (x) =
1 √
σ1 2π
e
−
(x−µ1 )2 2σ12
,
− 1 ϕ2 (x) = √ e σ2 2π
(y−µ2 )2 2σ22
Je-li ρ = 0, pak pro ∀(x, y) ∈ R2 : ϕ (x, y) = ϕ1 (x)ϕ2 (y), tedy na´hodne´ velicˇiny X, Y jsou stochasticky neza´visle´. Jiny´mi slovy: stochasticka´ neza´vislost slozˇek X, Y norma´lneˇ rozlozˇene´ho na´hodne´ho vektoru je ekvivalentnı´ jejich nekorelovanosti. Je-li ρ 6= 0, jsou na´hodne´ velicˇiny X, Y stochasticky za´visle´. Je-li ρ > 0, rˇ´ıka´me, zˇe jsou kladneˇ korelovane´, je-li ρ < 0, rˇ´ıka´me, zˇe jsou za´porneˇ korelovane´. Upozorneˇnı´:
V dalsˇ´ım textu budeme prˇedpokla´dat, zˇe na´hodny´ vy´beˇr (X1 ,Y1 ), . . ., (Xn,Yn ) pocha´zı´ z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´ s parametry µ1 , µ2 , σ12 , σ22 , ρ . 8.4.4
Testova´nı´ hypote´zy o neza´vislosti
Testujeme H0: ρ = 0 proti oboustranne´ alternativeˇ H1 : ρ 6= 0 (resp. proti levostranne´ alternativeˇ H1: ρ < 0 resp. proti pravostranne´ alternativeˇ H1: ρ > 0). Testova´ statistika ma´ tvar: √ R12 n − 2 T= q 1 − R212
Platı´-li nulova´ hypote´za, pak T ∼ t(n − 2). Kriticky´ obor pro test H0 proti oboustranne´ alternativeˇ: W = (− , −t1−α /2 (n − 2)i ∪ ht1−α /2 (n − 2), ), proti levostranne´ alternativeˇ: W = (− , −t1−α (n − 2)i a proti pravostranne´ alternativeˇ: W = ht1−α (n − 2), ). H0 zamı´ta´me na hladineˇ vy´znamnosti α , kdyzˇ T ∈ W .
8
8 8
8
Nenı´-li splneˇn prˇedpoklad dvourozmeˇrne´ normality, pouzˇijeme Spearmanu˚v koeficient porˇadove´ korelace.
125
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin
8.4.5
Prˇ´ıklad
Ma´me k dispozici vy´sledky testu˚ ze dvou prˇedmeˇtu˚ zjisˇteˇne´ u osmi na´hodneˇ vybrany´ch studentu˚ urcˇite´ho oboru. Cˇ´ıslo studenta 1 Pocˇet bodu˚ v 1. testu 80 Pocˇet bodu˚ ve 2. testu 65
2 50 60
3 36 35
4 58 39
5 42 48
6 60 44
7 56 48
8 68 61
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe vy´sledky obou testu˚ nejsou kladneˇ korelovane´. ˇ esˇenı´: R
Nejprve se musı´me prˇesveˇdcˇit, zˇe uvedene´ vy´sledky lze povazˇovat za realizace na´hodne´ho vy´beˇru z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´. Lze tak ucˇinit orientacˇneˇ pomocı´ dvourozmeˇrne´ho tecˇkove´ho diagramu. Tecˇky by meˇly vytvorˇit elipsovity´ obrazec.
Obra´zek sveˇdcˇ´ı o tom, zˇe prˇedpoklad dvourozmeˇrne´ normality je opra´vneˇny´ a zˇe mezi pocˇty bodu˚ z 1. a 2. testu bude existovat urcˇity´ stupenˇ prˇ´ıme´ linea´rnı´ za´vislosti. Testujeme H0 : ρ = 0 proti pravostranne´ alternativeˇ H1: ρ > 0. Vy´pocˇtem zjistı´me: R12 = 0,6668, T = 2,1917. V tabulka´ch najdeme t0,95 (6) = 1,9432. Kriticky´ obor: W = h1,9432; ). Protozˇe T ∈ W , hypote´zu o neexistenci kladne´ korelace vy´sledku˚ z 1. a 2. testu zamı´ta´me na hladineˇ vy´znamnosti 0,05.
8
ˇ esˇenı´ pomocı´ syte´mu STATISTICA: R
Otevrˇeme novy´ datovy´ soubor o dvou promeˇnny´ch 1.TEST a 2.TEST a osmi prˇ´ıpadech. Zobrazı´me dvourozmeˇrny´ tecˇkovy´ diagram s prolozˇenou elipsou 95% konstantnı´ hustoty pravdeˇpodobnosti, s jehozˇ pomocı´ posoudı´me dvourozmeˇrnou normalitu dat: Grafy – Bodove´ grafy – vypneme Typ prolozˇenı´ – Promeˇnne´ X 1.TEST, Y 2.TEST – OK . Na za´lozˇce Detaily vybereme Elipsa Norma´lnı´ – OK. Ve vznikle´m dvourozmeˇrne´m tecˇkove´m diagramu zmeˇnı´me rozsah zobrazeny´ch hodnot na vodorovne´ a svisle´ ose, abychom videˇli celou elipsu (viz obra´zek vy´sˇe) Forma´t – Vsˇ. Mozˇnosti – Osa: Meˇrˇ´ıtka – Osa X – automaticky´ mo´d zmeˇnı´me na manua´lnı´ s minimem 0 a maximem 120. Tote´zˇ pro osu Y , ale stacˇ´ı maximum 100.
126
Testova´nı´ hypote´zy o neza´vislosti: Statistika – Za´kladnı´ statistiky /Tabulky – Korelacˇnı´ matice – OK – 1.seznam promeˇnny´ch 1.TEST, 2.TEST, OK. Na za´lozˇce Mozˇnosti zasˇkrtneme Zobrazit detailnı´ tabulku vy´sledku˚ – Souhrn.
Ve vy´stupnı´ tabulce najdeme hodnotu vy´beˇrove´ho korelacˇnı´ho koeficientu R12 (r = 0,666802, tzn. zˇe mezi X a Y existuje neprˇ´ılisˇ silna´ prˇ´ıma´ linea´rnı´ za´vislost), realizaci testove´ statistiky t = 2,191693 a p-hodnotu pro test hypote´zy o neza´vislosti (p = 0,070909, H0 tedy nelze zamı´tnout na hladineˇ vy´znamnosti 0,05). Pozna´mka:
Pokud zna´me vy´beˇrovy´ koeficient korelace a rozsah vy´beˇru, mu˚zˇeme test neza´vislosti velicˇin X, Y prove´st pomocı´ Pravdeˇpodobnostnı´ho kalkula´toru. Statistika – Pravdeˇpodobnostnı´ kalkula´tor – Korelace – zada´me n a r, zasˇkrtneme Pocˇ´ıtat ρ pomocı´ r – Vy´pocˇet.
Shrnutı´ kapitoly Prˇi testova´nı´ hypote´zy o neza´vislosti dvou na´hodny´ch velicˇin nomina´lnı´ho typu vycha´zı´me z kontingencˇnı´ tabulky sestrojene´ na za´kladeˇ znalosti na´hodne´ho vy´beˇru rozsahu n z dvourozmeˇrne´ho rozlozˇenı´. Pouzˇ´ıva´me testovou statistiku, ktera´ se za splneˇnı´ podmı´nek dobre´ aproximace asymptoticky rˇ´ıdı´ Pearsonovy´m χ 2 -rozlozˇenı´m. Intenzitu za´vislosti dany´ch dvou velicˇin hodnotı´me pomocı´ Crame´rova koeficientu. Ma´me-li dveˇ na´hodne´ velicˇiny ordina´lnı´ho typu, pak testujeme hypote´zu o porˇadove´ neza´vislosti teˇchto dvou velicˇin pomocı´ Spearmanova koeficientu porˇadove´ korelace, ktery´ slouzˇ´ı za´rovenˇ jako testova´ statistika i jako mı´ra intenzity porˇadove´ za´vislosti dany´ch velicˇin. Pro mensˇ´ı rozsahy vy´beˇru˚ (orientacˇneˇ n < 30) porovna´va´me tento koeficient s tabelovanou kritickou hodnotou, pro veˇtsˇ´ı rozsahy vy´beˇru˚ vyuzˇijeme jeho asymptoticke´ normality. Prˇi testova´nı´ hypote´zy o neza´vislosti dvou na´hodny´ch velicˇin intervalove´ho cˇi pomeˇrove´ho typu, ktere´ se rˇ´ıdı´ dvourozmeˇrny´m norma´lnı´m rozlozˇenı´m, vyuzˇijeme skutecˇnosti, zˇe v tomto prˇ´ıpadeˇ je stochasticka´ neza´vislost ekvivalentnı´ nekorelovanosti teˇchto dvou velicˇin. Testova´ statistika vznikne transformacı´ vy´beˇrove´ho koeficientu korelace a v prˇ´ıpadeˇ platnosti nulove´ hypote´zy se rˇ´ıdı´ Studentovy´m rozlozˇenı´m. Prˇi zkouma´nı´ za´vislosti dvou na´hodny´ch velicˇin asponˇ ordina´lnı´ho typu je vhodne´ vytvorˇit dvourozmeˇrny´ tecˇkovy´ diagram a s jeho pomocı´ posoudit intenzitu a smeˇr za´vislosti, prˇ´ıpadneˇ orientacˇneˇ oveˇrˇit dvourozmeˇrnou normalitu dat. Vsˇechny popsane´ testy jsou implementova´ny v syste´mu STATISTICA.
127
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin
Kontrolnı´ ota´zky 1. Jak testujeme neza´vislost nomina´lnı´ch velicˇin? Jake´ podmı´nky musı´ by´t 2. 3. 4. 5. 6.
splneˇny? K cˇemu slouzˇ´ı Crame´ru˚v koeficient? K cˇemu slouzˇ´ı Spearmanu˚v koeficient porˇadove´ korelace? Uved’te vlastnosti vy´beˇrove´ho koeficientu korelace. Jak se na vzhledu dvourozmeˇrne´ho tecˇkove´ho diagramu projevı´, jsou-li na´hodne´ velicˇiny X, Y kladneˇ korelova´ny? Pro na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´ popisˇte test hypote´zy o neza´vislosti velicˇin X, Y .
Autokorekcˇnı´ test 1. Necht’ (X1 ,Y1 ), . . ., (X16 ,Y16 ) je na´hodny´ vy´beˇr z dvourozmeˇrne´ho norma´l-
2.
3.
4.
5.
128
nı´ho rozlozˇenı´. Vy´beˇrovy´ koeficient korelace R(X,Y ) nabyl hodnoty −0,87. Jestlizˇe provedeme transformaci Ui = 1 + 3Xi , Vi = −3 − Yi , i = 1, . . ., 16, jakou hodnotu nabude vy´beˇrovy´ koeficient korelace R(U,V )? a) −0,61 b) 0,87 c) −0,87 Pro 12 na´hodneˇ vybrany´ch ojety´ch automobilu˚ byl vypocˇten vy´beˇrovy´ koeficient korelace mezi jejich sta´rˇ´ım v meˇsı´cı´ch a pocˇtem najety´ch kilometru˚. Nabyl hodnoty 0,831. Prˇedpokla´da´me, zˇe data pocha´zejı´ z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´. Jaka´ je hodnota testove´ statistiky pro test neza´vislosti obou velicˇin? a) 4,724 b) 0,831 c) 6,392 Ve cˇtyrˇpolnı´ kontingencˇnı´ tabulce jsou uvedeny tyto absolutnı´ cˇetnosti: a = 5, b = 3, c = 6, d = 4. Podı´l sˇancı´ je a) 1,11 b) 0,625 c) 0,9 Pro dvourozmeˇrny´ na´hodny´ vy´beˇr rozsahu n = 10 z dvourozmeˇrne´ho norma´lnı´ho rozlozˇenı´ byl vypocˇten vy´beˇrovy´ koeficient korelace. Nabyl hodnoty −0,94. Co lze usoudit o vztahu na´hodny´ch velicˇin X a Y ? a) S ru˚stem hodnot jedne´ na´hodne´ velicˇiny hodnoty druhe´ na´hodne´ velicˇiny linea´rneˇ rostou. b) Velicˇiny X a Y jsou neza´visle´. c) S ru˚stem hodnot jedne´ na´hodne´ velicˇiny hodnoty druhe´ na´hodne´ velicˇiny linea´rneˇ klesajı´. Necht’ dvourozmeˇrny´ na´hodny´ vy´beˇr pocha´zı´ z dvourozmeˇrne´ho rozlozˇenı´, ktere´ je vy´razneˇ odlisˇne´ od norma´lnı´ho. Chceme-li testovat hypote´zu, zˇe na´hodne´ velicˇiny X a Y , ktere´ jsou pomeˇrove´ho typu, jsou neza´visle´, pouzˇijeme testovou statistiku, ktera´ je zalozˇena na
a) Crame´roveˇ koeficientu b) Spearmanoveˇ koeficientu porˇadove´ korelace c) vy´beˇrove´m koeficientu korelace. Spra´vne´ odpoveˇdi:
1c)
2a)
3a)
4c)
5b)
Prˇ´ıklady 1. Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu o neza´vislosti pedagogicke´
hodnosti a pohlavı´ a vypocˇteˇte Crame´ru˚v koeficient, jsou-li k dispozici na´sledujı´cı´ u´daje: pohlavı´ pedagogicka´ hodnost profesor docent odb. asistent muzˇ 32 15 8 zˇena 34 8 3 Vy´sledek: Podmı´nky dobre´ aproximace jsou splneˇny, pouze jedna teoreticka´ cˇetnost klesne pod 5. Testova´ statistika se realizuje hodnotou 3,5, pocˇet stupnˇu˚ volnosti = 2, kriticky´ obor je W = h5,991; ). Hypote´zu o neza´vislosti pohlavı´ a pedagogicke´ hodnosti tedy nezamı´ta´me na asymptoticke´ hladineˇ vy´znamnosti 0,05. Crame´ru˚v koeficient V = 0,187. 2. Dvana´ct ru˚zny´ch softwarovy´ch firem nabı´zı´ programy pro vedenı´ u´cˇetnictvı´. Programy byly posouzeny odbornou komisı´ a komisı´ slozˇenou z profesiona´lnı´ch u´cˇetnı´ch. Vy´sledky v 1. a 2. komisi: (6, 4), (7, 5), (1, 2), (8, 10), (4, 6), (2,5; 1), (9, 7), (12, 11), (10, 8), (2,5; 3), (5, 12), (11, 9). Vypocˇteˇte Spearmanu˚v koeficient porˇadove´ korelace a na hladineˇ vy´znamnosti 0,05 testujte hypote´zu o neza´vislosti porˇadı´ v obou komisı´ch.
8
Vy´sledek: Spearmanu˚v koeficent porˇadove´ korelace je 0,715, kriticka´ hodnota pro n = 12 a α = 0,05 je 0,576. H0 zamı´ta´me na hladineˇ vy´znamnosti 0,05 ve prospeˇch oboustranne´ alternativy. 3. V dı´lneˇ pracuje 15 deˇlnı´ku˚, u nichzˇ byl zjisˇteˇn pocˇet smeˇn odpracovany´ch za meˇsı´c (velicˇina X) a pocˇet zhotoveny´ch vy´robku˚ (velicˇina Y ). Orientacˇneˇ oveˇrˇte dvourozmeˇrnou normalitu dat, vypocˇteˇte vy´beˇrovy´ koeficient korelace mezi X a Y a na hladineˇ 0,01 testujte hypote´zu o neza´vislosti velicˇin X a Y . X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81 Vy´sledek: Vzhled dvourozmeˇrne´ho tecˇkove´ho diagramu sveˇdcˇ´ı o tom, zˇe prˇedpoklad dvourozmeˇrne´ normality je opra´vneˇny´. Vy´beˇrovy´ koeficient korelace je 0,927, testova´ statistika se realizuje hodnotou 8,597, kriticky´ obor je W = (− , −3,012i ∪ h3,012, )). Hypote´zu o neza´vislosti velicˇin X a Y zamı´ta´me na hladineˇ vy´znamnosti 0,01. 4. 100 na´hodneˇ vybrany´ch muzˇu˚ a zˇen bylo dota´za´no, zda da´vajı´ prˇednost ´ daje jsou uvedeny ve cˇtyrˇpolnı´ kontingencˇnı´ nealkoholicke´mu na´poji A cˇi B. U tabulce.
8
8
129
8. Analy´za za´vislosti dvou na´hodny´ch velicˇin
pohlavı´ muzˇ zˇena
na´poj A 20 30
B 30 20
Na hladineˇ vy´znamnosti 0,05 testujte pomocı´ Fisherova faktoria´love´ho testu hypote´zu, zˇe preferovany´ typ na´poje neza´lezˇ´ı na pohlavı´ respondenta. Vy´sledek: V nasˇem prˇ´ıpadeˇ se jedna´ o jednostrannou za´vislost, zajı´ma´me se tedy o Fisher exact, one tailed. Ta je 0,03567. Protozˇe p-hodnota je mensˇ´ı nebo rovna 0,05, zamı´ta´me na hladineˇ vy´znamnosti hypote´zu, zˇe preferovany´ typ na´poje neza´lezˇ´ı na pohlavı´ respondenta. 5. V na´sledujı´cı´ tabulce jsou uvedeny cˇ´ıselne´ realizace a absolutnı´ cˇetnosti na´hodne´ho vy´beˇru (X1,Y1 ), (X1,Y2), . . ., (X62,Y62 ) z dvourozmeˇrne´ho rozlozˇenı´: x y 1 3 5 7 9 11 13 15 0 0 0 0 1 2 1 25 0 0 0 5 4 2 0 35 0 0 5 8 2 0 0 45 0 5 6 4 0 0 0 55 3 5 3 0 0 0 0 65 4 2 0 0 0 0 0 Podle vzhledu dvourozmeˇrne´ho tecˇkove´ho diagramu orientacˇneˇ posud’te dvourozmeˇrnou normalitu dat. Vypocˇteˇte vy´beˇrovy´ koeficient korelace a interpretujte ho. Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu o neza´vislosti velicˇin X a Y . Vy´sledek: Protozˇe tecˇky v dvourozmeˇrne´m tecˇkove´m diagramu vytva´rˇejı´ elipsovity´ obrazec, lze prˇipustit dvourozmeˇrnou normalitu. Vy´beˇrovy´ koeficient korelace naby´va´ hodnoty −0,899, cozˇ znamena´, zˇe mezi velicˇinami X a Y existuje dosti silna´ neprˇ´ıma´ linea´rnı´ za´vislost. Testova´ statistika se realizuje hodnotou −13,6613, odpovı´dajı´cı´ p-hodnota je velmi blı´zka´ 0, nulovou hypote´zu zamı´ta´me na hladineˇ vy´znamnosti 0,05.
130
Prˇ´ıloha A – Statisticke´ tabulky
Prˇ´ıloha A – Statisticke´ tabulky
Distribucˇnı´ funkce standardizovane´ho norma´lnı´ho rozlozˇenı´ u u u Φ(u) Φ(u) Φ(u) 0,00 0,50000 0,50 0,69146 1,00 0,84134 0,01 0,50399 0,51 0,69497 1,01 0,84375 0,02 0,50798 0,52 0,69847 1,02 0,84614 0,03 0,51197 0,53 0,70194 1,03 0,84850 0,04 0,51595 0,54 0,70540 1,04 0,85083 0,05 0,51994 0,55 0,70884 1,05 0,85314 0,06 0,52392 0,56 0,71226 1,06 0,85543 0,07 0,52790 0,57 0,71566 1,07 0,85769 0,08 0,53188 0,58 0,71904 1,08 0,85993 0,09 0,53586 0,59 0,72240 1,09 0,86214 0,10 0,53983 0,60 0,72575 1,10 0,86433 0,11 0,54380 0,61 0,72907 1,11 0,86650 0,12 0,54776 0,62 0,73237 1,12 0,86864 0,13 0,55172 0,63 0,73565 1,13 0,87076 0,14 0,55567 0,64 0,73891 1,14 0,87286 0,15 0,55962 0,65 0,74215 1,15 0,87493 0,16 0,56356 0,66 0,74537 1,16 0,87698 0,17 0,56749 0,67 0,74857 1,17 0,87900 0,18 0,57142 0,68 0,75175 1,18 0,88100 0,19 0,57535 0,69 0,75490 1,19 0,88298 0,20 0,57926 0,70 0,75804 1,20 0,88493 0,21 0,58317 0,71 0,76115 1,21 0,88686 0,22 0,58706 0,72 0,76424 1,22 0,88877 0,23 0,59095 0,73 0,76730 1,23 0,89065 0,24 0,59483 0,74 0,77035 1,24 0,89251 0,25 0,59871 0,75 0,77337 1,25 0,89435 0,26 0,60257 0,76 0,77637 1,26 0,89617 0,27 0,60642 0,77 0,77935 1,27 0,89796 0,28 0,61026 0,78 0,78230 1,28 0,89973 0,29 0,61409 0,79 0,78524 1,29 0,90147 0,30 0,61791 0,80 0,78814 1,30 0,90320 0,31 0,62172 0,81 0,79103 1,31 0,90490 0,32 0,62552 0,82 0,79389 1,32 0,90658 0,33 0,62930 0,83 0,79673 1,33 0,90824 0,34 0,63307 0,84 0,79955 1,34 0,90988 0,35 0,63683 0,85 0,80234 1,35 0,91149 0,36 0,64058 0,86 0,80511 1,36 0,91309 0,37 0,64431 0,87 0,80785 1,37 0,91466 0,38 0,64803 0,88 0,81057 1,38 0,91621 0,39 0,65173 0,89 0,81327 1,39 0,91774 0,40 0,65542 0,90 0,81594 1,40 0,91924 0,41 0,65910 0,91 0,81859 1,41 0,92073 0,42 0,66276 0,92 0,82121 1,42 0,92220 0,43 0,66640 0,93 0,82381 1,43 0,92364 0,44 0,67003 0,94 0,82639 1,44 0,92507 0,45 0,67364 0,95 0,82894 1,45 0,92647 0,46 0,67724 0,96 0,83147 1,46 0,92785 0,47 0,68082 0,97 0,83398 1,47 0,92922 0,48 0,68439 0,98 0,83646 1,48 0,93056 0,49 0,68793 0,99 0,83891 1,49 0,93189
Φ(−u) = 1 − Φ(u)
132
u 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99
Φ(u) 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
Distribucˇnı´ funkce standardizovane´ho norma´lnı´ho rozlozˇenı´ u u u Φ(u) Φ(u) Φ(u) 2,00 0,97725 2,50 0,99379 3,00 0,99865 2,01 0,97778 2,51 0,99396 3,01 0,99869 2,02 0,97831 2,52 0,99413 3,02 0,99874 2,03 0,97882 2,53 0,99430 3,03 0,99878 2,04 0,97932 2,54 0,99446 3,04 0,99882 2,05 0,97982 2,55 0,99461 3,05 0,99886 2,06 0,98030 2,56 0,99477 3,06 0,99889 2,07 0,98077 2,57 0,99492 3,07 0,99893 2,08 0,98124 2,58 0,99506 3,08 0,99897 2,09 0,98169 2,59 0,99520 3,09 0,99900 2,10 0,98214 2,60 0,99534 3,10 0,99903 2,11 0,98257 2,61 0,99547 3,11 0,99906 2,12 0,98300 2,62 0,99560 3,12 0,99910 2,13 0,98341 2,63 0,99573 3,13 0,99913 2,14 0,98382 2,64 0,99585 3,14 0,99916 2,15 0,98422 2,65 0,99598 3,15 0,99918 2,16 0,98461 2,66 0,99609 3,16 0,99921 2,17 0,98500 2,67 0,99621 3,17 0,99924 2,18 0,98537 2,68 0,99632 3,18 0,99926 2,19 0,98574 2,69 0,99643 3,19 0,99929 2,20 0,98610 2,70 0,99653 3,20 0,99931 2,21 0,98645 2,71 0,99664 3,21 0,99934 2,22 0,98679 2,72 0,99674 3,22 0,99936 2,23 0,98713 2,73 0,99683 3,23 0,99938 2,24 0,98745 2,74 0,99693 3,24 0,99940 2,25 0,98778 2,75 0,99702 3,25 0,99942 2,26 0,98809 2,76 0,99711 3,26 0,99944 2,27 0,98840 2,77 0,99720 3,27 0,99946 2,28 0,98870 2,78 0,99728 3,28 0,99948 2,29 0,98899 2,79 0,99736 3,29 0,99950 2,30 0,98928 2,80 0,99744 3,30 0,99952 2,31 0,98956 2,81 0,99752 3,31 0,99953 2,32 0,98983 2,82 0,99760 3,32 0,99955 2,33 0,99010 2,83 0,99767 3,33 0,99957 2,34 0,99036 2,84 0,99774 3,34 0,99958 2,35 0,99061 2,85 0,99781 3,35 0,99960 2,36 0,99086 2,86 0,99788 3,36 0,99961 2,37 0,99111 2,87 0,99795 3,37 0,99962 2,38 0,99134 2,88 0,99801 3,38 0,99964 2,39 0,99158 2,89 0,99807 3,39 0,99965 2,40 0,99180 2,90 0,99813 3,40 0,99966 2,41 0,99202 2,91 0,99819 3,41 0,99968 2,42 0,99224 2,92 0,99825 3,42 0,99969 2,43 0,99245 2,93 0,99831 3,43 0,99970 2,44 0,99266 2,94 0,99836 3,44 0,99971 2,45 0,99286 2,95 0,99841 3,45 0,99972 2,46 0,99305 2,96 0,99846 3,46 0,99973 2,47 0,99324 2,97 0,99851 3,47 0,99974 2,48 0,99343 2,98 0,99856 3,48 0,99975 2,49 0,99361 2,99 0,99861 3,49 0,99976
u 3,50 3,51 3,52 3,53 3,54 3,55 3,56 3,57 3,58 3,59 3,60 3,61 3,62 3,63 3,64 3,65 3,66 3,67 3,68 3,69 3,70 3,71 3,72 3,73 3,74 3,75 3,76 3,77 3,78 3,79 3,80 3,81 3,82 3,83 3,84 3,85 3,86 3,87 3,88 3,89 3,90 3,91 3,92 3,93 3,94 3,95 3,96 3,97 3,98 3,99
Φ(u) 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
Φ(−u) = 1 − Φ(u)
133
Prˇ´ıloha A – Statisticke´ tabulky
Kvantily standardizovane´ho norma´lnı´ho rozlozˇenı´
α 0,500 0,510 0,520 0,530 0,540 0,550 0,560 0,570 0,580 0,590 0,600 0,610 0,620 0,630 0,640 0,650 0,660 0,670 0,680 0,690 0,700 0,710 0,720 0,730 0,740 0,750 0,760 0,770 0,780 0,790 0,800 0,810 0,820 0,830 0,840
134
uα 0,00000 0,02507 0,05015 0,07527 0,10043 0,12566 0,15097 0,17637 0,20189 0,22754 0,25335 0,27932 0,30548 0,33185 0,35846 0,38532 0,41246 0,43991 0,46770 0,49585 0,52440 0,55338 0,58284 0,61281 0,64335 0,67449 0,70630 0,73885 0,77219 0,80642 0,84162 0,87790 0,91537 0,95417 0,99446
α 0,850 0,860 0,870 0,880 0,890 0,900 0,901 0,902 0,903 0,904 0,905 0,906 0,907 0,908 0,909 0,910 0,911 0,912 0,913 0,914 0,915 0,916 0,917 0,918 0,919 0,920 0,921 0,922 0,923 0,924 0,925 0,926 0,927 0,928 0,929
uα 1,03643 1,08032 1,12639 1,17499 1,22653 1,28155 1,28727 1,29303 1,29884 1,30469 1,31058 1,31652 1,32251 1,32854 1,33462 1,34076 1,34694 1,35317 1,35946 1,36581 1,37220 1,37866 1,38517 1,39174 1,39838 1,40507 1,41183 1,41865 1,42554 1,43250 1,43953 1,44663 1,45381 1,46106 1,46838
α 0,930 0,931 0,932 0,933 0,934 0,935 0,936 0,937 0,938 0,939 0,940 0,941 0,942 0,943 0,944 0,945 0,946 0,947 0,948 0,949 0,950 0,951 0,952 0,953 0,954 0,955 0,956 0,957 0,958 0,959 0,960 0,961 0,962 0,963 0,964
uα 1,47579 1,48328 1,49085 1,49851 1,50626 1,51410 1,52204 1,53007 1,53820 1,54643 1,55477 1,56322 1,57179 1,58047 1,58927 1,59819 1,60725 1,61644 1,62576 1,63523 1,64485 1,65463 1,66456 1,67466 1,68494 1,69540 1,70604 1,71689 1,72793 1,73920 1,75069 1,76241 1,77438 1,78661 1,79912
α 0,965 0,966 0,967 0,968 0,969 0,970 0,971 0,972 0,973 0,974 0,975 0,976 0,977 0,978 0,979 0,980 0,981 0,982 0,983 0,984 0,985 0,986 0,987 0,988 0,989 0,990 0,991 0,992 0,993 0,994 0,995 0,996 0,997 0,998 0,999
uα 1,81191 1,82501 1,83842 1,85218 1,86630 1,88079 1,89570 1,91104 1,92684 1,94313 1,95996 1,97737 1,99539 2,01409 2,03352 2,05375 2,07485 2,09693 2,12007 2,14441 2,17009 2,19729 2,22621 2,25713 2,29037 2,32635 2,36562 2,40892 2,45726 2,51214 2,57583 2,65207 2,74778 2,87816 3,09023
Kvantily Pearsonova rozlozˇenı´
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
0,001 0,001 0,000 0,002 0,024 0,091 0,210 0,381 0,598 0,857 1,152 1,479 1,834 2,214 2,617 3,041 3,483 3,942 4,416 4,905 5,407 5,921 6,447 6,983 7,529 8,085 8,649 9,222 9,803 10,391 10,986 11,588 14,688 17,916 21,251 24,674 28,173 31,738 35,362 39,036 42,757 46,520 50,320 54,155 58,022 61,918
0,005 0,005 0,000 0,010 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 8,034 8,643 9,260 9,886 10,520 11,160 11,808 12,461 13,121 13,787 17,192 20,707 24,311 27,991 31,735 35,534 39,383 43,275 47,206 51,172 55,170 59,196 63,250 67,328
α 0,010 0,010 0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,879 13,565 14,256 14,953 18,509 22,164 25,901 29,707 33,570 37,485 41,444 45,442 49,475 53,540 57,634 61,754 65,898 70,065
0,025 0,025 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791 20,569 24,433 28,366 32,357 36,398 40,482 44,603 48,758 52,942 57,153 61,389 65,647 69,925 74,222
0,050 0,050 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 17,708 18,493 22,465 26,509 30,612 34,764 38,958 43,188 47,450 51,739 56,054 60,391 64,749 69,126 73,520 77,929
135
Prˇ´ıloha A – Statisticke´ tabulky
Kvantily Pearsonova rozlozˇenı´
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
136
0,950 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 49,802 55,758 61,656 67,505 73,311 79,082 84,821 90,531 96,217 101,879 107,522 113,145 118,752 124,342
0,975 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 53,203 59,342 65,410 71,420 77,380 83,298 89,177 95,023 100,839 106,629 112,393 118,136 123,858 129,561
α 0,990 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 57,342 63,691 69,957 76,154 82,292 88,379 94,422 100,425 106,393 112,329 118,236 124,116 129,973 135,807
0,995 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,559 46,928 48,290 49,645 50,993 52,336 53,672 60,275 66,766 73,166 79,490 85,749 91,952 98,105 104,215 110,286 116,321 122,325 128,299 134,247 140,169
0,999 10,828 13,816 16,266 18,467 20,515 22,458 24,322 26,124 27,877 29,588 31,264 32,909 34,528 36,123 37,697 39,252 40,790 42,312 43,820 45,315 46,797 48,268 49,728 51,179 52,620 54,052 55,476 56,892 58,301 59,703 66,619 73,402 80,077 86,661 93,168 99,607 105,988 112,317 118,599 124,839 131,041 137,208 143,344 149,449
Kvantily Studentova rozlozˇenı´
α n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
8
0,900 3,0777 1,8856 1,6377 1,5332 1,4759 1,4398 1,4149 1,3968 1,3830 1,3722 1,3634 1,3562 1,3502 1,3450 1,3406 1,3368 1,3334 1,3304 1,3277 1,3253 1,3232 1,3212 1,3195 1,3178 1,3163 1,3150 1,3137 1,3125 1,3114 1,3104 1,2816
0,950 6,3138 2,9200 2,3534 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 1,8125 1,7959 1,7823 1,7709 1,7613 1,7531 1,7459 1,7396 1,7341 1,7291 1,7247 1,7207 1,7171 1,7139 1,7109 1,7081 1,7056 1,7033 1,7011 1,6991 1,6973 1,6449
0,975 12,7062 4,3027 3,1824 2,7764 2,5706 2,4469 2,3646 2,3060 2,2622 2,2281 2,2010 2,1788 2,1604 2,1448 2,1314 2,1199 2,1098 2,1009 2,0930 2,0860 2,0796 2,0739 2,0687 2,0639 2,0595 2,0555 2,0518 2,0484 2,0452 2,0423 1,9600
0,990 31,8205 6,9646 4,5407 3,7469 3,3649 3,1427 2,9980 2,8965 2,8214 2,7638 2,7181 2,6810 2,6503 2,6245 2,6025 2,5835 2,5669 2,5524 2,5395 2,5280 2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,3263
0,995 63,6567 9,9248 5,8409 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 3,1058 3,0545 3,0123 2,9768 2,9467 2,9208 2,8982 2,8784 2,8609 2,8453 2,8314 2,8188 2,8073 2,7969 2,7874 2,7787 2,7707 2,7633 2,7564 2,7500 2,5758
0,999 318,3088 22,3271 10,2145 7,1732 5,8934 5,2076 4,7853 4,5008 4,2968 4,1437 4,0247 3,9296 3,8520 3,7874 3,7328 3,6862 3,6458 3,6105 3,5794 3,5518 3,5272 3,5050 3,4850 3,4668 3,4502 3,4350 3,4210 3,4082 3,3962 3,3852 3,0000
137
Prˇ´ıloha A – Statisticke´ tabulky
Kvantily Fisherova-Snedecorova rozlozˇenı´ pro α = 0,95
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 120
8
138
1 161,4500 18,5128 10,1280 7,7086 6,6079 5,9874 5,5914 5,3177 5,1174 4,9646 4,8443 4,7472 4,6672 4,6001 4,5431 4,4940 4,4513 4,4139 4,3807 4,3512 4,3248 4,3009 4,2793 4,2597 4,2417 4,2252 4,2100 4,1960 4,1830 4,1709 4,0847 4,0012 3,9604 3,9201 3,8415
2 199,5000 19,0000 9,5521 6,9443 5,7861 5,1433 4,7374 4,4590 4,2565 4,1028 3,9823 3,8853 3,8056 3,7389 3,6823 3,6337 3,5915 3,5546 3,5219 3,4928 3,4668 3,4434 3,4221 3,4028 3,3852 3,3690 3,3541 3,3404 3,3277 3,3158 3,2317 3,1504 3,1108 3,0718 2,9957
3 215,7074 19,1643 9,2766 6,5914 5,4095 4,7571 4,3468 4,0662 3,8625 3,7083 3,5874 3,4903 3,4105 3,3439 3,2874 3,2389 3,1968 3,1599 3,1274 3,0984 3,0725 3,0491 3,0280 3,0088 2,9912 2,9752 2,9604 2,9467 2,9340 2,9223 2,8387 2,7581 2,7188 2,6802 2,6049
n1 4 224,5832 19,2468 9,1172 6,3882 5,1922 4,5337 4,1203 3,8379 3,6331 3,4780 3,3567 3,2592 3,1791 3,1122 3,0556 3,0069 2,9647 2,9277 2,8951 2,8661 2,8401 2,8167 2,7955 2,7763 2,7587 2,7426 2,7278 2,7141 2,7014 2,6896 2,6060 2,5252 2,4859 2,4472 2,3719
5 230,1619 19,2964 9,0135 6,2561 5,0503 4,3874 3,9715 3,6875 3,4817 3,3258 3,2039 3,1059 3,0254 2,9582 2,9013 2,8524 2,8100 2,7729 2,7401 2,7109 2,6848 2,6613 2,6400 2,6207 2,6030 2,5868 2,5719 2,5581 2,5454 2,5336 2,4495 2,3683 2,3287 2,2899 2,2141
6 233,9860 19,3295 8,9406 6,1631 4,9503 4,2839 3,8660 3,5806 3,3738 3,2172 3,0946 2,9961 2,9153 2,8477 2,7905 2,7413 2,6987 2,6613 2,6283 2,5990 2,5727 2,5491 2,5277 2,5082 2,4904 2,4741 2,4591 2,4453 2,4324 2,4205 2,3359 2,2541 2,2142 2,1750 2,0986
7 236,7684 19,3532 8,8867 6,0942 4,8759 4,2067 3,7870 3,5005 3,2927 3,1355 3,0123 2,9134 2,8321 2,7642 2,7066 2,6572 2,6143 2,5767 2,5435 2,5140 2,4876 2,4638 2,4422 2,4226 2,4047 2,3883 2,3732 2,3593 2,3463 2,3343 2,2490 2,1665 2,1263 2,0868 2,0096
Kvantily Fisherova-Snedecorova rozlozˇenı´ pro α = 0,95
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 120
8
8 238,8827 19,3710 8,8452 6,0410 4,8183 4,1468 3,7257 3,4381 3,2296 3,0717 2,9480 2,8486 2,7669 2,6987 2,6408 2,5911 2,5480 2,5102 2,4768 2,4471 2,4205 2,3965 2,3748 2,3551 2,3371 2,3205 2,3053 2,2913 2,2783 2,2662 2,1802 2,0970 2,0564 2,0164 1,9384
9 240,5433 19,3848 8,8123 5,9988 4,7725 4,0990 3,6767 3,3881 3,1789 3,0204 2,8962 2,7964 2,7144 2,6458 2,5876 2,5377 2,4943 2,4563 2,4227 2,3928 2,3660 2,3419 2,3201 2,3002 2,2821 2,2655 2,2501 2,2360 2,2229 2,2107 2,1240 2,0401 1,9991 1,9588 1,8799
10 241,8818 19,3959 8,7855 5,9644 4,7351 4,0600 3,6365 3,3472 3,1373 2,9782 2,8536 2,7534 2,6710 2,6022 2,5437 2,4935 2,4499 2,4117 2,3779 2,3479 2,3210 2,2967 2,2747 2,2547 2,2365 2,2197 2,2043 2,1900 2,1768 2,1646 2,0772 1,9926 1,9512 1,9105 1,8307
n1 11 242,9835 19,4050 8,7633 5,9358 4,7040 4,0274 3,6030 3,3130 3,1025 2,9430 2,8179 2,7173 2,6347 2,5655 2,5068 2,4564 2,4126 2,3742 2,3402 2,3100 2,2829 2,2585 2,2364 2,2163 2,1979 2,1811 2,1655 2,1512 2,1379 2,1256 2,0376 1,9522 1,9105 1,8693 1,7886
12 243,9060 19,4125 8,7446 5,9117 4,6777 3,9999 3,5747 3,2839 3,0729 2,9130 2,7876 2,6866 2,6037 2,5342 2,4753 2,4247 2,3807 2,3421 2,3080 2,2776 2,2504 2,2258 2,2036 2,1834 2,1649 2,1479 2,1323 2,1179 2,1045 2,0921 2,0035 1,9174 1,8753 1,8337 1,7522
13 244,6899 19,4189 8,7287 5,8911 4,6552 3,9764 3,5503 3,2590 3,0475 2,8872 2,7614 2,6602 2,5769 2,5073 2,4481 2,3973 2,3531 2,3143 2,2800 2,2495 2,2222 2,1975 2,1752 2,1548 2,1362 2,1192 2,1035 2,0889 2,0755 2,0630 1,9738 1,8870 1,8445 1,8026 1,7202
14 245,3640 19,4244 8,7149 5,8733 4,6358 3,9559 3,5292 3,2374 3,0255 2,8647 2,7386 2,6371 2,5536 2,4837 2,4244 2,3733 2,3290 2,2900 2,2556 2,2250 2,1975 2,1727 2,1502 2,1298 2,1111 2,0939 2,0781 2,0635 2,0500 2,0374 1,9476 1,8602 1,8174 1,7750 1,6918
139
Prˇ´ıloha A – Statisticke´ tabulky
Kvantily Fisherova-Snedecorova rozlozˇenı´ pro α = 0,95
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 120
8
140
15 245,9499 19,4291 8,7029 5,8578 4,6188 3,9381 3,5107 3,2184 3,0061 2,8450 2,7186 2,6169 2,5331 2,4630 2,4034 2,3522 2,3077 2,2686 2,2341 2,2033 2,1757 2,1508 2,1282 2,1077 2,0889 2,0716 2,0558 2,0411 2,0275 2,0148 1,9245 1,8364 1,7932 1,7505 1,6640
16 246,4639 19,4333 8,6923 5,8441 4,6038 3,9223 3,4944 3,2016 2,9890 2,8276 2,7009 2,5989 2,5149 2,4446 2,3849 2,3335 2,2888 2,2496 2,2149 2,1840 2,1563 2,1313 2,1086 2,0880 2,0691 2,0518 2,0358 2,0210 2,0073 1,9946 1,9037 1,8151 1,7716 1,7285 1,6435
17 246,9184 19,4370 8,6829 5,8320 4,5904 3,9083 3,4799 3,1867 2,9737 2,8120 2,6851 2,5828 2,4987 2,4282 2,3683 2,3167 2,2719 2,2325 2,1977 2,1667 2,1389 2,1138 2,0910 2,0703 2,0513 2,0339 2,0179 2,0030 1,9893 1,9765 1,8851 1,7959 1,7520 1,7085 1,6228
n1 18 247,3232 19,4402 8,6745 5,8211 4,5785 3,8957 3,4669 3,1733 2,9600 2,7980 2,6709 2,5684 2,4841 2,4134 2,3533 2,3016 2,2567 2,2172 2,1823 2,1511 2,1232 2,0980 2,0751 2,0543 2,0353 2,0178 2,0017 1,9868 1,9730 1,9601 1,8682 1,7784 1,7342 1,6904 1,6038
19 247,6861 19,4431 8,6670 5,8114 4,5678 3,8844 3,4551 3,1613 2,9477 2,7854 2,6581 2,5554 2,4709 2,4000 2,3398 2,2880 2,2429 2,2033 2,1683 2,1370 2,1090 2,0837 2,0608 2,0399 2,0207 2,0032 1,9870 1,9720 1,9581 1,9452 1,8529 1,7625 1,7180 1,6739 1,5865
20 248,0131 19,4458 8,6602 5,8025 4,5581 3,8742 3,4445 3,1503 2,9365 2,7740 2,6464 2,5436 2,4589 2,3879 2,3275 2,2756 2,2304 2,1906 2,1555 2,1242 2,0960 2,0707 2,0476 2,0267 2,0075 1,9898 1,9736 1,9586 1,9446 1,9317 1,8389 1,7480 1,7032 1,6587 1,5705
25 249,2601 19,4558 8,6341 5,7687 4,5209 3,8348 3,4036 3,1081 2,8932 2,7298 2,6014 2,4977 2,4123 2,3407 2,2797 2,2272 2,1815 2,1413 2,1057 2,0739 2,0454 2,0196 1,9963 1,9750 1,9554 1,9375 1,9210 1,9057 1,8915 1,8782 1,7835 1,6902 1,6440 1,5980 1,5061
Kvantily Fisherova-Snedecorova rozlozˇenı´ pro α = 0,95
n1 n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 120
8
30 250,0952 19,4624 8,6166 5,7459 4,4957 3,8082 3,3758 3,0794 2,8637 2,6996 2,5705 2,4663 2,3803 2,3082 2,2468 2,1938 2,1477 2,1071 2,0712 2,0391 2,0102 1,9842 1,9605 1,9390 1,9192 1,9010 1,8842 1,8687 1,8543 1,8409 1,7444 1,6491 1,6017 1,5543 1,4591
40 251,1432 19,4707 8,5944 5,7170 4,4638 3,7743 3,3404 3,0428 2,8259 2,6609 2,5309 2,4259 2,3392 2,2664 2,2043 2,1507 2,1040 2,0629 2,0264 1,9938 1,9645 1,9380 1,9139 1,8920 1,8718 1,8533 1,8361 1,8203 1,8055 1,7918 1,6928 1,5943 1,5449 1,4952 1,3940
60 252,1957 19,4791 8,5720 5,6877 4,4314 3,7398 3,3043 3,0053 2,7872 2,6211 2,4901 2,3842 2,2966 2,2229 2,1601 2,1058 2,0584 2,0166 1,9795 1,9464 1,9165 1,8894 1,8648 1,8424 1,8217 1,8027 1,7851 1,7689 1,7537 1,7396 1,6373 1,5343 1,4821 1,4290 1,3180
80 252,7237 19,4832 8,5607 5,6730 4,4150 3,7223 3,2860 2,9862 2,7675 2,6008 2,4692 2,3628 2,2747 2,2006 2,1373 2,0826 2,0348 1,9927 1,9552 1,9217 1,8915 1,8641 1,8392 1,8164 1,7955 1,7762 1,7584 1,7418 1,7264 1,7121 1,6077 1,5019 1,4477 1,3922 1,2735
120 253,2529 19,4874 8,5494 5,6581 4,3985 3,7047 3,2674 2,9669 2,7475 2,5801 2,4480 2,3410 2,2524 2,1778 2,1141 2,0589 2,0107 1,9681 1,9302 1,8963 1,8657 1,8380 1,8128 1,7896 1,7684 1,7488 1,7306 1,7138 1,6981 1,6835 1,5766 1,4673 1,4107 1,3519 1,2214
8
254,3100 19,4960 8,5264 5,6281 4,3650 3,6689 3,2298 2,9276 2,7067 2,5379 2,4045 2,2962 2,2064 2,1307 2,0658 2,0096 1,9604 1,9168 1,8780 1,8432 1,8117 1,7831 1,7570 1,7330 1,7110 1,6906 1,6717 1,6541 1,6376 1,6223 1,5089 1,3893 1,3247 1,2539 1,0000
141
Prˇ´ıloha A – Statisticke´ tabulky
Kvantily Fisherova-Snedecorova rozlozˇenı´ pro α = 0,975
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 120
8
142
1 647,7890 38,5063 17,4434 12,2179 10,0070 8,8131 8,0727 7,5709 7,2093 6,9367 6,7241 6,5538 6,4143 6,2979 6,1995 6,1151 6,0420 5,9781 5,9216 5,8715 5,8266 5,7863 5,7498 5,7166 5,6864 5,6586 5,6331 5,6096 5,5878 5,5675 5,4239 5,2856 5,2184 5,1523 5,0239
2 799,5000 39,0000 16,0441 10,6491 8,4336 7,2599 6,5415 6,0595 5,7147 5,4564 5,2559 5,0959 4,9653 4,8567 4,7650 4,6867 4,6189 4,5597 4,5075 4,4613 4,4199 4,3828 4,3492 4,3187 4,2909 4,2655 4,2421 4,2205 4,2006 4,1821 4,0510 3,9253 3,8643 3,8046 3,6889
3 864,1630 39,1655 15,4392 9,9792 7,7636 6,5988 5,8898 5,4160 5,0781 4,8256 4,6300 4,4742 4,3472 4,2417 4,1528 4,0768 4,0112 3,9539 3,9034 3,8587 3,8188 3,7829 3,7505 3,7211 3,6943 3,6697 3,6472 3,6264 3,6072 3,5894 3,4633 3,3425 3,2841 3,2269 3,1161
n1 4 899,5833 39,2484 15,1010 9,6045 7,3879 6,2272 5,5226 5,0526 4,7181 4,4683 4,2751 4,1212 3,9959 3,8919 3,8043 3,7294 3,6648 3,6083 3,5587 3,5147 3,4754 3,4401 3,4083 3,3794 3,3530 3,3289 3,3067 3,2863 3,2674 3,2499 3,1261 3,0077 2,9504 2,8943 2,7858
5 921,8479 39,2982 14,8848 9,3645 7,1464 5,9876 5,2852 4,8173 4,4844 4,2361 4,0440 3,8911 3,7667 3,6634 3,5764 3,5021 3,4379 3,3820 3,3327 3,2891 3,2501 3,2151 3,1835 3,1548 3,1287 3,1048 3,0828 3,0626 3,0438 3,0265 2,9037 2,7863 2,7295 2,6740 2,5665
6 937,1111 39,3315 14,7347 9,1973 6,9777 5,8198 5,1186 4,6517 4,3197 4,0721 3,8807 3,7283 3,6043 3,5014 3,4147 3,3406 3,2767 3,2209 3,1718 3,1283 3,0895 3,0546 3,0232 2,9946 2,9685 2,9447 2,9228 2,9027 2,8840 2,8667 2,7444 2,6274 2,5708 2,5154 2,4082
7 948,2169 39,3552 14,6244 9,0741 6,8531 5,6955 4,9949 4,5286 4,1970 3,9498 3,7586 3,6065 3,4827 3,3799 3,2934 3,2194 3,1556 3,0999 3,0509 3,0074 2,9686 2,9338 2,9023 2,8738 2,8478 2,8240 2,8021 2,7820 2,7633 2,7460 2,6238 2,5068 2,4502 2,3948 2,2875
Kvantily Fisherova-Snedecorova rozlozˇenı´ pro α = 0,975
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 120
8
8 956,6562 39,3730 14,5399 8,9796 6,7572 5,5996 4,8993 4,4333 4,1020 3,8549 3,6638 3,5118 3,3880 3,2853 3,1987 3,1248 3,0610 3,0053 2,9563 2,9128 2,8740 2,8392 2,8077 2,7791 2,7531 2,7293 2,7074 2,6872 2,6686 2,6513 2,5289 2,4117 2,3549 2,2994 2,1918
9 963,2846 39,3869 14,4731 8,9047 6,6811 5,5234 4,8232 4,3572 4,0260 3,7790 3,5879 3,4358 3,3120 3,2093 3,1227 3,0488 2,9849 2,9291 2,8801 2,8365 2,7977 2,7628 2,7313 2,7027 2,6766 2,6528 2,6309 2,6106 2,5919 2,5746 2,4519 2,3344 2,2775 2,2217 2,1136
10 968,6274 39,3980 14,4189 8,8439 6,6192 5,4613 4,7611 4,2951 3,9639 3,7168 3,5257 3,3736 3,2497 3,1469 3,0602 2,9862 2,9222 2,8664 2,8172 2,7737 2,7348 2,6998 2,6682 2,6396 2,6135 2,5896 2,5676 2,5473 2,5286 2,5112 2,3882 2,2702 2,2130 2,1570 2,0483
n1 11 973,0252 39,4071 14,3742 8,7935 6,5678 5,4098 4,7095 4,2434 3,9121 3,6649 3,4737 3,3215 3,1975 3,0946 3,0078 2,9337 2,8696 2,8137 2,7645 2,7209 2,6819 2,6469 2,6152 2,5865 2,5603 2,5363 2,5143 2,4940 2,4752 2,4577 2,3343 2,2159 2,1584 2,1021 1,9927
12 976,7080 39,4146 14,3366 8,7512 6,5245 5,3662 4,6658 4,1997 3,8682 3,6209 3,4296 3,2773 3,1532 3,0502 2,9633 2,8890 2,8249 2,7689 2,7196 2,6758 2,6368 2,6017 2,5699 2,5411 2,5149 2,4908 2,4688 2,4484 2,4295 2,4120 2,2882 2,1692 2,1115 2,0548 1,9447
13 979,8368 39,4210 14,3045 8,7150 6,4876 5,3290 4,6285 4,1622 3,8306 3,5832 3,3917 3,2393 3,1150 3,0119 2,9249 2,8506 2,7863 2,7302 2,6808 2,6369 2,5978 2,5626 2,5308 2,5019 2,4756 2,4515 2,4293 2,4089 2,3900 2,3724 2,2481 2,1286 2,0706 2,0136 1,9027
14 982,5278 39,4265 14,2768 8,6838 6,4556 5,2968 4,5961 4,1297 3,7980 3,5504 3,3588 3,2062 3,0819 2,9786 2,8915 2,8170 2,7526 2,6964 2,6469 2,6030 2,5638 2,5285 2,4966 2,4677 2,4413 2,4171 2,3949 2,3743 2,3554 2,3378 2,2130 2,0929 2,0346 1,9773 1,8656
143
Prˇ´ıloha A – Statisticke´ tabulky
Kvantily Fisherova-Snedecorova rozlozˇenı´ pro α = 0,975
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 120
8
144
15 984,8668 39,4313 14,2527 8,6565 6,4277 5,2687 4,5678 4,1012 3,7694 3,5217 3,3299 3,1772 3,0527 2,9493 2,8621 2,7875 2,7230 2,6667 2,6171 2,5731 2,5338 2,4984 2,4665 2,4374 2,4110 2,3867 2,3644 2,3438 2,3248 2,3072 2,1819 2,0613 2,0026 1,9450 1,8326
16 986,9187 39,4354 14,2315 8,6326 6,4032 5,2439 4,5428 4,0761 3,7441 3,4963 3,3044 3,1515 3,0269 2,9234 2,8360 2,7614 2,6968 2,6404 2,5907 2,5465 2,5071 2,4717 2,4396 2,4105 2,3840 2,3597 2,3373 2,3167 2,2976 2,2799 2,1542 2,0330 1,9741 1,9161 1,8028
17 988,7331 39,4391 14,2127 8,6113 6,3814 5,2218 4,5206 4,0538 3,7216 3,4737 3,2816 3,1286 3,0039 2,9003 2,8128 2,7380 2,6733 2,6168 2,5670 2,5228 2,4833 2,4478 2,4157 2,3865 2,3599 2,3355 2,3131 2,2924 2,2732 2,2554 2,1293 2,0076 1,9483 1,8900 1,7759
n1 18 990,3490 39,4424 14,1960 8,5924 6,3619 5,2021 4,5008 4,0338 3,7015 3,4534 3,2612 3,1081 2,9832 2,8795 2,7919 2,7170 2,6522 2,5956 2,5457 2,5014 2,4618 2,4262 2,3940 2,3648 2,3381 2,3137 2,2912 2,2704 2,2512 2,2334 2,1068 1,9846 1,9250 1,8663 1,7515
19 991,7973 39,4453 14,1810 8,5753 6,3444 5,1844 4,4829 4,0158 3,6833 3,4351 3,2428 3,0896 2,9646 2,8607 2,7730 2,6980 2,6331 2,5764 2,5265 2,4821 2,4424 2,4067 2,3745 2,3452 2,3184 2,2939 2,2713 2,2505 2,2313 2,2134 2,0864 1,9636 1,9037 1,8447 1,7291
20 993,1028 39,4479 14,1674 8,5599 6,3286 5,1684 4,4667 3,9995 3,6669 3,4185 3,2261 3,0728 2,9477 2,8437 2,7559 2,6808 2,6158 2,5590 2,5089 2,4645 2,4247 2,3890 2,3567 2,3273 2,3005 2,2759 2,2533 2,2324 2,2131 2,1952 2,0677 1,9445 1,8843 1,8249 1,7085
25 998,0808 39,4579 14,1155 8,5010 6,2679 5,1069 4,4045 3,9367 3,6035 3,3546 3,1616 3,0077 2,8821 2,7777 2,6894 2,6138 2,5484 2,4912 2,4408 2,3959 2,3558 2,3198 2,2871 2,2574 2,2303 2,2054 2,1826 2,1615 2,1419 2,1237 1,9943 1,8687 1,8071 1,7462 1,6259
Kvantily Fisherova-Snedecorova rozlozˇenı´ pro α = 0,975
n1 n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 120
8
30 1001,4140 39,4646 14,0805 8,4613 6,2269 5,0652 4,3624 3,8940 3,5604 3,3110 3,1176 2,9633 2,8372 2,7324 2,6437 2,5678 2,5020 2,4445 2,3937 2,3486 2,3082 2,2718 2,2389 2,2090 2,1816 2,1565 2,1334 2,1121 2,0923 2,0739 1,9429 1,8152 1,7523 1,6899 1,5660
40 1005,5980 39,4729 14,0365 8,4111 6,1750 5,0125 4,3089 3,8398 3,5055 3,2554 3,0613 2,9063 2,7797 2,6742 2,5850 2,5085 2,4422 2,3842 2,3329 2,2873 2,2465 2,2097 2,1763 2,1460 2,1183 2,0928 2,0693 2,0477 2,0276 2,0089 1,8752 1,7440 1,6790 1,6141 1,4835
60 1009,8000 39,4812 13,9921 8,3604 6,1225 4,9589 4,2544 3,7844 3,4493 3,1984 3,0035 2,8478 2,7204 2,6142 2,5242 2,4471 2,3801 2,3214 2,2696 2,2234 2,1819 2,1446 2,1107 2,0799 2,0516 2,0257 2,0018 1,9797 1,9591 1,9400 1,8028 1,6668 1,5987 1,5299 1,3883
80 1011,9080 39,4854 13,9697 8,3349 6,0960 4,9318 4,2268 3,7563 3,4207 3,1694 2,9740 2,8178 2,6900 2,5833 2,4930 2,4154 2,3481 2,2890 2,2368 2,1902 2,1485 2,1108 2,0766 2,0454 2,0169 1,9907 1,9665 1,9441 1,9232 1,9039 1,7644 1,6252 1,5549 1,4834 1,3329
120 1014,0200 39,4896 13,9473 8,3092 6,0693 4,9044 4,1989 3,7279 3,3918 3,1399 2,9441 2,7874 2,6590 2,5519 2,4611 2,3831 2,3153 2,2558 2,2032 2,1562 2,1141 2,0760 2,0415 2,0099 1,9811 1,9545 1,9299 1,9072 1,8861 1,8664 1,7242 1,5810 1,5079 1,4327 1,2684
8
1018,3000 39,4980 13,9020 8,2573 6,0153 4,8491 4,1423 3,6702 3,3329 3,0798 2,8828 2,7249 2,5955 2,4872 2,3953 2,3163 2,2474 2,1869 2,1333 2,0853 2,0422 2,0032 1,9677 1,9353 1,9055 1,8781 1,8527 1,8291 1,8072 1,7867 1,6371 1,4821 1,3997 1,3104 1,0000
145
Prˇ´ıloha A – Statisticke´ tabulky
Kriticke´ hodnoty jednovy´beˇrove´ho Wilcoxonova testu pro n = 6, 7, . . . , 30, α = 0,05 a α = 0,01
n 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
α = 0,05 kriticka´ hodnota 0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 58 65 73 81 89 98 107 116 126 137
α = 0,01 kriticka´ hodnota — — 0 1 3 5 7 9 12 15 19 23 27 32 37 42 48 54 61 68 75 83 91 100 109
Zdroj: ANDEˇL, J.: Matematicka´ statistika. (Tabulka XVIII.9).
146
Kriticke´ hodnoty dvouvy´beˇrove´ho Wilcoxonova testu pro m = 1, 2, . . . , 30, n = 1, 2, . . . , 20, α = 0, 05
m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – –
2
3
4
5
6
7
8
9
n 10 11 12 13 14 15 16 17 18 19 20
– – – – – – 0 0 0 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 4 4 4 4 5
– – 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 13 13
0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14 15 16 17 17 18 19 20 21 22 23
2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30 32 33
5 6 8 10 11 13 14 16 17 19 21 22 24 25 27 29 30 32 33 35 37 38 40 42 43
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54
13 15 17 19 22 24 26 29 31 34 36 38 41 43 45 48 50 53 55 57 60 62 65
17 20 23 26 28 31 34 37 39 42 45 48 50 53 56 59 62 64 67 70 73 76
23 26 29 33 36 39 42 45 48 52 55 58 61 64 67 71 74 77 80 83 87
30 33 37 40 44 47 51 55 58 62 65 69 73 76 80 83 87 90 94 98
37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109
45 50 54 59 63 67 72 76 80 85 89 94 98 102 107 111 116 120
55 59 64 69 74 78 83 88 93 98 102 107 112 117 122 127 131
64 70 75 80 85 90 96 101 106 111 117 122 127 132 138 143
75 81 86 92 98 103 109 115 120 126 132 137 143 149 154
87 93 99 105 111 117 123 129 135 141 147 154 160 166
99 106 112 119 125 132 138 145 151 158 164 171 177
113 119 126 133 140 147 154 161 168 175 182 189
127 134 141 149 156 161 171 178 186 193 200
Zdroj: ANDEˇL, J.: Matematicka´ statistika. (Tabulka XVIII.10a).
147
Prˇ´ıloha A – Statisticke´ tabulky
Kriticke´ hodnoty a modifikovane´ kriticke´ hodnoty Kolmogorovova-Smirnovova testu pro n = 5, . . . , 30, α = 0,05
n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Dn (α ) 0,563 0,519 0,483 0,454 0,430 0,409 0,391 0,375 0,361 0,349 0,338 0,327 0,318 0,309 0,301 0,294 0,287 0,281 0,275 0,242 0,238 0,233 0,229 0,225 0,221 0,218
Modif. Dn (α ) 0,343 0,319 0,300 0,285 0,271 0,258 0,249 0,242 0,234 0,227 0,220 0,213 0,206 0,200 0,195 0,190 0,187 0,183 0,180 0,176 0,173 0,171 0,168 0,166 0,163 0,161
Zdroj: SPRENT, P.: Nonparametric Statistical Method. Second edition. (Table IV)
148
Kriticke´ hodnoty pro Spearmanu˚v koeficient porˇadove´ korelace pro n = 5, 6, . . . , 30, α = 0,05
n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
kriticka´ hodnota 0,900 0,829 0,745 0,691 0,683 0,636 0,609 0,580 0,555 0,534 0,518 0,500 0,485 0,472 0,458 0,445 0,435 0,424 0,415 0,406 0,398 0,389 0,382 0,375 0,369 0,362
Zdroj: ANDEˇL, J.: Matematicka´ statistika, Tab. XVIII.6.
149
Prˇ´ıloha A – Statisticke´ tabulky
Kriticke´ hodnoty Neme´nyiho metody, r = 3, 4, . . . , 10, n = 1, 2, . . . , 25, α = 0,05
r n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
3 3,3 8,8 15,7 23,9 33,1 43,3 54,4 66,3 75,9 92,3 106,3 120,9 136,2 152,1 168,6 185,6 203,1 221,2 239,8 258,8 278,4 298,4 318,9 339,8 361,1
4 4,7 12,6 22,7 34,6 48,1 62,9 79,1 96,4 114,8 134,3 154,8 176,2 198,5 221,7 245,7 270,6 296,2 322,6 349,7 377,6 406,1 435,3 465,2 495,8 527,0
5 6,1 16,5 29,9 45,6 63,5 83,2 104,6 127,6 152,0 177,8 205,0 233,4 263,0 293,8 325,7 358,6 392,6 427,6 463,6 500,5 538,4 577,2 616,9 657,4 698,8
6 7,5 20,5 37,3 57,0 79,3 104,0 130,8 159,6 190,2 222,6 256,6 292,2 329,3 367,8 407,8 449,1 491,7 535,5 580,6 626,9 674,4 723,0 772,7 823,5 875,4
7 9,0 24,7 44,8 68,6 95,5 125,3 157,6 192,4 229,3 268,4 309,4 352,4 397,1 443,6 491,9 541,7 593,1 646,1 700,5 756,4 813,7 872,3 932,4 993,7 1056,3
8 10,5 28,9 52,5 80,4 112,0 147,0 184,9 225,7 269,1 315,0 363,2 413,6 466,2 520,8 577,4 635,9 696,3 758,5 822,4 888,1 955,4 1024,3 1094,8 1166,8 1240,4
9 12,0 33,1 60,3 92,4 128,8 169,1 212,8 259,7 309,6 362,4 417,9 476,0 536,5 599,4 664,6 732,0 801,5 873,1 946,7 1022,3 1099,8 1179,1 1260,3 1343,2 1427,9
Zdroj: BLATNA´, D.: Neparametricke´ metody. Tabulka T21/1.
150
10 13,5 37,4 68,2 104,6 145,8 191,4 240,9 294,1 350,6 410,5 473,3 539,1 607,7 679,0 752,8 829,2 907,9 989,0 1072,4 1158,1 1245,9 1335,7 1427,7 1521,7 1611,6
Prˇ´ıloha B – Zada´nı´ POT
Prˇ´ıloha B – Zada´nı´ POT
Zada´nı´ POT Na fakultu specia´lnı´ch studiı´ ve meˇsteˇ N. se v minule´m sˇkolnı´m roce dostavilo 341 uchazecˇu˚ k prˇijı´macı´mu rˇ´ızenı´. Podrobili se pı´semne´ prˇijı´macı´ zkousˇce, z nı´zˇ bylo mozˇno zı´skat maxima´lneˇ 80 bodu˚. Jelikozˇ fakulta nema´ k dispozici takovou prostorovou kapacitu, aby vsˇichni uchazecˇi mohli vykonat zkousˇku nara´z, byli rozdeˇleni na trˇi skupiny, ktere´ skla´daly zkousˇku postupneˇ v 9 h, 12 h a 15 h. O uchazecˇ´ıch jsou k dispozici na´sledujı´cı´ u´daje: Popis situace:
Pohlavı´ (1 muzˇ, 2 zˇena) . . . promeˇnna´ SEX Forma studia (1 dennı´ studium, 2 kombinovane´ studium, 3 celozˇivotnı´ studium) . . . promeˇnna´ FS Doba kona´nı´ zkousˇky (9 h, 12 h, 15 h) . . . promeˇnna´ CAS Pru˚meˇr zna´mek ze strˇednı´ sˇkoly . . . promeˇnna´ SS PRUMER Pocˇet bodu˚ zı´skany´ch z pı´semne´ prˇijı´macı´ zkousˇky . . . promeˇnna´ BODY Informace o prˇijetı´ na fakultu (0 ne, 1 ano) . . . promeˇnna´ PRIJETI ´ kol 1. Sestrojte empiricky´ 95% interval spolehlivosti pro strˇednı´ hodnotu promeˇnne´ U BODY, a to
a) b) c) d) e) f) g) h) i)
pro vsˇechny uchazecˇe pro muzˇe pro zˇeny pro uchazecˇe o dennı´ studium pro uchazecˇe o kombinovane´ studium pro uchazecˇe o celozˇivotnı´ studium pro uchazecˇe, kterˇ´ı konali zkousˇku v 9 h pro uchazecˇe, kterˇ´ı konali zkousˇku ve 12 h pro uchazecˇe, kterˇ´ı konali zkousˇku v 15 h.
Upozorneˇnı´: ve vsˇech prˇ´ıpadech oveˇrˇte pomocı´ K-S testu cˇi S-W testu a pomocı´ N–P grafu normalitu promeˇnne´ BODY. ´ kol 2. U
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe se nelisˇ´ı strˇednı´ hodnota promeˇnne´ BODY pro muzˇe a zˇeny. Nakreslete krabicove´ diagramy.
´ kol 3. Na hladineˇ vy´znamnosti 0,05 proved’te analy´zu rozptylu promeˇnne´ BODY pro U faktor FS (forma studia). V prˇ´ıpadeˇ zamı´tnutı´ nulove´ hypote´zy aplikujte Scheffe´ho metodu mnohona´sobne´ho porovna´va´nı´. Pro vsˇechny u´rovneˇ faktoru nakreslete krabicove´ diagramy. ´ kol 4. U
Na hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe rozlozˇenı´ promeˇnne´ BODY je stejne´ ve skupina´ch uchazecˇu˚, kterˇ´ı konali prˇijı´macı´ zkousˇku v 9 h, 12 h, 15 h. V prˇ´ıpadeˇ zamı´tnutı´ nulove´ hypote´zy zjisteˇte, ktere´ dvojice skupin uchazecˇu˚ se lisˇ´ı na hladineˇ vy´znamnosti 0,05. Nakreslete krabicove´ diagramy. ´ kol 5. U
Sestavte kontingencˇnı´ tabulku promeˇnny´ch SEX a FS a simulta´nnı´ cˇetnosti zna´zorneˇte te´zˇ graficky. Na asymptoticke´ hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe forma studia neza´visı´ na pohlavı´ uchazecˇe. Vypocˇteˇte Crame´ru˚v koeficient. ´ kol 6. U
a) Pomocı´ Fisherova prˇesne´ho testu testujte na hladineˇ vy´znamnosti 0,05 hypote´zu, zˇe prˇijetı´ na fakultu specia´lnı´ch studiı´ neza´visı´ na pohlavı´ uchazecˇe. Vypocˇteˇte te´zˇ podı´l sˇancı´ na prˇijetı´ pro muzˇe a pro zˇeny a sestrojte asymptoticky´ 95% interval spolehlivosti pro podı´l sˇancı´.
152
b) Na asymptoticke´ hladineˇ vy´znamnosti 0,05 testujte hypote´zu, zˇe podı´ly uchazecˇu˚ prˇijaty´ch do dennı´ho studia, kombinovane´ho studia a celozˇivotnı´ho studia jsou stejne´. ´ kol 7. U
Budeme se zaby´vat vztahem mezi pru˚meˇrny´m prospeˇchem na strˇednı´ sˇkole (promeˇnna´ SS PRUMER) a pocˇtem bodu˚ dosazˇeny´m u prˇijı´macı´ zkousˇky (promeˇnna´ BODY). a) Na hladineˇ vy´znamnosti 0,05 oveˇrˇte pomocı´ K-S testu, S-W testu a N–P grafu, zda promeˇnna´ SS PRUMER se rˇ´ıdı´ norma´lnı´m rozlozˇenı´m, a to pro vsˇechny uchazecˇe a pak zvla´sˇt’pro muzˇe a pro zˇeny. b) Pomocı´ dvourozmeˇrne´ho tecˇkove´ho diagramu se zakreslenou 95% elipsou orientacˇneˇ oveˇrˇte dvourozmeˇrnou normalitu promeˇnny´ch SS PRUMER a BODY, a to pro vsˇechny uchazecˇe a pak zvla´sˇt’pro muzˇe a pro zˇeny. c) Vypocˇteˇte koeficient korelace promeˇnny´ch SS PRUMER a BODY, a to pro vsˇechny uchazecˇe a pak zvla´sˇt’ pro muzˇe a pro zˇeny. Na hladineˇ vy´znamnosti 0,05 testujte v teˇchto trˇech prˇ´ıpadech hypote´zu o neza´vislosti promeˇnny´ch SS PRUMER a BODY.
153
Prˇ´ıloha B – Zada´nı´ POT
154
Rejstrˇ´ık
Rejstrˇ´ık
p-hodnota, 24
na´hodny´ vy´beˇr, 16
A , , alternativa levostranna´, 22 oboustranna´, 22 pravostranna´, 22 analy´za rozptylu, 88
O , , obor kriticky´, 23 nezamı´tnutı´, 23 odchylka smeˇrodatna´ vy´beˇrova´, 17
B , , bodovy´ odhad parametricke´ funkce, 18 box plot, 38 F , , F-test, 79 Fisheru˚v prˇesny´ test, 120 funkce distribucˇnı´ vy´beˇrova´, 17 funkce parametricka´, 18 H , , histogram, 44 hodnota extre´mnı´, 39 kriticka´, 23 odlehla´, 39 hypote´za alternativnı´, 22 nulova´, 22
Q , , Q–Q plot, 43
C , H, chyba 1. druhu, 22 2. druhu, 22
S , , sı´la testu, 23 soucˇet cˇtvercu˚ celkovy´, 89 rezidua´lnı´, 89 skupinovy´, 89 statistika pivotova´, 20
I, , interval spolehlivosti, 19 levostranny´, 19 pravostranny´, 20
K , , koeficient Crame´ru˚v, 117 korelace Pearsonu˚v, 124 Spearmanu˚v, 122 vy´beˇrovy´, 17, 124 kovariance vy´beˇrova´, 17 krabicovy´ diagram, 38 ,L,
M , , metoda mnohona´sobne´ho porovna´va´nı´, 91, 109 Neme´nyiho, 109 Scheffe´ho, 91 Tukeyova, 91 model M0, 89 M1, 90
N , , N–P plot, 41
156
P , , podı´l sˇancı´, 120 porovna´va´nı´ blokove´, 34 pa´rove´, 33 porˇadı´ cˇı´sla, 41 pozorova´nı´ dvojne´, 33 jednoduche´, 32 mnohona´sobne´, 33 pru˚meˇr vy´beˇrovy´, 17
R , , riziko, 20 rovnice reparametrizacˇnı´, 89 rozptyl vy´beˇrovy´, 17
T , , t-test dvouvy´beˇrovy´, 78 jednovy´beˇrovy´, 64 pa´rovy´, 66 tabulka analy´zy rozptylu, 90 cˇtyrˇpolnı´, 120 kontingencˇnı´, 116 test Bartlettu˚v, 90 Kolmogorovu˚v-Smirnovu˚v, 46 Kruskalu˚v-Wallisu˚v, 108 Levenu˚v, 90 media´novy´, 108 normality, 46, 47 o rozptylu, 64 Shapiru˚v-Wilksu˚v, 47 Wilcoxonu˚v dvouvy´beˇrovy´, 106 jednovy´beˇrovy´, 102 pa´rovy´, 105 testova´ statistika, 23
Z , , z-test, 64