Statistick´ e metody v ekonomii Ing. Michael Rost, Ph.D. ˇ esk´ Jihoˇ cesk´ a univerzita v C ych Budˇ ejovic´ıch
Test χ2 v kontingenˇ cn´ı tabulce typu 2 × 2 Jde vlastnˇ e o speci´ aln´ı pˇ r´ıpad χ2 testu pro ˇ ctyˇ rpoln´ı tabulku.
Celkem
n11 n21 n•1
n12 n22 n•2
Celkem n1• n2• n
Je-li tedy c = r = 2, pak je testovou statistikou veliˇ cina χ2, pˇ riˇ cemˇ z pro ni plat´ı: χ2
(n11 · n22 − n12 · n21)2 =n . n1• · n2• · n•1 · n•2
Testov´ a statistika se ˇ r´ıd´ı za platnosti nulov´ e hypot´ ezy χ2 rozdˇ elen´ım s (r − 1)(c − 1) = 1 stupnˇ em volnosti.
c Rost 2007 °
Test χ2 v kontingenˇ cn´ı tabulce typu 2 × 2 Pro ´ uplnost malou pozn´ amku: Je tˇ reba m´ıt na pamˇ eti, ˇ ze se tento test pro ˇ ctyˇ rpoln´ı (tetrachorickou) kontingenˇ cn´ı tabulku m˚ uˇ zeme vyuˇ z´ıvat jen pro dostateˇ cnˇ e velk´ e rozsahy v´ ybˇ eru n. Pro n < 20 jsou v´ ysledky tohoto testu velmi nepˇ resn´ e a nelze jej pouˇ z´ıt. Pro rozsahy 20 < n < 40 jej lze pouˇ z´ıt pouze v pˇ r´ıpadˇ e, ˇ ze ˇ z´ adn´ a teoretick´ aˇ cetnost nen´ı menˇ s´ı neˇ z 5.
c Rost 2007 °
Pˇ r´ıklad ˇ ecka, Byl proveden pr˚ uzkum v souvislosti s koup´ı z´ ajezdu do R kter´ y pravidelnˇ e organizuje jist´ a cestovn´ı kancel´ aˇ r se s´ıdlem v Praze. V´ ysledky pr˚ uzkumu jsou uspoˇ r´ ad´ any v kontingenˇ cn´ı tabulce. Pˇ redchoz´ı ˇ ecku dovolen´ a v R Ano Ne Celkem
ˇ ecku Rok 2006 dovolen´ a v R Ano Ne 187 150 179 502 366 652
Celkem 337 681 1018
c Rost 2007 °
ˇ sen´ı v R Reˇ Numerick´ e vyhodnocen´ı provedeme opˇ et prostˇ rednictv´ım Erka. V pr˚ ubˇ ehu v´ ypoˇ ctu nebude vyuˇ zita Yatesova korekce na spojitost. data<-matrix(c(187,179,150,502),2,2) chisq.test(data,correct=FALSE) Pearson’s Chi-squared test data:
data X-squared = 83.5031, df = 1, p-value < 2.2e-16
Je zˇ rejm´ e, ˇ ze m˚ uˇ zeme zam´ıtnout hypot´ ezu o nez´ avislosti. Jinak ˇ reˇ ceno m˚ uˇ zeme zam´ıtnout hypot´ ezu, kter´ a tvrd´ı, ˇ ze z´ akazn´ık ˇ ecku ovlivnˇ nen´ı ve sv´ ych pl´ anech o dovolen´ e v R en pˇ redchoz´ı pˇ r´ıtomnost´ı/nepˇ r´ıtomnost´ı v t´ eto zemi.
c Rost 2007 °
Yatesova korekce V souvislosti s t´ımto testem se m˚ uˇ zeme setkat s tzv. Yatesovo korekc´ı. Hodnotu korigovan´ e testov´ e statistiky urˇ c´ıme prostˇ rednictv´ım vzorce χ2
(|n11n22 − n12n21| − n/2)2 =n . n1•n2•n•1n•2
Yatesova korekce ˇ cin´ı test konzervativnˇ ejˇ s´ım, tj. sniˇ zuje hodnotu testov´ e statistiky a je tak obt´ıˇ znˇ ejˇ s´ı zam´ıtnout testovanou hypot´ ezu. Na druh´ e stranˇ e vˇ sak vzr˚ ust´ a pravdˇ epodobnost toho, ˇ ze se dopust´ıme chyby druh´ eho druhu, za jinak stejn´ ych podm´ınek.
c Rost 2007 °
M´ıra tˇ esnosti asociaˇ cn´ı z´ avislosti koeficient asociace χ2-test umoˇ zˇ nuje posoudit, zda mezi sledovan´ ymi znaky existuje z´ avislost. Nevypov´ıd´ a vˇ sak o tˇ esnosti sledovan´ e z´ avislosti. V pˇ r´ıpadˇ e kontingenˇ cn´ı tabulky typu 2 × 2 se dosti ˇ casto pouˇ z´ıv´ a jednoduch´ a m´ıra tˇ esnosti z´ avislosti - koeficient asociace: V =
n11 · n22 − n12 · n21 √ n1•n2•n•1n•2
Tento koeficient nab´ yv´ a hodnot z intervalu h−1; 1i. Hodnoty 1 v pˇ r´ıpadˇ e ´ upln´ e pozitivn´ı z´ avislosti (asociaci) alternativn´ıch znak˚ u X a Y (vyskytuj´ı se jen pˇ r´ıpady ++ a −−). Hodnoty -1 pak v pˇ r´ıpadˇ e ´ upln´ e negativn´ı z´ avislosti (asociaci) alternativn´ıch znak˚ u X a Y (vyskytuj´ı se jen pˇ r´ıpady +− a −+). Existuj´ı i jin´ e m´ıry asociaˇ cn´ı z´ avislosti, napˇ r. Pearson˚ uv koeficient kontingence CP . c Rost 2007 °
McNemar˚ uv test McNemar˚ uv test je testem symetrie pro ˇ ctyˇ rpoln´ı kontingenˇ cn´ı tabulku. S jeho pomoc´ı je moˇ zn´ e ˇ reˇ sit situaci, ve kter´ e m´ ame n n´ ahodnˇ e vybran´ ych objekt˚ u, u kter´ ych je zn´ am´ a pˇ r´ıtomnost ˇ ci nepˇ r´ıtomnost sledovan´ eho znaku. Vˇ sech tˇ echto n objekt˚ u je n´ aslednˇ e vystaveno urˇ cit´ emu z´ asahu, napˇ r. pod´ an´ı l´ eku, probˇ ehnut´ı reklamn´ı ˇ ci volebn´ı kampanˇ e. Po z´ asahu je opˇ et u vˇ sech n objekt˚ u zjiˇ st’ov´ ana pˇ r´ıtomnost ˇ ci nepˇ r´ıtomnost sledovan´ eho znaku. McNemar˚ uv test pom´ ah´ a v takov´ e situaci prok´ azat, zda se po z´ asahu zmˇ enila pravdˇ epodobnost v´ yskytu znaku u sledovan´ ych objekt˚ u.
c Rost 2007 °
Uvaˇ zujme tedy n´ asleduj´ıc´ı kontingenˇ cn´ı tabulku: Pˇ red z´ asahem Pˇ r´ıtomnost Nepˇ r´ıtomnost Celkem
Po z´ asahu Pˇ r´ıtomnost Nepˇ r´ıtomnost n11 n12 n21 n22 n•1 n•2
Celkem n1• n2• n
Testujeme tedy H0 : p1• = p•1, coˇ z je ekvivalentn´ı hypot´ eze H0 : p12 = p21. Testovou veliˇ cinou je veliˇ cina χ2 definovan´ a takto: χ2
(n12 − n21)2 = n12 + n21
Veliˇ cina χ2 m´ a asymptoticky χ2 rozdˇ elen´ı s jedn´ım stupnˇ em volnosti. Testovanou hypot´ ezu o symetrii zam´ıt´ ame, pokud testov´ a statistika χ2 pˇ rekroˇ c´ı 1 − α procentn´ı kvantil χ2 rozdˇ elen´ı s jedn´ım stupnˇ em volnosti. c Rost 2007 °
Pˇ r´ıklad Byl proveden marketingov´ y v´ yzkum, v nˇ emˇ z byla sledov´ ana zmˇ ena postoj˚ u 200 spotˇ rebitel˚ u pˇ red kampan´ı a po dvoumˇ es´ıˇ cn´ı reklamn´ı kampani na produkt nejmenovan´ e firmy. Pozorovan´ e ´ udaje jsou uvedeny ve ˇ ctyˇ rpoln´ı tabulce: Pˇ red Po kampani kampan´ı Ano Ne Ano 85 35 Ne 50 30 P 135 65
P
120 80 200
Doˇ slo ke zmˇ enˇ e postoj˚ u sledovan´ ych lid´ı? Otestujme, zda lze pˇ redpokl´ adat v´ yznamnou zmˇ enu ve struktuˇ re ˇ cetnost´ı. Provedeme to prostˇ rednictv´ım McNemarova testu.
c Rost 2007 °
ˇ sen´ı v R Reˇ
data<-matrix(c(85,50,35,30),2,2) rownames(data)<-c("koupili","nekoupili") colnames(data)<-c("koupi","nekoupi") mcnemar.test(data,correct=F) McNemar’s Chi-squared test data: data McNemar’s chi-squared = 2.6471, df = 1, p-value = 0.1037
Je zˇ rejm´ e, ˇ ze nedoˇ slo ke statisticky v´ yznamn´ e zmˇ enˇ e v postoj´ıch. V pˇ r´ıpadˇ e mal´ eho poˇ ctu pozorov´ an´ı m˚ uˇ zeme zav´ est korekci. Testov´ e krit´ erium m´ a pak n´ asleduj´ıc´ı tvar: 2 (|n − n | − 1) 12 21 . χ2 = n12 + n21 Postup by byl obdobn´ y: mcnemar.test(data) c Rost 2007 °
Testy hypot´ ez o parametru π rozdˇ elen´ı A(π) V pˇ r´ıpadˇ e, ˇ ze testujeme hypot´ ezu o shodˇ e relativn´ıch ˇ cetnost´ı, tj. H0 : π = π0 , m˚ uˇ zeme v pˇ r´ıpadˇ e velk´ eho v´ ybˇ eru vyuˇ z´ıt testov´ eho krit´ eria: π ˆ − π0
U =q π0(1 − π0)
√ · n ,
kde π ˆ pˇ redstavuje v´ ybˇ erov´ y pod´ıl, tzn. π ˆ = m/n. Symbol m oznaˇ cuje poˇ cet pokus˚ u ve kter´ ych nastal n´ ami sledovan´ y jev. Symbol n pak celkov´ y poˇ cet pokus˚ u. Uvˇ edomte si, ˇ ze v´ ysledek takov´ eho testu z´ avis´ı jak na hodnotˇ eπ ˆ, tak i na velikosti souboru, ze kter´ eho poˇ c´ıt´ ame onu relativn´ı ˇ cetnost π ˆ.
c Rost 2007 °
Kritick´ e obory Kritick´ e obory pro jednotliv´ e alternativn´ı hypot´ ezy lze v pˇ r´ıpadˇ e dostateˇ cn´ eho poˇ ctu pozorov´ an´ı definovat takto: H0 π ˆ = π0
HA π ˆ < π0 π ˆ > π0 π ˆ 6= π0
K {u; u ≤ uα} {u; u ≥ u1−α} {u; |u| ≥ u1−α/2}
Zde symbol uα pˇ redstavuje α-procentn´ı kvantil norm´ aln´ıho normovan´ eho rozdˇ elen´ı. Tuto hodnotu lze zjistit v R prostˇ rednictv´ım pˇ r´ıkazu qnorm(α)
c Rost 2007 °
Pˇ r´ıklad Pˇ ri v´ yrobˇ e urˇ cit´ eho v´ yrobku je povolen pod´ıl vadn´ ych v´ yrobk˚ u nejv´ yˇ se 0,04. Bylo odebr´ ano 250 vzork˚ u, z nichˇ z se uk´ azalo, ˇ ze je 21 vadn´ ych. Prob´ıh´ a v´ yroba v´ yrobk˚ u korektnˇ e - ve stanoven´ ych mez´ıch, ˇ ci je v´ yrobn´ı proces nastaven ˇ spatnˇ e? Volte α = 0, 05 Zformulujme potˇ rebn´ e hypot´ ezy: H0 : π ≤ π0
HA : π > π0
Dosad´ıme-li do vzorce z´ısk´ ame: 0, 084 − 0, 04 √ U =q · 250 = 3, 55023 0, 04 · (0, 96) atd ...
c Rost 2007 °
Jak nato v R
prop.test(21,250,p=.04,alternative="g",correct=FALSE) 1-sample proportions test without continuity correction data: 21 out of 250, null probability 0.04 X-squared = 12.6042, df = 1, p-value = 0.0001924 alternative hypothesis: true p is greater than 0.04 95 percent confidence interval: 0.05940864 1.00000000 sample estimates: p 0.084
Z v´ ysledku je zˇ rejm´ e, ˇ ze hodnota p-value = 1, 924·10−4. Lze tedy ˇ r´ıci, ˇ ze na z´ akladˇ e pˇ redloˇ zen´ ych ´ udaj˚ u a na hladinˇ e v´ yznamnosti α = 0, 05, m˚ uˇ zeme zam´ıtnout nulovou hypot´ ezu, ve prospˇ ech alternativn´ı hypot´ ezy. V´ yrobn´ı proces je tedy ˇ spatnˇ e nastaven. c Rost 2007 °
Testy hypot´ ez typu π1 = π2 ve velk´ ych v´ ybˇ erech, kde Xi ∼ A(πi), i = 1, 2. V pˇ r´ıpadˇ e, ˇ ze testujeme hypot´ ezu o shodˇ e dvou relativn´ıch ˇ cetnost´ı, pˇ riˇ cemˇ z pˇ redpokl´ ad´ ame nez´ avislost v´ ybˇ er˚ u, tj testujeme-li: H 0 : π1 = π2 , m˚ uˇ zeme, v pˇ r´ıpadˇ e velk´ eho v´ ybˇ eru vyuˇ z´ıt testov´ eho krit´ eria: và ! u u π ˆ1 − π ˆ2 t n1n2 q U = , n + n 1 2 π ¯(1 − π ¯)
kde πˆi pˇ redstavuje i-tou relativn´ı ˇ cetnost a pr˚ umˇ ernou relativn´ı ˇ cetnost π ¯ stanov´ıme jako: m1 + m2 n π ˆ + n2π ˆ2 = 1 1 . n1 + n2 n1 + n2 V pˇ r´ıpadˇ e dostateˇ cn´ eho poˇ ctu pozorov´ an´ı v obou skupin´ ach lze ˇ r´ıci, ˇ ze U ∼ N(0; 1). π ¯=
c Rost 2007 °
Kritick´ e hodnoty a pˇ r´ıklad Kritick´ e obory pro jednotliv´ e alternativn´ı hypot´ ezy lze v pˇ r´ıpadˇ e dostateˇ cn´ eho poˇ ctu pozorov´ an´ı definovat n´ asledovnˇ e: H0 π ˆ1 = π2
HA π ˆ1 < π2 π ˆ1 > π2 π ˆ1 6= π2
K {u; u ≤ uα} {u; u ≥ u1−α} {u; |u| ≥ u1−α/2}
Ve dvou z´ avodech A a B se vyr´ ab´ı urˇ cit´ y v´ yrobek stejnou technologi´ı. Pod´ıl vadn´ ych v´ yrobk˚ u by mˇ el b´ yt stejn´ y. Z 200 v´ yrobk˚ u z´ avodu A bylo 10 vadn´ ych. Z 250 v´ yrobk˚ u z´ avodu B byl vadn´ ych 23. Je pod´ıl vadn´ ych v´ yrobk˚ u v z´ avodˇ e A niˇ zˇ s´ı neˇ z v z´ avodˇ e B? Volte α = 0, 05.
c Rost 2007 °
ˇ sen´ı v R Reˇ Hypot´ ezu tedy specifikujeme jako H 0 : π1 ≥ π2
versus
HA : π1 < π2
prop.test(c(10,23),c(200,250),correct=FALSE,alternative="l") 2-sample test for equality of proportions without continuity correction data: c(10, 23) out of c(200, 250) X-squared = 2.8842, df = 1, p-value = 0.04473 alternative hypothesis: less 95 percent confidence interval: -1.000000000 -0.002673067 sample estimates: prop 1 prop 2 0.050 0.092
Vzhledem k dosaˇ zen´ e hladinˇ e v´ yznamnosti (p-value = 0,04473) lze ˇ r´ıci, ˇ ze z´ avod B m´ a statisticky v´ yznamnˇ e vyˇ sˇ s´ı pod´ıl vadn´ ych v´ yrobk˚ u neˇ z z´ avod A. c Rost 2007 °