ˇ ROVA ´ ´ BE MI´RY STATISTICKE´ VAZBY, VY ˇ ENI´, STATISTICKA ´ ANALY ´ ZA SˇETR ´ CH DAT DOTAZNI´KOVY
Obsah 1
Statisticka´ data ´ vod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 U 1.2 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 1
2
Mı´ry statisticke´ vazby podle typu dat 2.1 Za´kladnı´ mı´ry statisticke´ vazby pro kardina´lnı´ data . . . . . . . . . . . . . . . . . . 2.2 Spearmanu˚v korelacˇnı´ koeficient . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Kontingencˇnı´ tabulka pro nomina´lnı´ data . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Mı´ry statisticke´ vazby pro nomina´lnı´ data a testova´nı´ neza´vislosti v kontingencˇnı´ tabulce 2.5 Mı´ry statisticke´ vazby pro ordina´lnı´ data . . . . . . . . . . . . . . . . . . . . . . . .
2 2 3 4 5 7
3
Statisticka´ analy´za dotaznı´kovy´ch dat
8
Literatura
10
Prˇ´ıklady k procvicˇenı´
11
1 1.1
Statisticka´ data ´ vod U
V tomto odstavci nejdrˇ´ıve prˇipomeneme za´kladnı´ typy statisticky´ch dat a na´sledneˇ se budeme veˇnovat mı´ra´m statisticke´ vazby podle typu statisticky´ch dat. Du˚raz bude kladen na kladen na popis statisticke´ vazby mezi dveˇma ordina´lnı´mi a nomina´lnı´mi promeˇnny´mi, s nimizˇ se cˇasto setka´va´me prˇi vyhodnocova´nı´ dotaznı´kovy´ch sˇetrˇenı´.
1.2
Data
Statisticka´ data vznikajı´ opakovany´m pozorova´nı´m nebo opakovany´m meˇrˇenı´m neˇjake´ modelove´ na´hodne´ velicˇiny X, v popisne´ statistice se neˇkdy nazy´va´ znakem a znacˇ´ı se x. Pozorova´nı´ nebo
Operacˇnı´ program Vzdeˇla´va´nı´ pro konkurenceschopnost Na´zev projektu: Inovace magisterske´ho studijnı´ho programu Fakulty ekonomiky a managementu Registracˇnı´ cˇı´slo projektu: CZ.1.07/2.2.00/28.0326 ˇ TEM C ˇ ESKE´ REPUBLIKY. ´ LNI´M FONDEM A STA´TNI´M ROZPOC PROJEKT JE SPOLUFINANCOVA´N EVROPSKY´M SOCIA
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat meˇrˇenı´ na´hodne´ velicˇiny (znaku) X zjisˇteˇne´ na n objektech studovane´ho statisticke´ho souboru pak znacˇ´ıme x1 , . . . , xn . Podle stupneˇ kvantifikace studovane´ho znaku x lze znaky rozdeˇlit do trˇ´ı za´kladnı´ch skupin: 1. Znaky nomina´lnı´ prˇipousˇteˇjı´ mezi hodnotami x1 , x2 , xn pouze relaci rovnosti. Jsou to znaky, jejichzˇ hodnoty mohou by´t sice cˇ´ıselneˇ oznacˇeny, ale tyto cˇ´ıselne´ hodnoty pouze ko´dujı´ nebo charakterizujı´ neˇjake´ kategorie (naprˇ. oznacˇujı´ povola´nı´, tramvajovou linku, barvu, typ rizikove´ho jevu, politickou stranu a pod.) S takovy´mi znaky velmi cˇasto pracujeme prˇi zpracova´nı´ dotaznı´kovy´ch anket. 2. Znaky ordina´lnı´ prˇipousˇteˇjı´ kromeˇ relace rovnosti take´ obsahovou interpretaci relace usporˇa´da´nı´ x1 < x2 (nebo x1 > x2 ). Usporˇa´da´nı´ vyjadrˇuje veˇtsˇ´ı nebo mensˇ´ı intenzitu popisovane´ vlastnosti. Typicky´m prˇ´ıkladem takovy´ch znaku˚ jsou hodnoty sledovane´ velicˇiny na neˇjake´ usporˇa´dane´ sˇka´le hodnot naprˇ. zna´mky ve sˇkole, bodova´nı´ potravin prˇi jejich senzoricky´ch zkousˇka´ch, stupenˇ nebezpecˇ´ı - rizika apod. Tyto znaky jsou rovneˇzˇ cˇaste´ prˇi vyhodnocova´nı´ dotaznı´kovy´ch pru˚zkumu˚, obvykla´ by´va´ trˇ´ıstupnˇova´, peˇtı´stupnˇova´ nebo sedmistupnˇova´ sˇka´la mozˇny´ch hodnot znaku. 3. Znaky kardina´lnı´ znaky neboli cˇ´ıselne´ znaky prˇipousˇteˇjı´ obsahovou interpretaci nejen relacı´ rovnosti a usporˇa´da´nı´ ale take´ operacı´ soucˇtu x1 + x2 a rozdı´lu x1 − x2 . To znamena´, zˇe v prˇ´ıpadeˇ kdy x1 − x2 = x2 − x3 > 0, je interval (x2 , x1 ) stejneˇ dlouhy´ jako interval (x3 , x2 ) a tato stejna´ de´lka obou intervalu˚ prˇedstavuje u obou dvojic x1 , x2 a x2 , x3 take´ stejny´ rozdı´l v extenziteˇ zkoumane´ vlastnosti. Ma´-li u kardina´lnı´ho znaku smysluplnou obsahovou interpretaci take´ operace podı´lu, tj. x1 /x2 , pak se kardina´lnı´ znak nazy´va´ pomeˇrovy´. V prˇ´ıpadeˇ, kdy operace podı´lu nema´ smysluplnou obsahovou interpretaci, nazy´va´ se tento kardina´lnı´ znak intervalovy´. Prˇ´ıkladem intervalove´ho znaku mu˚zˇe by´t naprˇ. teplota meˇrˇena´ ve stupnı´ch Celsia, kde nula na dane´ stupnici vznikla pouhou konvencı´. Prˇ´ıkladem pomeˇrove´ho znaku je naprˇ. hmotnost, vy´sˇka, hodinova´ mzda, zˇivotnost zarˇ´ızenı´, doba bezporuchove´ cˇinnosti apod.
2
Mı´ry statisticke´ vazby podle typu dat
Prˇi studiu statisticke´ vazby mezi promeˇnny´mi je velmi du˚lezˇity´ typ dat s nimizˇ pracujeme. Proto da´le uvedeme vybrane´ mı´ry statisticke´ vazby pro typy dat, ktere´ byly analyzova´ny v prˇedchozı´ch kapitola´ch.
2.1
Za´kladnı´ mı´ry statisticke´ vazby pro kardina´lnı´ data
Prˇedpokla´dejme, zˇe (X1 , Y1 )0 , . . . , (Xn , Yn )0 je na´hodny´ vy´beˇr z dvourozmeˇrne´ho rozdeˇlenı´ pravdeˇpodobnosti. Jde tedy o n neza´visly´ch pozorova´nı´ na´hodne´ho vektoru (X, Y )0 za homogennı´ch podmı´nek. Pak cˇasto uzˇ´ıvano mı´rou statisticke´ vazby mezi X a Y je drˇ´ıve definovany´ vy´beˇrovy´ korelacˇnı´ koeficient Pn (Xi − X)(Yi − Y ) , rxy = qP i=1 Pn n 2 2 (X − X) (Y − Y ) i i=1 i=1 i kde X a Y jsou vy´beˇrove´ pru˚meˇry margina´lnı´ch vy´beˇru˚ . Tento korelacˇnı´ koeficient je take´ nazy´va´n Pearsonu˚v korelacˇnı´ koeficient. 2
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat Prˇipomenˇme jenom, zˇe Pearsonu˚v korelacˇnı´ koeficient rxy naby´va´ hodnot od -1 do 1. Neza´vislost velicˇin X a Y implikuje rxy blı´zke´ nule a linea´rnı´ vazba mezi X a Y implikuje rxy rovne´ 1 nebo -1, podle toho, zda jde o prˇ´ımou nebo neprˇ´ımou vazbu. Deterministicka´ vazba (nelinea´rnı´) mezi X a Y nemusı´ mı´t za na´sledek, zˇe rxy je blı´zke´ 1 nebo -1. Je dobrˇe zna´me´,zˇe za prˇedpokladu, zˇe na´hodny´ vy´beˇr (X1 , Y1 )0 , . . . , (Xn , Yn )0 je z dvourozmeˇrne´ho norma´lnı´ho rozdeˇlenı´, lze pomocı´ koeficientu R testovat neza´vislost velicˇin X a Y . Testovacı´ statistika je √ R n−2 T =√ 1 − R2 a ma´ za prˇedpokladu neza´vislosti velicˇin X a Y Studentovo t rozdeˇlenı´ o n − 2 stupnı´ch volnosti. Tedy hypote´zu neza´vislosti velicˇin X a Y zamı´ta´me na hladineˇ vy´znamnosti α, kdyzˇ |T | ≥ t1− α2 (n − 2), kde t1− α2 (n − 2) je 1 − α2 kvantil Studentova t rozdeˇlenı´ o n − 2 stupnı´ch volnosti.
2.2
Spearmanu˚v korelacˇnı´ koeficient
V prˇ´ıpadeˇ, zˇe dany´ na´hodny´ vy´beˇr pocha´zı´ pocha´zı´ ze spojite´ho rozdeˇlenı´ (kardina´lnı´ data), ktere´ nutneˇ nemusı´ by´t z dvourozmeˇrne´ho norma´lnı´ho rozdeˇlenı´ nebo v prˇ´ıpadeˇ, zˇe zpracova´va´me ordina´lnı´ data, kde se nevyskytujı´ shodna´ pozorova´nı´, lze pro popis statisticke´ vazby pouzˇ´ıt Spermanu˚v korelacˇnı´ koeficient. Pro dany´ na´hodny´ na´hodny´ vy´beˇr (X1 , Y1 )0 , . . . , (Xn , Yn )0 stanovı´me vektory porˇadı´: R1 , . . . , Rn pro margina´lnı´ vy´beˇr X1 , . . . , Xn a Q1 , . . . , Qn pro margina´lnı´ vy´beˇr Y1 , . . . , Yn . Spearmanu˚v korelacˇnı´ koeficient RS se potom definuje jako Pearsonu˚v korelacˇnı´ koeficient pocˇ´ıtany´ z dvojic (R1 , Q1 )0 , . . . , (Rn , Qn )0 . Da´le lze uka´zat, zˇe vy´pocˇet Spearmanova korelacˇnı´ho koeficientu RS lze prove´st podle jednoduche´ho vzorce vzorce n
RS = 1 −
X 6 (Ri − Qi )2 . n(n2 − 1) i=1
Kriticke´ hodnoty pro testova´nı´ hypote´zy neza´vislosti X a Y lze nale´zt v monografii Andeˇl: Statisticke´ metody, tabulka T22. Prˇi hodnota´ch |RS |, ktere´ prˇekrocˇ´ı kritickou hodnotu z tabulky T22, se neza´vislost X a Y zamı´ta´. Prˇ´ı dostatecˇne´m rozsahu vy´beˇru, obvykle stacˇ´ı kdyzˇ n > 30, lze vyuzˇ´ıt asymptotickou normalitu koeficientu RS a hypote´zu neza´vislosti zamı´tnout pro u1− α |RS | ≥ √ 2 , n−1 kde u1− α2 je α2 kvantil standardizovane´ho norma´lnı´ho rozdeˇlenı´ N (0, 1). Pozdeˇji uvedeme korekci Spearmanova korelacˇnı´ho koeficientu pro prˇ´ıpad, zˇe mezi pozorova´nı´mi je mnoho shodny´ch (tedy v margina´lnı´ch vy´beˇrech se vyskytujı´ stejneˇ velka´ - shodna´ pozorova´nı´). Takove´ korekce lze vyuzˇ´ıt i prˇi pouzˇitı´ Spearmanova koralacˇnı´ho koeficientu na ordina´lnı´ nebo i nomina´lnı´ data.
3
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat P
X\Y 1 .. .
1 p11 .. .
... ... .. .
j p1j .. .
... ... .. .
s p1,s .. .
p1+ .. .
i .. .
pi1 .. .
... .. .
pij .. .
... .. .
npi,s .. .
pi+ .. .
r P
pr1 p+1
... ...
nprj p+j
... ...
prs p+s
pr+ 1
Tabulka 1: Pravdeˇpodobnostnı´ funkce
2.3
Kontingencˇnı´ tabulka pro nomina´lnı´ data
Budeme prˇedpokla´dat, zˇe X a Y jsou nomina´lnı´ velicˇiny, obor hodnot X obsahuje r hodnot (kategoriı´, ktere´ budou ko´dova´ny cˇ´ısly 1, 2, . . . , r) a podobneˇ obor hodnot Y obsahuje s hodnot (kategoriı´, ktere´ budou ko´dova´ny cˇ´ısly 1, 2, . . . , s,). Pomocı´ pravdeˇpodobnosti P zavedeme sdruzˇenou pravdeˇpodobnostnı´ funkci na´hodny´ch velicˇin X a Y vztahem pij = P (X = i ∧ Y = j) a odpovı´dajı´cı´ margina´lnı´ pravdeˇpodobnostnı´ funkci velicˇiny X vztahem pi+ = P (X = i) =
s X
pij
j=1
a pravdeˇpodobnostnı´ funkci velicˇiny Y vztahem p+j = P (Y = j) =
r X
pij ,
i=1
prˇicˇemzˇ i = 1, . . . , r a j = 1, . . . , s. Hodnoty pravdeˇpodobnostnı´ funkce lze usporˇa´dat do tabulky Tabulky 1. Podobneˇ kdyzˇ je da´n na´hodny´ vy´beˇr (X1 , Y1 )0 , . . . , (Xn , Yn )0 z tohoto diskre´tnı´ho dvourozmeˇrne´ho rozdeˇlenı´, lze jej zapsat pomocı´ cˇetnostı´ podobneˇ do Tabulky 2. Tato tabulka se nazy´va´ kontingencˇnı´ tabulka. Drˇ´ıve, nezˇ ji forma´lneˇ popisˇeme, zavedeme cˇetnost nijP jako pocˇet dvojic ve vy´beˇru, kdy P X = i a za´rovenˇ Y = j. Da´le oznacˇ´ıme ni+ = sj=1 nij a n+j = ri=1 nij . Pak kontingencˇnı´ tabulka pro na´hodny´ vy´beˇr (X1 , Y1 )0 , . . . , (Xn , Yn )0 je uvedena v Tabulce 2. V prˇ´ıpadeˇ, zˇe nomina´lnı´ znaky X a Y jsou neza´visle´, platı´, zˇe pij = pi+ p+j . Podobneˇ cˇetnosti ocˇeka´vane´ v kontingencˇnı´ tabulce prˇi neza´vislosti promeˇnny´ch X a Y jsou tvaru n n n oij = n nni+ n+j = i+n +j a nazveme je ocˇeka´vane´ cˇetnosti. Jsou-li znaky X a Y neza´visle´, lze ocˇeka´vat, zˇe empiricke´ cˇetnosti nij budou odpovı´dat ocˇeka´vany´m cˇetnostem oij . 4
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat P
X\Y 1 .. .
1 n11 .. .
... ... .. .
j n1j .. .
... ... .. .
s n1,s .. .
n1+ .. .
i .. .
ni1 .. .
... .. .
nij .. .
... .. .
ni,s .. .
ni+ .. .
r P
nr1 n+1
... ...
nrj n+j
... ...
nrs n+s
nr+ n
Tabulka 2: Kontingencˇnı´ tabulka
2.4
Mı´ry statisticke´ vazby pro nomina´lnı´ data a testova´nı´ neza´vislosti v kontingencˇnı´ tabulce
Pro popis statisticke´ vazby mezi nomina´lnı´mi promeˇnny´mi lze uzˇ´ıt celou rˇadu statistik, ktere´ lze pocˇ´ıtat z dat usporˇa´dany´ch do kontingencˇnı´ tabulky. Proto se take´ statisticka´ za´vislost u nomina´lnı´ch promeˇnny´ch cˇasto oznacˇuje jako kontingence. Uvedeme prˇehled meˇr kontingence spolu s jejich dalsˇ´ımi mozˇny´mi aplikacemi. Statistika χ2 Pak k testova´nı´ neza´vislosti na´hodny´ch velicˇin Xa Y lze pouzˇ´ıt statistiku χ2 = Σri=1 Σsj=1
(nij − oij )2 , oij
(1)
ktera´ ma´ asymptoticky rozdeˇlenı´ χ2 o (r − 1)(s − 1) stupnı´ch volnosti. Hypote´zu neza´vislosti promeˇnny´ch X a Y pak zamı´ta´me na hladineˇ vy´znamnosti α, kdyzˇ χ2 ≥ χ21−α ((r − 1)(s − 1)), kde χ21−α ((r − 1)(s − 1)) je 1 − α kvantil Pearsonova χ2 rozdeˇlenı´ o (r − 1)(s − 1) stupnı´ch volnosti. Test lze pouzˇ´ıt, kdyzˇ vsˇechny ocˇeka´vane´ cˇetnosti jsou dosti velke´, obvykle se prˇedpokla´da´, zˇe oij ≥ 5. Statistiku χ2 lze pouzˇ´ıt i pro testova´nı´ shody neˇkolika diskre´tnı´ch rozdeˇlenı´ (vy´beˇru˚ z kategoria´lnı´ch promeˇnny´ch). Je-li da´no r neza´visly´ch na´hodny´ch vy´beˇru˚, i−ty´ rozsahu ni+ a kazˇdy´ vy´beˇr je z diskre´tnı´ho rozdeˇlenı´ pravdeˇpodobnostı´, ktere´ ma´ obor hodnot mnozˇinu {1, 2, . . . , s}, pak je mozˇne´ tyto vy´beˇry prˇehledneˇ zapsat do kontingencˇnı´ tabulky Tab. 2, kde margina´lnı´ cˇetnosti n1+ . . . , nr+ jsou pevneˇ dane´ rozsahy vy´beˇru˚. Test homogenity rˇa´dkovy´ch cˇetnostı´ (tedy test hypote´zy, zˇe vektory cˇetnostı´ uvedene´ v rˇa´dcı´ch kontingencˇnı´ tabulky majı´ stejne´ rozdeˇlenı´), pak lze prove´st pomocı´ statistiky χ2 danou vzorcem (1) stejny´m zpu˚sobem, jako se prova´deˇl test neza´vislosti. Od statistiky χ2 je odvozena rˇada koeficientu˚, ktere´ popisujı´ intenzitu statisticke´ vazby mezi velicˇinami X a Y . Patrˇ´ı mezi neˇ Pearsonu˚v kontingencˇnı´ koeficient CP , koeficient φ, Cramerovo V a Cˇuprovu˚v kontingencˇnı´ koeficient.Bude o nich pojedna´no da´le. Nejprve ale uvedeme veˇrohodnostnı´ pomeˇr G2 , ktery´ je asymptoticky ekvivalentnı´ se statistikou χ2 .
5
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat Veˇrohodnostnı´ pomeˇr G2 K testova´nı´ neza´vislosti na´hodny´ch velicˇin X a Y lze vyuzˇ´ıt take´ statistiky 2
G =2
R X S X i=1 j=1
nij ln
nij , oij
ktera´ se nazy´va´ veˇrohodnostnı´ pomeˇr. Uvedena´ statistika ma´ asymptoticky chı´-kvadra´t rozdeˇlenı´ s (r − 1)(s − 1) stupni volnosti. Prˇi testova´nı´ se tedy postupuje stejneˇ jako v prˇedchozı´m prˇ´ıpadeˇ. Pearsonu˚v kontingencˇnı´ koeficient CP Tento koeficient lze stanovit podle vzorce s CP =
χ2P . χ2P + n
a vyjadrˇuje intenzitu vza´jemne´ za´vislosti dvou promeˇnny´ch X a Y . Naby´va´ hodnot z intervalu D E p 0; (q − 1)/q , kde q = min {r, s}. Hodnoty 0 naby´va´ v prˇ´ıpade neza´vislosti. Cˇ´ım veˇtsˇ´ı hodnotu zı´ska´va´me prˇi stejne´m n, r a s, tı´m je za´vislost silneˇjsˇ´ı. Koeficient φ Koeficient φ je take´ odvozen od statistiky χ2 . Je da´n jednoduchy´m vzorcem r χ2P . ϕ= n Cramerovo V Koeficient Crame´rovo V je da´n vzorcem s V =
χ2P , n(q − 1)
kde q = min {R, S}. Ve jmenovateli je tedy maxima´lnı´ hodnota, ktere´ mu˚zˇe dosa´hnout Pearsonova statistika chı´-kvadra´t. To znamena´, zˇe tento koeficient naby´va´ hodnot z intervalu od 0 do 1. Pro tabulku, kdy alesponˇ jedna promeˇnna´ je dichotomicka´ (pocˇet odpovı´dajı´cı´ch rˇa´dku˚ nebo sloupcu˚ je 2, dosta´va´me koeficient ϕ.
6
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat ˇ uprovu˚v kontingencˇnı´ koeficient CT C Cˇuprovu˚v kontingencˇnı´ koeficient je da´n vzorcem s CT =
χ2P /n
p
(r − 1)(s − 1)
.
V prˇ´ıpadeˇ cˇtvercove´ tabulky, ktera´ ma´ stejny´ pocˇet rˇa´dku˚ a sloupcu˚, platı´, zˇe q−1 = a tedy hodnoty Crame´rova V a Cˇuprovova kontingencˇnı´ho koeficientu jsou shodne´.
2.5
p (r − 1)(s − 1)
Mı´ry statisticke´ vazby pro ordina´lnı´ data
Jak bylo rˇecˇeno, u nomina´lnı´ch promeˇnny´ch je statisticka´ za´vislost oznacˇova´na jako kontingence, u ordina´lnı´ch promeˇnny´ch jizˇ hovorˇ´ıme o korelaci. Rozlisˇujeme prˇitom dva typy korelace, a to pozitivnı´ (nı´zky´m hodnota´m jedne´ promeˇnne´ odpovı´dajı´ nı´zke´ hodnoty promeˇnne´ druhe´) a negativnı´ (nı´zky´m hodnota´m hodnota´m jedne´ promeˇnne´ odpovı´dajı´ vysoke´ hodnoty druhe´ promeˇnne´).
Modifikace Spearmanova koeficientu porˇadove´ korelace pro ordina´lnı´ data s velky´m pocˇtem shod Jak bylo uvedeno drˇ´ıve Spearmanu˚v koeficient porˇadove´ korelace vycha´zı´ z vektoru˚ porˇadı´: R1 , . . . , Rn a Q1 , . . . , Qn . Modifikovany´ Spearmanu˚v koeficient porˇadove´ korelace pro kontingencˇnı´ tabulku lze stanovit v neˇkolika krocı´ch. a) Nejdrˇ´ıve kategoriı´m promeˇnne´ X prˇirˇadı´me postupneˇ modifikovana´ porˇadı´ Ri : i−1
X ni+ + 1 n1+ + 1 nl+ + , Ri = R1 = 2 2 l=1 pro 2 ≤ i ≤ r, a kategoriı´m promeˇnne´ Y prˇirˇadı´me pro 2 ≤ j ≤ s modifikovana´ porˇadı´ Qj : j−1
X n+j + 1 n+1 + 1 , Qj = n+l + . Q1 = 2 2 l=1 b) Da´le stanovı´me hodnoty 2
d =
r X s X
nij (Ri − Qj )2 ,
i=1 j=1 r
ΩX =
1 3 X 3 (n − ni+ ), 12 i=1
ΩY =
1 3 X 3 (n − n+j ). 12 j=1
s
7
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat Pomocı´ nich pak vypocˇteme modifikovany´ Spearmanu˚v koeficient porˇadove´ korelace rS podle vzorce Ω X + ΩY − δ 2 √ . 2 ΩX ΩY P P Tento vzorec lze jesˇteˇ zjednodusˇit pro prˇ´ıpad, kdy ri=1 n3i+ = sj=1 n3+j , pak ΩX = ΩY . Odtud pak dosazenı´m do vzorce pro rS zı´ska´me jeho jednodusˇsˇ´ı tvar rS =
rS =
δ2 2 · ΩX − δ 2 p = 1 − . 2 2 · ΩX 2 δX
P P Platı´-li navı´c, zˇe ri=1 n3i+ = sj=1 n3+j = n, dostaneme pro vy´pocˇet Spearmanova koeficientu porˇadove´ korelace rS drˇ´ıve uvedeny´ vzorec pro kardina´lnı´ data δ2 6 · δ2 rS = 1 − 1 3 =1− . n(n2 − 1) 2 12 (n − n) Jiny´mi slovy pro kardina´lnı´ promeˇnne´ X a Y , kdy se zˇa´dna´ hodnota neopakuje, je modifikovany´ Spearmanu˚v korelacˇnı´ koeficient roven jeho nemodifikovane´ verzi. Spearmanu˚v koeficient naby´va´ hodnot z intervalu h−1; 1i. Pokud jsou u kazˇde´ statisticke´ jednotky u obou promeˇnny´ch stejna´ porˇadı´, pak koeficient naby´va´ hodnoty 1 (pozitivnı´ korelace, tzv. prˇ´ıma´ za´vislost). Pokud serˇadı´me hodnoty promeˇnne´ X vzestupneˇ a zı´ska´me tı´m sestupne´ porˇadı´ u promeˇnne´ Y , hodnota koeficientu je -1 (nagativnı´ korelace, tzv. neprˇ´ıma´ za´vislost). Hodnota 0 znamena´ linea´rnı´ neza´vislost. Test o nulovost tohoto koeficientu (H0 : ρS = 0) se prova´dı´ pomocı´ statistiky s n−2 , t = rS 1 − rS2 ktera´ ma´ za prˇedpokladu platnosti nulove´ hypote´zy Studentovho t rozdeˇlenı´ s (n − 2) stupni volnosti. Dalsˇ´ı mı´ry porˇadove´ korelace pro ordina´lnı´ data V praxi se v neˇktery´ch situacı´ch pouzˇ´ıvajı´ dalsˇ´ı mı´ry pro popis porˇadove´ korelace ordina´lnı´ch dat. Patrˇ´ı mezi neˇ Goodmanova-Kruskalova γ, da´le Kendallovo τb take´ take´ nazy´vane´ Kendallu˚v koeficient porˇadove´ korelace a take´ Kendallovo τc . Zde se jimi nebudeme detailneˇji zaby´vat, za´jemce je mu˚zˇe najı´t v monografii Rˇezankova´ H.: Analy´za dat z dotaznı´kovy´ch sˇetrˇenı´. Profesional Publishing 2011. Konecˇneˇ za´veˇrem uved’me, zˇe modernı´ statisticka´ teorie vycha´zı´ z nove´ho prˇ´ıstupu ke studiu statisticke´ vazby mezi na´hodny´mi velicˇinami a k studiu neza´vislosti na´hodny´ch velicˇin, ktery´ je zalozˇen na matematicke´ teorii kopulı´.
3
Statisticka´ analy´za dotaznı´kovy´ch dat
Dotaznı´kova´ sˇetrˇenı´ patrˇ´ı mezi za´kladnı´ sociologicke´ metody pro zjisˇt’ova´nı´ na´zoru˚ dane´ skupiny respondentu˚ na urcˇitou problematiky. Vy´sledkem dotaznı´kovy´ch sˇetrˇenı´ by´vajı´ statisticka´ data, ktera´ 8
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat jsou veˇtsˇinou nomina´lnı´ nebo ordina´lnı´, cˇasto se setka´va´me se situacı´, zˇe zjisˇteˇna´ kardina´lnı´ data jsou diskretizova´na a prˇevedena na diskre´tnı´ ordina´lnı´ data. Takova´ data pak zapisujeme pomocı´ cˇetnostı´ do kontingencˇnı´ch tabulek, jejich statisticke´ vyhodnocenı´, zejme´na studium statisticke´ vazby mezi ota´zkami z dotaznı´ku˚ pak vysˇetrˇujeme metodami, ktere´ byly uvedeny v te´to kapitole. Uvedeme prˇ´ıklad vysˇetrˇenı´ statisticke´ vazby pro vy´sledky vy´beˇrove´ho sˇetrˇenı´, ktere´ bylo provedeno cestovnı´ kancela´rˇ´ı, aby se zjistilo, zda je statisticka´ vazba mezi typem za´jezdu a optima´lnı´m ubytova´nı´m. Vy´sledky vy´beˇrove´ho sˇetrˇenı´ jsou shrnuty v tabulce 3. Pro popis statisticke´ vazby mezi promeˇnnou X - typ za´jezdu a promeˇnnou Y - optima´lnı´ ubytova´nı´ vyuzˇijeme nejdrˇ´ıve Pearsonovu statistiku χ2 . Jejı´ vy´pocˇet je jednoduchy´. Postupneˇ dostaneme χ2 =
r X s X (6 − 14, 5)2 (9 − 8, 8)2 (27 − 17, 9)2 (nij − oij )2 = + + ... + = 244, 318. o 14, 5 8, 8 17, 9 ij i=1 j=1
Pro porovna´nı´ vypocˇteme jesˇteˇ veˇrohodnostnı´ pomeˇr G2 .Postupneˇ dostaneme 2
G =2
r X s X i=1 j=1
nij ln
nij = 2 · (6 · ln(6/14, 5) + . . . + 27 · ln(27/17, 9)) = 253, 206. oij
Prˇi testova´nı´ na 5% hladineˇ vy´znamnosti vypocˇtenou hodnotu statistiky χ2 , resp. G2 , porovna´va´me s kvantilem χ20,95 [(4 − 1)(4 − 1)] = χ20,95 (9) = 16, 919. V obou prˇ´ıpadech zamı´ta´me nulovou hypote´zu o neza´vislosti promeˇnny´ch Typ Za´jezdu a Optima´lnı´ ubytova´nı´ a mu˚zˇeme prohla´sit, zˇe mezi obeˇma promeˇnny´mi je statisticky vy´znamna´ vazba na 5%nı´ hladineˇ vy´znamnosti.
9
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat
Literatura Za´kladnı´ MANN, P.S. Introductory Statistics. 6th edition. Hoboken: Wiley, 2007. ISBN 978-0-471-75530-2. ´ DL, P. Matematika pro studenty ekonomie. 1. vyd. Grada 2010. ISBN 978-80MOUCˇKA, J., RA 247-3260-2. NEUBAUER, J., SEDLACˇI´K, M., KRˇI´Zˇ, O. Za´klady statistiky – Aplikace v technicky´ch a ekonomicky´ch oborech. Grada 2012.ISBN: 978-80-247-4273-1. ˇ EZANKOVA ´ , H. Analy´za dat z dotaznı´kovy´ch sˇetrˇenı´. 2. vyda´nı´, Professional Publishing, 2010. R ISBN: 9788074310195.
Doporucˇena´ AGRESTI, A. Categorical Data Analysis. Second Edition. Wiley 2002. ISBN: 0-471-36093-7. ANDEˇL, J. Statisticke metody. 3. vyda´nı´. Praha: Matfyzpress, 2003. ISBN 80-86732-08-8. ANDEˇL, J. Za´klady matematicke´ statistiky. 2. vyd. Praha: Matfyzpress, 2007, 358 s. ISBN 97880-7378-001-2. ´ GNER, M. Integra´lnı´ pocˇet funkcı´ jedne´ promeˇnne´. 1. vyda´nı´. Brno: UO, 2005,126 s. ISBN VA 80-7231-025-9. ´ GNER, M., KASˇTA ´ NKOVA ´ , V. Posloupnosti a rˇady. 1. vyda´nı´. Brno: UO, 2006. ISBN 80VA 7231-131-X.
10
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat
Prˇ´ıklady k procvicˇenı´ Prˇ´ıklad 3.1 Zjisˇt’ovalo se jak za´visı´ ve vybrany´ch evropsky´ch zemı´ch spotrˇeba alkoholu (promeˇnna´ X) a u´mrtnost na ciro´zu jater (pocˇet zemrˇely´ch na tuto diagno´zu na 100 000 obyvatel – promeˇnna´ ´ daje jsou prˇevzaty z monografie Andeˇl: Statisticke´ metody. Byly zı´ska´ny vy´sledky uvedene´ Y ). U v na´sledujı´cı´ tabulce: Zemeˇ X Y
FIN 3,9 3,6
NOR 4,2 4,3
IRL 5,6 3,4
NLD 5,7 3,7
SWE 6,6 7,2
GBR 7,2 3,0
BEL 10,8 12,3
AUT 10,9 7,0
DEU 12,3 23,7
ITA 15,7 23,6
FRA 24,7 46,1
Vypocˇteˇte Pearsonu˚v korelacˇnı´ koeficient a pouzˇijte jej k testova´nı´ hypote´zy, zˇe mezi mnozˇstvı´m spotrˇeby alkoholu a u´mrtnostı´ na ciro´zu jater je statisticky vy´znamna´ vazba. Prˇ´ıklad 3.2 Zjisˇt’ovalo se kolik mg kyseliny mle´cˇne´ je ve 100 ml krve u matek prvorodicˇek (hodnoty Xi ) a u jejich novorozencu˚ (hodnoty Yi ). Byly zı´ska´ny vy´sledky uvedene´ v na´sledujı´cı´ tabulce: Xi Yi
40 33
64 46
34 15 23 12
57 56
45 40
Vypocˇteˇte Spearmanu˚v korelacˇnı´ koeficient a pouzˇijte jej k testova´nı´ hypote´zy, zˇe mezi mnozˇstvı´m kyseliny mle´cˇne´ v krvi u matky a u jejı´ho novorozence je statisticky vy´znamna´ vazba. Prˇ´ıklad 3.3 V tabulce nı´zˇe jsou uvedena data podle monografie Andeˇl: Statisticke´ metody o pocˇtu u´mrtı´ v Londy´neˇ (hodnoty promeˇnne´ Y ) od 1. do 15. 12. 1952, kdy Londy´n postihla mimorˇa´dneˇ silna´ mlha. Da´le jsou uvedeny hodnoty promeˇnne´ X, ktera´ prˇedstavuje pru˚meˇrne´ znecˇisˇteˇnı´ vzduchu v County Hall uva´deˇne´ v mg/m3 a hodnoty promeˇnne´ Z, ktera´ prˇedstavuje pru˚meˇrny´ obsah oxidu sirˇicˇite´ho (pocˇet cˇa´stic na jeden milion). Den
Yi
xi
zi
Den
Yi
xi
zi
1
112
0,30
0,09
9
430
1,22
0,47
2
140
0,49
0,16
10
274
1,22
0,47
3
143
0,61
0,22
11
255
0,32
0,22
4
120
0,49
0,14
12
236
0,29
0,23
5
196
2,64
0,75
13
256
0,50
0,26
6
294
3,45
0,86
14
222
0,32
0,16
7
513
4,46
1,34
15
213
0,32
0,16
8
518
4,46
1,34
a) Stanovte Spearmanovy korelacˇnı´ koeficienty pro dvojice promeˇnny´ch %(X, Y ), %(XZ) a %(Y, Z), b) rozhodneˇte, zda je mezi jednotlivy´mi dvojicemi teˇchto promeˇnny´ch statisticky vy´znamna´ vazba. 11
Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovy´ch dat
typ za´jezdu hory pobyt s vy´lety pozna´vacı´ za´jezd turistika Celkem
optima´lnı´ ubytova´nı´ apartman bungalov hotel stan Celkem 6 9 5 59 79 89 28 203 33 353 11 13 28 66 118 6 18 8 27 59 112 68 244 185 609
Tabulka 3: Vy´sledky vy´beˇrove´ho sˇetrˇenı´ cestovnı´ kancela´rˇe Prˇ´ıklad 3.4 Cestovnı´ kancela´rˇ provedla sˇetrˇenı´, aby se zjistilo, zda je statisticka´ vazba mezi typem za´jezdu a optima´lnı´m ubytova´nı´m. Vy´sledky vy´beˇrove´ho sˇetrˇenı´ jsou shrnuty v tabulce 3. Pro popis statisticke´ vazby mezi promeˇnnou X – typ za´jezdu a promeˇnnou Y – optima´lnı´ ubytova´nı´ stanovte a) tabulku ocˇeka´vane´y´ch cˇetnostı´ oij , b) Pearsonu˚v kontingencˇnı´ koeficient CP , c) koeficient kontingence ϕ, d) kontinencˇnı´ koeficient Cramerovo V , e) Cˇuprovu˚v kontingencˇnı´ koeficient CT .
12