1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

ˇ ROVA ´ ´ BE MI´RY STATISTICKE´ VAZBY, VY ˇ ENI´, STATISTICKA ´ ANALY ´ ZA SˇETR ´ CH DAT DOTAZNI´KOVY

Obsah 1

Statisticka´ data ´ vod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 U 1.2 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 1 1

2

Mı´ry statisticke´ vazby podle typu dat 2.1 Za´kladnı´ mı´ry statisticke´ vazby pro kardina´lnı´ data . . . . . . . . . . . . . . . . . . 2.2 Spearmanu˚v korelacˇnı´ koeficient . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Kontingencˇnı´ tabulka pro nomina´lnı´ data . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Mı´ry statisticke´ vazby pro nomina´lnı´ data a testovańı´ neza´vislosti v kontingencˇnı´ tabulce 2.5 Mı´ry statisticke´ vazby pro ordina´lnı´ data . . . . . . . . . . . . . . . . . . . . . . . .

2 2 3 4 5 7

3

Statisticka´ analy´za dotaznı´kovyćh dat

8

Literatura

10

Prˇ´ıklady k procvicˇenı´

11

1 1.1

Statisticka´ data ´ vod U

V tomto odstavci nejdrˇ´ıve prˇipomeneme za´kladnı´ typy statistickyćh dat a na´sledneˇ se budeme veˇnovat mı´ra´m statisticke´ vazby podle typu statistickyćh dat. Du˚raz bude kladen na kladen na popis statisticke´ vazby mezi dveˇma ordina´lnı´mi a nomina´lnı´mi promeˇnny´mi, s nimizˇ se cˇasto setka´va´me prˇi vyhodnocovańı´ dotaznı´kovyćh sˇetrˇenı´.

1.2

Data

Statisticka´ data vznikajı´ opakovany´m pozorovańı´m nebo opakovany´m meˇrˇenı´m neˇjake´ modelove´ na´hodne´ velicˇiny X, v popisne´ statistice se neˇkdy nazy´va´ znakem a znacˇ´ı se x. Pozorovańı´ nebo

Operacˇnı´ program Vzdeˇla´vańı´ pro konkurenceschopnost Na´zev projektu: Inovace magisterske´ho studijnı´ho programu Fakulty ekonomiky a managementu Registracˇnı´ cˇı´slo projektu: CZ.1.07/2.2.00/28.0326 ˇ TEM C ˇ ESKE´ REPUBLIKY. ´ LNI´M FONDEM A STA´TNI´M ROZPOC PROJEKT JE SPOLUFINANCOVAŃ EVROPSKY´M SOCIA

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat meˇrˇenı´ na´hodne´ velicˇiny (znaku) X zjisˇteˇne´ na n objektech studovane´ho statisticke´ho souboru pak znacˇ´ıme x1 , . . . , xn . Podle stupneˇ kvantifikace studovane´ho znaku x lze znaky rozdeˇlit do trˇ´ı za´kladnıćh skupin: 1. Znaky nomina´lnı´ prˇipousˇteˇjı´ mezi hodnotami x1 , x2 , xn pouze relaci rovnosti. Jsou to znaky, jejichzˇ hodnoty mohou by´t sice cˇ´ıselneˇ oznacˇeny, ale tyto cˇ´ıselne´ hodnoty pouze ko´dujı´ nebo charakterizujı´ neˇjake´ kategorie (naprˇ. oznacˇujı´ povolańı´, tramvajovou linku, barvu, typ rizikove´ho jevu, politickou stranu a pod.) S takovy´mi znaky velmi cˇasto pracujeme prˇi zpracovańı´ dotaznı´kovyćh anket. 2. Znaky ordina´lnı´ prˇipousˇteˇjı´ kromeˇ relace rovnosti take´ obsahovou interpretaci relace usporˇa´dańı´ x1 < x2 (nebo x1 > x2 ). Usporˇa´dańı´ vyjadrˇuje veˇtsˇ´ı nebo mensˇ´ı intenzitu popisovane´ vlastnosti. Typicky´m prˇ´ıkladem takovyćh znaku˚ jsou hodnoty sledovane´ velicˇiny na neˇjake´ usporˇa´dane´ sˇka´le hodnot naprˇ. zna´mky ve sˇkole, bodovańı´ potravin prˇi jejich senzorickyćh zkousˇkaćh, stupenˇ nebezpecˇ´ı - rizika apod. Tyto znaky jsou rovneˇzˇ cˇaste´ prˇi vyhodnocovańı´ dotaznı´kovyćh pru˚zkumu˚, obvykla´ by´va´ trˇ´ıstupnˇova´, peˇtı´stupnˇova´ nebo sedmistupnˇova´ sˇka´la mozˇnyćh hodnot znaku. 3. Znaky kardina´lnı´ znaky neboli cˇ´ıselne´ znaky prˇipousˇteˇjı´ obsahovou interpretaci nejen relacı´ rovnosti a usporˇa´dańı´ ale take´ operacı´ soucˇtu x1 + x2 a rozdı´lu x1 − x2 . To znamena´, zˇe v prˇ´ıpadeˇ kdy x1 − x2 = x2 − x3 > 0, je interval (x2 , x1 ) stejneˇ dlouhy´ jako interval (x3 , x2 ) a tato stejna´ de´lka obou intervalu˚ prˇedstavuje u obou dvojic x1 , x2 a x2 , x3 take´ stejny´ rozdı´l v extenziteˇ zkoumane´ vlastnosti. Ma´-li u kardina´lnı´ho znaku smysluplnou obsahovou interpretaci take´ operace podı´lu, tj. x1 /x2 , pak se kardina´lnı´ znak nazy´va´ pomeˇrovy´. V prˇ´ıpadeˇ, kdy operace podı´lu nema´ smysluplnou obsahovou interpretaci, nazy´va´ se tento kardina´lnı´ znak intervalovy´. Prˇ´ıkladem intervalove´ho znaku mu˚zˇe by´t naprˇ. teplota meˇrˇena´ ve stupnıćh Celsia, kde nula na dane´ stupnici vznikla pouhou konvencı´. Prˇ´ıkladem pomeˇrove´ho znaku je naprˇ. hmotnost, vy´sˇka, hodinova´ mzda, zˇivotnost zarˇ´ızenı´, doba bezporuchove´ cˇinnosti apod.

2

Mı´ry statisticke´ vazby podle typu dat

Prˇi studiu statisticke´ vazby mezi promeˇnny´mi je velmi du˚lezˇity´ typ dat s nimizˇ pracujeme. Proto da´le uvedeme vybrane´ mı´ry statisticke´ vazby pro typy dat, ktere´ byly analyzovańy v prˇedchozıćh kapitolaćh.

2.1

Za´kladnı´ mı´ry statisticke´ vazby pro kardina´lnı´ data

Prˇedpokla´dejme, zˇe (X1 , Y1 )0 , . . . , (Xn , Yn )0 je na´hodny´ vy´beˇr z dvourozmeˇrne´ho rozdeˇlenı´ pravdeˇpodobnosti. Jde tedy o n neza´vislyćh pozorovańı´ na´hodne´ho vektoru (X, Y )0 za homogennıćh podmıńek. Pak cˇasto uzˇ´ıvano mı´rou statisticke´ vazby mezi X a Y je drˇ´ıve definovany´ vy´beˇrovy´ korelacˇnı´ koeficient Pn (Xi − X)(Yi − Y ) , rxy = qP i=1 Pn n 2 2 (X − X) (Y − Y ) i i=1 i=1 i kde X a Y jsou vy´beˇrove´ pru˚meˇry margina´lnıćh vy´beˇru˚ . Tento korelacˇnı´ koeficient je take´ nazy´vań Pearsonu˚v korelacˇnı´ koeficient. 2

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat Prˇipomenˇme jenom, zˇe Pearsonu˚v korelacˇnı´ koeficient rxy naby´va´ hodnot od -1 do 1. Neza´vislost velicˇin X a Y implikuje rxy blı´zke´ nule a linea´rnı´ vazba mezi X a Y implikuje rxy rovne´ 1 nebo -1, podle toho, zda jde o prˇ´ımou nebo neprˇ´ımou vazbu. Deterministicka´ vazba (nelinea´rnı´) mezi X a Y nemusı´ mı´t za na´sledek, zˇe rxy je blı´zke´ 1 nebo -1. Je dobrˇe zna´me´,zˇe za prˇedpokladu, zˇe na´hodny´ vy´beˇr (X1 , Y1 )0 , . . . , (Xn , Yn )0 je z dvourozmeˇrne´ho norma´lnı´ho rozdeˇlenı´, lze pomocı´ koeficientu R testovat neza´vislost velicˇin X a Y . Testovacı´ statistika je √ R n−2 T =√ 1 − R2 a ma´ za prˇedpokladu neza´vislosti velicˇin X a Y Studentovo t rozdeˇlenı´ o n − 2 stupnıćh volnosti. Tedy hypote´zu neza´vislosti velicˇin X a Y zamı´ta´me na hladineˇ vy´znamnosti α, kdyzˇ |T | ≥ t1− α2 (n − 2), kde t1− α2 (n − 2) je 1 − α2 kvantil Studentova t rozdeˇlenı´ o n − 2 stupnıćh volnosti.

2.2

Spearmanu˚v korelacˇnı´ koeficient

V prˇ´ıpadeˇ, zˇe dany´ na´hodny´ vy´beˇr pocha´zı´ pocha´zı´ ze spojite´ho rozdeˇlenı´ (kardina´lnı´ data), ktere´ nutneˇ nemusı´ by´t z dvourozmeˇrne´ho norma´lnı´ho rozdeˇlenı´ nebo v prˇ´ıpadeˇ, zˇe zpracova´va´me ordina´lnı´ data, kde se nevyskytujı´ shodna´ pozorovańı´, lze pro popis statisticke´ vazby pouzˇ´ıt Spermanu˚v korelacˇnı´ koeficient. Pro dany´ na´hodny´ na´hodny´ vy´beˇr (X1 , Y1 )0 , . . . , (Xn , Yn )0 stanovı´me vektory porˇadı´: R1 , . . . , Rn pro margina´lnı´ vy´beˇr X1 , . . . , Xn a Q1 , . . . , Qn pro margina´lnı´ vy´beˇr Y1 , . . . , Yn . Spearmanu˚v korelacˇnı´ koeficient RS se potom definuje jako Pearsonu˚v korelacˇnı´ koeficient pocˇ´ıtany´ z dvojic (R1 , Q1 )0 , . . . , (Rn , Qn )0 . Da´le lze uka´zat, zˇe vy´pocˇet Spearmanova korelacˇnı´ho koeficientu RS lze prove´st podle jednoduche´ho vzorce vzorce n

RS = 1 −

X 6 (Ri − Qi )2 . n(n2 − 1) i=1

Kriticke´ hodnoty pro testovańı´ hypote´zy neza´vislosti X a Y lze nale´zt v monografii Andeˇl: Statisticke´ metody, tabulka T22. Prˇi hodnotaćh |RS |, ktere´ prˇekrocˇ´ı kritickou hodnotu z tabulky T22, se neza´vislost X a Y zamı´ta´. Prˇ´ı dostatecˇne´m rozsahu vy´beˇru, obvykle stacˇ´ı kdyzˇ n > 30, lze vyuzˇ´ıt asymptotickou normalitu koeficientu RS a hypote´zu neza´vislosti zamı´tnout pro u1− α |RS | ≥ √ 2 , n−1 kde u1− α2 je α2 kvantil standardizovane´ho norma´lnı´ho rozdeˇlenı´ N (0, 1). Pozdeˇji uvedeme korekci Spearmanova korelacˇnı´ho koeficientu pro prˇ´ıpad, zˇe mezi pozorovańı´mi je mnoho shodnyćh (tedy v margina´lnıćh vy´beˇrech se vyskytujı´ stejneˇ velka´ - shodna´ pozorovańı´). Takove´ korekce lze vyuzˇ´ıt i prˇi pouzˇitı´ Spearmanova koralacˇnı´ho koeficientu na ordina´lnı´ nebo i nomina´lnı´ data.

3

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat P

X\Y 1 .. .

1 p11 .. .

... ... .. .

j p1j .. .

... ... .. .

s p1,s .. .

p1+ .. .

i .. .

pi1 .. .

... .. .

pij .. .

... .. .

npi,s .. .

pi+ .. .

r P

pr1 p+1

... ...

nprj p+j

... ...

prs p+s

pr+ 1

Tabulka 1: Pravdeˇpodobnostnı´ funkce

2.3

Kontingencˇnı´ tabulka pro nomina´lnı´ data

Budeme prˇedpokla´dat, zˇe X a Y jsou nomina´lnı´ velicˇiny, obor hodnot X obsahuje r hodnot (kategoriı´, ktere´ budou ko´dovańy cˇ´ısly 1, 2, . . . , r) a podobneˇ obor hodnot Y obsahuje s hodnot (kategoriı´, ktere´ budou ko´dovańy cˇ´ısly 1, 2, . . . , s,). Pomocı´ pravdeˇpodobnosti P zavedeme sdruzˇenou pravdeˇpodobnostnı´ funkci na´hodnyćh velicˇin X a Y vztahem pij = P (X = i ∧ Y = j) a odpovı´dajıćı´ margina´lnı´ pravdeˇpodobnostnı´ funkci velicˇiny X vztahem pi+ = P (X = i) =

s X

pij

j=1

a pravdeˇpodobnostnı´ funkci velicˇiny Y vztahem p+j = P (Y = j) =

r X

pij ,

i=1

prˇicˇemzˇ i = 1, . . . , r a j = 1, . . . , s. Hodnoty pravdeˇpodobnostnı´ funkce lze usporˇa´dat do tabulky Tabulky 1. Podobneˇ kdyzˇ je dań na´hodny´ vy´beˇr (X1 , Y1 )0 , . . . , (Xn , Yn )0 z tohoto diskre´tnı´ho dvourozmeˇrne´ho rozdeˇlenı´, lze jej zapsat pomocı´ cˇetnostı´ podobneˇ do Tabulky 2. Tato tabulka se nazy´va´ kontingencˇnı´ tabulka. Drˇ´ıve, nezˇ ji forma´lneˇ popisˇeme, zavedeme cˇetnost nijP jako pocˇet dvojic ve vy´beˇru, kdy P X = i a za´rovenˇ Y = j. Da´le oznacˇ´ıme ni+ = sj=1 nij a n+j = ri=1 nij . Pak kontingencˇnı´ tabulka pro na´hodny´ vy´beˇr (X1 , Y1 )0 , . . . , (Xn , Yn )0 je uvedena v Tabulce 2. V prˇ´ıpadeˇ, zˇe nomina´lnı´ znaky X a Y jsou neza´visle´, platı´, zˇe pij = pi+ p+j . Podobneˇ cˇetnosti ocˇeka´vane´ v kontingencˇnı´ tabulce prˇi neza´vislosti promeˇnnyćh X a Y jsou tvaru n n n oij = n nni+ n+j = i+n +j a nazveme je ocˇeka´vane´ cˇetnosti. Jsou-li znaky X a Y neza´visle´, lze ocˇeka´vat, zˇe empiricke´ cˇetnosti nij budou odpovı´dat ocˇeka´vany´m cˇetnostem oij . 4

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat P

X\Y 1 .. .

1 n11 .. .

... ... .. .

j n1j .. .

... ... .. .

s n1,s .. .

n1+ .. .

i .. .

ni1 .. .

... .. .

nij .. .

... .. .

ni,s .. .

ni+ .. .

r P

nr1 n+1

... ...

nrj n+j

... ...

nrs n+s

nr+ n

Tabulka 2: Kontingencˇnı´ tabulka

2.4

Mı´ry statisticke´ vazby pro nomina´lnı´ data a testovańı´ neza´vislosti v kontingencˇnı´ tabulce

Pro popis statisticke´ vazby mezi nomina´lnı´mi promeˇnny´mi lze uzˇ´ıt celou rˇadu statistik, ktere´ lze pocˇ´ıtat z dat usporˇa´danyćh do kontingencˇnı´ tabulky. Proto se take´ statisticka´ za´vislost u nomina´lnıćh promeˇnnyćh cˇasto oznacˇuje jako kontingence. Uvedeme prˇehled meˇr kontingence spolu s jejich dalsˇ´ımi mozˇny´mi aplikacemi. Statistika χ2 Pak k testovańı´ neza´vislosti na´hodnyćh velicˇin Xa Y lze pouzˇ´ıt statistiku χ2 = Σri=1 Σsj=1

(nij − oij )2 , oij

(1)

ktera´ ma´ asymptoticky rozdeˇlenı´ χ2 o (r − 1)(s − 1) stupnıćh volnosti. Hypote´zu neza´vislosti promeˇnnyćh X a Y pak zamı´ta´me na hladineˇ vy´znamnosti α, kdyzˇ χ2 ≥ χ21−α ((r − 1)(s − 1)), kde χ21−α ((r − 1)(s − 1)) je 1 − α kvantil Pearsonova χ2 rozdeˇlenı´ o (r − 1)(s − 1) stupnıćh volnosti. Test lze pouzˇ´ıt, kdyzˇ vsˇechny ocˇeka´vane´ cˇetnosti jsou dosti velke´, obvykle se prˇedpokla´da´, zˇe oij ≥ 5. Statistiku χ2 lze pouzˇ´ıt i pro testovańı´ shody neˇkolika diskre´tnıćh rozdeˇlenı´ (vy´beˇru˚ z kategoria´lnıćh promeˇnnyćh). Je-li dańo r neza´vislyćh na´hodnyćh vy´beˇru˚, i−ty´ rozsahu ni+ a kazˇdy´ vy´beˇr je z diskre´tnı´ho rozdeˇlenı´ pravdeˇpodobnostı´, ktere´ ma´ obor hodnot mnozˇinu {1, 2, . . . , s}, pak je mozˇne´ tyto vy´beˇry prˇehledneˇ zapsat do kontingencˇnı´ tabulky Tab. 2, kde margina´lnı´ cˇetnosti n1+ . . . , nr+ jsou pevneˇ dane´ rozsahy vy´beˇru˚. Test homogenity rˇa´dkovyćh cˇetnostı´ (tedy test hypote´zy, zˇe vektory cˇetnostı´ uvedene´ v rˇa´dcıćh kontingencˇnı´ tabulky majı´ stejne´ rozdeˇlenı´), pak lze prove´st pomocı´ statistiky χ2 danou vzorcem (1) stejny´m zpu˚sobem, jako se prova´deˇl test neza´vislosti. Od statistiky χ2 je odvozena rˇada koeficientu˚, ktere´ popisujı´ intenzitu statisticke´ vazby mezi velicˇinami X a Y . Patrˇ´ı mezi neˇ Pearsonu˚v kontingencˇnı´ koeficient CP , koeficient φ, Cramerovo V a Cˇuprovu˚v kontingencˇnı´ koeficient.Bude o nich pojednańo da´le. Nejprve ale uvedeme veˇrohodnostnı´ pomeˇr G2 , ktery´ je asymptoticky ekvivalentnı´ se statistikou χ2 .

5

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat Veˇrohodnostnı´ pomeˇr G2 K testovańı´ neza´vislosti na´hodnyćh velicˇin X a Y lze vyuzˇ´ıt take´ statistiky 2

G =2

R X S X i=1 j=1

nij ln

nij , oij

ktera´ se nazy´va´ veˇrohodnostnı´ pomeˇr. Uvedena´ statistika ma´ asymptoticky chı´-kvadra´t rozdeˇlenı´ s (r − 1)(s − 1) stupni volnosti. Prˇi testovańı´ se tedy postupuje stejneˇ jako v prˇedchozı´m prˇ´ıpadeˇ. Pearsonu˚v kontingencˇnı´ koeficient CP Tento koeficient lze stanovit podle vzorce s CP =

χ2P . χ2P + n

a vyjadrˇuje intenzitu vza´jemne´ za´vislosti dvou promeˇnnyćh X a Y . Naby´va´ hodnot z intervalu D E p 0; (q − 1)/q , kde q = min {r, s}. Hodnoty 0 naby´va´ v prˇ´ıpade neza´vislosti. Cˇ´ım veˇtsˇ´ı hodnotu zı´ska´va´me prˇi stejne´m n, r a s, tı´m je za´vislost silneˇjsˇ´ı. Koeficient φ Koeficient φ je take´ odvozen od statistiky χ2 . Je dań jednoduchy´m vzorcem r χ2P . ϕ= n Cramerovo V Koeficient Crame´rovo V je dań vzorcem s V =

χ2P , n(q − 1)

kde q = min {R, S}. Ve jmenovateli je tedy maxima´lnı´ hodnota, ktere´ mu˚zˇe dosa´hnout Pearsonova statistika chı´-kvadra´t. To znamena´, zˇe tento koeficient naby´va´ hodnot z intervalu od 0 do 1. Pro tabulku, kdy alesponˇ jedna promeˇnna´ je dichotomicka´ (pocˇet odpovı´dajıćıćh rˇa´dku˚ nebo sloupcu˚ je 2, dosta´va´me koeficient ϕ.

6

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat ˇ uprovu˚v kontingencˇnı´ koeficient CT C Cˇuprovu˚v kontingencˇnı´ koeficient je dań vzorcem s CT =

χ2P /n

p

(r − 1)(s − 1)

.

V prˇ´ıpadeˇ cˇtvercove´ tabulky, ktera´ ma´ stejny´ pocˇet rˇa´dku˚ a sloupcu˚, platı´, zˇe q−1 = a tedy hodnoty Crame´rova V a Cˇuprovova kontingencˇnı´ho koeficientu jsou shodne´.

2.5

p (r − 1)(s − 1)

Mı´ry statisticke´ vazby pro ordina´lnı´ data

Jak bylo rˇecˇeno, u nomina´lnıćh promeˇnnyćh je statisticka´ za´vislost oznacˇovańa jako kontingence, u ordina´lnıćh promeˇnnyćh jizˇ hovorˇ´ıme o korelaci. Rozlisˇujeme prˇitom dva typy korelace, a to pozitivnı´ (nı´zky´m hodnota´m jedne´ promeˇnne´ odpovı´dajı´ nı´zke´ hodnoty promeˇnne´ druhe´) a negativnı´ (nı´zky´m hodnota´m hodnota´m jedne´ promeˇnne´ odpovı´dajı´ vysoke´ hodnoty druhe´ promeˇnne´).

Modifikace Spearmanova koeficientu porˇadove´ korelace pro ordina´lnı´ data s velky´m pocˇtem shod Jak bylo uvedeno drˇ´ıve Spearmanu˚v koeficient porˇadove´ korelace vycha´zı´ z vektoru˚ porˇadı´: R1 , . . . , Rn a Q1 , . . . , Qn . Modifikovany´ Spearmanu˚v koeficient porˇadove´ korelace pro kontingencˇnı´ tabulku lze stanovit v neˇkolika krocıćh. a) Nejdrˇ´ıve kategoriı´m promeˇnne´ X prˇirˇadı´me postupneˇ modifikovana´ porˇadı´ Ri : i−1

X ni+ + 1 n1+ + 1 nl+ + , Ri = R1 = 2 2 l=1 pro 2 ≤ i ≤ r, a kategoriı´m promeˇnne´ Y prˇirˇadı´me pro 2 ≤ j ≤ s modifikovana´ porˇadı´ Qj : j−1

X n+j + 1 n+1 + 1 , Qj = n+l + . Q1 = 2 2 l=1 b) Da´le stanovı´me hodnoty 2

d =

r X s X

nij (Ri − Qj )2 ,

i=1 j=1 r

ΩX =

1 3 X 3 (n − ni+ ), 12 i=1

ΩY =

1 3 X 3 (n − n+j ). 12 j=1

s

7

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat Pomocı´ nich pak vypocˇteme modifikovany´ Spearmanu˚v koeficient porˇadove´ korelace rS podle vzorce Ω X + ΩY − δ 2 √ . 2 ΩX ΩY P P Tento vzorec lze jesˇteˇ zjednodusˇit pro prˇ´ıpad, kdy ri=1 n3i+ = sj=1 n3+j , pak ΩX = ΩY . Odtud pak dosazenı´m do vzorce pro rS zı´ska´me jeho jednodusˇsˇ´ı tvar rS =

rS =

δ2 2 · ΩX − δ 2 p = 1 − . 2 2 · ΩX 2 δX

P P Platı´-li navıć, zˇe ri=1 n3i+ = sj=1 n3+j = n, dostaneme pro vy´pocˇet Spearmanova koeficientu porˇadove´ korelace rS drˇ´ıve uvedeny´ vzorec pro kardina´lnı´ data δ2 6 · δ2 rS = 1 − 1 3 =1− . n(n2 − 1) 2 12 (n − n) Jiny´mi slovy pro kardina´lnı´ promeˇnne´ X a Y , kdy se zˇa´dna´ hodnota neopakuje, je modifikovany´ Spearmanu˚v korelacˇnı´ koeficient roven jeho nemodifikovane´ verzi. Spearmanu˚v koeficient naby´va´ hodnot z intervalu h−1; 1i. Pokud jsou u kazˇde´ statisticke´ jednotky u obou promeˇnnyćh stejna´ porˇadı´, pak koeficient naby´va´ hodnoty 1 (pozitivnı´ korelace, tzv. prˇ´ıma´ za´vislost). Pokud serˇadı´me hodnoty promeˇnne´ X vzestupneˇ a zı´ska´me tı´m sestupne´ porˇadı´ u promeˇnne´ Y , hodnota koeficientu je -1 (nagativnı´ korelace, tzv. neprˇ´ıma´ za´vislost). Hodnota 0 znamena´ linea´rnı´ neza´vislost. Test o nulovost tohoto koeficientu (H0 : ρS = 0) se prova´dı´ pomocı´ statistiky s n−2 , t = rS 1 − rS2 ktera´ ma´ za prˇedpokladu platnosti nulove´ hypote´zy Studentovho t rozdeˇlenı´ s (n − 2) stupni volnosti. Dalsˇ´ı mı´ry porˇadove´ korelace pro ordina´lnı´ data V praxi se v neˇkteryćh situacıćh pouzˇ´ıvajı´ dalsˇ´ı mı´ry pro popis porˇadove´ korelace ordina´lnıćh dat. Patrˇ´ı mezi neˇ Goodmanova-Kruskalova γ, da´le Kendallovo τb take´ take´ nazy´vane´ Kendallu˚v koeficient porˇadove´ korelace a take´ Kendallovo τc . Zde se jimi nebudeme detailneˇji zaby´vat, za´jemce je mu˚zˇe najı´t v monografii Rˇezankova´ H.: Analy´za dat z dotaznı´kovyćh sˇetrˇenı´. Profesional Publishing 2011. Konecˇneˇ za´veˇrem uved’me, zˇe modernı´ statisticka´ teorie vycha´zı´ z nove´ho prˇ´ıstupu ke studiu statisticke´ vazby mezi na´hodny´mi velicˇinami a k studiu neza´vislosti na´hodnyćh velicˇin, ktery´ je zalozˇen na matematicke´ teorii kopulı´.

3

Statisticka´ analy´za dotaznı´kovyćh dat

Dotaznı´kova´ sˇetrˇenı´ patrˇ´ı mezi za´kladnı´ sociologicke´ metody pro zjisˇt’ovańı´ na´zoru˚ dane´ skupiny respondentu˚ na urcˇitou problematiky. Vy´sledkem dotaznı´kovyćh sˇetrˇenı´ by´vajı´ statisticka´ data, ktera´ 8

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat jsou veˇtsˇinou nomina´lnı´ nebo ordina´lnı´, cˇasto se setka´va´me se situacı´, zˇe zjisˇteˇna´ kardina´lnı´ data jsou diskretizovańa a prˇevedena na diskre´tnı´ ordina´lnı´ data. Takova´ data pak zapisujeme pomocı´ cˇetnostı´ do kontingencˇnıćh tabulek, jejich statisticke´ vyhodnocenı´, zejmeńa studium statisticke´ vazby mezi ota´zkami z dotaznı´ku˚ pak vysˇetrˇujeme metodami, ktere´ byly uvedeny v te´to kapitole. Uvedeme prˇ´ıklad vysˇetrˇenı´ statisticke´ vazby pro vy´sledky vy´beˇrove´ho sˇetrˇenı´, ktere´ bylo provedeno cestovnı´ kancela´rˇ´ı, aby se zjistilo, zda je statisticka´ vazba mezi typem za´jezdu a optima´lnı´m ubytovańı´m. Vy´sledky vy´beˇrove´ho sˇetrˇenı´ jsou shrnuty v tabulce 3. Pro popis statisticke´ vazby mezi promeˇnnou X - typ za´jezdu a promeˇnnou Y - optima´lnı´ ubytovańı´ vyuzˇijeme nejdrˇ´ıve Pearsonovu statistiku χ2 . Jejı´ vy´pocˇet je jednoduchy´. Postupneˇ dostaneme χ2 =

r X s X (6 − 14, 5)2 (9 − 8, 8)2 (27 − 17, 9)2 (nij − oij )2 = + + ... + = 244, 318. o 14, 5 8, 8 17, 9 ij i=1 j=1

Pro porovnańı´ vypocˇteme jesˇteˇ veˇrohodnostnı´ pomeˇr G2 .Postupneˇ dostaneme 2

G =2

r X s X i=1 j=1

nij ln

nij = 2 · (6 · ln(6/14, 5) + . . . + 27 · ln(27/17, 9)) = 253, 206. oij

Prˇi testovańı´ na 5% hladineˇ vy´znamnosti vypocˇtenou hodnotu statistiky χ2 , resp. G2 , porovna´va´me s kvantilem χ20,95 [(4 − 1)(4 − 1)] = χ20,95 (9) = 16, 919. V obou prˇ´ıpadech zamı´ta´me nulovou hypote´zu o neza´vislosti promeˇnnyćh Typ Za´jezdu a Optima´lnı´ ubytovańı´ a mu˚zˇeme prohla´sit, zˇe mezi obeˇma promeˇnny´mi je statisticky vy´znamna´ vazba na 5%nı´ hladineˇ vy´znamnosti.

9

Mı´ry statisticke´ vazby, vy´beˇrova´ sˇetrˇenı´, statisticka´ analy´za dotaznı´kovyćh dat

Literatura Za´kladnı´ MANN, P.S. Introductory Statistics. 6th edition. Hoboken: Wiley, 2007. ISBN 978-0-471-75530-2. ´ DL, P. Matematika pro studenty ekonomie. 1. vyd. Grada 2010. ISBN 978-80MOUCˇKA, J., RA 247-3260-2. NEUBAUER, J., SEDLACˇI´K, M., KRˇI´Zˇ, O. Za´klady statistiky – Aplikace v technickyćh a ekonomickyćh oborech. Grada 2012.ISBN: 978-80-247-4273-1. ˇ EZANKOVA ´ , H. Analy´za dat z dotaznı´kovyćh sˇetrˇenı´. 2. vydańı´, Professional Publishing, 2010. R ISBN: 9788074310195.

Doporucˇena´ AGRESTI, A. Categorical Data Analysis. Second Edition. Wiley 2002. ISBN: 0-471-36093-7. ANDEˇL, J. Statisticke metody. 3. vydańı´. Praha: Matfyzpress, 2003. ISBN 80-86732-08-8. ANDEˇL, J. Za´klady matematicke´ statistiky. 2. vyd. Praha: Matfyzpress, 2007, 358 s. ISBN 97880-7378-001-2. ´ GNER, M. Integra´lnı´ pocˇet funkcı´ jedne´ promeˇnne´. 1. vydańı´. Brno: UO, 2005,126 s. ISBN VA 80-7231-025-9. ´ GNER, M., KASˇTA ´ NKOVA ´ , V. Posloupnosti a rˇady. 1. vydańı´. Brno: UO, 2006. ISBN 80VA 7231-131-X.

10


Prˇ´ıklady k procvicˇenı´ Prˇ´ıklad 3.1 Zjisˇt’ovalo se jak za´visı´ ve vybranyćh evropskyćh zemıćh spotrˇeba alkoholu (promeˇnna´ X) a u´mrtnost na ciro´zu jater (pocˇet zemrˇelyćh na tuto diagno´zu na 100 000 obyvatel – promeˇnna´ ´ daje jsou prˇevzaty z monografie Andeˇl: Statisticke´ metody. Byly zı´skańy vy´sledky uvedene´ Y ). U v na´sledujıćı´ tabulce: Zemeˇ X Y

FIN 3,9 3,6

NOR 4,2 4,3

IRL 5,6 3,4

NLD 5,7 3,7

SWE 6,6 7,2

GBR 7,2 3,0

BEL 10,8 12,3

AUT 10,9 7,0

DEU 12,3 23,7

ITA 15,7 23,6

FRA 24,7 46,1

Vypocˇteˇte Pearsonu˚v korelacˇnı´ koeficient a pouzˇijte jej k testovańı´ hypote´zy, zˇe mezi mnozˇstvı´m spotrˇeby alkoholu a u´mrtnostı´ na ciro´zu jater je statisticky vy´znamna´ vazba. Prˇ´ıklad 3.2 Zjisˇt’ovalo se kolik mg kyseliny mlećˇne´ je ve 100 ml krve u matek prvorodicˇek (hodnoty Xi ) a u jejich novorozencu˚ (hodnoty Yi ). Byly zı´skańy vy´sledky uvedene´ v na´sledujıćı´ tabulce: Xi Yi

40 33

64 46

34 15 23 12

57 56

45 40

Vypocˇteˇte Spearmanu˚v korelacˇnı´ koeficient a pouzˇijte jej k testovańı´ hypote´zy, zˇe mezi mnozˇstvı´m kyseliny mlećˇne´ v krvi u matky a u jejı´ho novorozence je statisticky vy´znamna´ vazba. Prˇ´ıklad 3.3 V tabulce nı´zˇe jsou uvedena data podle monografie Andeˇl: Statisticke´ metody o pocˇtu u´mrtı´ v Londyńeˇ (hodnoty promeˇnne´ Y ) od 1. do 15. 12. 1952, kdy Londyń postihla mimorˇa´dneˇ silna´ mlha. Da´le jsou uvedeny hodnoty promeˇnne´ X, ktera´ prˇedstavuje pru˚meˇrne´ znecˇisˇteˇnı´ vzduchu v County Hall uva´deˇne´ v mg/m3 a hodnoty promeˇnne´ Z, ktera´ prˇedstavuje pru˚meˇrny´ obsah oxidu sirˇicˇite´ho (pocˇet cˇa´stic na jeden milion). Den

Yi

xi

zi

Den

Yi

xi

zi

1

112

0,30

0,09

9

430

1,22

0,47

2

140

0,49

0,16

10

274

1,22

0,47

3

143

0,61

0,22

11

255

0,32

0,22

4

120

0,49

0,14

12

236

0,29

0,23

5

196

2,64

0,75

13

256

0,50

0,26

6

294

3,45

0,86

14

222

0,32

0,16

7

513

4,46

1,34

15

213

0,32

0,16

8

518

4,46

1,34

a) Stanovte Spearmanovy korelacˇnı´ koeficienty pro dvojice promeˇnnyćh %(X, Y ), %(XZ) a %(Y, Z), b) rozhodneˇte, zda je mezi jednotlivy´mi dvojicemi teˇchto promeˇnnyćh statisticky vy´znamna´ vazba. 11


typ za´jezdu hory pobyt s vy´lety pozna´vacı´ za´jezd turistika Celkem

optima´lnı´ ubytovańı´ apartman bungalov hotel stan Celkem 6 9 5 59 79 89 28 203 33 353 11 13 28 66 118 6 18 8 27 59 112 68 244 185 609

Tabulka 3: Vy´sledky vy´beˇrove´ho sˇetrˇenı´ cestovnı´ kancela´rˇe Prˇ´ıklad 3.4 Cestovnı´ kancela´rˇ provedla sˇetrˇenı´, aby se zjistilo, zda je statisticka´ vazba mezi typem za´jezdu a optima´lnı´m ubytovańı´m. Vy´sledky vy´beˇrove´ho sˇetrˇenı´ jsou shrnuty v tabulce 3. Pro popis statisticke´ vazby mezi promeˇnnou X – typ za´jezdu a promeˇnnou Y – optima´lnı´ ubytovańı´ stanovte a) tabulku ocˇeka´vaneýćh cˇetnostı´ oij , b) Pearsonu˚v kontingencˇnı´ koeficient CP , c) koeficient kontingence ϕ, d) kontinencˇnı´ koeficient Cramerovo V , e) Cˇuprovu˚v kontingencˇnı´ koeficient CT .

12

1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

Recommend Documents