ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1. test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 7, 12, 6, 15, 6, 8, 4, 11, 8 2. test : 9, ……………………………………………………………………………………………………………………………………………………………
Řešení 1 V tomto případě můžeme z charakteru dat předpokládat normální rozdělení obou náhodných veličin a . Budeme testovat nulovou hypotézu (výsledky obou testů jsou nezávislé) proti jednostranné alternativní hypotéze (výsledky testů jsou kladně korelované). : = 0, : >0 Ze zadání úlohy máme = 10. Obrázek nám představuje data v grafické podobě. Vodorovná osa je pro náhodnou veličinu neboli výsledky prvního testu a svislá osa pro náhodnou veličinu neboli výsledky druhého testu.
Korelační pole 16 14 12 10 8 6 4 2 0 0
2
4
6
8
10
12
14
16
Nejprve budeme počítat výběrový korelační koeficient Pearsonův (jak bylo uvedeno výše, předpokládáme normalitu dat) podle vzorce z teorie. "#$ != %"# & "$ & Pro výpočet podle tohoto vzorce potřebujeme vypočítat průměry, výběrové rozptyly a výběrovou kovarianci podle vzorců.
∀ ∃
'=
1 ( 10
'=
1 ( 10
)
)
1
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13 -
"# =
1 (+ −1
"$ & =
1 (+ − ' ,& −1
&
"#$ =
) -
-
1 (+ −1 )
− ' ,&
)
− ' ,+ − ' ,
Po dosazení dostaneme 1 78 '= +7 + 8 + 10 + 4 + 14 + 9 + 6 + 2 + 13 + 5, = = 7,8 10 10 1 86 '= +9 + 7 + 12 + 6 + 15 + 6 + 8 + 4 + 11 + 8, = = 8,6 10 10 1 "# & = /+7 − 7,8,& + +8 − 7,8,& + +10 − 7,8,& + +4 − 7,8,& + +14 − 7,8,& + +9 − 7,8,& 9 + +6 − 7,8,& + +2 − 7,8,& + +13 − 7,8,& + +5 − 7,8,& 0 1 = /+−0,8,& + +0,2,& + +2,2,& + +−3,8,& + +6,2,& + +1,2,& + +−1,8,& + +−5,8,& 9 + +5,2,& + +−2,8,& 0 1 = /0,64 + 0,04 + 4,84 + 14,44 + 38,44 + 1,44 + 3,24 + 33,64 + 27,04 + 7,840 9 131,6 = 14,62222 = 9 1 "$ & = /+9 − 8,6,& + +7 − 8,6,& + +12 − 8,6,& + +6 − 8,6,& + +15 − 8,6,& + +6 − 8,6,& 9 + +8 − 8,6,& + +4 − 8,6,& + +11 − 8,6,& + +8 − 8,6,& 0 1 = /+0,4,& + +−1,6,& + +3,4,& + +−2,6,& + +6,4,& + +−2,6,& + +−0,6,& 9 + +−4,6,& + +2,4,& + +−0,6,& 0 1 = /0,16 + 2,56 + 11,56 + 6,76 + 40,96 + 6,76 + 0,36 + 21,16 + 5,76 + 0,360 9 96,4 = = 10,71111 9 1 "#$ = /+7 − 7,8,+9 − 8,6, + +8 − 7,8,+7 − 8,6, + +10 − 7,8,+12 − 8,6, + +4 − 7,8,+6 − 8,6, 9 + +14 − 7,8,+15 − 8,6, + +9 − 7,8,+6 − 8,6, + +6 − 7,8,+8 − 8,6, + +2 − 7,8,+4 − 8,6, + +13 − 7,8,+11 − 8,6, + +5 − 7,8,+8 − 8,6,0 1 = /+−0,8, ∙ 0,4 + 0,2 ∙ +−1,6, + 2,2 ∙ 3,4 + +−3,8, ∙ +−2,6, + 6,2 ∙ 6,4 + 1,2 9 ∙ +−2,6, + +−1,8, ∙ +−0,6, + +−5,8, ∙ +−4,6, + 5,2 ∙ 2,4 + +−2,8, ∙ +−0,6,0 1 = /−0,32 − 0,32 + 7,48 + 9,88 + 39,68 − 3,12 + 1,08 + 26,68 + 12,48 + 1,680 9 95,2 = = 10,57778 9 Nyní se můžeme vrátit k výpočtu výběrového Pearsonova korelačního koeficientu. Dosadíme do výše uvedeného vzorce a dostaneme 10,57778 10,57778 10,57778 != = = = 0,84522 √14,62222 ∙ 10,71111 %156,62025 12,51480
∀ ∃
2
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13
Podle hodnoty výběrového Pearsonova korelačního koeficientu je zřejmé, že lze očekávat zamítnutí nulové hypotézy. Přesvědčíme se o tom výpočtem testové statistiky podle vzorce z teorie ! 3= ∙√ −2 √1 − ! & Po dosazení 0,84522 0,84522 0,84522 2,390647 3= ∙ √10 − 2 = ∙ √8 = ∙ 2,828427 = 0,5344163 √1 − 0,7143992 %1 − 0,84522& %0,2856008 = 4,47338 Podle teorie hypotézu nezávislosti veličin
na hladině 4 zamítáme, je-li 4 |3| ≥ 7-8& 91 − : 2 Připomínáme, že 7-8& +1 − 4 ⁄2, označuje 1 − 4 ⁄2-kvantil Studentova t-rozdělení o − 2 stupních volnosti (ten najdeme ve statistických tabulkách). Dosadíme a dostaneme 0,05 |4,47338| = 4,47338 ≥ 2,306 = 7 8& <1 − = 2 Je zřejmé, že uvedená nerovnost platí. Proto na hladině 0,05 zamítáme nulovou hypotézu. Můžeme konstatovat, že na hladině významnosti 0,05 jsou výsledky testů kladně korelované. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
a
3
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13
Příklad 2 V tabulce je uvedena spotřeba alkoholu a úmrtnost na cirhózu jater a alkoholismus v některých vybraných zemích. Určete na hladině významnosti 0,05, zda úmrtnost na cirhózu jater a alkoholismus na spotřebě alkoholu závisí. Země
Spotřeba alkoholu [l/osoba]
Úmrtnost na cirhózu jater a alkoholismus [zemřelí na 100 000 obyvatel] Finsko 3,9 3,6 Norsko 4,2 4,3 Irsko 5,6 3,4 Holandsko 5,7 3,7 Švédsko 6,0 7,2 Anglie 7,2 3,0 Belgie 10,8 12,3 Rakousko 10,9 7,0 Německo 12,3 23,7 Itálie 15,7 23,6 Francie 24,7 46,1 ……………………………………………………………………………………………………………………………………………………………
Řešení 2 Označme náhodnou veličinu udávající spotřebu alkoholu na osobu a náhodnou veličinu udávající počet zemřelých na cirhózu jater a alkoholismus na 100 000 obyvatel. Ze vstupních dat máme 11 a z požadavku úlohy 4 0,05. Obrázek nám představuje data v grafické podobě. Vodorovná osa je pro náhodnou veličinu neboli výsledky prvního testu a svislá osa pro náhodnou veličinu neboli výsledky druhého testu.
V tomto případě nemůžeme předpokládat normalitu dat. Je to zřejmé hlavně pro veličinu již z tohoto obrázku. Proto nemůžeme k výpočtu použít výběrový korelační koeficient Pearsonův. V této situaci je nutné vypočítat výběrový korelační koeficient Spearmanův. Tento koeficient je nazýván koeficient pořadové korelace, protože nepracuje přímo s danými hodnotami, ale jejich pořadím. ∀ ∃
4
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13
Tabulku ze zadání upravíme tak, aby obsahovala pořadí veličin X a Y, rozdíly těchto pořadí a druhé mocniny těchto rozdílů. Dostaneme (součet obou pořadí je jen kontrolní údaj) i
Xi 1 2 3 4 5 6 7 8 9 10 11
Suma
Yi
3,9 4,2 5,6 5,7 6 7,2 10,8 10,9 12,3 15,7 24,7
3,6 4,3 3,4 3,7 7,2 3 12,3 7 23,7 23,6 46,1
Rx
Ry 1 2 3 4 5 6 7 8 9 10 11 66
3 5 2 4 7 1 8 6 10 9 11 66
Rx-Ry (Rx-Ry)2 -2 4 -3 9 1 1 0 0 -2 4 5 25 -1 1 2 4 -1 1 1 1 0 0 50
Nyní můžeme vypočítat Spearmanův výběrový korelační koeficient, který podle teorie je -
6 (+? − @ ,& !> = 1 − & + − 1, )
Dosadíme a dostaneme 6 300 300 300 !> = 1 − ∙ 50 = 1 − =1− =1− = 1 − 0,227273 & 11+11 − 1, 11+121 − 1, 11 ∙ 120 1320 = 0,772727 Podle teorie testové kritérium (testovou statistiku) počítáme jako A = √ − 1 ∙ !> Hypotézu nezávislosti veličin a na hladině 4 zamítáme, je-li |!> | ≥ !> + ; 4, Kritické hodnoty Spearmanova korelačního koeficientu najdeme ve statistických tabulkách. Vypočteme si nyní testovou statistiku dosazením do vzorce A = √11 − 1 ∙ 0,772727 = 3,162278 ∙ 0,772727 = 2,443578 Tuto statistiku ovšem pro následující závěrečné porovnání vůbec nepotřebujeme. |0,772727| = 0,772727 ≥ 0,6091 = !> +11; 0,05, Je zřejmé, že nerovnost platí. Tedy na hladině významnosti 0,05 nulovou hypotézu zamítáme. Můžeme konstatovat, že na hladině významnosti 0,05 byla prokázána závislost mezi spotřebou alkoholu a úmrtností na cirhózu jater a alkoholismus. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
5
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13
Příklad 3 Byly naměřeny následující hodnoty veličin a . Na hladině významnosti 0,05 prověřte, zda jsou naměřené hodnoty kladně korelované. : 55, 55, 55, 65, 65, 65, 75, 75, 75, 85, 85, 95, 95, 95 : 3, 3.6, 4.2, 1.8, 2.4, 3, 1.8, 2.4, 3, 1.8, 2.4, 1.8, 2.4, 3 ……………………………………………………………………………………………………………………………………………………………
Řešení 3 Ze vstupních dat máme 14 a z požadavku úlohy 4 0,05. Nulová hypotéza předpokládá nezávislost naměřených dat, alternativní hypotéza předpokládá jejich závislost. Obrázek nám představuje data v grafické podobě. Vodorovná osa je pro náhodnou veličinu a svislá osa pro náhodnou veličinu .
V tomto případě nemůžeme předpokládat normalitu dat. Proto nemůžeme k výpočtu použít výběrový korelační koeficient Pearsonův. V této situaci je nutné vypočítat výběrový korelační koeficient Spearmanův. Tento koeficient je nazýván koeficient pořadové korelace, protože nepracuje přímo s danými hodnotami, ale jejich pořadím. Tabulku ze zadání upravíme tak, aby obsahovala pořadí veličin X a Y, rozdíly těchto pořadí a druhé mocniny těchto rozdílů. Dostaneme (součet obou pořadí je jen kontrolní údaj) i
Xi 1 2 3 4 5 6 7
∀ ∃
Yi 55 55 55 65 65 65 75
Rx 3 3,6 4,2 1,8 2,4 3 1,8
Ry 1 2 3 4 5 6 7
9 13 14 1 5 10 2
Rx-Ry (Rx-Ry)2 -8 64 -11 121 -11 121 3 9 0 0 -4 16 5 25 6
ŘEŠENÉ PŘÍKLADY Z MV2 i
Xi 8 9 10 11 12 13 14
Suma
ČÁST 13 Yi
75 75 85 85 95 95 95
Rx 2,4 3 1,8 2,4 1,8 2,4 3
8 9 10 11 12 13 14 105
Ry
Rx-Ry
6 11 3 7 4 8 12 105
2 -2 7 4 8 5 2
(Rx-Ry)2 4 4 49 16 64 25 4 522
Nyní můžeme vypočítat Spearmanův výběrový korelační koeficient, který podle teorie je -
6 !> = 1 − (+? − @ ,& & + − 1, )
Dosadíme a dostaneme 6 3132 3132 3132 ∙ 522 = 1 − =1− =1− = 1 − 1,147253 !> = 1 − & 14+14 − 1, 14+196 − 1, 14 ∙ 195 2730 = −0,147253 Podle teorie testové kritérium (testovou statistiku) počítáme jako A = √ − 1 ∙ !> Hypotézu nezávislosti veličin a na hladině 4 zamítáme, je-li |!> | ≥ !> + ; 4, Kritické hodnoty Spearmanova korelačního koeficientu najdeme ve statistických tabulkách. Vypočteme si nyní testovou statistiku dosazením do vzorce A = √14 − 1 ∙ +−0,147253, = 3,605551 ∙ +−0,147253, = −0,53093 Tuto statistiku ovšem pro následující závěrečné porovnání vůbec nepotřebujeme. |−0,147253| = 0,147253 ≥ 0,5341 = !> +14; 0,05, Je zřejmé, že nerovnost neplatí. Tedy na hladině významnosti 0,05 nulovou hypotézu nemůžeme zamítnout. Můžeme konstatovat, že na hladině významnosti 0,05 byla prokázána nezávislost naměřených dat. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
7
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13
Příklad 4 Bylo zjišťováno, zda u souboru chlapců je závislost mezi počtem provedených shybů a kliků. Byly zjištěny hodnoty uvedené v tabulce. Závislost testujte na hladině významnosti 0,05. shyby: 1, 3, 2, 0, 5, 6, 1, 4, 3, 5, 6, 2, 1, 1, 8 kliky: 10, 15, 15, 0, 40, 25, 7, 31, 30, 35, 41, 10, 14, 9, 64 ……………………………………………………………………………………………………………………………………………………………
Řešení 4 V tomto případě můžeme z charakteru dat předpokládat normální rozdělení obou náhodných veličin a . Budeme testovat nulovou hypotézu (výsledky obou testů jsou nezávislé) proti jednostranné alternativní hypotéze (výsledky testů jsou kladně korelované). : 0, : 0 Ze zadání úlohy máme 15 a 4 0,05. Obrázek nám představuje data v grafické podobě. Vodorovná osa je pro náhodnou veličinu neboli výsledky prvního testu a svislá osa pro náhodnou veličinu neboli výsledky druhého testu.
Nejprve budeme počítat výběrový korelační koeficient Pearsonův (jak bylo uvedeno výše, předpokládáme normalitu dat) podle vzorce z teorie. "#$ ! %"# & "$ & Pro výpočet podle tohoto vzorce potřebujeme vypočítat průměry, výběrové rozptyly a výběrovou kovarianci podle vzorců.
∀ ∃
'
1 ( 10
'
1 ( 10
)
)
8
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13 -
"# =
1 (+ −1
"$ & =
1 (+ − ' ,& −1
&
"#$ =
) -
-
1 (+ −1 )
− ' ,&
)
− ' ,+ − ' ,
Pro provedení výpočtů si připravíme tabulku v MS Excel obsahující kromě hodnot náhodných veličin i jejich rozdíly od jejich průměru, druhé mocniny těchto rozdílů a součin těchto rozdílů.
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Pruměr
X
Y 1 10 3 15 2 15 0 0 5 40 6 25 1 7 4 31 3 30 5 35 6 41 2 10 1 14 1 9 8 64 3,2 23,06667
X-PrX (X-PrX)2 Y-PrY (Y-PrY)2 (X-PrX)(Y-PrY) -2,2 4,84 -13,0667 170,7378 28,74666667 -0,2 0,04 -8,06667 65,07111 1,613333333 -1,2 1,44 -8,06667 65,07111 9,68 -3,2 10,24 -23,0667 532,0711 73,81333333 1,8 3,24 16,93333 286,7378 30,48 2,8 7,84 1,933333 3,737778 5,413333333 -2,2 4,84 -16,0667 258,1378 35,34666667 0,8 0,64 7,933333 62,93778 6,346666667 -0,2 0,04 6,933333 48,07111 -1,386666667 1,8 3,24 11,93333 142,4044 21,48 2,8 7,84 17,93333 321,6044 50,21333333 -1,2 1,44 -13,0667 170,7378 15,68 -2,2 4,84 -9,06667 82,20444 19,94666667 -2,2 4,84 -14,0667 197,8711 30,94666667 4,8 23,04 40,93333 1675,538 196,48 Součet 78,4 4082,933 524,8
Pomocí této tabulky dostaneme
' = 3,2 ' = 23,06667 78,4 "# & = = 5,6 14 4082,933 = 291,6381 "$ & = 14 524,8 "#$ = = 37,48571 14 Nyní se můžeme vrátit k výpočtu výběrového Pearsonova korelačního koeficientu. Dosadíme do výše uvedeného vzorce a dostaneme 37,48571 37,48571 37,48571 != = = = 0,927576 %5,6 ∙ 291,6381 √1633,173 40,41254
Podle hodnoty výběrového Pearsonova korelačního koeficientu je zřejmé, že lze očekávat zamítnutí nulové hypotézy. Přesvědčíme se o tom výpočtem testové statistiky podle vzorce z teorie ! 3= ∙√ −2 √1 − ! & Po dosazení ∀ ∃
9
ŘEŠENÉ PŘÍKLADY Z MV2 3=
0,927576
ČÁST 13 0,927576
∙ √13 =
0,927576
∙ 3,605551 √1 − 0,86039782 √0,13960218 %1 − 0,927576& 3,344424 = = 8,951075628 0,373634 Podle teorie hypotézu nezávislosti veličin a na hladině 4 zamítáme, je-li 4 |3| ≥ 7-8& 91 − : 2 Připomínáme, že 7-8& +1 − 4 ⁄2, označuje 1 − 4 ⁄2-kvantil Studentova t-rozdělení o − 2 stupních volnosti (ten najdeme ve statistických tabulkách). Dosadíme a dostaneme 0,05 |8,951075628| = 8,951075628 ≥ 2,160 = 7 I8& <1 − = 2 Je zřejmé, že uvedená nerovnost platí. Proto na hladině 0,05 zamítáme nulovou hypotézu. Můžeme konstatovat, že na hladině významnosti 0,05 jsou výsledky měření počtu shybů a počtu kliků kladně korelované. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
∙ √15 − 2 =
10
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13
Příklad 5 V tabulce jsou uvedeny údaje z výběrového souboru 269 studentů jisté fakulty, které jsou tříděné podle oboru studia a podle jimi subjektivně hodnocené prestiže studovaného oboru. Na hladině významnosti 0,01 prokažte závislost mezi těmito dvěma proměnnými. Obor Prestiž vysoká Prestiž průměrná Prestiž nízká Celkem A 4 29 36 69 B 2 34 36 72 C 48 67 13 128 Celkem 54 130 85 269 ……………………………………………………………………………………………………………………………………………………………
Řešení 5 Jedním ze zkoumaných znaků je studovaný obou, druhým je subjektivně vnímaná prestiž studovaného obou. Nulovou hypotézou je nezávislost těchto zkoumaných znaků, alternativní hypotézou je závislost zkoumaných znaků. V zadání úlohy je stanovena hladina významnosti 4 = 0,01. Tato situace vede k využití takzvaného chí kvadrát testu nezávislosti v kontingenční tabulce. Tento test porovnává napozorované četnosti s očekávanými četnostmi za předpokladu nezávislosti znaků. Podle zadání máme = 269, J = 3, K=3 Označme L , M = 1, … , J, O = 1, … , K četnost v M=tém řádku a O=tém sloupci naší tabulky. Dále označme P součet četností v M-tém řádku a PL součet četností v O-tém sloupci tabulky. Konkrétně tedy máme P = 69, &P = 72, QP = 128 P = 54, P& = 130, PQ = 85 Využijeme MS Excel a data si uspořádáme do tabulky.
1 A B C Suma
2 4 2 48 54
3 29 34 67 130
36 36 13 85
Suma 69 72 128 269
Očekávaná četnost v M-tém řádku a O-tém sloupci tabulky za hypotézy nezávislosti mezi těmito dvěma znaky je P ∙ PL RL = Vypočteme jednotlivé hodnoty podle tohoto vzorce. Dostaneme tabulku
A B C Suma ∀ ∃
1 13,85 14,45 25,70 54
2 33,35 34,80 61,86 130
3 21,80 22,75 40,45 85
Suma 69 72 128 269
11
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 13
Z této tabulky můžeme počítat testovou statistiku vyjadřující míru shody mezi stejnolehlými prvky předchozích tabulek. Podle teorie budeme tuto statistiku počítat podle vzorce W
&
V
S = ((
T
L
) L)
&
− R LU RL
Sčítané členy si vypočteme v MS Excel ve třetí tabulce. Tyto členy pak sečteme do řádkových a sloupcových součtů, vpravo dole bude součet celkový. Dostaneme
1 A B C Suma
7,01 10,73 19,36 37,10
2
3 0,57 0,02 0,43 1,01
9,24 7,72 18,62 35,58
Suma 16,82 18,46 38,41 73,69
V tabulce jsou již provedeny potřebné součty, takže S & = 73,69 Podle teorie hypotézu nezávislosti vyšetřovaných dvou znaků na hladině 4 zamítáme, je-li S & ≥ S & +W8 ,∙+V8 , +1 − 4, Kritické hodnoty S & testu najdeme ve statistických tabulkách. V tabulkách tedy budeme hledat hodnotu S & +Q8 ,∙+Q8 , +1 − 0,01, = S & &∙& +1 − 0,01, = S & X +1 − 0,01, = 13,28 Dosadíme do testovací nerovnosti a dostaneme S & = 73,69 ≥= 13,28 = S & +Q8
,∙+Q8 , +1 −
0,01,
Je zřejmé, že testovací nerovnost platí. Tedy nulovou hypotézu o nezávislosti testovaných znaků na hladině 0,01 zamítáme. Na hladině významnosti 0,01 pokládáme závislost mezi studovaným oborem a úrovní jeho prestiže za prokázanou. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
12