ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Příklad 1 V roce 1998 se v Liberci oženili muži a vdaly ženy v jednotlivých věkových skupinách v následujících počtech: Skupina 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let
Počet ženichů 11 166 191 88 46 39 26 29 27
Počet nevěst 30 272 159 50 26 25 27 22 12
Vypočtěte Pearsonovy korelační koeficienty a sestavte korelační matici. Z výsledných korelačních koeficientů se pokuste verbálně charakterizovat tabulkou popsaný jev. ……………………………………………………………………………………………………………………………………………………………
Řešení 1 Data pro tuto úlohu máme zadána tabulkou četnosti. Chceme zkoumat vztahu mezi počtem ženichů a počtem nevěst s tím, že na jev hledíme z hlediska věkové skupiny. Zajímá nás tedy, zda se dá říci, že lidé často uzavírají sňatek v rámci stejné věkové skupiny. Poznámka - Samozřejmě mnohem zajímavější a ve výsledku lépe vypovídající by bylo zkoumání trendu závislosti věku ženicha a věku nevěsty. To s těmito daty ale udělat nemůžeme. Na to bychom potřebovali primární data o věku ženicha a nevěsty v každém uzavřeném manželství. Nicméně na tomto příkladu si ukážeme, že i z ne zcela kvalitních dat lze statistickými metodami získat poměrně kvalitní odpověď. …………………………………………………………………………………………………………………………………………………………… Řešení 1 a – ruční výpočet Označme počty ženichů a počty nevěst postupně pro jednotlivé věkové třídy. Zde je počet ženichů a je počet nevěst i-té věkové třídy. 11, 30 166, 272 191, 159 88, 50 46, 26 39, 25 26, 27 29, 22 27, 12 Sestavíme nyní bodový graf ukazující vztah počtu ženichů a počtu nevěst v jednotlivých věkových třídách. Na vodorovnou osu vynášíme počet ženichů, na svislou osu počet nevěst. Jednotlivé body ∀ ∃
1
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
grafu pak ukazují soubor příslušných dvojic ze stejné věkové třídy. Tento graf je jediným užitím MS Excel v rámci tohoto řešení.
Zahájíme výpočet Pearsonova korelačního koeficientu. Nejprve vypočítáme aritmetické průměry jednotlivých znaků, neboli vypočteme aritmetický průměr počtu ženichů a aritmetický průměr počtu nevěst. Začneme se ženichy. ̅
1
!
1 "11 # 166 # 191 # 88 # 46 # 39 # 26 # 29 # 27$ 9
Pokračujeme nevěstami. &
1
!
1 "30 # 272 # 159 # 50 # 26 # 25 # 27 # 22 # 12$ 9
1 ∙ 623 9
1 ∙ 623 9
69,22
69,22
Oba průměry mají stejnou hodnotu. Sňatek v roce 1998 mohl uzavírat pouze muž se ženou, proto jsou počty ženichů a počty nevěst nutně stejné. Stejný je i počet věkových tříd. Průměr pak nemůže vyjít jinak, než stejně (kdyby nevyšel, bylo by zřejmé, že jsme někde ve výpočtu udělali chybu). Dále budeme počítat kovarianci počtu ženichů a počtu nevěst.
∀ ∃
2
ŘEŠENÉ PŘÍKLADY Z MV2
'() =
1 !
"
− ̅ $"
ČÁST 2
− &$
1 = +"11 − 69,22$"30 − 69,22$ + "166 − 69,22$"272 − 69,22$ 9 + "191 − 69,22$"159 − 69,22$ + "88 − 69,22$"50 − 69,22$ + "46 − 69,22$"26 − 69,22$ + "39 − 69,22$"25 − 69,22$ + "26 − 69,22$"27 − 69,22$ + "29 − 69,22$"22 − 69,22$ + "27 − 69,22$"12 − 69,22$, 1 = +"−58,22$ ∙ "−39,22$ + 96,78 ∙ 202,78 + 121,78 ∙ 89,78 + 18,78 ∙ "−19,22$ 9 "−23,22$ + ∙ "−43,22$ + "−30,22$ ∙ "−44,22$ + "−43,22$ ∙ "−42,22$ + "−40,22$ ∙ "−47,22$ + "−42,22$ ∙ "−57,22$, 1 = +2283,39 + 19625,05 + 10933,41 − 360,95 + 1003,57 + 1336,33 + 1824,75 9 1 + 1899,19 + 2415,83, = ∙ 40960,56 = 4551,17 9 Pro výpočet Pearsonova korelačního koeficientu budeme potřebovat i rozptyl počtu ženichů a rozptyl počtu nevěst. Oba rozptyly můžeme počítat jako kovarianci těchto počtů sama se sebou. Začneme výpočtem rozptylu počtu ženichů. '( =
1 !
"
− ̅$ =
1 !
"
− ̅ $"
− ̅ $ = '(( =
1 = +"11 − 69,22$"11 − 69,22$ + "166 − 69,22$"166 − 69,22$ 9 + "191 − 69,22$"191 − 69,22$ + "88 − 69,22$"88 − 69,22$ + "46 − 69,22$"46 − 69,22$ + "39 − 69,22$"39 − 69,22$ + "26 − 69,22$"26 − 69,22$ + "29 − 69,22$"29 − 69,22$ + "27 − 69,22$"27 − 69,22$, 1 = +"−58,22$ ∙ "−58,22$ + 96,78 ∙ 96,78 + 121,78 ∙ 121,78 + 18,78 ∙ 18,78 9 + "−23,22$ ∙ "−23,22$ + "−30,22$ ∙ "−30,22$ + "−43,22$ ∙ "−43,22$ + "−40,22$ ∙ "−40,22$ + "−42,22$ ∙ "−42,22$, 1 = +3389,57 + 9366,37 + 14830,37 + 352,69 + 539,17 + 913,25 + 1867,97 9 1 + 1617,65 + 1782,53, = ∙ 34,659,56 = 3851,06 9 Pokračujeme výpočtem rozptylu počtu nevěst.
∀ ∃
3
ŘEŠENÉ PŘÍKLADY Z MV2
') =
1 !
"
ČÁST 2
− &$ =
1 !
"
− &$"
− &$ = ')) =
1 = +"30 − 69,22$"30 − 69,22$ + "272 − 69,22$"272 − 69,22$ 9 + "159 − 69,22$"159 − 69,22$ + "50 − 69,22$"50 − 69,22$ + "26 − 69,22$"26 − 69,22$ + "25 − 69,22$"25 − 69,22$ + "27 − 69,22$"27 − 69,22$ + "22 − 69,22$"22 − 69,22$ + "12 − 69,22$"12 − 69,22$, 1 = +"−39,22$ ∙ "−39,22$ + 202,78 ∙ 202,78 + 89,78 ∙ 89,78 + "−19,22$ 9 "−19,22$ ∙ + "−43,22$ ∙ "−43,22$ + "−44,22$ ∙ "−44,22$ + "−42,22$ ∙ "−42,22$ + "−47,22$ ∙ "−47,22$ + "−57,22$ ∙ "−57,22$, 1 = +1538,21 + 41119,73 + 8060, ,45 + 369,41 + 1867,97 + 1955,41 + 1782,53 9 1 + 2229,73 + 3274,13, = ∙ 62197,56 = 6910,84 9 Získané mezivýsledky použijeme k výpočtu Pearsonova korelačního koeficientu. '() 4551,17 4551,17 4551,17 = = = = 0,88 -(,) = 5158,88 /3851,06 ∙ 6910,84 /26614069,59 .'( ') Všechny výpočty jsme průběžně zaokrouhlovali na dvě desetinná místa. Zbývá ještě vyjádřit slovně vztah počtu ženichů a počtu nevěst v jednotlivých věkových třídách. Hodnotit budeme podle tabulky (viz teorie). Korelační koeficient Úroveň závislosti -(,) = −1 Pevná záporná závislost −1 < -(,) < −0,7 Značně vysoká záporná závislost −0,7 < -(,) < −0,5 Vysoká záporná závislost −0,5 < -(,) < −0,3 Střední záporná závislost −0,3 < -(,) < 0 Slabá záporná závislost -(,) = 0 Neexistující závislost 0 < -(,) <0,3 Slabá kladná závislost 0,3 < -(,) <0,5 Střední kladná závislost 0,5 < -(,) <0,7 Vysoká kladná závislost 0,7 < -(,) < 1 Značně vysoká kladná závislost -(,) = 1 Pevná kladná závislost Můžeme konstatovat, že mezi počty ženichů a nevěst v jednotlivých věkových třídách značně vysoká kladná závislost. To nás nepřekvapuje. Viděli jsme tuto závislost již v tabulce třídního rozdělení v zadání. Počty ženichů a nevěst se v jednotlivých třídách řádově nelišily. …………………………………………………………………………………………………………………………………………………………… Řešení 1 b – naivní využití MS Excel V tomto řešení tého příkladu nebudeme užívat kalkulačku, ale k provedení výpočtů využijeme MS Excel. Nebudeme ale užívat žádné z jeho statistických funkcí, neboli ho budeme užívat jen velmi naivně (tak, jak to dělá naprostá většina uživatelů tohoto programu). Data si vložíme v MS Excel do tabulky ∀ ∃
4
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Skupina 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let
Ženichů 11 166 191 88 46 39 26 29 27
Nevěst 30 272 159 50 26 25 27 22 12
Z této tabulky vytvoříme bodový graf
Tabulku doplníme O řádky směřující k výpočtu průměru obou zkoumaných znaků (počtu nevěst a počtu ženichů). Skupina 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let Počet Součet Průměr
∀ ∃
Ženichů 11 166 191 88 46 39 26 29 27
Nevěst 30 272 159 50 26 25 27 22 12
9 623 69,22
9 623 69,22
5
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Průměr (je nutně stejný pro oba zkoumané znaky, jak jsme konstatovali v minulém řešení) máme vypočítaný. Tabulku si nyní rozšíříme o sloupce týkající se výpočtu odchylek od průměrného věku v obou zkoumaných třídách. Jde o sloupce Zo pro ženichy a No pro nevěsty. Skupina 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let Počet Součet Průměr
Ženichů 11 166 191 88 46 39 26 29 27
Nevěst 30 272 159 50 26 25 27 22 12
9 623 69,22
9 623 69,22
Prumer 69,22 69,22 69,22 69,22 69,22 69,22 69,22 69,22 69,22 Součet
Zo -58,22 96,78 121,78 18,78 -23,22 -30,22 -43,22 -40,22 -42,22 0,00
No -39,22 202,78 89,78 -19,22 -43,22 -44,22 -42,22 -47,22 -57,22 0,00 Počet Kovariance
Kontrolní součet odchylek je nulový. V této fázi výpočtu tedy nemáme chybu. Abychom mohli vypočítat korelační koeficient, potřebujeme nejprve vypočítat kovarianci a rozptyly obou zkoumaných znaků. Pro výpočet si tabulku rozšíříme o pomocné sloupce ZoNo, Zo2 a No2. Do sloupce ZoNo vložíme vzorce pro výpočet součinu sloupců Zo a No v odpovídajících řádícch. Do sloupce Zo2 vložíme vzorce pro výpočet druhé mocniny hodnoty ve sloupci Zo v odpovídajícím řádku. A podobně naplníme i sloupec No2. Vypočteme součty těchto sloupců. Dostaneme Skupina
Ženichů
Nevěst
Prumer
Zo
No
ZoNo
Zo2
No2
2283,60
3389,83
1538,38
15-19 let
11
30
69,22
20-24 let
166
272
69,22
96,78
25-29 let
191
159
69,22
121,78
30-34 let
88
50
69,22
18,78
-19,22
-360,95
352,60
369,49
35-39 let
46
26
69,22
-23,22
-43,22
1003,72
539,27
1868,16
40-44 let
39
25
69,22
-30,22
-44,22
1336,49
913,38
1955,60
45-49 let
26
27
69,22
-43,22
-42,22
1824,94
1868,16
1782,72
50-54 let
29
22
69,22
-40,22
-47,22
1899,38
1617,83
2229,94
55-59 let
27
12
69,22
-42,22
-57,22
2416,05
1782,72
3274,38
Počet
9
9
Součet
623
623
Průměr
69,22
69,22
Součet
-58,22
-39,22
202,78 19624,38
9365,94 41118,83
89,78 10932,94 14829,83
0,00
8060,05
0,00 40960,56 34659,56 62197,56 Počet Kovariance
9
9
9
4551,17
Pro výpočet kovariance teď stačí vydělit součet sloupce ZoNo počtem tříd. Totéž platí pro výpočet rozptylu hodnot obou zkoumaných znaků.
∀ ∃
6
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Skupina
Ženichů
Nevěst
Prumer
15-19 let
11
30
69,22
-58,22
20-24 let
166
272
69,22
96,78
25-29 let
191
159
69,22
121,78
30-34 let
88
50
69,22
18,78
-19,22
-360,95
352,60
369,49
35-39 let
46
26
69,22
-23,22
-43,22
1003,72
539,27
1868,16
40-44 let
39
25
69,22
-30,22
-44,22
1336,49
913,38
1955,60
45-49 let
26
27
69,22
-43,22
-42,22
1824,94
1868,16
1782,72
50-54 let
29
22
69,22
-40,22
-47,22
1899,38
1617,83
2229,94
55-59 let
27
12
69,22
-42,22
-57,22
2416,05
1782,72
3274,38
Počet
9
9
623
623
Součet Průměr Korel.koef.
Pearson
Zo
Součet
No -39,22
ZoNo
Zo2
No2
2283,60
3389,83
1538,38
202,78 19624,38
89,78 10932,94 14829,83
0,00
9
Kovariance
0,88 =PEARSON(B2:B10;C2:C10)
8060,05
0,00 40960,56 34659,56 62197,56 Počet
69,22 69,22 0,88 =CORREL(B2:B10;C2:C10)
9365,94 41118,83
9
9
3851,06
6910,84
4551,17
Rozptyl
Nyní již máme k dispozici všechny potřebné mezivýsledky pro výpočet Pearsonova korelačního koeficientu. Nejprve si vypočítáme součin obou rozptylů. Ten poté odmocníme. A nakonec vydělíme dříve nalezenou kovarianci hodnotou této odmocniny. Tím je výpočet dokončen. Skupina
Ženichů
Nevěst
Prumer
15-19 let
11
30
69,22
-58,22
20-24 let
166
272
69,22
96,78
25-29 let
191
159
69,22
121,78
30-34 let
88
50
69,22
18,78
-19,22
-360,95
352,60
369,49
35-39 let
46
26
69,22
-23,22
-43,22
1003,72
539,27
1868,16
40-44 let
39
25
69,22
-30,22
-44,22
1336,49
913,38
1955,60
45-49 let
26
27
69,22
-43,22
-42,22
1824,94
1868,16
1782,72
50-54 let
29
22
69,22
-40,22
-47,22
1899,38
1617,83
2229,94
55-59 let
27
12
69,22
-42,22
-57,22
2416,05
1782,72
3274,38
Počet
9
9
0,00 40960,56 34659,56
62197,56
623
623
Součet Průměr Korel.koef.
Pearson
Zo
Součet
69,22 69,22 0,88 =CORREL(B2:B10;C2:C10) 0,88 =PEARSON(B2:B10;C2:C10)
No
ZoNo
Zo2
2283,60
3389,83
1538,38
202,78 19624,38
9365,94
41118,83
89,78 10932,94 14829,83
8060,05
-39,22
0,00 Počet
Kovariance
9
9
9
3851,06
6910,84
4551,17
Rozptyl Součin rozptylů
Odmocnina součinu rozptylů Pearson
No2
26614069,53 5158,88 0,88
……………………………………………………………………………………………………………………………………………………………
∀ ∃
7
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Řešení 1 c – maximální využití MS Excel Data si vložíme do MS Excel tabulky
Skupina 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let
Ženichů 11 166 191 88 46 39 26 29 27
Nevěst 30 272 159 50 26 25 27 22 12
Z této tabulky vytvoříme bodový graf
Tabulku doplníme vzorcem pro výpočet korelačního koeficientu. Využijeme vestavěnou funkci CORREL nebo PEARSON. Obě tyto funkce mají stejný typ parametrů. Prvním je pole s hodnotami prvního znaku a druhým je pole s hodnotami druhého znaku jejichž závislost zkoumáme. Obě funkce dávají i stejné výsledky. Dostaneme.
∀ ∃
Skupina 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let
Ženichů 11 166 191 88 46 39
Nevěst 30 272 159 50 26 25 8
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2 45-49 let 50-54 let 55-59 let Korel.koef. Pearson
26 29 27
27 22 12
0,88 =CORREL(B2:B10;C2:C10) 0,88 =PEARSON(B2:B10;C2:C10)
Poznámka – MS Excel umožňuje přímo v grafu velmi snadno zobrazit přímku trendu pouhou jednoduchou volbou vhodného rozložení grafu. To už ale trochu předbíháme. Jak najít tuto přímku a jaký je její význam je předmětem jednoho z pozdějších témat (viz 14 - Lineární regrese).
……………………………………………………………………………………………………………………………………………………………
∀ ∃
9
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Příklad 2 V jedné poněkud tragické třídě měli studenti následující trojice známek z matematiky, fyziky a dějepisu.: 433, 423, 531, 322, 334, 441, 531, 434, 522, 331, 552, 531, 221, 432, 442. Vypočtěte Pearsonovy korelační koeficienty a stanovte korelační matici. Z nalezených koeficientů se pokuste slovně charakterizovat vztah hodnocení v jednotlivých předmětech. ……………………………………………………………………………………………………………………………………………………………
Řešení 2a – zcela ruční výpočet Označme jednotlivé známky postupně pro jednotlivé studenty. Zde je známka z matematiky, je známka z fyziky a 1 je známka z dějepisu i-tého studenta. 4, 3, 1 3 4, 2, 1 3 5, 3, 1 1 3, 2, 1 2 3, 3, 1 4 4, 4, 1 1 5, 3, 1 1 4, 3, 1 4 5, 2, 1 2 3, 3, 12 1 2 2 5, 5, 1 2 5, 3, 1 1 2, 2, 1 1 4, 3, 1 2 4, 4, 1 2 Dříve, než budeme hledat vztah hodnocení pomocí Pearsonových korelačních koeficientů, můžeme si sestavit grafy ukazující vztah hodnocení v jednotlivých dvojicích předmětů. Na vodorovnou osu vynášíme známku studenta z prvního uvedeného předmětu, na svislou osu známku z druhého předmětu. Jednotlivé body grafu pak ukazují soubor dvojic se zkoumaným hodnocením. Tyto grafy jsou jediným užitím MS Excel v rámci tohoto řešení.
∀ ∃
10
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Nyní Se již pustíme do výpočtu Pearsonových korelačních koeficientů. Nejprve vypočítáme aritmetické průměry jednotlivých znaků, neboli vypočteme aritmetické průměry známek z jednotlivých předmětů. Začneme známkami z matematiky. ̅
1
1 "4 # 4 # 5 # 3 # 3 # 4 # 5 # 4 # 5 # 3 # 5 # 5 # 2 # 4 # 4$ 15
!
Pokračujeme výpočtem průměrné známky z fyziky. &
1
1 "3 # 2 # 3 # 2 # 3 # 4 # 3 # 3 # 2 # 3 # 5 # 3 # 2 # 3 # 4$ 15
!
Nakonec vypočteme průměrnou známku z dějepisu. 1̅
1
!
1
1 "3 # 3 # 1 # 2 # 4 # 1 # 1 # 4 # 2 # 1 # 2 # 1 # 1 # 2 # 2$ 15
1 ∙ 60 15
1 ∙ 45 15
1 ∙ 30 15
4 3 2
Tyto krásné celé průměry pochopitelně nejsou ze života. Jde o školní příklad. Ale aspoň někdy si můžeme užít pohody. Dále budeme počítat kovarianci jednotlivých dvojic předmětů. Začneme výpočtem kovariance hodnocení z matematiky s hodnocením z fyziky.
∀ ∃
11
ŘEŠENÉ PŘÍKLADY Z MV2
'() =
1 !
"
− ̅ $"
ČÁST 2
− &$
1 +"4 − 4$"3 − 3$ + "4 − 4$"2 − 3$ + "5 − 4$"3 − 3$ + "3 − 4$"2 − 3$ 15 + "3 − 4$"3 − 3$ + "4 − 4$"4 − 3$ + "5 − 4$"3 − 3$ + "4 − 4$"3 − 3$ + "5 − 4$"2 − 3$ + "3 − 4$"3 − 3$ + "5 − 4$"5 − 3$ + "5 − 4$"3 − 3$ + "2 − 4$"2 − 3$ + "4 − 4$"3 − 3$ + "4 − 4$"4 − 3$, 1 +0 ∙ 0 + 0 ∙ "−1$ + 1 ∙ 0 + "−1$ ∙ "−1$ + "−1$ ∙ 0 + 0 ∙ 1 + 1 ∙ 0 + 0 ∙ 0 + 1 = 15 ∙ "−1$ + "−1$ ∙ 0 + 1 ∙ 2 + 1 ∙ 0 + "−2$ ∙ "−1$ + 0 ∙ 0 + 0 ∙ 1, 1 1 4 +0 + 0 + 0 + 1 + 0 + 0 + 0 + 0 − 1 + 0 + 2 + 0 + 2 + 0 + 0, = = ∙4= 15 15 15 Pokračujeme výpočtem kovariance hodnocení z matematiky s hodnocením z dějepisu. '(3 =
1 !
=
"
− ̅ $"1 − 1̅$
1 +"4 − 4$"3 − 2$ + "4 − 4$"3 − 2$ + "5 − 4$"1 − 2$ + "3 − 4$"2 − 2$ 15 + "3 − 4$"4 − 2$ + "4 − 4$"1 − 2$ + "5 − 4$"1 − 2$ + "4 − 4$"4 − 2$ + "5 − 4$"2 − 2$ + "3 − 4$"1 − 2$ + "5 − 4$"2 − 2$ + "5 − 4$"1 − 2$ + "2 − 4$"1 − 2$ + "4 − 4$"2 − 2$ + "4 − 4$"2 − 2$, 1 +0 ∙ 1 + 0 ∙ 1 + 1 ∙ "−1$ + "−1$ ∙ 0 + "−1$ ∙ 2 + 0 ∙ "−1$ + 1 ∙ "−1$ + 0 ∙ 2 = 15 + 1 ∙ 0 + "−1$ ∙ "−1$ + 1 ∙ 0 + 1 ∙ "−1$ + "−2$ ∙ 0 + 0 ∙ 0 + 0 ∙ 0, 1 1 +0 + 0 − 1 + 0 − 2 + 0 − 1 + 0 + 0 + 1 + 0 − 1 + 2 + 0 + 0, = = ∙ "−2$ 15 15 2 =− 15 Nakonec vypočteme kovarianci hodnocení z fyziky s hodnocením z dějepisu. ')3 =
1 !
=
"
− &$"1 − 1̅$
1 +"3 − 3$"3 − 2$ + "2 − 3$"3 − 2$ + "3 − 3$"1 − 2$ + "2 − 3$"2 − 2$ 15 + "3 − 3$"4 − 2$ + "4 − 3$"1 − 2$ + "3 − 3$"1 − 2$ + "3 − 3$"4 − 2$ + "2 − 3$"2 − 2$ + "3 − 3$"1 − 2$ + "5 − 3$"2 − 2$ + "3 − 3$"1 − 2$ + "2 − 3$"1 − 2$ + "3 − 3$"2 − 2$ + "4 − 3$"2 − 2$, 1 +0 ∙ 1 + "−1$ ∙ 1 + 0 ∙ "−1$ + "−1$ ∙ 0 + 0 ∙ 2 + 1 ∙ "−1$ + 0 ∙ "−1$ + 0 ∙ 2 = 15 + "−1$ ∙ 0 + 0 ∙ "−1$ + 2 ∙ 0 + 0 ∙ "−1$ + 0 ∙ 0 + 1 ∙ 0 + 0 ∙ 0, 1 1 +0 − 1 + 0 + 0 + 0 − 1 + 0 + 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0, = = ∙ "−1$ 15 15 1 =− 15 Dále budeme potřebovat rozptyl jednotlivých předmětů. Ten můžeme počítat jako kovarianci předmětu sama se sebou. Začneme výpočtem rozptylu hodnocení z matematiky.
∀ ∃
=
12
ŘEŠENÉ PŘÍKLADY Z MV2
'( =
1 !
"
− ̅$ =
ČÁST 2 1 !
"
− ̅ $"
− ̅ $ = '(( =
1 +"4 − 4$"4 − 4$ + "4 − 4$"4 − 4$ + "5 − 4$"5 − 4$ + "3 − 4$"3 − 4$ 15 + "3 − 4$"3 − 4$ + "4 − 4$"4 − 4$ + "5 − 4$"5 − 4$ + "4 − 4$"4 − 4$ + "5 − 4$"5 − 4$ + "3 − 4$"3 − 4$ + "5 − 4$"5 − 4$ + "5 − 4$"5 − 4$ + "2 − 4$"2 − 4$ + "4 − 4$"4 − 4$ + "4 − 4$"4 − 4$, 1 +0 ∙ 0 + 0 ∙ 0 + 1 ∙ 1 + "−1$ ∙ "−1$ + "−1$ ∙ "−1$ + 0 ∙ 0 + 1 ∙ 1 + 0 ∙ 0 + 1 ∙ 1 = 15 + "−1$ ∙ "−1$ + 1 ∙ 1 + 1 ∙ 1 + "−2$ ∙ "−2$ + 0 ∙ 0 + 0 ∙ 0, 1 1 12 +0 + 0 + 1 + 1 + 1 + 0 + 1 + 0 + 1 + 1 + 1 + 1 + 4 + 0 + 0, = = ∙ 12 = 15 15 15 Pokračujeme výpočtem rozptylu hodnocení z fyziky. ') =
1 !
=
"
− &$ =
1 !
"
− &$"
− &$ = ')) =
1 +"3 − 3$"3 − 3$ + "2 − 3$"2 − 3$ + "3 − 3$"3 − 3$ + "2 − 3$"2 − 3$ 15 + "3 − 3$"3 − 3$ + "4 − 3$"4 − 3$ + "3 − 3$"3 − 3$ + "3 − 3$"3 − 3$ + "2 − 3$"2 − 3$ + "3 − 3$"3 − 3$ + "5 − 3$"5 − 3$ + "3 − 3$"3 − 3$ + "2 − 3$"2 − 3$ + "3 − 3$"3 − 3$ + "4 − 3$"4 − 3$, 1 +0 ∙ 0 + "−1$ ∙ "−1$ + 0 ∙ 0 + "−1$ ∙ "−1$ + 0 ∙ 0 + 1 ∙ 1 + 0 ∙ 0 + 0 ∙ 0 = 15 + "−1$ ∙ "−1$ + 0 ∙ 0 + 2 ∙ 2 + 0 ∙ 0 + "−1$ ∙ "−1$ + 0 ∙ 0 + 1 ∙ 1, 1 1 10 +0 + 1 + 0 + 1 + 0 + 1 + 0 + 0 + 1 + 0 + 4 + 0 + 1 + 0 + 1, = = ∙ 10 = 15 15 15 Nakonec vypočteme rozptyl hodnocení z dějepisu. '3 =
1 !
=
"1 − 1̅$ =
1 !
"1 − 1̅$"1 − 1̅$ = '33 =
1 +"3 − 2$"3 − 2$ + "3 − 2$"3 − 2$ + "1 − 2$"1 − 2$ + "2 − 2$"2 − 2$ = 15 + "4 − 2$"4 − 2$ + "1 − 2$"1 − 2$ + "1 − 2$"1 − 2$ + "4 − 2$"4 − 2$ + "2 − 2$"2 − 2$ + "1 − 2$"1 − 2$ + "2 − 2$"2 − 2$ + "1 − 2$"1 − 2$ + "1 − 2$"1 − 2$ + "2 − 2$"2 − 2$ + "2 − 2$"2 − 2$, 1 +1 ∙ 1 + 1 ∙ 1 + "−1$ ∙ "−1$ + 0 ∙ 0 + 2 ∙ 2 + "−1$ ∙ "−1$ + "−1$ ∙ "−1$ + 2 = 15 ∙ 2 + 0 ∙ 0 + "−1$ ∙ "−1$ + 0 ∙ 0 + "−1$ ∙ "−1$ + "−1$ ∙ "−1$ + 0 ∙ 0 + 0 ∙ 0, 1 1 16 +1 + 1 + 1 + 0 + 4 + 1 + 1 + 4 + 0 + 1 + 0 + 1 + 1 + 0 + 0, = = ∙ 16 = 15 15 15 Nyní získané mezivýsledky použijeme k výpočtu Pearsonových korelačních koeficientů. Nejprve vypočteme koeficient lineární závislosti hodnocení matematiky a hodnocení fyziky. 4 4 '() 4 2 2√30 2√30 √30 15 15 -(,) = = = = = = = = 30 15 ∙ 3 ∙ 5 ∙ 2 ∙ 2√3 ∙ 5 ∙ 2 √4 √30 √30 √30 12 10 .'( ') . ∙ 15 15 15 Pokračujeme výpočtem koeficientu lineární závislosti hodnocení matematiky a hodnocení dějepisu.
∀ ∃
13
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
2 2 * *2 *1 *√3 *√3 √3 15 15 -(,3 * 12 √4 ∙ 3 ∙ 4 ∙ 4 2 ∙ 4√3 4√3 4√3 ∙ √3 4 ∙ 3 /'( '3 .12 ∙ 16 15 15 15 Nakonec vypočteme koeficient lineární závislosti hodnocení fyzika a hodnocení dějepisu. 1 1 * * ')3 *1 *√10 *√10 √10 15 15 -),3 * 4 ∙ 10 40 √5 ∙ 2 ∙ 4 ∙ 4 4√10 4√10 ∙ √10 .') '3 .10 ∙ 16 15 15 15 Nalezené koeficienty sestavíme do korelační matice. Z teorie víme, že je symetrická s jedničkami na hlavní diagonále. '(3
*
1
√30 15
√3 12 < √10; * ; 40 ; *
9 8 √30 1 8 8 15 √3 √10 1 : 7* 12 * 40 Zbývá ještě vyjádřit slovně vztah hodnocení jednotlivých dvojic předmětů. Hodnotit budeme podle tabulky (viz teorie). -(,( 5 ),( -3,(
-(,) -),) -3,)
-(,3 -),3 6 -3,3
-(,( 5 (,) -(,3
-(,) -),) -),3
-(,3 -),3 6 -3,3
Korelační koeficient Úroveň závislosti -(,) *1 Pevná záporná závislost *1 0 -(,) 0 *0,7 Značně vysoká záporná závislost *0,7 0 -(,) 0 *0,5 Vysoká záporná závislost *0,5 0 -(,) 0 *0,3 Střední záporná závislost *0,3 0 -(,) 0 0 Slabá záporná závislost -(,) 0 Neexistující závislost 0 0 -(,) 00,3 Slabá kladná závislost 0,3 0 -(,) 00,5 Střední kladná závislost 0,5 0 -(,) 00,7 Vysoká kladná závislost 0,7 0 -(,) 0 1 Značně vysoká kladná závislost -(,) 1 Pevná kladná závislost Abychom mohli tabulku využít pro snadné porovnání, potřebujeme vyjádřit Pearsonovy korelační koeficienty v desetinném rozvoji. Dostaneme
√30 √3 √10 ≅ 0,37, -(,3 * ≅ *0,14, -),3 * ≅ *0,08 15 12 40 Nyní již můžeme konstatovat, že mezi hodnocením z matematiky a hodnocením z fyziky v naší podivné třídě je střední kladná závislost. Mezi hodnocením z matematiky a hodnocením z dějepisu je slabá záporná závislost. Mezi hodnocením z fyziky a hodnocením z dějepisu je velmi slabá záporná závislost. …………………………………………………………………………………………………………………………………………………………… -(,)
Řešení 2b – mírné využití MS Excel Budeme řešit stejnou úlohu, tentokrát nebudeme provádět vlastní výpočet ručně, ale prostřednictvím MS Excel. Nebudeme ale v tomto programu používat žádné speciální statistické funkce, neboli budeme ho používat způsobem, jakým byly užívány tabulkové kalkulátory v době svého vzniku (zhruba 80-tá léta 20-tého století). Stručně řečeno, MS Excel budeme používat naivně. ∀ ∃
14
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Přichystáme si tabulku se zadanými daty. StID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
M
F 4 4 5 3 3 4 5 4 5 3 5 5 2 4 4
D 3 2 3 2 3 4 3 3 2 3 5 3 2 3 4
3 3 1 2 4 1 1 4 2 1 2 1 1 2 2
Přidáme řádky Součet, Počet a Průměr pro výpočet průměru za jednotlivé předměty. StID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Celkem Počet Průměr
M
F 4 4 5 3 3 4 5 4 5 3 5 5 2 4 4 60 15 4
D 3 2 3 2 3 4 3 3 2 3 5 3 2 3 4 45 15 3
3 3 1 2 4 1 1 4 2 1 2 1 1 2 2 30 15 2
Z této tabulky můžeme vytvořit stejné grafy, které jsme již prezentovali v řešení 1a. Tyto grafy je zbytečné na tomto místě opakovat. Přidáme sloupce pro výpočet odchylek a naplníme je vzorcem pro výpočet odchylky (hodnota mínus průměr) pro každého studenta. ∀ ∃
15
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
StID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Celkem Počet Průměr
M
F 4 4 5 3 3 4 5 4 5 3 5 5 2 4 4 60 15 4
D 3 2 3 2 3 4 3 3 2 3 5 3 2 3 4 45 15 3
Mo 3 3 1 2 4 1 1 4 2 1 2 1 1 2 2 30 15 2
0 0 1 -1 -1 0 1 0 1 -1 1 1 -2 0 0 0
Fo
Do 0 -1 0 -1 0 1 0 0 -1 0 2 0 -1 0 1 0
1 1 -1 0 2 -1 -1 2 0 -1 0 -1 -1 0 0 0 kovar
Pro každého studenta vypočteme součiny odchylek pro každou dvojici předmětů a pro předmět sám se sebou pro rozptyl. Doplníme součtem a vydělením počtem studentů. Získáme kovariance dvojic předmětů a rozptyly předmětů. StID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Celkem Počet Průměr
M 4 4 5 3 3 4 5 4 5 3 5 5 2 4 4 60 15 4
F 3 2 3 2 3 4 3 3 2 3 5 3 2 3 4 45 15 3
D 3 3 1 2 4 1 1 4 2 1 2 1 1 2 2 30 15 2
Mo 0 0 1 -1 -1 0 1 0 1 -1 1 1 -2 0 0 0
Fo 0 -1 0 -1 0 1 0 0 -1 0 2 0 -1 0 1 0
Do
MoFo MoDo FoDo Mo2 0 0 0 0 0 0 -1 0 0 -1 0 1 1 0 0 1 0 -2 0 1 0 0 -1 0 0 -1 0 1 0 0 0 0 -1 0 0 1 0 1 0 1 2 0 0 1 0 -1 0 1 2 2 1 4 0 0 0 0 0 0 0 0 4 -2 -1 12 15 15 15 15 kovar 0,27 -0,13 -0,07 0,80 1 1 -1 0 2 -1 -1 2 0 -1 0 -1 -1 0 0 0
Fo2 0 1 0 1 0 1 0 0 1 0 4 0 1 0 1 10 15 0,67
Do2 1 1 1 0 4 1 1 4 0 1 0 1 1 0 0 16 15 1,07
Šest hodnot v zeleném poli (jsou v tomto konkrétním případu v 19-tém řádku) použijeme pro výpočet Personových koeficientů. Vytvoříme si vzorce ∀ ∃
16
ŘEŠENÉ PŘÍKLADY Z MV2
Průměr MF MD FD
4 0,37 -0,14 -0,08
ČÁST 2
3
2 kovar 0,27 -0,13 =H19/ODMOCNINA(K19*L19) =I19/ODMOCNINA(K19*M19) =J19/ODMOCNINA(L19*M19)
-0,07
0,80
0,67
1,07
Ve druhém sloupci máme výsledné koeficienty. Mohli bychom je sestavit do matice a můžeme pomocí nich slovně vyjádřit úroveň vztahu hodnocení v jednotlivých dvojicích předmětů. Opakovat to, co jsme konstatovali už dříve, by bylo zbytečné. Poznámka – Vidíme, že i velmi naivní použití MS Excel (takhle to dělá většina jeho uživatelů) nám ušetřilo poměrně dost práce. Kvalitní užití MS Excel ale vypadá jinak. Měly by při něm být využity všechny jeho vhodné možnosti. Malá ukázka následuje jako další verze řešení téhož příkladu. ……………………………………………………………………………………………………………………………………………………………
Řešení 2c – maximální využití MS Excel Stejně jako v řešení 2b si přichystáme tabulku se zadanými daty. StID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
M
F 4 4 5 3 3 4 5 4 5 3 5 5 2 4 4
D 3 2 3 2 3 4 3 3 2 3 5 3 2 3 4
3 3 1 2 4 1 1 4 2 1 2 1 1 2 2
Přímo z této tabulky bychom mohli vytvořit bodové grafy znázorňující vzájemný vztah hodnocení ve všech dvojicích předmětů. Ty jsou zobrazeny v řešení 1a a nebudeme je tu opakovat. Přidáme tři řádky, do kterých vložíme uvedené vzorce. Dostaneme ihned výsledek, který je možné okamžitě interpretovat. MF MD FD
0,37 -0,14 -0,08
=CORREL(B2:B16;C2:C16) =CORREL(B2:B16;D2:D16) =CORREL(C2:C16;D2:D16)
Poznámka – Rozdíl v pracnosti proti oběma předchozím variantám je očividný. Vycházíme-li z kvalitní znalosti věci, je hledání řešení problémů vždy snazší. …………………………………………………………………………………………………………………………………………………………… ∀ ∃
17
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Příklad 3 V roce 1991 (publikováno 1996) měla velká města v České republice následující hodnoty některých statistických ukazatelů:
Praha Brno Ostrava Plzeň Olomouc Liberec Hradec Králové České Budějovice Ústí nad Labem Pardubice Havířov Zlín
Plocha [km²] 496 230 214 125 111 106 106 56 94 78 32 123
Obyvatel [tis.os.] 1209855 388899 324813 171249 106047 100604 100528 99708 97164 93837 87863 83026
Délka ulic [km] 2838 1400 813 265 195 397 320 195 490 213 249 280
Domácnosti 538331 162993 132584 72105 42303 41913 38790 39053 40731 37092 34193 33125
Vypočtěte Pearsonovy korelační koeficienty a sestavte korelační matici. Z výsledných korelačních koeficientů se pokuste verbálně charakterizovat tabulkou popsaný jev. ……………………………………………………………………………………………………………………………………………………………
Řešení 3 Tato úloha je již poměrně komplexní v tom smyslu, že se máme zabývat hledáním závislostí čtyř znaků dvanácti velkých měst České republiky. Víme, že závislosti vyšetřujeme po dvojicích, budeme se tedy zabývat celkem šesti závislostmi. Příslušné vzorce známe z teorie a v předchozích příkladech jsme se s nimi dostatečně seznámili při ručních i naivních výpočtech pomocí MS Excel. Tuto úlohu už budeme řešit pouze s využitím statistických funkcí MS Excel. Tabulku ze zadání vložíme do MS Excel.
Praha Brno Ostrava Plzeň Olomouc Liberec Hradec Králové České Budějovice Ústí nad Labem Pardubice Havířov Zlín
Plocha 496 230 214 125 111 106 106 56 94 78 32 123
Obyvatel 1209855 388899 324813 171249 106047 100604 100528 99708 97164 93837 87863 83026
Délka ulic Domácnosti 2838 538331 1400 162993 813 132584 265 72105 195 42303 397 41913 320 38790 195 39053 490 40731 213 37092 249 34193 280 33125
Přímo z této tabulky vytvoříme jednotlivé bodové grafy (bude jich šest, tedy stejně jako závislostí). ∀ ∃
18
ŘEŠENÉ PŘÍKLADY Z MV2
∀ ∃
ČÁST 2
19
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Obyvatel - Domácnosti 600000 Počet domácností
500000 400000 300000 Domácnosti
200000 100000 0 0
500000
1000000
1500000
Počet obyvatel
Délka ulic - Domácnosti 600000 Počet domácností
500000 400000 300000 Domácnosti
200000 100000 0 0
500
1000
1500
2000
2500
3000
Délka ulic
∀ ∃
20
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 2
Nyní již využijeme funkci CORREL nebo PEARSON k získání hodnot Pearsonova korelačního koeficientu pro všechny kombinace zkoumaných znaků. Dostaneme Město Praha Brno Ostrava Plzeň Olomouc Liberec Hradec Králové České Budějovice Ústí nad Labem Pardubice Havířov Zlín Korelační koeficienty Plocha - Obyvatel Plocha - Délka ulic Plocha - Domácnosti Obyvatel - Délka ulic Obyvatel - Domácnosti Délka ulic - Domácnosti
Plocha 496 230 214 125 111 106 106 56 94 78 32 123
0,9732 0,9676 0,9710 0,9770 0,9998 0,9753
Obyvatel 1209855 388899 324813 171249 106047 100604 100528 99708 97164 93837 87863 83026
Délka ulic Domácnosti 2838 538331 1400 162993 813 132584 265 72105 195 42303 397 41913 320 38790 195 39053 490 40731 213 37092 249 34193 280 33125
=CORREL(B2:B13;C2:C13) =CORREL(B2:B13;D2:D13) =CORREL(B2:B13;E2:E13) =CORREL(C2:C13;D2:D13) =CORREL(C2:C13;E2:E13) =CORREL(D2:D13;E2:E13)
Pearsonovy korelační koeficienty máme vypočteny. Připomeňme si naši tabulku pro slovní hodnocení zjištěné závislosti. Korelační koeficient Úroveň závislosti -(,) = −1 Pevná záporná závislost −1 < -(,) < −0,7 Značně vysoká záporná závislost −0,7 < -(,) < −0,5 Vysoká záporná závislost −0,5 < -(,) < −0,3 Střední záporná závislost −0,3 < -(,) < 0 Slabá záporná závislost -(,) = 0 Neexistující závislost 0 < -(,) <0,3 Slabá kladná závislost 0,3 < -(,) <0,5 Střední kladná závislost 0,5 < -(,) <0,7 Vysoká kladná závislost 0,7 < -(,) < 1 Značně vysoká kladná závislost -(,) = 1 Pevná kladná závislost Vidíme, že pro všechny zkoumané dvojice znaků jde o značně vysokou kladnou závislost. V případě dvojice Počet obyvatel – Počet domácností jde o závislost téměř pevnou. Poznámka – K řešení jsme použili jen statistické funkce MS Excel. Jde o ukázku, jak se podobná statistická vyhodnocení dělají prakticky. Je důležité vždy vědět, co můžeme od které funkce očekávat a jak prakticky funguje. Bezduché použití nějaké funkce by vedlo k chybné interpretaci výsledku. …………………………………………………………………………………………………………………………………………………………… ∀ ∃
21