Obecné, centrální a normované momenty Obsah kapitoly
4. Elementární statistické zpracování - parametrizace vhodnými empirickými parametry
Studijní cíle
Naučit se počítat centrální a normované momenty pomocí obecných momentů. Výpočet empirických parametrů šikmosti a špičatosti.
Doba potřebná ke studiu
Základní text 1 hod. Příklady také 1 hod.
Pojmy k zapamatování
Momentové parametry Obecné momenty Centrální momenty Normované momenty Parametr šikmosti Parametr špičatosti
Úvod
Budeme dále pokračovat ve zpracovávání výsledků měření, kdy jsme v akademickém roce 2008 – 09 zkoumali výšku studentek Vysoké školy finanční a správní. Odvodíme si vztahy mezi obecnými, centrálními a normovanými parametry.
Výkladová část
4. Elementární statistické zpracování V předchozím oddíle jsme vypočítali první dva empirické parametry našeho souboru studentek, u kterého sledujeme jejich výšku. Byly to parametr polohy – aritmetický průměr x = 167,7cm a parametr variability směrodatná odchylka Sx = 5,78cm. Nyní si ukážeme, jak empirické parametry vypočítáme snadněji pomocí obecných momentů. Momentové parametry jsou parametry, které vypočítáme ze všech hodnot statistického znaku. Rozlišujeme: obecné momenty, centrální momenty normované momenty.
Napíšeme si vztahy pro obecné momenty
O1 =
1 Σ ni .xi1 n
naměřené hodnoty v první mocnině
O2 =
1 Σ ni .xi2 n
naměřené hodnoty ve druhé mocnině
O3 =
1 Σ ni .xi3 n
naměřené hodnoty ve třetí mocnině
O4 =
1 Σ ni .xi4 n
naměřené hodnoty ve čtvrté mocnině
Součin ni .xi si snadno „připravíme“ v tabulce absolutních četností. Podobně ni .xi2, ni .xi3 a ni .xi4. střed intervalu xi 155 160 165 170 175 180
Interval do 157 158-162 163-167 168-172 173-177 178 a více ∑
ni 1 2 3 4 5
2 5 17 12 8
6
2 46
Doplněná tabulka: xi
∑
ni
xi2 .ni
xi .ni
xi3 .ni
xi4 .ni
1 2 3 4 5
2 5 17 12 8
2 10 51 48 40
2 20 153 192 200
2 40 459 768 1000
2 80 1377 3072 5000
6
2 46
12 163
72 639
432 2701
2592 12123
Výsledky v součtovém řádku dosadíme do vzorců pro obecné momenty. Rozsah souboru n je v našem příkladě roven 46. O1 =
1 .163 = 3,5435 46
O2 =
1 .639 = 13,8913 46
O3 =
1 .2701 = 58,7174 46
O4 =
1 12123 = 263,5435 46
Obecný moment prvního řádu O1 = 3,5435 je vlastně aritmetický průměr x vyjádřený v prvcích škály (1 až 6). Jednoduše tuto hodnotu převedeme na centimetry. Střed intervalu 3 je 165cm a ještě zbývá 0,5435 délky dalšího intervalu (délka intervalu je 5cm), takže 165 + 0,5435 . 5cm = 167,7175 cm. Vidíme, že je to ve shodě s předešlým výpočtem aritmetického průměru, který nám vyšel také x = 167,7174cm. Ostatní obecné momenty slouží k výpočtu centrálních momentů, jak si ukážeme za chvíli. Napíšeme si vztahy pro centrální momenty C1 =
1 ∑ ni .(xi - x )1 naměřená hodnota - střední hodnota na prvou n
C2 =
1 ∑ ni .(xi - x )2 naměřená hodnota - střední hodnota na duhou n
C3 =
1 ∑ ni .(xi - x )3 naměřená hodnota - střední hodnota na třetí n
C4 =
1 ∑ ni .(xi - x )4 naměřená hodnota - střední hodnota na čtvrtou n
Centrální momenty jsou tedy počítány vzhledem k centrální hodnotě (aritmetickému průměru). Odčítám-li aritmetický průměr od menších hodnot, dostanu záporné číslo, odčítám-li ho do větších hodnot, dostanu číslo kladné. V celkovém součtu mi to dá 0. C1 je tedy vždy = 0. Centrální momenty lze vypočítat pomocí momentů obecných. Postupnými úpravami obecného vztahu si to ukážeme pro C2. C2 =
1 ∑ ni .(xi - x )2 n
závorku upravíme podle vzorce (a – b)2 = a2 – 2ab + b2
C2 =
1 ∑ ni .(xi2 -2xi x + x 2) n
závorku roznásobíme ni C2 =
1 ∑ (ni xi2 –ni 2xi x +ni x 2) n
U sčítání nezáleží na pořadí operací, tak můžeme nejdříve sečíst první členy v závorce, pak druhé a nakonec třetí. Sumu si můžeme tzv. „roztrhat“ na tři sumy. C2 =
1 1 1 ∑ ni xi2 – 2 ∑ni xi x + ∑ni x 2) n n n
Teď již zbývá identifikovat v jednotlivých členech obecné momenty. První člen
1 ∑ ni xi2 je O2 n
Druhý člen obsahuje
1 ∑ni xi , to je O1 a x , což je také O1. n
Dohromady je druhý člen roven – 2.O1 .O1 Ve třetím členu je
1 1 ∑ni, ale ∑ni = n, takže celé se to rovná .n, a n n
to je 1. Zbývá nám tam tedy x 2 a to je O12 Dostali jsme tedy výraz O2 – 2 O12 + O12 = O2 – O12 C2 = O2 – O12 Podobně bychom postupovali v případě C3 a C4 a obdrželi bychom C3= O3 – 3.O2.O1 + 2.O13 C4 = O4 – 4.O3.O1 + 6.O2. O12 – 3.O14 Nyní do těchto vztahů dosadíme vypočítané hodnoty O1 = 3,5435; O2 = 13,8913; O3 = 58,7174; O4 = 263,5435
C2 = 13,8913 – 3,54352 = 1,3349 C3= 58,7174 – 3 . 13,8913 . 3,5435 + 2 .3,54353 = 0,0331 C4 = 263,5435 – 4 . 58,7174 .3,5435 + 6 .13,8913 . 3,54352 – 3 . 3,54354 = 4,8418
Centrální moment druhého řádu C2 je rozptyl, √C2 je směrodatná odchylka. V našem příkladě √C2 = √1,3349 = 1,1554. Pro vyjádření v centimetrech tuto hodnotu vynásobíme délkou intervalu Sx = 1,1554 . 5cm = 5,777cm. Což je ve shodě s předchozím výpočtem, kdy nám Sx vyšlo 5,78cm.
Centrální momenty třetího a čtvrtého řádu použijeme k výpočtu dalších empirických parametrů. Parametr šikmosti je nejčastěji určován pomocí normovaného momentu 3. řádu a nese pak název „koeficient šikmosti“. N3 =
C3 C 2 ⋅ C2
N3 =
0,0331 = 0,0215 1,3349 ⋅ 1,3349
Je-li koeficient šikmosti kladný, pak prvky škály ležící vlevo od aritmetického průměru mají vyšší četnosti (kladně zešikmené rozdělení četností – větší koncentrace menších prvků škály, menších hodnot statistického znaku) a opačně. V našem příkladě se jedná o mírně kladně zešikmené rozdělení, to znamená, že v našem souboru je více žen menších, než je průměrná výška x = 167,7cm. Což si můžeme ověřit v tabulce. č. 89 34 51 94 32 41 83 31 81 4 33 37
pořadí 1 2 3 4 5 6 7 8 9 10 11 12
výška 151 157 158 158 160 161 162 163 163 164 164 164
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
87 88 7 3 39 84 96 49 44 91 48 90 1 45 40 82 92 95 2 85 35 80 50 36 6 46 47 38 43 93 86 42 5 97
164 164 165 165 165 165 165 166 167 167 167 167 168 168 168 168 168 170 170 170 170 170 171 172 173 173 173 175 176 176 176 177 180 185
Menších žen je 24 a větších jenom 22.
Parametr špičatosti je nejčastěji určován pomocí normovaného momentu 4. řádu a nese pak název „koeficient špičatosti“.
N4 =
C4 C22
N4 =
4,8418 = 2,7171 1,33492
Špičatějšímu rozdělení četností při daném rozptylu odpovídá vyšší hodnota koeficientu špičatosti než rozdělení ploššímu. Používá se rovněž veličina „exces“, definovaná vztahem Ex = N4 – 3. Exces srovnává špičatost empirického rozdělení se špičatostí známého normovaného normálního rozdělení (viz. například
publikace Bílková, D. – Budinský, P. – Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 2009. Podrobně se s ním seznámíme v dalším tématu). Je-li exces kladný, je empirické rozdělení špičatější než toto rozdělení. Ex = 2,7171 – 3 = - 0,2829
V našem příkladě má soubor menší koeficient než normované normální rozdělení.
Rozšiřující text
Pro normální rozdělení (viz. například publikace Bílková, D. – Budinský, P. – Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 2009. Podrobně se s ním seznámíme v dalším tématu) platí: v intervalu µ − σ ; µ + σ leží 68% všech hodnot a v intervalu µ − 2σ ; µ + 2σ leží 95% všech hodnot Předpokládejme, že v našem příkladě má soubor, ve kterém zkoumáme výšku studentek, normální rozdělení. Určíme tyto intervaly a vypočítáme relativní četnost počtu studentek v příslušných intervalech. Střední hodnotu µ odhadneme aritmetickým průměrem x = 167,7cm a směrodatnou odchylku odhadneme pomocí centrálního momentu druhého řádu C2. √C2 = Sx = 5,8cm. První interval µ − σ ; µ + σ = 167,7 − 5,8;167,7 + 5,8 = 161,9;173,5 V tabulce najdeme, že jsou to ženy od 162 do 173cm, tj. od 7. pořadí do 39.pořadí, tedy 33 žen. č.
pořadí
výška
89 34 51 94 32 41 83 31 81 4 33 37 87 88 7 3 39 84 96 49 44 91 48 90 1 45 40 82 92 95 2 85 35 80 50 36 6 46 47 38 43 93 86 42 5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
151 157 158 158 160 161 162 163 163 164 164 164 164 164 165 165 165 165 165 166 167 167 167 167 168 168 168 168 168 170 170 170 170 170 171 172 173 173 173 175 176 176 176 177 180
97
46
185
Relativní četnost je tedy 33/46 = 0,7174 tj. 71,7%, což zhruba odpovídá hodnotě pro normální rozdělení (68%). Druhý interval µ − 2σ ;2 µ + σ = 167,7 − 2 ∗ 5,8;167,7 + 2 ∗ 5,8 = 156,1;179,3 V tabulce najdeme, že jsou to ženy od 156 do 179cm, tj. od 2. pořadí do 44.pořadí, tedy 43 žen. č. 89 34 51 94 32 41 83 31 81 4 33 37 87 88 7 3 39 84 96 49 44 91 48 90 1 45 40 82 92 95 2 85 35
pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
výška 151 157 158 158 160 161 162 163 163 164 164 164 164 164 165 165 165 165 165 166 167 167 167 167 168 168 168 168 168 170 170 170 170
34 35 36 37 38 39 40 41 42 43 44 45 46
80 50 36 6 46 47 38 43 93 86 42 5 97
170 171 172 173 173 173 175 176 176 176 177 180 185
Relativní četnost je tedy 43/46 = 0,9348 tj. 93,5%, což zhruba odpovídá hodnotě pro normální rozdělení (95%). Shrnutí
Ukázali jsme si, jak lze centrální momenty vypočítat pomocí obecných momentů a snadno tak určit empirické parametry polohy, variability, šikmosti a špičatosti.
Kontrolní otázky a úkoly
1) V tabulce jsou údaje o měsíčních výdajích 30-ti domácností v Kč Interval
xi
ni
1500-1999
1
4
2000-2499
2
6
2500-2999 3000-3499
3 4
7 7
3500-3999
5
4
4000-4500
6
2 30
Vypočtěte empirické parametry (polohy, variability, šikmosti a špičatosti). Výsledky vysvětlete. 2) V tabulce jsou údaje o počtu členů 30-ti domácností xi
ni 1
2
2
6
3 4
4 10
5
5
6
3
30
Vypočtěte empirické parametry (polohy, variability, šikmosti a špičatosti). Výsledky vysvětlete.
Seznam použitých zkratek
HNJ - Hromadný náhodný jev SS - Statický soubor SJ - Statistická jednotka SZ - Statistický znak HSZ - Hodnota statistického znaku ZSS - Základní statistický soubor NV - Náhodný výběr VSS - Výběrový statistický soubor
Studijní literatura
Bílková, D. – Budinský, P. – Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 2009. Cyhelský, L. – Souček, E.: Základy statistiky. EUPRESS, Praha 2009. Hindls, R. – Hronová, S. – Seger, J.: Statistika pro ekonomy. Professional Publishing, Praha 2004.
Odkazy
Český statistický úřad - http://www.czso.cz/
Klíč k úkolům
1) O1 =
3,23
tj. 2750 + 0,23 . 500,-Kč = 2.865,-Kč Průměrné měsíční výdaje domácností na potraviny jsou 2.865,-Kč O2 =
12,50
O3 =
54,03
O4 =
251,70
C2 =
2,05 Sx=
1,43
tj. 1,43 . 500,-Kč = 715,11Kč. Směrodatná odchylka měsíčních výdajů domácností na potraviny je 715,11Kč. C3 =
0,39
C4 =
9,07
N3 =
0,13
Jedná se o kladně zešikmené rozdělení, v souboru je více domácností s menšími výdaji na potraviny, než je průměrná částka 2.865,-Kč.
N4 =
2,17
Ex = 2,17 – 3 = -0,83 Rozdělení má menší koeficient špičatosti než normované normální rozdělení. 2) O1 =
3,63
Průměrný počet členů domácnosti je mezi 3 až 4 členové. O2 =
15,17
O3 =
69,03
O4 =
333,17
C2 =
1,97 Sx=
1,40
Směrodatná odchylka je 1,4 člena domácnosti. C3 =
-0,36
C4 =
8,38
N3 =
-0,13
Jedná se o záporně zešikmené rozdělení, v souboru je více domácností s větším počtem členů, než je průměr.
N4 =
2,17
Ex = 2,17 – 3 = -0,83 Rozdělení má menší koeficient špičatosti než normované normální rozdělení.