Elementární zpracování statistického souboru Obsah kapitoly
4. Elementární statistické zpracování - parametrizace vhodnými empirickými parametry
Studijní cíle
Naučit se výsledky měření parametrizovat vhodnými empirickými parametry.
Doba potřebná ke studiu
Základní text 1 hod. Příklady také 1 hod.
Pojmy k zapamatování
Empirické parametry: Parametr polohy, variability, šikmosti a špičatosti Momentové parametry Aritmetický průměr Rozptyl a směrodatná odchylka
Úvod
Budeme dále pokračovat ve zpracovávání výsledků měření, kdy jsme v akademickém roce 2008 – 09 zkoumali výšku studentek Vysoké školy finanční a správní.
Výkladová část
4. Elementární statistické zpracování Výsledky měření je potřebné uspořádat do tabulky, graficky vyjádřit pomocí polygonu (to už jsme udělali v minulém tématu) a parametrizovat vhodnými empirickými parametry (z řeckého slova empirie - zkušenost). Tedy parametry vypočítanými z naměřených hodnot (tím se budeme zabývat nyní). Výsledkem elementárního statistického zpracování je empirický obraz zkoumaného výběrového statistického souboru VSS. Empirické parametry stručně a jednoduše vystihují povahu zkoumaného statistického souboru. VSS - „výběrové parametry“ Empirické parametry lze dělit podle toho, který rys zkoumaného statistického souboru vystihují: -
parametry polohy,
-
parametry proměnlivosti (variability),
-
parametry šikmosti,
-
parametry špičatosti.
Polohou empirického rozdělení četností je myšleno jeho umístění na vodorovné ose souřadnicového systému. Pomocí aritmetického průměru lze výstižně charakterizovat parametr polohy. Vypočteme ho jako součet všech hodnot dělený počtem hodnot. Aritmetický průměr značíme x . n
x=
∑x i =1
n
i
n
znak
∑ x je zápis součtu hodnot přes všechna i od 1 do n. i =1
i
V našem příkladu můžeme aritmetický průměr vypočítat z tabulky, v níž máme zaznamenány výšky studentek. č. 89 34 51 94 32 41 83 31 81 4 33 37 87 88 7 3 39 84 96 49 44 91 48 90 1 45 40 82 92
pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
výška 151 157 158 158 160 161 162 163 163 164 164 164 164 164 165 165 165 165 165 166 167 167 167 167 168 168 168 168 168
30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
95 2 85 35 80 50 36 6 46 47 38 43 93 86 42 5 97
x=
170 170 170 170 170 171 172 173 173 173 175 176 176 176 177 180 185
151 + 157 + ... + 180 + 185 = 167,587cm . 46
Pokud je každá hodnota zastoupena pouze jednou, mluvíme o prostém aritmetickém průměru. Jelikož my už máme výšky žen roztříděné do tabulky, můžeme k výpočtu s výhodou použít vážený aritmetický průměr, kde vahami jsou počty žen v jednotlivých výškových kategoriích. Jejich výšku bychom měli v každé kategorii zprůměrovat, ale to by nám práci nijak neusnadnilo. Za výšku budeme tedy brát střed intervalu. U krajních intervalů uvažujeme, jako by škála pokračovala. n
x=
∑ n .x i
i =1
i
n
Interval do 157 158-162 163-167 168-172 173-177 178 a více
střed intervalu xi 155 160 165 170 175 180
ni 1 2 3 4 5
2 5 17 12 8
6
2
∑
46
V našem příkladu 2 ⋅ 155 + 5 ⋅ 160 + 17 ⋅ 165 + 12 ⋅ 170 + 8 ⋅ 175 + 2 ⋅ 180 7715 = x= = 46 46
=167,7174cm Jak vysvětlíte, že výpočet pomocí prostého (167,587cm) a váženého (167,7174cm) aritmetického průměru se malinko liší? (V případě váženého aritmetického průměru jsme za výšku brali střed intervalu, nikoliv aritmetický průměr všech výšek v daném intervalu. Tím došlo k drobnému zkreslení.)
Porovnáním výšky každé ženy s aritmetickým průměrem obdržíme empirický parametr variability, kterému říkáme rozptyl. Značíme jej n
Sx2 a vypočítáme S x2 =
∑ (x − x ) i =1
2
i
.
n
Rozdíly od aritmetického průměru umocňujeme na druhou, aby se nám navzájem neodečetla kladná a záporná čísla. V našem příkladu bychom postupovali následovně: Prostý aritmetický průměr zaokrouhlíme na jednou desetinu x = 167,6 cm. S x2 =
(151 − 167,6)2 + (157 − 167,6)2 + ... + (180 − 167,6)2 + (185 − 167,6)2 46
2
Sx = 39,3296. Pokud jste tento výpočet prováděli, zjistili jste, že je dost pracný. S výhodou můžeme opět použít data setříděná do tabulky, potom Sx2 n
vypočítáme podle vztahu S x2 = Interval do 157
∑ n (x − x ) i =1
2
i
střed intervalu xi 155
i
.
n ni 1
2
160 165 170 175 180
158-162 163-167 168-172 173-177 178 a více ∑
2 3 4 5
5 17 12 8
6
2 46
Použijeme vážený aritmetický průměr také zaokrouhlený na jednu desetinu x = 167,7 cm. 2 ⋅ (155 − 167,7 ) + 5 ⋅ (160 − 167,7) 2 + 17 ⋅ (165 − 167,7) 2 + 12 ⋅ (170 − 46 2
S x2 =
Sx2 = 33,3770. Opět se rozptyly vypočítané ze tříděných a netříděných hodnot malinko liší. Jaká je interpretace tohoto čísla? Protože jsme sčítali druhé mocniny, tak je interpretace obtížná. Proto počítáme odmocninu z rozptylu S x2 = S x . Tento parametr nazýváme směrodatná odchylka. Sx = 5,78 cm. Směrodatná odchylka ukazuje, jakou výpovědní hodnotu má aritmetický průměr. Je-li směrodatná odchylka velká, výpovědní hodnota aritmetického průměru je malá a opačně. Rozšiřující text
Geometrický průměr Prostý geometrický průměr n kladných hodnot x1, x2, ..., xn, které opět nemusí být uspořádány, vypočteme jako
x G = n x1 ⋅ x 2 ⋅L⋅ x n = n
n ∏ xi i =1
,
kde řecké písmeno Π představuje symbol používaný pro součin hodnot.
Harmonický průměr
Prostý harmonický průměr n kladných hodnot x1, x2, ..., xn, které nemusí být uspořádány, lze vypočítat jako
xH =
n . n 1 ∑ i =1 xi
Převrácená hodnota harmonického průměru n 1 ∑ i =1 xi
1 = n xH
je aritmetickým průměrem převrácených hodnot proměnné. Kvadratický průměr Prostý kvadratický průměr n hodnot x1, x2, ..., xn, které opět nemusí být uspořádány, vypočteme jako
xK =
n ∑ xi2 i =1
n
.
Pro kladné hodnoty x1, x2, ..., xn platí mezi uvedenými typy průměrů těchto hodnot relace nerovnosti
x H ≤ xG ≤ x ≤ x K . Znaménko rovnosti platí pouze v případě, jestliže jsou všechny hodnoty číselné proměnné ve statistickém souboru stejné. Shrnutí
Empirická data jsme dále zpracovávali. Vypočítali jsme první dva empirické parametry zkoumaného souboru. Parametr polohy jsme charakterizovali pomocí aritmetického průměru a parametr variability pomocí rozptylu, resp. směrodatné odchylky.
Kontrolní otázky a úkoly
1) V tabulce jsou údaje o měsíčních výdajích 30-ti domácností v Kč Interval
Střed intervalu
ni
1500-1999
1750
4
2000-2499
2250
6
2500-2999 3000-3499
2750
7 7
3500-3999 4000-4500
∑
3250 3750 4250
4 2 30
Vypočtěte parametr polohy (aritmetický průměr) a variability (rozptyl, resp. směrodatnou odchylku). 2) V tabulce jsou údaje o počtu členů 30-ti domácností xi
∑
ni 1
2
2
6
3 4
4 10
5
5
6
3 30
Vypočtěte parametr polohy (aritmetický průměr) a variability (rozptyl, resp. směrodatnou odchylku).
Seznam použitých zkratek
HNJ - Hromadný náhodný jev SS - Statický soubor SJ - Statistická jednotka SZ - Statistický znak HSZ - Hodnota statistického znaku ZSS - Základní statistický soubor NV - Náhodný výběr VSS - Výběrový statistický soubor
Studijní literatura
Bílková, D. – Budinský, P. – Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 2009. Cyhelský, L. – Souček, E.: Základy statistiky. EUPRESS, Praha 2009. Hindls, R. – Hronová, S. – Seger, J.: Statistika pro ekonomy. Professional Publishing, Praha 2004.
Odkazy
Český statistický úřad - http://www.czso.cz/
Klíč k úkolům
1) Průměrné měsíční výdaje domácností na potraviny jsou 2.866,70Kč Směrodatná odchylka Sx měsíčních výdajů domácností na potraviny je 715,11Kč. 2) x = 3,63 Průměrný počet členů domácnosti je mezi 3 až 4 členové.
Směrodatná odchylka je 1,4 člena domácnosti.