Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.
Jsou dána data výběrového souboru výšky žen viz IS/ Učební materiály/ Témata 1 – 8, M. Kvaszová.
č. výška 89 151 34 157 51 158 94 158 32 160 41 161 83 162 31 163 81 163 4 164 33 164 37 164 87 164 88 164 7 165 3 165 39 165 84 165 96 165 49 166 44 167 91 167 48 167
č. 90 1 45 40 82 92 95 2 85 35 80 50 36 6 46 47 38 43 93 86 42 5 97
výška 167 168 168 168 168 168 170 170 170 170 170 171 172 173 173 173 175 176 176 176 177 180 185
Variační rozpětí R = xmax – xmin = 185 - 151 = 34
1 bod
Kvantily
x%25 = 164 x%50 = 167 x%75 = 171
1 bod 1
Sturgesovo pravidlo, podle kterého by měl být počet skupin k přibližně k = 1 + 3,3 log n v našem případě k = 1 + 3,3 log 46 = 6,48. 1. interval do 157 2. interval 158 – 162 3. interval 163 – 167 4. interval 168 – 172 5. interval 173 – 177 6. interval 178 a více
Interval do 157 158-162 163-167 168-172 173-177
xi
178 a více ∑
1 bod
ni 1 2 3 4 5
2 5 17 12 8
6
2 46
ni / n Σ ni / n 0,043 0,043 0,109 0,152 0,370 0,522 0,261 0,783 0,174 0,957 0,043 1
1,000
Polygon kumulativních absolutních četností
Σ ni 50 45 40 35 30 25 20 15 10 5 0 1
2
3
4
5
6
xi
2 body Za výšku budeme tedy brát střed intervalu. U krajních intervalů uvažujeme, jako by škála pokračovala.
2
Aritmetický průměr k
x=
x=
∑ n .x i
i =1
i
n
2 ⋅ 155 + 5 ⋅ 160 + 17 ⋅ 165 + 12 ⋅ 170 + 8 ⋅ 175 + 2 ⋅ 180 = 167,7 46
Použijeme vážený aritmetický průměr také zaokrouhlený na jednu desetinu x = 167,7 cm. Rozptyl, směrodatná odchylka k
S x2 =
∑ n .( x i =1
i
i
− x)
2
n 2 ⋅ (155 − 167,7 ) + 5 ⋅ (160 − 167,7) 2 + 17 ⋅ (165 − 167,7)2 + 12 ⋅ (170 − 167,7) 2 2
S = 2 x
46
+
8 ⋅ (175 − 167,7)2 + 2 ⋅ (180 − 167,7) 2 = 33,38 46 S x = 5,777 +
2 body Směrodatná odchylka ukazuje, jakou výpovědní hodnotu má aritmetický průměr. Je-li směrodatná odchylka velká, výpovědní hodnota aritmetického průměru je malá a opačně.
Momentové parametry jsou empirické parametry, které vypočítáme z hodnot statistického znaku v našem výběrovém souboru.
Rozlišujeme: obecné momenty, centrální momenty normované momenty.
3
Obecné momenty Doplněná tabulka: xi
ni
xi2 .ni
xi .ni
xi3 .ni
xi4 .ni
1 2 3 4 5
2 5 17 12 8
2 10 51 48 40
2 20 153 192 200
2 40 459 768 1000
2 80 1377 3072 5000
6
2 46
12 163
72 639
432 2701
2592 12123
∑
6
O1 =
∑n x
i i
i =1
=
n
163 = 3,544 46
6
O2 =
∑n x i
i =1
2 i
n
=
639 = 13,89 46
=
2701 = 58,72 46
=
12123 = 263,5 46
6
O3 =
∑n x i =1
i
3 i
n 6
O4 =
∑n x i =1
4 i i
n
3 body Obecný moment prvního řádu O1 = 3,544 je vlastně aritmetický průměr x vyjádřený v prvcích škály (1 až 6). Jednoduše tuto hodnotu převedeme na centimetry. Střed intervalu 3 je 165cm a ještě zbývá 0,5435 délky dalšího intervalu (délka intervalu je 5cm), takže 165 + 0,544 . 5cm = 167,7 cm. Vidíme, že je to ve shodě s předešlým výpočtem aritmetického průměru, který nám vyšel také x = 167,7cm. Obecný moment prvního řádu O1 je parametrem polohy.
Obecné momenty slouží k výpočtu centrálních momentů.
4
Centrální momenty 6
C1 =
∑n (x i =1
i
− x)
1
i
6
C2 =
∑n (x i =1
i
i
∑n (x i =1
i
i
2
= O2 − O12 = 1,335
− x)
3
= O3 − 3O2O1 + 2O13 = 0,0331
n 6
C4 =
− x)
n 6
C3 =
= O1 − O1 = 0
n
∑n (x i =1
i
i
n
− x)
4
= O4 − 4O3O1 + 6O2O12 − 3O14 = 4,842 3 body
Centrální momenty jsou tedy počítány vzhledem k centrální hodnotě (aritmetickému průměru). C1 je tedy vždy = 0. Centrální moment druhého řádu C2 je rozptyl a je parametrem šířky, odchylka. V našem příkladě
C2 je směrodatná
C2 = 1,155.
Pro vyjádření v centimetrech tuto hodnotu vynásobíme délkou intervalu Sx = 1,1554 . 5cm = 5,777cm. Což je ve shodě s předchozím výpočtem, kdy nám Sx vyšlo 5,78cm. Centrální momenty třetího a čtvrtého řádu použijeme k výpočtu dalších empirických parametrů. Normované momenty
Parametr šikmosti je nejčastěji určován pomocí normovaného momentu 3. řádu a nese pak název „koeficient šikmosti“.
N3 =
C3 C2 ⋅ C2
= 0,215
Je-li koeficient šikmosti kladný, pak prvky škály ležící vlevo od aritmetického průměru mají vyšší četnosti (kladně zešikmené rozdělení četností – větší koncentrace menších prvků škály, menších hodnot statistického znaku) a opačně. 5
V našem příkladě se jedná o mírně kladně zešikmené rozdělení, to znamená, že v našem souboru je více žen menších, než je průměrná výška x = 167,7cm. Což si můžeme ověřit v tabulce.
Parametr špičatosti je nejčastěji určován pomocí normovaného momentu 4. řádu a nese pak název „koeficient špičatosti“. N4 =
C4 = 2,717 C22
Špičatějšímu rozdělení četností při daném rozptylu odpovídá vyšší hodnota koeficientu špičatosti než rozdělení ploššímu. Používá se rovněž veličina „exces“, definovaná vztahem
Ex = N 4 − 3 = −0,283 Prametr exces srovnává špičatost empirického rozdělení se špičatostí známého normovaného normálního rozdělení (viz. například publikace Bílková, D. – Budinský, P. – Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 2009. Podrobně se s ním seznámíme v dalším tématu). Je-li exces kladný, je empirické rozdělení špičatější než toto rozdělení. V našem příkladu má soubor menší koeficient než normované normální rozdělení. v intervalu x − S x ; x + S x leží 68% všech hodnot a v intervalu x − 2 S x ; x + 2 S x leží 95% všech hodnot
6
3 body
Nulová a alternativní hypotéza
(viz především: Budinský, P. et al. Základy ekonomické statistiky, Eupress, Praha 2008, str.33-36, kde je také jiný podobný příklad. Nulová hypotéza H0 předpokládá, že námi studované empirické rozdělení lze s praděpodobností lepší nebo rovnou (1 - α ).100 % nahradit teoretickým rozdělením. Číslu α říkáme hladina významnosti. Alternativní hypotéza Ha předpokládá, tuto náhradu nelze provést. Neparametrické testování: Naše data podrobíme testu normality, tj. že naše výběrová data mohou být vybrána ze statistického souboru odpovídajícího normálnímu (Gaussovu) rozdělení. Test provedeme na hladině významnosti α = 0,05. K tomuto testu použijeme tzv.
umělé rozdělení (hodící se pouze pro testování) χ2 (čti chí kvadrát). S našimi daty provedeme transformaci (substituci) x −x , ui = i Sx kde u je proměnná normovaného normálního rozdělení s distribuční funkcí 2
1 − u2 Φ (u ) = e . 2π (Funkce Φ ( u ) se někdy nazývá Laplaceova funkce. V některých tabulkách je označována
jako F ( u ) .)
Pomocí tabelovaných hodnot Φ ( u ) a použítím pravidla Φ ( −u ) =1 - Φ ( u ) vypočítáme pravděpodobnosti pi odpovídající horním mezím intervalů
pi = Φ ( ui ) − Φ ( ui −1 ) 2 Nyní můžeme vypočítat χ exp experimentální hodnotu χ2
χ
2 exp
4
( ni − npi )
i =1
npi
=∑
2
2 Teoretickou hodnotu χ teor nalezneme opět v jiné tabulce a to v řádku v, v udává tzv. počet stupnů volnosti
v = k − r −1,
kde r je počet parametrů rozdělení, které testujeme (pro Gaussovo rozdělení r = 2); tedy v = 1. Kritický obor pro náš test je 2 W = χ teor, v (α ) ; +∞ ) .
7
2 Pokud bude χ exp mimo kritický obor, bude naše nulová hypotéza potvrzena na příslušné hladině významnosti.
i
interval
hor.mez xi
ni
ui
Φ ( ui )
pi
npi
( ni − npi )
1 2 3 4
Do 162 163-167 168-172 173 a více
162 167 172 ∞
7 17 12 10
-0,986 -0,121 0,744 ∞
0,161 0,448 0,770 1,000
0,161 0,287 0,322 0,230
7,406 13,202 14,812 10,580
0,0225 1,0926 0,5338 0,0318
∑
α = 0,05
n=46 2 = 3,84 χ teor
1,000
46
2
/ npi
2 χexp = 1, 6807
2 χ exp = 1,6807 ∉ 3,84; +∞ .
2 Experimentální hodnota statistického kriteria χ exp je mimo kritický obor W, lze tedy přijmout
nulovou hypotézu H0 a tedy na hladině významnosti α = 0,05 lze naše data nahradit . 4 body
Parametrické testování se týká posuzování vypočtených empirických parametrů výběrových souborů.
8