Statistické metody ve veřejné správě ŘEŠENÉ PŘÍKLADY
Ing. Václav Friedrich, Ph.D. 2013
1
Kapitola 2 – Popis statistických dat 2.1 Tabulka obsahuje rozdělení pracovníků podle platových tříd:
a) b) c) d)
TARIF
PLAT
POČET
TARIF
PLAT
POČET
třída 6
16 400
213
třída 10
20 000
87
třída 7
17 200
354
třída 11
21 300
25
třída 8
18 000
289
třída 12
22 600
4
třída 9
19 000
153
Určete, jakého typu jsou statistické znaky „platová třída“ a „tarifni plat“. Doplňte tabulku o relativní a kumulativní četnosti. Určete medián a modus znaku „platová třída“. Určete střední hodnotu a směrodatnou odchylku znaku „tarifní plat“.
ad a) platová třída – ordinální statistický znak tarifní plat – metrický statistický znak ad b) tabulka četností: TARIF
PLAT
třída 6
ČETNOSTI
KUM. ČETNOSTI
abs.
rel.
abs.
rel.
16 400
213
18,9%
213
18,9%
třída 7
17 200
354
31,5%
567
50,4%
třída 8
18 000
289
25,7%
856
76,1%
třída 9
19 000
153
13,6%
1009
89,7%
třída 10
20 000
87
7,7%
1096
97,4%
třída 11
21 300
25
2,2%
1121
99,6%
třída 12
22 600
4
0,4%
1125
100,0%
1125
100,0%
x
x
CELKEM
ad c) medián – první hodnota, jejíž relativní kumulativní četnost je vyšší než 50% medián je platová třída 7 (F7 = 50,4 %) modus – hodnota s nejvyšší četností (absolutní nebo relativní) modus je platová třída 7 (p7 = 31,5 %) 2
ad d) střední hodnota znaku „tarifní plat“ – vážený aritmetický průměr k
ni xi i 1
x k
sumu
n
20053900 17826 Kč 1125
ni xi v Excelu spočítáme pomocí funkce SOUČIN.SKALÁRNÍ
i 1
SOUČIN.SKALÁRNÍ(PLAT; ČETNOSTI abs.) k výpočtu směrodatné odchylky nejprve zjistíme (výběrový) rozptyl k
ni xi2 n x 2 s2 k
sumu
i 1
n 1
3,5907 1011 1125 178262 1124
1595547591 1419526 1124
ni xi2 pomocí Excelu opět spočítáme funkcí SOUČIN.SKALÁRNÍ
i 1
SOUČIN.SKALÁRNÍ(PLAT; PLAT; ČETNOSTI abs.) směrodatnou odchylku určíme jako odmocninu z rozptylu
s=
s2 = 1419526 = 1191 Kč
2.2 Tabulka obsahuje přehled o pravidelném měsíčním spoření klientů vesnické kampeličky: MĚSÍČNÍ SPOŘENÍ POČET
a) b)
0 až 200
5
200 až 400
9
400 až 600
12
600 až 800
11
800 až 1000
6
více než 1000
2
Vypočtěte aritmetický průměr a medián znaku „měsíční spoření“. Vypočtěte rozptyl a směrodatnou odchylku.
ad a) k výpočtu charakteristik v intervalovém rozdělení určíme středy intervalů tabulku doplníme o relativní a kumulativní četnosti a přidáme sloupcové součty střed posledního (polootevřeného) intervalu je třeba odhadnout -
někdy se bere ve vzdálenosti šířky předchozích intervalů od dolní meze jindy jako 1,5 násobek dolní meze 3
MĚSÍČNÍ SPOŘENÍ
xi
ni
pi
mi
Fi
0 až 200
100
5
11,1%
5
11,1%
200 až 400
300
9
20,0%
14
31,1%
400 až 600
500
12
26,7%
26
57,8%
600 až 800
700
11
24,4%
37
82,2%
800 až 1000
900
6
13,3%
43
95,6%
více než 1000
1200
2
4,4%
45
100,0%
45
100,0 %
x
x
CELKEM
průměr znaku „měsíční spoření“ – vážený průměr středních hodnot intervalů k
ni xi
24700 549 Kč n 45 charakteristiky v intervalovém rozdělení četností jsou pouze odhady pokud bychom brali střed posledního intervalu ve výši 1,5 násobku dolní meze (tj. 1500 Kč), dostali bychom jiný odhad x
i 1
k
ni xi
25300 562 Kč n 45 medián – první hodnota, jejíž relativní kumulativní četnost je vyšší než 50% medián je interval 400 – 600 Kč (střed intervalu 500 Kč) medián je robustní charakteristika – není citlivá na změny v posledním intervalu x
i 1
ad b) výběrový rozptyl znaku „měsíční spoření“ – jako vážený rozptyl středů intervalů k
ni xi2 n x 2 s2
i 1
n 1
16990000 45 5492 44
3432444 44
78010
směrodatná odchylka - odmocnina z rozptylu
s=
s 2 = 78010 = 279 Kč
odhady variability u intervalového rozdělení podhodnocují skutečnou variabilitu
4
Kapitola 3 – Měření závislosti statistických znaků 3.1 U patnácti vybraných domácností byla zjištěna obytná plocha a nájemné: číslo 1 2 3 4 5 6 7 8
plocha nájemné (m2) (Kč) 82,6 970 57,3 795 70,4 1400 65,0 200 48,4 390 103,8 2320 73,6 1010 43,5 280
číslo 9 10 11 12 13 14 15
plocha nájemné (m2) (Kč) 66,1 1600 93,0 830 52,6 225 70,0 1325 84,2 1900 55,0 615 81,3 560
a) Vypočítejte charakteristiky obou znaků a pomocí korelačního koeficientu určete, zda je mezi oběma proměnnými závislost. b) Vyjádřete tuto závislost pomocí lineární regresní funkce a dále zkuste odhadnout výši nájmu v bytě s rozlohou 90 m2. ad a) charakteristiky spočítáme pomocí statistických funkcí v Excelu obytná plocha - střední hodnota x = 69,8 m2 (PRŮMĚR) rozptyl sx2 = 290,7 (VAR.S) 2 směrodatná odchylka sx = 17,1 m (SMODCH.VÝBĚR.S) nájemné - střední hodnota y = 961 Kč sy2 = 407177 sy = 638 Kč
rozptyl směrodatná odchylka
k porovnání variabilit různorodých metrických znaků se používá variační koeficient: s VK 100 % x v našem případě: obytná plocha - VKx = 24 % nájemné - VKy = 66 % nájemné vykazuje vyšší variabilitu (vzájemné rozdíly) než rozměry bytu sdružené charakteristiky obou znaků – kovariance a korelační koeficient kovariance – sxy = 7427,7 (COVARIANCE.S) korelace rxy = 0,68 (CORREL) mezi plochou bytu a nájemným je střední pozitivní závislost (viz tabulka, obr. 3.6) 5
ad b) koeficienty regresní funkce spočítáme pomocí funkcí v Excelu regresní koeficient (sklon) - b1 = 25,5 (SLOPE) konstanta, průsečík s osou y b0 = -822 (INTERCEPT) lineární regresní funkce: y = 25,5 x – 822 odhad nájmu v bytě s rozlohou 90 m2 – dosadíme x = 90 do regresní rovnice y(90) = 25,5 . 90 – 822 = 1478 Kč
3.2 V průzkumu názorových postojů studentů byly zjišťovány odpovědi na otázku „Jste pro zavedení školného na vysokých školách?“ (znak X) s možnými odpověďmi: ano – nevím – ne. Současně byla zjišťována politická orientace studentů (znak Y) s možnými variantami levice – střed – pravice. Do průzkumu bylo zařazeno 280 studentů, výsledky zobrazuje tabulka: X\Y
LEVICE STŘED PRAVICE
ANO
11
20
28
NEVÍM
32
53
22
NE
43
52
19
a) Doplňte tabulku o marginální četnosti znaků X a Y. Z tabulky odečtěte, kolik studentů odpovědělo „nevím“. b) Změřte sílu závislosti postoje studentů k zavedení školného na vysokých školách na jejich politické orientaci pomocí Cramerova kontingenčního koeficientu. ad a) tabulka s doplněnými marginálními četnostmi X\Y
LEVICE STŘED PRAVICE CELKEM
ANO
11
20
28
59
NEVÍM
32
53
22
107
NE
43
52
19
114
CELKEM
86
125
69
280
„nevím“ odpovědělo 107 studentů, což je 107 / 280 = 38 % ad b) vytvoříme tabulku očekávaných četností eij např. e11
n1 n1 n
59 86 18,1 280
očekávané četnosti mohou být desetinná čísla 6
LEVICE STŘED PRAVICE CELKEM
E IJ ANO
18,1
26,3
14,5
59
NEVÍM
32,9
47,8
26,4
107
NE
35,0
50,9
28,1
114
CELKEM
86
125
69
280
řádkové a sloupcové součty musí být stejné jako u původní tabulky nyní spočítáme tabulku individuálních χ2 - měr asociace Gij
n11 e11 e11
např. G11
2
11 18,1 18,1
2
2,8
LEVICE STŘED PRAVICE CELKEM
G IJ ANO
2,8
1,5
12,5
16,8
NEVÍM
0,0
0,6
0,7
1,3
NE
1,8
0,0
2,9
4,8
CELKEM
4,6
2,1
16,1
22,9
tabulka obsahuje jednu hodnotu vyšší než 5 – kombinace ANO x PRAVICE dosahuje výrazně vyššího počtu respondentů (28) oproti očekávané hodnotě (14,5) celkovou χ2 - míru asociace najdeme v pravém dolním rohu tabulky r
s
G
Gij
22,9
i 1 j 1
k posouzení míry závislosti spočítáme Cramerův kontingenční koeficient
G 22,9 0, 202 n h 280 2 mezi politickou orientací studentů a jejich názorem na zavedení školného je slabá závislost (viz tabulka, obr. 3.6) V
7
Kapitola 4 – Náhodný výběr a normální rozdělení 4.1 Ve finále televizní soutěže je v osudí 10 míčků, z toho 3 červené. Při losování si soutěžící náhodně vytáhne z osudí 2 míčky. Pokud jsou oba červené, vyhrál hlavní cenu. V loňském roce v 52 losováních vyhrálo hlavní cenu pouze 5 soutěžících. a) Určete teoretickou pravděpodobnost, že soutěžící ve finále vyhraje hlavní cenu. b) Určete statistickou pravděpodobnost, že soutěžící ve finále vyhraje hlavní cenu. c) Porovnejte oba výsledky. ad a) počet příznivých výsledků (m) a počet všech možných výsledků (n) můžeme vyjádřit pomocí kombinačních čísel 3
m n
P( A)
2 10
3 45
0, 067
6, 7 %
2
kombinační číslo v Excelu – funkce KOMBINACE ad b) statistická pravděpodobnost m 5 P( A) 0,096 9,6 % n 52
4.2 Diskrétní náhodná veličina X nabývá celočíselných hodnot 0 až 4 s těmito pravděpodobnostmi: X
0
1
2
3
4
p(x)
0,11
0,25
0,28
0,22
a) Doplňte tabulku pravděpodobnostní funkce o chybějící číslo. b) Určete pravděpodobnosti P(2 < X ≤ 4) a P(2 ≤ X < 4). c) Spočítejte střední hodnotu a směrodatnou odchylku náhodné veličiny X. ad a) doplníme tabulku pravděpodobnostní funkce, aby
p( xi ) 1 i
X
0
1
2
3
4
p(x)
0,11
0,25
0,28
0,22
0,14
ad b) pravděpodobnosti získáme přímo z tabulky 8
P(2 < X ≤ 4) = P(3) + P(4) = 0,22 + 0,14 = 0,36 = 36 % P(2 ≤ X < 4) = P(2) + P(3) = 0,28 + 0,22 = 0,50 = 50 %
4.3 Testy nových baterií SCALA ukazují, že průměrná životnost baterie je 230 hodin se směrodatnou odchylkou 20 hodin. Předpokládejme, že životnost baterie má přibližně normální rozdělení pravděpodobnosti. a) Jaká je pravděpodobnost, že náhodně vybraná baterie vydrží déle než 250 hodin? b) Jakou životnost má výrobce uvést do specifikace, aby této hodnotě vyhovovalo minimálně 95% všech vyrobených baterií? ad a) vyjdeme ze vztahu:
P( X 250) 1 P( X 250) 1 F (250) hodnotu distribuční funkce získáme s pomocí excelovské funkce NORM.DIST NORM.DIST(250; 230; 20; 1) = 0,841… hledaná pravděpodobnost: P( X 250) 1 0,841 0,159 15,9 % ad b) hledáme hodnotu x, pro kterou platí:
P( X
x) 0,95
P( X
x) 0,05
neboli: jinými slovy, hledáme 5% kvantil normálního rozdělení x0,05 hodnotu kvantilu v Excelu získáme pomocí funkce NORM.INV NORM.INV(0,05; 230; 20) = 197 hodin
9
Kapitola 5 – Metody matematické statistiky 5.1 Prodejna chce zjistit průměrný počet zákazníků v páteční odpolední směně. Po dobu 2 měsíců tedy sleduje počet zákazníků, kteří prošli pokladnami prodejny, s tímto výsledkem: 527 418 495 554 392 548 449 511 Určete 95% intervalový odhad pro průměrný počet zákazníků obsloužených v jedné směně. nejprve spočítáme charakteristiky výběrového souboru rozsah n=8 funkce POČET střední hodnota funkce PRŮMĚR x = 486,8 směr. odchylka s = 60,6 funkce SMODCH.VÝBĚR.S k výpočtu 95% intervalu spolehlivosti použijeme vzorec s s x t1 / 2 (n 1) n n hodnotu 97,5% kvantilu Studentova rozdělení t0,975(7) získáme v Excelu pomocí funkce T.INV(0,975; 7) = 2,365 dosazením do vzorce získáme: 60, 6 60, 6 486,8 2,365 486,8 2,365 8 8 436 537 x
t1
/2
(n 1)
druhá varianta – s využitím excelovské funkce CONFIDENCE.T první parametr funkce: α = 1 – p = 1 – 0,95 = 0,05 CONFIDENCE.T(0,05; 60,6; 8) = 50,6 hodnota funkce uvádí vzdálenost mezí intervalu od jeho středu dolní mez: 486,8 – 50,6 = 436 horní mez: 486,8 + 50,6 = 537
5.2 Při průzkumu průměrného příjmu na 1 člena domácnosti chceme docílit maximální chyby odhadu 100 Kč při 95% spolehlivosti. Jak velký výběrový soubor je třeba zvolit, pokud víte, že směrodatná odchylka příjmových údajů v naší republice činí 750 Kč? velikost výběru spočítáme podle vzorce: n
kde z1
/2
z1
/2
s
2
1,96 750 100
2
216 domácností
= z0,975 = 1,96 10
5.3 Osm vzorků nerostu bylo testováno na obsah aktivní látky. Naměřené hodnoty v promile udává následující tabulka: 18,6 27,6 27,5 25,0 24,5 26,8 29,7 26,5 Lze na základě těchto měření tvrdit, že ve zkoumaném nerostu je více než 25 promile aktivní látky? Testujte na hladině α = 5%. provedeme jednostranný jednovýběrový parametrický test střední hodnoty s hypotézami H0: μ = 25 H1: μ > 25 spočítáme výběrové charakteristiky vzorku rozsah n=8 funkce POČET střední hodnota funkce PRŮMĚR x = 25,8 směr. odchylka s = 3,32 funkce SMODCH.VÝBĚR.S výběrový průměr x > 25 je v souladu s alternativní hypotézou určíme hodnotu testové statistiky pro t- test x 25,8 25 0 T n 8 0, 66 s 3,32 nyní spočítáme signifikanci (p – hodnotu) testu
Sig T 1 F ( T ) 1 F (0,66) 1 0,735 0, 265 hodnotu distribuční funkce F(x) Studentova rozdělení jsme určili pomocí excelovské funkce T.DIST(0,66; 7; 1) = 0,735 neboť platí Sig T > α, nezamítáme nulovou hypotézu H0 závěr testu: Nelze tvrdit, že ve zkoumaném vzorku je více než 25 ‰ aktivní látky.
11
Kapitola 6 – Indexy a časové řady 6.1 V lednu 2011 stála kniha 850 Kč. V tomto měsíci se jí prodalo 40 ks. V měsíci dubnu 2011 došlo ke snížení ceny na 600 Kč. V témže měsíci se prodalo 55 ks této knihy. Porovnejte vývoj prodeje knihy mezi oběma měsíci pomocí extenzitních, intenzitních a souhrnných extenzitních ukazatelů. vývoj extenzitního ukazatele q – počet prodaných kusů q0 = 40 q1 = 55 Iq = 55 / 40 = 1,375 +37,5 % vývoj intenzitního ukazatele p – jednotková cena p0 = 850 p1 = 600 Ip = 600 / 850 = 0,706 -29,4 % vývoj souhrnného extenzitního ukazatele – tržby IQ = Ip . Iq = 0,706 . 1,375 = 0,971 -3,9 %
6.2 Tabulka uvádí vývoj ceny a prodaného množství mléka (jednotka = 1 litr) ve třech prodejnách A, B a C za dva měsíce – březen a duben 2012. MÍSTO CENA PRODANÉ MNOŽSTVÍ PRODEJE březen 12 duben 12 březen 12 duben 12 p0 p1 q0 q1 A 10 12 100 80 B 15 15 100 120 C 13 15 120 100 a) Určete pomocí indexů vývoj celkového prodaného množství, vývoj průměrné ceny a vývoj celkové tržby. b) Zjistěte, jaký vliv měl na změnu průměrné ceny mléka vývoj jednotkových cen a jaký změna struktury prodeje. c) Zjistěte, jaký vliv měl na změnu celkové tržby za prodej mléka vývoj jednotkových cen a jaký změna objemu prodeje. ad a) doplníme tabulku o tržby, včetně fiktivních, a dále součty a průměry
A B C SOUČET PRŮMĚR
p0 10 15 13 x x
p1 12 15 15 x x
q0 100 100 120 320 x
q1 80 120 100 300 x 12
p0q0 1000 1500 1560 4060 12,69
p1q1 960 1800 1500 4260 14,20
p0q1 800 1800 1300 3900 13,00
p1q0 1200 1500 1800 4500 14,06
postupný rozklad vývoje průměrné ceny zobrazíme pomocí magického kosočtverce
složený index průměrné ceny Ip = 14,20 / 12,69 = 1,12 +12 % průměrná cena vzrostla o 12 % ISS – index stálého složení vyjadřuje vliv vývoje jednotkových cen – cca +10% ISTR – index struktury vyjadřuje vliv změny struktury prodeje – cca +2 % ad b) postupný rozklad vývoje souhrnné tržby zobrazíme pomocí magického kosočtverce ze součtů tržeb
hodnotový index IH = 4260 / 4060 = 1,05 +5 % souhrnná tržba vzrostla o 5 % Ip – cenový index vyjadřuje vliv změny cen na tržbu – cca +10 % Iq – objemový index vyjadřuje vliv změn objemu prodeje na tržbu – cca -5 %
6.3 Tabulka 5.3 ukazuje stav korunových vkladů domácností v České republice v mld. Kč. rok
1990
1991
1992
1993
1994
1995
1996
index
184,0
220,7
260,2
316,1
376,2
454,7
527,3
Převeďte hodnoty v této tabulce na indexy: a) bazické se základním rokem 1990; b) bazické se základním rokem 1995; c) řetězové. 13
ad a) bazické indexy získáme dělením všech hodnot v tabulce hodnotou z roku 1990 např. I91(90) = 220,7 / 184,0 = 1,20 rok
1990
1991
1992
1993
1994
1995
1996
index
1,00
1,20
1,41
1,72
2,04
2,47
2,87
ad b) bazické indexy získáme dělením všech hodnot v tabulce hodnotou z roku 1995 např. I91(95) = 220,7 / 454,7 = 0,49 rok
1990
1991
1992
1993
1994
1995
1996
index
0,40
0,49
0,57
0,70
0,83
1,00
1,16
ad c) řetězové indexy získáme dělením hodnot v tabulce hodnotou z předcházejícího roku např. I91(s) = 220,7 / 184,0 = 1,20 I90(s) nelze určit rok index
1990
1991
1992
1993
1994
1995
1996
x
1,20
1,18
1,21
1,19
1,21
1,16
14