Vzory seminárních prací ze Statistiky II 1) Ve sdělovacích prostředcích se uvádí, že průměrná doba, kterou týdně stráví děti ve věku 6 až 10 let u počítače, je minimálně 12 hodin. Odborníci s tímto názorem nesouhlasí, tvrdí, že průměrná doba, kterou děti v daném věku u počítače stráví, je nižší. V důsledku tohoto názorového sporu bylo provedeno výběrové šetření u 25 dětí ve věku 6 – 10 let. Byly zjištěny tyto údaje (v h týdně):
10
5,5
4
6,75
18
9,5
6
5,5
4
14,5
13
11,25
7
16,5
12,25
14
12
10
20
6
2
18
11,75
1,5
3
Ověřte na hladině významnosti 0,05 , zda je předpoklad, uváděný v tisku, správný. Předpokládáme, že týdenní počet hodin strávených u počítače, má normální rozdělení. Řešení: Test hypotézy o průměru v základním souboru (ZS)
H 0 : 12 H 0 : 12
t
x 0 s n
W t ; t t 0, 05 24 W t; t 1,711 t =-2,185 ( ̅ = 9,68; ´ = 5,30797)
∈
, tj. zamítáme H0 a přijímáme H1.
Na hladině významnosti 5 % jsme prokázali, že průměrná doba, kterou děti ve věku6 až 10 let stráví u počítače je menší než 12h týdně.
2) Ve sdělovacích prostředcích se uvádí, že děti ve věku 10 až 15 let stráví u počítače průměrně 14 hodin týdně. Odborníci s tímto názorem nesouhlasí, tvrdí, že průměrná doba, kterou děti v daném věku u počítače stráví, je vyšší. V důsledku tohoto názorového sporu bylo provedeno výběrové šetření u 35 dětí ve věku 10 – 15 let. Byly zjištěny tyto údaje (v h týdně):
6,5
32
16
10,5
19
2
7,25
15,75
14,5
21
9,75
12
12
8,5
18
2,5
22
8
13,5
11,75
6,5
15,25
3,5
17,5
10,75
24
10,5
4
20
1,25
10
11
28
9
1
Ověřte na hladině významnosti 0,05 , zda je předpoklad, uváděný v tisku, správný. Předpokládáme, že týdenní počet hodin strávených u počítače, má normální rozdělení.
H 0 : 14
H 1 : 14 U
x 0 s n
W U ;U u 0,95 , W U ;U 1,645 U = -1,24841 ( ̅ = 12,4214; ´ = 7,4808) ∈ , tj. nezamítáme H0, nepřijímáme H1. Na hladině významnosti 5 % nezamítáme předpoklad o tom, že průměrná doba, kterou děti ve věku 10-15 let stráví u počítače je v průměru 14h týdně.
3) Výrobce vyrábí sušenky s různými příchutěmi. Tyto sušenky jsou baleny do balíčků s předepsanou hmotností 100 g. Balíčky plní automat, který je seřízen tak, aby směrodatná odchylka hmotnosti balíčku byla maximálně 5 g. V nedávné době došlo k poruše na balícím automatu a výrobce chce po opravě zjistit, zda nedošlo ke zhoršení přesnosti při plnění balíčků, tj. zda se směrodatná odchylka hmotnosti balíčků sušenek nezvýšila. Předpokládáme, že hmotnost balíčků sušenek je náhodná veličina s normálním rozdělením. Bylo náhodně vybráno 20 balíčků sušenek a zjištěny tyto hmotnosti v g:
103,5
106,9
105,3
106,8
104,9
108,0
100, 0
107,2
100,2
95,8
106,5
104,3
95,3
108,2
107,1
100,6
107,6
94,1
99,8
108,3
Proveďte rozhodnutí na hladině významnosti 0,01 .
H 0 : 2 52
H1 : 2 52
2
n 1s 2 02
W 2 ; 2 02,99 19 ; W 2 ; 2 36,191 χ2 = 16,2501 (s´= 4,620403)
2 W , tj. nezamítáme H0, nepřijímáme H1. Na hladině významnosti 1 % nezamítáme předpoklad o tom, že směrodatná odchylka hmotnosti je 5g nebo menší, tj. přesnost přístroje se nezhoršila.
4) Výrobce dřevěných párátek tvrdí, že v každé krabičce zákazník napočítá 100 párátek. V náhodně vybraných 150 krabičkách bylo zjištěno následující rozdělení četností počtu párátek chybějících do 100.
Počet chybějících párátek
Počet krabiček
0
11
1
22
2
34
3
31
4
25
5
13
6
6
7
5
8 a více
3
Celkem
150
Na hladině významnosti 5 % ověřte domněnku, že počet chybějících párátek v krabičce má Poissonovo rozdělení s parametrem 3 . χ2 test dobré shody (úplně specifikovaný model) Počet párátek
ni
Π0,i n· Π0,i G 0 11 0,0498 7,47 1,668126 1 22 0,1494 22,41 0,007501 2 34 0,224 33,6 0,004762 3 31 0,224 33,6 0,20119 4 25 0,168 25,2 0,001587 5 13 0,1008 15,12 0,297249 6 6 0,0504 7,56 0,321905 7 a více 8 0,0336 5,04 1,738413 Součet 150 1 150 4,240733 Poznámka: poslední 2 třídy musely být sloučeny, protože nesplňovaly podmínku n 0,i 5 . H0: počet chybějících párátek se řídí Poissonovým rozdělením s parametrem λ = 3 H1: non H0
k
G i 1
n
n 0,i
2
i
n 0,i
W G; G 02,95 7 2
Parametr rozdělení χ je 7, protože 2 třídy byly sloučeny do 1. Nový počet skupin je tak 8, nikoli 9.
W G; G 14,067
G W ; tj. nezamítáme H0, nepřijímáme H1. Na hladině významnosti 5 % nezamítáme předpoklad o tom, že počet chybějících párátek má Poissonovo rozdělení s parametrem 3 .
5) Výrobce dřevěných párátek tvrdí, že v každé krabičce zákazník napočítá 100 párátek. V náhodně vybraných 90 krabičkách bylo zjištěno následující rozdělení četností počtu párátek chybějících do 100. Počet Počet chybějících krabiček párátek 0
10
1
32
2
28
3
11
4
6
5
3
Celkem
90
Na hladině významnosti 1 % ověřte domněnku, že počet chybějících párátek v krabičce má Binomické rozdělení s parametry n 12 a 0,4 . χ2 test dobré shody (úplně specifikovaný model) Počet párátek 0a1 2 3 4 5 a více
ni 42 28 11 6 3 90
G Π0,i n· Π0,i 0,0196 1,764 917,764 0,0639 5,751 86,07512 0,1419 12,771 0,245591 0,2128 19,152 9,031699 0,5618 50,562 44,74 1 90 1057,856
Poznámka: první 2 třídy musely být sloučeny, protože nesplňovaly podmínku: ve všech třídách musí platit n 0,i 1 a alespoň v 80 % tříd musí platit n 0,i 5 . Oproti předchozímu příkladu byla použita mírnější forma dané podmínky.
H0: počet chybějících párátek má Binomické rozdělení s parametry n 12 a 0,4 . H1: non H0 k
G
n
n 0,i
2
i
n 0,i
i 1
W G; G 02,99 4
W G; G 13,277 G = 1057,856
G W , tj. zamítáme H0, přijímáme H1. Na hladině významnosti 5 % jsme prokázali, že počet chybějících párátek se neřídí Binomickým rozdělením s parametry n 12 a 0,4 .
6) Výrobci automobilů došla zásilka automobilových komponentů od jistého dodavatele. Výrobce je s dodavatelem dohodnut, že dodávku odmítne, pokud bude obsahovat méně než 90 % kvalitních výrobků. Bylo zkontrolováno 250 výrobků a zjištěno, že 35 je nekvalitních. Odmítne výrobce danou zásilku? Uvažujte 1%-ní hladinu významnosti. = = 0,86 (podíl kvalitních dílů v dodávce – bodový odhad)
H 0 : 0,9
H 1 : 0,9 U
p 0
0 1 0 n
W U ;U u 0 , 01
W U ;U 2,326 U = -2,108
U W , tj. nezamítáme H0, nepřijímáme H1.
Na hladině významnosti 1 % nezamítáme hypotézu o tom, že podíl kvalitních výrobků je 90 % či vyšší – výrobce danou zásilku neodmítne.
7) Matějovi se porouchal mobilní telefon. Dal ho do opravy a musí čekat cca 30 dnů, než mu přístroj opraví. Protože ale potřebuje být kvůli svému zaměstnání stále v kontaktu, rozhodl se, že si pořídí starší telefon z bazaru. Navštívil jeden bazar v Chomutově, kde bydlí, a zjistil, že požadovaný typ telefonu tam mají ve 12 exemplářích za tyto ceny (v Kč):
1490
2250
1800
1200
1450
1000
1360
1230
1600
1070
1400
1550
Protože měl v úmyslu podniknout pracovní cestu do Prahy, žádný telefon v Chomutově nekoupil a rozhodl se, že navštíví některý z bazarů v Praze. Tam našel 14 exemplářů stejného typu za tyto ceny (v Kč): 2050
2370
1800
2100
1950
2150
2100
2550
2400
1990
2000
2350
1900
2200
Po tomto zjištění nabyl dojmu, že si měl telefon raději koupit v Chomutově. Je jeho dojem správný? Za účelem ověření Matějova názoru posuďte na hladině významnosti 5 %, zda průměrná cena starších telefonů v Chomutově je nižší než v Praze. Předpokládejte, že cena telefonu je náhodná veličina, která se řídí normálním rozdělením. Nezapomeňte posoudit shodu rozptylů! Výsledky interpretujte! Test shody středních hodnot ve 2 základních souborech (nezávislé výběry)
H 0 : 1 2
H 1 : 1 < 2 (průměrná cena telefonů v Chomutově je nižší než v Praze) Rozhodnutí o výběru testového kritéria: neznám rozptyly v základních souborech, budu tedy zjišťovat, zda lze předpokládat, že jsou rozptyly v obou základních souborech shodné či různé, tj. provedu test H o shodě rozptylů ve 2 základních souborech. Test shody rozptylů ve 2 základních souborech
H 0 : 12 22
H 1 : 12 22 F
s1 2 s 22
W F ; F F0 , 025 11;13 F F0 ,0975 11;13
W F ; F 0,295 F 3,197 F = 2,496 F W , tj. nezamítáme H0, nepřijímáme H1. Na HV 5 % nezamítáme hypotézu, že rozptyly v obou základních souborech jsou si rovny. Nyní se můžeme vrátit k započatému testu shody 2 průměrů a vybrat vhodné testové kritérium:
t
x1 x 2
n1 1s1
n2 1s 22 n1 n2 2 2
1 1 n1 n2
W t ; t t 0, 05 24
W t; t 1,711 t = -6,261 t W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že průměrná cena telefonů je nižší v Chomutově, Matěj si měl telefon tedy koupit tam.
8) Majitel restaurace zjistil, že v době oběda (11 – 14h) navštíví podnik 20% zákazníků, kteří si oběd nedají. Rozhodl se rozšířit nabídku poledních jídel a menu a poté provedl další průzkum, kdy zjistil, že z 86 zákazníků si oběd v době 11 – 14 h dalo 70 zákazníků. Lze s pravděpodobností 99% tvrdit, že se podíl zákazníků, kteří si v době 11 – 14h nedali oběd, snížil? = = 0,186 (podíl zákazníků, kteří si nedali v době 11 – 14h oběd)
H 0 : 0,2 H 0 : 0,2 U
p 0
0 1 0 n
W U ;U u 0 , 01
W U ;U 2,326 U = -0,325
U W , tj. nezamítáme H0, nepřijímáme H1. Na HV 1 % (neboli s pravděpodobností 99 %) jsme neprokázali, že by úpravy v jídelním lístku zvýšily zájem zákazníků o obědy.
9) Máme k dispozici údaje o spotřebě vody v jednom cyklu mytí v litrech u 18 myček dvou různých značek (A a B). Výrobce značky B tvrdí, že jeho myčky mají průměrnou spotřebu vody nižší, než myčky od výrobce A. Rozhodněte na hladině významnosti 5 %, zda je tvrzení výrobce B pravdivé.
Spotřeba vody (l)
14 17 16 15 16 14 17 15 15 17 18 15 14 14 14 15 16 17
Značka A Spotřeba vody (l)
13 16 15 15 13 14 14 13 15 16 15 14 13 13 14 15 14 16
Značka B
Test shody středních hodnot ve 2 základních souborech (nezávislé výběry)
H 0 : 1 2
H 1 : 1 > 2 (myčky A mají vyšší průměrnou spotřebu vody než myčky B) Rozhodnutí o výběru testového kritéria: neznám rozptyly v základních souborech, budu tedy zjišťovat, zda lze předpokládat, že jsou rozptyly v obou základních souborech shodné či různé, tj. provedu test H o shodě rozptylů ve 2 základních souborech. Test shody rozptylů ve 2 základních souborech
H 0 : 12 22
H 1 : 12 22 F
s1 2 s 22
W F ; F F0, 025 17;17 F F0 , 0975 17;17
W F ; F 0,374 F 2,673 F = 1,425 F W , tj. nezamítáme H0, nepřijímáme H1. Na HV 5 % nezamítáme hypotézu, že rozptyly v obou základních souborech jsou si rovny. Nyní se můžeme vrátit k započatému testu shody 2 průměrů a vybrat vhodné testové kritérium:
t
x1 x 2
n1 1s1 2 n2 1s 22 n1 n2 2
W t ; t t 0 ,95 (34)
1 1 n1 n2
W t; t 1,691 t = 2,93
t W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že myčky výrobce A mají vyšší průměrnou spotřebu vody než myčky výrobce B.
10) Marketingové oddělení jistého podniku provádělo průzkum trhu se spotřební elektronikou. Cílem
šetření bylo zjistit, jaké jsou roční výdaje jednotlivých osob na nákup spotřební elektroniky. Šetření proběhlo u 30 osob, které pracují v administrativě, v informatice a strojírenství. Na základě údajů v následující tabulce zjistěte, zda úroveň ročních výdajů na elektroniku závisí na oboru činnosti dotázaného. Případně změřte sílu závislosti. Uvažujte 0,05 . Předpokládáme normalitu rozdělení.
Obor činnosti respondenta
Roční výdaje na spotřební elektroniku v tis. Kč ni yij
xi administrativa
1,9 10,5 6,2 7,5 5 0,8
6
informatika
15 21,5 10,6 30,2 24,9 25 19 17,1 14,6 23,5 41 28,3 17,7 19
14
strojírenství
14,5 10 11,2 19,1 16,7 9 13,9 16 15,4 7,7
10
Součet
30
Analýza rozptylu
H 0 : 1 2 3 (roční výdaje na spotřební elektroniku nezávisí na oboru činnosti respondenta) H 1 : non H 0 S ym F k 1 S yv nk W F , F F0,95 2, 27
W F , F 3,354
S ym
1250,1244 2 F k 1 17,391 S yv 970,4476 27 nk
F W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že roční výdaje na nákup spotřební elektroniky závisí na oboru činnosti respondenta. Sílu závislosti změříme pomocí poměru determinace.
P2
S ym Sy
1250,1244 0,563 2220,572
Síla závislosti je středně vysoká. 56,3 % z celkové variability výdajů je možné vysvětlit pomocí oboru činnosti respondenta.
11) U největších pražských prodejců květin byly zjišťovány údaje o druzích prodaných květin, které
jsou ve standardní nabídce, a kupujících podle pohlaví. Zjištěné údaje jsou uspořádány v následující kontingenční tabulce. Rozhodněte na hladině významnosti α = 0,01, zda na sobě závisí druh prodané květiny a pohlaví zákazníka. Případně změřte sílu závislosti pomocí vhodné charakteristiky. Výsledky interpretujte.
Pohlaví
Druh květiny
zákazníka
bj = 1, ..., 6
ai = 1, 2
Součet
růže
orchidej
chryzantéma
karafiát
gerbera
lilie
Muž
83
55
10
21
37
54
260
Žena
75
50
58
60
59
38
340
Součet
158
105
68
81
96
92
600
Test nezávislosti kategoriálních znaků H0: druh květiny a pohlaví na sobě nezávisí H1: non H0 r
s
G i 1 j 1
n
nij
2
ij
nij
W G, G 02,99 (5)
W G, G 15,099 G = 51,374
G W , tj. zamítáme H0, přijímáme H1. Na HV 1 % jsme prokázali závislost druhu květiny a pohlaví zákazníka. Sílu závislosti můžeme změřit např. pomocí Cramérova koeficientu kontingence: CC = 0,293 Závislost mezi veličinami je slabá.
12) Zjistěte na hladině významnosti 5 %, zda existuje závislost mezi nakoupeným druhem pečiva
a pohlavím nakupujícího, jsou-li k dispozici následující údaje: Druh pečiva
Pohlaví nakupujícího
Celkem rohlík
houska
muž
200
40
240
žena
80
180
260
Celkem
280
220
500
Pokud prokážete závislost mezi oběma znaky, změřte její sílu a směr pomocí vhodné charakteristiky. Výsledky interpretujte! Test nezávislosti kategoriálních znaků (asociační tabulka) H0: druh nakupovaného pečiva nezávisí na pohlaví zákazníka (příp. druh pečiva a pohlaví zákazníka na sobě nezávisí) H1: non H0
G n
n11 n22 n12 n21 2 n1 n2 n1 n 2
W G, G 02,95 1
W G, G 3,841 G = 139,943
G W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že druh nakupovaného pečiva závisí na pohlaví zákazníka.
Sílu a směr závislosti lze změřit pomocí koeficientu asociace: rAB =0,529 Závislost mezi veličinami je středně vysoká a přímá, tj. častěji se stane, že si muži kupují rohlíky a ženy housky než naopak.
13) V následující tabulce je uvedeno 30 dvojic hodnot znaku x a y. Roztřiďte tyto hodnoty do tabulky
dvourozměrného rozdělení četností a podmíněných rozptylů proměnné y.
a
vypočítejte
hodnoty
Pořadí dvojice
xi
yj
Pořadí dvojice
xi
yj
Pořadí dvojice
xi
yj
1
1
1
11
2
3
21
3
4
2
1
2
12
2
1
22
4
4
3
1
1
13
3
3
23
3
5
4
1
3
14
3
2
24
3
3
5
2
1
15
3
2
25
4
3
6
2
4
16
3
1
26
4
4
7
2
2
17
3
5
27
1
4
8
2
2
18
2
3
28
2
5
9
1
4
19
1
1
29
4
5
10
1
4
20
2
1
30
4
1
podmíněných
Data roztřídím do korelační tabulky: yj
Součty četností
1
2
3
4
5
1
3
1
1
3
0
8
2,5
1,75
2
3
2
2
1
1
9
2,44
1,8242
3
1
2
2
1
2
8
3,125
1,8594
4
1
0
1
2
1
5
3,4
1,84
Součty četností n j
8
5
6
7
4
30
x
x
xi
ni
průměrů
14) Na základě následujících dat proveďte odhad parametrů sdružených regresních přímek
a konkrétně interpretujte hodnoty obou sdružených regresních koeficientů. Ověřte na hladině významnosti 5 % pomocí celkového F – testu vhodnost přímky k popisu závislosti proměnných x a y. Změřte těsnost závislosti proměnných x a y pomocí korelačního koeficientu. Vypočtěte také hodnotu koeficientu determinace a vysvětlete, co jeho hodnota konkrétně vyjadřuje. yi
1
1
1
2
2
3
3
4
4
5
6
7
7
8
xi
10
9
10
12
13
15
16
16
17
17
19
21
23
26
Přímka popisující závislost x na y: X = 8,104+2,047y Přímka popisující závislost y na x: Y = -3,613+0,467x Interpretace párově sdružených regresních koeficientů: byx=0,467 .... Když se hodnota nezávisle proměnné x zvýší o jednotku, zvýší se hodnota závisle proměnné y v průměru o 0,467. bxy=2,047 .... Když se hodnota nezávisle proměnné y zvýší o jednotku, zvýší se hodnota závisle proměnné x v průměru o 2,047. Celkový F-test: a) závislost y na x
H 0 : 0 c, 1 0 (přímka není vhodná k popisu dané závislosti) H 1 : non H 0
F
ST p 1 SR n p
W F ; F F0 ,95 1;12
W F ; F 4,747 72,36446 1 = = 259,224 3,349828 12
F W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že přímka je vhodná k popisu závislosti y na x.
Celkový F-test: a) závislost x na y
H 0 : 0 c, 1 0 (přímka není vhodná k popisu dané závislosti) H 1 : non H 0
F
ST p 1 SR n p
W F ; F F0 ,95 1;12
W F ; F 4,747 317,31132 1 = = 259,224 14,688679 12
F W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že přímka je vhodná k popisu závislosti x na y.
Korelační koeficient: ryx b yx bxy
0,467 2,047 0,978
Závislost mezi proměnnými x a y je velmi silná a přímá. 2
2
Koeficient determinace: ryx rxy b yx bxy 0,956 95,6 % z celkové variability závisle proměnné je možné vysvětlit pomocí příslušné regresní přímky.
15) Stanovte rovnici regresní paraboly na základě následujících údajů o proměnných x a y (x je
nezávisle proměnná, y je závisle proměnná). Dále ověřte na hladině významnosti 0,05 vhodnost použití regresní paraboly k vystižení závislosti y na x. Vypočítejte hodnotu indexu determinace a vysvětlete, jakou informaci nám dává tato charakteristika. Odhadněte hodnotu teoretické regresní paraboly pro x = 16.
xi
2
2
3
4
5
5
6
6
7
7
8
9
10
10
11
yi
1
1
1
2
3
5
6
7
7
5
5
4
3
3
2
Y = -4,950+3,023x-0,220x2
Vhodnost použití paraboly – provedeme individuální t-testy a celkový F-test. t-testy:
H 0 : 0 0 (parametr β0 není statisticky významný) H 1 : non H 0
t
b0 sb0
W t ; t t 0 , 025 12 t t 0,975 12
W t ; t 2,179 t 2,179 t = -3,45389
t W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že parametr β0 je statisticky významný (je přínosem pro danou funkci).
H 0 : 1 0 (parametr β1 není statisticky významný) H 1 : non H 0
t
b1 sb1
W t ; t t 0 , 025 12 t t 0,975 12
W t ; t 2,179 t 2,179 t = 6,09217
t W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že parametr β1 je statisticky významný (je přínosem pro danou funkci).
H 0 : 2 0 (parametr β2 není statisticky významný) H 1 : non H 0
t
b2 sb2
W t ; t t 0 , 025 12 t t 0,975 12
W t ; t 2,179 t 2,179 t = -5,75748
t W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že parametr β2 je statisticky významný (je přínosem pro danou funkci). Celkový F-test:
H 0 : 0 c, 1 , 2 0 (parabola není vhodná k vystižení závislosti y na x) H 1 : non H 0
F
ST p 1 SR n p
W F ; F F0 ,95 2; 12
W F ; F 3,885 46,6424 2 = = 19,0495 14,6909 12
F W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že parabola je vhodná k vystižení závislosti y na x. Index determinace: I2=0,760 76 % z celkové variability proměnné y můžeme vysvětlit pomocí dané regresní paraboly. Jestliže x = 16, pak y = -12,902.
16) Změřte lineární závislost proměnné y a proměnné x vhodnou charakteristikou. Dále otestujte na
hladině významnosti α = 0,05 hypotézu o korelační nezávislosti x a y. Výsledky interpretujte!
xi
101
110
110
115
116
120
121
125
130
130
132
134
yi
15
18
19
23
23
27
27
29
31
32
34
38
Míra těsnosti lineární závislosti: koeficient korelace; ryx = 0,985
Test významnosti koeficientu korelace:
H 0 : yx 0 (proměnné x a y jsou lineárně nezávislé)
H 1 : non H 0
t
ryx n 2 1 ryx2
W t ; t t 0, 025 10 t t 0 ,975 10
W t; t 2,2287 t 2,2287 t = 18,05
t W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že mezi proměnnými x a y existuje lineární závislost. Tato závislost je velmi silná a přímá (dle hodnoty ryx).
17) Posuďte na hladině významnosti 5 % shodu následujících dvou pořadí, případně změřte její sílu.
Výsledky interpretujte!
ix
13
6
10
7
1
4
9
3
11
8
12
2
5
iy
12
8
9
5
2
4
10
3
13
6
11
1
7
Test o nezávislosti pořadovou korelací
H 0 : S 0 (nezávislost pořadí) H 1 : non H 0
t
rS n 2 1 rS2
W t ; t t 0, 025 11 t t 0 ,975 11
W t ; t 2,202 t 2,202 t = 8,326 (rS = 0,929)
t W , tj. zamítáme H0, přijímáme H1.
Na HV 5 % jsme prokázali, že mezi danými 2 pořadími existuje závislost. Závislost je velmi silná, přímá, tj. pořadí jsou si do značné míry podobná (dle rs).
18) Vyhledejte ve statistických ročenkách či jiných zdrojích údaje o počtu živě narozených v ČR
v letech 1983 – 1993. Dále pak: a) Tato data vyrovnejte vhodnou trendovou funkcí a vysvětlete, proč jste se rozhodli použít danou konkrétní funkci. b) Proveďte extrapolaci na r. 1994 a 1995 a porovnejte se skutečnými hodnotami, příp. vysvětlete vzniklé rozdíly mezi danými údaji. c) Vypočítejte všechny 1. absolutní diference, průměrný absolutní přírůstek počtu živě narozených v daném období a průměrný koeficient růstu a vypočítané hodnoty interpretujte. d) Vypočítejte hodnoty řetězových indexů i1990 / 1989 a i1987 / 1986 a výsledky interpretujte. e) Vypočítejte bazický index i1993 / 1983 , co jeho hodnota udává?
Rok
Počet yt
c)
1983
137431
.
1984
136941
-490
1985
135881
-1060
1986
133356
-2525
1987
130921
-2435
1988
132667
1746
1989
128356
-4311
1990
130564
2208
1991
129354
-1210
1992
121705
-7649
1993
121025
-680
Celkem
1438201
první diference
-16406
a) Podle grafického znázornění v bodovém diagramu usuzujeme, že by k vyrovnání dat o počtu živě narozených v letech 1983 – 1993 mohla být vhodná přímka.
Plot of zive narozeni vs t (X 10000,0) 13,8
zive narozeni
13,5 13,2 12,9 12,6 12,3 12 0
Rovnice trendové přímky:
2
t-testy =0
H 1 : non H 0 t = 104,068
W t ; t t 0, 025 9 t t 0,975 9
W t ; t 2,262 t 2,262
t W , tj. zamítáme H0, přijímáme H1.
:
6 t
= 140057 − 1551,85 .
Ověření vhodnosti přímky:
:
4
=0
H 1 : non H 0 t = -7,82063
W t ; t t 0, 025 9 t t 0,975 9
W t ; t 2,262 t 2,262
t W , tj. zamítáme H0, přijímáme H1.
8
10
12
F-test
H 0 : 0 c, 1 0 (přímka není vhodná vyrovnání daných hodnot) H 1 : non H 0
F
ST p 1 SR n p
W F ; F F0,95 1; 9
W F ; F 5,117 F = 61,16
F W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že oba parametry trendové přímky jsou statisticky významné, a že přímka je vhodná k vyrovnání hodnot počtu živě narozených v letech 1983-1993. Hodnota indexu determinace (I2=0,872) je vysoká; 87,2 % z celkové variability počtu živě narozených můžeme vysvětlit pomocí trendové přímky. b)
= 121 434,42 = 119,882,56
Skutečná hodnota v r. 1994 106 579 a v r. 1995 96 097. Předpovědi jsou konstruované na základě prodloužení vybrané trendové funkce, která předpokládá, že jediným ovlivňujícím faktorem daného ukazatele je čas. Ve skutečnosti na počet živě narozených působí mnoho dalších faktorů, které v dané funkci zachyceny nejsou, proto je rozdíl mezi předpovědí a skutečností. c) První diference viz tabulka. Příklady interpretace prvních diferencí – modré hodnoty v tabulce: V roce 1984 klesl počet živě narozených oproti roku 1983 o 490 dětí. V roce Průměrný absolutní přírůstek:
y n y1 121025 137431 1640,6 n 1 10
Počet živě narozených se v letech 1983-93 v průměru snížil o 1640,6 dítěte. Průměrný koeficient růstu: k n 1 k 2 k 3 ..... k n n 1
y n 10 121025 0,987 y1 137431
Počet živě narozených se v letech 1983-93 v průměru snížil o 1,3 %.
d) i1990 / 1989
130564 1,017 128356
V roce 1990 vzrostl počet živě narozených oproti roku 1989 o 1,7 %.
i1987 / 1986
130921 0,982 133356
V roce 1987 poklesl počet živě narozených oproti roku 1986 o 1,8 %. e) i1993 / 1983
121025 0,881 137431
Počet živě narozených v roce 1993 klesl oproti roku 1983 o 11,9 %.
19) V následující tabulce jsou čtvrtletní údaje o dojivosti krav v tis. litrech v letech 1990 – 1994.
Postihněte pravidelnost sezónního kolísání a proveďte očištění údajů časové řady od tohoto kolísání – stačí uvést očištěné údaje pouze za rok 1993. Model zvolte dle vlastní úvahy. Interpretujte alespoň jeden ze sezónních faktorů. Čtvrtletí Rok I.
II.
III.
IV.
1990
27
42
55
34
1991
25
44
51
33
1992
29
47
55
31
1993
30
50
59
37
1994
30
51
61
37
Podle bodového diagramu (viz níže) by vhodnější pro popis sezónní složky byl model konstantní sezónnosti. Pro představu o použití obou modelů si zde ukážeme oba – model konstantní sezónnosti i model proporcionální sezónnosti.
Plot of yt vs t
65
yt
55
45
35
25 0
4
8
12 t
Model aditivní (konstantní sezónnosti) Čtvrtletí Data
Q1.90 Q2.90 Q3.90 Q4.90 Q1.91 Q2.91 Q3.91 Q4.91 Q1.92 Q2.92 Q3.92 Q4.92 Q1.93 Q2.93 Q3.93 Q4.93 Q1.94 Q2.94 Q3.94 Q4.94
27,0 42,0 55,0 34,0 25,0 44,0 51,0 33,0 29,0 47,0 55,0 31,0 30,0 50,0 59,0 37,0 30,0 51,0 61,0 37,0
Čtyřčlenné Sezónní Očištěné centrované rozdíly hodnoty klouzavé průměry (trendová složka) · · 40,0703 · · 35,8516 39,25 15,75 40,7266 39,25 -5,25 41,3516 39,0 -14,0 38,0703 38,375 5,625 37,8516 38,75 12,25 36,7266 39,625 -6,625 40,3516 40,5 -11,5 42,0703 40,75 6,25 40,8516 40,625 14,375 40,7266 41,125 -10,125 38,3516 42,0 -12,0 43,0703 43,25 6,75 43,8516 44,0 15,0 44,7266 44,125 -7,125 44,3516 44,5 -14,5 43,0703 44,75 6,25 44,8516 · · 46,7266 · · 44,3516
Čtvrtletí Průměrný sezónní rozdíl 1 -13,0 2 6,21875 3 14,34375 4 -7,28125 Součet 0,28125
Rozdílový sezónní faktor -13,0703 6,14844 14,2734 -7,35156 0
16
20
Postup: 1. Danou časovou řadu (ČŘ) vyrovnáme vhodným typem klouzavých průměrů. Jde o ČŘ periodickou, proto je rozsah klouzavé části období interpolace určen podle délky dané periody. Zde jde o ČŘ čtvrtletních údajů, proto je m = 4 (p = 2, tj. 2 hodnoty na začátku a 2 hodnoty na konci ČŘ zůstanou nevyrovnány). 2. Vypočteme hodnoty sezónních rozdílů, tj. od původních hodnot ČŘ odečteme hodnoty vyrovnané, tj. hodnoty klouzavých průměrů (sloupec 3) – viz sloupec 4. ve větší tabulce. 3. Vypočítáme průměrný sezónní rozdíl pro každé čtvrtletí a zapíšeme do menší tabulky. Např. průměrný sezónní rozdíl pro I. čtvrtletí: (-14-11,5-12-14,5)/4=-13. 4. Zkontrolujeme, zda průměrné sezónní rozdíly splňují podmínku vidět, že
b
j
b
j
0 . Z menší tabulky je
0,28125 , tj. hodnota součtu je větší než 0, proto musíme dané průměrné
sezónní rozdíly normovat. Hodnotu 0,28125 vydělíme 4 (4 sezónní rozdíly) a dostaneme 0,070313. O tuto hodnotu zmenšíme hodnotu každého z průměrných sezónních rozdílů, aby jejich součet byl nulový – viz poslední sloupec malé tabulky. 5. Když jsme vyčíslili velikost sezónních výkyvů, můžeme ČŘ očistit od těchto sez. výkyvů. V aditivním modelu to znamená, že od původních hodnot ČŘ odečteme hodnoty příslušných rozdílových sez. faktorů. Tj. např. 27-(-13,0703)=40,0703. Dále pak 42-6,14844=35,85156 (ve výsledcích vše zaokrouhleno na 4 desetinná místa, tedy 35,8516). 6. Interpretace rozdílových sez. faktorů (červeně podbarvené hodnoty): V I. čtvrtletí se dojivost krav pohybuje v průměru 13,0703 tis. litrů pod dlouhodobým normálem. Ve III. čtvrtletí se dojivost pohybuje v průměru 14,2734 tis. litrů nad dlouhodobým normálem.
Model multiplikativní (proporcionální sezónnosti) Čtvrtletí Data
Q1.90 Q2.90 Q3.90
27,0 42,0 55,0
Q4.90
34,0
Q1.91
25,0
Q2.91
44,0
Q3.91
51,0
Q4.91
33,0
Q1.92
29,0
Q2.92
47,0
Q3.92
55,0
Q4.92
31,0
Q1.93
30,0
Q2.93
50,0
Q3.93
59,0
Q4.93
37,0
Q1.94
30,0
Q2.94
51,0
Q3.94 Q4.94
61,0 37,0
Čtyřčlenné Sezónní Očištěné centrované indexy hodnoty klouzavé průměry (trendová složka) · · 39,4468 · · 36,6582 1,40127 39,25 40,7629
Čtvrtletí Průměrný sezónní index 1 0,6863795 2 1,14892 3 1,35304 4 0,822844
39,25 39,0 38,375 38,75 39,625 40,5 40,75 40,625 41,125 42,0 43,25 44,0 44,125 44,5 44,75 · ·
0,866242 0,641026 1,14658 1,31613 0,832808 0,716049 1,15337 1,35385 0,753799 0,714286 1,15607 1,34091 0,838527 0,674157 1,13966 · ·
41,4356 36,5248 38,4039 37,7983 40,217 42,3688 41,0223 40,7629 37,7796 43,8298 43,6407 43,7275 45,0917 43,8298 44,5136 45,2097 45,0917
Indexní sezónní faktor 0,684466 1,14572 1,34927 0,82055
Postup: 1. Danou časovou řadu (ČŘ) vyrovnáme vhodným typem klouzavých průměrů. Jde o ČŘ periodickou, proto je rozsah klouzavé části období interpolace určen podle délky dané periody. Zde jde o ČŘ čtvrtletních údajů, proto je m = 4 (p = 2, tj. 2 hodnoty na začátku a 2 hodnoty na konci ČŘ zůstanou nevyrovnány).
2. Vypočteme hodnoty sezónních indexů, tj. původní hodnoty ČŘ vydělíme hodnotami vyrovnanými, tj. hodnotami klouzavých průměrů (sloupec 3) – viz sloupec 4. ve větší tabulce. 3. Vypočítáme průměrný sezónní index pro každé čtvrtletí a zapíšeme do menší tabulky. Např. průměrný sezónní index pro I. čtvrtletí:(0,641026+0,716049+0,714286+0,674157)/4=0,6863795. 4. Zkontrolujeme, zda průměrné sezónní indexy splňují podmínku tabulky je vidět, že
I
j
I
j
r , tj.
I
j
4 . Z menší
4,0111835 , tj. hodnota součtu je větší než 4, proto musíme dané
průměrné sezónní indexy normovat. Tj. 4/4,0111835 = 0,9972119. Hodnotou 0,9972119 vynásobíme každý z průměrných sez. indexů. Nyní už je součet všech průměrných sez. indexů roven 4. – viz poslední sloupec malé tabulky. 5. Když jsme vyčíslili velikost sezónních výkyvů, můžeme ČŘ očistit od těchto sez. výkyvů. V multiplikativním modelu to znamená, že původní hodnoty ČŘ vydělíme hodnotami příslušných indexních sez. faktorů. Tj. např. 27/0,684466=39,4468 (zaokrouhleno na 4 desetinná místa). Dále pak 42/1,14572=36,6582 atd. 6. Interpretace indexních sez. faktorů (červeně podbarvené hodnoty): V I. čtvrtletí se dojivost krav pohybuje v průměru 31,6 % pod dlouhodobým normálem. Ve III. čtvrtletí se dojivost pohybuje v průměru 34,9 % nad dlouhodobým normálem.
20) V následující tabulce jsou údaje o počtu dokončených bytů v ČR v letech 2007-2013.
Charakterizujte úroveň hodnot daného ukazatele pomocí vhodné charakteristiky. Rok
2007
2008
2009
2010
2011
2012
2013
Počet dokončených bytů v ČR
41 649
38 380
38 473
36 442
28 630
29 467
25 246
Jedná se o intervalového ukazatele, součet jeho hodnot má smysl, proto můžeme charakterizovat úroveň jeho hodnot pomocí aritmetického průměru. =
∑
=
238287 = 34041 7
V letech 2007-2013 bylo v ČR dokončeno v průměru 34 041 bytů ročně.
21) V následující tabulce najdete údaje o počtu příjemců starobního důchodu v ČR v letech 2006-
2012. Vypočítejte průměrný počet příjemců starobního důchodu ve sledovaných letech. Rok Počet příjemců starob. důchodu
2006
2007
2008
2009
2010
2011
2012
1 420 019
1 448 544
1 484 535
1 533 012
1 647 534
1 725 392
1 726 523
Jedná se o okamžikového ukazatele (součet jeho hodnot nemá smysl), proto k výpočtu průměrného počtu příjemců použijeme chronologický průměr. Použijeme tvar prostý, neboť vzdálenosti mezi jednotlivými časovými okamžiky jsou stejné:
y1 y 2 y 2 y 3 y yn y1 y ..... n 1 y 2 y n 1 n 2 2 2 2 y 2 n 1 n 1
1420019 1726523 1448544 1484535 1533012 1647534 1725392 9412288 2 2 1568715 7 1 6 Průměrný počet příjemců starobního důchodu v letech 2006-2012 byl 1 568 715.
22) V následující tabulce je uveden počet registrovaných subjektů v RES – cestovní ruch v letech
2000-2012. Vypočítejte průměrný počet registrovaných subjektů ve sledovaném období. Rok
Počet registr. subjektů v RES – cest. ruch
2000
9182
2005
10785
2006
11086
2009
11473
2011
11682
2012
11820
Jedná se o hodnoty okamžikového ukazatele (součet jeho hodnot nemá smysl), proto k výpočtu průměrného počtu příjemců použijeme chronologický průměr. Použijeme tvar vážený, neboť vzdálenosti mezi jednotlivými časovými okamžiky nejsou stejné:
y1 y 2 y y3 y yn d1 2 d 2 ....... n 1 d n 1 2 2 2 y d 1 d 2 ....... d n 1
n 1
y d i
i
i 1 n 1
d
i
i 1
Rok
Počet registr. subjektů v RES – cest. ruch
2000
9182
2005
10785
2006
11086
10935,5
1
10935,5
2009
11473
11279,5
3
33838,5
2011
11682
11577,5
2
23155
2012
11820
11751
1
11751
x
x
9983,5
Součet
5
49917,5
12 129597,5
Poznámka: Nepovedlo se mi přesvědčit danou tabulku, aby hodnoty ve třetím až pátém sloupci byly cca uprostřed mezi hodnotami yt tak, jak je to u prvního řádku. :-( n 1
y d i
y
i 1 n 1
d
i
129597,5 10799,791 12
i
i 1
Průměrný počet registrovaných subjektů v RES – cestovní ruch v letech 2000-2012 byl téměř 10 800.