Vzory seminárních prací ze Statistiky II

Vzory seminárních prací ze Statistiky II 1) Ve sdělovacích prostředcích se uvádí, že průměrná doba, kterou týdně stráví děti ve věku 6 až 10 let u počítače, je minimálně 12 hodin. Odborníci s tímto názorem nesouhlasí, tvrdí, že průměrná doba, kterou děti v daném věku u počítače stráví, je nižší. V důsledku tohoto názorového sporu bylo provedeno výběrové šetření u 25 dětí ve věku 6 – 10 let. Byly zjištěny tyto údaje (v h týdně):

10

5,5

4

6,75

18

9,5

6

5,5

4

14,5

13

11,25

7

16,5

12,25

14

12

10

20

6

2

18

11,75

1,5

3

Ověřte na hladině významnosti   0,05 , zda je předpoklad, uváděný v tisku, správný. Předpokládáme, že týdenní počet hodin strávených u počítače, má normální rozdělení. Řešení: Test hypotézy o průměru v základním souboru (ZS)

H 0 :   12 H 0 :   12

t

x  0 s n

W  t ; t  t 0, 05 24  W  t; t  1,711 t =-2,185 ( ̅ = 9,68; ´ = 5,30797)

∈

, tj. zamítáme H0 a přijímáme H1.

Na hladině významnosti 5 % jsme prokázali, že průměrná doba, kterou děti ve věku6 až 10 let stráví u počítače je menší než 12h týdně.

2) Ve sdělovacích prostředcích se uvádí, že děti ve věku 10 až 15 let stráví u počítače průměrně 14 hodin týdně. Odborníci s tímto názorem nesouhlasí, tvrdí, že průměrná doba, kterou děti v daném věku u počítače stráví, je vyšší. V důsledku tohoto názorového sporu bylo provedeno výběrové šetření u 35 dětí ve věku 10 – 15 let. Byly zjištěny tyto údaje (v h týdně):

6,5

32

16

10,5

19

2

7,25

15,75

14,5

21

9,75

12

12

8,5

18

2,5

22

8

13,5

11,75

6,5

15,25

3,5

17,5

10,75

24

10,5

4

20

1,25

10

11

28

9

1

Ověřte na hladině významnosti   0,05 , zda je předpoklad, uváděný v tisku, správný. Předpokládáme, že týdenní počet hodin strávených u počítače, má normální rozdělení.

H 0 :   14

H 1 :   14 U

x  0 s n

W  U ;U  u 0,95 , W  U ;U  1,645 U = -1,24841 ( ̅ = 12,4214; ´ = 7,4808) ∈ , tj. nezamítáme H0, nepřijímáme H1. Na hladině významnosti 5 % nezamítáme předpoklad o tom, že průměrná doba, kterou děti ve věku 10-15 let stráví u počítače je v průměru 14h týdně.

3) Výrobce vyrábí sušenky s různými příchutěmi. Tyto sušenky jsou baleny do balíčků s předepsanou hmotností 100 g. Balíčky plní automat, který je seřízen tak, aby směrodatná odchylka hmotnosti balíčku byla maximálně 5 g. V nedávné době došlo k poruše na balícím automatu a výrobce chce po opravě zjistit, zda nedošlo ke zhoršení přesnosti při plnění balíčků, tj. zda se směrodatná odchylka hmotnosti balíčků sušenek nezvýšila. Předpokládáme, že hmotnost balíčků sušenek je náhodná veličina s normálním rozdělením. Bylo náhodně vybráno 20 balíčků sušenek a zjištěny tyto hmotnosti v g:

103,5

106,9

105,3

106,8

104,9

108,0

100, 0

107,2

100,2

95,8

106,5

104,3

95,3

108,2

107,1

100,6

107,6

94,1

99,8

108,3

Proveďte rozhodnutí na hladině významnosti   0,01 .

H 0 :  2  52

H1 :  2  52



2

 n  1s  2   02





W   2 ;  2   02,99 19 ; W   2 ;  2  36,191 χ2 = 16,2501 (s´= 4,620403)

 2  W , tj. nezamítáme H0, nepřijímáme H1. Na hladině významnosti 1 % nezamítáme předpoklad o tom, že směrodatná odchylka hmotnosti je 5g nebo menší, tj. přesnost přístroje se nezhoršila.

4) Výrobce dřevěných párátek tvrdí, že v každé krabičce zákazník napočítá 100 párátek. V náhodně vybraných 150 krabičkách bylo zjištěno následující rozdělení četností počtu párátek chybějících do 100.

Počet chybějících párátek

Počet krabiček

0

11

1

22

2

34

3

31

4

25

5

13

6

6

7

5

8 a více

3

Celkem

150

Na hladině významnosti 5 % ověřte domněnku, že počet chybějících párátek v krabičce má Poissonovo rozdělení s parametrem   3 . χ2 test dobré shody (úplně specifikovaný model) Počet párátek

ni

Π0,i n· Π0,i G 0 11 0,0498 7,47 1,668126 1 22 0,1494 22,41 0,007501 2 34 0,224 33,6 0,004762 3 31 0,224 33,6 0,20119 4 25 0,168 25,2 0,001587 5 13 0,1008 15,12 0,297249 6 6 0,0504 7,56 0,321905 7 a více 8 0,0336 5,04 1,738413 Součet 150 1 150 4,240733 Poznámka: poslední 2 třídy musely být sloučeny, protože nesplňovaly podmínku n 0,i  5 . H0: počet chybějících párátek se řídí Poissonovým rozdělením s parametrem λ = 3 H1: non H0

k

G i 1

n

 n 0,i 

2

i

n 0,i





W  G; G   02,95 7  2

Parametr rozdělení χ je 7, protože 2 třídy byly sloučeny do 1. Nový počet skupin je tak 8, nikoli 9.

W  G; G  14,067

G  W ; tj. nezamítáme H0, nepřijímáme H1. Na hladině významnosti 5 % nezamítáme předpoklad o tom, že počet chybějících párátek má Poissonovo rozdělení s parametrem   3 .

5) Výrobce dřevěných párátek tvrdí, že v každé krabičce zákazník napočítá 100 párátek. V náhodně vybraných 90 krabičkách bylo zjištěno následující rozdělení četností počtu párátek chybějících do 100. Počet Počet chybějících krabiček párátek 0

10

1

32

2

28

3

11

4

6

5

3

Celkem

90

Na hladině významnosti 1 % ověřte domněnku, že počet chybějících párátek v krabičce má Binomické rozdělení s parametry n  12 a   0,4 . χ2 test dobré shody (úplně specifikovaný model) Počet párátek 0a1 2 3 4 5 a více

ni 42 28 11 6 3 90

G Π0,i n· Π0,i 0,0196 1,764 917,764 0,0639 5,751 86,07512 0,1419 12,771 0,245591 0,2128 19,152 9,031699 0,5618 50,562 44,74 1 90 1057,856

Poznámka: první 2 třídy musely být sloučeny, protože nesplňovaly podmínku: ve všech třídách musí platit n 0,i  1 a alespoň v 80 % tříd musí platit n 0,i  5 . Oproti předchozímu příkladu byla použita mírnější forma dané podmínky.

H0: počet chybějících párátek má Binomické rozdělení s parametry n  12 a   0,4 . H1: non H0 k

G

n

 n 0,i 

2

i

n 0,i

i 1





W  G; G   02,99 4

W  G; G  13,277 G = 1057,856

G  W , tj. zamítáme H0, přijímáme H1. Na hladině významnosti 5 % jsme prokázali, že počet chybějících párátek se neřídí Binomickým rozdělením s parametry n  12 a   0,4 .

6) Výrobci automobilů došla zásilka automobilových komponentů od jistého dodavatele. Výrobce je s dodavatelem dohodnut, že dodávku odmítne, pokud bude obsahovat méně než 90 % kvalitních výrobků. Bylo zkontrolováno 250 výrobků a zjištěno, že 35 je nekvalitních. Odmítne výrobce danou zásilku? Uvažujte 1%-ní hladinu významnosti. = = 0,86 (podíl kvalitních dílů v dodávce – bodový odhad)

H 0 :   0,9

H 1 :   0,9 U

p 0

 0 1   0  n

W  U ;U  u 0 , 01 

W  U ;U  2,326 U = -2,108

U  W , tj. nezamítáme H0, nepřijímáme H1.

Na hladině významnosti 1 % nezamítáme hypotézu o tom, že podíl kvalitních výrobků je 90 % či vyšší – výrobce danou zásilku neodmítne.

7) Matějovi se porouchal mobilní telefon. Dal ho do opravy a musí čekat cca 30 dnů, než mu přístroj opraví. Protože ale potřebuje být kvůli svému zaměstnání stále v kontaktu, rozhodl se, že si pořídí starší telefon z bazaru. Navštívil jeden bazar v Chomutově, kde bydlí, a zjistil, že požadovaný typ telefonu tam mají ve 12 exemplářích za tyto ceny (v Kč):

1490

2250

1800

1200

1450

1000

1360

1230

1600

1070

1400

1550

Protože měl v úmyslu podniknout pracovní cestu do Prahy, žádný telefon v Chomutově nekoupil a rozhodl se, že navštíví některý z bazarů v Praze. Tam našel 14 exemplářů stejného typu za tyto ceny (v Kč): 2050

2370

1800

2100

1950

2150

2100

2550

2400

1990

2000

2350

1900

2200

Po tomto zjištění nabyl dojmu, že si měl telefon raději koupit v Chomutově. Je jeho dojem správný? Za účelem ověření Matějova názoru posuďte na hladině významnosti 5 %, zda průměrná cena starších telefonů v Chomutově je nižší než v Praze. Předpokládejte, že cena telefonu je náhodná veličina, která se řídí normálním rozdělením. Nezapomeňte posoudit shodu rozptylů! Výsledky interpretujte! Test shody středních hodnot ve 2 základních souborech (nezávislé výběry)

H 0 : 1   2

H 1 : 1 <  2 (průměrná cena telefonů v Chomutově je nižší než v Praze) Rozhodnutí o výběru testového kritéria: neznám rozptyly v základních souborech, budu tedy zjišťovat, zda lze předpokládat, že jsou rozptyly v obou základních souborech shodné či různé, tj. provedu test H o shodě rozptylů ve 2 základních souborech. Test shody rozptylů ve 2 základních souborech

H 0 :  12   22

H 1 :  12   22 F

s1 2 s 22

W  F ; F  F0 , 025 11;13  F  F0 ,0975 11;13

W  F ; F  0,295  F  3,197 F = 2,496 F  W , tj. nezamítáme H0, nepřijímáme H1. Na HV 5 % nezamítáme hypotézu, že rozptyly v obou základních souborech jsou si rovny. Nyní se můžeme vrátit k započatému testu shody 2 průměrů a vybrat vhodné testové kritérium:

t

x1  x 2

n1  1s1

 n2  1s 22 n1  n2  2 2

1 1  n1 n2

W  t ; t  t 0, 05 24 

W  t; t  1,711 t = -6,261 t  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že průměrná cena telefonů je nižší v Chomutově, Matěj si měl telefon tedy koupit tam.

8) Majitel restaurace zjistil, že v době oběda (11 – 14h) navštíví podnik 20% zákazníků, kteří si oběd nedají. Rozhodl se rozšířit nabídku poledních jídel a menu a poté provedl další průzkum, kdy zjistil, že z 86 zákazníků si oběd v době 11 – 14 h dalo 70 zákazníků. Lze s pravděpodobností 99% tvrdit, že se podíl zákazníků, kteří si v době 11 – 14h nedali oběd, snížil? = = 0,186 (podíl zákazníků, kteří si nedali v době 11 – 14h oběd)

H 0 :   0,2 H 0 :   0,2 U

p 0

 0 1   0  n

W  U ;U  u 0 , 01 

W  U ;U  2,326 U = -0,325

U  W , tj. nezamítáme H0, nepřijímáme H1. Na HV 1 % (neboli s pravděpodobností 99 %) jsme neprokázali, že by úpravy v jídelním lístku zvýšily zájem zákazníků o obědy.

9) Máme k dispozici údaje o spotřebě vody v jednom cyklu mytí v litrech u 18 myček dvou různých značek (A a B). Výrobce značky B tvrdí, že jeho myčky mají průměrnou spotřebu vody nižší, než myčky od výrobce A. Rozhodněte na hladině významnosti 5 %, zda je tvrzení výrobce B pravdivé.

Spotřeba vody (l)

14 17 16 15 16 14 17 15 15 17 18 15 14 14 14 15 16 17

Značka A Spotřeba vody (l)

13 16 15 15 13 14 14 13 15 16 15 14 13 13 14 15 14 16

Značka B

Test shody středních hodnot ve 2 základních souborech (nezávislé výběry)

H 0 : 1   2

H 1 : 1 >  2 (myčky A mají vyšší průměrnou spotřebu vody než myčky B) Rozhodnutí o výběru testového kritéria: neznám rozptyly v základních souborech, budu tedy zjišťovat, zda lze předpokládat, že jsou rozptyly v obou základních souborech shodné či různé, tj. provedu test H o shodě rozptylů ve 2 základních souborech. Test shody rozptylů ve 2 základních souborech

H 0 :  12   22

H 1 :  12   22 F

s1 2 s 22

W  F ; F  F0, 025 17;17   F  F0 , 0975 17;17 

W  F ; F  0,374  F  2,673 F = 1,425 F  W , tj. nezamítáme H0, nepřijímáme H1. Na HV 5 % nezamítáme hypotézu, že rozptyly v obou základních souborech jsou si rovny. Nyní se můžeme vrátit k započatému testu shody 2 průměrů a vybrat vhodné testové kritérium:

t

x1  x 2

n1  1s1 2  n2  1s 22 n1  n2  2

W  t ; t  t 0 ,95 (34)

1 1  n1 n2

W  t; t  1,691 t = 2,93

t  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že myčky výrobce A mají vyšší průměrnou spotřebu vody než myčky výrobce B.

10) Marketingové oddělení jistého podniku provádělo průzkum trhu se spotřební elektronikou. Cílem

šetření bylo zjistit, jaké jsou roční výdaje jednotlivých osob na nákup spotřební elektroniky. Šetření proběhlo u 30 osob, které pracují v administrativě, v informatice a strojírenství. Na základě údajů v následující tabulce zjistěte, zda úroveň ročních výdajů na elektroniku závisí na oboru činnosti dotázaného. Případně změřte sílu závislosti. Uvažujte   0,05 . Předpokládáme normalitu rozdělení.

Obor činnosti respondenta

Roční výdaje na spotřební elektroniku v tis. Kč ni yij

xi administrativa

1,9 10,5 6,2 7,5 5 0,8

6

informatika

15 21,5 10,6 30,2 24,9 25 19 17,1 14,6 23,5 41 28,3 17,7 19

14

strojírenství

14,5 10 11,2 19,1 16,7 9 13,9 16 15,4 7,7

10

Součet

30

Analýza rozptylu

H 0 : 1   2   3 (roční výdaje na spotřební elektroniku nezávisí na oboru činnosti respondenta) H 1 : non H 0 S ym F  k 1 S yv nk W  F , F  F0,95 2, 27 

W  F , F  3,354

S ym

1250,1244 2 F  k 1   17,391 S yv 970,4476 27 nk

F  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že roční výdaje na nákup spotřební elektroniky závisí na oboru činnosti respondenta. Sílu závislosti změříme pomocí poměru determinace.

P2 

S ym Sy



1250,1244  0,563 2220,572

Síla závislosti je středně vysoká. 56,3 % z celkové variability výdajů je možné vysvětlit pomocí oboru činnosti respondenta.

11) U největších pražských prodejců květin byly zjišťovány údaje o druzích prodaných květin, které

jsou ve standardní nabídce, a kupujících podle pohlaví. Zjištěné údaje jsou uspořádány v následující kontingenční tabulce. Rozhodněte na hladině významnosti α = 0,01, zda na sobě závisí druh prodané květiny a pohlaví zákazníka. Případně změřte sílu závislosti pomocí vhodné charakteristiky. Výsledky interpretujte.

Pohlaví

Druh květiny

zákazníka

bj = 1, ..., 6

ai = 1, 2

Součet

růže

orchidej

chryzantéma

karafiát

gerbera

lilie

Muž

83

55

10

21

37

54

260

Žena

75

50

58

60

59

38

340

Součet

158

105

68

81

96

92

600

Test nezávislosti kategoriálních znaků H0: druh květiny a pohlaví na sobě nezávisí H1: non H0 r

s

G   i 1 j 1



n

 nij 

2

ij

nij



W  G, G   02,99 (5)

W  G, G  15,099 G = 51,374

G  W , tj. zamítáme H0, přijímáme H1. Na HV 1 % jsme prokázali závislost druhu květiny a pohlaví zákazníka. Sílu závislosti můžeme změřit např. pomocí Cramérova koeficientu kontingence: CC = 0,293 Závislost mezi veličinami je slabá.

12) Zjistěte na hladině významnosti 5 %, zda existuje závislost mezi nakoupeným druhem pečiva

a pohlavím nakupujícího, jsou-li k dispozici následující údaje: Druh pečiva

Pohlaví nakupujícího

Celkem rohlík

houska

muž

200

40

240

žena

80

180

260

Celkem

280

220

500

Pokud prokážete závislost mezi oběma znaky, změřte její sílu a směr pomocí vhodné charakteristiky. Výsledky interpretujte! Test nezávislosti kategoriálních znaků (asociační tabulka) H0: druh nakupovaného pečiva nezávisí na pohlaví zákazníka (příp. druh pečiva a pohlaví zákazníka na sobě nezávisí) H1: non H0

G  n

n11 n22  n12 n21 2 n1 n2 n1 n 2





W  G, G   02,95 1

W  G, G  3,841 G = 139,943

G  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že druh nakupovaného pečiva závisí na pohlaví zákazníka.

Sílu a směr závislosti lze změřit pomocí koeficientu asociace: rAB =0,529 Závislost mezi veličinami je středně vysoká a přímá, tj. častěji se stane, že si muži kupují rohlíky a ženy housky než naopak.

13) V následující tabulce je uvedeno 30 dvojic hodnot znaku x a y. Roztřiďte tyto hodnoty do tabulky

dvourozměrného rozdělení četností a podmíněných rozptylů proměnné y.

a

vypočítejte

hodnoty

Pořadí dvojice

xi

yj

Pořadí dvojice

xi

yj

Pořadí dvojice

xi

yj

1

1

1

11

2

3

21

3

4

2

1

2

12

2

1

22

4

4

3

1

1

13

3

3

23

3

5

4

1

3

14

3

2

24

3

3

5

2

1

15

3

2

25

4

3

6

2

4

16

3

1

26

4

4

7

2

2

17

3

5

27

1

4

8

2

2

18

2

3

28

2

5

9

1

4

19

1

1

29

4

5

10

1

4

20

2

1

30

4

1

podmíněných

Data roztřídím do korelační tabulky: yj

Součty četností

1

2

3

4

5

1

3

1

1

3

0

8

2,5

1,75

2

3

2

2

1

1

9

2,44

1,8242

3

1

2

2

1

2

8

3,125

1,8594

4

1

0

1

2

1

5

3,4

1,84

Součty četností n  j

8

5

6

7

4

30

x

x

xi

ni

průměrů

14) Na základě následujících dat proveďte odhad parametrů sdružených regresních přímek

a konkrétně interpretujte hodnoty obou sdružených regresních koeficientů. Ověřte na hladině významnosti 5 % pomocí celkového F – testu vhodnost přímky k popisu závislosti proměnných x a y. Změřte těsnost závislosti proměnných x a y pomocí korelačního koeficientu. Vypočtěte také hodnotu koeficientu determinace a vysvětlete, co jeho hodnota konkrétně vyjadřuje. yi

1

1

1

2

2

3

3

4

4

5

6

7

7

8

xi

10

9

10

12

13

15

16

16

17

17

19

21

23

26

Přímka popisující závislost x na y: X = 8,104+2,047y Přímka popisující závislost y na x: Y = -3,613+0,467x Interpretace párově sdružených regresních koeficientů: byx=0,467 .... Když se hodnota nezávisle proměnné x zvýší o jednotku, zvýší se hodnota závisle proměnné y v průměru o 0,467. bxy=2,047 .... Když se hodnota nezávisle proměnné y zvýší o jednotku, zvýší se hodnota závisle proměnné x v průměru o 2,047. Celkový F-test: a) závislost y na x

H 0 :  0  c,  1  0 (přímka není vhodná k popisu dané závislosti) H 1 : non H 0

F

ST p  1 SR n  p

W  F ; F  F0 ,95 1;12 

W  F ; F  4,747 72,36446 1 = = 259,224 3,349828 12

F  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že přímka je vhodná k popisu závislosti y na x.

Celkový F-test: a) závislost x na y

H 0 :  0  c,  1  0 (přímka není vhodná k popisu dané závislosti) H 1 : non H 0

F


W  F ; F  F0 ,95 1;12 

W  F ; F  4,747 317,31132 1 = = 259,224 14,688679 12

F  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že přímka je vhodná k popisu závislosti x na y.

Korelační koeficient: ryx   b yx  bxy 

0,467  2,047  0,978

Závislost mezi proměnnými x a y je velmi silná a přímá. 2

2

Koeficient determinace: ryx  rxy  b yx  bxy  0,956 95,6 % z celkové variability závisle proměnné je možné vysvětlit pomocí příslušné regresní přímky.

15) Stanovte rovnici regresní paraboly na základě následujících údajů o proměnných x a y (x je

nezávisle proměnná, y je závisle proměnná). Dále ověřte na hladině významnosti   0,05 vhodnost použití regresní paraboly k vystižení závislosti y na x. Vypočítejte hodnotu indexu determinace a vysvětlete, jakou informaci nám dává tato charakteristika. Odhadněte hodnotu teoretické regresní paraboly pro x = 16.

xi

2

2

3

4

5

5

6

6

7

7

8

9

10

10

11

yi

1

1

1

2

3

5

6

7

7

5

5

4

3

3

2

Y = -4,950+3,023x-0,220x2

Vhodnost použití paraboly – provedeme individuální t-testy a celkový F-test. t-testy:

H 0 :  0  0 (parametr β0 není statisticky významný) H 1 : non H 0

t

b0 sb0 

W  t ; t  t 0 , 025 12   t  t 0,975 12 

W  t ; t  2,179  t  2,179 t = -3,45389

t  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že parametr β0 je statisticky významný (je přínosem pro danou funkci).

H 0 : 1  0 (parametr β1 není statisticky významný) H 1 : non H 0

t

b1 sb1 

W  t ; t  t 0 , 025 12   t  t 0,975 12 

W  t ; t  2,179  t  2,179 t = 6,09217

t  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že parametr β1 je statisticky významný (je přínosem pro danou funkci).

H 0 :  2  0 (parametr β2 není statisticky významný) H 1 : non H 0

t

b2 sb2 

W  t ; t  t 0 , 025 12   t  t 0,975 12 

W  t ; t  2,179  t  2,179 t = -5,75748

t  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že parametr β2 je statisticky významný (je přínosem pro danou funkci). Celkový F-test:

H 0 :  0  c,  1 ,  2  0 (parabola není vhodná k vystižení závislosti y na x) H 1 : non H 0

F


W  F ; F  F0 ,95 2; 12 

W  F ; F  3,885 46,6424 2 = = 19,0495 14,6909 12

F  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že parabola je vhodná k vystižení závislosti y na x. Index determinace: I2=0,760 76 % z celkové variability proměnné y můžeme vysvětlit pomocí dané regresní paraboly. Jestliže x = 16, pak y = -12,902.

16) Změřte lineární závislost proměnné y a proměnné x vhodnou charakteristikou. Dále otestujte na

hladině významnosti α = 0,05 hypotézu o korelační nezávislosti x a y. Výsledky interpretujte!

xi

101

110

110

115

116

120

121

125

130

130

132

134

yi

15

18

19

23

23

27

27

29

31

32

34

38

Míra těsnosti lineární závislosti: koeficient korelace; ryx = 0,985

Test významnosti koeficientu korelace:

H 0 :  yx  0 (proměnné x a y jsou lineárně nezávislé)

H 1 : non H 0

t

ryx  n  2 1  ryx2

W  t ; t  t 0, 025 10   t  t 0 ,975 10 

W  t; t  2,2287  t  2,2287 t = 18,05

t  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že mezi proměnnými x a y existuje lineární závislost. Tato závislost je velmi silná a přímá (dle hodnoty ryx).

17) Posuďte na hladině významnosti 5 % shodu následujících dvou pořadí, případně změřte její sílu.

Výsledky interpretujte!

ix

13

6

10

7

1

4

9

3

11

8

12

2

5

iy

12

8

9

5

2

4

10

3

13

6

11

1

7

Test o nezávislosti pořadovou korelací

H 0 :  S  0 (nezávislost pořadí) H 1 : non H 0

t

rS  n  2 1  rS2

W  t ; t  t 0, 025 11  t  t 0 ,975 11

W  t ; t  2,202  t  2,202 t = 8,326 (rS = 0,929)

t  W , tj. zamítáme H0, přijímáme H1.

Na HV 5 % jsme prokázali, že mezi danými 2 pořadími existuje závislost. Závislost je velmi silná, přímá, tj. pořadí jsou si do značné míry podobná (dle rs).

18) Vyhledejte ve statistických ročenkách či jiných zdrojích údaje o počtu živě narozených v ČR

v letech 1983 – 1993. Dále pak: a) Tato data vyrovnejte vhodnou trendovou funkcí a vysvětlete, proč jste se rozhodli použít danou konkrétní funkci. b) Proveďte extrapolaci na r. 1994 a 1995 a porovnejte se skutečnými hodnotami, příp. vysvětlete vzniklé rozdíly mezi danými údaji. c) Vypočítejte všechny 1. absolutní diference, průměrný absolutní přírůstek počtu živě narozených v daném období a průměrný koeficient růstu a vypočítané hodnoty interpretujte. d) Vypočítejte hodnoty řetězových indexů i1990 / 1989 a i1987 / 1986 a výsledky interpretujte. e) Vypočítejte bazický index i1993 / 1983 , co jeho hodnota udává?

Rok

Počet yt

c)

1983

137431

.

1984

136941

-490

1985

135881

-1060

1986

133356

-2525

1987

130921

-2435

1988

132667

1746

1989

128356

-4311

1990

130564

2208

1991

129354

-1210

1992

121705

-7649

1993

121025

-680

Celkem

1438201

první diference

-16406

a) Podle grafického znázornění v bodovém diagramu usuzujeme, že by k vyrovnání dat o počtu živě narozených v letech 1983 – 1993 mohla být vhodná přímka.

Plot of zive narozeni vs t (X 10000,0) 13,8

zive narozeni

13,5 13,2 12,9 12,6 12,3 12 0

Rovnice trendové přímky:

2

t-testy =0

H 1 : non H 0 t = 104,068

W  t ; t  t 0, 025 9   t  t 0,975 9 

W  t ; t  2,262  t  2,262


:

6 t

= 140057 − 1551,85 .

Ověření vhodnosti přímky:

:

4

=0

H 1 : non H 0 t = -7,82063

W  t ; t  t 0, 025 9   t  t 0,975 9 

W  t ; t  2,262  t  2,262


8

10

12

F-test

H 0 :  0  c,  1  0 (přímka není vhodná vyrovnání daných hodnot) H 1 : non H 0

F


W  F ; F  F0,95 1; 9 

W  F ; F  5,117 F = 61,16

F  W , tj. zamítáme H0, přijímáme H1. Na HV 5 % jsme prokázali, že oba parametry trendové přímky jsou statisticky významné, a že přímka je vhodná k vyrovnání hodnot počtu živě narozených v letech 1983-1993. Hodnota indexu determinace (I2=0,872) je vysoká; 87,2 % z celkové variability počtu živě narozených můžeme vysvětlit pomocí trendové přímky. b)

= 121 434,42 = 119,882,56

Skutečná hodnota v r. 1994 106 579 a v r. 1995 96 097. Předpovědi jsou konstruované na základě prodloužení vybrané trendové funkce, která předpokládá, že jediným ovlivňujícím faktorem daného ukazatele je čas. Ve skutečnosti na počet živě narozených působí mnoho dalších faktorů, které v dané funkci zachyceny nejsou, proto je rozdíl mezi předpovědí a skutečností. c) První diference viz tabulka. Příklady interpretace prvních diferencí – modré hodnoty v tabulce: V roce 1984 klesl počet živě narozených oproti roku 1983 o 490 dětí. V roce Průměrný absolutní přírůstek:  

y n  y1 121025  137431   1640,6 n 1 10

Počet živě narozených se v letech 1983-93 v průměru snížil o 1640,6 dítěte. Průměrný koeficient růstu: k  n 1 k 2  k 3  .....  k n  n 1

y n 10 121025   0,987 y1 137431

Počet živě narozených se v letech 1983-93 v průměru snížil o 1,3 %.

d) i1990 / 1989 

130564  1,017 128356

V roce 1990 vzrostl počet živě narozených oproti roku 1989 o 1,7 %.

i1987 / 1986 

130921  0,982 133356

V roce 1987 poklesl počet živě narozených oproti roku 1986 o 1,8 %. e) i1993 / 1983 

121025  0,881 137431

Počet živě narozených v roce 1993 klesl oproti roku 1983 o 11,9 %.

19) V následující tabulce jsou čtvrtletní údaje o dojivosti krav v tis. litrech v letech 1990 – 1994.

Postihněte pravidelnost sezónního kolísání a proveďte očištění údajů časové řady od tohoto kolísání – stačí uvést očištěné údaje pouze za rok 1993. Model zvolte dle vlastní úvahy. Interpretujte alespoň jeden ze sezónních faktorů. Čtvrtletí Rok I.

II.

III.

IV.

1990

27

42

55

34

1991

25

44

51

33

1992

29

47

55

31

1993

30

50

59

37

1994

30

51

61

37

Podle bodového diagramu (viz níže) by vhodnější pro popis sezónní složky byl model konstantní sezónnosti. Pro představu o použití obou modelů si zde ukážeme oba – model konstantní sezónnosti i model proporcionální sezónnosti.

Plot of yt vs t

65

yt

55

45

35

25 0

4

8

12 t

Model aditivní (konstantní sezónnosti) Čtvrtletí Data

Q1.90 Q2.90 Q3.90 Q4.90 Q1.91 Q2.91 Q3.91 Q4.91 Q1.92 Q2.92 Q3.92 Q4.92 Q1.93 Q2.93 Q3.93 Q4.93 Q1.94 Q2.94 Q3.94 Q4.94

27,0 42,0 55,0 34,0 25,0 44,0 51,0 33,0 29,0 47,0 55,0 31,0 30,0 50,0 59,0 37,0 30,0 51,0 61,0 37,0

Čtyřčlenné Sezónní Očištěné centrované rozdíly hodnoty klouzavé průměry (trendová složka) · · 40,0703 · · 35,8516 39,25 15,75 40,7266 39,25 -5,25 41,3516 39,0 -14,0 38,0703 38,375 5,625 37,8516 38,75 12,25 36,7266 39,625 -6,625 40,3516 40,5 -11,5 42,0703 40,75 6,25 40,8516 40,625 14,375 40,7266 41,125 -10,125 38,3516 42,0 -12,0 43,0703 43,25 6,75 43,8516 44,0 15,0 44,7266 44,125 -7,125 44,3516 44,5 -14,5 43,0703 44,75 6,25 44,8516 · · 46,7266 · · 44,3516

Čtvrtletí Průměrný sezónní rozdíl 1 -13,0 2 6,21875 3 14,34375 4 -7,28125 Součet 0,28125

Rozdílový sezónní faktor -13,0703 6,14844 14,2734 -7,35156 0

16

20

Postup: 1. Danou časovou řadu (ČŘ) vyrovnáme vhodným typem klouzavých průměrů. Jde o ČŘ periodickou, proto je rozsah klouzavé části období interpolace určen podle délky dané periody. Zde jde o ČŘ čtvrtletních údajů, proto je m = 4 (p = 2, tj. 2 hodnoty na začátku a 2 hodnoty na konci ČŘ zůstanou nevyrovnány). 2. Vypočteme hodnoty sezónních rozdílů, tj. od původních hodnot ČŘ odečteme hodnoty vyrovnané, tj. hodnoty klouzavých průměrů (sloupec 3) – viz sloupec 4. ve větší tabulce. 3. Vypočítáme průměrný sezónní rozdíl pro každé čtvrtletí a zapíšeme do menší tabulky. Např. průměrný sezónní rozdíl pro I. čtvrtletí: (-14-11,5-12-14,5)/4=-13. 4. Zkontrolujeme, zda průměrné sezónní rozdíly splňují podmínku vidět, že

b

j

b

j

 0 . Z menší tabulky je

 0,28125 , tj. hodnota součtu je větší než 0, proto musíme dané průměrné

sezónní rozdíly normovat. Hodnotu 0,28125 vydělíme 4 (4 sezónní rozdíly) a dostaneme 0,070313. O tuto hodnotu zmenšíme hodnotu každého z průměrných sezónních rozdílů, aby jejich součet byl nulový – viz poslední sloupec malé tabulky. 5. Když jsme vyčíslili velikost sezónních výkyvů, můžeme ČŘ očistit od těchto sez. výkyvů. V aditivním modelu to znamená, že od původních hodnot ČŘ odečteme hodnoty příslušných rozdílových sez. faktorů. Tj. např. 27-(-13,0703)=40,0703. Dále pak 42-6,14844=35,85156 (ve výsledcích vše zaokrouhleno na 4 desetinná místa, tedy 35,8516). 6. Interpretace rozdílových sez. faktorů (červeně podbarvené hodnoty): V I. čtvrtletí se dojivost krav pohybuje v průměru 13,0703 tis. litrů pod dlouhodobým normálem. Ve III. čtvrtletí se dojivost pohybuje v průměru 14,2734 tis. litrů nad dlouhodobým normálem.

Model multiplikativní (proporcionální sezónnosti) Čtvrtletí Data

Q1.90 Q2.90 Q3.90

27,0 42,0 55,0

Q4.90

34,0

Q1.91

25,0

Q2.91

44,0

Q3.91

51,0

Q4.91

33,0

Q1.92

29,0

Q2.92

47,0

Q3.92

55,0

Q4.92

31,0

Q1.93

30,0

Q2.93

50,0

Q3.93

59,0

Q4.93

37,0

Q1.94

30,0

Q2.94

51,0

Q3.94 Q4.94

61,0 37,0

Čtyřčlenné Sezónní Očištěné centrované indexy hodnoty klouzavé průměry (trendová složka) · · 39,4468 · · 36,6582 1,40127 39,25 40,7629

Čtvrtletí Průměrný sezónní index 1 0,6863795 2 1,14892 3 1,35304 4 0,822844

39,25 39,0 38,375 38,75 39,625 40,5 40,75 40,625 41,125 42,0 43,25 44,0 44,125 44,5 44,75 · ·

0,866242 0,641026 1,14658 1,31613 0,832808 0,716049 1,15337 1,35385 0,753799 0,714286 1,15607 1,34091 0,838527 0,674157 1,13966 · ·

41,4356 36,5248 38,4039 37,7983 40,217 42,3688 41,0223 40,7629 37,7796 43,8298 43,6407 43,7275 45,0917 43,8298 44,5136 45,2097 45,0917

Indexní sezónní faktor 0,684466 1,14572 1,34927 0,82055

Postup: 1. Danou časovou řadu (ČŘ) vyrovnáme vhodným typem klouzavých průměrů. Jde o ČŘ periodickou, proto je rozsah klouzavé části období interpolace určen podle délky dané periody. Zde jde o ČŘ čtvrtletních údajů, proto je m = 4 (p = 2, tj. 2 hodnoty na začátku a 2 hodnoty na konci ČŘ zůstanou nevyrovnány).

2. Vypočteme hodnoty sezónních indexů, tj. původní hodnoty ČŘ vydělíme hodnotami vyrovnanými, tj. hodnotami klouzavých průměrů (sloupec 3) – viz sloupec 4. ve větší tabulce. 3. Vypočítáme průměrný sezónní index pro každé čtvrtletí a zapíšeme do menší tabulky. Např. průměrný sezónní index pro I. čtvrtletí:(0,641026+0,716049+0,714286+0,674157)/4=0,6863795. 4. Zkontrolujeme, zda průměrné sezónní indexy splňují podmínku tabulky je vidět, že

I

j

I

j

 r , tj.

I

j

 4 . Z menší

 4,0111835 , tj. hodnota součtu je větší než 4, proto musíme dané

průměrné sezónní indexy normovat. Tj. 4/4,0111835 = 0,9972119. Hodnotou 0,9972119 vynásobíme každý z průměrných sez. indexů. Nyní už je součet všech průměrných sez. indexů roven 4. – viz poslední sloupec malé tabulky. 5. Když jsme vyčíslili velikost sezónních výkyvů, můžeme ČŘ očistit od těchto sez. výkyvů. V multiplikativním modelu to znamená, že původní hodnoty ČŘ vydělíme hodnotami příslušných indexních sez. faktorů. Tj. např. 27/0,684466=39,4468 (zaokrouhleno na 4 desetinná místa). Dále pak 42/1,14572=36,6582 atd. 6. Interpretace indexních sez. faktorů (červeně podbarvené hodnoty): V I. čtvrtletí se dojivost krav pohybuje v průměru 31,6 % pod dlouhodobým normálem. Ve III. čtvrtletí se dojivost pohybuje v průměru 34,9 % nad dlouhodobým normálem.

20) V následující tabulce jsou údaje o počtu dokončených bytů v ČR v letech 2007-2013.

Charakterizujte úroveň hodnot daného ukazatele pomocí vhodné charakteristiky. Rok

2007

2008

2009

2010

2011

2012

2013

Počet dokončených bytů v ČR

41 649

38 380

38 473

36 442

28 630

29 467

25 246

Jedná se o intervalového ukazatele, součet jeho hodnot má smysl, proto můžeme charakterizovat úroveň jeho hodnot pomocí aritmetického průměru. =

∑

=

238287 = 34041 7

V letech 2007-2013 bylo v ČR dokončeno v průměru 34 041 bytů ročně.

21) V následující tabulce najdete údaje o počtu příjemců starobního důchodu v ČR v letech 2006-

2012. Vypočítejte průměrný počet příjemců starobního důchodu ve sledovaných letech. Rok Počet příjemců starob. důchodu

2006

2007

2008

2009

2010

2011

2012

1 420 019

1 448 544

1 484 535

1 533 012

1 647 534

1 725 392

1 726 523

Jedná se o okamžikového ukazatele (součet jeho hodnot nemá smysl), proto k výpočtu průměrného počtu příjemců použijeme chronologický průměr. Použijeme tvar prostý, neboť vzdálenosti mezi jednotlivými časovými okamžiky jsou stejné:

y1  y 2 y 2  y 3 y  yn y1 y   .....  n 1  y 2    y n 1  n 2 2 2 2  y  2 n 1 n 1

1420019 1726523  1448544  1484535  1533012  1647534  1725392  9412288 2 2    1568715 7 1 6 Průměrný počet příjemců starobního důchodu v letech 2006-2012 byl 1 568 715.

22) V následující tabulce je uveden počet registrovaných subjektů v RES – cestovní ruch v letech

2000-2012. Vypočítejte průměrný počet registrovaných subjektů ve sledovaném období. Rok

Počet registr. subjektů v RES – cest. ruch

2000

9182

2005

10785

2006

11086

2009

11473

2011

11682

2012

11820

Jedná se o hodnoty okamžikového ukazatele (součet jeho hodnot nemá smysl), proto k výpočtu průměrného počtu příjemců použijeme chronologický průměr. Použijeme tvar vážený, neboť vzdálenosti mezi jednotlivými časovými okamžiky nejsou stejné:

y1  y 2 y  y3 y  yn  d1  2  d 2  .......  n 1  d n 1 2 2 2 y  d 1  d 2  .......  d n 1

n 1

y d i

i

i 1 n 1

d

i

i 1

Rok

Počet registr. subjektů v RES – cest. ruch

2000

9182

2005

10785

2006

11086

10935,5

1

10935,5

2009

11473

11279,5

3

33838,5

2011

11682

11577,5

2

23155

2012

11820

11751

1

11751

x

x

9983,5

Součet

5

49917,5

12 129597,5

Poznámka: Nepovedlo se mi přesvědčit danou tabulku, aby hodnoty ve třetím až pátém sloupci byly cca uprostřed mezi hodnotami yt tak, jak je to u prvního řádku. :-( n 1

y d i

y

i 1 n 1

d

i



129597,5  10799,791 12

i

i 1

Průměrný počet registrovaných subjektů v RES – cestovní ruch v letech 2000-2012 byl téměř 10 800.

Vzory seminárních prací ze Statistiky II

Recommend Documents