České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611
Semestrální práce ze Statistiky (SIS)
Petr Procházka, Jakub Feninec Skupina: 2 97 Akademický rok: 2012/2013
Úvod V naší semestrální prací jsme se zabývali cestováním v MHD zejména pak v metru. Zkoumali jsme výběrové jevy, u kterých jsme schopni pomocí statistických metod spočítat různé statistické ukazatele a z těchto výsledků odhadnout a vyslovit různá tvrzení s určitou pravděpodobností. O tom také statistika je. Sběr dat probíhal ručně v metru, kde jsme rozdávali cestujícím dotazníky s otázkami a po vyplnění jimi je opět sbírali. Uvádíme pro informaci všech sedm dotazovaných otázek: ! ! 1)Jak často používáte MHD ! ! ! -každý den -3 krát týdně -několikrát do měsíce -turista 2)Jste spokojen s kvalitou MHD v Praze -není ji co vytknout -jsem celkem spokojený -nejsem spokojený(důvod) 3)Jaký cestovní průkaz používáte -roční -čtvrtletní -týdenní -denní -90 minut -žádný 4)Kolikrát do měsíce vidíte revizory při práci -číslo 5)Kolikrát do měsíce jste revizory zkontolován/a -číslo 6)Odhadněte délku trvání cesty k nebližší zastávce MHD -číslo 7) Doba trvání cesty do práce/školy -číslo Celkem se nám podařilo získat data od 79 lidí. Pro opravdový statistický průzkum by asi bylo lepší aby sběr dat proběhl ve větším objemu. Dále uvádíme vyhodnocení dat.
a)
b)
c)
d)
e)
celkem
1)Jak často používáte MHD 3x týdně několikrát do
každý den
turista
měsíce
55
9
8
7
79
2)Jste spokojen s kvalitou MHD v Praze není jí co vytknout
jsem celkem nejsem spokojený spokojený 6
61
12
79
3)Jaký cestovní průkaz používáte roční nebo čtvrtletní
týdenní 49
denní 1
90-ti minutový 7
žádný 8
14
79
10
79
4)Kolikrát do měsíce vidíte revizory při práci 0*
1-2* 15
3-5* 24
6-8* 21
časteji 9
5)Kolikrát do měsíce jste revizory zkontolován/a 0*
1-2* 38
3-5* 34
6-8* 6
časteji 0
0 1
79
6)Odhadněte délku trvání cesty k nebližší zastávce MHD 1-2 min
3-4 min 30
5-7 min 10
8-10 min 23
déle 7
0 9
79
7) Doba trvání cesty do práce/školy 0-20 min
21-40 min 21
41-60 min 24
1h-1h20min déle 25
6
0 3
79
Test nezávislosti č.1 Jev č. 1 Odpovědi: Jev č. 2 Odpovědi:
Jak často využíváte MHD? Každý den 3* do týdne Několikrát za měsíc Kolikrát do měsíce zpozorujete revizory při práci? 0x-4x 4x-vícekrát
Slovní hypotéza: Člověk, který využívá MHD denně má více možností zahlédnout revizora než člověk, který používá MHD pouze zřídka. Tudíž by tyto dva jevy měli být závislé Testujeme na hladině významnosti α= 5% Výpočet stupňů volnosti:
0-4x 4x-vícekrát
Každý den 23 22
3* do týdne 4 4
Někol. za měsíc 5 3
Marginální čet. 32 29
∑
45
8
8
61
Hodnoty získané vyhodnocením ankety: Očekávané četnosti: Každý den 0-4x 23,61 4x-vícekrát 21,39
3* do týdne 4,2 3,8
Testové kritérium:
Porovnání Testového kritéria s hodnotou z tabulky: Tabulková hodnota pro α= 5%:
Někol. za měsíc 4,2 3,8
Porovnáním testového kritéria ke kterému jsme došli výpočtem a testového kritéria které jste odečetli z tabulky pro hladinu významnosti α =5% jsme dospěli k jasnému závěru. Hypotézu o nezávislosti zkoumaných jevů musíme na hladině významnosti 5% zamítnout a tudíž jsou jevy závislé.
Test nezávislosti č.2 Jev č. 1 Odpovědi: Jev č. 2 Odpovědi:
Kolikrát do měsíce zpozorujete revizory při práci? 0x-2x 3x-5x 6x-častěji Jak dlouho vám trvá každodenní cesta do za povinnostmi? 0-40min 41min – více
Slovní hypotéza: Člověk, který stráví v MHD každý den více času zpozorovat revizory, tudíž by tyto jevy měly být na sobě závislé ale v opačném pořadí, tudíž při našem zadání by se měli jevit jako protichůdné a tudíž nezávislé. Testujeme na hladině významnosti α= 5% Výpočet stupňů volnosti:
0-40min 41 min - více
0x-2x 20 10
3x-5x 10 6
6x-častěji 4 12
Marginální čet. 34 28
∑
30
16
16
62
Hodnoty získané vyhodnocením ankety: Očekávané četnosti: 0-4x 4x-vícekrát Testové kritérium:
Každý den 16,45 13,55
3* do týdne 8,77 7,23
Někol. za měsíc 8,77 7,23
Porovnání Testového kritéria s hodnotou z tabulky: Tabulková hodnota pro α= 5%:
Porovnáním testového kritéria ke kterému jsme došli výpočtem a testového kritéria které jste odečetli z tabulky pro hladinu významnosti α =5% jsme dospěli k závěru že Jevy jsou na hladině významnosti 5% nezávislé Hypotézu o nezávislosti zkoumaných jevů musíme na hladině významnosti 5% zamítnout a tudíž jsou jevy závislé. Dalším úkolem, který jsme si zadali při plánování našeho výzkumu bylo odhadnout, zda se nám vyplatí jezdit bez jízdního dokladu a platit pokuty a nebo zda je výhodnější jezdit s platným jízdním dokladem. Prvním krokem z výpočtu bylo zpočítání, kolik jízd člověk učiní za jeden den, tudíž jsme použili následující tabulku z měření:
Otázka: Jak často používáte MHD? Každý den 55
3x do týdne 9
Někol. do měs. 8
Jsem turista 7
∑ 79
Ze slovního zadání našich otázek jsme si určili koeficient pro počet jízd za den pro každou odpověď: Každý den 2 jízdy denně 3x do týdne 1 jízda denně Někol. do měs.0,33 jízd denně Turista 0,1 jízd denně Následujícím výpočtem jsme zjistili průměrný počet jízd za den na průměrného cestujícího:
Dalším postupen našeho výpočtu bylo odhadnout jaká je pravděpodobnost že bude člověk zkontrolován revizory, k tomu jsme použili odpovědi k následující otázce: Kolikrát do měsíce jste revizory zkontrolován/a
0x 38
1-2x 34
3-5x 6
6-8x 0
Častěji 1
K odpovědím jsme použili následující koeficienty: 0x 0 1-2x 1,5 3-5x 4 6-8x 7 Častěji 10 Výpočtem jsme určili průměrné počet kontrol na jedince na den, (dělení 30-ti znamená že hodnoty uvedené tazateli jsou ztahovány k jednomu měsíci).
Vydělením našich dvou zpočtených hodnot pro počet jízd a počet kontrol na den získáme hodnotu, která nám ukazuje, kolikrát denně je průměrný člověk zkontrolován.
Převrácenou hodnotou této hodnoty je počet jízd, po kolika nás v průměru jednou zkontroluje revizor.
Z tohoto čísla můžeme usoudit že při koupi jedné devadesáti-minutové jízdenky na každou jízdu zaplatíme na jízdenkách 1381,72Kč ale cena jedné průměrné pokuty je podle DPP pouze 500 Kč, z toho lze usoudit, že by se nám mělo vyplatit nekupovat si jízdenku ale platit pouze pokuty. Při těchto podmínkách nám vyšel zcela jasný výsledek, ale už jenom při změně postoje cestujícího, a jeho nákupu měsíční jízdenky místo 90-minutové se nám náklady na obě možnosti prakticky rovnají.
Intervalové odhad č.1 Pokusíme se pomocí statistiky spočítat jaký bude intervalový odhad rozptylu a směrodatné odchylky pro dobu trvání cesty k nejbližší zastávce MHD. Podle vypočítaných hodnot intervalů můžeme vyslovit určitá tvrzení o naměřených hodnotách. -pro náš výpočet použijeme pravděpodobností rozdělení chí kvadrát platí následující
1 n ⋅ (xi − µ )2 .........χ 2 (n) 2 ∑ δ i n
n ⋅ δ2
∑ (x − µ ) i
i
n
2
........χ 2 (n)
n 2 ⋅ s0 ........χ 2 (n) 2 δ -90% z
χ
2 0,05
δ 2 bude v intervalu
n ⋅ s02 2 (n) < 2 < χ 0,95 (n) δ
δ2 1 > > 2 2 χ 0,05 (n) n ⋅ s02 χ 0,95 (n) 1
n ⋅ s02 n ⋅ s02 2 <δ < 2 2 χ 0,95 (n) χ 0,05 (n) -protože počítáme z výběrového souboru použijeme rozptyl pro výběrový soubor
(n − 1)⋅ s 2 (n − 1)⋅ s 2 2 <δ < 2 2 χ 0,95 (n − 1) χ 0,05 (n − 1) -spočítali jsme si průměr doby trvání k nejbližší zastávce MHD z dat, která jsme získali Bodový odhad
X = 6, 41min
-rozptyl 79
∑ (X
i
− X)2 / (n − 1) = 66, 36
i=1
-směrodatná odchylka s = 8,15 -dále dosadíme do vzorce pro interval
(n − 1)⋅ s 2 (n − 1)⋅ s 2 2 <δ < 2 2 χ 0,95 (n − 1) χ 0,05 (n − 1)
χ 0,952 (78) = 99,617 2 χ 0,05 (78) = 58,654
78 ⋅ 66, 35 78 ⋅ 66, 35 <δ2 < 99,617 58,654 -na 90% bude rozptyl z intervalu
51,95;88,23 -dále ještě spočítáme odhad pro směrodatnou odchylku
78 ⋅ 8,15 78 ⋅ 8,15 <δ < 99,617 58,654 -na 90% bude směrodatná odchylka z intervalu
7,21;9, 41 Můžeme si všimnout, že směrodatná odchylka a intervalový odhad nám vyšli vzhledem k naměřeným hodnotám poměrně velká čísla. Na základě tohoto výsledku bychom mohli předpokládat, že mezi jednotlivými získanými daty jsou poměrně velké odlišnosti. Což nám v porovnání s reálnými daty souhlasí.
Intervalový odhad č.2 V tomto případě se budeme snažit spočítat intervalový odhad rozptylu a směrodatné odchylky doby trvání cesty do práce/školy. Opět využijeme chí kvadrát a odvozený vzorec pro výpočet intervalu daného ukazatele. Bodový odhad
X = 39,18 min -rozptyl 79
∑ (X − X)
2
i
/ (n − 1) = 654,02
i=1
-směrodatná odchylka s = 25,57
(n − 1)⋅ s 2 (n − 1)⋅ s 2 2 <δ < 2 2 χ 0,95 (n − 1) χ 0,05 (n − 1)
χ 0,952 (78) = 99,617 2 χ 0,05 (78) = 58,654
78 ⋅ 654,02 78 ⋅ 654,02 <δ2 < 99,617 58,654 -na 90% bude rozptyl z intervalu
505,05;869, 74 -odhad pro směrodatnou odchylku
78 ⋅ 25,57 <δ < 99,617
78 ⋅ 25,57 58,654
-na 90% bude směrodatná odchylka v intervalu
22,63;29, 49 Zde máme rozptyl i odchylku v širším intervalu než v odhadu č.1. Tyto hodnoty tedy odpovídají větším odlišnostem mezi daty, což potvrzují i data naměřená.
Spokojenost v MHD v Praze 7,59% dotazovaných lidí si myslí že MHD v Praze není co vytknout 77,22% dotazovaných lidí jsou s MHD v Praze celkem spokojení často 15,19% dotazovaných lidí nejsouJak spokojení s MHDpoužíváte v Praze
MHD?
Grafická příloha
Jak často používáte MHD?
Každý den 3* týdně Několikrát měsíčně Jsem turista
Každý den 3* týdně Několikrát měsíčně Jsem turista
Jste spokojeni s kvalitou MHD? Jste spokojeni s kvalitou MHD? Není co vytknout Jsem celkem spokojený Nejsem spokojený Není co vytknout Jsem celkem spokojený Nejsem spokojený
Jaký cestovní průkaz používáte? Roční nebo Jaký cestovní průkaz
čtvrtletní Týdenní používáte? Denní 90-minutový Roční nebo Žádný čtvrtletní Týdenní Denní Roční nebo čtvrtletní90-minutový TýdenníŽádný Denní 90-minutový Žádný
Kolikrát do měsíce vidíte revizory? Kolikrát do měsíce vidíte revizory? Kolikrát do měsíce vidíte revizory?
0* 1-2* 3-5* 6-8* časteji
0* 1-2* 3-5* 6-8* časteji 0* 1-2* 3-5* 6-8* časteji
Doba trvání cesty k nejbližší zastávce? Doba trvání cesty k nejbližší zastávce? Doba trvání cesty k nejbližší zastávce? 1-2 min 3-4 min 5-7 min 8-10 min 1-2 min déle 3-4 min 1-2 min5-7 min 3-4 min8-10 min 5-7 mindéle 8-10 min déle
Doba trvání cesty do práce/školy?
0-20 min 21-40 min 41-60 min 1h-1h20min déle
Závěr Abych tak shrnul naší semestrální práci, musím říct, že jsme se snažili upřednostnit kvalitu před kvantitou. Snažili jsme použít různé statistické ukazatele Sběr dat probíhal ručně, proto jsme se dotazovali pouze na 7 otázek.