FD – ČVUT ZS 2012/2013
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ
Jiří Volf, Adam Kratochvíl, Kateřina Žáková 2 34
Statistika Semestrální práce
-0-
FD – ČVUT ZS 2012/2013
1. Úvod Popis úlohy: V této práci se jedná se o porovnání statistických dat od ŘSD s naším průzkumem. Data se vztahují k počtu vozidel (osobních a autobusových) na cestě z Prahy do Brna po dálnici D1. Náš průzkum byl založen na dotazníku, kde jsme se ptali na 2 otázky týkající se tématu. První otázka byla, zda lidé preferují cestování autobusem nebo osobním vozidlem. Druhou otázku jsme zaměřili na finance cestujících. Pro porovnávání jsme zvolili 2 metody. A to metodu Test dobré shody a metodu Test nezávislosti.
2. Data Řádná cesta, podle pravidel silničního provozu, z Prahy do Brna po dálnici D1 trvá: - Osobní vozidla: 2 hodiny - Autobusy: 2,5 hodiny
Statistická data:
průměrný počet osobních vozidel z Prahy do Brna ve všední den po D1 – 13737 (dle ŘSD 2010) počet autobusů, který jede z Prahy přímou linkou do Brna (bez ohledu na to, odkud přijel nebo kam pokračuje), v běžný pracovní den a to úterý – 83 (dle serveru idos.cz) průměrná obsazenost osobních vozidel v ČR – 1,9 osob/voz. průměrná obsazenost autobusů v ČR – 36 osob/voz.
Vypočtené hodnoty z dat od ŘSD pro lepší porovnávání s daty z průzkumu:
Počet cestujících v autobuse: 2 988 osob/den (10,3 %) Počet cestujících v osobním vozidle: 26 100 osob/den (89,7 %) Celkový počet cestujících: 29 088
Data z průzkumu:
celkový počet respondentů: 282
1) Jaký dopravní prostředek preferujete na cestě z Prahy do Brna po dálnici D1 ? respondenti preferující autobus: 168 (59,6 %) respondenti preferující automobil: 114 (40,4 %) 2) Jaký je váš měsíční příjem (v Kč) ? respondenti preferující autobus: 168 příjem ≥ 10 000 Kč: 106 (63,1 %) příjem ≤ 10 000 Kč: 62 (36,9 %)
respondenti preferující automobil: 114 příjem ≥ 10 000 Kč : 44 (38,6 %) příjem ≤ 10 000 Kč: 70 (61,4 %) -1-
FD – ČVUT ZS 2012/2013
3) Teorie 3.1 Test dobré shody Je to metoda matematické statistiky, která umožňuje ověřit, zda má náhodná veličina určité předem dané rozdělení pravděpodobnosti. 1. Obor všech možných hodnot náhodné veličiny se rozdělí na k nepřekrývajících se částí. 2. Pro každou část se stanoví pravděpodobnost , že náhodná veličina nabyde hodnoty z i-té části. 3. Provede se N pokusů a zjistí se, kolikrát z těchto pokusů nabyla náhodná veličina hodnoty z 1., 2., … k-té části. Tyto četnosti se označí . 4. Porovnají se očekávané četnosti v jednotlivých částech ( ) se skutečnými četnostmi ( ) pomocí vzorce:
Pokud má testovaná náhodná veličina předpokládané rozdělení, má náhodná veličina přibližně rozdělení chí kvadrát. Jestliže bylo rozdělení dáno včetně všech parametrů, je počet stupňů volnosti k-1; jestliže byl některý parametr rozdělení neznámý, snižuje se počet stupňů volnosti za každý neznámý parametr (bylo jej nutno nejprve z dat odhadnout a pak teprve stanovit pravděpodobnosti ). Hodnotu veličiny porovnáme s kritickou hodnotou příslušného rozdělení chí kvadrát na požadované hladině významnosti. Test lze použít za předpokladu, že všechny hodnoty jsou aspoň 5.
-2-
FD – ČVUT ZS 2012/2013
3.2 Test nezávislosti Používá kontingenční tabulku absolutních četností dvou náhodných veličin, jejichž nezávislost testujeme. Podle definice nezávislosti f(x,y) = f(x)f(y) určuje tabulku teoretických (nezávislých) četností takto: -
Tabulku normalizuje na pravděpodobnosti (dělením prvků celkovým součtem prvků), Určí marginální četnosti (součty) v sloupcích i řádcích, Vypočte tabulku nezávislých pravděpodobností (prvek (i, j) je součinem i-té sloupcové a j-té řádkové marginály), Tabulku re-normalizuje na absolutní četnosti (násobením všech prvků celkovým součtem původních prvků). Test je pravostranný a má (nx - 1)(ny - 1) stupňů volnosti.
∑
∑
(
) (1)
Pomocí statistiky (1) se porovnává původní tabulka s tabulkou absolutních četností nezávislých veličin. Statistiku počítáme pro všechny prvky tabulek (srovnáváme obě tabulky do vektorů.) Nulová hypotéza je H0 je „jsou nezávislé“. Test je vždy pravostranný a kritickým oborem
(
)
a p-hodnotou
(
)
P-hodnota (pro pravostranný test) je pravděpodobnost, hodnot statistiky větších než je realizována statistika, za předpokladu platnosti nulové hypotézy. H0 zamítneme, je-li P-hodnota ≤ α a hladinu významnosti si zvolíme α = 0,05.
-3-
FD – ČVUT ZS 2012/2013
4) Zpracování Výpočty byly provedeny za pomoci programu Matlab.
4.1 Test dobré shody H0: Počet cestujících je rovnoměrně rozděleno do automobilů a autobusů. a) data ŘSD: >> x=[2988,26100]
… skutečné data
x= 2988
26100
>> E=282/2
… teoretické četnosti
E= 14544 >> chi_r=sum((x-E).^2./E)
… vztah pro výpočet dobré shody
chi_r = 1.8364e+004 >> k=2 k= 2 >> chi2=chisquare_inv(1-0.05,k-1)
… chví-kvadrát rozdělení
chi2 = 3.8415
→ chi_r > chi2 Závěr: Nulovou hypotézu H0 zamítáme na hladině významnosti 5%. Počet cestujících není rovnoměrně rozdělen do dopravních prostředků
-4-
FD – ČVUT ZS 2012/2013
b) data z průzkumu: >> x=[168,114] … skutečné data x= 168 114 >> E=282/2
… teoretické četnosti
E= 141 >> chi_r=sum((x-E).^2./E)
… vztah pro výpočet dobré shody
chi_r = 10.3404 >> k=2 k= 2 >> chi2=chisquare_inv(1-0.05,k-1)
… chí-kvadrát rozdělení
chi2 = 3.8415
→ chi_r > chi2 Závěr: Nulovou hypotézu H0 zamítáme na hladině významnosti 5%. Počet cestujících není rovnoměrně rozdělen do dopravních prostředků.
-5-
FD – ČVUT ZS 2012/2013
4.2 Test nezávislosti Pro tento test byla použita data z našeho průzkumu. Autobus Osobní automobil
Příjem ≥ 10 000 106 44
Příjem ≤ 10 000 62 70
H0: Výběr dopravního prostředku nezávisí na měsíčním příjmu.
>> A=[106,62;44,70]
… zadání matice
>> n=sum(sum(A))
→n = 282
>> p=sum(A,2)/n
→p = 0.5957
>> Q=sum(A,1)/n
→ Q = 0.5319 0.4681
>> np=p*Q*n
→ np = 89.3617 78.6383 ; 60.6383 53.3617
>> chi_r=sum(sum((A-np).^2./np))
… počet respondentů 0.4043
… sčítání po řádcích … sčítání po sloupcích
→ chi_r = 16.3714
>> p_hodnota=1-chisquare_cdf(chi_r,(2-1)*(2-1))
… chí-kvadrát test … výpočet p-hodnoty
→ p_hodnota = 5,2065*10-5
P-hodnota ≤ 0,05
Závěr: Hypotézu H0 zamítáme na hladině významnosti 5%, nezávislost neplatí. Výběr dopravního prostředku závisí na měsíčním příjmu.
-5-
FD – ČVUT ZS 2012/2013
5) Závěr Pomocí nulových hypotéz jsme si ověřili, že počet respondentů není rovnoměrně rozdělen do dopravních prostředků na hladině významnosti 5% a že způsob dopravní přepravy závisí na měsíčním příjmu na hladině významnosti 5%. V porovnání se statistikami ŘSD můžeme konstatovat, že počet cestujících a počet respondentů je shodně nerovnoměrně rozdělen. Zdali závisí na měsíčním příjmu nelze ze statistik ŘSD určit, ale musíme též podotknout, že naše výsledky jsou zkresleny nerovnoměrným výběrem tázaných osob (převážně studenti). Jinak v reálném provozu je vidět značná převaha osobních vozidel nad autobusovou dopravou, což je zapříčiněno tím, že spousta lidí nemá možnost volby atd.
-6-
FD – ČVUT ZS 2012/2013
Obsah: 1. Úvod …………………………………………………. 2. Data …………………………………………………... 3. Teorie ………………………………………………… 3.1. Test dobré shody 3.2. Test nezávislosti 4. Zpracování …………………………………………… 4.1. Test dobré shody 4.2. Test nezávislosti 5. Závěr ………………………………………………….
-7-
1 1 2
4
6
FD – ČVUT ZS 2012/2013
Literatura: [1] Ivan Nagy, Jitka Kratochvílová: Matematická Statistika – Texty k přednáškám
-8-