ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE – FAKULTA DOPRAVNÍ
STATISTIKA Semestrální práce
Lukáš Sůva, Jakub Culek (2 31) 2012/2013
Úvod Předmětem naší semestrální práce jsme si zvolili průzkum překračování povolené rychlosti motorových vozidel v obci Lomnice nad Popelkou. Cílem zkoumání byl počet motoristů, který nedodržel předepsanou rychlost a v jakém rozmezí se pohybují průměrné rychlosti projíždějících vozidel.
Podmínky měřění Místem měření jsme si určili okrajovou část města Lomnice Popelkou na příjezdové silnici II. třídy č. 286 z Jičína ve směru do centra (Jičínská ulice). Jedná se o nejvýznamnější průtah tímto malým městem s 6000 obyvateli. Hodnoty byly zaznamenávány během dvou měření. První jsme provedli v pátek 23. listopadu po dobu tří hodin 13-16 hod. a druhé v pátek 7. prosince od 14-15 hod. K jejich získání bylo využito v tomto místě nacházejícího se statického informativního radaru. Protože se však při projíždění vozidla hodnota na displeji radaru několikrát zaktualizuje, zaznamenávali jsme hodnotu zobrazenou zhruba při patnáctimetrové vzdálenosti vozidla od radaru.
Těořiě Bodové odhady Metoda maximální věrohodnosti označuje jednu z centrálních metod matematické statistiky. Úlohou matematické statistiky je, zjednodušeně řečeno, odhad neznámých veličin v závislosti na pozorovaných (experimentálních) datech. Metoda maximální věrohodnosti je univerzální metoda pro konstrukci odhadů parametrů. V tomto případě se bude jednat o alternativní rozdělení, které lze napsat ve tvaru: (
)
(
)
Z toho odvození věrohodnostní funkce L: (
)
(
) ( )∑
(
(
)
(
∑
)
(
)
(
)
∑
)
Úkolem je odhadnout hodnotu parametru p a to tak, že věrohodnostní funkci L zderivujeme a položíme rovnu 0. Výsledkem bude parametr p, který odpovídá hodnotě pravděpodobnosti, a po vynásobení 100 získáme hodnotu v %.
Intervalové odhady Metoda maximální věrohodnosti označuje jednu z centrálních metod matematické statistiky. Úlohou matematické statistiky je, zjednodušeně řečeno, odhad neznámých veličin v závislosti na pozorovaných (experimentálních) datech. Metoda maximální věrohodnosti je univerzální metoda pro konstrukci odhadů parametrů. V tomto případě se bude jednat o alternativní rozdělení, které lze napsat ve tvaru: (
)
(
)
Z toho odvození věrohodnostní funkce L: (
)
( (
) ( )∑
(
) )
∑
( (
) )
(
)
∑
Úkolem je odhadnout hodnotu parametru p a to tak, že věrohodnostní funkci L zderivujeme a položíme rovnu 0. Výsledkem bude parametr p, který odpovídá hodnotě pravděpodobnosti, a po vynásobení 100 získáme hodnotu v %.
Testy hypotézy Na základě výběru srovnáváme dvě tvrzení o hodnotě určitého parametru θ rozdělení f (x, θ). První tvrzení (které většinou obsahuje stávající stav věcí) se nazývá nulová hypotéza a značí se H0, druhé tvrzení (které většinou prosazuje, že se věci změnily) je alternativní hypotéza označená HA. Nulová hypotéza něco tvrdí, např. že střední hodnota µ je rovna µ0 a alternativní hypotéza ji odporuje. Tvrzení testujeme na základě testové statistiky, kterou je statistika pro bodový odhad podle H0. Pro parametrické testy lze podstatu testování vyložit v souvislosti s IS následujícím způsobem (pro jednoduchost budeme uvažovat test pro střední hodnotu a se známým rozptylem souboru). Nulová hypotéza říká, že µ=µ0. Jestliže je tato hypotéza pravdivá a kolem bodu µ0 sestrojíme α IS, tam by také s pravděpodobností 1-α měl padnout bodový odhad, pořízený z výběru. Pokud tam padne, hypotézu H0 nezamítáme – řekneme, že data neprokázala její neplatnost. Pokud bodový odhad padne mimo IS, hypotézu H0 zamítneme. Jediný (formální) rozdíl testů intervalů je v tom, že při intervalu používáme nenormovaný tvar statistiky, např. pro středí hodnotu se známým rozptylem je to výběrový průměr Y, zatímco pro test použijeme normovaný výběrový průměr z =( ̅ )
√ Jeho realizaci označíme zr.
Naměřěna data Listopad (3h)
Prosinec (1h)
9 7 12 6 24 12 51 20 29 11 25 9 46 13 32 8 12 3 2 1 96+45=141 146+45=191
Počet vozidel v rozmezí rychlostí
20-30 30-40 40-45 45-50 50-55 55-60 60-70 70-80 80-90 90-100 <=50 >50
51
Počet vozidel
46
50 40 29
30
24
20 10
9
Listopad (3h)
32 25
12
12 2
0
Skupiny rychlostí [km/h]
Počet vozidel v rozmezí rychlostí
Skupiny rychlostí [km/h]
20 18 16 14 12 10 8 6 4 2 0
20
12 7
13 11 9
Prosinec (1h) 8
6 3 1
Skupiny rychlostí [km/h]
Zpřacovaní K výpočtům jsme využili software MatLab.
Bodový odhad parametru p pro dodržení nebo naopak nedodržení rychlosti >> x = [0 1]
%0.. dodržení rychlosti 1..překročení 50
x= 01 >> c = [141 191]
%četnost
c= 141 191 >> syms p n sx >> L = p^sx*(1-p)^(n-sx)
% věrohodnostní funkce
L= p^sx*(1 - p)^(n - sx) >> Lp = diff (L,p)
% derivace funkce
Lp = p^(sx - 1)*sx*(1 - p)^(n - sx) - p^sx*(n - sx)*(1 - p)^(n - sx - 1) >> solve (Lp,p)
% porovnání derivace funkce s 0
ans = 1 0 sx/n >> odhad1 = (c*x')/sum(c)
% pravděpodobnost překročení rychlosti
odhad1 = 0.6033 >> odhad0 = 1-odhad1 odhad0 = 0.3967
% pravděpodobnost dodržení rychlosti
Intervalový odhad rychlosti Z naměřených dat jsme usoudili, že se jedná o studentovo rozdělení. Hladinu významnosti jsme zvolili α=5%. Rozptyl je neznámý.
>> x=[25 25 25 … 35 35 35 … 42.5 42.5 42.5 … 47.5 47.5 47.5 …52.5 52.5 52.5 … 57.5 57.5 57.5 …65 65 65 … 75 75 75 … 85 85 85 … 95 95 95] % naměřená data >> n=length(x) n=
% počet vozidel 301
>> prumer=sum(x)/length(x) prumer = 55.6561
% průměr hodnot
>> s=sqrt(1/(n-1)*sum((x-prumer).^2)) s= 15.5753
% směrodatná odchylka výběru
>> t2=t_inv(1-0.025,n-1) t2 = 1.9679 >> odhad_mi_rychlost=[prumer-t2*s/sqrt(n),prumer+t2*s/sqrt(n)] odhad_mi_rychlost = 53.8895 57.4228
% výpočet intervalu stř. hod. µ
Testy hypotézy Rozhodli jsme se otestovat hypotézu, že předepsaná rychlost 50km/h, (ne)bude zpravidla dodržována v obou měsících stejně. K ověření použijeme dva intervalové odhady, jeden pro zjištění průměrné rychlosti vozidel v listopadu a druhý v prosinci. >> x=[25 25 25 … 35 35 35 … 42.5 42.5 42.5 … 47.5 47.5 47.5 … 52.5 52.5 52.5 … 57.5 57.5 57.5 … 65 65 65 … 75 75 75 … 85 85 85 … 95 …] LISTOPAD >> n=length(x) n=
PROSINEC n=
242 >> prumer=sum(x)/length(x) prumer = 56.3946 >> s2= 1/(n-1)*sum((x-prumer).^2)) s2= 210.7285
90 prumer= 52.6111 s2=
225.9707
>> mi0=50 mi0 =
mi0 = 50
50
>> t_r=(prumer-mi0)/sqrt(s2/n) t_r =
t_r = 6.8527
>> t2=t_inv(1-0.025,n-1) t2 = 1.9699
1.6479 t2 =
1.9870
>> obor_prijeti=[-t2,t2] obor_prijeti = -1.9699 1.9699 >> odhad=[prumer-t2*sqrt(s2/n),prumer+t2* sqrt(s2/n)] odhad = 54.5564 58.2328
obor_prijeti = -1.9870 1.9870 odhad = 49.4627 55.7596
V jednom z případů (listopad) není µ0 prvkem intervalového odhadu, a proto hypotézu zamítáme.
Zavěř V semestrální práci jsme pracovali v programu MatLab, díky kterému jsme po zpracování naměřených dat došli k zajímavým zjištěním. Při bodovém odhadu jsme zjistili, že k porušování předepsané rychlosti dochází v 60,33% a pouze 39,97% motoristů ji dodrží. Otázkou nyní je, zdali by pověřené orgány neměly přistoupit k radikálnějšímu řešení problematiky překračování rychlosti v obci. Intervalový odhad podpořil výsledek bodového odhadu. Průměrná rychlost, kterou motoristé v daném místě projíždění, se pohybuje přibližně v intervalu 54-57 km/h v kterém není obsažena maximální povolená. Při testu hypotéz jsme dospěli k nejspíš nejzajímavějšímu zjištění. Předpokládali jsme, že pokud rychlost není dodržována v jednom ze dvou měření, nebude dodržována ani jindy. Při druhém prosincovém měření se však hodnota µ0 (50km/h) vešla do intervalového odhadu. Možných vysvětlení se nabízí několik. Možností je vyšší opatrnost řidičů způsobená přicházejícím zimním obdobím a nízké teplotě. Dalším vysvětlením může být všeobecná nepřesnost způsobu měření ovlivněná například času zaznamenávání.
Použité zdroje
60,33 %
www.wikipedia.cz NAGY I., KRATOCHVÍLOVÁ J., Matematická statistika – texty k přednáškám
39,67 %