Mendelova univerzita v Brně
Statistika – projekt
Vypracoval: Marek Hučík
Obsah 1.
Úvod ................................................................................................................................................ 3
2.
Skupinové třídění............................................................................................................................. 3 o
Data: ............................................................................................................................................ 3
o
Počet hodnot: .............................................................................................................................. 3
o
Variační rozpětí: .......................................................................................................................... 3
o
Počet tříd: .................................................................................................................................... 4
o
Šířka intervalu:............................................................................................................................. 4
o
Rozdělení hodnot do intervalů: ................................................................................................... 4
o
Středy intervalů a četnosti: ......................................................................................................... 4
3.
Charakteristika polohy..................................................................................................................... 5 o
Modus:......................................................................................................................................... 5
o
Kvartily: ........................................................................................................................................ 6
o
Aritmetický průměr ..................................................................................................................... 7
4.
Charakteristika variability ................................................................................................................ 8 o
Průměrná odchylka od mediánu: ................................................................................................ 8
o
Průměrná absolutní odchylka od průměru: ................................................................................ 9
o
Rozptyl: ........................................................................................................................................ 9
o
Směrodatná odchylka: ................................................................................................................. 9
o
Variační koeficient: .................................................................................................................... 10
5.
Intervalový odhad.......................................................................................................................... 10
6.
Test normality................................................................................................................................ 11
7.
o
2 - test dobré shody............................................................................................................... 11
o
Kritický obor: ............................................................................................................................. 12 Zdroj hodnot .................................................................................................................................. 12
1. Úvod V projektu zkoumáme statistiku ceny benzínu za posledních 9 let, přesněji zkoumáme v jakém intervalu se cena benzínu pohybovala nejčastěji. Data (ceny benzínu) jsou získány od společnosti CCS, která tyto údaje zveřejnila na stránkách finance.cz(viz zdroje). Tyto data jsou pro zjednodušení v rámci jednoho měsíce zprůměrována.
2. Skupinové třídění o
Data:
NATURAL 1 2 3 4 5 6 7 8 9 10 11 12
2002 23,74 23,43 23,57 25,08 25,05 24,61 24,26 24,14 24,95 25,13 24,88 24,64
2003 25,05 25,33 25,97 25,41 24,64 24,02 23,88 24,31 24,69 24,32 24,15 23,93
2004 24,89 24,8 25,47 26 27,23 27,54 27,21 27,21 27,07 27,73 26,98 25,39
2005 24,65 24,68 25,24 27,38 27,82 28,4 29,4 29,78 32,89 32,38 30,39 28,59
2006 28,32 28,4 28,36 30,14 31,06 31,12 31,78 31,87 30,65 28,92 28,2 27,78
2007 26,94 26,3 27,26 28,59 29,9 30,38 30,58 30,4 30,09 29,96 30,69 30,76
2008 30,8 30,39 30,5 30,47 31,87 32,64 32,43 31,36 31,02 29,54 26,25 23,59
2009 23,14 24,67 25,21 25,84 26,74 28,45 28,5 28,65 28,25 27,47 28,39 28,19
2010 30,08 30,41 31,1 31,77 32,2 32,33 32,26 31,62 31,27 31,23 31,32 32,71
2011 33,16 33,2 34,05 34,78 35,06 34,77 34,73 34,64 34,77 34,78 34,83 34,86
(Tabulka č.1: Ceny jsou v Kč)
o Počet hodnot: Počet hodnot zjistíme z výše uvedené tabulky. Jedná se o počet hodnot, se kterými budeme dále pracovat. N = 12 * (2011-2001) = 120
o Variační rozpětí: Jedná se o rozdíl mezi nejvyšší a nejnižší hodnotou v souboru dat. Cena benzínu ve sledovaném období se tedy bude lišit maximálně o tuto hodnotu. R = 35,06 - 23,14 = 11,92
o Počet tříd: Počet tříd zjistíme pomocí odmocnění počtu hodnot a následném zaokrouhlení výsledku. Číslo nám udává, do kolika intervalů se budou získané hodnoty rozdělovat. Toto číslo můžeme zvolit i dle svého uvážení. k=√
≐
o Šířka intervalu: Jde o číslo, které udává rozpětí hodnot v intervalu. Rozdíl mezi minimální a maximální možnou hodnotou v daném intervalu bude tedy právě takový. Hodnota se vypočítá logicky jako podíl celkového rozpětí hodnot a počtu tříd, do kterých budeme hodnoty rozdělovat. Stejně jako v předchozím případě můžeme šířku intervalu zvolit „od oka“. ≐
o Rozdělení hodnot do intervalů: Máme vše potřebné pro rozdělení hodnot do intervalů, můžeme vytvořit tabulku s hodnotami rozdělenými do intervalů. Mezní hodnotu z prvního intervalu vytvoříme přičtením šířky intervalu k minimální hodnotě ze souboru hodnot. Cena benzínu(v Kč) <- ∞ ; 24,24 > ( 24,24 ; 25,34 > ( 25,34 ; 26,44 > ( 26,44 ; 27,54 > ( 27,54 ; 28,64 > ( 28,64 ; 29,74 > ( 29,74 ; 30,84 > ( 30,84 ; 31,94 > ( 31,94 ; 33,04 > ( 33,04 ; 34,14 > ( 34,14 ; ∞) Celkem:
Počet hodnot 10 21 8 11 15 4 18 13 8 3 9 120
(Tabulka č.2: Nejčastěji se za posledních 10 let pohybovala cena benzínu v rozmezí 24,24 – 25,34 Kč.)
o Středy intervalů a četnosti: Pro zlepšení přehlednosti hodnot vypočítáme středy intervalů a četnosti hodnot. Kumulativní četnost: Součet všech hodnot od počátku po námi pozorovaný interval. Poslední interval musí mít hodnotu rovnu počtu hodnot z rozsahu hodnot.
Relativní četnost: Vypočítá se jako podíl počtu hodnot v intervalu a celkového počtu hodnot. Určuje relativní podíl intervalu na celkovém množství. Kumulativní relativní četnost: Stejná jako kumulativní četnost, jen s tím rozdílem, že tentokráte kumulujeme relativní četnosti. Říká, s jakou pravděpodobností bude náhodně vybraná hodnota z oboru hodnot patřit do sledovaného nebo do jednoho z nižších intervalů. U posledního intervalu musí vyjít číslo 1.
Intervaly: < 24,24 24,25 25,34 25,35 26,44 26,45 27,54 27,55 28,64 28,65 29,74 29,75 30,84 30,85 31,94 31,95 33,04 33,05 34,14 34,15 > Celkem: (Tabulka č.3)
Středy int. 23,69 24,79 25,89 26,99 28,09 29,19 30,29 31,39 32,49 33,59 34,69
Počet hodnot 10 21 8 11 15 4 18 13 8 3 9 120
Kumulativní Relativní Kumulativní abs.četnost četnost rel.četnost 10 31 39 50 65 69 87 100 108 111 120
0,08 0,18 0,07 0,09 0,13 0,03 0,15 0,11 0,07 0,03 0,08 1,00
0,08 0,26 0,33 0,42 0,54 0,58 0,73 0,83 0,90 0,93 1,00
3. Charakteristika polohy
o Modus: Modus udává nejčastější hodnotu v oboru hodnot. U prostého řazení je zjištění hodnoty jednoduché – pouze zjistíme, která hodnota se v souboru hodnot vyskytuje nejčastěji. U skupinového třídění, kde jsou konkrétní hodnoty tříděny do intervalů, musíme použít následující vzorec, který nám udá přibližnou hodnotu nejčastější hodnoty.
xˆ d m
f m f m1 21 10 h 24,24 24,70 2 f m f m1 f m1 2 * 21 10 8
d m - dolní hranice intervalu, ve kterém je zastoupeno nejvíce hodnot
f m - počet hodnotu v nejčastěji zastoupeném intervalu
f m1 - počet hodnot ve vedlejším intervalu od nejčastěji zastoupeného intervalu(ten s nižším intervalem)
f m 1 - počet hodnot ve vedlejším intervalu od nejčastěji zastoupeného intervalu(ten s vyšším intervalem)
h - šířka intervalu
o Kvartily: Kvartily rozdělují soubor hodnot na čtyři části(dle poměru četností). Jsou jimi horní a dolní kvartil a medián nebo střední hodnota. Kvartily nedělí soubor hodnot dle intervalů nýbrž dle skutečného rozložení hodnot. Z těchto údajů poté můžeme zjistit, jak (ne)rovnoměrné rozložení hodnot na každé straně kvartilu máme. Existují také kvantily u nichž můžeme poměr zvolit sami. Ať už se jedná o kvartily nebo kvantily, oba pracují se seřazeným seznamem hodnot. Obecný vzorec:
x p d ip
p kpip 1 pip
h
x p - označuje kvartil, který chceme vypočítat p
- číslo, které reprezentuje daný kvartil(kvantil)
d ip - dolní hranice intervalu, jehož relativní kumulativní četnost překročí
p
kpip 1 - kumulativní relativní četnost sousedního intervalu od d ip (ten s nižší hodnotou intervalu) pip - relativní četnost intervalu, jehož relativní kumulativní četnost překročí
h - šířka intervalu
p
Dolní kvartil: Je dán pro první čtvrtinu souboru hodnot, tudíž
x0, 25 24,25
p
= 0,25
0,25 0,08 1,1 25,30 0,18
Kvartil říká, že se jedna čtvrtina cen benzínu pohybovala do hodnoty 25,30 Kč. Modus: Modus je kvartil pro polovinu souboru hodnot. Je tedy v půlce hodnot ze souboru hodnot.
x0,5 27,55
0,5 0,42 1,1 28,28 0,13
Kvartil říká, že se polovina cen benzínu pohybovala do hodnoty 28,28 Kč. Horní kvartil: Hodnota, která se nachází ve třech čtvrtinách souboru hodnot.
x0,75 30,85
0,75 0,73 1,1 31,10 0,11
Kvartil říká, že se tři čtvrtiny cen benzínu pohybovaly do hodnoty 31,10 Kč.
o Aritmetický průměr Součtem všech hodnot vydělených jejich počtem získáme průměrnou hodnotu v souboru hodnot(zde průměrnou cenu benzínu za posledních 10 let).
1 n 1 x xi f i * 3433,04 28,61 n i1 120 Průměrná cena benzínu za posledních 10 let je 28,61 Kč.
4. Charakteristika variability Charakteristiky variability určují velikost odchylek náhodné veličiny od dané charakteristiky polohy. Nejčastěji používáme rozptyl, průměrnou absolutní odchylku, směrodatnou odchylku a variační koeficient. Intervaly:
Středy int.
Počet hodnot
Prům.odch. Prům.odch. Rozptyl od mediánu od průměru
< 24,24 23,69 10 45,93 24,25 25,34 24,79 21 73,36 25,35 26,44 25,89 8 19,15 26,45 27,54 26,99 11 14,23 27,55 28,64 28,09 15 2,90 28,65 29,74 29,19 4 3,63 29,75 30,84 30,29 18 36,12 30,85 31,94 31,39 13 40,39 31,95 33,04 32,49 8 33,65 33,05 34,14 33,59 3 15,92 34,15 > 34,69 9 57,66 Celkem: 120 342,93 (Tabulka č.4: Průměrné absolutní odchylky a rozptyl)
49,19 80,19 21,75 17,81 7,78 2,33 30,26 36,16 31,05 14,94 54,73 346,19
241,93 306,23 59,13 28,82 4,04 1,35 50,88 100,57 120,52 74,44 332,84 1320,75
o Průměrná odchylka od mediánu: Značí průměrnou odchylku od prostřední hodnoty, tudíž tato veličina udává jak velké jsou rozdíly mezi jednotlivými hodnotami. k
d
x i 1
i
~ x ni n
342,93 2,86 120
Hodnota 2,86 značí větší rozdíly mezi cenami benzínu.
xi - hodnoty průměrných odchylek od mediánu jednotlivých intervalů ~ x - medián
ni - počet hodnot ve zkoumaném intervalu n - celkový počet hodnot
o
Průměrná absolutní odchylka od průměru: k
d
x i 1
i
x ni n
346,19 2,88 120
Hodnota 2,88 značí, že se ceny benzínu za posledních deset let pohybovali průměrně od 27,73 do 31,49.
xi - hodnoty průměrných odchylek od průměru jednotlivých intervalů x - aritmetický průměr
ni - počet hodnot ve zkoumaném intervalu n - celkový počet hodnot
o Rozptyl: Značí střední hodnotu kvadrátů odchylek od střední hodnoty. k
s2
x i 1
x ni 2
i
n
1320,75 11 120
xi - hodnoty rozptylů jednotlivých intervalů x - aritmetický průměr
ni - počet hodnot ve zkoumaném intervalu n - celkový počet hodnot
o Směrodatná odchylka: Směrodatná odchylka říká, jak moc si jsou jednotlivé hodnoty v souboru hodnot podobné. V případě, že malá, jsou si hodnoty podobné, v případě, že je velká, jsou v hodnotách velké odlišnosti.
s s 2 11 3,32 Odlišnost hodnot není příliš velká.
s 2 - rozptyl
o
Variační koeficient:
V
s 3,32 0,12 x 28,61
Variabilita souboru je 12%, což představuje malou variabilitu.
5. Intervalový odhad Určujeme 95% intervalový odhad pro střední hodnotu, zjistíme tedy interval, ve kterém se střední hodnota bude vyskytovat s 95% pravděpodobností. K výpočtu použijeme již vypočtené hodnoty z předchozích tabulek.
P X u X u 1 1 1 n n 2 2 3,32 3,32 P 28,61 u 0,05 28,61 u0,975 1 0,05 1 120 120 2 P28,02 29,20 0,95 X - Aritmetický průměr u
1
2
- normovaná normální veličina, její hodnotu najdeme v tabulkách
1 - koeficient spolehlivosti
- směrodatná odchylka n - počet hodnot
- střední hodnota Střední hodnota se bude s 95% pravděpodobností vyskytovat v intervalu <28,02;29,20>. Vážený průměr cen benzínu se tedy bude pohybovat v tomto intervalu.
6. Test normality Touto metodou ověřujeme, zda má náhodná veličina určité rozdělení pravděpodobnosti. Pro výpočet nejprve zjistíme pravděpodobnost, že náhodně vybraná veličina bude patřit do daného intervalu(pi) a teoretické četnosti jednotlivých intervalů(npi).
n pi npi
(-∞;24,24> 10 0,097 11,64
<24,24;25,34> <25,34;26,44) <26,44;27,54) <27,54;28,64) <28,64;29,74) 21 8 11 15 4 0,062 0,099 0,124 0,118 0,137 7,44 11,88 14,88 14,16 16,44
n pi npi
<29,74;30,84) <30,84;31,94) (31,94;33,04> <33,04;34,14) <34,15;∞) 18 13 8 3 9 0,105 0,083 0,070 0,040 0,065 12,6 9,96 8,4 4,8 7,8
celkem 120 1 120
pi – pravděpodobnost, že náhodně vybraná veličina bude patřit do daného intervalu vypočítám za pomoci normované normální distribuční funkce. U prvního intervalu používám pouze jednu hodnotu, u posledního zase naopak poslední hodnotu odečítám od 1.
–
– pi násobené celkovým počtem hodnot. Jedná se o teoretickou četnost jednotlivých intervalů.
o
2 - test dobré shody
Pro využití Pearsonova rozdělení je potřeba dodržet podmínku, že teoretické četnosti jednotlivých intervalů budou větší než 5. To se ovšem nepovedlo pro předposlední skupinu, tudíž ji musíme sloučit s poslední.
n pi npi
(-∞;24,24> 10 0,097 11,64
<24,24;25,34> <25,34;26,44) <26,44;27,54) <27,54;28,64) <28,64;29,74) 21 8 11 15 4 0,062 0,099 0,124 0,118 0,137 7,44 11,88 14,88 14,16 16,44
n pi npi
<29,74;30,84) <30,84;31,94) (31,94;33,04> <33,04;34,14) <34,15;∞) 18 13 8 11 0,105 0,083 0,070 0,105 12,6 9,96 8,4 12,6
celkem 120 1 120
Samotný výpočet 2 : Pro výpočet použijeme následující vzorec: k
ni npi 2
i 1
npi
2
k
10 9,37 2
i 1
9,37
k
17 25,1652
i 1
25,165
k
i 1
9,41 2 = (0,23 + 24,71 + 1,27 + 1,01k +80,05 k + 0,93 + 0,022 + 0,20) = 40,14 2 +2,31 2 13,793 13,866 7+,988 7,988 13,793 i 1 i 1 o
Kritický obor:
Pokud veličina má normální rozdělení, nebude veličina 2 patřit do intervalu vypočítaném v následujícím kroku, pokud ano, tvrzení zamítáme a veličina normální rozdělení nemá.
2 2 (9) ; ∞ ) W 02,95 r s 1; = ( 02,0,95 95 6 2 1; ( (3); ) (7,81; )
= <16,92; W ∞) , tudíž 2 patří do intervalu W soubor nemá normální rozdělení. Zapříčinily to především hodnoty z druhého a šestého intervalu, kde se hodnoty teoretické četnosti intervalu značně liší od skutečné četnosti intervalu.
7. Zdroj hodnot http://www.finance.cz/kapitalovy-trh/data/pohonnehmoty/?form1407%5BVyvoj%5D=2&form1407%5Bid_hmoty%5D=0&form1407%5Bid_obdobi%5D=4 &form1407%5Bdo_den%5D=31&form1407%5Bdo_mesic%5D=12&form1407%5Bdo_rok%5D=2011& form1407%5Bod_den%5D=1&form1407%5Bod_mesic%5D=1&form1407%5Bod_rok%5D=2004&for m1407%5Bid_kraje%5D=1&form1407%5Bradit_sestupne%5D=0&form1407%5Bsbm_Zobrazit%5D=Z obrazit&form1407%5Bid_kraje%5D=1#Kotva_
13 12,3
12,34