Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
Semestrální projekt do předmětu Statistika
Vypracoval: Adam Mlejnek 2-36
Oponenti: Patrik Novotný 2-36 Jakub Nováček 2-36
w.
A B B Y Y.c
om
Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
Úvod Pro vypracování projektu do předmětu statistika jsem si zvolil průzkum kvality stravování v menzách ČVUT. Data jsem získal pomocí průzkumu, který probíhal jako internetový dotazník s 8 otázkami se zaměřením na kvalitu v menzách. Zvolil jsem si jednu z otázek, kterou jsem podrobil statistickým výpočtům. Tuto úlohu vypracovávám sám, jelikož kolega, který měl s semnou spolupracovat ukončil studium.
Návštěvnost jednotlivých menz
Graf 1: na svislé ose menzy, na vodorovné ose počet studentů Z grafu vyplívá, že studenti ČVUT preferují nejvíce Studentský dům, který se nachází v Dejvicích. Jeto zapříčiněno umístěním nejvíce fakult CVUT právě v Dejvicích.
Intervalové rozdělení do dat do tabulky četností Variační rozpětí:
=
−
= 48 − 4 = 44
V datech si vyhledám maximum a minimum. Vypočtu variační rozpětí jako rozdíl maximální a minimální hodnoty. Výsledek nám řekne, že menza s největší návštěvností má o 44 studentů více než menza s nejmenším počtem.
Počet tříd:
= √ = √7 = 2,645 ≐ 3
Vypočítám jako druhou odmocninu od celkového počtu dat v souboru. Tohle číslo mi udává jaký je nejvhodnější počet intervalu pro roztřídění dat. V mém případě 3
w.
A B B Y Y.c
om
Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
Šířka třídy:
h=
=
44 = 14,66 ≐ 14 3
Ukazuje velikost intervalu jedné třídy. Tahle velikost by měla být ve všech intervalech stejná. Veličina
vzorec
výsledek
Počet hodnot Variační rozpětí Počet tříd
4 =
Šířka tříd
−
= √
h=
44 3 14
Tabulka 1: Tabulka s výpočty variačního rozpětí, počtu tříd a šířky tříd
Řada 1 5 4 3 Řada 1
2 1 0 méně než 14)
<14,28)
<28 a v9ce
Graf 2: histogram rozdělení absolutní četnosti počtu studentů v menzách Nejprve si rozdělím data do intervalů podle jejich četností. Absolutní četnost ( ) mi říká počet menz, které spadají do určitého intervalu s počtem studentů. Interval <28 a více má největší absolutní četnost a situaci ostatních intervalů jsem zachytil v histogramu (Graf 2). Vypočtu si středy tříd a to jako střední hodnotu intervalů ( ) a dále relativní četnost ta mi udává podíl absolutní četnosti na celkovém počtu hodnot (pi). Součtová absolutní četnost (kfi) i součtová relativní četnost (kpi) se počítají stejně, sečtou se všechny předcházející hodnoty u dané četnosti. Úhrn znamená průměrnou hodnotu kolem, které veličina kolísá. Vypočtu ho velice jednoduše, vynásobím střed třídy a absolutní četnost. Z výsledků jsem vytvořil tabulku 2.
w.
A B B Y Y.c
om
Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
Střed třídy ( )
Absolutní četnost ( )
Součtová absolutní četnost (kfi)
Relativní četnost (pi)
Součtová relativní četnost (kpi)
Méně než 14)
7
2
2
0,29
0,29
14
<14, 28)
23
1
3
0,14
0,43
23
<28 a více
35
4
7
0,57
1
140
∑
7
(
Úhrn × )
1
Charakteristiky polohy Kvantily: Hodnoty, jež rozdělují data v mém souboru v určitém poměru. Dolní kvartil, medián a horní kvartil rozdělují soubor celkem na čtyři části.
Medián (označujeme
,
nebo
):
Rozděluje soubor na dvě stejné části. Výsledek nezkreslují extrémní hodnoty, záleží pouze na prostředních hodnotách. Jako první vyberu třídu u níž součtová relativní četnost přesahuje hodnotu 0,5. V mých datech to je třída <28 a více, jako kontrola mi bude sloužit to, že výsledek by měl patřit do téhle třídy.
je počáteční hodnota intervalu.
který hledáme (0,5). ℎ je šířka třídy.
relativní četnost přislušné třídy a
relativní četnost třídy předchozí.
, ,
=
= 28 +
+
−
je hodnota kvantilu, −1
je součtová
×ℎ
0,5 − 0,14 × 14 = 36,84 ≐ 37 0,57
Výsledek leží v určeném intervalu a znamená, že 4 menzy mají méně než 37 studentů
Aritmetický průměr: Nejpopulárnější charakteristika polohy. Označujeme . Na rozdíl od mediánu ho zkreslují extrémní hodnoty. Pro výpočet průměru dosadím do vzorečku úhrn intervalů, které jsem si vypočítal v tabulce 2 a vydělím počtem celkových hodnot.
w.
A B B Y Y.c
om
Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
=
1
= =
+
+⋯+
1 × 177 ≐ 25 7
Průměrný počet studentů je 25. Průměr se dost liší od mediánu, kvůli rozdělení dat v souboru, jsou zde menzy s malým počtem. Leží však mezi maximem a minimem, a proto by měl být správný.
Charakteristiky variability |xi – arit.průměr| * fi
|xi – arit.průměr|2 * fi
Střed třídy ( )
Absolutní četnost ( )
Méně než 14)
7
2
60
36
1236
<14, 28)
23
1
14
2
602
<28 a více
35
4
8
60
2360
7
82
98
4198
∑
|xi - medián| * fi
Tabulka 3: Tabulka pro výpočet charakteristik variability
Rozptyl: Jedná se o kolísavost, variabilitu konkrétních hodnot náhodné veličiny kolem její střední hodnoty. Je to taky nejmenší průměrná čtvercová odchylka od aritmetického průměru. Je vždy nezáporný. Spíše se využívá pro komentáře směrodatná odchylka, protože rozptyl se udává v měrných jednotkách na druhou. Vypočtu ho podobně jako absolutní odchylky, vypočítám si nejprve dílčí výsledky |xi – arit.průměr|2 * fi, jejich sumu vydělím celkovým počtem menz.
=
1
(
− ̅) ×
=
Rozptyl počtu studentů v 7 menzách jsem vyčíslil na 12.
1 × 82 = 11,71 7
Směrodatná odchylka: Jedná se o průměrnou odchylku náhodné veličiny x od její střední hodnoty, matematicky se jedná o odmocninu z rozptylu. Ukazuje, jak moc se od sebe jednotlivé hodnoty navzájem liší. Pokud je odchylka malá, znamená to, že jsou si hodnoty v souboru podobné. Je-li velká, jedná se o velmi různorodá a odlišná data. Vypočtu ho pomocí vzorce:
w.
A B B Y Y.c
om
Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
=
=
11,71 = 3,42 ≐ 3
Směrodatná odchylka 3 od průměru 25 vyjadřuje spíše větší variabilitu, což znamená vcelku nepodobné hodnoty souboru.
Variační koeficient: Udává variabilitu souboru, to znamená kolik procent z průměru tvoří směrodatná odchylka. Vyčíslím ho jako směrodatná odchylka dělená aritmetickým průměrem, protože je bezrozměrný vyjádřím ho v procentech (násobím 100). Čím je vypočtené číslo variačního koeficientu větší, tím se data od sebe víc liší.
= × 100 =
3 × 100 = 12 % 25
Pomocí variačního koeficientu vyvodím přesnější závěr než u směrodatné odchylky. Vyšel mi variační koeficient 12%, z čehož vyplývá, že se hodnoty od průměru spíše vzdalují a sami od sebe mírně liší.
|xi – arit.průměr|2 * fi
|xi – arit.průměr|2 * fi
Střed třídy ( )
Absolutní četnost ( )
Méně než 14)
7
2
1236
21 700 350
<14, 28)
23
1
602
9 207 775
<28 a více
35
4
2360
288 300
7
4198
79 893 875
∑
Intervalový odhad Tabulka 4: Tabulka pro výpočet intervalového odhadu Chybu si volím 5%
95% intervalový odhad pro střední hodnotu Pro výpočet 95% intervalu využiju vzorec:
−
×
√
≤
≤
+
×
√
= 1−
w.
A B B Y Y.c
om
Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
Vypočítám dílčí pomocné výsledky jako (
− )×
= (7 – 25)2 x 2 = 648, dále postupuju pro
všechny třídy. Dosadím do vzorce pro výpočet rozptylu a směrodatné odchylky:
=
=
1 × 4198 = 699,6 6 =
699,6 = 26,45
Jako poslední veličinu si ve statistických tabulkách najdu hodnotu pro u0,975 při riziku 5% (tabulka Kvantily up normované normální veličiny):
1−
Dosadím vše do prvního vzorce:
25 − 1,96 ×
26,45 √7
2
=
0,975 = 1,96
≤ μ ≤ 25 + 1,96 ×
[5,4 ≤
26,45 √7
≤ 44,59] = 0,95
=1−
S 95% pravděpodobností můžeme očekávat, že se střední hodnota bude nacházet ve vypočteném intervalu od 5,4 do 44,59 počtu studentů chodících do menz
Dále v mém průzkumu: Z jáke jste fakulty?
w.
A B B Y Y.c
om
Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
Počet hodnot: 8, Minimum: 4, Maximum: 59, Průměr: 19,13, Medián: 14,5, Rozptyl: 251,11 Směrodatná odchylka: 15,85, Šikmost: 1,84, Špičatost: 5,14
Jak často navštěvujete menzu?
Počet hodnot: 6, Minimum: 2, Maximum: 54, Průměr: 26, Medián: 26,5, Rozptyl: 309 Směrodatná odchylka: 17,58, Šikmost: 0,15, Špičatost: 1,84
Ve které menze nejlépe vaří?
Počet hodnot: 7, Minimum: 4, Maximum: 51, Průměr: 22,71, Medián: 12, Rozptyl: 295,35 Směrodatná odchylka: 17,19, Šikmost:0,46, Špičatost: 1,56
w.
A B B Y Y.c
om
Y
F T ra n sf o
A B B Y Y.c
bu to re he C
lic
k
he k lic C w.
om
w
w
w
w
rm
y
ABB
PD
re
to
Y
2.0
2.0
bu
y
rm
er
Y
F T ra n sf o
ABB
PD
er
Y
Připadá vám cena odpovídající nabídce?
Počet hodnot: 4, Minimum: 15, Maximum: 58, Průměr: 39, Medián: 41,5 Rozptyl: 265,5, Směrodatná odchylka: 16,29, Šikmost: -0,35, Špičatost: 1,68
Spokojenost s čistotou menzy?
Počet hodnot: 4, Minimum: 9, Maximum: 75, Průměr: 39,75, Medián: 37,5, Rozptyl: 702,69, Směrodatná odchylka: 26,51, Šikmost: 0,14, Špičatost: 1,34
Závěr: Z průzkumu jsem zjistil, jak na tom jsou jednotlivé menzy CVUT. Studenti CVUT nejvíce preferují menzu, studentský dům, která se nachází v Dejvicích. Snaha byla získat stejný počet dotazovaných ze všech fakult ČVUT. U všech fakult toho bylo téměř dosaženo, až na fakultu dopravní, která značně přesahuje počet dotazovaných. Pro návštěvnost jednotlivých menz jsem zpracoval výpočty jako jsou medián, rozptyl, směrodatnou odchylku apod. Tyto výpočty mi ukázali vazby mezi studentem a jednotlivými menzami.
w.
A B B Y Y.c
om