TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2
461 17 Liberec 1
SEMESTRÁLNÍ PRÁCE
STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ
Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar Zákoutská Počet stran: 17
Datum vypracování: 10. 05. 2016
Obsah Seznam obrázků ......................................................................................................................... 3 Seznam tabulek .......................................................................................................................... 3
Úvod ........................................................................................................................................... 4 1 Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford,
rozlište přitom palivo. ................................................................................................................ 5 1.1
Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby nafty ........... 5
1.1.1
Charakteristiky úrovně ......................................................................................... 6
1.1.3
Tvar rozdělení skutečné spotřeby automobilů Ford jezdících na naftu ............... 8
1.1.2 1.2
Charakteristiky variability .................................................................................... 7
Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby benzínu ....... 9
1.2.1 Charakteristiky úrovně ............................................................................................. 10 1.2.2 Charakteristiky variability ....................................................................................... 11 1.2.3 Tvar rozdělení skutečné spotřeby automobilu Ford jezdících na benzín ................. 12
2 Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut ......................................................... 14 3 Ověřte, zda existuje závislost počtu návštěv servisů (autorizovaných i neautorizovaných) na
příjmu majitele vozidla............................................................................................................. 16
2
Seznam obrázků Obrázek 1: Histogram spotřeby nafty ........................................................................................ 8
Obrázek 2: Box-and-Whisker Plot spotřeby nafty ..................................................................... 9 Obrázek 3: Histogram spotřeby benzínu .................................................................................. 12 Obrázek 4: Krabicový graf spotřeby benzínu .......................................................................... 13
Obrázek 5: Výsečový graf relativní četnosti barvy aut ............................................................ 15
Obrázek 6: Úsečkový graf pro absolutní četnosti barvy aut .................................................... 15
Obrázek 7: Grafické znázornění výsledku koeficientu korelace .............................................. 17
Seznam tabulek
Tabulka 1: Základní charakteristiky pro spotřebu nafty ............................................................ 5 Tabulka 2: Základní charakteristiky pro spotřebu benzínu ...................................................... 10 Tabulka 3: Tabulka četností barvy aut ..................................................................................... 14
Tabulka 4: Tabulka výsledků lineární závisloti mezi proměnnými ......................................... 17
3
Úvod Semestrální práce z předmětu Statistický rozbor dat z dotazníkových šetření se zabývá analýzou výsledků dotazníkového šetření. Analýza je provedena pomocí již známých statistických metod s použitím statistického programu STATGRAPHICS Centurion XVII.
Na analýze výsledků dotazníkového šetření se podílí několik skupin, jejichž úkolem je odpovědět na tři odlišné otázky.
Otázky zpracovány v této práci jsou následující: 1. Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford, rozlište přitom palivo.
2. Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut. 3. Ověřte,
zda
existuje
závislost
počtu
neautorizovaných) na příjmu majitele vozidla.
návštěv
servisů
Tyto otázky jsou vypracovány v jednotlivých kapitolách této práce.
4
(autorizovaných
i
1 Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford, rozlište přitom palivo.
Prvním úkolem této semestrální práce je zjistit příslušné charakteristiky prostřednictvím
programu Statgraphics a dále je interpretovat. Jednotlivé charakteristiky jsou v této kapitole rozlišeny dle paliva na naftu a benzín. Pro lepší představu jsou ke každému palivu ukázány dva grafy. Pro naftu jsou to Obrázky 1 a 2, dále pro benzín se jedná o Obrázky 3 a 4.
1.1 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby nafty
Z programu Statgraphics byly zjištěna následující charakteristiky, které je možné vidět v tabulce 1. Tyto charakteristiky jsou v následujících podkapitolách interpretovány. Tabulka 1: Základní charakteristiky pro spotřebu nafty
Počet
95
Harmonický průměr
5,58098
Medián
5,7
Směrodatná odchylka
0,827312
Modus
Rozptyl
Variační koeficient
6,3
0,684446
14,46%
Minimum
4
Variační rozpětí
2,9
Horní kvartil
6,3
Maximum
Dolní kvartil
Kvartilové rozpětí Šikmost
Zdroj: vlastní zpracování, 2016
6,9
5,2
1,1
-0,932819
5
1.1.1 Charakteristiky úrovně
Zkoumaný soubor o velikosti 95 hodnot spotřeby nafty má následující charakteristiky: Harmonický průměr V případě výpočtu průměrné spotřeby je nutné užít harmonický průměr. Vzorec harmonického průměru je možné vidět níže. ̅ =
(1)
∑
Průměrná spotřeba nafty je 5,58098 litrů na 100 km. Modus Jelikož se jedná o číselné proměnné má smysl do charakteristik zařadit i modus. Modus představuje variantu s největší četností a v našem případě vyšel
= 6,3 litrů na 100 km.
Medián: Vzhledem k tomu, že rozsah tohoto souboru je liché číslo, využijeme k výpočtu mediánu tento vztah: =
, kde
(2)
V našem případě vyšel medián dle programu Statgraphics 5,7 litrů na 100 km. Intepretace: 50 % automobilů jezdících na naftu má spotřebu 5,7 litrů na 100 km a vyšší, nebo 50 % naftových automobilů má spotřebu 5,7 litru na 100 km a nižší. Kvartily: Jedná se o 3 kvantily, které rozdělují uspořádaný statistický soubor na 4 stejně četné části. V případě této semestrální práce byl získán dolní a horní kvartil. Dolní kvartil,
,
= 5,2 litru na 100 km.
Interpretace: 25 % automobilů značky Ford jezdících na naftu má spotřebu 5,2 litru na 100 km a nižší.
Horní kvartil,
,
= 6,3 litru na 100 km.
Interpretace: 25 % automobilů značky Ford jezdících na naftu má spotřebu 6,3 litru na 100 km a vyšší.
6
1.1.2 Charakteristiky variability
Tyto charakteristiky udávají rozptýlení hodnot kolem zvoleného středu, většinou kolem nějaké střední hodnoty. Variační rozpětí: Jedná se o velmi rychlé a jednoduché spočítání charakteristiky variability. Uvádí míru variability a vypočítá se dle vzorce: =
−
(3)
V případě našeho konkrétního případu vyšlo variační rozpětí 2,9 litrů na 100 km. Kvartilové rozpětí: Lze vypočítat dle vzorce: =
,
−
(4)
,
Rozdíl mezi horním a dolním kvartilem spotřeby nafty je 1,1 litru na 100 km. Rozptyl: Rozptyl spotřeby nafty byl zjištěn 0,684446 litru na 100 km. Směrodatná odchylka: Tato charakteristika udává, jak se v průměru odlišují jednotlivé hodnoty znaku od aritmetického průměru v obou směrech. Lze ji získat dle vzorce: =
(5)
V našem případě jednotlivé spotřeby nafty se liší od průměrné spotřeby v průměru o 0,827312 litru na 100 km.
Variační koeficient: Jedná o bezrozměrné číslo.
Udává, z kolika procent se v průměru odchylují jednotlivé
hodnoty od aritmetického průměru. Lze ho zjistit pomocí vzorce: =
(6) ̅
Variační koeficient zde vyšel 14,46 %. V průměru se tedy jednotlivé spotřeby odchylují od aritmetického průměru o 14,46 %. Variabilita je považována za nízkou.
7
1.1.3 Tvar rozdělení skutečné spotřeby automobilů Ford jezdících na naftu
V této kapitole je dobré zaměřit se na charakteristiky šikmosti a špičatosti. V našem případě jen na charakteristiku šikmosti. Cyhelského míra šikmosti =
(7)
Dle programu Statgraphics vyšla míra šikmosti -0,932819. Což znamená, že se jedná o
záporně sešikmené rozdělení. V souboru je tedy více hodnot nadprůměrných než podprůměrných.
Obrázek 1: Histogram spotřeby nafty
Zdroj: Stratgraphics, 2016
8
Obrázek 2: Box-and-Whisker Plot spotřeby nafty
Zdroj: Statgraphics, 2016
1.2 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby benzínu
V programu Statgraphics byly zjištěna následující charakteristiky, které je možné vidět v tabulce 2. Tyto charakteristiky jsou v následujících podkapitolách interpretovány.
9
Tabulka 2: Základní charakteristiky pro spotřebu benzínu
Počet
161
Harmonický průměr
7,20643
Medián
7,8
Směrodatná odchylka
1,26122
Modus
Rozptyl
Variační koeficient
8,8
1,59067
16,95%
Minimum
5,1
Variační rozpětí
3,9
Horní kvartil
8,8
Maximum
Dolní kvratil
Mezi kvartilové rozpětí Šikmost
Zdroj: vlastní zpracování
9
6,4
2,4
-0,397824
1.2.1 Charakteristiky úrovně
Pro přehlednost jsou zde vztahy pro výpočet charakteristik uvedeny ještě jednou. Zkoumaný soubor o velikosti 161 hodnot spotřeby benzínu má následující charakteristiky: Harmonický průměr ̅ =
(8)
∑
Průměrná spotřeba benzínu je 7,20643 litrů na 100 km. Modus Modus představuje variantu s největší četností a v našem případě vyšel km.
10
= 8,8 litrů na 100
Medián: Vzhledem k tomu, že rozsah tohoto souboru je liché číslo, využijeme k výpočtu mediánu tento vztah: =
, kde
(9)
V našem případě vyšel medián dle programu Statgraphics 7,8 litrů na 100 km. Čili, 50 % automobilů jezdících na benzín má spotřebu 7,8 litrů na 100 km a vyšší, nebo 50 % benzínových automobilů má spotřebu 5,7 litru na 100 km a nižší. Kvartily: Dolní kvartil
,
Horní kvartil
,
25 % automobilů značky Ford jezdících na benzín má spotřebu 6,4 litrů na 100 km a nižší.
25 % automobilů značky Ford jezdících na benzín má spotřebu 8,8 litrů na 100 km a vyšší.
1.2.2 Charakteristiky variability Variační rozpětí =
−
(10)
Variační rozpětí spotřeby benzínu činí 3,9 litrů na 100 km. Kvartilové rozpětí =
,
−
(11)
,
Rozdíl mezi horním a dolním kvartilem spotřeby benzínu je 2,4 litrů na 100 km. Rozptyl Rozptyl spotřeby benzínu byl vyčíslen na 1,59067 litrů na 100 km. Směrodatná odchylka =
(12) 11
Jednotlivé spotřeby benzínu se liší od průměrně spotřeby v průměru o 1,59067 litrů na 100 km.
Variační koeficient =
(13) ̅
V průměru se jednotlivé hodnoty od aritmetického průměru odlišují o 16,95 %.
1.2.3 Tvar rozdělení skutečné spotřeby automobilu Ford jezdících na benzín Cyhelského míra šikmosti =
(14)
Dle programu Statgraphics vyšla míra šikmosti -0,397824. Což znamená, že se jedná o záporně sešikmené rozdělení, čili v souboru je více hodnot nadprůměrných než podprůměrných.
Obrázek 3: Histogram spotřeby benzínu
Zdroj: Statgraphics, 2016
12
Obrázek 4: Krabicový graf spotřeby benzínu
Zdroj: Statgraphics, 2016
13
2 Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut
Druhým výzkumným problémem bylo zjistit, zda bílá auta tvoří alespoň 40 % ze všech aut. Tato proměnná je slovní a nelze ji hierarchicky uspořádat, jedná se tedy o nominální proměnnou. Pomocí programu Statgraphics byly zjištěny následující údaje.
V celkovém rozsahu souboru 256 pozorování se vyskytuje 6 možných barevných provedení aut. Na základě vygenerovaných údajů bylo zjištěno, že v souboru se nachází 82 bílých aut,
které procentuálně tvoří 32,03 %. Absolutní a relativní zastoupení dalších barev je zobrazen pomocí následující tabulky 3.
Tabulka 3: Tabulka četností barvy aut
Relative
Cumulative
0,3203
82
Class
Value
Frequency
Frequency
2 3
Cerna Cervena
48 42
5
Stribrna
44
1 4 6
Bila
Modra
Zelena
Zdroj: Statgraphics, 2016
82
20
20
Cum. Rel.
Frequency
Frequency
0,1875 0,1641
130 172
0,5078 0,6719
0,1719
236
0,9219
0,0781
0,0781
192
256
0,3203
0,7500
1,0000
Pro grafické znázornění relativní četnosti nominální proměnné je vhodné použít výsečový
graf. Vygenerovaný výsečový graf můžeme vidět na obr. 5. Největší procentuální zastoupení
tvoří bílá auta 32,03 %, následována černými auty s 18,75 % a třetí nejčastěji objevovanou barvou jsou červená auta s 16,41% zastoupením.
14
Obrázek 5: Výsečový graf relativní četnosti barvy aut Zdroj: Statgraphics, 2016
Pro grafické zobrazení absolutní četnosti barvy aut byl využit Barchart neboli úsečkový graf, který můžeme vidět na obr. 6.
Obrázek 6: Úsečkový graf pro absolutní četnosti barvy aut Zdroj: Statgraphics, 2016
Na základě zjištěných údajů je patrné, že bílá auta netvoří 40 % a více ze všech aut. 15
3 Ověřte, zda existuje závislost počtu návštěv servisů (autorizovaných i neautorizovaných) na příjmu majitele vozidla. V této kapitole se budeme zabývat tím, zda počet návštěv servisů autorizovaných i
neautorizovaných závisí na příjmu majitele vozidla. Jedná se o číselné proměnné, tudíž
použijeme pro zjištění závislosti korelační analýzu. Budeme tedy zjišťovat lineární závislost mezi oběma proměnnými, kdy využijeme test hypotézy o nulové hodnotě korelačního koeficientu.
1. Určíme hypotézu H0 a H1, kde budeme testovat, zda existuje závislost počtu návštěv servisů a příjmu majitele vozidla.
H0: ρyx = 0 (hodnota koeficientu korelace je v základním je nulová, neexistuje lineární
H1: non Ho
závislost mezi x a y)
2. Zvolíme vhodné testové kritérium vyjádřené vzorcem:
t
rxy n 2
(15)
1 rxy2
t = - 0,3986
3. Pro určení závislosti proměnných x a y využijeme hodnoty P-value, kterou zjistíme z programu SGP. Tuto hodnotu porovnáme s hladinou významnosti pro tento případ stanovenou α = 5% a interpretujeme závěr testu.
16
V následující tabulce 4 jsou vyčíslené hodnoty výsledků potřebných pro stanovení závěru testu.
Tabulka 4: Tabulka výsledků lineární závislosti mezi proměnnými
Příjem
Příjem Počet návštěv servisů Zdroj: Vlastní zpracování
-0,0250 (256) 0,6902
Počet návštěv servisů -0,0250 (256) 0,6902
Na základě zjištěných výsledků hodnota P-value je 0,6902, což znamená, že hodnota P-value je větší než hladina významnosti (α = 0,05). Můžeme tedy říci, že jsme na 5 % hladině
významnosti neprokázaly, že mezi oběma proměnnými existuje lineární závislost. H0 proto nezamítáme a H1 nepřijímáme.
Pokud by v testu byla prokázána lineární závislost, mělo by smysl měřit sílu lineární závislosti pomocí koeficientu korelace, který vyšel ryx = -0,0250. Tato charakteristika nás informuje nejen o síle závislosti, ale zároveň o směru této závislosti. V tomto případě by lineární závislost proměnných x a y byla nepřímá a velmi malá, což můžeme vidět i na obrázku č. 5.
Obrázek 7: Grafické znázornění výsledku koeficientu korelace Zdroj: Statgraphics, 2016
17