TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA
Semestrální práce Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření
Vypracoval: Bonaconzová, Bryknarová, Milkovičová, Škrdlová Studijní obor: Podniková ekonomika Předmět: Statistický rozbor dat z dotazníkových šetření Školní rok: 2015/2016
Obsah Úvod ........................................................................................................................................... 3 1
Charakterizujte stáří vozu u modelu Fiesta - pouze vozy, které jezdí na benzín ................ 4 1.1
Charakteristiky polohy ................................................................................................ 4
1.2
Charakteristiky variability ........................................................................................... 6
1.3
Charakteristiky šikmosti .............................................................................................. 6
1.4
Charakteristiky špičatosti ............................................................................................ 7
2
Otestujte, zdali je rozdělní aut podle paliva v Pardubickém a Středočeském kraji stejné .. 9
3
U modelu B-Max otestujte nezávislost skutečné spotřeby a příjmu majitele ................... 12
Závěr......................................................................................................................................... 15 Seznam obrázků ....................................................................................................................... 16 Seznam tabulek ........................................................................................................................ 16
2
Úvod Cílem této semestrální práce je analyzovat výzkumný úkol, vyřešit a vyhodnotit zadané otázky. V práci jsme vycházely z přidělených dat a informací ohledně značek a modelů osobních automobilů, ke kterým se vázaly určité statistické údaje, jako jsou např. rok výroby, příjem majitelů nebo průměrná spotřeba. Všechna uvedená data jsme zpracovávaly pomocí programu STATGRAPHICS Centurion. V první části jsme charakterizovaly stáří vozů modelu Fiesta jezdících na benzín. Jako charakteristiky tohoto úkolu jsme zvolily aritmetický průměr, výběrovou a základní směrodatnou odchylkou, výběrový a základní rozptyl, modus, medián, rozpětí aj. Druhá kapitola je věnována testu rozdělení aut podle paliva v Pardubickém a Středočeském kraji. Úkolem bylo přijmout nebo vyvrátit hypotézu, zdali je toto rozdělení v krajích shodné. Problém jsme řešily pomocí testování hypotéz zvlášť podle jednotlivých druhů paliv. Poslední část se zabývá ověřením nezávislosti skutečné spotřeby a příjmu majitele u modelu B-Max. K řešení této otázky jsme využily regresní analýzu.
3
1
Charakterizujte stáří vozu u modelu Fiesta - pouze vozy, které jezdí na benzín
Tato kapitola je zaměřena na základní statistické charakteristiky proměnné "stáří vozu", kterou jsme stanovily dle roku výroby automobilů. Tyto charakteristiky jsme poté v souboru dat aplikovaly pouze na vozy značky Fiesta jezdící na benzín. Výsledné charakteristiky jsou uvedeny v následující tabulce (Tab. 1) a poté jsou jednotlivé výsledky interpretovány. Tabulka 1: Základní statistické charakteristiky pro proměnnou "stáří vozu"
Počet Aritmetický průměr Medián Modus Výběrový rozptyl Základní rozptyl Výběrová směr. odchylka Základní směr. odchylka Míra šikmosti Míra špičatosti Dolní kvartil Horní kvartil Variační rozpětí Minimum Maximum
86 10 10 11 9,76471 9,65117 3,12485 3,10663 -0,142107 0,010467 8 12 15 3 18
Zdroj: Vlastní zpracování dle Statgraphics Centurion
Statistické charakteristiky můžeme rozdělit následovně:
charakteristiky polohy
charakteristiky variability
charakteristiky šikmosti
charakteristiky špičatosti
1.1 Charakteristiky polohy Tyto charakteristiky určují úroveň (velikost, hladinu) proměnné neboli střed, kolem něhož jednotlivé hodnoty kolísají.
4
Aritmetický průměr Používá se tam, kde má informační smysl součet hodnot proměnné. V našem případě má smysl využít prostý aritmetický průměr, který zjišťujeme součtem hodnot a tento součet následně počtem hodnot vydělíme.
Průměrné stáří automobilů modelu Fiesta jezdících na benzín činí 10 let. Modus Modus ( ) je varianta s největší četností neboli typická hodnota. Vozy modelu Fiesta jezdící na benzín jsou nejčastěji staré právě 11 let. Kvantily Kvantily jsou hodnoty, které rozdělují uspořádaný statistický soubor na určitý počet stejně obsazených částí. Medián ( ) je prostřední hodnota uspořádaného statistického souboru, která ho dělí na dvě stejně četné části; existuje tedy 50 % hodnot menších (nebo stejných) a 50 % hodnot větších (nebo stejných). V našem případě je rozsah souboru sudé číslo, proto platí následující vztah:
Hodnota, která se nachází uprostřed všech podle stáří seřazených vozů Fiesta jezdících na benzín, činí 10 let. Kvartily jsou tři kvantily, které rozdělují uspořádaný statistický soubor na čtyři stejně četné části;
25
(X0,25),
Dolní kvartil:
(X0,5),
75
(X0,75)
0,25=8
25% automobilů jsou staré maximálně 8 let. Horní kvartil:
0,75=12
25% automobilů jsou staré minimálně 12 let.
5
1.2 Charakteristiky variability Tyto charakteristiky udávají rozptýlení (kolísání) hodnot kolem zvoleného středu, obvykle kolem některé ze středních hodnot. Variační rozpětí Variační rozpětí určuje míru variability souboru. R = Xmax - Xmin Rozdíl mezi nejvyšší a nejnižší hodnotou vozů Fiesta jezdících na benzín činí 15 let. Rozptyl Tato charakteristika je funkcí všech pozorování, což znamená, že bere v úvahu velikost všech hodnot numerické proměnné.
Výběrový rozptyl činí 9,76471 let a základní rozptyl činí 9,65117 let. Směrodatná odchylka Směrodatná odchylka udává, jak se v průměru liší jednotlivé hodnoty znaku od aritmetického průměru v obou směrech (±).
Výběrová směrodatná odchylka činí 3,12485 let a základní směrodatná odchylka činí 3,10663 let.
1.3 Charakteristiky šikmosti Šikmost = asymetrie
Hodnota šikmosti činí -0,142107. Z tohoto záporného čísla vyplývá, že většina hodnot se nachází nad průměrem. Stáří vozu je záporně a levostranně zešikmené. 6
1.4 Charakteristiky špičatosti Špičatost = exces
Hodnota špičatosti činí 0,010467. Z kladného čísla vyplývá, že toho rozdělení je o něco strmější než rozdělení normální. Nicméně je hodnota poměrně nízká a blíží se 0, můžeme říci, že se většina hodnota pohybuje dál od průměru.
Box-and-Whisker Plot
0
3
6
9 Col_4
Obrázek 1: Krabicový graf Zdroj: Vlastní zpracování dle Statgraphics Centurion
7
12
15
18
Scatterplot
0
3
6
9 Col_4
12
15
18
Obrázek 2: Bodový diagram Zdroj: Vlastní zpracování dle Statgraphics Centurion
Pro kontrolu výsledků jsme provedly analýzu také podle proměnné "rok výroby", výsledky jsou zobrazeny v následující tabulce (Tab. 2) Tabulka 2: Základní statistické charakteristiky pro proměnnou "rok výroby" Count Average Median Mode Variance Standard deviation Coeff. of variation Minimum Maximum Range Skewness Stnd. skewness Kurtosis Stnd. kurtosis Sum of squares
86 2006,0 2006,0 2005,0 9,76471 3,12485 0,155775% 1998,0 2013,0 15,0 0,142107 0,538007 0,0104671 0,019814 3,46068E8
Zdroj: Vlastní zpracování dle Statgraphics Centurion
8
2
Otestujte, zdali je rozdělní aut podle paliva v Pardubickém a Středočeském kraji stejné
V této kapitole jsme testovaly, zdali je rozdělení aut podle paliva v Pardubickém a Středočeském kraji stejné. Tento úkol jsme řešily pomocí dvouparametrického testování statistických hypotéz. Nejdříve bylo potřeba vybrat zastoupení hodnot benzínu a nafty pouze pro sledované kraje. Dále jsme zjistily relativní četnost zastoupení jednotlivých paliv v krajích. Hodnoty jednotlivých zastoupení jsou k vidění v tabulce č. 3. Tabulka 3: Relativní četnosti automobilů dle paliv v obou krajích
Kraj Středočeský
Pardubický
Benzín
0,5517
0,85
Nafta
0,4483
0,15
Zdroj: Vlastní zpracování
Dalším relevantním údajem byl celkový počet automobilů v jednotlivých krajích. Pro Středočeský kraj bylo stanoveno 29 aut a pro Pardubický 20. Pro zadanou hypotézu jsme zvolily test parametru π, protože řešíme procentuální zastoupení benzínu a nafty v jednotlivých krajích. V prvním kroku jsme testovaly zastoupení benzínu v jednotlivých krajích a poté zastoupení nafty. A) Testování hypotézy, že rozdělení automobilů jezdících na benzín je v obou krajích stejné: H0: π1 = π2 H1: π1 ≠ π2 Pro ověření rovnosti parametrů π je postup v programu Statgraphics následující: Compare - two samples - hypothesis test Obrázek č. 3 znázorňuje vyplněné hodnoty.
9
Obrázek 3: Dvouparametrické testování hypotézy benzínových automobilů Zdroj: Vlastní zpracování dle Statgraphics Centurion
Výsledek testu je zřejmý z hodnoty P-Value, která je rovna 0,0286342. Jelikož je tato hodnota nižší než hladina významnosti 5%, zamítáme nulovou hypotézu o shodě rozdělení automobilů jezdících na benzín v Pardubickém a Středočeském kraji a přijímáme hypotézu alternativní. Jelikož porovnáváme rozdělení automobilů podle paliv v jednotlivých krajích pomocí procentuálního zastoupení a v předchozím kroku jsme zjistily, že toto rozdělení benzínových automobilů není stejné, předpokládáme, že u naftových vozů bude závěr totožný. Pro kontrolu jsme tento test zopakovaly i pro naftové automobily. B) Testování hypotézy, že rozdělení automobilů jezdících na naftu je v obou krajích stejné: H0: π1=π2 H1: π1≠π2 Postup v programu Statgraphics je stejný jako tomu bylo v předchozím případě. Vyplněný formulář je znázorněn na obrázku č. 4.
10
Obrázek 4: Dvouparametrické testování hypotézy naftových automobilů Zdroj: Vlastní zpracování dle Statgraphics Centurion
Hodnota P-value = 0,0286342 pro automobily jezdící na naftu vyšla také menší než 5% hladina významnosti, což potvrdilo náš předpoklad. Opět došlo k zamítnutí nulové hypotézy a přijetí alternativní hypotézy, že rozdělení naftových automobilů v krajích není stejné. Hodnota P-value vyšla shodná, jelikož benzín a nafta jsou komplementy a vzájemně se doplňují.
11
3
U modelu B-Max otestujte nezávislost skutečné spotřeby a příjmu majitele
Pro zpracování výše zmíněné otázky jsme se řídily nejprve sloupcem "Model", ve kterém jsme vyhledaly pouze model B-Max. U něj jsme poté následně testovaly hypotézu, že skutečná spotřeba a příjem majitele jsou na sobě nezávislé. Pro určení závislosti numerických proměnných jsou vhodné regresní a korelační analýzy. Tyto 2 metody se mezi sebou liší tím, jakým způsobem jsou na sobě proměnné závislé. Korelační analýzu používáme tehdy, zajímá-li nás intenzita vzájemného vztahu. Je na ní kladen větší důraz než na směr závislosti. Regresní analýza řeší hlavně zkoumání jednostranné závislosti proměnných. Závislá proměnná je zde vnímána jako důsledek, nezávislá jako příčina. Pro testování je důležité správně určit, která proměnná je závislá a nezávislá. Z logiky věci vyplývá, že skutečná spotřeba není závislá na příjmu majitele automobilu. Pokud ale máme tuto nezávislost otestovat, zvolíme přijatelnější variantu, kde závislá proměnná je "Skutečná spotřeba" a "Příjem" je proměnnou nezávislou. Člověk si vybírá automobil s požadovanou spotřebou podle toho, kolik si za rok (měsíc apod.) vydělá. Opačně tato souvislost nedává smysl. Z tohoto důvodu použijeme regresní analýzu a zjistíme, zda-li je skutečná spotřeba automobilu závislá na příjmu majitele. 1) Testované hypotézy:
H0: X a Y jsou nezávislé
H1: non H0
2) ANOVA: x = nezávislá proměnná = příjem majitele y = závislá proměnná = skutečná spotřeba automobilu P-value = 0,2724 P-value je větší než hladina významnosti 5%, proto v testu nemusíme pokračovat, protože jsme prokázaly, že jsou obě proměnné nezávislé. V programu STATGRAPHICS Centurion jsme pro ověření nezávislosti těchto proměnných zvolily cestu Relate - One faktor - Simple Regression. Nezávislou proměnnou X představuje kolonka "Příjem", závislé Y "Skutečná spotřeba". V záložce " Comparison of Alternative 12
Models" nám všechny možné modely vykázaly pouze zanedbatelné procentuelní hodnoty. Největší koeficient determinace vyšel u modelu " Squared-Y reciprocal-X", kde hodnota nabývala 5 % (r = 0,05), což značí velmi slabou lineární závislost. Koeficienty u ostatních modelů jsou ještě nižší, tudíž můžeme říct, že skutečná spotřeba automobilu není závislá na příjmu majitele. Hodnota P-value vyšla u t-testu i u F-ratio testu vyšší než hladina významnosti. Na základě těchto výsledků tedy můžeme říci, že H0 nezamítáme a H1 nepřijímáme. Jinými slovy - nezamítáme, že jsou obě proměnné nezávislé.
13
Obrázek 5: Regresní analýza Zdroj: Vlastní zpracování dle Statgraphics Centurion
Obrázek 6: Graf znázorňující nezávislost mezi proměnnými
Zdroj: Vlastní zpracování dle Statgraphics Centurion
14
Závěr Cílem této práce bylo charakterizovat stáří vozů jezdících na benzín u modelu Fiesta. Data jsme analyzovaly pomocí základních statistických charakteristik. Tyto charakteristiky jsme rozdělily do čtyř skupin jako charakteristiky polohy, variability, šikmosti a špičatosti. Na základě tohoto rozdělení jsme pomocí programu STATGRAPHICS Centurion určily aritmetický průměr, modus, medián, rozptyl a další. Jelikož tento program pracuje pouze s výběrovými hodnotami, základní směrodatnou odchylku jsme si dopočítaly ručně přes výběrový rozptyl. Dalším úkolem bylo otestovat, zdali je rozdělení aut podle paliva ve Středočeském a Pardubickém kraji stejné. V této části jsme se tedy věnovaly testování statistických hypotéz na základě dvouparametrických testů. Pro tento test jsme zvolily tzv. binomické rozdělení, protože jednotlivé hodnoty byly vyjádřeny procentuálně. Po vyřešení daného testu jsme došly k závěru, že rozdělení aut podle paliv v obou krajích není stejné. V poslední části jsme řešily nezávislost mezi skutečnou spotřebou a příjmem majitele. Už na první pohled je zřejmé, že tyto proměnné nejsou na sobě závislé. Pro ověření této skutečnosti jsme použily regresní analýzu, kde jsme řešily závislost skutečné spotřeby na příjmu. Tato metoda potvrdila náš předpoklad, že skutečná spotřeba nezávisí na příjmu majitele.
15
Seznam obrázků Obrázek 1: Krabicový graf ........................................................................................................ 7 Obrázek 2: Bodový diagram ...................................................................................................... 8 Obrázek 3: Dvouparametrické testování hypotézy benzínových automobilů ........................ 10 Obrázek 4: Dvouparametrické testování hypotézy naftových automobilů ............................ 11 Obrázek 5: Regresní analýza .................................................................................................. 14 Obrázek 6: Graf znázorňující nezávislost mezi proměnnými ................................................ 14
Seznam tabulek Tabulka 1: Základní statistické charakteristiky pro proměnnou "stáří vozu" ....................... 4 Tabulka 2: Základní statistické charakteristiky pro proměnnou "rok výroby" ..................... 8 Tabulka 3: Relativní četnosti automobilů dle paliv v obou krajích ......................................... 9
16