Vysoká škola báňská – technická univerzita Ostrava Fakulta elektrotechniky a informatiky
Bankovní účty (semestrální projekt – statistika)
Tomáš Hejret (hej124)
18.5.2013
Úvod Cílem tohoto projektu, zadaného v rámci předmětu Statistika, bylo prozkoumat, zda existují pozoruhodné vlastnosti úživatelů bankovních účtů, či vlastností produktů, jež různé skupiny populace využívají. Data byla získána online dotazníkovým průzkumem. Nejprve byly zkoumány základní údaje respondentů, následně se několik otázek týkalo běžných bankovních účtů a doplňující otázky byly zaměřeny na spořící účty.
2
Obsah 1 Zadání...............................................................................................................................................4 1.1 Zdroj dat....................................................................................................................................4 2 Zdrojová data....................................................................................................................................5 3 Analýza dat.......................................................................................................................................6 3.1 Explorační analýza....................................................................................................................6 3.1.1 Vzdělání............................................................................................................................6 3.1.2 Zaměstnání........................................................................................................................7 3.1.3 Výše bankovních poplatků................................................................................................7 3.1.4 Využívání spořících účtů...................................................................................................8 4 Statistická indukce............................................................................................................................9 4.1 Sledování závislosti mezi výší placených bankovních poplatků a zaměstnaneckým statusem9 4.1.1 Ověření předpokladů.........................................................................................................9 4.1.2 Mannův-Whitneyův test..................................................................................................10 4.1.3 Závěr...............................................................................................................................10 4.2 Sledování závislosti mezi dosaženým vzděláním a využíváním spořících účtů.....................11 4.2.1 Ověření předpokladů.......................................................................................................11 4.2.2 Kontingenční tabulka......................................................................................................11 4.2.3 Mozaikový graf využívání spořících účtů podle dosaženého vzdělání...........................12 4.2.4 Shlukový graf..................................................................................................................12 4.2.5 2 (chí-kvadrát) test........................................................................................................12 4.2.6 Závěr...............................................................................................................................12
3
1 Zadání Zvolte si reálný výběrový soubor, který obsahuje alespoň • 30 statistických jednotek • 3 statistické proměnné Zpracovávaný soubor musí být výběrovým souborem (vzorkem z nějaké populace). Pokud data nejsou náhodným výběrem, nelze je použít. Jednalo by se o tzv. vyčerpávající šetření, u něhož pozbývá smyslu celá statistická indukce. Pro analýzu datového souboru použijte následující metody: •
Explorační analýza (povinně)
a alespoň jednu z každé skupiny uvedených metod statistické indukce: •
Intervalové odhady, Jednovýběrové testy parametrických hypotéz, Dvouvýběrové testy parametrických hypotéz
•
ANOVA, Analýza kontingenčních tabulek, Regresní (jednoduchá lineární regrese) a korelační analýza
Součástí projektu je ověření všech předpokladů použitých metod statistické indukce.
1.1 Zdroj dat Internet, masová média (noviny, časopisy, ...), vlastní laboratorní měření , vlastní sociologický průzkum (anketa), apod.
4
2 Zdrojová data Dotazníkové šetření probíhalo ve dnech 2.5.2013 – 8.5.2013 pomocí online dotazníku (https://docs.google.com/forms/d/1tteKk1ySgefAmb_U1_iKAsJ2I0cLeVwfRLwuR_MqXI/viewform) vytvořeného ve službě Google Docs / Google Drive. Odkaz na dotazník byl zveřejněn na sociální síti FaceBook a rozesílán pomocí prostředků pro rychlé posílání zpráv. Dotazník vyplnilo celkem 78 lidí, z nichž jeden záznam byl odstraněn jako irelevantní (daná osoba neměla zřízen žádný bankovní účet).
Ukázka (část) dotazníku
5
3 Analýza dat 3.1 Explorační analýza V následujících kapitolách bude provedena explorační analýza statistických proměnných, které byly dále použity pro ověřování závislostí mezi jistými skupinami respondentů.
3.1.1 Vzdělání Dotazník vyplňovali pouze lidé s maturitou a vyšším vzděláním, počty respondentů s „maturitou na gymnáziu“ a „maturitou na odborné škole / učilišti“ byly sloučeny kvůli splnění podmínek při následné statistické indukci. Nejvyšší dosažené vzdělání
Absolutní četnosti
Relativní četnosti
Maturita
23
30%
Vyšší odborné
10
13%
Vysokoškolské
44
57%
CELKEM
77
100%
6
3.1.2 Zaměstnání U této statistické proměnné mohli respondenti vybrat více kategorií najednou. Zaměstnání
Absolutní četnosti
Relativní četnosti
Student/ka
50
53%
Zaměstnaná/ý
32
34%
Nezaměstnaná/ý
2
2%
Ponikatel/ka nebo živnostník
10
11%
CELKEM
94
100%
Histogram typu zaměstnání respondetnů
3.1.3 Výše bankovních poplatků Dotazník ze ptal také na výši bankovních polpatků, přičemž pokud respondent používal více běžných účtů, měl vyplnit nejvyšší měsíční částku v Korunách českých, kterou za některý z účtů platí. Částka 1500Kč / měsíc, kterou jeden z respondentů uvedl, byla z dat vyřazena jakožto odlehlé pozorování. Průměr Medián Směrodatná odchylka Minimum Maximum Rozsah
54,143 27,0 70,464 0 321,0 321,0
7
3.1.4 Využívání spořících účtů Má spořící účet Absolutní četnosti
Relativní četnosti
ano
35
45%
ne
42
55%
CELKEM
77
100%
Koláčový graf využívání spořících účtů:
8
4 Statistická indukce V následující kapitole bude vyhodnocováno, zda existují souvisosti mezi některými kombinacemi statistických proměnných. Data byla analyzována pomocí programu STATGRAPHICS Centurion XVI verze 16.1.18.
4.1 Sledování závislosti mezi výší placených bankovních poplatků a zaměstnaneckým statusem Myšlenkou vedoucí ke sledování této závislosti bylo, že podnikatelé a živnostníci potřebují pro svou činnost nadstandardní bankovní služby či nástroje. V důsledku toho je možné se domnívat, že za takové nadstandarty si budou muset v bankách připlatit. Nulová hypotéza H0:
Výše bankovních poplatků, které respondenti odvádějí bankám, nemá souvislost s tím, že provádějí podnikatelskou či živnostenskou činností
Alternativní hypotéza HA: ¬ H0 K analyzování této závislosti použiji dvouvýběrový test parametrické hypotézy o shodě středních hodnot. Pro analýzu se tedy použije jako jedna skupina kategorie „Ponikatelé a živnostníci“ a jako druhá skupina „ostatní“ tedy zbývající kategorie.
4.1.1 Ověření předpokladů •
Nezávislé výběry populace
•
Normální rozdělení
Jak je vidět na histogramu poplatků, nejedná se o normální rozdělení hodnot. Z tohoto důvodu nemůžeme použít dvouvýběrový test parametrické hypotézy o shodě středních hodnot a namísto toho aplikujeme Mannův-Whitneyův test, což je neparamterický test o shodě mediánů.
9
4.1.2 Mannův-Whitneyův test Je potřeba zavést nové hypotézy: Nulová hypotéza H0:
x0,5 = y0,5
Alternativní hypotéza HA: x0,5 > y0,5 U 1=n 1⋅n2 +
n1 (n 1+1) 67(67+1) −T 1=10⋅67+ −510=2438 2 2
U 2=n1⋅n 2+
n2 ( n2+1) 10(10+1) −T 2=10⋅67+ −2493=−1768 2 2
T ( X , Y )=min(U 1, U 2 )=−1786
Dle tabulky T7. Kritické hodnoty Mannova-Whitneyova testu je vypočtená hodnota pod kritickou hodnotou – tzn. zamítáme nulovou hypotézu.
4.1.3 Závěr Jelikož byla nulová hypotéza zamítnuta, příjímáme alternativní hypotézu. Z toho vyplývá, že existuje souvislost mezi podnikatelskou či živnostenskou činností a výší poplatků, které měsíčně daná osoba platí.
10
4.2 Sledování závislosti mezi dosaženým vzděláním a využíváním spořících účtů Zde chceme sledovat, zda existuje závislost mezi vzděláním respondentů a tím, zda si zřídili spořící účet. Jinými slovy zde sledujeme, zda lidé s vyšším vzděláním přikládají vyšší váhu eleminaci ztrát potenciálu peněz, kvůli snižování jejich hodnoty inflací. Úrok na spořicím účtu obvykle není dostatečně vysoký, aby kromě pokrytí inflace sloužil ke zhodnocení vkladu. Nulová hypotéza H0:
Výše dosaženého vzdělání nemá vliv na využívání spořících účtů.
Alternativní hypotéza HA: ¬ H0 K analyzování této závislosti použiji kontingenční tabulku a na tu pak 2 (chí-kvadrát) test nezávislosti v kontingenční tabulce. Pro analýzu se použije na řádcích (nezávisle proměnná) jednotlivé úrovně dosaženého vzdělání a ve sloupcích (závisle proměnná) bude pouze „má spořící účet“ / „nemá spořící účet“ (možnosti, které se vyskytovali v dotazníku u otázky, týkajícíc se využívání spořících účtů, se zredukují pouze na má / nemá).
4.2.1 Ověření předpokladů •
Žádná z očekávaných četností nesmí být < 2
•
Alespoň 80% očekávaných četností musí být > 5
Oba předpoklady jsou splněny.
4.2.2 Kontingenční tabulka vzdělání Maturita – absolutní četnost – relativní četnost – očekávaná četnost Vyšší odborné – absolutní četnost – relativní četnost – očekávaná četnost Vysokoškolské (Bc., Mgr., Ing., PhD.,... – absolutní četnost – relativní četnost – očekávaná četnost Součty - sloupce
11
ano 7 9,09% 10,45 4 5,19% 4,55 24 31,17% 20,00 35 45,45%
ne 16 20,78% 12,55 6 7,79% 5,45 20 25,97% 24,00 42 54,55%
Součty - řádky 23 29,87% 10 12,99% 44 57,14% 77 100,00%
4.2.3 Mozaikový graf využívání spořících účtů podle dosaženého vzdělání
4.2.4 Shlukový graf
4.2.5 2 (chí-kvadrát) test
tato hodnota znamená, že nemáme nulovou hypotézu zamítnout ??? p-hodnota = 0,1589 – zamítáme nulovou hypotézu.
4.2.6 Závěr Jelikož byla nulová hypotéza na hladině významnosti 0,05 zamítnuta, příjímáme alternativní hypotézu. To také potvrzuje členitost mozaikového grafu. Z toho vyplývá, že existuje souvislost mezi dosaženým vzděláním a pravděpodobností využívání spořících účtů a to s přímou úměrností (čím vyšší vzdělání, tím vyšší pravděpodobnost využívání spořících účtů). Hodnocení 9b
12