Analýza dat z dotazníkových šetření Cvičení 6.
Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší než 2 roky. Předpokládejme, že směrodatná odchylka ̂ ̂
Síla testu je pravděpodobnost, s jakou odhalíme statisticky významný rozdíl při platnosti alternativní hypotézy. Jestliže je síla testu příliš nízká, je malá pravděpodobnost odhalení signifikantního rozdílu, i když reálně existuje. Nízkou sílu testu často způsobuje nedostatečný rozsah výběru. Př.: Určeme minimální potřebný rozsah výběru pro provedení jednostranného testu, jestliže = 0,25; = 0,15; α = 0,05; 1 - β = 0,9. (
√
(
) ( (
√
(
)
))
(
√
( (
)
)
√ )
(
))
Analýza závislostí: -
Kontingenční tabulka X/Y x1 x2 … XR celkem
y1 n11 n21 … nR1 n01
y2 n12 n22 … nR2 n02
… … … … … …
yS n1S n2S … nRS n0S
celkem n10 n20 … nR0 N
R … počet řádků tabulky S… počet sloupců tabulky N … celkový počet prvků souboru n01 až n0S a n10 až nR0 … MARGINÁLNÍ ČETNOSTI (rozdělení znaků X a Y). K analyzování závislostí v kontingenční tabulce se využívá chí-kvadrát test (podle očekávaných četností) Popis testu: Předpokládáme, že jedny z marginálních četností (řádkové nebo sloupcové) jsou pevně dány. Provádíme výběr jednotek z několika populací a u každé statistické jednotky zjišťujeme hodnotu jediného nominálního znaku. Zajímá nás, zda jsou pravděpodobnosti výskytu jednotlivých hodnot ve všech populacích stejné. Hypot_ezy Hypotézy: H0 : všechny řádky (sloupce) pocházejí ze stejné populace, ekvivalentně: relativní četnosti v každém řádku (sloupci) jsou stejné. HA : H0 neplatí. Předpoklady testu: - Alespoň 80% očekávaných četností musí být větších než 5. - Všechny očekávané četnosti musí být větší než 1. - Nejsou-li předpoklady splněny, používají se tzv. exaktní testy. Př. Vraťme se k souboru dovolená, analyzujte závislost proměnných, Máte děti a Jste? H0 : proměnné Máte děti a Jste jsou nezávislé HA : H0 neplatí. -
Ruční výpočet viz přednáška, popř. doporučená literatura k předmětu: ∑∑
(
) ( (
)
( )
)
(
)
(
)
(
)
∑∑
(
(
)
(
)
(
))
Při testování na 5% hladině významnosti vypočtenou hodnotu statistiky [( )( )] [ ] porovnáváme s kvantilem
, resp.
,
Výpočet viz SPSS: Transform – Compute Variable – IDF.CHISQ(0.95,2) = 5,99 V obou případech jsme získali hodnotu mnohem vyšší než je vypočtená kritická hodnota. Zamítáme nulovou hypotézu. Kompletní výpočet pomocí SPSS: SPSS: Analyze – Descriptive Statistics – Crosstabs Rows: Máte děti Culomns: jste Statistics: Chi-square Zaškrtnout: Display cluster bar charts Chi-Square Tests
Máte děti? * Jste? Crosstabulation Count
Máte děti? * Jste? Crosstabulation Jste?
Expected Count
muž žena Total Máte děti? ano - 1
4
9
13
ano - 2-3
14
3
17
nemám
27
45
72
45
57
102
Total
Jste? muž žena Total Máte děti? ano - 1 ano - 2-3 nemám Total Asymp. Sig. (2-
Value Pearson Chi-Square Likelihood Ratio N of Valid Cases
df
sided)
a
2
,002
12,830
2
,002
12,299
102
a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 5,74.
Závěr: Zamítáme nulovou hypotézu o nezávislosti proměnných.
5,7
7,3
13,0
7,5
9,5
17,0
31,8 40,2
72,0
45,0 57,0 102,0
Př. Vraťme se k souboru dovolená, analyzujte závislost proměnných, Kde nejčastěji trávíte dovolenou a Jaký typ ubytování preferujete? H0 : proměnné Kde nejčastěji trávíte dovolenou a Jaký typ ubytování preferujete jsou nezávislé HA : H0 neplatí. SPSS: Analyze – Descriptive Statistics – Crosstabs Rows: Kde nejčastěji trevite dovolenou Culomns: Jaky typ ubytovani preferujete Statistics: Chi-square Zaškrtnout: Display cluster bar charts Kde nejčastěji trávíte dovolenou? * Jaký typ ubytování preferujete? Crosstabulation Count Jaký typ ubytování preferujete? hostely/hotely hotel hotel 4* apartmán/mobilhome Kde nejčastěji
v ČR (včetně
trávíte
chalupaření)
dovolenou?
v zahraničí
Total
2* a méně
3*
a více
jiné
vlastní Total
13
1
7
9
3
6
39
12
4
24
19
3
1
63
25
5
31
28
6
7
102
Chi-Square Tests
Asymp. Sig. (2Value Pearson Chi-Square Likelihood Ratio N of Valid Cases
df
sided)
a
5
,020
13,738
5
,017
13,400
102
a. 6 cells (50,0%) have expected count less than 5. The minimum expected count is 1,91.
Závěr: nelze rozhodnout o výsledku testu 6 buněk 50% očekávaných četností je menších než 5. Nejsou splněny předpoklady testu.
Př.: Charakterizujme vztah proměnných Máte děti a jste pomocí symetrických koeficientů. Symetrické koeficienty (Pearsonův kontingenční koeficient, koeficient fí, Cramérovo V). V případě nezávislosti nabývají koeficienty hodnoty 0.
Pomocí SPSS:
SPSS: Analyze – Descriptive Statistics – Crosstabs Rows: Máte děti Culomns: jste Statistics: Contingency coeficient s Phi and Cramér´s
Symmetric Measures Value Nominal by Nominal
N of Valid Cases
Approx. Sig.
Phi
,347
,002
Cramer's V
,347
,002
Contingency Coefficient
,328
,002
102
Výstupem je i minimální hladina významnosti, od které zamítáme nulovou hypotézu o nezávislosti proměnných (sloupec Approx.Sig.). Můžeme tedy říct, že ve všech případech usuzujeme na závislost mezi proměnnými Máte děti a Jste a to jak na 5%, tak i na 1% hladině významnosti.