Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a jeho názorem na odstěhování se ze Šluknova. Případně změřte sílu závislosti vhodnou charakteristikou. Zjištěné údaje jsou uspořádané v následující tabulce. Pohlaví
ano 115 120 235
muž žena Součet
Názor na odstěhování dosud ne ne 37 199 41 254 78 453
Součet 351 415 766
Použijeme test nezávislosti kategoriálních znaků, neboť obě proměnné, uspořádané v kontingenční tabulce, jsou slovní (kategoriální). 1)
H0: pohlaví respondenta a názor na odstěhování na sobě nezávisí H1: non H0 r
s
2) G = ∑∑ i =1 j =1
(n
ij
− nij′ ) ≈ χ 2 [(r − 1)(s − 1)] , G ∈ 0, n ⋅ h , h ... min (r – 1), (s – 1) nij′ 2
nij′ .... teoretické četnosti; nij ...... empirické četnosti; r ..... počet řádků kontingenční tabulky; s ..... počet sloupců kontingenční tabulky; h .... menší z čísel (r-1) a (s-1).
{
}
3) W ≡ G; G > χ 02,95 (2)
W ≡ {G; G > 5,991} Výpočet parametru rozdělení χ2: (r – 1) · (s – 1) = (2-1)·(3-1) = 1·2 = 2
4) Aby bylo možné vypočítat hodnotu G, je třeba určit teoretické četnosti pro každé políčko kontingenční tabulky. To lze podle: ni • ⋅ n• j nij′ = n n ⋅n 351 ⋅ 235 ′ = 1• •1 = př. n11 = 107,68 n 766
n1• ⋅ n•2 351 ⋅ 78 = = 35,74 atd. n 766 Teoretické četnosti nij′ obsahuje následující tabulka: ′ = n12
Pohlaví muž žena Součet
Názor na odstěhování ano dosud ne ne 107,68 35,74 207,58 127,32 42,26 245,42 235 78 453
Součet 351 415 766
Nyní mohu spočítat hodnotu testového kritéria G: 2 2 2 2 2 2 ( 115 − 107,68) ( 37 − 35,74 ) ( 199 − 207,58) ( 120 − 127,32) ( 41 − 42,26) ( 254 − 245,42) G= + + + + + 107,68 35,74 207,58 127,32 42,26 245,42 = 1,653 5) G ∉W ⇒ nezamítáme H0, nepřijímáme H1. Na hladině významnosti 5 % nezamítáme předpoklad o nezávislosti pohlaví a názoru respondenta na odstěhování se ze Šluknova. Poznámka: Pokud by byla testem závislost prokázána, mohli bychom její sílu změřit např. pomocí Cramérova koeficientu kontingence CC. Procedura v SGP: Describe – Categorical Data – Contingency Tables !!! Pokud budeme příklad řešit přes SGP, není potřeba stanovovat kritický obor. Stačí uvést formulaci hypotéz, hodnotu testového kritéria, P-Value, porovnání P-Value s α, závěr testu (zamítáme x nezamítáme H0 ; přijímáme x nepřijímáme H1) a slovní odpověď.
Příklad: Korelační analýza V rámci dotazníkového šetření ve Šluknově bylo zjištěno hodnocení možností sportovního a kulturního vyžití. Posuďte na hladině významnosti 5 %, zda jsou tato hodnocení korelovaná. Případně změřte sílu lineární závislosti vhodnou charakteristikou. Zjištěná data jsou uspořádána v následující tabulce. Sportovní vyžití (xi) 1 2 3 4 5 n.j
1 1 1 0 0 0 2
Kulturní vyžití (yj) 2 3 0 0 2 0 2 1 0 2 0 1 4 4
4 0 2 3 4 1 10
ni. 1 5 6 6 2 20
Data jsou číselná, uspořádána v korelační tabulce, úkolem je posoudit, zda je mezi proměnnými lineární závislost – použijeme proto test hypotézy o nulové hodnotě korelačního koeficientu, protože korelační koeficient měří sílu lineární závislosti. Alternativní postup: Vystihnout závislost x a y pomocí sdružených regresních přímek; jejich vhodnost ověřit pomocí individuálních t-testů a celkového F-testu a následně vypočítat hodnotu koeficientu korelace a tu interpretovat.
1) H0: Mezi hodnocením kulturního a sportovního vyžití není lineární závislost. (NEBO H0: ρyx = 0 , tj. hodnota koeficientu korelace v základním souboru je nulová, což znamená, že neexistuje mezi x a y lineární závislost) H1: non H0 2) t =
ryx ⋅ n − 2 1 − ryx2
3) W ≡ t; t ≤ t α (n − 2) ∪ t ≥ t α (n − 2 ) 1− 2 2 W ≡ {t; t ≤ t 0, 025 (18) ∪ t ≥ t 0,975 (18)}
W ≡ {t ; t ≤ −2,101 ∪ t ≥ 2,101}
4) ryx = 0,528 0,528 ⋅ 18 t= = 2,638 1 − 0,528 2 5) t ∈W ⇒ zamítáme H0, přijímáme H1. Na hladině významnosti 5 % jsme prokázali, že mezi oběma hodnoceními existuje lineární závislost (korelace). Sílu lineární závislosti měříme pomocí koeficientu korelace – tato charakteristika nás informuje nejen o síle lineární závislosti, ale zároveň i o směru této závislosti. ryx = 0,528 → Lineární závislost mezi oběma hodnoceními je středně silná a přímá. To, že je závislost přímá, znamená, že jdou obě hodnocení stejným směrem, tj. čím vyšší je hodnocení sportovního vyžití, tím vyšší je hodnocení kulturního vyžití a naopak. Procedura v SGP: Describe – Multivariate Methods – Multiple-Variable Analysis (Correlations)… !!! Pokud budeme příklad řešit přes SGP, není potřeba stanovovat kritický obor. Stačí uvést formulaci hypotéz, P-Value, porovnání P-Value s α, závěr testu (zamítáme x nezamítáme H0; přijímáme x nepřijímáme H1) a slovní odpověď. DOPORUČUJI TENTO PŘÍKLAD ŘEŠIT V SGP – ruční výpočet ryx je dost časově náročný.
Příklad: Regresní analýza Vystihněte závislost hodnocení úrovně a dostupnosti zdravotnictví na vzdělání respondenta pomocí vhodné regresní funkce a změřte sílu závislosti vhodnou charakteristikou. Uvažujte α = 0,05 . Hodnocení úrovně a dostupnosti zdravotnictví (yj) 1 2 3 4 5 3 1 1 0 2 20 32 54 40 34 20 58 85 58 43 7 39 66 69 48 1 6 8 8 7 0 0 8 12 6 0 3 2 0 0 51 139 224 187 140
Vzdělání (xi) bez vzdělání (0) ZŠ (1) SŠ bez M (2) SŠ s M (3) VOŠ (4) VŠ (5) VŠ postgrad. (6) n.j
ni. 7 180 264 229 30 26 5 741
Můžeme si načrtnout bodový diagram, abychom alespoň zhruba tušili, jaká funkce by mohla být vhodná.
Plot of Hodnoceni_zdrav vs Vzdelani
5
Hodnoceni_zdrav
4
3
2
1
0 0
1
2
3 Vzdelani
4
5
6
Z tohoto bodového diagramu moc nepoznáme, můžeme tedy vypočítat určité statistické charakteristiky, které slouží pro posouzení vhodnosti dané regresní funkce (v SGP Relate – Simple Regression – procedura „Comparison of Alternative Models“).
Comparison of Alternative Models Model Correlation Reciprocal-Y -0,1592 Logarithmic-Y square root-X 0,1530 Exponential 0,1445 Double square root 0,1392 Reciprocal-Y squared-X -0,1364 Square root-Y 0,1334 Logarithmic-Y squared-X 0,1257 Square root-X 0,1248 Linear 0,1214 Square root-Y squared-X 0,1170 Squared-X 0,1073 Squared-Y 0,0990 Squared-Y square root-X 0,0988 Double squared 0,0886 Reciprocal-Y square root-X <no fit>
R-Squared 2,53% 2,34% 2,09% 1,94% 1,86% 1,78% 1,58% 1,56% 1,47% 1,37% 1,15% 0,98% 0,98% 0,79%
Vidíme, že žádný z modelů nevykazuje příliš vysokou hodnotu indexu determinace (RSquared). Pro jednoduchost vyberme přímku (Linear). Rovnice regresní přímky, která popisuje závislost hodnocení zdravotnictví na vzdělání: Y = 2,999 + 0,135 x Nyní je třeba ověřit vhodnost parametrů regresní přímky pomocí individuálních t-testů a následně pomocí celkového F-testu otestovat vhodnost celé funkce. t-testy: (budou prováděny na základě výsledků z SGP) test parametru β0:
H0 : β0 = 0 H1 : β 0 ≠ 0
t = 29,531 P-Value = 0,0 ⇒ P-Value < α, tj. zamítáme H0, přijímáme H1. Na hladině významnosti 5 % jsme prokázali, že parametr β0 je statisticky významný (je tedy přínosem pro danou funkci). test parametru β1:
H 0 : β1 = 0 H 1 : β1 ≠ 0
t = 3,325 P-Value = 0,0009 ⇒ P-Value < α, tj. zamítáme H0, přijímáme H1. Na hladině významnosti 5 % jsme prokázali, že parametr β1 je statisticky významný (je tedy přínosem pro danou funkci). Celkový F-test: H 0 : β 0 = c, β 1 = 0 (H0: přímka není vhodný model pro popis závislosti hodnocení zdravotnictví na vzdělání) H1: non H0 F = 11,05
P-Value = 0,0009 ⇒ P-Value < α, tj. zamítáme H0, přijímáme H1. Na hladině významnosti 5 % jsme prokázali, že přímka je vhodná k vystižení závislosti hodnocení zdravotnictví na vzdělání. Sílu závislosti změříme pomocí indexu determinace: I2 = 0,015. Index determinace poukazuje na velmi slabou závislost (Jen 1,5 % z celkové variability závisle proměněné y je možné vysvětlit pomocí zvolené regresní přímky.). Poznámka: Nízká hodnota indexu determinace nemusí značit jen slabou závislost, může to též znamenat, že nebyla vybrána dobrá regresní funkce. To vidíme i v tomto případě, kdy sice oba t-testy i celkový F-test vyšly významné, ale pokud přímka dokáže popsat jen 1,5 % z celkové variability závisle proměnné, je to opravdu hodně málo a funkce není moc kvalitní. Pravdou je, že regresní funkce jsou vhodné zejména pro spojité numerické proměnné. Naše proměnné tuto podmínku nesplňují. V praxi bychom zřejmě volili jinou metodu pro popis závislosti y na x, např. analýzu rozptylu (takový příklad stihli jsme na přednášce).