UK FHS Historická sociologie (LS 2011+)
Analýza kvantitativních dat II.
Kontingenční tabulka: vztahy mezi kategorizovanými znaky - míry asociace/korelace, znaménkové schéma Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 1.12.2014 (14.12. 2013) ® Jiří Šafr, 2014
Kontingenční tabulky sestavujeme tak, aby vyjadřovaly naší pracovní hypotézu.
Asociace mezi znaky míra souvislosti znaků opakování
Základní možnosti pro vztah dvou proměnných A x B (opakování) • Nominální A (kategoriální či „kvalitativní“ proměnná) a nominální B → procentní podíly (podmíněné pravděpodobnosti) kontingenční tabulka (+ chí kvadrát test), znaménkové schéma, koeficient kontingence • Dtto ale ordinální → dtto + pořadové korelace (Sperman, Tab-B) • Nominální A x kardinální (číselná) → průměry B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly), koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální
Kategoriální data (nominálními a ordinální znaky)
1. „Celkový pohled“ na těsnost vztahů v kontingenční tabulce
→ Koeficienty asociace (pořadové korelace) Většinou jim předchází test hypotézy o celkové nezávislosti/homogenitě (dvoudimenzionální Chíkvadrát test).
Míry asociace / korelace v kontingenční tabulce pro kategoriální znaky
Asociace nominálních znaků Vyjádření souvislosti pomocí koeficientu (ekvivalent ke korelaci)
Asociace nominálních znaků: Kontingenční koeficient (CC) • Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr. • Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce CC je rozšíření koef. Phi pro >2x2 tabulky.
V SPSS: Analyze, Descriptive Statistics, Crosstabs; vložit Row a Column variables; → Statistics; → Contingency Coefficient / Phi & Cramer‘s V
Míry asociace v kontingenční tabulce • Při interpretaci i měření souvislosti je důležité, zda jsou jedna nebo obě proměnné nominální nebo ordinální. • Základním nástrojem analýzy jsou vždy procentní rozdíly. • Navíc můžeme měřit míru těsnosti vzájemného vztahu pomocí: • pro nominální znaky koeficientů asociace (Kontingenční koeficient, Cramérovo V, Lambda atd.).
• pro ordinální znaky navíc (kromě koeficientů asociace) koeficientů pořadové korelace (Spermanovo Rho, Gamma, Kendallovo Tau B, ..). Zadání nominálních asociací a pořadových korelací v SPSS uvádíme dále; podrobně viz 2. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky na http://metodykv.wz.cz/AKD2_korelace.ppt Pokud máme výběrová data (vzorek z populace), pak bychom měli testovat statistickou významnost koeficientů asociace/korelace (to se naučíme v AKD II.).
• K jednoduché analýze kontingenční tabulky také používáme např.: odds ratio = poměry šancí (→ vzájemně podmíněné pravděpodobnosti) Podrobně viz 5. Poměry šancí (Odds Ratio) http://metodykv.wz.cz/AKD2_odds_ratio.ppt
míry rozptýlení, např. Index nepodobnosti (Δ) Viz 9. Míry variability: variační koeficient a další indexy http://metodykv.wz.cz/AKD2_variacni_koef.ppt
Míry asociace (pro nominální proměnné) • Obecně pro koeficienty asociace platí: • Mají rozpětí 0 = žádná souvislost až 1 = dokonalá souvislost mezi znaky. • V principu říkají kolik – jaký podíl variability jedné proměnné lze vysvětlit pomocí druhé. Ale pozor, „vysvětlení“ je třeba chápat ve smyslu redukce statistického rozptýlení dat, nikoliv ve smyslu kauzální interpretace. [Řehák, Řeháková 1986: 250]
• • • • •
• Nevyjadřují směr asociace (jako tomu je v případě korelací, nicméně některé koeficienty asociace jsou asymetrické (directional), tj. musíme definovat, která proměnná je závislá a které nezávislá). Kontingenční koeficient C (CC) Nejjednodušší na výpočet. Ale nepoužívejte je, tam kde porovnáváte míru asociace mezi tabulkami s různým počtem kategorií. Cramér's V (CV nebo Cr) obecně ho lze doporučit (ale má také nedostatky) Pokud jsou obě proměnné dichotomické (2×2 tabulka) používáme Phi koeficient (pro 2×2 tabulku je stejný jako CV) Lambda Λ (symetrická/ asymetrická) měří procentní zlepšení odhadu jedné proměnné na základě hodnot jiné proměnné (oboustranné – symetrická nebo pouze predikující závislou proměnnou – asymetrická) Všechny tyto koeficienty jsou k dispozici v SPSS pomocí CROSSTABS (viz dále)
Pozor: pokud nenaměříme korelaci, mezi znaky stále ještě může být (nominální) asociace. • Pokud není přítomná ordinální závislost – korelace, tak to automaticky neznamená statistickou nezávislost. Znamená to pouze, že není ordinálně uspořádaný vztah (~ linearita). Stále mezi znaky ale může být asociace, tj. vzájemný spoluvýskyt hodnot je např. kumulován do jednoho políčka tabulky (nebo několika políček mimo diagonálu resp. bez jakéhokoliv jiného „trendu“).
• Tuto situaci indikuje signifikantní koeficient asociace (např. Cramerovo V) zatímco ordinální korelace je přibližně nulová (např. Gamma). • Pouze absence nominální závislosti – asociace znamená (celkovou) statistickou nezávislost. (např. CV = 0) • → spočítejte oba typy koeficientů: asociace (Cramer‘s V atd.) i ordinální korelace (Gamma atd.) a porovnejte je.
Míry asociace v kontingenční tabulce a Elaborace • Míry asociace/korelace využíváme také při elaboraci • tj. v třídění dat 3. stupně (vč. popisných cílů analýz). → Jsou asociace v podskupinách podle 3. kontrolní proměnné v zásadě stejné? A nebo se liší jejich intenzita, či dokonce v případě korelací i směr souvislosti?
Míry asociace v třídění (2) a 3. stupně v CROSSTABS •
V rámci CROSSTABS můžeme spočítat míry asociace a korelace pro proměnné Y x X (bivariátně) a navíc i odděleně v kategoriích kontrolního faktoru Z → což nám pomůže rychle posoudit interakce a zhodnotit „falešné“ vlivy.
• Pro nominální znaky (Y, X, Z-kontrolní faktor) koeficienty asociace (mají hodnoty 0-1): CROSSTABS var1 BY var2 BY var3-kontrolní /CELLS COL /STATISTICS CC PHI. Koeficienty asocice: CC = Kontingenční koeficient, PHI = Cramérovo V (+ ekvivalent
pro dichotomické znaky Phi); jsou zde k dispozici i další koeficienty asociace a korelace (např. Lambda).
• Pro ordinální znaky (A, B) a nominální/ordinální kontrolní faktor (C) navíc krom asociací i pořadové korelace (hodnoty -1–0–1 → směr): CROSSTABS var1 BY var2 BY var3-kontrolní /CELLS COL /STATISTICS CC PHI GAMMA CORR BTAU. Korelační koeficienty: GAMMA = Goodman&Kruskalovo Gamma, BTAU =
Kendaullovo Tau B, CORR = Spermanovo Rho (+ Pearsonův korel. koef. R pro kardinální znaky)
•
Pozor, nenaměříme-li korelaci, neznamená to, že mezi znaky nemusí být silná závislost – asociace. Navíc u ordinálních znaků nám porovnání korelací a koeficientů asociace může napovědět o (nelineární) povaze vztahu.
•
Poznámka: v případě průměrů v podskupinách v MEANS lze počítat koeficient(y) Eta2 (pro kardinální x nominální znak):
MEANS var1-závislá-číselná BY var2-nezávislá-kateg. BY var3-kontrolní-kategoriální /CELLS MEAN STDDEV COUNT /STATISTICS ANOVA. Více o koeficientech asociace a korelace v 2. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky na http://metodykv.wz.cz/AKD2_korelace.ppt
Pořadové korelace pro ordinální znaky - třídění 2. stupně
Pro výběrová data navíc musíme nejprve testovat statistickou hypotézu, že koeficient není roven nule (tj. je nenulový i v celé populaci a nejen v našem vzorku). O tom ale až v AKD II.
[Zdroj: ISSP 2007, ČR]
CROSSTABS prijem4 BY vzd4 /STATISTICS GAMMA BTAU.
Pořadové korelace pro ordinální znaky v třídění 3. stupně (odděleně pro muže a ženy) → pohlaví [s30] je kontrolní faktor
CROSSTABS prijem4 BY vzd4 BY s30 /STATISTICS GAMMA BTAU.
U žen má vzdělání na příjem o něco větší efekt, ale celkově ženy vydělávají bez ohledu na vzdělání méně (viz též graf s průměry příjmu).
[Zdroj: ISSP 2007, ČR]
V AKD2 si dále ukážeme jako spočítat parciální pořadovou korelaci (GAMMA).
Pokud je min. jedna proměnná multi-nominální • Princip je stejný jako u ordinálních znaků, ale nemůžeme počítat korelace, pouze koeficienty asociace (Kontingenční koeficient, Cramérovo V, Lambda atd.).
Pokud je nominální pouze 3. kontrolní proměnná (a ostatní ordinální), pak korelace počítat a vzájemně je porovnávat lze.
• Při interpretaci procentních rozdílů u nominálních znaků musíme brát v úvahu všechny kategorie závislé proměnné i nezávislých proměnných. Jednodušší je to, pokud je alespoň některá ordinální. • Ideální je, pokud máme závislou proměnnou dichotomickou nebo ordinální. • Pokud je závislá proměnná dichotomická, tak jde o ekvivalent porovnávání průměrů v pod/podskupinách.
Typy kontingenčních tabulek se 3 proměnnými a míry asociace/korelace Vždy lze míru asociace vyjádřit pomocí koef. asociace • 2×2×2 (podobně 2×2×3n) – všechny dichotomické → koeficienty asociace a bodově biseriální korelace nebo tetrachorické korelace • 2×3o×3n nebo 2×3o×2 – závislá dichotomická, nezávislá ordinální, kontrolní nominální → pořadové korelace ve skupinách kontrolního faktoru (bez možnosti posouzení trendu asociace/korelace). • 2×3n×3o – závislá dichotomická, nezávislá nominální, kontrolní ordinální → pouze koeficienty asociace (lze posuzovat trend v asociacích mezi kategoriemi kontrolního faktoru) • 3o×3o×3o (podobně i 2×2×3o) – všechny ordinální → pořadové korelace (lze posuzovat trend v korelacích mezi kategoriemi kontrolního faktoru) + koeficient parciální korelace Platí i pro více kategorií něž 3.
Příklady pro bivariátní asociace/korelace v konting. tabulce 2×2
2×3nominální
2×3ordinální
3o×3o
Pro tabulky větší než 2x2 lze vždy Cramérovo V a Kontingenční koeficient.
Pozor na absolutní četnosti při třídění vyššího stupně • Při třídění 3. a vyššího stupně vždy bedlivě kontrolujte absolutní počty v jednotlivých polích tabulky, zejména u malých souborů.
CROSSTABS var1 BY var2 BY var3 /CELLS COL COUNT. • Pokud jsou četnosti v tabulkách velmi malé, pak je jejich interpretace ze statistického i věcného hlediska v podstatě bezcenná.
Pro ordinální a kardinální (číselné) proměnné viz prezentaci
Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky (AKD2_korelace.ppt)
http://metodykv.wz.cz/AKD2_korelace.ppt Pořadové (ordinální) korelační koeficienty: Spearmanovo Rho, Kendaulovo Tau B, Gama,…
A ZNOVU a znovu … Asociace (korelace) a kauzalita • •
Asociace (korelace) neznamená automaticky kauzální vztah Podmínky kauzality (připomenutí podruhé): 1. Naměřená korelace (asociace A-B) 2. Časová souslednost (k A došlo před B) 3. Lze vyloučit vliv další proměnné/ných (A-B/C)
•
Směr působení nám může pomoci určit silná teorie
Kategoriální data (nominálními a ordinální znaky)
2. Podrobný pohled „dovnitř“ kontingenční tabulky.
Testování „odchylek“ četností v jednotlivých polích tabulky → Znaménkové schéma Předchází test hypotézy o celkové nezávislosti/homogenitě (dvoudimenzionální Chíkvadrát test).
Nejprve viz presentaci
Testování hypotéz (2) zejména část o dvoudimenzionálním Chíkvadrát testu dobré shody →homogenita v kontingenční tabulce http://metodykv.wz.cz/AKD2_hypotezy2.ppt
Krok 1. – celkové zhodnocení (ne)závislosti dvou kategoriálních znaků → Chíkvadrát test v kontingenční tabulce Vztahy dvou (a více) znaků v kontingenční tabulce Malé připomenutí - kopie z http://metodykv.wz.cz/AKD2_hypotezy2.ppt
Kontingenční tabulka Statistické míry a testování • Nezávislost = oba znaky navzájem neovlivňují v tom, jakých konkrétních hodnot nabývají • Homogenita (shodnost struktury) = očekávané četnosti jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku • → test dobré shody = porovnání očekávaných četností v jednotlivých polích tabulky - za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávisí - a skutečných četností. • Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení chí kvadrát o (r-1)(s-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou (kvantilem) příslušné hladiny významnosti.
Chí-kvadrát testy: test dobré shody připomenutí • Test pro homogenitu distribucí mezi kategoriemi znaku/ů • test dobré shody = shody relativních četností ni/n a hypotetických pravděpodobností. • Pro nominální znaky (i ordinální a kategorizované kardinální) • Nevyžaduje znalost předchozího rozdělení znaku • Očekávané frekvence: dle rozložení kategorií 1 znaku nebo v kontingenční tabulce vztah 2 znaků • Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - fO) četnostmi a teoretickými (očekávanými -fE) četnostmi náhodné nebo ne.
•
Počet stupňů volnosti df = (r-1) (s-1) r = počet řádků s = počet sloupců v tabulce
Chí-kvadrát test nezávislosti • Nulová hypotéza „o nezávislosti“ odpovídá na otázku, zda jsou rozdíly mezi empirickými-pozorovanými a teoretickými četnostmi náhodné nebo ne. • Očekávané četnosti lze získat z hodnot v populaci nebo porovnávat s teoretickou hodnotou, např. z jiného výzkumu. • Nejčastěji třídíme údaje podle dvou nebo více znaků v kontingenční tabulce. • Lze aplikovat na již existující agregovaná data (publikované tabulky apod.)
Princip testování vztahu 2 a více proměnných • Většina statistických testů je založena na srovnání naměřené (empirické) distribuce pozorování do polí tabulky s distribucí, jakou bychom obdrželi, kdyby pozorování byla zařazena do polí tabulky náhodně (teoretická četnost).
Příklad: Čtení knih a vzdělání
Očekávaná četnost pro dané políčko = násobek odpovídajících marginálních četností vydělíme celkovou sumou četností Např. pro fE11 je 645*173/1202 = 92,8
Zdroj: data ISSP 2007, ČR (neváženo)
Postup pro ruční výpočet
V SPSS: Očekávané četnosti (Expected count) a empirické (=absolutní) četnosti (Count) Příklad: Čtení knih a vzdělání Zdroj: data ISSP 2007, ČR (neváženo)
Příklad: Čtení knih a vzdělání df = (5-1)(3-1) = 8 při Alpha 0,05 naměřená hodnota
χ2 = 112,17 > χ2krit = 15,507
→ nemůžeme přijmout (zamítáme) H0 „o nezávislosti“, tj., že ve čtení nejsou rozdíly mezi vzdělanostními kategoriemi → alespoň u jedné kategorie (buňce v tabulce) v porovnání s ostatními kategoriemi tabulky se liší očekávané od empirických četností (Test říká, že tuto skutečnost nalezneme s 95 % jistotou v celé populaci.) Místo porovnání hodnoty testovacího kritéria s kritickými – tabulkovými hodnotami se pro rozhodování o nulové hypotéze používá také p-hodnota, či significance kterou zjistíme pomocí statistického software (princip viz dále).
p < α zamítáme H0 p > α nelze zamítnout H0
Kontingenční tabulka a testy dobré shody – pozor na: • Prázdná pole a nízké četnosti v tabulce mohou zkreslit význam koeficientů měřících souvislost. • Pro použití testů založených na testu dobré shody (test nezávislosti nebo homogenity) je třeba, aby se v tabulce vyskytlo méně než 20 % políček, v nichž by očekávané (teoretické) četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano").
Kontingenční tabulka - vyjádření vztahů kategorií • Statistika Chí kvadrát nevypovídá nic o síle vztahu, pouze zamítá/nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině významnosti alfa. • Pro zjištění síly vztahu → - koeficienty asociace (obdobné korelaci: CC), - znaménkové schéma – adjustovaná residua - podíl šancí (OR), - u ordinálních veličin korelační koef. dle pořadí. Odlišné testy pro nominální a ordinální proměnné (jedna / obě).
Po provedení testu celkové závislosti dvou kategoriálních znaků bychom měli pokračovat analýzou vztahů „uvnitř“ kontingenční tabulky.
Test odchylky od nezávislosti v polích tabulky: Adjustovaná residua a znaménkové schéma
Test odchylky od nezávislosti v poli tabulky → znaménkové schéma • V případě zamítnutí hypotézy o celkové nezávislosti, tj. celkové homogenitě tabulky (např. pomocí Chíkvadrát testu) • dále hledáme pole tabulky, kde je nezávislost porušena. → skryté souvislosti uvnitř tabulky → znaménkové schéma odhaluje pole, kde nastává významná závislost
Kontingenční tabulka: očekávané četnosti a znaménkové schéma (princip) • Očekávané (teoretické) četnosti vyjadřují model rozložení četností, za předpokladu, že by mezi znaky nebyl žádný vztah. = součin marginálních četností (daného políčka) dělený celkovou četností Očekávaná četnost: fO11 = 2121 * 452 / 3815
[Kapr, Šafář 1969: 186]
Znaménka: Rozdíl mezi pozorovanou (absolutní) a očekávanou četností (k učení síly viz dále)
Znaménkové schéma • Kritérium v daném políčku tabulky (Adjustované residuum) označuje statistickou významnost rozdílu mezi empirickým zjištěnou četností a teoretickou (očekávanou) četností. • Umožňuje rychlou orientaci mezi dvěma znaky.
Adjustovaná residua (ASRESID) → Znaménkové schéma CROSSTABS: Adj. standardised (ASRESID) Adjustovaná residua = • Residuum v daném políčku tabulky (= Pozorovaná (observed) minus Očekávaná (expected) hodnota) dělené odhadem vlastní standardní chyby. Standardizovaný residuál je vyjádřen v jednotkách směrodatné odchylky nad nebo pod průměrem. Znaménkové schéma → jednoduchá vizualizace kde • abs(z) >= 3.29 nahradíme +++ resp. --• abs(z) >= 2.58 nahradíme ++ resp. -• abs(z) >= 1.96 nahradíme + resp. – Z-skóry ukazují na statistickou významnost odchylky empirických (naměřených) četností od očekávaných (teoretických) četností (viz Normované normální rozložení). v SPSS / PSPP v
Znaménkové schéma • měří statistickou významnost odchylek, nikoli jejich velikost. • Vznikne na základě adjustovaných reziduí, ty porovnáme s hodnotami z (1,96; 2,58;…), které odpovídají hladinám významnosti 5% (-), 1% (--), 0,1% (---); • hladina významnosti α = 0,05 (z >2) → 5% riziko chyby našeho závěru; • Např. α = 0,06 → 6% riziko chyby → výsledek je statisticky nevýznamný, naznačuje určitou tendenci, ale nejsme schopni ji prokázat s konvenční hladinou spolehlivosti
Znaménkové schéma: Znaménka Struktura adjustovaných residuí může skrývat působení nějakých latentních faktorů, které jsou přímo neměřitelné, ale které se v dané asociační struktuře projevují. Jde o latentní vlivy, na které můžeme usuzovat pouze na základě takto zjištěného vnějšího projevu. V praxi je struktura charakterizována, např. tzv. znaménkovým schématem (s volbou hranic pro znaménka: -, + = významné na hladině 0,05; --, ++ = na 0,01; ---, +++ = na 0,001). Rozlišujeme: - simultánní inferenci, → postihuje významnou strukturu toku
jako celku (implementováno v SPSS v Asresid), - testování postupně všech jednotlivých polí → struktura znamének označuje významnost těchto jednotlivých proudů.
Zde je schéma znamének v tabulce bohatší, protože prokázat statistickou vlastnost jednoho dílčího proudu bez ohledu na chování ostatních vyžaduje podstatně méně odchylné skóry než přijetí statisticky prokazatelného závěru o šedesáti dílčích proudech současně, tj. přijetí pravděpodobnostně spolehlivého závěru o tom, že všechny označené proudy jsou statisticky významně specifické (slabší nebo silnější) a tudíž jejich struktura může být interpretována jako systematicky vznikající celistvý tok. ZS je běžná rutina československých sociologů, umožňuje názorně pracovat se strukturou asociací v kontingenční tabulce. Je logickým krokem v analýze interakčních vazeb mezi kategoriemi řádků a sloupců. [Řehák, Mánek 1991]
Korespondenční analýza „jednoduchá“ → pro rozkrytí asociací ve složitější dvourozměrné tabulce Vstupní data: kontingenční tabulka 0,32
0,24
0,16
s31 Typ bydlení 1 Rodinný 3 Menší by4 Větší bytTotal 1 Praha 16 4 92 112 72 7 38 117 2 Středočeský 3 Jihočeský 16 9 30 55 4 Plzeňský 44 13 78 135 5 Karlovarský 0 1 24 25 6 Ústecký 36 15 70 121 7 Liberecký 12 6 26 44 48 10 20 78 8 Královéhradec 9 Pardubický 11 7 28 46 10 Vysočina 35 8 8 51 11 Jihomoravský 74 16 49 139 12 Olomoucký 35 8 22 65 13 Zlínský 41 2 9 52 66 20 74 160 14 Moravskoslez 506 126 568 1200
0,08
3_Menší_bytový_dům_(max._6_bytů)
3_Jihočeský 9_Pardubický
6_Ústecký
Axis 2
10_Vysočina
7_Liberecký
14_Moravskoslezský 12_Olomoucký 8_Královéhradecký 11_Jihomoravský
0 4_Plzeňský 4_Větší_bytový_dům
1_Rodinný_domek -0,08
-0,16
5_Karlovarský 2_Středočeský
1_Praha -0,24
13_Zlínský -0,8
-0,6
-0,4
-0,2 Axis 1
0
0,2
0,4
0,6
jednoduchá Korespondenční
analýza
• zde to ovšem není ideální příklad, protože kategorií v tabulce by mělo být alespoň 7x7. • Ve verzi SPSS Base korespondenční analýza bohužel není, ale lze vložit kontingenční tabulku (absolutní četnosti) např. do freeware programu PAST. • PAST lze si lze stáhnout z http://www.nhm2.uio.no/norlex/past/Past.exe (a tento prográmek umí mnohem, mnohem víc...).
Opět příklad: Čtení knih a vzdělání: absolutní četnosti, sloupcová %, adjustovaná residua
Znaménkové schéma Čtení knih podle vzdělání Jak často - Čtení knih 1 denně 2 několikrát týdně 3 několikrát za měsíc 4 několikrát za rok/ méně často 5 nikdy
Vzdělání (3k.) ZŠ+VY SŠ VŠ --o +++ --+++ + o o o +++ o --+++ -----
CROSSTABS: zadání Chíkvadrátu
CROSSTABS: zadání adjustovaných residuí pro znaménkové schéma • Samotné znaménkové schéma musíme následně vytvořit ručně z tabulky (dle hodnot z 3.29 2.58 1.96) a nebo použít skript www.spss.cz/sc_znamenkoveschema.htm
Procvičit v SPSS 0. kontrola absolutních četností v jednotlivých polích → transformace (sloučení) 1. správně orientovaná procenta 2. Chíkvadrát test nezávislosti (tabulky jako celku) 3. adjustovaná residua a znaménkové schéma k detekování významných odchylek Úkol: • Pohlaví a volil v 2006 • Náboženské vyznání x Volil 2006 • Náboženské vyznání x Velikost bydliště • Náboženské vyznání x Velikost bydliště x Volil 2006
Načtení tabelárních dat v SPSS z agregované existující kontingenční tabulky (→ vážení procenty) Volil Věk
Vzdělání
1 nevolil
2 volil
1 <49
1 ZŠ+VY
138
92
2 SŠ+VŠ
106
218
1 ZŠ+VY
143
257
2 SŠ+VŠ
56
175
2 >50
Pozice pole v tabulce Volil Věk
Vzdělání
1 <49
1 ZŠ+VY
111
112
2 SŠ+VŠ
121
122
1 ZŠ+VY
211
212
2 SŠ+VŠ
221
222
2 >50
1 nevolil
2 volil
****nacteni kontingencni tabulky aneb sekundarni analyza (ČR, ISSP 2007). DATA LIST LIST/vek vzdel volil freq. VAL LAB vzdel 1 "ZŠ+VY" 2 "SŠ+VŠ" / vek 1 "<49" 2 ">50" / volil 1 "nevolil" 2 "volil". BEGIN DATA 1 1 1 138 1 1 2 92 1 2 1 106 Syntax: 1 2 2 218 crosstab_data_input.sps 2 1 1 143 2 1 2 257 2 2 1 56 2 2 2 175 END DATA. FORMATS vek vzdel volil freq (f8). WEIGHT by freq. CROSS vzdel by volil by vek. CROSS vzdel by volil.
Poměr šancí - ODDS RATIO → další možnost vyjádření asociací uvnitř kontingenční tabulky
Viz prezentaci Poměr šancí - ODDS RATIO AKD2_odds_ratio.ppt http://metodykv.wz.cz/AKD2_odds_ratio.ppt (následuje kopie toho nejdůležitějšího)
Pomocí OR můžeme vyjádřit vztahy mezi kategoriemi v kontingenční tabulce VŠ - vzdělání 0 Volil 2006
1
Total
0 ne
424
19
443
1 ano
674
68
742
1098
87
1185
Total
OR _= f11 f22 / f12 f21 =
f11 f12 f21 f22
OR = (424*68)/(19*674) = 2,25 U vysokoškoláků je v porovnání s ostatními 2,25x vyšší šance, že půjdou volit. V CROSSTABS v SPSS pozor na kódování kategorií (nelze nastavit, pouze překódovat).
Úkoly k procvičení v SPSS (data ISSP 2007) 2 x 2 tabulky: • Pohlaví a Volil v 2006 • Pohlaví a Vzdělání n x n tabulky: • Velikost bydliště x Vzdělání → sloučení nebo pro vybraná pole tabulky
S tříděním druhého stupně bychom se neměli spokojit. → Třídění třetího (a vyššího) stupně a elaborace vztahů
Vyloučení a zhodnocení vlivu třetího jevu → Elaborace vztahů → Třídění 3 stupně • Kontingenční tabulka A x B x C Příklad: Volil x VŠ x Pohlaví Další možnosti: • Parciální asociace/korelace • Standardizace podle kontrolního faktoru (převážení) • Multivariační metody (je-li závislá proměnná kardinální-číselná např. regresní analýza (OLS), analýza rozptylu (ANOVA); když je kategoriální, např. logistická regrese, loglineární modely)
Elaborace Třídění 3 stupně aneb kontrola pro další faktor (opakování z AKD I.)
Připomenutí z AKD I.
Vícerozměrná analýza: třídění třetího stupně Analyzujeme souběžně vztahy mezi několika proměnnými (nejčastěji více nezávislých – vysvětlujících znaků). Princip je stejný jako u dvourozměrné analýzy.
Princip vícerozměrné analýzy: třídění 3. stupně (2x2x2 tabulka) Jak často navštěvujete bohoslužby?
100% 90%
do 40 let nad 40 let muži ženy muži ženy
80%
50%
70% 60%
79%
70%
66%
30%
34%
ženy
muži
50% 40%
Rozdíl 9 % bodů
Rozdíl 16 % bodů
týdně 21% 30% 34% 50% méně často 79 70 66 50 100% = (587) (746) (587) (746)
30%
50%
20% 10%
21%
0%
muži do 40 let
ženy nad 40 let
týdně
méně často
Zdroj: General Social Survey, NORC.
Závislá proměnná: Chození do kostela souběžně podle 2 nezávislých: Věk, Pohlaví Jak mezi muži tak ženami starší lidé chodí do kostela častěji než mladí (tj. s věkem roste religiozita). V každé věkové kategorii ženy navštěvují kostel častěji než muži. Podle tabulky, pohlaví má nepatrně větší efekt na chození do kostela než věk. Věk a pohlaví mají nezávislý vliv na chození do kostela. Uvnitř každé kategorie nezávislé proměnné odlišné vlastnosti té druhé přesto ovlivňují jednání. Podobně obě nezávislé proměnné mají kumulativní efekt na jednání: Starší ženy chodí do kostela nejčastěji, zatímco mladí muži nejméně často. Zdroj: [Babbie 1997: 391-392]
Zjednodušení předchozí tabulky:
do 40 let nad 40 let
muži ženy 21 30 (270) (332) 34 50 (317) (414)
→ 70 % méně často dopočet do 100
%
Ukazujeme pouze pozitivní kategorie znaku („do kostela chodí týdně). Při tom neztrácíme žádný údaj. Četnosti v závorkách uvádí procentní základ, z něj lze dopočítat podíl nezobrazené kategorie. Zdroj: [Babbie 1997: 391]
Příklad I.: Nepravá souvislost 1. bivariátní vztah (třídění 2.st.)
Zdroj: [Disman 1993: 219-223]
2. Při kontrole vlivu vzdělání (třídění 3 st.)
2. Při kontrole vlivu vzdělání (třídění 3 st.)
Zdroj: [Disman 1993: 219-223]
Příklad II.: Potlačená souvislost (nepravá nezávislost) 1. bivariátní vztah (třídění 2.st.)
Zdroj: [Disman 1993: 225-227]
2. s kontrolou pohlaví (třídění 3 st.) muži
ženy
Kontrola 3 faktoru odhalila potlačenou souvislost (nepravou nezávislost) mezi dvěma proměnnými Příčina zkreslení → vztah mezi dvěma proměnnými existuje pouze v části populace
Testování/ kontrola vlivu dalšího faktoru • Vytvořením samostatných tabulek podle kategorií třetí proměnné je testovaný faktor (třetí proměnná) udržován na konstantní hodnotě. → souvislost mezi původními proměnnými je očištěna od zkreslujícího vlivu této další proměnné.
Testování vlivu dalšího faktoru • Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru . • Když v nových tabulkách souvislost mezi původními daty zmizí/ je podstatně oslabena → souvislost v původní tabulce je funkcí třetího faktoru
Třídění 3 st.: kontrola vlivu 3 proměnné: interpretace a uspořádání tabulky Souvisí účast ve volbách s věkem, i při kontrole vlivu vzdělání? Hypotetická data
Základní vzdělání
Střední vzdělání
< 39 let
40-59
18%
24%
32%
36%
34%
49%
Nevolil
82
76
68
64
66
Celkem
100 %
100 %
100 %
100 %
N
(109)
(202)
(45)
(97)
Volil
> 60 let < 39 let
40-59
Vysokoškolské vzdělání
> 60 let < 39 let
40-59
> 60 let
40%
50%
70%
51
60
50
30
100 %
100 %
100 %
100 %
100 %
(271)
(139)
(27)
(62)
(50)
Rozdíly mezi krajními kategoriemi věku:
14 % Ptáme se:
13 %
30 %
Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. → Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje.
1. Nacházíme rozdíly v X (věk) a Y (volil) uvnitř kategorií kontrolní proměnné Z (vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou rozdíly mezi krajními kategoriemi X (věk) v rámci kategorií kontrolní proměnné Z (vzdělání) stejné?
Pozor v SPSS tabulka vypadá jinak. → Je možno jí upravit pomocí Pivot tables (v menu): Rozkliknout (2x klik) → Pivot Trays a přesunout)
Zdroj: data ISSP 2007, ČR (neváženo)
Interakční a aditivní efekt • Efekt 1 na 2 proměnnou závisí na 3 proměnné • Interakční efekt: Dvě proměnné navzájem interagují a vytváří u 3 proměnné jiný výsledek než by měla každá zvlášť • Při absenci interakčního efektu lze uvažovat o aditivním efektu, kdy vlivy jsou v principu podobné ale podél kategorií 1 proměnné zesilují/ oslabují
Interakční a aditivní efekt Interakční efekt – efekt jedné proměnné na druhou závisí na hodnotě třetí proměněné
vzdělání SŠ VŠ 31 33 29 37
Hypotetická data
Dopočet do 100 % je % Nevolil
VOLIL mladí starší
ZŠ
31 51
Odlišný vliv věku v kategoriích vzdělání: u Mladých žádný rozdíl, u Starších se % Volení zvyšuje s vyšším vzděláním. Nejvyšší volební účast je u starších vysokoškoláků.
Aditivní efekt – efekty obou proměnných se propojují navzájem
VOLIL mladí starší
ZŠ Stejný rozdíl mezi katg. věku v katg. vzdělání
vzdělání SŠ VŠ 30 35 40 45
Podobný vliv věku kategoriích vzdělání
65 75
Příklad: moderace pohlavím (2) [Bryman 2008: 331-332] Využívá jiné možnosti k pravidelnému cvičení než tělocvičnu x Věk x Pohlaví
← Pozor absolutní četnosti!
Vzorec odpovědí je pro muže a ženy jiný: muži jako celek, ženy nárůst s věkem
Interakce (statistická) • vzájemný vliv dvou nebo více faktorů, který nastává pouze při jejich současném působení a projevuje se navíc nad samostatné působení jednotlivých faktorů a nad společné působení jen některých z nich. • Podle počtu faktorů se hovoří o interakci druhého, třetího, k-tého řádu. • Interakce se používá v modelech, ve kterých se hodnoty závisle proměnné vyjadřují jako součet (resp. součin) příspěvků dílčích vlivů nezávislých faktorů a jejich kombinací. Zdroj: [Řehák 1996: 441 (in Velký sociologický slovník)]
Odhalení vlivu 3. proměnné pomocí asociačních koeficientů • Rychlou identifikaci vlivu 3. proměnné můžeme provést pomocí asociačních koeficientů spočítaných zvlášť v jejích kategoriích. • pro nominální znaky: Lambda, Phi, Cramérovo V, Koeficient kontingence • pro ordinální znaky: ordinální korelace (Kendaullovo Tau-B a Tau-C, Spermanův korelační koeficient, Gamma) (Viz první část presentace.)
Dalším krokem analýzy může být přímá standardizace (podle faktoru Z) • Ukazujeme tzv. čistý vztah dvou proměnných očištěný o vliv třetí proměnné. • Tabulku standardizujeme (převážíme) podle faktoru Z, tj. jako kdyby všichni v kategoriích X měli stejné podíly v kategoriích Z (např. stejné vzdělání). • Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků. • Viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru
http://metodykv.wz.cz/AKD2_kontg_tab_standardizace.ppt
Vztahy mezi X-Y a (Z) podrobněji z hlediska kauzality Moderace a mediace úvod
Vztah X-Y a Z: moderace a mediace • Mediátor (Z) propojuje příčinu a následek. – Příčina ovlivňuje mediátorovou proměnnou a ta pak působí na závislou proměnnou Y.
• Moderátor (Z) modifikuje přímé působení nezávislé X na závislou proměnnou Y. – Stálá vlastnost (např. kontextuální proměnná jako charakteristika okolí) modifikuje příčinnou závislost. [Hendl 2010].
Vztah X-Y a Z: moderace a mediace Mediátor
Moderátor
Zdroj: [Hendl 2010: 3, 6]
Literatura • Disman, M. (1993): Jak se vyrábí sociologická znalost. Praha: Karolinum. – Kapitola 9. „Všechno je jinak aneb vícerozměrná analýza.“ (s. 217-282).
• Babbie, E. (1995). The Practice of social Research. 7th Edition. Belmont: Wadsworth – Kapitola 16. „Elaboration Model.“ (s. 395-412).
• Hendl, J. 2010. „Analýza působení mediátorových a moderátorových proměnných“ Informační Bulletin České statistické společnosti 21(1): 1-15. • Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia. • Treiman, D. J. 2009. Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass. – Kapitola 2. „More on Tables.“ (s. 21-46).