UK FHS Historická sociologie (LS 2013+)
Analýza kvantitativních dat II. Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru Jiří Šafr jiri.safr(zavináč)seznam.cz
poslední aktualizace 13.1. 2015
OBSAH • Připomenutí principu kontingenčních tabulek s tříděním třetího stupně • Princip přímé standardizace v kontingenční tabulce (převážení podle kontrolního faktoru) • Příklad 1: Sebeúcta dítěte podle náboženské orientace rodiny při kontrole vzdělání otce • Příklad 2: Militantnost v boji za lidská práva podle náboženskosti při kontrole vzdělání – Výpočet redukce vlivem kontrolní proměnné/ faktoru
• Příklad 3: Vzdělanostní aspirace podle typu školy/čtvrti při kontrole vlivu vzdělání rodičů • Příklad 4 s ukázkou v SPSS: Chození do kina podle vzdělání s kontrolou vlivu věku, ve verzi: a) standardizace v konting. tab. (pro kategoriální znaky) b) parciální korelace (pro ordinální/kardinální znaky) 2
Nejprve připomenutí principu: Tabulky třídění třetího stupně Podrobněji viz http://metodykv.wz.cz/AKD1_kontg_tab3st_uvod.ppt
Testování/ kontrola vlivu dalšího faktoru • Vytvořením samostatných tabulek podle kategorií třetí proměnné je testovaný faktor (třetí proměnná) udržován na konstantní hodnotě. → souvislost mezi původními proměnnými je očištěna od zkreslujícího vlivu této další proměnné.
4
Testování vlivu dalšího faktoru • Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru . • Když v nových tabulkách souvislost mezi původními daty zmizí/ je podstatně oslabena → souvislost v původní tabulce je funkcí třetího faktoru
5
Třídění 3 st.: kontrola vlivu 3 proměnné: interpretace a uspořádání tabulky Souvisí účast ve volbách s věkem, i při kontrole vlivu vzdělání? Základní vzdělání
Střední vzdělání
< 39 let
40-59
18%
24%
32%
36%
34%
49%
Nevolil
82
76
68
64
66
Celkem
100 %
100 %
100 %
100 %
N
(109)
(202)
(45)
(97)
Volil
> 60 let < 39 let
40-59
Vysokoškolské vzdělání
> 60 let < 39 let
40-59
> 60 let
40%
50%
70%
51
60
50
30
100 %
100 %
100 %
100 %
100 %
(271)
(139)
(27)
(62)
(50)
Rozdíly mezi krajními kategoriemi věku:
14 %
Ptáme se:
13 %
30 %
Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. → Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje.
1. Nacházíme rozdíly v X (věk) a Y (volil) uvnitř kategorií kontrolní proměnné Z (vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou rozdíly mezi krajními kategoriemi X (věk) v rámci kategorií kontrolní proměnné Z (vzdělání) stejné?
6
Dalším krokem pak může být Přímá standardizace vztahu podle třetí proměnné
Přímá standardizace v kontingenční tabulce • Navazujeme na elaboraci – kontrolu vlivu • Standardizace je metoda původně používaná v demografii, kdy jde o kontrolu proměny nějaké struktury (kontrolovanou proměnnou je tak vlastně čas – skrze vliv proměny struktury např. z hlediska věku) • Princip viz přednášku Standardizace intenzitních údajů http://metodykv.wz.cz/Standardizace.ppt • Tento princip jde aplikovat i na kontingenční tabulku (nebo tabulku průměrů v podskupinách) • Ukazujeme tzv. čistý vztah dvou proměnných při kontrole vlivu třetí proměnné 8
Přímá standardizace v kontingenční tabulce • Princip: převážení dle kategorií třetí proměnné, čímž kontrolujeme její vliv → ukazujeme vztah dvou kategoriálních proměnných, jako kdyby hodnoty třetí byly v celé populaci stejné • Porovnáme původní s hypotetickou - převáženou tabulkou (v níž je vztah X a Y jako kdyby v kategoriích X-nezávislá měla stejné rozložení v kategoriích Z) • Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků.
9
Příklad1 Sebeúcta dítěte podle náboženské orientace rodiny (s kontrolou vlivu Vzdělání otce) Rosenberg, M. 1962. „Test Factor Standardization as a Method of Interpretation.“ Social Forces 41(1): 53-61. Text je dostupný na http://metodykv.wz.cz/SF1962_Rosenberg_Test_Factor_Standardization.pdf
Výsledek: Původní (hrubý) a Standardizovaný (čistý) vztah
→ tabulku původního vztahu X a Y parcializujeme pro kategorie faktoru M (kontrolní proměnné) → Standardizujme (převážíme) políčka dle struktury faktoru M (zde vzdělání otce) → Porovnáme hrubou a čistou míru X a Y 11 Zdroj: [Rosenberg 1962]
Náboženskost a Sebeúcta, kontrola vzdělání otce:
Standardizace/vážení
Váhy (vzdělání otce)
Váhy (podíl vzdělanostních kategorií → třídění 1.st.) spočítáme z absolutních četností
pro katolíky (Vys. sebeúcta): 0,1579 * 0,681 = 0,1075 Standardizace → převážení dle vzdělání otce
váha
hodnota v daném poli Zdroj: [Rosenberg 1962]
12
Pokračování tabulky
• Tabulka má 6 panelů pro vzdělání Zdroj: [Rosenberg 1962]
13
Váhy: podíl (pravděpodobnost) vzdělanostních kategorií otce 8th Grade or Less
0,1579
Some High School
0,2488
High School Graduate
0,2891
Some College
0,1019
College Graduate
0,1312
Post-Graduate
0,0712
Celkem
1,000 14
Přímá standardizace: Vážený čistý procentní rozdíl • Váhy získáme z tabulky → z absolutních četností (viz další příklad) Máme-li původní mikro-data, můžeme je rychle spočítat pomocí třídění 1. stupně.
• Ukazujeme Vážený čistý procentní rozdíl a porovnáme ho s hrubým rozdílem (původní vztah bez kontroly) • Redukce v pozorovaném vztahu dvou proměnných, způsobené zavedením 3 proměnné • Spočítáme váženou sumu % závislé proměnné (zde sebeúcty) napříč kategoriemi kontrolního faktoru (vzdělání otce) 15
Postup standardizace podle testového faktoru • Váhy: spočítáme podíly v každé testové kategorii (zde vzdělání otce), = marginální součet / celkovým počtem případů (pro všechny pole platí součet 1 resp. 100%) Pro první pole (8th Grade): 360 + 39 + 193 = 592 tj. 15,79% resp. 0,1579 - to je naše váha pro kat. vzdělání I.
• Násobíme každou kategorii v políčku odpovídajícím podílem testového faktoru, tj. váhou Pro první pole High Self-esteem: 0,1579 * 0,681 a 0,1579 * 0,718 a 0,1579 * 0,648 a 0,1579 * 0,258 atd.
Podobně pro všechna pole každého panelu tabulky. • Parciální standardizované údaje sepíšeme do nové tabulky: Pro Jews (vysoká sebeúcta): 0,1134 + 0,157 + 2154 + 0,083 + 0,1153 + 0,589 = 75,8 16 atd. (viz další snímek)
+ pro další tři panely tabulky
17
Vážený podíl: pro High Self-Esteem pro High Self-Esteem
Vážený podíl získáme jako součet převážených hodnot pro vzdělanostní kategorie v kategoriích náboženské orientace rodin:
Catholic
Jewish
Protestant
8th Grade or Less
0,1075
0,1134
0,1023
Some High School
0,1704
0,1757
0,1791
High School Graduate
0,2073
0,2154
0,1659
Some College
0,0722
0,0803
0,0712
College Graduate
0,0886
0,1153
0,0926
Post-Graduate
0,0519
0,0519
0,0525
0,698
0,752
0,664
celkem
18
Příklad1: Sebeúcta
Porovnání hrubého a čistého % rozdílu mezi kategoriemi nezávislé proměnné • Hrubý rozdíl (nevážený) mezi Katolíky a Židy je v nejvyšší úrovni sebeúcty 7,8% (69,7 - 77,5) • Čistý (vážený pro vzdělání) je 6 % (69,8 - 75,8) • To zde odpovídá 23 % redukci po kontrole vzdělání (1-(6/7,8))
19
Příklad 2. Religiozita a militantnost v boji za občanská práva mezi afroameričany v USA (60. léta) se standardizací podle vzdělání [Treiman 2009: 30-33] Kapitola 2. More on the tables Text je dostupný na http://metodykv.wz.cz/CrossTabs_Treiman2009_vybK2.pdf
Úloha a tabulky jsou z původního článku Gary T. Marxe [1967]. Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?
Religiozita a militantnost - radikalita v boji za lidská práva (operacionalizace) • Religiozita měřena pomocí kombinace 3 otázek (frekvence návštěv bohoslužeb, ortodoxnosti přesvědčení, význam víry) sloučené do proměnné se 4 hodnotami. • Militantnost v otázce boje za lidská práva měřena pomocí 7 otázek na protesty za občanská práva (názory, ochota účastnit se atd.) → index konvenční militantnosti, který byl posléze rekódován na 2 kategorie (militantní/nemilitantní) 21
Militantnost podle Religiozity → bivariátní vztah, který nás zajímá
Po sloučení kategorií „Not Very Religious“ a „Not at All Religious“ Very Religious
Somew. Relig
Not very Relig. + Not at All Relig.
Militant
27
30
Nonmilitant
73
70
48 52
100 % (230)
100 % (532)
Total N
100 % (231)
Total
22 (993)
Militantnost podle vzdělání (třídění 2.stupně)
23
Militantnost podle religiozity a vzdělání: základní tabulka třídění 3. stupně s panely pro kontrolní proměnnou (zde vzdělání)
V = Very religious, S = Somewhat religious, N = Not religious
24
Zjednodušená prezentace předchozí tabulky:
pouze % Militantních + otočeno o 90 st. → viz předchozí snímek
Závislý znak je dichotomický, proto, u % Militantních dopočet do 100 = % nemilitantních. 25 → úsporná forma prezentace v tabulce
Z ní získáme – spočteme váhy:
(protože nemáme původní mikro-data a nemůžeme počítat rovnou jen frekvenci vzdělání)
Pokud by absolutní četnosti nebyly uvedeny u každé buňky, spočítáme si je nejprve na základě % z celkového N
1. Celkový počet případů = (108 + 96 + … + 49) =993 pro ZŠ (Grammar school) je počet (108 + 201 + 44) = 353 atd.
2. Určíme váhy (podíly ve vzdělanostních kategoriích): – pro ZŠ (Grammar school): 353 / 993 = 0,356 – pro SŠ (High school): 504 / 993 = 0,508 – pro VŠ (College): 136 / 993 = 0,137
Součet pro váhy je 1 (po zaokrouhlení).
26
A vážíme – standardizujeme: V principu „rušíme“ kontrolní faktor → všichni jsou jako kdyby stejně vzdělaní Váhy (podíly vzdělání): ZŠ (Grammar School) 0,356 SŠ (High School)
0,508
VŠ (College)
0,137
Váhy:
ZŠ
SŠ
VŠ
• pro Velmi silně věřící (very religious): 17 % *0,356 + 34 %*0,508 +38 % *0,137 = 29 % • pro Částečně věřící: 22 % *0,356 + 32 %*0,508 +48 % *0,137 = 31 % • pro Velmi slabě věřící a nevěřící: 32 % *0,356 + 47 %*0,508 +62 % *0,137 = 45 % Standardizované – čisté podíly porovnáme s původními 27 hrubými
Militantnost podle religiozity:
Hrubá míra, čistá standardizovaná a procentní rozsah mezi krajními kategoriemi nezávislého znaku
REDUKCE vlivem kontrolní proměnné/ faktoru:
(1 – (Čistý rozdíl / Hrubý rozdíl))*100 Pozor platí pouze pro ordinální znaky → porovnáváme krajní kategorie.
Hrubé (nevážené) četnosti
Hrubý (nevážený) % rozdíl mezi krajními kategoriemi
Vážený % rozdíl mezi krajními kategoriemi
Rozsah procent mezi krajními kategoriemi nezávislé proměnné pro vztah bez a s kontrolou faktoru (zde vzdělání): 21 % hrubý rozdíl oproti 16 % čistému rozdílu (s kontrolou vzdělání) odpovídá 24 % redukci díky vlivu vzdělání (=(1-(16/21))*100). Lze tak říci, že vzdělání „vysvětluje“ cca ¼ vztahu mezi religiozitou a militantností. Ale pozor: Předpokladem této interpretace je ordinalita kategorií nezávislé proměnné (zde 28 religiozita) a monotónnost vztahu závislé a nezávislé proměnné. [Treiman 2009: 29-31]
Redukce efektu vysvětlující proměnné po kontrole vlivu kontrolní proměnné (faktoru) REDUKCE vlivem kontrolní proměnné (faktoru) → rozdíl hrubý (původní bez kontroly) a čistý (po převážení kontrolním faktorem) pro krajní kategorie nezávislé proměnné (min a max): (1 – (Čistý rozdíl / Hrubý rozdíl))*100 → K jaké redukci vztahu mezi závislou a nezávislou proměnnou dochází díky vlivu kontrolní proměnné. • Pozor platí pouze pro ordinální znaky, tj. tam kde porovnáváme krajní kategorie a pro monotónní vztah (tj. plynulá proměna hodnot závislé proměnné mezi kategoriemi nezávislé – ordinální proměnné). 29
Přímá standardizace pro kontrolu vlivu dvou proměnných • Kontrolovat můžeme souběžně i vliv dvou proměnných, např. vzájemný vztah vzdělání a kategorií věku • Váhy budou kombinací vzájemného podílu kontrolních proměnných (zde např. vzdělání a věk). Získáme je jejich vzájemnou kontingenční tabulkou, kde budou procenta z celku (% of total) 30
Příklad 3.
Vzdělanostní aspirace žáků 8.-9.tříd ZŠ mezi dvěma typy škol, při kontrole vlivu vzdělání rodičů [Šafr, Kalný 2012] Data z výzkumu žáků 8. a 9 tříd ve školním roce 2010/11 z odlišného prostředí čtyř základních škol, z nichž dvě se nacházely v lokalitách „zasažených sociálním vyloučením“ a dvě v residenčních oblastech s „majoritní populací“.
Vzdělanostní aspirace žáku podle typu ZŠ a vzdělání rodičů Typ školy (lokalita)
Aspirace žáka max. Vyučení min. SŠ-maturita Celkem Cramérovo V = 0,101
Sociálně vyloučená lokalita
42% 58% 100%
Majoritní populace
32% 68% 100%
Celkem 36% 64% 100%
→ bivariátní vztah, který nás zajímá
Na SŠ s maturitou aspiruje na školách v sociálně vyloučených lokalitách méně dětí naž na školách v lokalitách s majoritní populací.
Aspirace žáka max. Vyučení min. SŠ-maturita Celkem Cramérovo V = 0,208
Vzdělání rodičů (vyšší) ZŠ/VYUČ SŠ/VŠ 55% 30% 45% 70% 100% 100%
Celkem 35% 65% 100%
Na aspirace má také vliv vzdělání rodičů: ve vzdělanějších rodinách jsou aspirace dětí vyšší. Vliv vzdělání rodiny (CV= 0,21) je větší než v případě typu školy (CV=0,10).
→ potencionálně intervenující faktor, jehož vliv chceme ověřit a kontrolovat
32
Zároveň ale … Typ školy (lokalita)
Vzdělání rodičů max. Vyučení min. SŠ-maturita Celkem Cramérovo V = 0,148
Sociálně vyloučená lokalita
25% 75% 100%
Majoritní populace
14% 86% 100%
Celkem 19% 81% 100%
Na školy v sociálně vyloučených lokalitách chodí více dětí s nižším vzděláním rodičů. → Nejsou odlišné vzdělanostní aspirace na rozdílných typech škol způsobeny právě (pouze) odlišným vzdělanostním zázemím rodin žáků? (a tudíž nikoliv sociálním/institucionálním prostředím školy) Pokud ano, do jaké míry? (na základě poznatků teorie zde předpokládáme, že formativní vliv na aspirace má primárně rodina)
→ (1.) Třídění 3. stupně (kontingenční tabulka a asociační koeficienty) a (2.) standardizace podílu aspirací (na min. SŠ-maturita) mezi dvěma typy škol 33 podle vzdělání rodiny (max. Vyučení / min. SŠ)
1. Třídění 3. stupně: Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: uspořádání tabulek Výstup z SPSS pro kontingenční tabulku 3. stupně vypadá takto (panely dle vzdělání rodičů jsou pod sebou → lze přehodit pomocí Pivoting Trays):
Výstup z SPSS upravíme (pomocí Pivoting Trays nebo v Excelu) pro klasický formát, kde kontrolní proměnná (vzdělání rodičů) je v panelech
Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ Aspirace žáka
Soc.vylouč. lokalita
SŠ/VŠ ZŠ/VY
45% 55%
Majoritní Soc.vylouč. populace lokalita
44% 56%
Majoritní populace
63% 37%
75% 25%
Vzdělání rodičů je zde kontrolní proměnná, proto je v panelech tabulky Ideální je úsporný 3-dimenzionální formát tabulky: (s ním dále pracujeme při vážení) • vynechána % pro aspirace na ZŠ/VY (tvoří dopočet do 100 %)
Alternativně – úsporná 3-dimenzionální tabulka otočena o 90 st.
• Otočeno o 90 st. Podíl žáků aspirujících min. na maturitu podle typu školy a vzdělání rodičů
Typ školy Soc.vylouč. lokalita Majoritní populace
Vzdělání rodičů ZŠ/VY SŠ/VŠ 45% 63% 44% 75%
Typ školy (lokalita)
Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ
Sociálně vyloučená lokalita
45% 63%
Majoritní populace
44% 75% 34
Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: interpretace Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ Aspirace žáka
SŠ/VŠ ZŠ/VY Cramérovo V •
•
•
Soc.vylouč. lokalita
Majoritní populace
45% 55% 0,010
44% 56%
Soc.vylouč. lokalita
Majoritní populace
63% 37% 0,133
75% 25%
Rozdíl mezi vzděláním rodičů (s/bez maturity) → mezi panely tabulky: – ve školách ze sociálně vyloučených lokalit: 45 – 63 = 18 % bodů – ve školách z lokalit s majoritní populací : 44 – 75 = 31 % bodů Rozdíly mezi typy škol jsou v kategoriích vzdělání rodičů odlišné: pro nižší vzdělání rodičů (ZŠ/VY) nezáleží na typu školy (koeficient asociace CrV=0), zatímco u vyššího vzdělání rodičů (SŠ/VŠ) je ve školách z lokalit s majoritní populací vyšší podíl zájmu o maturitní obory (SŠ/VŠ) (CrV=0,13). → interakční efekt vzdělání rodičů a typu školy (byť relativně slabý): nejvyšší aspirace mají žáci z výše vzdělaných rodin a v prostředí škol z lokalit s majoritní populací.
Možné sociologické interpretace: – Podmínkou nutnou k osvojení si aspirací je vzdělání rodičů, načež záleží na škole, kam děti rodiče pošlou (respektive v případě škol z lokalit se sociálně znevýhodněnými žáky se „nesnaží, aby tam jejich děti nezůstaly“). – Prostředí školy v lokalitách s majoritní populací se uplatňuje pouze v případě žáků z rodin s vyšším vzděláním: kvalita výuky a aspirace 35 spolužáků (celková hladina ve třídě/škole) pravděpodobně zvyšuje jejich aspirace na maturitu. – Pozor ovšem, neznáme mnoho okolností – podmínek, za kterých mechanismus působí (zda žáci přímo bydlí / nebydlí v sociálně znevýhodněné lokalitě, zda rodiče školu vybírali nebo ne, jaká je forma výuky na školách atd.).
Standardizace – převážení aspirací na SŠ/VŠ v typech škol podle vzdělání rodičů Váhy: máme-li mikro-data získáme je z třídění 1. stupně (Frequencies v SPSS), jinak je musíme spočítat z absolutních četností (viz předchozí příklad 2.)
Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ celkem
Validní %
Tabulka 3. stupně % aspirujících na maturitu podle typu školy a vzdělání rodičů
s hrubým (neváženým) vztahem:
VÁHY
18,7 81,3
0,187 0,813
100%
1
Vzdělání rodičů ZŠ/VY SŠ/VŠ Soc.vylouč. lokalita 45% 63% Majoritní populace 44% 75% Typ školy
Standardizace (převážení dle vzdělání rodičů):
Typ školy Soc.vylouč. lokalita Majoritní populace
Vážený Vzdělání rodičů podíl ZŠ/VY SŠ/VŠ 59,5% 0,187 * 45% + 0,813 * 63% = 69,3% 0,187 * 44% + 0,813 * 75% = 9,82% rozdíl mezi typem škol:
9,82 % oproti 9,75 %, odpovídá -0,1 % rozdílu díky vlivu vzdělání rodičů (=(1-(9,82/9,75)). Lze tedy říci, že vzdělání rodiny k vysvětlení vztahu mezi typem školy a vzdělanostními aspiracemi nic nepřidává. Zřejmě tedy prostředí školy působí nezávisle na rodině, tj. „navíc“nad vliv rodiny. Interpretace je to ale značně omezená, neznáme mnoho dalších podmínek.
Hrubý podíl 58,4% 68,2%
9,75%
Typ školy (lokalita)
Aspirace žáka max. Vyučení min. SŠ-maturita Celkem
Sociálně vyloučená lokalita
42% 58% 100%
Majoritní populace
Celkem 36% 64% 100%
36
32% 68% 100%
Poznámky k příkladům 1, 2, 3 • Př. 1 – Sebeúcta dětí: závislý znak Sebeúcta je ordinální (má 3 kategorie), nezávislý Náboženská orientace rodiny je nominální a kontrolní faktor Vzdělání otce je ordinální (6 kategorií). Tabulka je uvedena v pravděpodobnostech (nikoliv %). Protože nezávislý znak je nominální, porovnáván je hrubý-čistý % rozsah vždy navzájem pro dvě kategorie (nábož. orient. rodiny: např. Katolíci-Židé, Katolíci-Protestanti …) • Př. 2 – Militantnost afroameričanů: závislý znak Militantnost je dichotomický (má 2 kategorie), nezávislý Náboženskost je ordinální a kontrolní faktor Vzdělání je ordinální (3 kategorie). Proto porovnání hrubého-čistého % rozsahu je provedeno pro krajní kategorie (Velmi silně věřící - Velmi slabě věřící/nevěřící). Váhy pro vzdělání zde byly spočítány přímo z tabulky. • Př. 1 – Aspirace dětí: závislý znak Vzdělanostní aspirace je dichotomický (má 2 kategorie), nezávislý Typ školy je nominální (2 kategorie) a kontrolní faktor Vzdělání rodiny je nominální (2 kategorie).K dispozici byla mikro-data (v SPSS), proto jsme váhu určili snadno pomocí třídění 1. stupně pro vzdělání rodičů. Porovnání % rozsahu ukazuje, že rozdíl mezi hrubým a čistým podílem zde není (-0,1%). 37
Jak na to s tabulkami z SPSS: úprava tabulek třídění 3. stupně A ještě jeden příklad (č. 4):
Chození do kina podle vzdělání při kontrole vlivu věku a) kategoriální verze znaků → přímá standardizace v kont. tabulce b)
„číselná“ (ordinální/kardinální) verze znaků → parciální korelace
Krok 1. bivariátní vztah: Chození do kina podle vzdělání vzd3 Vzdělání (3k.) ZŠ+VY Kino
0 1
Total
min.1x za měsíc
SŠ
VŠ
Total
93,5%
85,2%
86,2%
89,7%
6,5%
14,8%
13,8%
100,0%
100,0%
100,0%
10,3% 100,0%
Pokud jde o ordinální znak má smysl sledovat pro krajní kategorie nezávislé proměnné (zde vzdělání) hrubý % rozdíl. Zde ovšem pozor, vztah není monotónní(!): SŠ a VŠ chodí stejně často.
U nominálního znaku porovnáváme jednotlivé kategorie mezi sebou (viz příklad se Sebeúctou dítěte podle náboženské orientace rodiny: protestantská/ židovská/katolická).
Hrubý rozdíl v krajních kategoriích vzdělání: 6,5% – 13,8% = 7,3 % Poznámka: Původní ordinální proměnná Chození do kina q1_b byla nejprve dichotomizována na: 1= chodí min.1x za měsíc a 0 = méně často. 39 Zdroj: data ISSP 2007, ČR
2. krok. třídění 3.stupně
→ přidáme do panelu kontrolní faktor (věk) V SPSS pro třídění 3.stupně • dostaneme tuto tabulku: panely s kategoriemi kontrolní proměnné (zde věk) jsou pod sebou. CROSSTABS Kino BY vzd3 BY vek3 /CEL COL.
Pro rychlý výpočet nám to stačí – označíme si pouze ty buňky, které použijeme 40 pro vážení, pro standardní presentaci tabulky v textu ji ale musíme upravit.
Úprava tabulky tř. 3. st. v SPSS • Chceme panely (s kontrolní proměnnou) vedle sebe. → Pivoting trays (rozkliknout tabulku) → a poměrně dost složitě myší přetáhneme proměnné, tak jak je chceme: • 1. vzdělaní v COLUMN o řádek dolů, • 2. pak nad něj přetáhneme věk původní stav naše úprava
41
Příprava tabulky třídění 3. st. z SPSS pro standardizaci • Výsledkem je tato tabulka, kde je „panelizován„ kontrolní faktor (věk) – uvnitř něj sou kategorie nezávislé proměnné (vzdělání) • Tuto tabulku je vhodné ještě zjednodušit – promazat „negativní“ kategorie, tvoří dopočet do 100 % (zde 0 Nechodí do kina)
A pak případně pootočit o 90 st.
42
A nebo jiné zadání pořadí proměnných v CROSSTABS rovnou pro standardizaci • Musíme ale ještě promazat „negativní“ kategorie (0 – nechodí do kina) a nebo stačí příslušný řádek si označit a můžeme začít vážit
43
Rychle upravená předchozí tabulka z SPSS a samotné vážení-standardizace • v Excelu upravená (promazaná) tabulka, ze které již můžeme snadno vážit-standardizovat podle věku: vek3 Váhy: tř. 1.stupně pro věk – kontrolní faktor (% dělíme 100 → pravděpodobnost) FREQ vek3.
Vzdělání ZŠ+VY SŠ VŠ Celkem
kino 1 kino 1 kino 1 kino 1
19-29 30-49 50+ 33% 5% 2% 36% 11% 5% 31% 13% 9% 34% 8% 3%
Vážíme-standardizujeme podle věku. Váhy věku zde máme přímo spočítané % věku: 10-29let = 0,18 30-49 let = 0,30 50+let = 0,52 pro ZŠ+VY:
33 * 0,18 + 5 * 0,30 + 2 * 0,52 = 8,2
pro SŠ:
36 * 0,18 + 11* 0,30 + 5 * 0,52 = 13,8
pro VŠ:
31 * 0,18 + 13 * 0,30 + 9 * 0,52 = 13,8
44
Čistý rozdíl (vážený podle věku) mezi krajními kategoriemi vzdělání: 8,2 – 13,8 = 5,6%
V Excelu …(výstup z SPSS) kino * vzd3 Vzdělání (3k.) Crosstabulation % within vzd3 Vzdělání (3k.) vzd3 Vzdělání (3k.) 1 ZŠ+VY 2 SŠ 3 VŠ Total kino 0 93,50% 85,20% 86,20% 89,70% 6,50% 14,80% 13,80% 1 10,30% Total 100,00% 100,00% 100,00% 100,00%
kino * vzd3 Vzdělání (3k.) * vek3 Crosstabulation % within vzd3 Vzdělání (3k.) vek3 standardizace 1 19-29 kino 0,179 pro věk Total 2 30-49 kino 0,3 Total 3 50+ kino 0,52 Total
1 ZŠ+VY 2 SŠ 3 VŠ rozd 1a3
0 1 0 1 0 1
1 ZŠ+VY 67,50% 32,50% 100,00% 95,20% 4,80% 100,00% 98,20% 1,80% 100,00%
hrubý čistý 6,50% 8,19% 14,80% 13,80% 13,84% -5,65% -7,30% -1,65% rozdil
vzd3 Vzdělání (3k.) 2 SŠ 3 VŠ Total 63,90% 69,20% 65,60% 36,10% 30,80% 34,40% 100,00% 100,00% 100,00% 89,50% 87,50% 92,00% 10,50% 12,50% 8,00% 100,00% 100,00% 100,00% 94,90% 91,20% 96,80% 5,10% 8,80% 3,20% 100,00% 100,00% 100,00%
45
Velikost redukce ve vztahu (kino x vzdělání) způsobená kontrolním faktorem (věk) • Rozdíl mezi krajními kategoriemi vzdělání ZŠ+VY a VŠ: – Čistý (vážený podle věku) = 5,6 % – Hrubý (původní bivariátní) = 7,3 % – Rozdíl Hrubý – Čistý = (7,3 – 5,6) = 1,7 % • Redukce díky vlivu věku (→ jaký podíl ve vztahu chození do kina a vzdělání jde na vrub věku): = (1 – (5,6 /7,3) = 0,233 = 23 % • Lze tak říci, že věk „vysvětluje“ cca ¼ vztahu mezi chozením do kina a vzděláním. • Ale pozor: Předpokladem této interpretace je monotónnost vztahu závislé a nezávislé proměnné a tomu tak zde nebylo: prakticky totiž není rozdíl mezi chozením do kina u SŠ (14,8 %) a VŠ (13,8 %). Výsledek tak zde platí spíše pro dichotomii vzdělání s/ bez 46 maturity (ZŠ+VY vs. SŠ+VŠ).
Řešení b) pro kardinální
znaky → parciální korelace
kino ← vzdělání při kontrole vlivu věku
(původní kardinální/ordinální verze proměnných)
Původní (bivariátní) korelace
Parciální (+ kontrola věku) korelace
Rozložení závislé proměnné je výrazně nesymetrické a odchyluje se od normálního rozložení. Použití korelací je tak zde problematické (a už vůbec nesprávné je použití Pearsonova R).
Původní korelace mezi chozením do kina a věkem R=0,24 zavedením kontroly vlivu věku klesá na R=0,18.
Po kontrole vlivu věku došlo k poklesu Pearsonova korelačního koeficientu R o 25,2 % =(1-0,178/0,238). A správně bychom měli ještě ověřit, zda je tento pokles statisticky významný (platný i v celé populaci), viz dále Z-test (nebo výpočet intervalů spolehlivosti).
PARTIAL CORR q1_b WITH vzd4 BY vek /STATISTICS CORR. Zdroj: Data ISSP 2007
47
(Poznámka: proměnná q1_b má maximum 5=nikdy, proto je zde vypočtená korelace záporná.)
Parciální korelace • Při výpočtu parciální korelace můžeme kontrolovat i vliv více proměnných souběžně. • Krom běžného statistického testu „nenulovosti“ parciálního korelačního koeficientu v populaci (H0: R=0), viz předchozí výstup z SPSS, lze také testovat, zda skutečně k poklesu (nebo případně vzestupu) u parciální korelace došlo (RaRb), tj. platí, že rozdíl mezi Ra (původní bivariátní korelace) a Rb (parciální s kontrolou 3. proměnné) platí i v celé populaci (výpočet pomocí z-testu viz dále). • Více o korelacích najdete v prezentaci (včetně výpočtu parciální korelace dosazením původních bivariátních korelací do vzorce, a to i pro neparametrické-pořadové korelace)
Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky http://metodykv.wz.cz/AKD2_korelace.ppt • Úlohu lze také řešit pomocí vícerozměrné regresní analýzy, kde jsou možnosti mnohem bohatší. Viz presentaci Regresní analýza, analýza rozptylu (úvod) http://metodykv.wz.cz/AKD2_regrese.ppt 48
Parciální korelace: z-test statistické významnosti změny korelačního koeficientu po zavedení kontrolní proměnné • Pokud chceme zobecnit výsledky parciální korelace, měli bychom ještě provést test, zda se parciální korelační koeficient (tj. s kontrolou vzdělání) statisticky významně lišší od původního bivariátního (zero-order) (pouze vztah kino-vzdělání). K tomu lze využít např. web-kalkulátor Significance of the Difference Between Two Correlation Coefficients
http://vassarstats.net/rdiff.html (alternativně lze spočítat intervaly spolehlivosti pro Ra Rb)
• H0: Ra = Rb → výsledek se zavedením kontroly pro třetí proměnnou nezměnil Původní (bivariátní)
Parciální (+ kontrola věku)
Vzhledem k tomu, že předpokládáme pokles korelace, testujeme jednostrannou alternativu hypotézy (one-tailed). Zde je tedy nulová hypotéza H0: Ra > Rb .
Hodnota z je menší než 1,96, tj. dosažená hladina významnosti p je menší než 0,05 → nulovou hypotézu nemůžeme zamítnout – platí tedy, že na zvolené hl. α 5% nelze tvrdit, že by došlo k poklesu korelace mezi chozením do kina a vzděláním, zavedením kontroly pro věk. 49 Nicméně zde je výsledek poměrně hraniční a z věcného hlediska pokles korelace lze smysluplně interpretovat.
Literatura • Rosenberg, M. 1962. „Test Factor Standardization as a Method of Interpretation.“ Social Forces 41(1): 53-61. • Marx, G. T. 1967. „Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?“ American Sociological Review 32 (1): 64-72. • Šafr, J., B. Kalný. 2012 (v recenzi). „Vzdělanostně– profesní aspirace žáků z rodin ohrožených sociálním vyloučením.“ in Sborník z 4. mezinárodní konference Dilemata sociální pedagogiky v postmoderním světě, Institut mezioborových studií Brno, 19.–20. dubna 2012. • Treiman, Donald J. 2009. Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass. 50