http://statisztika.szoc.elte.hu/tarsstat Társadalomstatisztika, 2003/2004 I. félév. November 18.
Mai tematika: Változók közötti kapcsolat II. A nominális / ordinális eset: asszociációs mérőszámok. 1 Bevezetés 1 Hibavalószínűség aránylagos csökkenésének elve (PRE, proportional reduction of error) 1 Lambda tulajdonságai 2 Nominális változók egyéb asszociációs mérőszámai 4 Ordinális változók asszociációs mérőszámai 5 Összefoglalás 9 Irodalom: Frankfort-Nachmias 297-347. Lásd még: Babbie 494-498.
Változók közötti kapcsolat II. A nominális / ordinális eset: asszociációs mérőszámok. Bevezetés Az előző órán a változók közötti összefüggéseket kereszttábla és százalékolás segítségével vizsgáltuk. Ezen az órán a változók összefüggését mérőszámok segítségével fogjuk leírni. Látni fogjuk, hogy ezeknek a mérőszámoknak az interpretációja egyszerűbb, de néha félrevezetőek (körülbelül olyan módon, mint a centrális tendecia és a szóródás mutatói szemben a gyakorisággal). A különböző mérési szintű változókra, különböző mérőszámokat használunk, de (akárcsak a centrális tendenciánál és a szóródásnál) többféle mérőszám is használható egy-egy mérésiszint esetén. Ma az nominális/nominális, illetve ordinális/ordinális kapcsolatokról fogunk beszélni.
Hibavalószínűség aránylagos csökkenésének elve (PRE, proportional reduction of error) MENTÁLIS EGÉSZSÉGPROBLÉMA MEGLÉTE Igen Nem Összesen
ANYAGI HELYZET Inkább rosszabb 390 (97,5 %) 40 (6,7 %) 430 (43 %)
Inkább jobb 10 (2,5 %) 560 (93,3 %) 570 (57 %)
Összesen 400 (100 %) 600 (100 %) 1000 (100 %)
1. tábla
Használjuk az elmúlt órán előkerült problémát a mentális egészség és a az anyagi helyzet összefüggésével kapcsolatban (emlékezzünk rá, hogy a mentális egsézséget tekintjük független változónak, az anyagi helyzetet függő változónak).
Most játsszuk el azt, hogy meg kell tippelnünk a vizsgálatban szereplő emberekről, hogy inkább jobb, vagy inkább rosszabb anyagi helyzetűek, de úgy hogy ismerjük az anyagi helyzet szerinti eloszlást (azaz, hogy 57 % jobb anyagi helyzetű, 43 % rosszabb). Mi lenne a legjobb eljárás (képzelük el, hogy jönnek az emberek és a lehető legkevesebb hibával kell besorolnunk őket) ?
A legjobb eljárás, ha mindenkire azt mondjuk, hogy jobb anyagi helyzetű, így az ezer esetből éppen 430 esetben tévedünk. Hogyan változik a helyzet, ha ismerjük a fenti táblát és megkérdezhetjük a besorolás előtt, hogy van-e mentális egészségproblémája? Ebben az esetben úgy javíthatunk az előbbi hibaarányon, ha a mentális betetgséggel küzdőket rossz anyagi helyzetűnet soroljuk be, a mentális problémáktól mentes személyeket pedig jó anyagi helyzetűnek. Ilyen módon a hibák számát 50 esetre csökkentettük. Azaz az arány amellyel a jóslás hibája csökken jellemzi a két változó kapcsolatát. Az ilyen elven alapuló asszociációs mérőszámokat a hibavalószínűség aránylagos csökkenésének (PRE) elven alapuló mérőszámoknak nevezzük. Két nominális változó összefüggésére lambdát (λ) számolunk:
λ=
E1 − E 2 E1
Ahol: E1 E2
a független változó figyelembevétele nélkül elkövetett besorolási hibák száma a független változó figyelembevétele esetén elkövetett besorolási hibák száma
konkrét esetben:
λ=
E1 − E 2 430 − 50 = = 0,884 E1 430
Lambda tulajdonságai Tegyük fel most az előbbi tábla kapcsán, hogy a függő változó a mentális egészségi probléma megléte, a független változó pedig az anyagi helyzet (azt feltételezzük mondjuk, hogy valakinek elmegy az esze a gazdagságtól). Ebben az esetben a lambdát a következőképpen számítjuk:
λ=
E1 − E 2 400 − 50 = = 0,875 E1 400
Tehát lambda értéke függ attól, hogy melyik a függő és melyik a független változó. Az ilyen asszociációs mérőszámokat asszimmetrikus mérőszámoknak nevezzük. Nézzük meg a fenti tábla két változatát: MENTÁLIS EGÉSZSÉGPROBLÉMA MEGLÉTE Igen Nem Összesen
ANYAGI HELYZET Inkább rosszabb 200 (45,5 %) 230 (41,1 %) 430 (43 %)
Inkább jobb 240 (54,5 %) 330 (58,9 %) 570 (57 %)
Összesen 440 (100 %) 560 (100 %) 1000 (100 %)
2. tábla MENTÁLIS EGÉSZSÉGPROBLÉMA MEGLÉTE Igen Nem Összesen
ANYAGI HELYZET Inkább rosszabb 189 (43 %) 241 (43 %) 430 (43 %)
Inkább jobb 251 (57 %) 319 (57 %) 570 (57 %)
Összesen 440 (100 %) 560 (100 %) 1000 (100 %)
3. tábla
Míg a 2. táblán (az elmúlt órán tanultak alapján) látunk összefüggést, a 3. tábla szerint a két változó teljesen független. Számoljuk ki a lambdákat! A független változó ismerete nélkül a besorolási hiba nagysága ismét 430 eset. A független változó figyelembevételével azonban egyik esetben sem csökken a hibák száma. E1= E2=430
λ=
E1 − E2 430 − 430 = =0 E1 430
Belátható, hogy a két változó függetlensége esetén minden esetben 0 lesz lambda értéke, viszont 0 érték esetén nem biztos, hogy a két vizsgált változó független. Megjegyzés: Ne használjuk, ha több, mint 5 % különbség van a független változó egyes értékei szerinti eloszlások között! Összefoglalva: λ tulajdonságai - asszimmetrikus - értéke: 0-1 - függetlenség esetén értéke 0 (de máskor is lehet)
Nominális változók egyéb asszociációs mérőszámai Két nominális változó összefüggésének meghatározására más mérőszámok is felhasználhatók. Ilyen mérőszám az esélyhányados és a Rogoff hányados. Jelölés Képzeljünk el két kétértékű nominális változót! Nem: férfi/nő Magasság: magasabb, mint 180 cm / alacsonyabb, mint 180 cm magas nő férfi oszlopösszeg
alacsony f11 f21 f+1
sorösszeg f12 f22 f+2
f1+ f2+ f++
tehát pl.: f11 magas nők száma f+1 magasak száma f++ az összes megfigyelésünk száma Ebben az esetben a Rogoff hányados:
Rogoff = f11 /
f1+ * f +1 f++
Értelmezés: a képlet második tagja az f11 cellába eső esetek száma az adott marginális eloszlás (a változók külön-külön vett eloszlása) mellett, ha a két változó független. Azaz a függetlenséghez képest milyen arányú az eltérés. Tulajdonságai: - szimmetrikus - minimális és maximális értéke a marginális eloszlástól függ(: variációsan nem független) - függetlenség esetén mindig 1, más esetben soha - a marginálisok ismeretében egyszerűen helyreállítható a tábla A fenti jelöléssel az esélyhányados (α):
α=
f11 f 21 f11 f12 / / = f12 f 22 f 21 f 22
Értelmezés: Két gyakoriság (vagy valószínűség) hányadosát esélynek nevezzük. A kifejezés értelmezéséhez gondoljunk például a fogadási irodákra: mekkora az esélye annak, hogy a haramdik futamban a Szélhámos nevű ló győz? 1:3, azaz egy a háromhoz, vagyis 4 esetből egyszer. Ekkor az esély 1/3. Két esély viszonyszáma az esélyhányados, azaz mennyivel nagyobb az egyik esemény esélye a másikhoz viszonyítva.
Tulajdonságai: - szimmetrikus - minimális értéke: 0 - maximális értéke: +∞ - függetlenség esetén és csak akkor értéke: 1 - logaritmusát véve az azonos abszolútértékűek azonos „erősségű” összefüggést jelölnek - a marginálisok ismeretében helyreállítható a tábla (bonyolult) (- variációsan független: értéke nem függ a margináliseloszlástól) Ellenőrző kérdések Melyik asszociációs mérőszám mutatja a kapcsolat „irányát” is ? Gondoljuk meg, hogy miért nem lehet negatív lambda ! Mik az előnyei és hátrányai az egyes mérőszámoknak ? Melyik asszociációs mérőszám esetén kell megjelölnünk függő, illetve független változót ? Elgondolkodtató Miért „baj”, ha nem állítható helyre az eredeti tábla az asszociációs mérőszám és a marginálisok ismeretében? Gondoljuk meg, hogy miért nem függ az esélyhányados értéke a változók külön-külön eloszlásától (azaz a marginálisoktól) ! Miért függ a Rogoff hányados a marginálisoktól ? Milyen esetekben lesz lambda értéke 0 ?
Ordinális változók asszociációs mérőszámai Tekintsük meg a következő táblát (3. tábla).
Nagyon közel Milyen közel érzi Közel magához a várost, Nem ahol él? nagyon közel Total
Milyen közel érzi magához a kontinenst? Nagyon Közel Nem közel nagyon közel 521 41 20 89,5% 7,0% 3,4 % 123 106 15 50,4% 43,4% 6,1% 100 63,7%
36 22,9%
744 75,7%
183 18,6%
21 13,4% 56 5,7%
Összesen
582 100,0 % 244 100,0% 157 100,0% 983 100,0%
3. tábla
A százalékolás alapján mit gondolunk független változónak? Van-e összefüggés? Milyen mérési szintű változókat látunk? Hogyan lehetne a PRE elvét érvényesíteni?
Ezúttal párosával vizsgáljuk az embereket. Próbáljuk megjósolni minden párra, hogy közelebb, vagy kevésbé közel érzi magához a kontinenst a pár másik tagjához képest, ha ismerjük, hogy a várost, ahol él közlebb érzi magához, mint a pár másik tagja. Ismételjük meg az előbbi besorolást úgy, hogy ismerjük mekkora azoknak a pároknak az aránya, akiknél igaz az, hogy amelyikük közelebb érzi magát a városához, az érzi közelebb magát a kontinenshez is, illetve akiknél nem igaz ez. Hogyan járnánk el? Fejezzük ki a javulást! Hány olyan pár található a mintában akiknél igaz az, hogy amelyikük közelebb érzi magát a városához, az érzi közelebb magát a kontinenshez is (azonos sorrendű párok)? Hogyan lehet ezt kiszámolni? Vegyük sorra a cellákat a jobb alsó sarokból. Minden cellába eső megfigyelésünk számát szorzzuk meg a tőle balra és felfelé eső cellákba eső megfigyelések összegével. Ismételjük meg minden lehetséges cellára.
Nagyon közel
Milyen közel érzi Közel magához a várost, Nem ahol él? nagyon közel Total
Milyen közel érzi magához a kontinenst? Nagyon Közel Nem közel nagyon közel 521 41 20 89,5% 7,0% 3,4 % 123 106 15 50,4% 43,4% 6,1%
Összesen
582 100,0 % 244 100,0%
100 63,7%
36 22,9%
21 13,4%
157 100,0%
744 75,7%
183 18,6%
56 5,7%
983 100,0%
Ns=21*(521+41+123+106) + 15*(521+41) + 36*(521+123) + 106*521= 103 451 Hány olyan pár található a mintában akiknél az igaz, hogy amelyikük közelebb érzi magát a városához, az távolabb érzi magát a kontinenstől (fordított sorrendű párok)?
Hogyan lehet kiszámolni? Vegyük sorra a cellákat a bal alsó sarokból. Minden cellába eső megfigyelésünk számát szorzzuk meg a tőle jobbra és felfelé eső cellákba eső megfigyelések összegével. Ismételjük meg minden lehetséges cellára.
Nagyon közel
Milyen közel érzi Közel magához a várost, Nem ahol él? nagyon közel Total
Milyen közel érzi magához a kontinenst? Nagyon Közel Nem közel nagyon közel 521 41 20 89,5% 7,0% 3,4 % 123 106 15 50,4% 43,4% 6,1%
Összesen
582 100,0 % 244 100,0%
100 63,7%
36 22,9%
21 13,4%
157 100,0%
744 75,7%
183 18,6%
56 5,7%
983 100,0%
Nd=100*(41+20+106+15) + 123*(41+20) + 36*(15+20) + 106*20=29 083 Gammának nevezzük a következő asszociációs mérőszámot:
γ =
Ns − Nd Ns + Nd
Jelen esetben:
γ =
N s − N d 103451 − 29083 = = 0,561 N s + N d 103451 + 29083
Gamma tulajdonságai - szimmetrikus - értéke -1 és +1 között változhat - függetlenség esetén értéke 0 - jelentése: az összes mindkét változó szerint sorbarendezhető pár közül mekkora arányban csökken a jóslás hibája a véletlenhez ( (Ns+Nd)/2 ) képest. Egy másik lehetséges asszociációs mérőszám a Sommer féle d. Ennek kiszámításához számoljuk ki azokat a párokat, amelyek nem rendzhetők sorba a függő változó szerint (Nty). Hogyan számoljuk? Válasszuk ki a függő változó legkisebb értékét, keressük meg ezen belül a független változó legkisebb értékéhez tartozó cellát. Az itt található esetek számát szorozzuk meg a függű változó azonos értékéhez tartozó, a független változó nagyobb értékeihez kapcsolható cellákba eső esetek számának összegével. Ismételjük meg addig, amíg lehetséges.
Nagyon közel
Milyen közel érzi Közel magához a várost, Nem ahol él? nagyon közel
Milyen közel érzi magához a kontinenst? Nagyon Közel Nem közel nagyon közel 521 41 20 89,5% 7,0% 3,4 % 15 123 106 6,1% 50,4% 43,4%
Total
Összesen
582 100,0 % 244 100,0%
100 63,7%
36 22,9%
21 13,4%
157 100,0%
744 75,7%
183 18,6%
56 5,7%
983 100,0%
Nty=21*(15+20)+15*20+36*(106+41)+106*41+100*(123+521)+123*521=139 156 A Somer féle d értéke a következő képlettel számítható ki:
d=
Ns − Nd N s + N d + N ty
A konkrét esetben:
d=
Ns − Nd 103451 − 29083 = = 0,274 N s + N d 103451 + 29083 + 139156
A Sommer féle d tulajdonságai: - asszimetrikus - értéke -1 és +1 közé esik - függetlenség esetén értéke 0 Említés szintjén még egy mérőszám: Spearman vagy rang korreláció. Képlete: N
rs = 1 − ahol x, y N
∑ (x − y ) i =1
i
2
i
N ( N 2 − 1)
az ordinális változók, az értékekhez hozzárendelve, hogy hanyadik helyen állnak az elmek száma
Spearman (rang) korreláció tulajdonságai: - szimmetrikus - értéke -1 és +1 közé esik - függetlenség esetén értéke 0 Ellenőrző kérdések Melyik a nagyobb azonos adatok esetén: a gamma vagy a Sommer d ? Milyen mérőszámot használunk ordinális mérési szintű változók esetén, ha nem tudjuk, hogy melyik a függő változó (nem jelölhető meg) ? Elgondolkodtató Mit jelent a Sommer féle d ? Ha eltérünk a függetelenségtől hogyan változnak a most tanult asszociációs mérőszámok?
Összefoglalás Fogalmak PRE (proportional reduction of error), hibavalószínűség aránylagos csökkenésének elve Asszociációs mérőszám Asszimmetrikus / szimmetrikus asszociációs mérőszám Azonos / fordított sorrendű párok Asszociációs mérőszámok és tulajdonságaik Nominális / nominális Lambda (asszimmetrikus, 0 +1, nem érzékeny a függetlenségre) Rogoff hányados (szimmetrikus, változó intervallumú) Esélyhányados (szimmetrikus,0 +∞ , variációsan független) Ordinális/ordinális Gamma (szimmetrikus, -1 +1) Somme féle d (asszimmetrikus, -1 +1) Spearman (rang) korreláció (szimmetrikus, -1 +1)
Példa A következőkben arra vagyunk kíváncsiak, hogy hogyan függ össze az embereknek a nemzeti identitásról alkotott képe az országukhoz fűződő kapcsolatuk erősségével. Két ország összehasonlítására van lehetőség: Magyarország és Nagybritannia. Feladatok: 1. Jelöljünk meg függő és független változót! Indokoljuk a választást! 2. Elemezzük a megfelelő százalékolás alapján az összefüggéseket! 3. Használjunk asszociációs mérőszámo(ka)t! Indokoljuk a választást! Nagybritannia: How close feel to: country
How close feel to: country
Very close
Close
Not very close
Total
a. Country
a Crosstabulation
* Important: born in (Rs country)
Count % within How close feel to: country % within Important: born in (Rs country) Count % within How close feel to: country % within Important: born in (Rs country) Count % within How close feel to: country % within Important: born in (Rs country) Count % within How close feel to: country % within Important: born in (Rs country) = GB
Important: born in (Rs country) Very Fairly Not very important important important 142 50 27
Total 219
64,8%
22,8%
12,3%
100,0%
31,9%
18,5%
13,0%
23,7%
203
134
93
430
47,2%
31,2%
21,6%
100,0%
45,6%
49,4%
44,9%
46,6%
100
87
87
274
36,5%
31,8%
31,8%
100,0%
22,5%
32,1%
42,0%
29,7%
445
271
207
923
48,2%
29,4%
22,4%
100,0%
100,0%
100,0%
100,0%
100,0%
Magyarország How close feel to: country
How close feel to: country
Very close
Close
Not very close
Total
a. Country
a Crosstabulation
* Important: born in (Rs country)
Count % within How close feel to: country % within Important: born in (Rs country) Count % within How close feel to: country % within Important: born in (Rs country) Count % within How close feel to: country % within Important: born in (Rs country) Count % within How close feel to: country % within Important: born in (Rs country)
Important: born in (Rs country) Very Fairly Not very important important important 343 198 237
Total 778
44,1%
25,4%
30,5%
100,0%
86,2%
74,4%
75,5%
79,6%
43
59
62
164
26,2%
36,0%
37,8%
100,0%
10,8%
22,2%
19,7%
16,8%
12
9
15
36
33,3%
25,0%
41,7%
100,0%
3,0%
3,4%
4,8%
3,7%
398
266
314
978
40,7%
27,2%
32,1%
100,0%
100,0%
100,0%
100,0%
100,0%
=H
Változók: Milyen közel érzi magát az országhoz, ahol lakik ? (How close feel to: country) Nagyon közel (very close) Közel (close) Nem nagyon közel (not very close) Mennyire fontos a brittség/magyarság szempontjából az, hogy vki az országban született? (Important: born in (Rs country) Nagyon fontos (very important) Elég fontos (fairly important) Nem nagyon fontos (not very important)
Asszociációs mérőszámok eredményei: Nagybritannia Directional Measuresc
Ordinal by Ordinal
Somers' d
Symmetric How close feel to: country Dependent Important: born in (Rs country) Dependent
Value ,195
Asymp. a Std. Error ,029
Approx. T 6,809
Approx. Sig. ,000
,197
,029
6,809
,000
,194
,028
6,809
,000
b
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Country
= GB Symmetric Measuresd
Ordinal by Ordinal
Gamma Spearman Correlation Interval by Interval Pearson's R N of Valid Cases
Value ,305 ,217 ,216 923
Asymp. a Std. Error ,043 ,032 ,031
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. d. Country
= GB
b
Approx. T 6,809 6,733 6,714
Approx. Sig. ,000 ,000c ,000c
Magyarország: Directional Measuresc
Ordinal by Ordinal
Somers' d
Symmetric How close feel to: country Dependent Important: born in (Rs country) Dependent
Value ,104
Asymp. a Std. Error ,027
Approx. T 3,786
Approx. Sig. ,000
,079
,021
3,786
,000
,154
,040
3,786
,000
b
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Country
=H Symmetric Measuresd
Ordinal by Ordinal
Gamma Spearman Correlation Interval by Interval Pearson's R N of Valid Cases
Value ,228 ,118 ,108 978
Asymp. a Std. Error ,058 ,031 ,032
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. d. Country
=H
b
Approx. T 3,786 3,720 3,382
Approx. Sig. ,000 ,000c ,001c