Ismérvek közötti kapcsolatok szorosságának vizsgálata 1. Egy kis ismétlés: mérési skálák (Hunyadi-Vita: Statisztika I. 25-26. o) A különböző ismérveket, eltérő mérési szintekkel (skálákkal) jellemezhetjük. a. Névleges (nominális) mérési skála: az egységekhez rendelhető ismérvértékek (akár számok akár nem) alapján csak azt tudjuk megállapítani, hogy az egységek az adott ismérv szempontjából egyezőek-e vagy sem. Műveleteket nem tudunk velük végezni. Példa: lakhely típusa ismérv ismérvértékei: főváros, város, község. A mérési szint névleges, hiszen ez alapján csak azt tudjuk megállapítani, hogy egy egyed más típusú településen él-e mint egy másik egyén, de nem mondhatjuk, hogy a város „több” vagy „jobb” mint a község. Szintén semmi értelme nem lenne ezeket elosztani egymással vagy kivonni őket egymásból, még akkor sem ha az ismérvértékeket számmal jelölnénk. b. Sorrendi (ordinális) skála: nem csak az ismérvértékek különbsége hordoz információt, hanem azok sorrendje is. Példa: érdemjegyek (ismérvértékek: 1, 2, 3, 4, 5). Tudjuk, hogy aki ötöst kapott, az nemcsak eltér attól, aki négyest kapott, hanem jobban is teljesített. Tehát van értelme sorrendbe helyezni az egyedeket az érdemjegy alapján. Ugyanakkor nyilvánvalóan sem a kivonásnak, sem az osztásnak nem lenne értelme: az egyes és a kettes között más a különbség, mint a kettes és a hármas között. Az sem lenne igaz, hogy aki kettest kapott az kétszer olyan jó volt, mint aki egyest, vagy, hogy az egyes a ketteshez úgy aránylik, mint a kettes a négyeshez. c. Különbségi (intervallum) skála: az ismérvértékek különbségeinek van értelme (van mértékegység is), ugyanakkor az arányokat nem tudjuk értelmezni. Ennek oka, hogy a különbségi skálán mérhető ismérvek esetében a nulla pont önkényesen van kijelölve. Példa: Celsius-féle hőmérsékleti skála. 10°C és 20°C között a különbség ugyanannyi mint 20°C és 30°C között. Ugyanakkor nem mondhatjuk, hogy „a 10°C kétszer melegebb, mint az 5°C”, vagy, hogy „a 20°C pont annyiszor melegebb a 10°C-nál, mint a 10°C az 5°C-nál”. Belátható, hogy ennek az az oka, hogy a Celsius-féle skála nulla pontja (illetve a 100°C is) önkényesen került megállapításra: 0°C nem jelenti a hőmérséklet „hiányát”. d. Arányskála: Az ismérvértékek arányai is értelmezhetőek, a nulla pont nem önkényesen van megállapítva. Példa: az ismérv a havi jövedelem. Ha valakinek 200 ezer forint a havi jövedelme, akkor arra nyugodtan mondhatjuk, hogy kétszer annyi, mint a 100 ezer forintos jövedelem és, hogy ez a két jövedelem pont úgy aránylik egymáshoz, mint az 1 millió forintos jövedelem az 500 ezres jövedelemhez. A nulla pont nem önkényes, hiszen a nulla forint jövedelem a jövedelem hiányát jelöli. Az ismérvek közötti kapcsolat szorosságát az ismérvek mérési skálájától függően a következő eszközökkel vizsgálhatjuk: 1. Mindkét ismérv minőségi vagy területi (azaz nominális mérési szintű): asszociáció 2. Az egyik ismérv területi vagy minőségi (azaz nominális mérési szintű), a másik ismérv (változó) pedig mennyiségi (azaz legalább különbségi skálán mért): vegyes kapcsolat 3. Mindkét ismérv mennyiségi: korreláció.
Asszociáció: Megfigyeltük, hogy egy három színben (piros, kék, zöld) gyártott termékből a férfiak és a nők mennyi darabot vásároltak. (Azaz két minőségi ismérvünk van: termék színe, és a vásárló neme). Vajon van-e kapcsolat a vásárló neme, és a választott szín között? piros férfiak 10 nők 20 összesen 30
kék zöld összesen 45 15 20 35 10 5 25 25 80
Az általános jelölésekkel: piros f11 f21 f.1
férfiak nők összesen
kék zöld összesen f1. f12 f13 f2. f22 f23 f.2 f.3 N
A fenti kontingenciatáblában a sorok és az oszlopok utolsó adatai peremgyakoriságoknak nevezzük. A feladat megoldásához készítsük el a fenti tábla egy olyan verzióját, amelyben feltételeztük az ismérvek függetlenségét. Ha a két ismérv függetlene, akkor a gyakoriságok kiszámíthatóak a peremgyakoriságokból a következő módon: f f f ij* . j i. N Azaz ha a szín és a vásárló neme függetlenek lennének egymástól, akkor az f11 gyakoriság helyén a következő gyakoriság szerepelne: f f 45 30 f11* .1 1. 16,875 N 80 Így elkészíthetjük a kontingeciatáblát a feltételezett gyakoriságokkal: összesen piros kék zöld 45 férfiak 16,875 14,0625 14,0625 35 nők 13,125 10,9375 10,9375 összesen 30 25 25 80
A tankönyv 162. oldalán látható khi-négyzet teststatisztikát a valós és a feltételezett valószínűségekből a következő módon számolhatjuk ki: r
c
2 i 1 j 1
f
ij
f ij* fij*
2
, ahol r a sorok, c pedig az oszlopok száma.
Jelen példában: (10 16,875)2 (15 14,0625)2 (20 14,0625)2 (20 13,125)2 (10 10,9375)2 2 16,875 14,0625 14, 0625 13,125 10,9375 (5 10,9375)2 12, 2751 10,9375 Az, hogy a fenti statisztika nullától eltér, már jelzi, hogy a két ismérv között van kapcsolat. Az asszociáció egyik gyakori mérőszámát, a Cramer-féle asszociációs együtthatót a következő módon számolhatjuk ki:
C
2 N min((r 1),(c 1))
Ahol a min((r-1),(c-1)) függvény azt jelenti, hogy a sorok illetve az oszlopok számából vonjunk ki egyet, és a kisebb értéket vegyük figyelembe. Azaz, mivel ebben a példában két sor és három oszlop volt (az összesítő oszlop és sor nem számít!) Azaz:
2 12, 2751 0,3917 80 1 N min((r 1), (c 1)) A Cramer-féle mutató értéke 0 és 1 közötti értékeket vehet fel. Értéke 0 a két ismérv függetlensége, 1 pedig a két ismérv determinisztikus kapcsolata esetén. A fenti érték egy a közepesnél gyengébb kapcsolatra utal a vásárló neme, és a választott szín között. C
Vegyes kapcsolat: Példa: egy vállalatnál megfigyeltük a férfiak és a nők kereseteit (ezer forint/hó): Férfiak: 120, 83, 65, 190, 230, 120, 130, 190 Nők: 70, 65, 90, 100, 120, 130 Vajon van-e összefüggés a kereset (mennyiségi ismérv) és a nem (minőségi ismérv) között? Az átlagbért és a szórást kiszámoljuk az egyes kategóriákban, azaz a részsokaságokra (ezt nem részletezem, a képletek ismertek). Az egyes kategóriákra (nemekre) kiszámolt átlagok a részátlagok. Készítsük el a táblát a megoldáshoz: nem
férfi nő összesen
Létszám
Átlagbér (ezer ft/hó)
Nj
(részátlagok,
8 6 14
141 95,83
Szórásnégyzet
Yj )
B j2
Szórás (ezer ft/hó) Bj
2858,25 570,14
53,46 23,88
Illetve számoljuk ki az átlagbért és a szórást az egész sokaságra (utóbbi a teljes szórás), azaz férfiakra és nőkre együttesen: Y 121, 7 ezer ft/hó , a teljes szórás pedig 48, 76 ezer ft/hó A tankönyv 149-150. oldalán található meg a módszer részletes leírása. A lényeg, hogy a teljes szórásnégyezet (σ2) felontható két szórásnégyzet összegére: 2 B2 K2 Ahol σK a külső szórás és azt mutatja meg, hogy a részátlagok átlagosan mennyire térnek el a főátlagtól, míg σB a belső szórás és azt mutatja meg, hogy az egyes részsokaságokhoz tartozó megfigyelések (a nők illetve külön a férfiak) mennyire térnek el átlagosan a saját részátlaguktól. Láthatjuk, hogy ha a fenti szórásnégyzetekből (illetve a szórásokból) kettőt ismerünk, a harmadik már azokból kiszámolható. A teljes szórásnégyzetet ismerjük, hiszen az: 2 48, 762 2377, 2 A külső szórásnégyzet a következő módon számolható ki: 1 M 8 (141 121, 7) 2 6 (95,83 121, 7) 2 2 2 K N j (Y j Y ) j 499,6 N j 1 14
Vagyis a külső szórásnégyzet nem más, mint az egyes részátlagoknak a sokaság egészének átlagától vett négyzetes eltérésének az egyes részsokaságokba tartozó egyedek számával súlyozott számtani átlaga. A belső szórásnégyzet tehát: B2 2 K2 2377, 2 499,6 1877, 6 Természetesen ki lehetne számolni a belső szórásnégyzetet is: 1 M 8 2858, 25 6 570,14 B2 N j B 2j 1877, 6 , ami egyben a számításaink próbája is. A 14 N j 1 megoldásunk helyes. A vegyes kapcsolat szorosságának leírásához a H2 mutatót használjuk fel, ami nem más, mint az Y ismérv (fizetés) szórásnégyzetének az X ismérv (nem) által magyarázott hányada. 2 2 499, 6 H 2 K2 1 B2 0, 21 2377, 2 Azaz ebben a példában azt találjuk, hogy a nem a fizetésekben megfigyelhető különbségek 21%-át magyarázza. Ez gyenge vegyes kapcsolatra utal. Korreláció: Két mennyiségi ismérv közötti kapcsolat szorosságát mérhetjük ezzel a mutatóval. Példa: a jövedelem és a fogyasztás kapcsolatát elemeztük Egyén
Fogyasztás Jövedelem (ezer ft) (ezer ft) 1 100 120 2 90 140 3 140 160 4 180 200 5 110 120 6 212 300 7 120 150 összesen -
Vizsgáljuk meg a két ismérv közötti kapcsolat szorosságát! Az egyik kulcsfontosságú statisztika a kovariancia: N
Yi Y X i X
N
dy dx i
i
, ahol dyi Yi Y , dxi X i X N N Ha a kovariancia értéke nulla, akkor a két változó között lineáris kapcsolat nincs. A kovariancia előjele a kapcsolat irányára utal. Pozitív kovariancia esetén magasabb x értékekhez általában magasabb y értékeke társulnak, míg negatív kovariancia esetén a kapcsolat iránya is negatív, azaz magasabb x értékekhez általában alacsonyabb y értékeke társulnak. A kapcsolat szorosságáról azonban a kovariancia nem ad tájékoztatást. c ov( y, x)
i 1
i 1
A két ismérv közötti kapcsolat szorosságának mérésére a kovarianciánál alkalmasabb mutató a korrelációs együttható. N
dy dx i
i 1
cov( y, x) r ( y, x) y x
n
i
N n
n
dyi dxi 2
i 1
N
i 1 2
2
dy dx i 1
i
i
n
n
i 1
i 1
dyi 2 dxi 2
A korrelációs együttható -1 és 1 közötti értékeket vehet fel. Ha r=0, akkor a két változó közötti nincs lineáris kapcsolat. A korrelációs együttható előjele, megőrizve a kovariancia előjelét, a kapcsolat irányára utal. Azaz pozitív korrelációs együttható esetén magasabb x értékek általában magasabb y értékekkel párosulnak, míg negatív együttható esetén magasabb x értékekhez általában alacsony y értékek tartoznak. Minél közelebb kerül az együttható értéke a 1-hez vagy -1-hez, annál erősebb a kapcsolat. Speciális eset ha r=1 vagy r=-1. Ekkor azt mondjuk, hogy x és y között determinisztikus kapcsolat van, azaz ha ismerjük x értékét pontosan (bizonytalanság, hiba nélkül) meg tudjuk határozni y értékét is. Azaz y=a+b*x, ha r=1, és y=a-b*x, ha r=-1. Számoljuk ki a korrelációs együttható értékét! Egyén
Fogyasztás (ezer ft) 100 90 140 180 110 212 120 -
1 2 3 4 5 6 7 összesen
jövedelem (ezer ft) 120 140 160 200 120 300 150 -
dy -36 -46 4 44 -26 76 -16 0
dx -50 -30 -10 30 -50 130 -20 0
dy2 1296 2116 16 1936 676 5776 256 12072
dx2 2500 900 100 900 2500 16900 400 24200
dydx 1800 1380 -40 1320 1300 9880 320 15960
N
c ov( y, x)
dy dx i
i 1
i
N iránya pedig pozitív.
15960 2280 , azaz van kapcsolat a jövedelem és a fogyasztás között, 7
n
r ( y, x)
dy dx i
i 1
n
i
n
dy dx i 1
2
i
i 1
2
15960 0,934 12072 24200
i
A fenti korrelációs együttható erős, pozitív kapcsolatra utal a jövedelem és a fogyasztás között. Magasabb jövedelmekhez magasabb fogyasztás társul. A korrelációs együtthatóból számítható a determinációs együttható (r2), amelynek értelmezése a H2 együtthatóhoz hasonló: megmutatja, hogy x változó segítségével az y változó szórásnégyzetének mekkora hányadát magyaráztuk. r 2 0,934 0,872 , azaz a jövedelem a fogyasztás szórásnégyzetének 87,2%-át magyarázza.