http://statisztika.szoc.elte.hu/tarsstat Társadalomstatisztika, 2003/2004 I. félév. November 25.
Mai tematika: Változók közötti kapcsolat III.: a folytonos eset. Regresszió és korreláció. 1 Bevezetés 1 Együttes eloszlás 2 Ábrázolás (scatter plot, pontdiagram) 2 Lineáris kapcsolat 5 Nemlineáris kapcsolat 8 Determinisztikus/sztochasztikus kapcsolat 8 Összefüggés jellemzése 10 A legjobban illeszkedő egyenes megtalálása (lineáris regresszió) 10 Kovariancia, (Pearson-) korreláció 13 Esetek amikor a korreláció és a lineáris regresszió nem használható 14 Irodalom: Frankfort-Nachmias 349-439. Lásd még: Rövid összefoglaló: Babbie, Earl: A társadalomtudományi kutatás gyakorlata. Balassi kiadó, Budapest 1995. pp. 498-503. Háttéranyag a megértéshez: Székelyi Mária - Barna Ildikó: Túlélőkészlet az SPSS-hez - Többváltozós elmezési technikákról társadalomkutatók számára. Typotex kiadó, Budapest, 2002. pp 204-222. A lineáris regresszió társadalomtudományi használatáról szóló kötet: Moksony Ferenc: Gondolatok és adatok - Társadalomtudomáyni elméletek empirikus ellenőrzése. Osiris Kiadó, Budapest, 1999.
Változók közötti kapcsolat III.: a folytonos eset. Regresszió és korreláció. Bevezetés Az elmúlt két alkalommal az alacsony mérési szintű változók összefüggését vizsgáltuk. Ma a magas mérési szintű változók esetén kíséreljük meg ugyanezt. Mit jelent a magas mérési szint? Intervallumskála. A fenti példával szemben itt ismerjük a szomszédos értékek távolságát, de nincs „abszolút 0 pont” (szokásos példa a Celsius-fok); a zérus megválasztása esetleges (víz fagyáspont). Ilyen az IQ-pont is: 200 vs. 100 pont: nem kétszer okosabb. Arányskála. Van „abszolút 0 pont” is (mint Kelvin-fok). Itt már van értelme az osztás műveletnek is. Ilyen pl. súly, magasság, jövedelem.
Emlékeztetőül azok a kérdések, amelyeket az összefüggések vizsgálatánál feltettünk: 1. 2. 3.
Van-e kapcsolat? Milyen erős? Milyen irányú?
Mint később látni fogjuk más kérdéseket is fel kell tennünk a magas mérési szint esetén.
Együttes eloszlás Ahogy az alacsony mérési szint esetén, úgy a magas mérési szintű változóknál is, az összefüggés vizsgálatát az együttes eloszlás vizsgálatával kezdjük. Mit jelent magas mérési szintű változóknál az együttes eloszlás ? Legjobban úgy tudunk erről képet alkotni, ha valamilyen módon ábrázoljuk leírjuk.
Ábrázolás (scatter plot, pontdiagram) Emlékezzünk vissza arra, hogy az alacsony mérési szintű változók esetén az együttes eloszlást jól vizsgálhattuk kereszttáblák segítségével. Működik-e ez a módszer a magas mérési szintű változók esetén is? Nézzük meg például az életkor és a jövedelem együttes eloszlását Magyarországon 1995-ben :
Count 18 R: Earnings I
1500 3000 3100 3500 3900 4000 4600 4730 5760 5800 6070 6100 6200 6270 6300 6600 6640 6700 6720 6800 6985 7000 7100 7200 7400 7500 7570 7600 7650 7700 7800 7900 8000 8040 8100 8160 8200 8250 8300 8320 8400 8500 8600 8700 8900 9000 9020 9100 9400 9500 9600 9700 9750 9800 9979 10000 10050 10084 10106 10107 10200 10400 10500 10600 10644 10700 10750 10800 10900 11000 11100 11250 11300 11372 11380 11500 11600 11700 11800 11900 12000 12004 12100 12147 12200 12250 12300 12400 12500 12506 12550 12600 12800 12840 12900 13000 13010 13030 13100 13160 13200 13400 13500 13536 13600
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
1 1 1 1 1 1 1 1
1 1
1
1 1 1
2
2
2
1
1
1 1
1
1
1
1
1
1
1 1
1 1 1
1
1 1
1
1
1
1 1
1
1
1 1 1 1
1
1
1 1
1 1
1 1
1
1
1
1
1 1
1 1
1
1
1
1
1 1
1
1 1 1
1
1
1
1
1
3
1
1
1 1
1
1
1
1
2
1
1
2
1
1
1
1
1
1
1
1
1
1
1 1
1
1
1
1 1
1
2
Úgy tűnik több okból sem célszerű a kereszttáblás ábrázolás: - a tábla áttekinthetetlenül nagy lesz - sok az esethiányos cella - cellánként túl alacsony az esetszám - összességében nem tudunk válaszolni az előbb feltett kérdésekre Célszerűbb valamilyen ábrát használni az adatok első áttekintéséhez, értékeléséhez.
Életkor és jövedelem együttes eloszlása ISSP 95, Magyarország 300000
200000
Jövedelem
100000
0
-100000 0
20
40
60
80
100
Életkor Ezt az ábrát pontdiagramnak vagy angolul scatterplot-nak nevezzük. Első áttekintés előtt néhány szokásos jelölés: y (függőleges) tengely: ha értelmezhető akkor általában a függőváltozó x (vízszintes) tengely: ha értelmezhető akkor általában a független változó Minden egyes pont (itt négyzet) egy esetet jelöl. Mit olvashatunk le az ábrából ? - a változók terjedelmét (minimumát és maximumát) - az összefüggés tendenciáit (hiányát/meglétét, irányát, alakját) - kiugró (a tendenciától eltérő) eseteket A kapcsolat jellemzéséhez meg kell állapítanunk, hogy látunk-e valamilyen összefüggést a két változó között az együttes eloszlás alapján. Ehhez ismételjük át két változó összefüggésének / függetlenségének fogalmát! Alacsony mérési szintű változó esetén ezt a definíciót adtuk:
Azt mondjuk, hogy kapcsolat van a két változó között, ha a függő változó eloszlása más és más a független változó különböző kategóriáin belül nézve. Két változó függetlensége esetén tehát a függő változó eloszlása azonos a független változó különböző kategóriáin belül.
(Amennyiben nem különböztetünk meg függő és független változót akkor az egyik, illetve másik változó kifejzés használható) Megjegyzés: a függetlenség szimmetrikus tulajdonság Magas mérési szint esetén a függetlenséget így definiálhatjuk: A függő változó feltételes eloszlása azonos a független változóra, mint feltételre nézve. Kevésbé precízen fogalmazva a függő változó bármely értékénél a független változó hasonló értékeket vesz fel. Lássuk ismét a korábbi ábránkat az életkor és a jövedelem összefüggéséről! Független-e a két változó?
Életkor és jövedelem együttes eloszlása ISSP 95, Magyarország 300000
200000
Jövedelem
100000
0
-100000 0
20
40
60
80
100
Életkor Nézzük ugyanezt az adatot olyan módon, hogy most a 150 000 Ft feletti, illetve 0 Ft-os jövedelmeket nem tekintjük! Most egy kicsit tisztábban látjuk, hogy a két változó nem független egymástól. Hogyan lehetne jellemezni a két változó kapcsolatát ?
Lineáris kapcsolat Két magas mérési szintű változó közötti kapcsolat lineáris, ha a független váltózó egységnyi emelése mellett a függő változó várható értéke minden esetben azonos mértékben és irányban változik. Két magas mérési szintű változó kapcsolata jellemezhető azzal az egyenessel (és annak tulajdonságaival), amelyre az adatok illeszkednek (ha ilyen egyenes létezik). Illesszünk egyenest a fenti ábrába!
Az illesztett egyenest ( az illesztés módjával az óra későbbi részében foglalkozunk) két paraméterrel jellemezhetjük: - a meredekséggel - és az y tengely metszéspontjával Az egyenes egyenlete általános esetben (emlékeztetőül a középiskolai matematika órák nyomán):
y = a + bx ahol a b
az a pont, ahol az egyenes metszi az y tengelyt (y értéke, amikor x=0) az egyenes meredeksége, azaz az egységenkénti emelkedése (ha az x tengelyen 1-et lépünk jobbra hányat kell lépni az y-on)
Mit jelent a meredekség? Jellemzi az összefüggés irányát és mértékét: - negatív meredekség: fordított irányú összefüggés (minél nagyobb a független változó értéke, annál kisebb a függőé) - pozitív meredekség: egyenes irányú összefüggés - zérus meredekség: függetlenség - a meredekség abszolút értéke jellemzi a hatás erősségét Nézzük meg a következő két ábrát és a hozzájuk tartozó egyenleteket!
A két - azonos adatok alapján készült és ránézésre azonos - ábra arra hívja föl a figyelmet, hogy a meredekség számszerű értéke függ a mértékegységtől (itt év / évtized) így csak annak ismeretében alkalmas összehasonlításra. Mit jelent az y-tengely metszéspont (intercept)? Ha a független változó értéke nulla lenne, akkor ennyi lenne a függőváltozó értéke. Végül mit mondhatunk el az életkor és a jövedelem kapcsolatáról az eddigi ismeretek birtokában?
Nemlineáris kapcsolat Az életkor és a jövedelem közötti összefüggés másképpen is bemutatható:
Az ábrán egy itt most nem ismertetett eljárással görbét illesztettünk az együttes eloszlásra. Ebből a görbéből jól látszik, hogy az egyes korcsoportokon belül más és más a tapasztalható összefüggés: - 18-50 év között a jövedelem szinte egyenletesen emelkedik - 50-60 év között egyenletesen csökken - 60 év fölött az életkor és a jövedelem között nem látszik összefüggés
Determinisztikus/sztochasztikus kapcsolat Két változó kapcsolatára jellemző, hogy függvényszerű vagy csak valószínűsíthető. Nézzük meg az alábbi példákat!
(Az ábrák fiktív, véletlenszerűen generált adatokat tartalmaznak, a generálás alapja a korábban bemutatott valós adatok voltak) Az ábrákat összehasonlítva látszik, hogy determinisztikus kapcsolat esetén a kapcsolat erősségéből (meredekség) és a függetlenváltozóból pontosan megadható a függőváltozó értéke, míg sztochasztikus kapcsolat esetén csak a legvalószínűbb értéket ismerjük. A determinisztikus kapcsolatot más néven függvény szerű kapcsolatnak is nevezik. Milyen kapcsolat típus lehet domináns a társadalomtudományokban ? A társadalomtudományi kutatásokban lényegében csak sztochasztikus kapcsolatokkal találkozhatunk. Ez annak köszönhető, hogy a társadalmi folyamatokat általában több tényező is befolyásolja, mely tényezők az adott két változó kapcsolata szempontjából zajként, hibaként jelentkeznek.
Összefüggés jellemzése Az eddig elmondottak alapján már nagyjából le tudjuk írni két magas mérési szintű változó kapcsolatát, azonban nehézségekbe ütköznénk, ha pontos számmal kellene jellemeznünk a kapcsolat erősségét (ilyen szám volt az alkalmazható egyenes meredeksége, de homályban hagytuk mindeddig, hogy hogyan kaphatjuk meg az egyenest magát). Az óra hátralevő részében arról lesz szó, hogy milyen módon jellemezhető egyetlen számmal két magas mérési szintű változó kapcsolata, illetve mik az ilyen jellemzés korlátai.
A legjobban illeszkedő egyenes megtalálása (lineáris regresszió) A legjobb egyenes megtalálásához valamilyen módon minimalizálnunk kell az egyenes és az adatokat reprezentáló pontok távolságát (azaz az egyenes illeszkedését kell maximalizáljuk). Ennek egyik lehetséges módja, ha a négyzetes távolságot minimalizáljuk a függő változó mentén. Ezt az elvet a legkisebb négyzetes eltérés módszerének nevezzük (angolul: least squares method) Illusztráció: Év 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Munkanélküliségi ráta (gazd. akt. %-a) 9,9 12,1 10,8 10,3 10 8,8 7,8 7 6,4 5,7
Bűnözési ráta (100 ezer főre) 4332 3895 3795 4908 4572 5066 5939 5009 4496 4571
Magyarázat: a körök jelzik az adatokat (10 megfigyelésünk van), a vörös vonal a regressziós egyenes, a fekete tüskék az eseteket reprezentáló pontok és az egyenes közötti távolságot jelölik, azt a távolságot, amelynek a negyzetösszegét minimalizáltuk. A lineáris regressziót a regressziós egyenlettel jellemezhetjük: ∧
y = a + bx ahol a, b
a regressziós együtthatók
∧
y
regressziós becslés a függőváltozóra
Az a és b együtthatók megahatározásánál a következő érték minimalizálására törekszünk: ∧
∑ ( y − y)
2
Bizonyítható (ettől itt eltekintünk), hogy akkor lesz minimális a fenti eltérés négyzet, ha N
b=
S yx S x2
=
∑ (x i =1
i
− x)( y i − y )
N
∑ ( x − x)
2
i =1
a = y − bx ahol N
S yx =
∑ (x i =1
i
− x)( y i − y )
N
S x2 =
a két változó kovarianciája
N −1
∑ ( x − x)
2
i =1
a független változó varianciája
N −1
(a képletek csak illusztrációs célt szolgálnak, a matematikai statisztika című tárgyból kerülnek levezetésre) Visszatérve az munkanélküliség és a bűnözés kapcsolatára a következő eredményt kaptuk: a = 5919 b = - 142 Mit jelent ez ? A b értelmezése: a munkanélküliségi ráta 1 százalékpontos növekedése a 100 ezer főre vetített bűnözési ráta 142 esettel történő csökkenésével jár Az a értelmezése: ha a munkanélküliségi ráta 0 lenne a bűnözési ráta 100 ezer főre vetítve 5919 eset lenne. Megjegyzés: a lineáris regresszió együtthatói aszimmetrikus mérőszámok, értékük függ attól, hogy melyik változót választjuk függőváltozónak.
Az egyenes illeszkedésének mértéke: r2 (determinációs együttható) A regressziós együtthatók becslésén túl fontos, hogy megállapítsuk az egyenes mennyire illeszkedik az adatokhoz. Ennek egyik jellemző mértéke a becslés négyzetes hibája: ∧
E = ∑ ( y − y) 2 Gyakrabban használt mérőszám azonban a determinációs együttható, amely a becslés hibacsökkentő hatásának vagy másként a megmagyarázott szórásnak a jellemző mutatója: ∧
r2 =
∑ ( y − y) 2 − ∑ ( y − y) 2 ∑ ( y − y)
2
A determinációs együttható értéke 0 és 1 közé esik és megmutatja, hogy a függő változó szórásának mekkora részét magyarázta meg a független váltózóval mérhető kapcsolata. A fenti példában a determinációs együttható értéke 0,23 volt, ami társadalomtudományi adatok esetén jó magyarázóerőnek számít.
Kovariancia, (Pearson-) korreláció Két magas mérési szintű változó összefüggésének vannak más gyakran használt mutatószámai is. Az egyik ilyen a kovariancia (már említettük, amikor a regressziós egyenlet együtthatóit számoltuk). Képlete: N
S yx =
∑ (x i =1
i
− x)( y i − y ) N −1
A kovariancia a két változó együtt vagy ellentétes változását írja le. Szimmetrikus mérőszám. Értéktartománya a változók szórásának függvénye (nyers mutató). A kovariancia „rossz” tulajdonsága az, hogy értéke függ a változók szórásától, így nehezen összehasonlíthatóak a mért eredmények. A kovarianciából továbbszámolható mérőszám a korreláció. Kiszámítása:
r=
S yx SxSy
ahol Sx,Sy
a változók szórásai
A korreláció értéke -1 és +1 közé esik. Szimmetrikus mérőszám. Megjegyzés: nem véletlen a jelölések azonossága, a regresszió determinációs együtthatója és a korreláció egymásból számítható mérőszámok.
Esetek amikor a korreláció és a lineáris regresszió nem használható Mikor nem használhatóak a fenti eljárások? - ha nem lineáris a kapcsolat (korábban is láttunk hasonlót)
- ha extrém esetek vannak a mintában
Láthatjuk, hogy egyetlen extrém eset képes jelentős összefüggés látszatát kelteni egy olyan populáció esetén, amelyben egyébként nem lenne összefüggés. Jó tanács: ha magas mérési szintű változókkal dolgozunk mindig készítsünk pontdiagrammot, amely alapján kialakíthatunk egy elsődleges benyomást az adatokról. Megjegyzés: a lineáris regresszió alkalmazásának vannak matematikai követeleményei is: - a függőváltozó független változó minden értékére vett eloszlásának normálinak kell lennie és azonos szórásúnak
Összefoglalás Ma tanult fogalmak: Pontdiagram Determinisztikus / sztochasztikus összefüggés Lineáris kapcsolat Nem lineáris kapcsolat Lineáris regresszió Kovariancia Pearson (momentumszorzat) korreláció