Korreláció- és regresszió-analízis Az X és Y véletlen változók között az alábbi ábrákon
pozitív összefüggés
nem lineáris összefüggés
negatív összefüggés van
Előfordulhat, hogy X és Y között van kapcsolat, de nem korrelációs jellegű, ha például X növekedése kis x-ekre Y növekedésével, nagyobb x-ekre pedig Y csökkenésével jár együtt, mint a második ábrán.
Az is előfordulhat, hogy két változó között nincs semmilyen kapcsolat:
Az állat becsült kor
teljes súly
Több változó esetén a statisztikai programok egy része képes az ábrákat az alábbi táblázatos módon megjeleníteni:
teljes hossz orrtól
törzs hossza
pocak körkörös méret
hátsó láb hossza kör
Pearson-féle korrelációs együttható A korrelációs kapcsolat erősségét – intervallum skála esetén – számszerűen a Pearsonféle korrelációs együtthatóval szokták mérni, amit R(X,Y)-nal jelölünk. − 1 ≤ R( X , Y ) ≤ 1 0 körüli érték gyenge, -1-hez vagy 1-hez közeli érték erős negatív, illetve pozitív korrelációs kapcsolatot jelez.
A korrelációs együttható néhány tulajdonsága: Ha a változók függetlenek, akkor R(X,Y)=0, de abból, hogy R(X,Y)=0, nem következik a változók függetlensége. |R(X,Y)|=1 pontosan akkor áll fenn, amikor a változók között lineáris a kapcsolat, azaz Y=aX+b, ekkor R(X,Y) előjele megegyezik a előjelével. A korrelációs együttható szimmetrikus, a két változó felcserélhető.
Nem szabad részátlagokra használni, mert a kiejtett bizonytalanságok miatt a valóságosnál erősebb összefüggést mutathat.
Hogyan lehet a korreláltságot a minták alapján vizsgálni? ( x1 , y1 ), ( x2 , y 2 ),..., ( xn , y n ) . mintaelemek esetén n
∑ (xi − x ) ⋅ ( yi − y ) rxy =
i =1
(n − 1)s x ⋅ s y
,
ahol x, y a változók mintaátlaga, s x , s y pedig a becsült szórások.
Mivel a korrelációs együttható a mintából számított becslés, ezért hibával terhelt. Akkor sem kapunk pontosan nullát, ha a két változó között nincs korreláció, ezért el kell végeznünk az alábbi hipotézisvizsgálatot:
Nullhipotézis: H 0 : R( X , Y ) = 0 , azaz H 0 : µ r = 0 Próbastatisztika: t =
Szabadsági fok: n-2
r − µr r = sr 1− r2 n−2
A rangkorrelációs együttható: Ha adatainkat nem intervallum skálán mérjük, hanem ordinálison, akkor a Spearman féle rangkorrelációs együtthatót használhatjuk:
6∑ d 2 rs = 1 − 3 , n −n ahol n a mintaelemek száma, d a rangok közti különbségek. Ha az intervallum, vagy arányskálán mért értékeket a rangszámaikkal helyettesítjük – vagy ha az ordinális skálájú változónkat az 1, 2, 3, … n kódokkal kódoljuk – akkor az ebből számolt Pearson-féle és a Spearman féle együtthatók megegyeznek. Így lehet kiszámítani a Spearman féle együtthatót, ha a program csak Pearson-féle korrelációs együtthatót tud számolni.
Regresszió-analízis A regressziószámítás célja A regressziószámítást akkor használjuk, amikor függvényszerű kapcsolatot keresünk egy vagy több magyarázó változó (vagy független változó) és egy függő változó között. Szokásosan a magyarázó változókat X-ekkel, a függő változót pedig Y-nal jelöljük. Feltételezzük, hogy az X-ek és az Y közötti összefüggés kifejezhető függvény formájában, azaz Y
=f(X) vagy Y=f(X1,X2,…,Xr)
Ahhoz, hogy regresszió számítást végezhessünk, mind a magyarázó, mind a függő változót ismernünk kell ugyanazokon a megfigyelési egységeken, azaz a kiinduló adatok egy magyarázó változó esetén (x1,y1), (x2,y2), (x3,y3) ... (xn,yn) értékpárok, több magyarázó változó esetén pedig (x11, x12, x13,…, y1), (x21, x22, x23,…, y2), (x31, x32, x33,…, y3) ... (xn1, xn2, xn3,…, yn) vektorok. Ez az úgynevezett “adatmátrix”.
A regressziószámítás szokásos kérdésfeltevései Van-e bizonyos változók között összefüggés?
Függ-e a borjak 30 napos testtömege a születési súlyuktól? Milyen függvénnyel (lineáris, exponenciális, stb.) írható le az összefüggés?
Alkalmas-e ennek az összefüggésnek a leírására a lineáris függvény? Mi a függő változó várható értéke a magyarázó változó egy bizonyos értékéhez?
Mekkora 30 napos testtömeget várhatunk, ha a születési súly 45 kg? Mi a magyarázó változó feltételezhető értéke a függő változó egy bizonyos értékéhez?
Mekkora születési súly küszöb feletti állatokat szelektáljunk, ha az a cél, hogy 30 napos korban az állatok (legalábbis átlagban) elérjék az 55 kg-ot? A cél lehet oksági kapcsolat megállapítása X és Y között, gyakran azonban csak következtetni szeretnénk az egyik változó értékéből a másikra, a közöttük tapasztalt összefüggés alapján.
Feltétel: a magyarázó és a függő változó egyaránt intervallum skálán mérhető. Példa:
A születési súly és a 30 napos testtömeg összefüggése 30 borjú adatai alapján (Bajcsy Á. Csaba és munkatársai, Szülészeti Tanszék). 70
30 napos testtömeg (kg)
65 60 55 50 45 40
Születési súly (kg)
35 30
35
40
45
50
55
Bár egyértelmű a pozitív összefüggés a két adat között, a szóródás túlságosan nagy ahhoz, hogy a születési súly alapján jó előrejelzést adhatnánk a 30 napos testtömegre.
Melyik legyen a magyarázó és melyik a függő változó? Ez mindig attól függjön, hogy milyen irányú oksági kapcsolatot, illetve milyen véletlen hatásokat tételezünk fel a változók között, és NE attól, hogy melyik változót szeretnénk a másik alapján előrejelezni. Előfordulhat, hogy az ismeretlen X-et szeretnénk meghatározni a megfigyelt Y-ból, bár a regressziós modell Y=f(X)+ε . Ez az úgynevezett inverz regresszió.
Véletlenség a magyarázó és a függő változóban A függő változó mindig valószínűségi változó, a magyarázó változók azonban nem biztos. Általában úgy gondoljuk, hogy Y két független, additív komponensre bontható: az egyik az X-ektől függ, a másik pedig egy, az X-ektől független véletlen faktor, azaz Y=f(X)+ε. magyarázó változó(k) hatása függő változó véletlen komponens (=minden egyéb hatás) Fel szokás tenni, hogy a véletlen komponens várható értéke 0, azaz E(ε)=0 és hogy eloszlása szimmetrikus, a statisztikai tesztek kedvéért pedig még azt is, hogy normális eloszlású.
A magyarázó változóban háromféle véletlenséget szoktak megkülönböztetni:
X nem véletlen változó, a kísérlet vezetője állítja be X értékét a “természet” állítja be, de az pontosan ismert A mért X nem azonos az Y-t befolyásoló változóval (mérési pontatlanság miatt, vagy mert X elvont, nem mérhető, pl. ha X = intelligencia ≠ IQ). Ezt az esetet itt nem tárgyaljuk.
Korreláció- vagy regressziószámítás? A legfontosabb különbségek a két módszer között:
A korrelációszámítás szimmetrikus kapcsolatot tételez fel az X és Y között, míg a regresszió számítás egy bizonyos irányú (X → Y) kapcsolatot, Míg a korrelációszámításban mindkét változó valószínűségi változó, a regresszió számításban X nem feltétlenül az (nem feltétlenül függ a véletlentől). A korrelációszámításnak nincs értelme akkor, ha az X értékeit a kísérletező állítja be (pl. egy gyógyszer dózisát). Gyakran mindkét módszer alkalmazható, ha megfelelően átfogalmazzuk a kérdéseket. Mindig gondoljuk meg azonban, melyik fogalmazás tükrözi jobban, hogy valójában mi is érdekel!
NE használjunk regressziószámítást ha két mérési módszer közötti egyezést vizsgálunk, és nem pedig azt, hogy hogyan fejezhető ki egyik mérési eredmény a másikkal. Ilyenkor a korrelációelemzésnek sincs értelme, hiszen az erős korreláció sem feltétlenül jelent jó egyezést – erős korrelációt kaphatunk nagy szisztematikus hiba (torzítás) esetén is (ha X2 = X1 + 1000, a korrelációs együttható = 1). Ha a mérési eredmények egyezése érdekel, legjobb, ha a különbséggel (abszolút vagy relatív) számolunk.
Végezhetünk azonban regresszió- (nem korreláció!) számítást, ha az egyik mérési módszert pontosnak tekintjük, és arra vagyunk kíváncsiak, hogyan lehet a másikat korrigálni.
ha nem tudjuk eldönteni, melyik változót tekintsük magyarázó és melyiket függő változónak (ez nem csupán technikai kérdés, hanem a véleményünket tükrözi arról, hogy mi mitől függ, illetve, hogy mit tételezünk fel a véletlen faktorokról). ha tudjuk, hogy a magyarázó változó a függő változóval azonos nagyságrendű véletlen hibával terhelt.
Lineáris regresszió egy magyarázó változóval (simple linear regression) A lineáris modell egy magyarázó változóval: Y = f ( X ) = β 0 + β1 X + ε Az együtthatókat az adatokból a legkisebb négyzetek módszerével becsüljük (least n
2
squares), azaz úgy választjuk a paramétereket, hogy a ∑ ( yi − f ( xi )) négyzetösszeg i =1
minimális legyen. Ezt az alábbi becsléssel érjük el: n
∑ ( xi − x )( yi − y ) b1 =
i =1 n
2
∑ ( xi − x )
Y
, b0 = y − b1 x
estimated line Y=b 0 +b 1 X
i =1
Vigyázat! Ez a képlet akkor is ad eredményt, ha valójában nincs kapcsolat!
observed data
true line Y= β 0 + β 1 X X
Az előző miatt hipotézisvizsgálatra van szükség, hogy valóban függ-e az Y az X-től. Ennek menete kétféle lehet:
t-próba: Nullhipotézis: H 0 : β1 = 0 , azaz Y nem függ X-től a modellben Próba-statisztika: t =
b1 (lásd később a képletet) SE (b1 )
Szabadsági fokok száma: n-2
F-próba: Csak több magyarázó változó esetén különbözik n
2
Teljes eltérés négyzetösszeg: SSQt = ∑ ( yi − y ) , szabadsági fok n-1 i =1 n
2
Reziduumok négyzetösszege: SSQr = ∑ ( yi − f ( xi )) , szabadsági fok n-2 (bi becsült) i =1
A számított és a valódi értékek különbségének négyzetösszege, ezt nem magyarázza a modell Magyarázott négyzetösszeg: SSQt − SSQr
Az Y ingadozásának az a része, amelyet X változása magyaráz SSQt − SSQr Próbastatisztika: F = , szabadsági fokok 1, n-2 SSQr n−2
Feltételek: Ahhoz, hogy a modellt alkalmazni lehessen, a következőknek teljesülni kell:
E (ε ) = 0 ε szórása minden megfigyelt értékre ugyanakkora ε értékei függetlenek egymástól és X-től ε normális eloszlású
Az illeszkedés jóságának mérése: SSQt − SSQr Determinációs együttható, R = (a korrelációs együttható négyzete) SSQt 2
Azt mutatja meg, hogy X változása mennyire magyarázza Y változását Értéke 0 és 1 kötött lehet.
A paraméterek szórásának becslése n
∑ ei2 sε = sb1 =
i =1
n−2
, ahol ei = yi − f ( xi )
sε ? , sb0 = ns x ns x
Ezeket felhasználva az n-2 szabadsági fokú t-eloszlásból a két paraméterre lehet konfidenciaintervallumot adni. Ennek megfelelően fel lehet rajzolni két konfidenciatartományt, az elsőt a regressziós egyenesre, a bővebbet pedig X adott értéke esetén Y-ra.
Az ábrán (a borjak adatai), a lila vonalak jelölik a regressziós egyenesre vonatkozó, a zöld vonalak pedig az egyes pontokra vonatkozó 95%-os konfidencia-sávot. Az X tartomány szélei felé haladva a becslések egyre bizonytalanabbak. (A legkisebb a bizonytalanság az X értékek átlagánál.) 70
30-day body weight (kg)
65 60 55 50 45 40
Birth weight (kg)
35 30
35
40
45
50
A változók transzformálása A transzformációk olyankor segíthetnek, amikor a megfigyelt adatokra a lineáris regresszió közvetlenül nem alkalmazható. Néha elméleti megfontolásokból következik, hogy a változók közötti kapcsolat nem lineáris:
Testhossz → testtömeg ( gömb / ellipszoid térfogata – hatványfüggvény) Gyógyszer dózis → hatás görbéje (logisztikus görbe vagy hasonló “S-alakú” görbe) Máskor a megfigyelt adatok ugyan egyértelműen arra utalnak, hogy az X és az Y között van összefüggés, de ha a pontokra egyenest illesztünk, az illeszkedés nagyon rossz.
Az első esetben az elméleti megfontolások arra vonatkozóan is útmutatást adnak, hogy milyen függvénytípust válasszunk, a másodikban pedig az adatok grafikus ábrázolása segíthet:
A kétváltozós szórásdiagramok a modell-választáshoz nyújtanak segítséget, A hisztogram, boxplot, stb. az adatok eloszlásának vizsgálatában (reziduálisok normalitása, függetlenségük X-től!). Azokban az esetekben, amikor az X és Y közötti összefüggés nem lineáris, lineáris összefüggés állhat fenn valamely X’ és Y’ transzformált változók között. Ha elméleti megfontolásokból nem következik, hogy milyen transzformációval érdemes próbálkozni, akkor szórásdiagramok segítségével választhatjuk ki a legmegfelelőbbet. Mivel a legtöbb számítógépes programban egy gombnyomással kérhető, a logaritmustranszformációt próbáljuk ki rutinszerűen! Mindig gondoljuk végig, hogy egy ilyen transzformáció interpretálható-e, meg tudjuke magyarázni, mi az értelme.
exponenciális görbe → log. skála az y tengelyen → egyenes 100 80 60 40 20 0
100
1
0
5
10
0
5
10
logaritmus-görbe → log. skála az x tengelyen → egyenes 3
3
2
2
1
1
0
5
10
1
10
hatványfüggvény→ log. skála mindkét tengelyen → egyenes 300
1000
200
100
100
10
0
1
0
5
10
1
10
A transzformációk érinthetik mind a regressziós függvényt, mind a véletlenséget a modellben (utóbbit akkor, ha a függő változót transzformáljuk). Példák:
Ha a regresszió lineárissá válik az Y log-transzformálásával: log Y = β 0 + β 1 X + ε, akkor a függvény exponenciális, multiplikatív hibával: Y = e β 0 e β 1X e ε Multiplikatív hiba: a véletlen faktor nem hozzáadódik a függvényértékhez, hanem összeszorzódik vele. Ekkor nagyobb függvényértékhez nagyobb Y szórás tartozik.
Ha a regresszió lineárissá válik X és Y log-transzformálásával: logY=β0 +β1 log X +ε, akkor a függvény hatványfüggvény, multiplikatív hibával: Y = e β 0 x β 1 e ε Ha a regresszió lineárissá válik az X log-transzformálásával: Y =β0 +β1 log X +ε, akkor a függvény logaritmus-függvény, multiplikatív hibával. Ugyanilyen elterjedt a hatvány- és a gyök-transzformáció. A gyökök (relatíve) összehúzzák a nagy értékek tartományát, az (egynél nagyobb) hatványok pedig a kis értékekét. Ha a mért értékek helyett rangokkal dolgozunk, a változót teljesen skála-függetlenné tehetjük.
Megjegyzések: A fent említettek mind monoton transzformációk. Ha a változó értéktartománya szűk, a rangok kivételével az összes többi kb. egyenértékű. Gyakorisági adatokra az arcsin transzformációt szokták alkalmazni.
A transzformációk statisztikai modell hiányában is hasznosak lehetnek. Segíthetnek az adatok jobb megismerésében és ábrázolásában, szebb grafikonok készítésében, stb. Példa a transzformációs lehetőségekre az összefüggés linearizálásában: 10
4
5
2
0
0
0
1
2
eredeti összefüggés
0
1
négyzetgyök Y
2
2
1
0 -2 0
0 0
1
2
negyedik gyök Y
2
1
2
-4
logaritmus Y
Megjegyzések: A transzformációkat nemcsak az összefüggés linearizálására, hanem szóráskiegyenlítésre és az eloszlások szimmetrizálására is szokták használni. (Persze előfordulhat, hogy az a transzformáció, amely linearizálja az összefüggést, elrontja a szórások egyenlőségét, stb.) A transzformáció megválasztásánál fontos szempont az interpretálhatóság. A transzformáció útján történő linearizálás nem az egyetlen lehetőség a nemlineáris össze-függések kezelésére. Léteznek eljárások lineárissá nem transzformálható (“intrinsically nonlinear”) modellek illesztésére is.
Ami idén kimaradt: Lineárisra visszavezethető regressziók Többszörös (multiple) regresszió Többszörös és parciális korreláció Polinomiális regresszió