Korreláció és Regresszió 9. elıadás (17-18. lecke) Korrelációs együtthatók
17. lecke • Áttekintés (korreláció és regresszió) • A Pearson-féle korrelációs együttható
Korreláció és Regresszió (témakörök) Kapcsolat szorosságát mérı mutatók A regresszió-analízis elvi alapjai Egy „független” változós regresszió lineáris nem lineáris Több „független” változós regresszió többszörös lineáris regresszió nem lineáris regressziós felületek
# A korreláció- és regresszió analízis lényege • Ellentétben a Variancia Analízissel, most két (vagy több) kvantitatív ismérv sztohasztikus (statisztikai) kapcsolatát keressük • A korreláció az ismérvek kapcsolatának szorosságáról szól a kapcsolat tendenciájának kiemelése nélkül • A regressziós elemzésnél megkülönböztetünk „ható” (nevezik független változónak is) és „eredmény”változó(ka)t és a kapcsolat tendenciáját is leírjuk regressziós függvény formájában
¨A Pearson-féle korrelációs együttható • X és Y jelentse a sokaság egyedeinek két kvantitatív ismérvét, e két ismérv kapcsolatszorosságának mérıszámát keressük • Visszagondolva arra, hogy X és Y független volta esetén E(XY)=E(X)E(Y), függetlenség esetén a két oldal eltérése 0. Ezt az eltérést kovarianciának nevezzük: Cov(X,Y) = E(XY) - E(X)E(Y) = µXY - µX µY
• A kovariancia még mértékegység-függı, kimutatható, hogy abszolút értéke 0 és σXσY közé esik
• Megjegyzések: 1. A kovariancia így is írható: Cov(X,Y) = E{(X- µX)(Y- µY)} 2. Cov(X,X) = Var(X), egy változó kovarianciája önmagával, a varianciát adja)
A sokasági korrelációs együttható (r „rhó”) • Osszuk el a kovarianciát abszolút értékének lehetséges maximumával, így kapjuk a (Pearson-féle) korrelációs együtthatót (a továbbiakban korrelációs együttható):
r
= r(X,Y) = r(Y,X) = Cov(X,Y)/(σX σY)
• A korrelációs együttható független a mértékegységektıl valamint a skálák kezdıpontjától: r(a+bX,c+dY) = r(X,Y) ● r értéke -1 és +1 közé esik, -1 vagy +1 csak akkor, ha X és Y között „pontos” lineáris kapcsolat van: Y = α + ßX (értéke pozitív, ha X növekedésével tendenciában Y is nı, negatív fordított esetben)
A sokasági korrelációs együttható (ρ) (folytatás) • Ha X és Y függetlenek, akkor ρ = 0, de fordítva nem igaz: lehet ρ = 0 akkor is, ha X és Y nem függetlenek, köztük lehet nemlineáris kapcsolat • Lényeges, hogy a korrelációs együttható csak a lineáris kapcsolat szorosságát méri! • Ha ρ = 0, azt mondjuk, hogy a két ismérv korrelálatlan (nem biztos, hogy függetlenek)
A mintabeli korrelációs együttható ( r ): ρ becslése mintából • Vegyünk a sokaságból n egyedet (megfigyelési egységet), ezek mindegyikén mérjük az X és az Y ismérvet: (x1,y1), (x2,y2), (x3,y3),…, (xn,yn) • ρ fenti formuláját átültetve a mintára, kapjuk ρ becslését: r = SPxy /√(SSxSSy), ahol SPxy (Summa Produktum) = ∑xiyi – (1/n)∑xi ∑ yi Megjegyzés: Cov(X,Y) becslése SP/(n-1)
• r ugyanúgy mint ρ , -1 és +1 közé esik és a két ismérv lineáris kapcsolatának szorosságát becsli, segítségével tesztelhetjük, hogy az alapsokaságban korrelál-e a két ismérv
• Pontdiagram illusztrációk r értékére
A korrelációs együttható szignifikancia-vizsgálata • A null-hipotézis: H0: ρ = 0, azaz nincs (lineáris) korreláció X és Y között • Az r mutató ρ körül ingadozó statisztika, ha n kicsi, akkor r jócskán eltérhet ρ-tól • Kimutatható, hogy ρ =0 esetén a t = r ×√(n-2) /√(1-r2) statisztika df=n-2 szabadságfokú t-eloszlást követ, ennek kiszámításával a lineáris korreláció szignifikanciája minısíthetı
Példa r szignifikanciájának vizsgálatára n=10 mintaelembıl számolt korrelációs együttható r = 0,55 t = 0,55×√(10-2)/√(1-0,552) = 0,55×2,828/0,835 = 1,863 t szabadságfoka df = 8 Az Excel-bıl (fx, t-eloszlás alatt) (itt kétoldali próba indokolt, H1: ρ ≠0), P = 0,099 nem szign.
KÖSZÖNÖM TÜRELMÜKET
18. lecke • Megjegyzések a korrelációs együttható szignifikanciájáról • Parciális és többszörös korrelációs együttható
Megjegyzések a korrelációs együttható minısítésérıl 1.
FONTOS: Itt-ott elterjedt az a gyakorlat, hogy a (lineáris) kapcsolat szorosságát pusztán r értéke alapján besorolják (laza – közepes - szoros stb.) Ennek helytelen volta kitőnik az elızı példából is, ahol r = 0,55 (a besorolás szerint „közepes”, holott – mint láttuk, nem is szignifikáns A besorolás valójában csak a sokasági ρ -ra tekinthetı érvényesnek, illetve közelítıleg r-re akkor, ha a mintaszám (n) elég nagy (legalább 50) Javaslat: r értékét önmagában ne minısítsük, vegyük figyelembe a mintaszámot (n) is és teszteljük!
Megjegyzések (folytatás) 2. r és n ismeretében közvetlenül (t kiszámítása nélkül) tesztelhetı r szignifikanciája a „korrelációs együttható kritikus értékei” táblázatból (megtalálható pl. a BIOMETRIAI ÉRTELMEZİ SZÓTÁRban) Például, n=10 (df=8)-nál a táblázatbeli kritikus érték α=5% hibaszinten 0,6319. Az r=0,55 mintabeli érték ennél kisebb, tehát P<5%, nem szignifikáns 3. Sem t számítására, sem táblázat használatára nincs szükség, ha az (xi,yi) adatpárok beírásával az Excel „Regresszió” menüpontjára lépünk (ld. késıbb), az eredményekben látjuk P értékét
A korrelációs együttható kritikus értékei (részlet a táblázatból) Szabadságfok (df= n-2) Szignifikancia szint () -----------------------------------------------------------------------------------------------------10% 5% 1% 0,1% -----------------------------------------------------------------------------1 0,98769 0,99692 0,999877 0,9999988 2 0,90000 0,95000 0,990000 0,99900 3 0,8054 0,8783 0,95873 0,99116 4 0,7293 0,8114 0,91720 0,97406 5 0,6694 0,7545 0,8745 0,95074 6 0,6215 0,7067 0,8343 0,92493 7 0,5822 0,6664 0,7977 0,8982 8 0,5494 0,6319 0,7646 0,8721 9 0,5214 0,6021 0,7348 0,8471 10 0,4973 0,5760 0,7079 0,8233 50 100
0,2306 0,1638
0,2732 0,1946
0,3541 0,2540
0,4433 0,3211
A H0: ρ = ρ0 hipotézis ellenırzése •
Ha az alapsokaságban ρ eltér 0-tól, akkor az r statisztikai ingadozása távolabb kerül a normális eloszlástól, mint ρ =0 esetén, ezért a fenti t formula – r helyett r- ρ 0-lal – sem segít, nem kapunk t-eloszlást. Az alkalmazható teszt az alábbi:
•
Képezzük a
z = 0,5 ln{(1+r)/(1-r)} statisztikát, ez közel normális eloszlású, sokasági átlaga és varianciája: z0 = 0,5 ln{(1+ ρ0)/(1- ρ0)}, illetve Var(z) = 1/(n-3) • Innen Z0-nak a 95%-os konfidencia intervalluma: {z – 1,96/√(n-3) ; z +1,96/√(n-3)} •
Ha z0-ezen intervallumon kívül esik, α=5% hibaszinten elutasítjuk a H0 hipotézist (számpélda alább)
Számpélda a H0: ρ = ρ0 hipotézis ellenırzésére • Legyen H0: ρ = ρ0 = 0,4 a nullhipotézis, a mintanagyság n=28 (n-3 = 25), a számított r = 0,6 • A transzformált Z értékek z = 0,5 ln{(1+0,6)/(1- 0,6)} = 0,5 ln(4,00) = 0,69 z0= 0,5 ln{(1+0,4)/(1- 0,4)} = 0,5 ln(2,33) = 0,42 • z0 konfidencia intervalluma: (0,69 – 1,96/√25 ; 0,69 + 1,96/√25) = (0,30 ; 1,0) A z0 = 0,42 beleesik a kapott intervallumba, H0-t elfogadjuk
● A parciális korrelációs együttható • Y és X tényleges (lineáris) statisztikai kapcsolatát megzavarhatja (erısítheti vagy elmoshatja) egy harmadik Z változó (ismérv) vagy akár több is • E zavaró hatás kiszőrését célozza a parciális korrelációs együttható: ρXY.Z , becslése rxy.z • Jelölje rxy ρ(X,Y) becslését, hasonló értelmő rxz és ryz, ezekkel rxy − rxzryz rxy.z = 2 2 (1 − rxz )(1 − ryz )
A parciális korrelációs együttható tesztelése • A H0: ρXY.Z = 0 hipotézis t-próbával ellenırízhetı: t = rxy.z×√(n-3) /√(1-r2xy.z), df = n-3 • Például, n=10-nél r = rxy = 0,55 nem szignifikáns, de megeshet, hogy valamely Z ismérv zavaró hatásának kiszőrése után rxy.z= 0,72, amihez t=2,74, ez df=7 szabadságfoknál már szignifikáns, az X és Y közötti lineáris statisztikai kapcsolat mégis szignifikáns • Megjegyzés: több zavaró változó egyidejő kiszőrése hasonló módon végezhetı, szükség esetén konzultáljunk a szakirodalommal
y
● A többszörös korrelációs együttható (R) y • Vizsgálhatjuk egy Y változó lineáris kapcsolatának szorosságát több X változó együttesével egyidejőleg, a mérıszám a többszörös korrelációs együttható, R = R(Y,X), ahol X az {X1,X2,..,Xp} változók együttese • Mire jó R? Elıfordul, hogy Y egyik X változóval sem korrelál, mégsem szabad félre dobni az anyagot, mert lehet, hogy R megszívlelendı kapcsolatot jelez • R kiszámítható a parciális korrelációs együtthatókból, mi azonban más utat követünk (ld. késıbb: többszörös regresszió, lineáris determinációs együttható)
● További korreláció-mérı mutatók • Nemlineáris kapcsolat szorosságának mérésérıl a regresszió tárgyalásakor szólunk (korrelációs hányados, determinációs együttható) • Meg kell említenünk még az általánosított (lineáris) korrelációt, melynek képlete: r* = (∑∑aijbij)/√{(∑∑ aij2)(∑∑ bij2)} ahol aij xi és xj bizonyos „távolságát” jelenti, bij ugyanilyen módon definiált távolság yi és yj között. • Ha aij= xi-xj és bij= yi-yj , akkor r* = r, a Pearson-féle korrelációs együttható • Más „távolságokat” választva kapjuk a Spearman- ill. a Kendall-féle korrelációs együtthatókat, melyekrıl késıbb szólunk
KÖSZÖNÖM TÜRELMÜKET