Korreláció, regresszió
Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet
Két folytonos változó közötti kapcsolat Tegyük fel, hogy 6 hallgató a következő válaszokat adta egy felmérés során:
Tanuló Péter Sanyi Ibolya Anikó Gabi Bence
Krisztina Boda
Matematika Nyelvek 525 550 515 535 510 535 495 520 430 455 400 420
Színház 30 60 90 50 30 90
Kiskereskedelem 51 55 58 63 85 95
Ugyanazon személyeken mért változók között gyakran van valamilyen kapcsolat. 2
A kapcsolat vizsgálatához először készítsünk ábrát (pont ábra vagy szóródás-ábra).
A két változó mért értékeivel mint (xi, yi) koordinátákkal berajzoljuk a megfelelő pontokat. Egy ilyen ábrán a kapcsolat irányát és szorosságát vizsgáljuk, valamint az általános alakzatot.
Tanuló
Matematika Nyelvek
Péter
x1=525
y1=550
Sanyi
x2=515
y2=535
Ibolya
x3=510
y3=535
Anikó
x4=495
y4=520
Gabi
x5=430
y5=455
Bence
x6=400
y6=420
Krisztina Boda
3
Lehetséges kapcsolatok 100 80
520 500
retailing
language
560 540
480 460 440 420 400 400
60 40 20
450
500
550
0 400
600
450
math score
500
550
600
math score
Negatív korreláció
theater
Pozitív korreláció 100 90 80 70 60 50 40 30 20 10 0 400
450
500
550
600
math score
Nincs korreláció Krisztina Boda
4
Mérőszám a lineáris kapcsolat szorosságának mérésére: a korrelációs együttható (r) (Pearson-féle korrelációs együttható)
Ha a két változó mért értékei rendre x1,x2,…xn és y1,y2,…yn , akkor a korrelációs együttható képlete n
r
Krisztina Boda
n
n
n xi yi xi yi i 1
i 1
i 1
n n n n 2 2 2 2 n xi ( xi ) n yi ( yi ) i 1 i 1 i 1 i 1
n
(x
i
x )( yi y)
i 1
n
(x
i
i 1
x)
n
2
( y y)
2
i
i 1
5
Karl Pearson
Krisztina Boda
Karl Pearson (27 March 1857 – 27 April 1936) established the discipline of mathematical statistics. http://en.wikipedia.org /wiki/Karl_Pearson
6
Az r tulajdonságai 560 540 520 500 480 460 440 420 400 400
450
500
550
600
math score
100 80 retailing
A korrelációs együttható értéke mindig -1 és +1 között van; -1 és 1 jelzi a tökéletes lineáris kapcsolatot. -1r 1. a) Ha r közel van +1-hez vagy -1-hez, azt mondjuk, hogy szoros (magas) korreláció van a két változó között.
language
60 40 20 0 400
450
500
550
600
math score
b) Ha r=1, tökéletes pozitív korreláció Ha r= -1, tökéletes negatív korreláció.
12 10 8 6 4 2 0 0
2
4
6
12 10 8
c) Ha r=0, nincs korreláció, vagyis nincs lineáris kapcsolat. Ha r közel van 0-hoz, akkor alacsony korrelációról beszélünk.
6 4 2 0 0
theater
2
4
6
100 90 80 70 60 50 40 30 20 10 0 400
450
500
550
600
math score
Krisztina Boda
7
Az r értékei az előbbi példák adataira 100 80
520 500
retailing
language
560 540
480 460 440 420 400 400
60 40 20
450
500
550
0 400
600
450
math score
500
550
600
math score
r=-0.9993
theater
r=0.9989 100 90 80 70 60 50 40 30 20 10 0 400
450
500
550
600
math score
r=-0.2157 Krisztina Boda
8
Hallgatók adatain kapott összefüggések
r=0.018 Krisztina Boda
r=0.873 9
Korreláció és okság A korreláció nem jelent oksági kapcsolatot Két változó között korreláció nem jelenti azt, hogy az egyik változását a másik okozza.
Krisztina Boda
.
10
Correlation by eye http://onlinestatbook.com/stat_sim/reg_by_eye/index.html
Krisztina Boda
Ezen az oldalon gyakorolhatjuk azt, hogy adott ponthalmaz esetén mekkora lehet a korreláció.
11
180 160 140
theater
100 90 80 70 60 50 40 30 20 10 0
40 20 0 400
450
500
550
400
600
500
600
r=-0.21
800
900
r=0.74 560
560
540 520
540 520 500 480 460
400 400
700
math score
math score
440 420 450
500 math score
r=0.998
Krisztina Boda
120 100 80 60
language
Egyetlen kiugró érték nagyon meg tudja változtatni a korrelációt.
language
theater
Kiugró értékek hatása
550
600
500 480 460 440 420 400 400
500
600
700
800
math score
r=-0.26
12
900
A korreláció csak a lineáris kapcsolat szorosságát méri
Szoros, de nem lineáris kapcsolat esetén a korrelációs együttható kicsi
y 10 8 6 4 2 0 -4
-3
-2
-1
0
1
2
3
4
r=2.8 E-15 y 1.2 1 0.8 0.6 0.4 0.2 0 0
0.5
1
1.5
2
2.5
3
3.5
r=0.157 Krisztina Boda
13
Korreláció és linearitás
A fenti négy adathalmaz mindegyikére igaz, hogy r=0.816 http://en.wikipedia.org/wiki/Correlation_and_dependence
Krisztina Boda
14
Mikor mondjuk, hogy „jó” a korreláció? Nincs olyan egyértelmű határ, amitől kezdve jónak vagy magasnak minősítjük a korrelációt. De végrehajtható egy statisztikai próba, mellyel tesztelhetjük, hogy a kapott korrelációs együttható elég messze van-e 0-tól. Részletek: 8. előadás
Krisztina Boda
15
A korrelációs együttható szignifikanciája
Azt teszteljük, hogy a kapott korrelációs együttható tekinthető-e a 0 közelítésének, vagy pedig elég messze van 0-tól. H0: ρ=0 (görög rho=0, a populációs korrelációs együttható = 0) Ha: ρ ≠ 0 (a populációs korrelációs együttható ≠ 0) Feltétel: a két minta két független minta kétdimenziós normális eloszlásból. Ha igaz a nullhipotézis, az alábbi t statisztika n-2 szabadságfokú t-eloszlást követ
t
r n2
Döntés t-táblázat alapján:
1 r 2
n2 r 1 r 2
Ha |t|>tα,n-2, a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Ha |t|
Döntés p-érték alapján: Ha p < α a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól.
Krisztina Boda
16
Kétváltozós normális eloszlások ρ=0 ρ=0.4 Function Plot Function = 1/(2*pi)*exp(-0.5*(x^2))*exp(-0.5*(y^2))
> < < < < < < <
Function Plot Function = 1/(2*pi)*exp(-0.5*(x^2))*exp(-0.5*(y^2))
> < < < < < < <
Krisztina Boda
Function Plot Function = 1/(2*pi*Sqrt(0.84))*exp(-(1/1.68)*(x^2+y^2-0.8*x*x))
0.14 0.13 0.11 0.09 0.07 0.05 0.03 0.01
0.14 0.13 0.11 0.09 0.07 0.05 0.03 0.01
> < < < < < < < <
Function Plot Function = 1/(2*pi*Sqrt(0.84))*exp(-(1/1.68)*(x^2+y^2-0.8*x*x))
> < < < < < < < <
0.16 0.15 0.13 0.11 0.09 0.07 0.05 0.03 0.01
0.16 0.15 0.13 0.11 0.09 0.07 0.05 0.03 0.01
17
1. példa
A matematika és a nyelvtudás közötti korrelációs együttható r=0.9989. Szignifikánsan eltér-e 0-tól? H0: A populációs korrelációs együttható = 0, ρ =0. Ha: A populációs korrelációs együttható nem 0. A t statisztika: t
Krisztina Boda
0.9989 62 10.99892
0.9989
4 42.6 10.99892
szabadságfok: df=6-2=4 A táblabeli kritikus érték t0.05,4 = 2.776. Mivel 42.6 > 2.776, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól.
18
Scatterplot (corr 5v*6c) LANGUAGE = 15.5102+1.0163*x 560
540
520
500
480
LANGUAGE
460
440
420
400 380
400
420
440
MATH:LANGUAGE: r = 0.9989; p = 0.000002
460
480
500
520
540
MATH
p<0.05, populációs korrelációs együttható szignifikánsan eltér 0-tól.
Krisztina Boda
19
2. példa
A matematika és az adásvétel közötti korreláció r= -0.9993. Szignifikánsan eltér-e 0-tól? H0: A populációs korrelációs együttható = 0, ρ =0. Ha: A populációs korrelációs együttható nem 0. A t statisztika:
t
Krisztina Boda
0.9993 62 10.99932
0.9993
4 53.42 10.9986
Szabadságfok: df=6-2=4 A táblabeli kritikus érték t0.05,4 = 2.776. Mivel |-53.42|=53.42 > 2.776, elvetjük a nullhipotézis és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól.
20
Scatterplot (corr 5v*6c) RETAIL = 234.135-0.3471*x 100
90
80
70
RETAIL
60
50
40 380
400
420
440
MATH:RETAIL: r = -0.9993; p = 0.0000008
Krisztina Boda
460
480
500
520
540
MATH
21
3. példa.
A matematika és a színház szeretete közötti korreláció r= -0.2157. Szignifikánsan eltér-e 0-tól? H0: A populációs korrelációs együttható = 0, ρ =0. Ha: A populációs korrelációs együttható nem 0. A t statisztika: : t
Krisztina Boda
0.2157 62 10.2157 2
0.2157
4 0.4418 10.04653
Szabadságfok: df=6-2=4 A táblabeli kritikus érték t0.05,4 = 2.776. Mivel |-0.4418|=0.4418 < 2.776, nem vetjük el a nullhipotézist és azt mondjuk, hogy a korreláció nem szignifikáns 5%-os szinten. Nem tudjuk kimutatni a 0-tól való eltérés 5% hiba feltételezése mellett.
22
Scatterplot (corr 5v*6c) THEATER = 112.7943-0.1137*x 100
90
80
70
60
THEATER
50
40
30
20 380
400
420
MATH:THEATER: r = -0.2157; p = 0.6814
Krisztina Boda
440
460
480
500
520
540
MATH
23
Hallgatók adatain kapott összefüggések, a korreláció szignifikanciája
r=0.018, p=0.833 Krisztina Boda
r=0.873, p<0.0001 24
A lineáris kapcsolat becslése: lineáris regresszió
Ha a kapcsolat lineáris, szükséges lehet a legjobban illeszkedő egyenes egyenletének meghatározása. A regressziós egyenes általános egyenlete y=bx + a
a és b jelentése. b: regressziós együttható, az egyenes meredeksége; a: az egyenes tengelymetszete. Az együtthatók becslése a legkisebb négyzetek elvén alapul.
Ha adott x1,x2,…xn and y1,y2,…yn , keressük meg azt az a és b értéket, amelyre
Σ( yi-(a+bxi) )2 → min Krisztina Boda
25
A legkisebb négyzetek elve
n
(y (a b x ))
i
i
2
S ( a , b)
i 1
n
n
b
xi yi
n
x y i
i
i 1
n
i 1
n
n
x
2 i
i 1
( xi )
2
i 1
(x
i
60 .0 0
színház = 112.79 + -0.11 * matematika R-Square = 0.05
x )( yi y )
i 1
n
(x
i
x)2
40 .0 0
i 1
n
a y b x
n
i 1
Linear Regres
80 .0 0
színhá z
S S 0, 0 a b
->min
40 0.00
44 0.00
48 0.00
52 0.00
m atem atik a
A korrelációs együttható kiszámítása a regressziós együttható segítségével r b
Krisztina Boda
sx sy
26
Reziduálok Scatterplot (corr 5v*6c) THEATER = 112.7943-0.1137*x 100
(x1,y1)
90
80
y1-(b*x1+a)
70
b*x1+a
60
THEATER
50
y2-(b*x2+a)
40
y6-(b*x6+a)
30
20 380
400
420
MATH:THEATER: r = -0.2157; p = 0.6814
Krisztina Boda
440
460
480
500
520
540
MATH
27
A regressziós egyenes egyenlete az 1.példa adataira.
Scatterplot (corr 5v*6c) LANGUAGE = 15.5102+1.0163*x 560
540
520
500
480 LANGUAGE
y=1.016·x+15.5 a meredekség 1.016 Mennyi pont várható a nyelvtudásra, ha a matematika pontértéke 400? yjósolt=1.016 ·400+15.5=421.9
460
440
420
400 380
400
420
440
MATH:LANGUAGE: r = 0.9989; p = 0.000002
Krisztina Boda
.
460
480
500
520
540
MATH
28
Hipotézisvizsgálatok a regressziós egyenlet paramétereire
Valóban függ-e y az x-től (nem csak a mintában, hanem a populációban is)?
Feltétel: a két minta két független minta kétdimenziós normális eloszlásból Egyik lehetséges módszer: t-próba a regressziós együtthatóra H0: belm=0 az egyenes meredeksége nulla (vízszintes egyenes) Ha: belm≠0 Ha igaz a nullhipotézis, akkor a t= b/SE(b) statisztika n-2 szabadságfokú t-eloszlást követ
Krisztina Boda
29
Hipotézisvizsgálatok a regressziós egyenlet paramétereire
Valóban függ-e y az x-től (nem csak a mintában, hanem a populációban is)?
Másik lehetséges módszer (az előzővel ekvivalens) F-próba a regresszióra – a regresszió varianciaanalízise y i bxi a Jelölje a becsült értéket Érvényes az alábbi felbontás:
y teljes szórása= x-től való függésből eredő szórás+ SStot
SSx n
i 1
Krisztina Boda
véletlen hiba
n
SSh n
( yi y ) ( y i y ) ( yi y i )2 2
i 1
2
i 1
30
A regresszió varianciaanalízise A szóródás oka
Négyzet szabadságfok Variancia -összeg
F
Regresszió
SSr
SSr F SSh /( n 2)
1
SSr
Véletlen hiba SSh
n-2
SSh/n-2
Összes
n-1
SStot
F szabadságfokai: 1 és n-2. Ez egy egyoldali próba: a regresszió akkor szignifikáns, ha a regresszió varianciája nagyobb, mint a hibavariancia, ami annak felel meg, hogy a regressziós függvény nem állandó, vagyis belm0. Ekvivalens a regressziós együtthatóra vonatkozó (kétoldali) t-próbával (ugyanazt a p-értéket adja). Ekvivalens a korrelációs együtthatóra vonatkozó szignifikanciavizsgálattal is. Krisztina Boda
31
Hipotézisvizsgálatok a regressziós egyenlet paramétereire t-próba a tengelymetszetre, nullhipotézise: H0: aelm=0 szab. fok: 1 t-próba a regressziós együtthatóra; nullhipotézise: H0: belm=0 szab. fok: n-2 F-próba a regresszió szignifikanciájára: H0: szab. fokok: 1 és n-2
Krisztina Boda
32
SPSS futási eredmények a hallgatók adataira Model Summary
A korrelációs együttható, r=0.018
Adjusted Std. Error of R R Square R Square the Est imat e .018 .000 -.007 13.297 The independent v ariable is Age Age in y ears.
ANOVA Sum of Squares df Mean Square Regression 7.866 1 7.866 Residual 23515.068 133 176.805 Total 23522.934 134 The independent v ariable is Age in y ears.
F
A regresszió szignifikanciája, p=0.833 (=a korreláció szignifikanciája, p=0.833
Sig. .833
.044
A regressziós együttható szignifikanciája =a korreláció szignifikanciája, p=0.833
Coeffi ci ents
Age Age in y ears (Constant)
Unstandardized Coef f icients B St d. Error .078 .372 66.040 7.834
St andardized Coef f icients Beta .018
t .211 8.430
A regressziós egyenes egyenlete: y=0.078x+66.040
Krisztina Boda
Sig. .833 .000
A tengelymetszet szignifikanciája, p<0.0001
33
A determinációs együttható, r2
A korrelációs együttható négyzete a determinációs együttható. 100-zal szorzott értéke megadja, hogy az y (függő) változó össz-varianciájának hány %-a magyarázható az xtől való lineáris függésével Példa. A matematika és a nyelvtudás között korreláció r =0.9989. A determinációs együttható, r2 = 0.9978 . Tehát a nyelvtudás összszóródásának 99.8%-a magyarázható a matematikától való lineáris függésével.
Krisztina Boda
Model Summary Adjusted Std. Error of R R Square R Square the Est imat e .9989 .9978 .997 2.729 The independent v ariable is Matematika.
ANOVA Sum of Squares df Mean Square Regression 13707.704 1 13707.704 Residual 29.796 4 7.449 Total 13737.500 5 The independent v ariable is Matematika.
F 1840.212
Sig. .000
r2 az ANOVA táblázatból: r2 = Regression SS/Total SS= =13707.704/13737.5= 0.917 .
34
Regresszió transzformációk alkalmazásával
Krisztina Boda
Néha a pont-ábra nemlineáris, ugyanakkor valamilyen görbevonalú, függvénnyel megadható kapcsolatot mutat .
35
Példa
A felső ábra exponenciális kapcsolatot sejtet az x (idő) és az y között. Az y logaritmusát véve a kapcsolat lineárissá válik (alsó ábra)
450 400 350 300 y 250 200 150 100 50 0 0
5
10
15
10
15
time
6 5 4 ln(y) 3 2 1 0 0
5 time
Krisztina Boda
Biostat 9.
36
Az x-re és az y e-alapó logaritmusára (ln y) lefuttatva a lineáris regressziót, a következő egyenletet kapjuk: ln y = 2.327 + 0.2569 x Ezt visszatranszformálva kapjuk az exponenciális görbe egyenletét y = e2.327 + 0.2569 x=e2.327e0.2569x= 1.293e0.2569x
6
450 400 350 300 y 250 200 150 100 50 0
5 4 ln(y) 3 2 1 0 0
5
10
0
15
10
15
time
time
y = 1.293e0.2569x Krisztina Boda
5
ln y = 2.327 + 0.2569 x Biostat 9.
37
Lehetséges transzformációk
Krisztina Boda
Biostat 9.
38
Exponenciális kapcsolat -> vegyük y logaritmusát
Krisztina Boda
lg y 0.041393 0.278754 0.60206 0.908485 1.20412
Modell: y=a*10bx Mindkét oldalt logaritmálva: lg y =lga+bx Tehát lg y és x között lineáris a kapcsolat
18 16 14 12 10 y
y 1.1 1.9 4 8.1 16
8 6 4 2 0 0
1
2
3
4
5
3
4
5
x
1.4
1.2
1
0.8 log y
x 0 1 2 3 4
0.6
0.4
0.2
0 0
1
2 x
39
Logaritmikus kapcsolat ->vegyük x logaritmusát 5
y 0.1 2 3.01 3.9
log x 0 0.60206 0.90309 1.20412
4
3 y
x 1 4 8 16
2
1
0 0
5
10
15
20
x
Modell: y=a+lgx
5
4
y
3
Tehát y és lg x között lineáris a kapcsolat
2
1
0 0
0.2
0.4
0.6
0.8
1
1.2
1.4
log10 x
Krisztina Boda
40
Hatványfüggvény kapcsolat ->vegyük x és y logaritmusát 130
y 2 16 54 128
log x 0 0.30103 0.477121 0.60206
log y 0.30103 1.20412 1.732394 2.10721
100 90
130
80
120
70 60
y
x 1 2 3 4
120 110
50
110
40 30
100
20 10
90
0 0
80
1
2
3
4
5
x
70 60
Krisztina Boda
Modell: y=axb Mindkét oldalt logaritmálva : lg y =lga+b lgx Tehát lgy és lg x között lineáris a kapcsolat
50
2.5
40
2
30 1.5
20
log y
10
1
0
0.5
0
1
2
3
4
5
0 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
log x
41
Reciprokos kapcsolat -> vegyük x reciprokát
1/x 1 0.5 0.333333 0.25 0.2
Modell: y=a +b/x y=a +b*1/x tehát y és 1/x között lineáris a kapcsolat
2
1.5
y
y 1.1 0.45 0.333 0.23 0.1999
1
0.5
0 0
1
2
3
4
5
6
x
2
1.5
y
x 1 2 3 4 5
1
0.5
0 0
0.2
0.4
0.6
0.8
1
1.2
1/x
Krisztina Boda
42
Egy példa az orvosi irodalomból
Krisztina Boda
43
Krisztina Boda
44
EL HADJ OTHMANE TAHA és mtsai: Osteoprotegerin: a regulátor, a protektor és a marker. Összefoglalás irodalmi adatok és saját eredményeink alapján. Orvosi Hetilap 2008 ■ 149. évfolyam, 42. szám ■ 1971–1980.
Krisztina Boda
45
10-es alapú logaritmus skála log10 x
101 9 8 7 6 5 4 0.5
3
2
10 0
Krisztina Boda
1
2
3
4
5
Biostat 3.
6
7
8
9
10
46
Logaritmikus papírok
Szemilogaritmus papír
Krisztina Boda
log-log papír
47
Hasznos WEB oldalak http://davidmlane.com/hyperstat/desc_biv.html http://onlinestatbook.com/stat_sim/reg_by_eye/index.ht ml http://www.youtube.com/watch?v=CSYTZWFnVpg&feat ure=related http://www.statsoft.com/textbook/basicstatistics/#Correlationsb http://people.revoledu.com/kardi/tutorial/Regression/No nLinear/LogarithmicCurve.htm http://www.physics.uoguelph.ca/tutorials/GLP/ http://paskorn.blogspot.com/2008/10/bivariate-normaldistribution-graph.html Krisztina Boda
.
48
Kérdések
Krisztina Boda
Két folytonos változó között kapcsolat grafikus vizsgálata A korrelációs együttható jelentése, tulajdonságai Korrelációs együttható és linearitás kapcsolata A korrelációs együttható szignifikanciája: nullhipotézis, t-érték, szabadságfok, döntés A determinációs együttható jelentése A regressziós egyenes együtthatóinak jelentése A regressziós egyenes együtthatói meghatározásának elve. Hipotézisvizsgálat a regressziós együtthatóra, kapcsolata a korreláció szignifikanciájával. Hipotézisvizsgálat a regressziós egyenes tengelymetszetére. Regresszió transzformációkkal: nem lineáris speciális kapcsolatok jellemzése
49
Feladatok n=5 megfigyelés (adatpár) alapján a korrelációs együttható értéke r=0.7. Szignifikáns-e a korreláció 5% -os szinten?
Nullhipotézis és alternatív hipotézis:…………………. A korreláció t-értéke:......................... szabadságfok:................................... Döntés a szignifikanciáról (A táblázatbeli t-érték t3,0.05=3.182) …………………..
A fizika gyakorlatokon háromszor megismételték a derékkörfogat méréseit. Az első és a második mérések összefüggését lineáris regresszióval vizsgálhatjuk. Értelmezze a kapott eredményeket (korreláció együttható, determinációs együttható, a korreláció szignifikanciája – nullhipotézis, szabadságfok, t-érték, pérték - , a regressziós egyenes egyenlete)
Model Summary Adjusted St d. Error of R R Square R Square the Estimate .980 .960 .960 2.267 The independent v ariable is DERÉKKÖRFOGAT Első.
ANOVA Sum of Squares df Mean Square Regression 44733.495 1 44733.495 Residual 1849.511 360 5.138 Total 46583.007 361 The independent v ariable is Waist circumf erence 1.
Krisztina Boda
F 8707.197
Sig. .000
A regresszió szó eredete. Galton: Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886 Vol.15, 246-63
Krisztina Boda
51
Krisztina Boda
52