Változók közötti kapcsolatok vizsgálata 1) Események függetlensége: p(AB) = p(A) p(B) 2) Korreláció: vö. az intuitív tartalommal
16
16
14
14
12
12
10
10
8
8
y
y
Akkor pozitív, ha x és y átlagosan ugyanabba az irányba tér el a saját várható értékétől, negatív ha ellentétes irányba. + -
6
6
4
4
2
2
0
0 0
2
4
6
8
10
12
0
2
4
6
x
8
10
12
x
korrelálatlanság: 10 9 8 7 y
6 5 4 3 2 1 0 0
2
4
6
8
10
12
x
A függetlenség az erősebb feltétel. Pl. csak a következő 4 pontot vizsgáljuk: 1
0 -1
0
1
-1
Ekkor: M(X) = 0, M(Y) = 0, és M(XY) = 0 ⇒
0 korreláció
Viszont p(X=0, Y=0) = 0 de p(X=0) p(Y=0) = 0,5*0,5 = 0,25 azaz X és Y nem független. 1
Kovariancia Két v.v. együttes eloszlására jellemző mértékszám: a várható értékektől vett eltérések szorzatának várható értéke. Cov(X,Y) = M[(X-M(X)) (Y-M(Y))] átalakítás után Cov(X,Y) = M(XY) - M(X) M(Y) A becslő statisztika: n
∑ (x Cov(X,Y) =
i =1
i
− x )( yi − y ) n −1
Qxy n −1
=
számításra alkalmas formában (munkaképlet): ⎛ n ⎞⎛ n ⎞ ⎜ ∑ xi ⎟⎜ ∑ yi ⎟ n xi yi − ⎝ i =1 ⎠⎝ i =1 ⎠ ∑ n Cov(X,Y) = i =1 n −1 Értékkészlet: [-∞ , ∞] Ha a kovariancia pozitív, akkor a két változó átlagosan ugyanabba az irányban tér el a saját átlagától, X növekedésével átlagosan Y is nő, ha negatív az X növekedésével Y csökken. Ha X=Y, akkor Cov(X,Y) = Var (X) Korreláció
=
kovariancia normálva: n
Cov( XY ) r XY = = Var ( x)Var (Y )
∑ (x − x )( y i =1
i
i
n
n
i =1
i =1
− y)
∑ (xi − x )2 ∑ ( yi − y )2
=
Qxy QxQy
(product moment correlation coefficient). Értéke: [-1, 1] intervallumba esik. Megjegyzések: a) Akkor értelmes, ha X és Y kapcsolata (jó közelítéssel, az adott tartományon belül) lineáris. Ha más természetű a kapcsolat, a korrelációs formula akkor is csak a lineáris komponensét méri. b) Ha r = 0, (illetve ha r nem különbözik szignifikánsan a 0-tól) akkor korrelálatlanságról (nem függetlenségről) beszélünk.
2
c) A gyakorlati számolásokra alkalmas képlet (munkaképlet): ⎛ n ⎞⎛ n ⎞ ⎜ ∑ xi ⎟⎜ ∑ yi ⎟ n xi yi − ⎝ i=1 ⎠⎝ i=1 ⎠ ∑ n i =1
r xy =
2 2 n n ⎞ ⎞ ⎛ ⎛ ⎛ ⎞ ⎛ ⎞ ⎜ ⎜ ∑ yi ⎟ ⎟ ⎜ ∑ xi ⎟ ⎟ ⎜ n n ⎜ 2 ⎝ i=1 ⎠ ⎟ ∗ ⎜ y 2 − ⎝ i=1 ⎠ ⎟ ⎟ ⎟ ⎜∑ i ⎜ ∑ xi − n n ⎟ ⎟ ⎜ i=1 ⎜ i=1 ⎟ ⎟ ⎜ ⎜ ⎠ ⎠ ⎝ ⎝
=
Qxy Qx Qy
A korrelációs együttható (r) eloszlása Elméleti korrelációs együttható: ρ -1 és 1 közé esik. r ennek az elméleti értéknek a becslése. (r itt a korreláció becsült értékét jelenti, tehát a ρˆ jelölés is helyes lenne) r eloszlása soha sem normális , még akkor se ha X és Y normális eloszlású
ρ
-1
0
1
r
Ez normalizálható: z = 0,5 * ln (1 + r) / (1 - r) várható értéke 0, varianciája 1 / (n - 3), azaz csak a minta nagyságától függ. Hipotézisvizsgálat: r szignifikánsan eltér-e 0-tól? Feltétel: A két változó együttes eloszlása kétdimenziós normál eloszlás. H1: ρ ≠ 0 H0: ρ = 0 r eltérése ρ-tól a t-eloszlást követi, szórása
(1 − r ) 2 , H0 szerint ρ=0, tehát a próbastatisztika: ( n − 2)
r −0 n−2 , szabadsági fok: n – 2 Ö tkrit (α, n-2 ) tˆ = =r⋅ sr 1− r2 • Ha tˆ < t krit , akkor H0-t elfogadjuk. Ez azt jelenti, hogy a becslésből származó r érték nem
•
különbözik szignifikánsan a 0-tól, ekkora eltérést még a véletlen is gyakran okoz. Ha tˆ > t krit , akkor H0-t elvetjük az adott szignifikanciaszinten. Ez esetben r olyan mértékben különbözik 0-tól, amit az adott mintaelemszám mellett a mintavételi hiba már ritkán okozna ha a két változó korrelálatlan lenne (tkrit- nál nagyobb eltérést a véletlen csak α valószínűséggel okoz).
Megjegyzés: a) Még kényelmesebb a dolgunk, ha rendelkezésre áll rkrit táblázat. Ui. a standard hiba ismeretében a korrelációs koefficiens kritikus értékei táblázatba foglalhatók, ahonnan közvetlenül kinézhetjük az rkrit értékeket, melyek csak a n-től és αtól függenek. Ha
r >rkrit, akkor elvetjük H0-t, tehát a próba alapján arra a megállapításra jutunk, hogy r szignifikánsan
különbözik 0-tól, a két változó korrelált. b) Ha n kicsi, akkor viszonylag nagy r értékek lesznek csak szignifikánsak, pl. n = 10, df = 8, α = 0,05 esetén rkrit =0,632. Vagyis a minta elemszámtól nagyon függ, hogy eldönthető-e a korreláltság. 3
Lineáris regresszió Predikcióra alkalmas: adott x-hez meghatározható az y a kettő közötti függvénykapcsolat ismeretében. Lineáris esetben a feladat a legjobban illeszkedő egyenes egyenletének a meghatározása. Az elméleti egyenes: y = α + β x , α , az elméleti tengelymetszet becslése a; β , az elméleti meredekség becslése b, tehát: y = a + bx Két alapmodell: 1. Modell: x értékeit rögzítjük, ezeknek nincs statisztikus ingadozása. Csak y ingadozik véletlenszerűen. Tehát az x értékeket a kísérletező állítja be (pl. dózis-hatás vizsgálatnál) vagy alkalmas x értékkel rendelkező mintaelemeket választ. Az x értékekre nézve a mintaelemek kiválasztása ezért nem véletlenszerű, ezek nem normális eloszlásúak. Feltételek: • Az y változó legyen normál eloszlású bármely xi érték mellett és y szórásai a különböző xi értékek mellett legyenek azonosak. (Ellenpélda: ha egy vérnyomást emelő gyógyszer nagyobb dózisa mellett nem csak a vérnyomás átlaga emelkedik, de annak szórása is). • A két változó közti kapcsolat legyen lineáris.
8 7 6 5 y 4 3 2 1 0 0
1
2
3
4
5
6
7
x
Megkeresendő az y = a + bx egyenlet a és b paramétere. Minimalizálandó az M [(Y - a - bx )2 ] várható érték, vagyis a legkisebb négyzetes hibával közelítő egyenest határozzuk meg. Figyeljük meg, hogy az ábrán a pontoktól függőlegesen mutatnak a nyilak az egyenes felé; ez azt jelenti, hogy az x értékek pontosan beállítottak, x nem valószínűségi változó. A nyilak az y irányú hibát (eltérést a lineáris függvény által meghatározott kapcsolattól) jelölik. A négyzetre emelés után egy hoszzú kifejezést kapunk, melynek legtöbb tagja mindig pozitív vagy 0. Minimalizálandó a b2 Qx – 2bQxy, a minimum hely b =
Q xy Qx
.
4
Gyakorlati kiszámítás: ⎛ n ⎞⎛ n ⎞ ⎜ ∑ xi ⎟⎜ ∑ yi ⎟ n xi yi − ⎝ i =1 ⎠⎝ i =1 ⎠ ∑ Q n byx = i =1 = xy 2 Qx ⎛ n ⎞ x ⎟ ⎜ ∑i n 2 ⎝ i =1 ⎠ x − ∑ i n i =1 Mivel a regressziós egyenes átmegy az ( x , y ) ponton, a = y − bx . Csak egyféle regresszió lehetséges: x-ből következtetünk y-ra. Hipotézisvizsgálat az I. modell esetén: a mintából becsült b meredekség lehet-e egy β = 0 elméleti meredekség becslése? (= a regressziós koefficiens szignifikancia próbája) Ho: a lineáris regresszió nem áll fenn, β = 0. A meghatározott egyenes tartalom nélküli. H1: Regresszió van, β ≠ 0. Kivitelezés: Az yi értékek két okból térnek el y -tól: • mert különböző x értékekhez tartoznak, vagyis a regresszió miatt, • mert egyéb tényezők is befolyásolják y értékét nem csak x, ez itt a véletlen ingadozás, vagyis a hiba. (Ha nem lenne hiba, akkor a pontok pontosan illeszkednének az egyenesre.) Jelöljük Yi-vel az xi értékhez tartozó pontját az egyenesnek (vagyis az illesztésből kapott értéket): Yi = a + bxi ( yi a mért érték)
Qy (az y-ra jellemző eltérésnégyzet) két komponensre bontható: a regresszió okozta Qr-ra és a hiba okozta Qe-re. n
n
n
i =1
i =1
i =1
Q y = ∑ ( y i − y ) 2 = ∑ (Yi − y ) 2 + ∑ ( y i − Yi ) 2 = Qr + Qe
Kiszámításuk:
Qr =
Qxy2 Qx
és
Qe= Qy- Qr.
A megfelelő szabadságfokokkal (1 és n-2) osztva a regresszió ill. hiba okozta varianciákat kapjuk: Q Q és se2 = e sr2 = r 1 n−2 ezek hányadosa (mindig a regresszió okozta variancia van a számlálóban) F eloszlású, 1 és n-2 szabadságfokokkal: s2 Ha Fˆ = r2 >Fkrit (1, n-2, α) akkor elvetjük H0-t és megállapítjuk, hogy b eltérése a 0-tól szignifikáns, ilyen se mértékűt a véletlen csak ritkán okoz, ezért a két változó között összefüggést állapítunk meg és predikcióra használhatjuk a lineáris összefüggést: adott x érték mellett jósolható az y várt értéke. A predikció azonban mindig csak azon a tartományon belül jogos, ahol a regressziót végeztük! Ez egy egyoldalú próba (sr2 ≥ se2 ), az ANOVA-hoz hasonló, tehát az 5%-os F-táblázatot kell használni, ha 5%-os szignifikanciaszinten szeretnénk dönteni. 5
2. Modell: x és y is valószínűségi változó, mindkettő random ingadozással. pl. adott emberek testmagassága és testsúlya. Feltételek: • A mintaelemek kiválasztása véletlenszerű, mind az x mind az y értékek normális eloszlásúak. • A két változó közti kapcsolat legyen lineáris. 8 7 6 5 y 4
α
3 2 1 0 0
1
2
3
4
5
6
7
x
Figyeljük meg, hogy az ábrán a pontoktól NEM függőlegesen mutatnak a nyilak az egyenes felé, hanem az egyenesre merőlegesen; ez azt jelenti, hogy azt az egyenest választjuk, amelyre minimális ezeknek a nyilaknak a hossza, vagyis az x és y irányú hiba együttesen a legkisebb.
A meredekség:
ν = tgα = sy / sx, előjele a Qxy előjele. Ezután a = y − νx
Kétféle regresszió lehetséges: x-ből következtetünk y-ra, illetve y-ból következtetönk x-re. Ez két különböző egyenest ad meg (byx illetve bxy meredekségűt).
b yx =
Q xy Qx
illetve bxy =
Q xy Qy
, ebből Î b = b yx
Qy 1 = bxy Qx
Az így számított b-t helyettesítjük be az egyenletbe és számoljuk ki a-t. Megjegyzés: ha r =1 akkor b yx =
1 bxy
6