A regressziószámítás gyakorlati kérdései A
Szent István Egyetem Állatorvosi Kar Biomatematikai és Számítástechnikai Tanszék, Budapest és az
Bécsi Állatorvosi Egyetem Biofizika és Biostatisztika Tanszék, Bé c s közös tanfolyama. Letölthető a www.univet.hu/users/jreiczig/omaa-courses-2001 címről További információk: Dr. Reiczigel Jenő (
[email protected]) Készült az AKCIÓ Osztrák-Magyar Alapítvány támogatásával (1999-2001)
2
Tartalomjegyzék A regressziószámítás célja
3
A legegyszerűbb modell (simple lin. regr.)
9
Regressziós modellek
11
A változók transzformálása
12
Többszörös (multiple) regresszió
17
Többszörös és parciális korreláció
21
Polinomiális regresszió
22
Multikollinearitás
23
Logit és probit modellek
26
Regressziós diagnosztika
29
Néhány további fogalom röviden
37
Ajánlott irodalom
38
3
A regressziószámítás célja A regressziószámítást akkor használjuk, amikor függvényszerű kapcsolatot keresünk egy vagy több magyarázó változó (vagy független változó) és egy függő változó között. Szokásosan a magyarázó változókat X-ekkel, a függő változót pedig Y -nal jelöljük. Feltételezzük, hogy az X-ek és az Y közötti összefüggés kifejezhető függvény formájában, azaz X→Y
vagy
Y = f(X)
pl.
TESTSÚLY
= f (KOR)
X1, X2, …, Xr → Y vagy Y = f(X1, X2, …, Xr) pl. TESTSÚLY = f (KOR, SZÜLETÉSI_SÚLY) Ahhoz, hogy regressziószámítást végezhessünk, mind a magyarázó, mind a függő változót ismernünk kell ugyanazokon a megfigyelési egységeken (egyedeken), azaz a kiinduló adatok egy magyarázó változó esetén (x1,y1), (x2,y2), (x3,y3) ... (xn,yn) értékpárok, több magyarázó változó esetén pedig (x11, x12, x13,…, y1), (x21, x22, x23,…, y2), (x31, x32, x33,…, y3) ... (xn1, xn2, xn3,…, yn) vektorok. Ez az úgynevezett “adatmátrix”. Egy magyarázó változó esetén – több magyarázó változó esetén 1. egyed: x1 y1 x11 x12 x13 … y1 2. egyed: x2 y2 x21 x22 x23 … y2 3. egyed: x3 y3 x31 x32 x33 … y3 … … xn1 xn2 xn3 … yn n-ik egyed: xn yn
4
A regressziószámítás szokásos kérdésfeltevései • Van-e bizonyos változók között összefüggés, Függ-e a borjak 30 napos testtömege a születési súlyuktól? • Milyen függvénnyel (lineáris, exponenciális, stb.) írható le az összefüggés, Alkalmas-e ennek az összefüggésnek a leírására a lineáris függvény? • Mi a függő változó várható értéke a magyarázó változó egy bizonyos értékéhez, Mekkora 30 napos testtömeget várhatunk, ha a születési súly 45 kg? • Mi a magyarázó változó feltételezhető értéke a függő változó egy bizonyos értékéhez, Mekkora születési súly küszöb feletti állatokat szelektáljunk, ha az a cél, hogy 30 napos korban az állatok (legalábbis átlagban) elérjék az 55 kg-ot? A cél lehet oksági kapcsolat megállapítása X és Y között, gyakran azonban csak következtetni szeretnénk az egyik változó értékéből a másikra, a közöttük tapasztalt összefüggés alapján. Feltételezzük, hogy mind a magyarázó, mind a függő változó intervallum skálán mérhető. Egyes modellekben dichotom (=kétértékű, bináris, 0/1, igen/nem) változók is előfordulhatnak. Például a logit és probit modellekben a függő változó 0/1 változó (ott a magyarázó változók folytonosak). Tágabb értelemben a varianciaelemzés is felfogható regressziószámításnak, mesterséges 0/1változók (=dummy változók) bevezetésével.
5
Példa: A születési súly és a 30 napos testtömeg összefüggése 30 borjú adatai alapján (Bajcsy Á. Csaba és munkatársai, Szülészeti Tanszék).
70
Bár egyértelmű a pozitív összefüggés a két adat között, a szóródás túlságosan nagy ahhoz, hogy a születési súly alapján jó előrejelzést adhatnánk a 30 napos testtömegre.
50
65 60
30 napos testtömeg (kg)
55
45 40
Születési súly (kg)
35 30
35
40
45
50
55
Melyik változó legyen a magyarázó és melyik a függő változó? Ez mindig attól függjön, hogy milyen irányú oksági kapcsolatot, illetve milyen véletlen hatásokat tételezünk fel a változók között, és NE attól, hogy melyik változót szeretnénk a másik alapján előrejelezni. Előfordulhat, hogy az ismeretlen X-et szeretnénk meghatározni a megfigyelt Y -ból, bár a regressziós modell Y = f (X) + ε . Ez az úgynevezett inverz regresszió. Például ha ugyanarra a mérésre két módszer is van, az A1 (lassú, drága, de pontos) és a A2 (olcsó, gyors, de kevésbé pontos), a helyes regressziós modell V2 = V1 + ε (a pontatlan módszer tartalmazza a hibát), de a természetes előrejelzési feladat a V2 → V1 .
6
Véletlenség a magyarázó és a függő változóban A függő változó mindig valószínűségi változó, a magyarázó változók azonban nem biztos. Általában úgy gondoljuk, hogy Y két független, additív komponesre bontható: az egyik az Xektől függ, a másik pedig egy, az X-ektől független véletlen faktor, azaz Y = f (X ) + ε. magyarázó változó(k) hatása
függő változó
véletlen komponens (=minden egyéb hatás) Fel szokás tenni, hogy a véletlen komponens várható értéke 0, azaz E(ε)=0 és hogy eloszlása szimmetrikus, a statisztikai tesztek kedvéért pedig még azt is, hogy normális eloszlású. Mivel Y valószínűségi változó, X értéke nem határozza meg teljesen Y-t, csak Y eloszlására van hatással. Ezért adott X = x esetén vagy az Y feltételes eloszlását, vagy (gyakrabban) a feltételes várható értékét E(Y | X = x ) szokták vizsgálni. (Például gondoljunk azon borjak 30 napos testtömegének eloszlására, illetve várható értékére, amelyeknek születési súlya 35 kg). A magyarázó változóban háromféle véletlenséget szoktak megkülönböztetni: - X egyáltalán nem véletlen változó, a kísérlet vezetője állítja be, MODEL I - bár a “természet” állítja be az X értékét, de az pontosan ismert, - a mért X nem azonos az Y-t befolyásoló változóval (mérési MODEL II pontatlanság miatt, vagy mert X elvont, nem mérhető, pl. ha X = intelligencia ≠ IQ). Ezt az esetet itt nem tárgyaljuk.
7
Korreláció- vagy regressziószámítás? A legfontosabb különbségek a két módszer között: - a korrelációszámítás szimmetrikus kapcsolatot tételez fel az X és Y között, míg a regressziószámítás egy bizonyos irányú (X → Y) kapcsolatot, - míg a korrelációszámításban mindkét változó valószínűségi változó, a regressziószámításban X nem feltétlenül az (nem feltétlenül függ a véletlentől). A korrelációszámításnak nincs értelme akkor, ha az X értékeit a kísérletező állítja be (pl. egy gyógyszer dózisát). Gyakran mindkét módszer alkalmazható, ha megfelelően átfogalmazzuk a kérdéseket. Mindig gondoljuk meg azonban, melyik fogalmazás tükrözi jobban, hogy valójában mi is érdekel! Tegyünk fel korrelációs és regressziós megközelítésű kérdéseket a következő (vagy hasonló) mért adatok közötti összefüggésekkel kapcsolatban és beszéljük meg ezeket! cipőméret és testsúly testmagasság és testsúly vérnyomás és testsúly vérnyomás és életkor Na és K koncentráció a vérben age and body weight
8
NE használjunk regressziószámítást - ha két mérési módszer közötti egyezést vizsgálunk és nem pedig azt, hogy hogyan fejezhető ki egyik mérési eredmény a másikkal. Ilyenkor a korrelációelemzésnek sincs értelme, hiszen az erős korreláció sem feltétlenül jelent jó egyezést – erős korrelációt kaphatunk nagy szisztematikus hiba (torzítás) esetén is (ha X2 = X1 + 1000, a korrelációs együttható = 1). Ha a mérési eredmények egyezése érdekel, legjobb, ha a különbséggel (abszolút vagy relatív) számolunk. (DE végezhetünk regresszió-
számítást, ha az egyik mérési módszert pontosnak tekintjük, és arra vagyunk kíváncsiak, hogyan lehet a másikat korrigálni.) - ha nem tudjuk eldönteni, melyik változót tekintsük magyarázó és melyiket függő változónak (ez nem csupán technikai kérdés, hanem a véleményünket tükrözi arról, hogy mi mitől függ, illetve, hogy mit tételezünk fel a véletlen faktorokról), - ha tudjuk, hogy a magyarázó változó a függő változóval azonos nagyságrendű véletlen hibával terhelt, vagy általánosabban fogalmazva, ha tudjuk, hogy az Y nem a mért X-től függ, hanem egy ismeretlen "valódi értéktől", (jelöljük X*-gal) azaz X* → Y , a megfigyelt X érték pedig X = X* + δ ahol δ az X*-tól független véletlen faktor. (DE ha feltehetjük, hogy δ nem a valódi, hanem a mért X-től független, akkor alkalmazhatunk regressziószámítást.)
9
Lineáris regresszió egy magyarázó változóval (simple linear regression) a) Az általános modell egy magyarázó változóval: Y = f(X) + ε b) Ugyanez lineáris függvénnyel: Y = β 0 + β 1 X + ε
Y
c) Az együtthatók becslése az adatokból: a legkisebb négyzetek módszere (“LS módszer”) a becsléseket b 0 , b 1 jelöli (máshol lehet még bˆ0 , bˆ1)
estimated line Y=b 0 +b 1 X
true line Y= β 0 + β 1 X
observed data
X
d) Hipotézisvizsgálat ("Valóban függ az Y az X-től?") • t-próba – H0 : β 1 = 0 ( β 1 = 0 azt jelenti, hogy Y nem függ X-től a modellben ! ) próba-statisztika: b 1 / SE ( b 1 ) ahol SE ( b 1 ) -et az adatokból becsüljük null-eloszlás: Student-féle t eloszlás n – 2 szabadsági fokkal • F-próba ugyanarra (ekvivalens – csak több magyarázó változó esetén különbözik) Y teljes szórása
=
Y X-től való függéséből eredő szórása
Σ ( Yi –Y ) 2
=
Σ ( f (Xi) –Y ) 2
+
Σ ( Yi – f (X i) ) 2
Teljes SSQ
=
Regressziós SSQ
+
HIba (=reziduális) SSQ
Y egyéb hatások miatti szórása + ("véletlen hiba")
Mindkét teszthez szükséges: a véletlen faktor (=ε) független, normális eloszlású legyen!
10
e) Az illeszkedés jóságának mérése: R2 (determinációs koefficiens, Regressziós SSQ / Teljes SSQ), reziduumok (a megfigyelt és a számított Y értékek eltérése - az ε becslése). f) Konfidencia-intervallumok a paraméterekre (a βi -kre: b i ± tcrit SE( b i ) , ahol tcrit az (n – 2) szabadsági fokú t eloszlás kritikus értéke, és SE( b i ) -t az adatokból becsüljük. Konfidenciasáv a regressziós egyenesre / az egyes Y értékekre ← ugyanazok a feltételek szükségesek, mint a hipotézisvizsgálathoz! Az ábrán (a borjak adatai), a lila vonalak jelölik a regressziós egyenesre vonatkozó, a zöld vonalak pedig az egyes pontokra vonatkozó 95%-os konfidenciasávot. Figyeljük meg, hogy az X tartomány szélei felé haladva a becslések egyre bizonytalanabbak. (A legkisebb a bizonytalanság az X értékek átlagánál.)
30-day body weight (kg)
70 65 60 55 50 45 40
Birth weight (kg)
35 30
35
40
45
50
11
Regressziós modellek Egy regressziós modell legfontosabb összetevői a változók közötti kapcsolatot leíró függvény típusa (lineáris, négyzetes, exponenciális, stb.) és a feltevések arról, hogy hogyan befolyásolja a véletlen az adatokat (pl. hogy az Y véletlen komponense additív-e vagy multiplikatív). A regressziószámítás végrehajtásának lépései 1. Informális modell (mik a fontos változók – mi mitől függ ; grafikon-rajzolás) 2. Formális modell (a függvénytípus megválasztása, a véletlenség a modellben) 3. A modell-paraméterek becslése (a “legjobban illeszkedő” görbe/felület megkeresése) 4. A modell “jóságának” vizsgálata - F-próba (az illeszkedés globális vizsgálatára), - t-próba (az egyes paraméterek egyenkénti vizsgálatára), - R2 (a kapcsolat szorosságát, a függő változó meghatározottságát méri), - a regressziószámításhoz szükséges feltételek ellenőrzése (reziduumok vizsgálata, regressziós diagnosztika) Fontos, hogy lássuk a különbséget az alábbi fogalom-párok között: valódi összefüggés ↔ feltételezett modell (a reziduális elemzés segít megtalálni a helyes modellt) valódi ↔ becsült paraméterek (konfidencia-intervallumok, standard hibák) megfigyelt ↔ számított Y érték (konfidencia-sávok) véletlen faktor (ε ) ↔ reziduum (ei)
12
A változók transzformálása A transzformációk olyankor segíthetnek, amikor a megfigyelt adatokra a lineáris regresszió közvetlenül nem alkalmazható. Néha elméleti megfontolásokból következik, hogy a változók közötti kapcsolat nem lineáris: Tumor átmérője → térfogata ( gömb / ellipszoid térfogata – hatványfüggvény) Gyógyszer dózis → hatás görbéje (logisztikus görbe vagy hasonló “S-alakú” görbe) Máskor a megfigyelt adatok ugyan egyértelműen arra utalnak, hogy az X és az Y között van összefüggés, de ha a pontokra egyenest illesztünk, az illeszkedés nagyon rossz. Antibiotikum koncentrációja → baktériumkultúrák átlagos átmérője Antibiotikum koncentrációja → baktériumkultúrák átlagos területe Antibiotikum koncentrációja → baktériumkultúrák átlagos száma Szerv területe az ultrahang-készülék képernyőjén → a szerv térfogata Tumor térfogata → túlélési idő hossza Az első esetben az elméleti megfontolások arra vonatkozóan is útmutatást adnak, hogy milyen függvénytípust válasszunk, a másodikban pedig az adatok grafikus ábrázolása segíthet: - a kétváltozós szórásdiagramok a modell-választáshoz nyújtanak segítséget, - a hisztogram, boxplot, stb. az adatok eloszlásának vizsgálatában (szükséges feltevések!).
13
Azokban az esetekben, amikor az X és Y közötti összefüggés nem lineáris, lineáris összefüggés állhat fenn valamely X’ és Y’ transzformált változók között. Ha elméleti megfontolásokból nem következik, hogy milyen transzformációval érdemes próbálkozni, akkor szórásdiagramok segítségével választhatjuk ki a legmegfelelőbbet. Mivel a legtöbb számítógépes programban egy gombnyomással kérhető, a logaritmus-transzformációt próbáljuk ki rutinszerűen! NB. A logaritmus csak pozitív számokra van értelmezve! Ha 0 vagy negatív X és/vagy Y értékek is előfordulnak, szokás egy alkalmas állandót hozzáadni az értékekhez, mielőtt a logaritmus vesszük, például log(x+1)-et venni log(x) helyett. Mindig gondoljuk végig, hogy egy ilyen transzformáció interpretálható-e, meg tudjuk-e magyarázni, mi az értelme. exponenciális görbe
log. skála az y tengelyen – egyenes
100 80 60 40 20 0
100
1 0
5
10
0
5
10
14
logaritmus-görbe
log. skála az x tengelyen – egyenes
3
3
2
2
1
1 0
5
10
hatványfüggvény
1
10
log. skála mindkét tengelyen – egyenes
300
1000
200
100
100
10
0
1
0
5
10
1
10
15
A transzformációk érinthetik mind a regressziós függvényt, mind a véletlenséget a modellben (utóbbit akkor, ha a függő változót transzformáljuk). Példák: 1. Ha a regresszió lineárissá válik az Y log-transzformálásával: log Y = β 0 + β 1 X + ε X akkor a függvény exponenciális, multiplikatív hibával: Y = e β 0 e β 1 e ε Multiplikatív hiba: a véletlen faktor nem hozzáadódik a függvényértékhez, hanem összeszorzódik vele. Ekkor nagyobb függvényértékhez nagyobb Y szórás tartozik. (NB. a relatív szórás állandó!)
2. Ha a regresszió lineárissá válik X és Y log-transzformálásával: log Y =β0 +β1 log X +ε akkor a függvény hatványfüggvény, multiplikatív hibával: Y = e β 0 x β 1 e ε 3. Ha a regresszió lineárissá válik az X log-transzformálásával: Y =β0 +β1 log X +ε akkor a függvény logaritmus-függvény, additív hibával. Ugyanilyen elterjedt a hatvány- és a gyök-transzformáció. A gyökök (relatíve) összehúzzák a nagy értékek tartományát, az (egynél nagyobb) hatványok pedig a kis értékekét. Ha a mért értékek helyett rangokkal dolgozunk, a változót teljesen skála-függetlenné tehetjük. Megjegyzések: • A fent említettek mind monoton transzformációk. • Ha a változó értéktartománya szűk, a rangok kivételével az összes többi kb. egyenértékű. • Gyakorisági adatokra az arcus sinus transzformációt is szokták alkalmazni.
16
A transzformációk statisztikai modell hiányában is hasznosak lehetnek. Segíthetnek az adatok jobb megismerésében és ábrázolásában, szebb grafikonok készítésében, stb. Példa a transzformációs lehetőségekre az összefüggés linearizálásában: 10
4
2
2
5
2
1
0
0
-2
0
0 0
1
2
eredeti összefüggés
0
1
négyzetgyök Y
2
0
1
4-ik gyök Y
2
0
1
2
-4
logaritmus Y
Megjegyzések: • A transzformációkat nemcsak az összefüggés linearizálására, hanem szórás-kiegyenlítésre és az eloszlások szimmetrizálására is szokták használni. (Persze előfordulhat, hogy az a transzformáció, amely linearizálja az összefüggést, elrontja a szórások egyenlőségét, stb.) • A transzformáció megválasztásánál fontos szempont az interpretálhatóság. • A transzformáció útján történő linearizálás nem az egyetlen lehetőség a nemlineáris összefüggések kezelésére. Léteznek eljárások lineárissá nem transzformálható (“intrinsically nonlinear”) modellek illesztésére is.
17
Többszörös (multiple) regresszió Gyakran indokolt a függő változót egyszerre több magyarázó változóval is (X1, X2, ... , Xr ) összefüggésbe hozni. A teljesen általános modellben azt tételezzük fel, hogy az Y kifejezhető, mint az X-ek valamely függvénye plusz egy véletlen faktor (=additív hiba!): Y = f (X1 , X2 , X3 , ... , Xr ) + ε . Többszörös lineáris regresszióról akkor beszélünk, ha a függvény lineáris: Y = β 0 + β 1 X1 + β 2 X2 + β 3 X3 + ... + βr Xr + ε . megfigyelt
számított
hiba
Hogy a borjak 30 napos súlyára pontosabb előrejelzést kapjunk, ésszerűnek tűnhet további magyarázó változóként az első 6 napi súlygyarapodást is bevonni. Az így kibővített modell WEIGHT30 = f (SZÜLETÉSI_SÚLY, SÚLYGYARAPODÁS_6) + ε , vagy ha a lineáris modellt választjuk WEIGHT30 = β 0 + β 1 SZÜLETÉSI_SÚLY + β 2 SÚLYGYARAPODÁS_6 + ε . A paraméterek becslését itt is a legkisebb négyzetek módszerével szokás végezni. A becsült paramétereket szokásosan b 0 , b 1 , ... , b r jelöli, azaz a becsült regressziós egyenlet alakja Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3 + ... + b r X r + e , megfigyelt
számított
reziduum
ahol a reziduum (=maradéktag) a véletlen faktor (ε ) becslésének tekinthető.
18
A lineáris függvény grafikonja (a valódié is és a becsülté is, de az ε vagy e tagoktól eltekintve) egy r-dimenziós sík (=“hipersík”) az (r+1)-dimenziós térben. A megfigyelt Y értékek e “hipersík”körül helyezkednek el. A következő ábra két magyarázó változó (X1 és X2) esetén szemlélteti a fentieket, amikor a regressziós felület egy közönséges kétdimenziós sík a háromdimenziós térben. Ezen az ábrán a becsült regressziós síkot ábrázoltuk. A kék pontok a megfigyelt adatoknak felelnek meg, a kék vonalak pedig a megfigyelt és a számított (=a felületen lévő) értékek eltérésének, azaz a reziduumoknak. A grafikonról azt az összefüggést olvashatjuk le, hogy ha X1 nő, akkor a számított Y csökken, azaz az Y az X1-nek csökkenő függvénye. Ez azt is jelenti, hogy a becsült b1 regressziós együttható negatív (számszerű értéke a sík meredeksége az X1 irányában – a grafikonról leolvasva körülbelül –0.5). Hasonló a helyzet X2 -vel is (a grafikonról leolvasva b2 értéke is körülbelül –0.5). A b0 regressziós együttható (amelyet “konstans tag”-nak is neveznek) jelentése: az Y számított értéke az X1 = X2 = 0 pontban (értéke a grafikonról leolvasva körülbelül 14).
19
Példa (borjak növekedése) Ha a születési súly mellé az első 6 napi súlygyarapodást is bevonjuk a regressziós modellbe, azt kapjuk, hogy a 30 napos súly gyakorlatilag nem függ ettől a változótól, azaz az előrejelzés nem válik pontosabbá. Ezt mutatja a becsült regressziós függvény grafikonja is.
(Megjegyezzük, hogy a grafikonok sok magyarázó változó esetén kevésbé szemléletesek.)
20
A hipotézisvizsgálatok lényegében ugyanazok itt is, mint egy magyarázó változó esetén. • t-próbák az Y egy-egy magyarázó változótól való függésének tesztelésére: H0 i : β i=0 ahol i=1, 2, ... , r (β i=0 azt jelenti, hogy az Y nem függ X i-től a modellben) próba-statisztika: b i / SE ( b i ) ahol SE ( b i ) -t az adatokból becsüljük null-eloszlás: Student-t eloszlás ( n – r – 1 ) szabadsági fokkal
• F-próba az Y összes X-ektől való (együttes) függésének tesztelése H0együttes : minden β i = 0 (ez azt jelenti, hogy az Y a modellbeli egyik X i -től sem függ) Az F-próba itt is az Y szórásának (tkp. eltérés-négyzetösszegének) felbontásán alapul Az Y teljes szórása
=
Az Y-nak a magyarázó változóktól való függéséből eredő szórása
+
Az Y egyéb hatások miatti szórása ("véletlen hiba")
Teljes SSQ = Regressziós (modell, magyarázott) SSQ + Hiba (reziduális) SSQ próba-statisztika: a Regressziós SSQ / r osztva a Hiba SSQ / ( n – r – 1 ) -gyel null-eloszlás: F-eloszlás ( r és n – r – 1 ) szabadsági fokokkal.
Konfidencia-intervallumokat is a szokásos módon adhatunk a β i regressziós együtthatókra: b i – tkrit SE ( b i ) . . . b i + tkrit SE ( b i ) , ahol tkrit az (n – r – 1) szabadsági fokú t-eloszlás megfelelő kritikus értéke, SE(b i)-t pedig az adatokból becsüljük. Konfidencia-sávok is hasonlóan kaphatók a valódi regressziós felületre és az egyedi pontokra is (ezeket már nem szokták kézzel számolni). A szükséges feltételek is a szokásosak (a tesztekhez is): független, normális eloszlású ε .
21
Többszörös és parciális korreláció A többszörös korreláció a függő változó és több magyarázó változó összessége között mért korreláció. Definíciója R ( Y , {X1 , X2 , ... , Xr }) = R ( Y , Y (becsült) ), ahol Y (becsült) a többszörös lineáris regresszióval Y-ra nyert becslés. Jegyezzük meg, hogy Y (becsült) az X -eknek az a speciális lineáris kombinációja, amelynek a megfigyelt Y változóval a legnagyobb a korrelációja. Általában a többszörös korreláció egy valószínűségi változó és valószínűségi változók egy halmaza között hasonlóképpen definiálható. Ennek négyzete (R2) az úgynevezett determinációs együttható, amely azt mutatja meg, hogy a magyarázó változók a függő változó igadozásának hány százalékát magyarázzák. Az Y1 és Y2 változók közötti parciális korreláció a köztük levő korreláció, miután valószínűségi változók egy X1, X2, … , Xr halmazának a korrelációjukra vonatkozó (lineáris) hatását kiküszöböltük. Definíciója R ( Y1, Y2 | X1 , X2 , ... , Xr ) = R ( Y1 - Y1(becsült) , Y2 - Y2(becsült) ) ahol Y1(becsült) és Y2(becsült) az Y1 és Y2 változó többszörös lineáris regresszióból származó becslése az X1, X2, … , Xr magyarázó változók mellett. Más szóval, a parciális korreláció Y1 és Y2 között a köztük lévő reziduális korreláció, miután néhány egyéb változó hatását többszörös lineáris regresszióval kiküszöböltük.
22
Polinomiális regresszió Az egyszerű lineáris regresszió úgy is általánosítható, hogy a modell a magyarázó változó magasabb hatványait is tartalmazza. A polinomiális modell szoros kapcsolatban áll a többszörös lineáris regressziós modellel, de itt r különböző magyarázó változó helyett ugyanannak a magyarázó változónak r egymást követő hatványa szerepel a regresszióban. Valójában X különböző hatványait különálló magyarázó változóknak tekintjük: Y = β 0 + β 1 X + β 2 X 2 + β 3 X 3 + ... + βr X r + ε A polinomiális regressziót tipikusan olyankor alkalmazzuk, amikor a várt görbének minimuma vagy maximuma van. A fokszám legyen a lehető legalacsonyabb! Harmadfokúnál magasabb fokú polinomokat ritkán használunk, mert a paraméterek értelmezése csaknem lehetetlen (az értelmezhetetlen modelleknek nincs gyakorlati értékük, még akkor sem, ha jól illeszkednek). Ha a fokszám megközelíti a megfigyelések számát, a szignifikancia-teszt problematikussá vagy lehetetlenné válik (“overfitting”). Ha van egy, az adatainkra esetleg kevésbé jól illeszkedő modellünk, amely jobban értelmezhető, mint a polinomiális, használjuk inkább azt! Itt nem vizsgálunk minden együtthatót, csak egy általános ellenőrzés történik F-próbával, valamint a legnagyobb fokú tag együtthatójának tesztelése (H0: βr = 0) annak az eldöntésére, hogy a polinom fokszáma helyesen lett-e megválasztva.
23
Multikollinearitás (vagy egyszerűen “kollinearitás”) Multikollinearitásról akkor beszélünk, ha a magyarázó változók nem függetlenek egymástól, hanem erősen korreláltak. Ez akkor is előfordulhat, ha a páronkénti korrelációk kicsik – ezért a többszörös korrelációkat kell vizsgálnunk. Ez kizárólag a magyarázó változók tulajdonsága – semmi köze a függő változóhoz! Kollinearitás esetén - az egyes magyarázó változók hatását a függő változóra nem lehet szétválasztani, - a magyarázó változók átvehetik egymás szerepét a regressziós egyenletben, - következésképp a regressziós együtthatók becslésekor növekszik a bizonytalanság: magas SE értékek jelentkeznek, az együtthatók nem-szignifikánssá válhatnak, - sőt a számítási folyamat lefagyhat. Szokásos mérőszámok az érintett változók meghatározására - négyzetes többszörös korreláció az i-ik magyarázó változó és a többi magyarázó változó között: Ri2 (1-hez közeli érték kollinearitást jelez – fontoljuk meg a változó kihagyását!), - tolerancia: 1 – Ri2 (0-hoz közeli érték kollinearitást jelez) - VIF (variancia infláció faktor): 1/(1-Ri2) (nagy értékek { >10 ? } kollinearitást jeleznek)
24
Példák a multikollinearitásra Tegyük fel, hogy meg akarjuk jósolni a borjak 30 napos testsúlyát a születési súly és a 6 napos korban mért súly alapján. A születési súly és a 6 napos súly közti szórásdiagram nagy korrelációt mutat, ezért ezek használata kollinearitási problémákat okozhat. A természetes megoldás a 6 nap alatti súlygyarapodás használata a 6 napos súly helyett. A második szórásdiagramon látható, hogy a 6 napos súlygyarapodás és a születési súly gyakorlatilag korrelálatlanok.
50
6-day weight (kg)
3
6-day weight gain (kg)
2 40
1
Birth weight (kg)
Birth weight (kg)
0
30
30
40
50
30
40
50
A kollinearitás fenti mértékei ebben az esetben: R2= 0.9722, tolerancia= 0.0278, VIF= 35.97 R2= 0.0081, tolerancia= 0.9919, VIF= 1.008
25
A kollinearitás tipikusan előfordul a polinomiális regresszióban is, ahol a magyarázó változók ugyanannak a változónak a hatványai, pl. x, x2, x3 stb., ezért erősen korreláltak lehetnek. Ilyen esetekben segít a „centrálás”. Például x és x2 helyett használható x és ( x -x )2 . Hasonló kérdéseket az ortogonális polinomok elmélete tárgyal.
40
x2 = x1
7
2
x 2 = ( x 1 - x 1)2
6
30
5 4
20 3 2
10
x1
1
x1
0
0 1
2
3
4
5
6
A kollinearitás mértékei: R2 = 0.9583, tolerancia = 0.0417, VIF = 23.98
1
2
3
4
5
6
R2 = 0, tolerancia = 1, VIF = 1 .
26
Logit és probit modellek Egyes vizsgálatokban a célváltozó bináris, azaz 2 lehetséges értéke van, mint például túlélés vagy halál, siker vagy kudarc, stb. Ezekben az esetekben csaknem természetes feltételezni, hogy a magyarázó változók az eredmény bekövetkezési valószínűségében játszanak szerepet, ezért a bekövetkezés valószínűségét tekinthetjük függő változónak. Folytonos magyarázó változók esetén, amelyek –∞ és +∞ között értelmezettek, a legegyszerűbb modell, a többszörös lineáris regresszió alkalmazhatatlan, mert a becsült értékek nem feltétlenül fognak 0 és 1 közé esni. A logit modell alapgondolata a valószínűség logit értékének használata függő változóként. A logit transzformáció a 0 és 1 közötti intervallumot képezi le –∞ és +∞ közé. Képlete
5
lásd a grafikont →
2
logit (Y ) = ln ( Y / (1–Y ) ) Így a regressziós egyenlet
logit (Y ) = β 0 + β 1 X1 + ε egyszerű regresszió (1 magyarázó változó) esetén vagy logit (Y ) = β 0 + β 1 X1 + β 2 X2 + ... + βr Xr + ε többszörös regresszió (több magyarázó változó) esetén.
logit
4 3 1 probab.
0 -1 0 -2 -3 -4 -5
0,5
1
27
A logit transzformáció inverzét használva
1
invlogit (U) = exp(U) / (1 + exp(U) ) felírhatjuk a regressziós egyenletet közvetlenül a valószínűséget használva függő változóként (természetesen ebben a formában a regresszió -8 nem lesz lineáris). exp( β 0 + β1 X 1 + β 2 X 2 + ... + β r X r ) Y= +ε 1 + exp( β 0 + β1 X 1 + β 2 X 2 + ... + β r X r )
probab.
0,5
logit 0 -3
2
7
Megjegyezzük, hogy az egyenletnek ez a formája másfajta véletlenszerűséget feltételez – egy additív hibatagot Y-ban – mint az előző, amelynél logit (Y) tartalmazott egy additív hibatagot. A grafikonon látható, hogy X azonos mértékű megváltozása Y különböző mértékű változását eredményezheti X értékétől függően. A szélek felé haladva a függőség egyre gyengül. Az általános logisztikus regresszió bármilyen függő változóval használható, nem csak valószínűséggel. A függő változó minimuma és maximuma paraméterként megadható ebben a modellben. A regressziós egyenlet a következő: exp( β 0 + β1 X 1 + β 2 X 2 + ... + β r X r ) Y = MIN + ( MAX − MIN ) +ε 1 + exp( β 0 + β1 X 1 + β 2 X 2 + ... + β r X r )
28
Az általános logisztikus regresszió főbb alkalmazási területei a a) növekedési görbék, b) dózis-válasz összefüggések, és a c) bioassay típusú vizsgálatok. A probit egy másik transzformáció, mely – a logit transzformációhoz hasonlóan – a 0 és 1 közötti intervallumból képez a –∞ és +∞ közti tartományba. Ez a standard normális eloszlás eloszlásfüggvényének (Φ) inverz függvényét használja a transzformációhoz. probit (Y ) = Φ-1 ( Y )
lásd a grafikont →
Jegyezzük meg, hogy sem Φ, sem Φ nem írható fel analitikus alakban, azaz nincsen képletük, értékeik csak numerikus módszerekkel számíthatók ki. -1
A probit modell a valószínűség probit értékét használja függő változóként. Ez annak a feltételezésnek felel meg, hogy a bináris kimeneti változó értékét egy, a háttérben lévő normális eloszlású valószínűségi változó határozza meg. A grafikon hasonló a logit-éhoz, sőt a regressziós eredmények is többé-kevésbé azonosak a legtöbb esetben.
5
probit
4 3 2 1 probab.
0 -1 0 -2 -3 -4 -5
0,5
1
29
Regressziós diagnosztika Regressziós diagnosztikán a regressziós eredmények vizsgálatát értjük. Ide tartozik - az illesztett modell jóságának vizsgálata, - a regressziószámítás alkalmazhatóságához szükséges feltételek meglétének vizsgálata, - olyan adatpontok keresése, amelyek eltorzíthatják a regressziós eredményeket. A regressziós diagnosztika nagyrészt a reziduumok elemzéséből áll. Reziduumnak a megfigyelt értéknek a számítottól való eltérését nevezzük. Hogy lássuk, mi a reziduumok szemléletes jelentése, készítsünk ugyanazokról az adatokról két ábrát! Regressziós ábra 8
Reziduumok ábrája
y
resid.
2
6
1
4
0
2
-1
x 0 0
5
10
x 0
5
10
-2
zero residual = perfect fit
30
Ha a modell megfelelő, akkor a reziduumok olyanok, mintha csupán a regressziós egyenes (vagy felület) körüli véletlen eltérések lennének. Ha nem, próbáljunk egy jobb modellt találni (válasszunk másik regressziós függvényt, vagy használjunk további magyarázó változókat)! Regressziós ábra 8
Reziduumok ábrája
y
6
Residuals look random here!
1
4
x
0 -1 0
2 x
0 0
25
resid.
2
5
5
10
-2
10
resid.
6
y
20
4
15
Residuals show rather systematic pattern here – check the model ! “horseshoe”-pattern
2
10 5 x
0
x
0 0
0
5
10
-2
5
10
31
Ha a reziduumok nagyságrendje függ X nagyságától, az azt jelzi, hogy a hiba (ε) szórása nem állandó. Például a következő ábrán növekvő X esetén a reziduumok is egyre nagyobbak. 30
y
resid.
15
20
5
x
10
x
0 0
5
10
-5 0
5
10
-15
(Többszörös regresszió esetén, ha ugyanerre kíváncsi valaki, a reziduumokat a számított Y értékek függvényében érdemes ábrázolni. lásd→) 15 Ha a hiba szórása nem állandó, akkor próbálkozhatunk transzformációkkal, vagy használhatjuk a súlyozott legkisebb négyzetek módszerét (WLS) a becslésre (a súlyokat a varianciával fordítottan arányosan kell megválasztani).
resid.
5 -5 0
predicted 5
10
15
20
-15
Többszörös regresszió esetén, ha a reziduumokat az egyik xi magyarázó változó függvényében ábrázolva patkó alakú mintázatot kapunk, próbáljuk meg az xi2 kvadratikus tagot bevenni a modellbe (mint magyarázó változót). Ha a reziduumok két magyarázó változó (xi és xk ) szorzatával korrelációt mutatnak, megpróbálhatjuk a szorzatot is bevenni a modellbe.
32
A reziduumok normalitásának tesztelése A regressziószámítás esetén alkalmazott klasszikus statisztikai tesztek (mint például a t- és Fpróbák) alkalmazhatóságának szükséges feltétele a véletlen tag (=a hibatag, ε) normalitása. Ezt a feltételt a reziduumokra alkalmazott közönséges normalitás-vizsgálattal (pl. khi-négyzet próba) lehet ellenőrizni. NB. Ennek a próbának csak akkor van értelme, ha a reziduumok véletlenszerűnek tűnnek, azaz nem mutatnak szisztematikus mintázatot. Outlierek és torzító pontok Egy megfigyelést akkor nevezünk outliernek, ha az adott X érték mellett Y értéke kiugró, és így a reziduum értéke különösen nagy (összehasonlítva a többi adatpontéval). Ezen az ábrán a pirossal jelölt pont tűnik outliernek. (Megjegyezzük, hogy az Y=1.36 érték csak a hozzátartozó X=5.77 értékkel kapcsolatban kiugró). A fekete egyenes az egész adathalmazra illesztett regressziós egyenes, a zöld pedig az outlier nélküli adatokra illesztett. Ebben a példában az outlier nem nagyon befolyásolja a becsült regressziós együtthatókat.
8
y
6 4 2 x 0 0
5
10
33
Egy megfigyelés hatóerején (leverage) az X értékeinek (mint r-dimenziós vektornak) a távolságát értjük a mintabeli X értékek átlagától. Minél távolabb van egy pont a minta középpontjától, annál nagyobb a hatóereje. Fizikában ez az erőkarnak felel meg, minél nagyobb az erőkar, annál könnyebben „elhúzza” a pont a regressziós felületet. Jegyezzük meg, hogy az Y értékek nem játszanak szerepet a hatóerő definíciójában.
A nagy hatóerejű pontok befolyásolhatják (de nem mindig teszik) a regressziós paraméterek becslését. Ha ez a helyzet, akkor torzító pontoknak (influential points) nevezzük őket. A következő (egyváltozós) regressziós ábrán a nagy hatóerejű pontokat pirossal jelöltük. A fekete és zöld egyenesek a piros pontokkal, illetve azok nélkül illesztett regressziós egyenesek. 8
8
y
y
leverage 6
6
4
4
2
2
mean x value x
0
x 0
0
5
10
15
0
5
10
Míg a baloldali ábrán a piros pont nem torzító pont, addig a jobboldalin lévő az.
15
34
Többdimenziós esetben a helyzet egy kicsit bonyolultabb, mivel az adatok szóródása az iránytól függően változhat. Ezt a helyzetet illusztrálja a következő kétdimenziós ábra. Az ábrán mindkét pirossal jelölt pont viszonylag messze van a ponthalmaz középpontjától. Az abszolút távolságokat tekintve a 2. pont van távolabb, de ha a pontok adott irányú szóródásához hasonlítjuk, akkor az 1. pont tűnik távolabbinak. Jelen esetben mindkét pontnak jelentős befolyása lehet (talán az 1. pontnak egy kicsit nagyobb) a regressziós felület helyzetére, persze a hozzájuk tartozó Y értékektől függően (itt csupán a magyarázó változókat ábrázoltuk). A fentiekkel összhangban, több dimenzióban a hatóerőt mindig az adatok adott irányú szóródásához képest mérjük.
20
X2 2 2
15 1 1
10
5 3 3
X1
0 0
5
10
15
20
A 2. pont helyzete világos: potenciális torzító pont, hiszen X1 és X2 értéke is kiugró. Mindamellett az 1. és 3. pont arra példa, hogy valójában az értékek kombinációja számít. Ha X1-et és X2-t külön-külön nézzük, akkor a 3. pont értékei extrémebbek mint az 1. ponté, mégis kisebb befolyása lehet a regresszióra (az 1. pont értékeinek együttese extrémebb).
35
Megjegyzések: - Egy outlier nem feltétlenül torzító pont (lehet, hogy kicsi a hatóereje). - Egy torzító pont nem feltétlenül outlier (lehet, hogy kicsi a reziduuma). - Az hogy egy nagy hatóerejű pont torzító-e vagy sem, az Y koordinátája értékétől függ. - A fenti ábrák csupán illusztrációk, mivel többszörös regresszió esetén, amikor a reziduumok analízise tényleg fontos, nem tudunk ilyen egyszerű grafikonokat készíteni. Az outlierek kiszűrésének szokásos módja a reziduális analízis. Különböző fajta reziduumok alkalmazhatók e célból. Az i-edik adatpont közönséges (nem standardizált) reziduumának definíciója: ei = Yi (mért) – Yi(számított) . Standardizálás a standard hibával való leosztást jelent (NB. a reziduumok átlaga 0!), azaz ei(stand) = ei / SE(ei) , ahol SE(ei)-t a mintából becsüljük. Mire jó a standardizálás? Ahhoz, hogy eldönthessük, vajon egy megfigyelés reziduuma „különösen nagy-e”, kell lenni valami elképzelésünknek a reziduumok (outlierek nélküli) eloszlásáról. Bizonyítható, hogy ha a regressziós modell véletlen tényezője (az ε) normális eloszlású, akkor a standardizált reziduumok közelítőleg Student-féle t-eloszlást követnek. Ennek alapján outliernek tekinthetjük azokat a megfigyeléseket, amelyek standardizált reziduuma kívül esik a t-eloszlás választott (pl. 99%-os) határain.
36
A legkifinomultabb típus az ún. jackknife reziduum (ugyanezt fedik a „deleted”, „externally studentized”, néha csak „studentized” elnevezések is). Az alapgondolat az, hogy mivel az outlierek is befolyásolják a számított Y értékeket, minden pontra úgy számoljunk reziduumot, hogy a regressziós felület meghatározásakor a szóban forgó pontot hagyjuk ki. Képlettel: e(–i) = Yi (mért) – Y(–i)(számított) , ahol Y(–i)(számított) az i-edik pont kihagyása után az i-edik pontbeli számított érték. A standardizálás ugyanúgy történik, mint a közönséges reziduumok esetén: e(–i)(stand) = e(–i) / SE(e(–i)) . Ha nincsenek outlierek, akkor ezek a reziduumok t-eloszlásúak n - r - 2 szabadsági fokkal, ahol n a pontok, r pedig a magyarázó változók száma. Egy pontot akkor tekinthetünk outliernek, ha a reziduálisa nagyobb, mint az eloszlás választott (például 99%-os) kritikus értéke. A legtöbb gyakorlati esetben a közönséges reziduumokkal is jól lehet dolgozni. De ha a szoftverünk képes a jackknife reziduumok kiszámítására, akkor miért ne használnánk ezeket?
A torzító pontok kereséséhez az ún. Cook-féle D statisztikát (vagy Cook-féle távolságot) számíthatjuk ki az egyes megfigyelésekre. Ez egy olyan standardizált index, ami azt méri, hogy a regressziós felület (a regressziós együtthatók) mennyit változik, ha az adott pontot töröljük. Nagy értékek torzító pontokra utalnak, de nincs rá statisztikai próba (ökölszabályként azokat a pontokat vizsgáljuk, melyekre D > 1). Ugyanerre a célra vannak még más mértékek is, például a DFFIT vagy Atkinson-féle mérték – használjuk azt, amelyiket a szoftverünk ki tud számítani.
37
Néhány további fogalom röviden Lépésenkénti (stepwise) regresszió: eljárás a „legjobb” magyarázó változók kiválasztására. A modellbe a lehetséges magyarázó változókat egyenként vonja be (ill. zárja ki), így a végeredmény szigorú értelemben nem nevezhető optimálisnak (pl. függhet a változók felsorolásának sorrendjétől). Rokon eljárás a „best subset regression”, amely a magyarázó változók halmazának legjobb (= max R2), adott elemszámú részhalmazait keresi meg. Ilyen eljárások összefüggések feltárásához, modellek felállításához adhatnak ötleteket, támpontokat. Variancia-kovariancia-elemzés (ANCOVA): a variancia-elemzés és a regressziószámítás kombinációja, akkor alkalmazzuk, amikor a modellünk mind kategoriális, mind folytonos magyarázó változókat tartalmaz. A kategoriális változók hatásának vizsgálata variancia-elemzéssel, a folytonos változóké lineáris regresszióval történik, de egyszerre, ugyanazon eljárásban. Robusztus regresszió: olyan regressziós eljárások tartoznak ide, amelyek helyes működését az outlierek nem zavarják (vagy legalábbis kevésbé, mint a legkisebb négyzetek módszerét). Nemparaméteres regresszió: olyan eljárások tartoznak ide, amelyek a regressziós függvényt nem paraméteresen (nem képlettel megadott formában) keresik. Egy típus a megfigyelt pontokból álló „ugráló” görbe simításával (smoothing) operál (pl. lokális átlagolással) és így kap sima regressziós görbét. Spline-regresszió: több egymás után fűzött, egymáshoz simán (=törés nélkül) csatlakozó (tipikusan harmadfokú) polinomot illeszt a megfigyelt pontokra.
38
Ajánlott irodalom Draper, Norman R. - Smith, Harry: Applied Regression Analysis. Wiley, New York, 1998. Fox, John: Applied regression analysis, linear models, and related methods. Sage, London, 1997. (JATE) Ryan, Thomas P.: Modern Regression Methods. Wiley, New York, 1996. Birkes, David - Dodge, Yadolah: Alternative Methods of Regression. Wiley, New York, 1993. Seber, George A. F. - Wild, C. J.: Nonlinear Regression. Wiley, New York, 1989. Belsley, David A. - Kuh, Edwin - Welsch, Roy E.: Regression diagnostics: identifying influential data and sources of collinearity. Wiley, New York, 1980 (KLTE) Rousseeuw, Peter J. - Leroy, Annick M.: Robust Regression and Outlier Detection. Wiley, New York, 1987. Hosmer, David W. - Lemeshow, Stanley: Applied logistic regression. Wiley, New York, 1989. (KLTE) Green, Peter - Silverman, B. W.: Nonparametric regression and generalized linear models: A roughness penalty approach. Chapman & Hall, London, 1994 (KLTE) Chatterjee, Samprit - Price, Bertram: Regression Analysis by Example. Wiley, New York, 1991.