MÓDSZERTANI TANULMÁNYOK
ÖSSZEFÜGGÉSEK A LINEÁRIS REGRESSZIÓS MODELLBEN DR. HAJDU OTTÓ A tanulmány a lineáris regressziós modell alapvető mutatóit tárgyalja. E mutatókat egymásból vezeti le olymódon, hogy azok statisztikai tartalma a levezetés gondolatmenetétől megvilágítást nyer. A tanulmány mindazokat a módszertani következtetéseket, melyek a klasszikus megközelítésben a mintavétel szintjén keletkeznek, ezúttal az elméleti modell tulajdonságai között helyezi el. A cikk hangsúlyt helyez arra a tényre, hogy a többváltozós modellt jellemző mutatók miként vezethetők vissza az egyszerű kétváltozós modell megfelelő mutatóira. A dolgozatban szereplő levezetések sajátos menete – két évtized oktatási tapasztalataira épülve – a szerzőtől származik, melynek didaktikája a regresszió oktatását is segíteni kívánja. TÁRGYSZÓ: Lineáris regressziós modell. Modelltulajdonságok. Becslőfüggvények.
A
regressziós modell egy sztochasztikus jelenséget hivatott leírni az azt alakító tényezők függvényében, elemzési, illetve előrejelzési céllal. A vizsgált jelenséget reprezentáló Y eredményváltozó, és az ok szerepét játszó X magyarázó változók kijelölése a modell specifikálásának első lépése. A modell struktúráját az Y . X 1 , X 2 , K , X p , e formula
írja le, ahol e maradék jellegű változó, a modell által nem magyarázott, véletlen hatást fejezi ki. A véletlen változó nyújtja tehát a modell sztochasztikus jellegét, és rajta keresztül ítélhető meg a modell és a valóság viszonya. A véletlen változó minden regressziós modell eleme, ezért a (p+1) változós modellre elegendő az Y . X 1 , X 2 , K, X p formában hi-
vatkozni. A regressziószámítás módszertana kimunkált, eszköztára közismert. Alapvetőnek mondható mutatói esetében azonban azok tartalmának és formulájának az összekapcsolása korántsem magától értetődő, a szakirodalom pedig adós az indoklásukkal.1 Jelen tanulmány célja, hogy a lineáris regressziós modell nevezetes összefüggéseit bemutassa, esetenként új megvilágításba helyezze azokat. A szakirodalomban megszokott tárgyalásmódtól eltérően, a lineáris regresszió „szokásos outputjához tartozó” regressziós paramétereket, parciális korrelációkat és az illeszkedés vizsgálatát segítő mutatókat nem a minta szintjén, hanem a modelljellemzők között definiáljuk, mivel tartalmuk már itt értelmezhető. Az érintett fogalmakat a tanulmány 1 A tankönyvek és szakkönyvek egymásra hivatkozva, indoklás nélkül örökítik tovább az egyes formulákat, az olvasóra bízva azok belátását.
Statisztikai Szemle, 79. évfolyam, 2001. 10–11. szám
886
DR. HAJDU OTTÓ
olyan didaktikai keretben tárgyalja, melyben a mutatók definíciójukból, illetve egymásból következve értelemszerűen formálódnak, így összefüggéseik plasztikusan láthatóvá válnak. A magyarázó változók szempontjából egymásba ágyazott modelleket, így a kétváltozós modellt, nemcsak speciális esetként, hanem a többváltozós modell szerves részeként is kezeljük. Mindezek értelmében jelen tanulmány első része a kétváltozós modellt vizsgálja abból a követelményből kiindulva, miszerint a véletlen változó korrelálatlan a magyarázó változóval. E racionális megszorítás nem engedi, hogy a véletlen változó előrejelezhető legyen a magyarázó változó értékének az ismeretében. Ezt követően a kétváltozós modell eredményeit három változó páronkénti kapcsolatainak a vizsgálatára terjesztjük ki. A második rész általánosítja a modellt kettőnél több változó egyidejű kezelésére, ideértve a háromváltozós modellt is.2 Ebben a részben a többváltozós modell némely esetben háromváltozóssá partícionálva jelenik meg, lehetővé téve az általános modell jellemzőinek a kétváltozós modell eredményeire való visszavezetését. E két rész eredményei mind modellszintűek, függetlenek a mintavétel problémáitól, és a véletlen változóval szemben támasztott kiinduló követelmény teljesülésén alapulnak. Ezért a harmadik részben azt vizsgáljuk, hogy a paraméterbecslés tükrében (tehát a minta szintjén) a kiinduló korrelálatlansági követelmény milyen körülmények között konform a legkisebb négyzetek kritériumával. A KÉTVÁLTOZÓS MODELL Kétváltozós, azaz Y.X modellt definiálva az eredményváltozó alakulását csak egyetlen magyarázó változó felhasználásával közelítjük. A kapcsolat sztochasztikus jellegű, hiszen a magyarázó változó rögzített X szintje mellett az eredményváltozó értéke szóródik E{Y | X } = Yˆ feltételes várható értékkel, és Var{Y | X } feltételes varianciával.3 A regressziós modell feltevése szerint az eredményváltozó feltételes várható értéke a magyarázó változó lineáris függvénye: Yˆ = b0 + b1 X , ahol b0 és b1 a regressziós paraméterek. E paraméterek a modell szerint rögzített, de ismeretlen értékek. Tartalmilag a b0 tengelymetszet az eredményváltozó X=0 feltétel mellett várható értékét jelenti, míg a b1 meredekség a magyarázó változóban bekövetkezett egységnyi abszolút változásnak az eredményváltozóra gyakorolt várható hatását számszerűsíti. A tengelymetszet szerepeltetését a modellben az indokolja, hogy a magyarázó változó zérus szintje mellett az eredményváltozó várható értéke nem föltétlenül zérus. A regressziós függvény Yˆ értékét a későbbiekben tömören regressziónak nevezzük. A regresszió értékének az ismeretében egy adott X feltétel melletti Y értéktől való e eltérés: e = Y - Yˆ . 2 3
Mint látjuk, a tanulmányban a három változó vizsgálatán, és a háromváltozós modellen mást értünk. E{.} az argumentumban szereplő véletlen változó várható értékét Var{.} pedig a varianciáját jelöli.
ÖSSZEFÜGGÉSEK A LINEÁRIS REGRESSZIÓS MODELLBEN
887
Az e véletlen (maradék) változó feltételes várható értéke (lévén várható értéktől vett eltérés) definíció szerint zérus: E{ε|X} = 0. Ebből következően a véletlen változó várható értéke mindenféle értelemben – tehát feltételre való tekintet nélkül is – zérus. Mivel a magyarázó változó ismeretében a regresszió hivatott leválasztani az eredményváltozó várható értékét, a maradék jellegű véletlen hatás a magyarázó változóval definíció szerint korrelálatlan. Ezt a CX,e kovariancia zérus értéke fejezi ki: Cov{ X , e} = C X ,e = 0.
/1/
A regressziós modellben tehát az eredményváltozó kétféle komponens eredője. Egy a magyarázó változóval függvényszerű kapcsolatban levő, és a magyarázó változóval korrelálatlan hatás összege. A korrelálatlanságnak, valamint a linearitásnak a feltevése maga után vonja az alábbiak teljesülését. 1. Az eredményváltozónak a magyarázó változóval való kovarianciája – a kovariancia lineáris dekompozíciója alapján4 – megegyezik saját regressziójával vett kovarianciájával: C X ,Y = C X ,(Yˆ + e ) = C X ,Yˆ + C X ,e = C X ,Yˆ .
/2/
E kovariancia értékét a meredekség és a magyarázó változó varianciája együttesen alakítja:
C X ,Y = C X ,Yˆ = C X ,(b0 +b1 X ) = b1C X , X = b1s 2X .
/3/
2. A regresszió a véletlen változóval korrelálatlan:5 CYˆ ,e = C(b0 +b1 X ),e = b1C X ,e = 0 .
/4/
Az eredményváltozó feltétel nélküli varianciájának regressziós dekompozíciója ezek után /4/ alapján:
CY ,Y = sY2 = sY2ˆ + e = sY2ˆ + s e2 + 2CYˆ ,e = sY2ˆ + s e2 = CYˆ ,Yˆ + Ce,e =
/5/
= CYˆ ,(Y -e ) + Ce,(Y -Yˆ ) = CYˆ ,Y + Ce,Y ,
/6/
ahol sY2ˆ a regressziónak, s e2 pedig a véletlen változónak a feltétel nélküli varianciája. Mivel variancia nem lehet negatív, ezért az eredményváltozó sem a saját regressziójával, sem a véletlen változóval nem korrelálhat negatív irányban, hiszen /5/ és /6/ alapján CYˆ ,Y = sY2ˆ ³ 0 és Ce,Y = s e2 ³ 0 . 4 5
A tanulmány intenzíven támaszkodik a kovariancia lineáris dekompozíciójára, melyet a Függelék ismertet. A kovariancia invariáns a b0 konstanssal való eltolásra.
888
DR. HAJDU OTTÓ
Az előbbiek alapján lehetőségünk nyílik egyrészt a meredekség meghatározására, másrészt a modell és a valóság illeszkedésének a jellemzésére. A meredekség értéke /3/ alapján b1 =
C X ,Y
=
s 2X
C X ,Yˆ s 2X
.
/7/
Az illeszkedést jellemző determinációs együttható, az eredményváltozó varianciájából a regresszió által megmagyarázott hányad pedig /5/ és /6/ alapján 0 £ RY2. X =
s Y2ˆ s Y2
=
CYˆ ,Y CY ,Y
= 1-
s e2
sY2
= 1-
Ce,Y CY ,Y
£1.
/8/
E varianciahányados jellegű mutató egyben az eredményváltozó és a magyarázó változó közötti rX,Y lineáris korreláció négyzete, hiszen RY2. X =
sY2ˆ sY2
=
s (2b0 +b1 X ) sY2
= b12
s 2X sY2
= rX2 ,Y .
/9/
Ugyanakkor a determinációs együttható pozitív gyöke, a szóráshányados, tartalmilag az eredményváltozó és a regresszió közötti lineáris korreláció, mivel: RY . X =
sYˆ sY
=
CYˆ ,Y sYˆ sY
=
CYˆ ,Y sY sYˆ
= rYˆ ,Y .
/10/
A változók szerepének megcserélésével a determinációs együttható fölbontható az Y.X és X.Y modellek bY.X és bX.Y meredekségeinek a szorzatára: RY2. X = rX2 ,Y =
C X ,Y C X ,Y s 2X
sY2
= bY . X b X .Y .
Lévén 0 £ RY2. X £ 1 , ezért a kétféle meredekség előjele meg kell, hogy egyezzen, továbbá, ha egyikük nagyobb, mint 1, akkor a másik szükségszerűen kisebb egynél. A tengelymetszet meghatározása érdekében tekintsük az eredményváltozó modellezett értékét: Y = b0 + b1 X + e . Ebből az eredményváltozó feltétel nélküli eloszlásának várható értéke E{Y } = b0 + b1 X + E (e) = b0 + b1 X , ahol X a magyarázó változó átlagos szintje.
ÖSSZEFÜGGÉSEK A LINEÁRIS REGRESSZIÓS MODELLBEN
889
Mivel a meredekség adott, ezért a tengelymetszet kivonással: b0 = E{Y } - b1 X .
Végül a véletlen változó feltétel nélküli varianciája a determinációs együttható függvényében kifejezve: s e2 = sY2 (1 - RY2. X ) = sY2 (1 - rX2 ,Y ) .
/11/
Érdeklődésünket most három, rendre X,Y,Z változóra kiterjesztve, a páronkénti korrelációs kapcsolat – kétváltozós modellek használatával – háromféle párosításban vizsgálható.6 Tekintsük előbb az X és az Y változót külön-külön az X.Z és Y.Z kétváltozós modellekben rendre mint eredményváltozót, egyaránt a Z változóval magyarázva: Xˆ = b0 X + b X .Z Z = X - e X Yˆ = b0Y + bY .Z Z = Y - eY , ahol a definíció szerint Cov( Z , e X ) = Cov ( Z , e Y ) = 0 , és ebből következően Cov(Yˆ , e X ) = = Cov ( Xˆ , e ) = 0 is teljesül. Ezt kihasználva az X és Y változók közötti kovariancia toY
tális értéke értelemszerűen kétféle korrelációs kapcsolat eredője. Egyrészt a Z változó lineáris hatását reprezentáló várható értékek közötti, másrészt e lineáris hatástól tisztított e X és eY véletlen változók közötti kapcsolatra vezethető vissza: C X ,Y = C Xˆ ,Yˆ + C Xˆ ,e + CYˆ ,e + Ce X ,eY = C Xˆ ,Yˆ + C e X ,eY . Y
/12/
X
A kovariancia /12/ felbontását a kovariancia regressziós dekompozíciójának nevezzük.7 Ebből az e X és eY véletlen változók közötti kovariancia tartalmilag az ún. parciális kovariancia, melynek értékét számíthatjuk az eredeti változók közötti, nem tisztított páronkénti kovarianciák felhasználásával, az alábbiak szerint: Ce X ,eY = C X ,Y - C Xˆ ,Yˆ = C X ,Y - b X .Z bY .Z C Z , Z = C X ,Y = C X ,Y -
C X , Z CY , Z s Z2
.
C X , Z CY , Z s 2Z
s 2Z
s 2Z =
/13/
Ha valamennyi változó standardizált, akkor a parciális kovariancia a lineáris korrelációk felhasználásával is kalkulálható: Ce X ,eY = rX ,Y - rX , Z rY , Z . 6 A későbbiekben, ha pontosan három változót szerepeltetünk, akkor a könnyebb hivatkozás kedvéért mindhármukat külön, rendre X,Y,Z betűvel illetjük. 7 Vegyük észre, hogy ez a variancia /6/ felbontásának kiterjesztése.
890
DR. HAJDU OTTÓ
A parciális kovariancia értékét osztva a két véletlen változó /11/ formában kifejezett szórásainak szorzatával, definíció szerint az X és Y változók közötti parciális korrelációt kapjuk, melynek szokásos jelölése rX,Y.Z, értéke pedig:
rX ,Y .Z = re X ,eY =
C e X , eY s e X s eY
=
C X ,Y - C Xˆ ,Yˆ s e X s eY
=
rX ,Y - rX , Z rY , Z 1 - rX2 , Z 1 - rY2, Z
.
/14/
A TÖBBVÁLTOZÓS MODELL Az Y.X1,...,Xp (p+1) változós modell szerint a regresszió p számú magyarázó változó lineáris kombinációja: Yˆ = b0 + b1 X 1 + K + b p X p , ahol a bj (j=1,...,p) koefficiensek a parciális regressziós meredekségek. E meredekségeket úgy specifikáljuk, hogy a véletlen változó valamennyi (j=1,...,p) magyarázó változóval korrelálatlan legyen: Cov{ X j , e} = C X j ,e = C X
ˆ
j , ( Y -Y )
= C X j ,Y - C X
ˆ
j ,Y
=0
/15/
vagy átrendezve C X j ,Y = C X
ˆ
j ,Y
.
/16/
E követelmény mátrix formában
c XY
é C X ,Yˆ ù é C X1 ,Y ù ê 1 ú ú êC X Y , ê C X ,Yˆ ú = ê 2 ú = c XYˆ = ê 2 ú , ê M ú M ê ú ú ê êëC X p ,Yˆ úû êëC X p ,Y úû
/17/
ahol c XY és c XYˆ az egyes magyarázó változóknak az eredményváltozóval, illetve annak regressziójával vett kovarianciáit tartalmazó vektorok. A többváltozós modellre is érvényes tulajdonság tehát, hogy a véletlen változó a regresszióval nem korrelál: p
CYˆ ,e = å b j C X j ,e = 0 . j =1
A paraméterek értelmezése A bj paraméter azt az abszolút jellegű változást számszerűsíti, mely az eredményváltozó feltételes várható értékében – ceteris paribus – az Xj változó egységnyi abszolút vál
ÖSSZEFÜGGÉSEK A LINEÁRIS REGRESSZIÓS MODELLBEN
891
tozásának a hatására következik be. A bj paraméterek parciális értelmét megvilágítandó, a modellt az Y.X,Z és az Y.X formában háromváltozósra, majd kétváltozósra redukáljuk, és kapcsolatot teremtünk a megfelelő regressziós paraméterek között. Fejezzük ki az Y.X modell bY.X meredekségét az Y.X,Z bővített modell bX és bZ parciális meredekségeivel. A zéró kovarianciák elhagyásával bY . X =
C X ,Y s 2X
=
C X , (b 0 + b X X + b Z Z + e ) s 2X
= bX
CX ,X s 2X
+ bZ
C X ,Z s 2X
= b X + bZ bZ . X ,
/18/
ahol bZ.X a Z.X modell meredeksége. Tehát X egységnyi változásának az eredményváltozó várható értékére gyakorolt totális hatása egyrészt X parciális közvetlen b X hatására, másrészt a Z változón keresztül gyakorolt közvetett hatására vezethető vissza. A közvetett hatást bZbZ.X számszerűsíti, hiszen X egységnyi változásának totális hatása a Z változóra bZ.X, míg Z egységnyi változásának parciális közvetlen hatása az eredményváltozóra bZ. Az ilyen jellegű elemzést útelemzésnek nevezzük. A fentiek analógiájára az útelemzés kiterjeszthető az Y.X1,...,Xp általános modellre is. Például Xj és Y kapcsolatát tekintve:
bY . X j =
C X j ,Y
s 2X j
=
C X j ,(b0 +b1 X1 +...+b p X p + e)
s 2X j
= b1b X1. X j + ... + b p b X p . X j ,
/19/
ahol b X j . X j = 1 . A regressziós paraméterek tulajdonságai A parciális regressziós meredekségek értéke – a kétváltozós modell analógiájára – az eredményváltozónak a magyarázó változókkal való korrelációs kapcsolataira, továbbá a magyarázó változók egymás közötti korrelációs struktúrájára vezethető vissza. Tekintsük ugyanis a regressziós meredekségek függvényében a CX
ˆ
j ,Y
= C X j ,(b0 +b1 X1 +...+b p X p ) = b1C X j , X1 + ... + b p C X j , X p
kovarianciát, melyet valamennyi Xj (j=1,...,p) változóra meghatározva, majd a /17/ követelményből kiindulva és mátrixjelölést alkalmazva
c XY = c XYˆ = C XX β X , ahol a parciális meredekség vektora:
βX
é b1 ù êb ú 2 =ê ú, ê M ú ê ú ëêb p ûú
/20/
892
DR. HAJDU OTTÓ
a magyarázó változók (p,p) rendű szimmetrikus kovariancia mátrixa pedig:
C XX
é C X1 , X 1 êC X ,X =ê 2 1 ê M ê êëC X p , X1
C X1 , X 2 CX2,X2 CX p,X2
L
C X1 , Xp ù C X 2 , X p úú . ú O ú CX p ,X p ú û
Ekkor a /20/ azonosságból (feltéve, hogy CXX invertálható): 1 β X = C -XX c XY .
/21/
A parciális regressziós paraméterek ismeretében a tengelymetszet értéke (a véletlen változó zérus várható értéke mellett):
b 0 = E {Y } - b1 X 1 - K - b p X
p
.
Látható, hogy a változókat az Y c = Y - E{Y } és X cj = X j - X
/22/ j
módon centrálva a
tengelymetszet zérussá válik, viszont a parciális meredekségek nem változnak. A kovariancia invariáns ugyanis arra, hogy az eredeti változókra, vagy azok centrált változatára vonatkozóan határozzuk-e meg:
Y c = b1 X 1c + K + b p X cp + e . Ha viszont a változókat az Y * = Y c / sY és X *j = X *j / s X j módon standardizáljuk, akkor a parciális regressziós meredekségek megváltoznak:
Y * = a1 X 1* + K + a p X *p + e / sY , ahol a j = b j
sX j
az ún. standardizált regressziós meredekség. E paraméter jelentősége sY az, hogy az adott magyarázó változó fontosságát a többi magyarázó változó viszonylatában (mértékegységtől függetlenül) tükrözi. A parciális regressziós meredekségek standardizált változatának mátrix formában való (/21/ szerinti) meghatározása értelemszerűen a kovarianciák helyett a lineáris korrelációkat igényli -1 α X = R XX rXY .
/23/
A modell magyarázó ereje Mivel a centrált és a standardizált modell csak egy konstans sY szorzóban tér el egymástól, ezért a modell magyarázó erejét jellemző többszörös determinációs együttható invariáns a változók (valamennyi változó egyidejű) standardizálására. Értékét tehát kife
ÖSSZEFÜGGÉSEK A LINEÁRIS REGRESSZIÓS MODELLBEN
893
jezhetjük mind az eredeti mértékegységben értelmezett, mind pedig a standardizált regressziós paraméterek függvényében. Definíció szerint ugyanis (hivatkozva a /6/ azonosságra):
RY2. X 1 ,¼, X p =
C (b 0 + b1 X 1 + ... + b p X p ),Y s Y2
p
C X j ,Y
j =1
s Y2
= åb j
p
= å a j r X j ,Y .
/24/
j =1
A modell illeszkedését a magyarázó változók aj relatív súlyai, és az eredményváltozóval való korrelációik együttesen határozzák meg. Az Y.X,Z háromváltozós modellben közvetlen kapcsolat teremthető a többszörös determinációs együttható, valamint a kétváltozós totális és a parciális determinációs együtthatók között. Alkalmazzuk a speciális /18/ háromváltozós útelemzést a standardizált változókra az alábbi módokon (kihasználva, hogy standardizált változók esetén a kétváltozós modell meredeksége a lineáris korrelációval egyezik meg):
rX ,Y = a X + a Z rX , Z
/25/
rZ ,Y = a X rX , Z + a Z
/26/
amely mátrix formában felírva:
érX ,Y ù é 1 ê ú=ê ë rZ ,Y û ërX , Z
rX , Z ù éa X ù ú 1 û êë a Z úû
vagy általánosságban r = Rα ,
ahol az r vektor a magyarázó változóknak az eredményváltozóval vett korrelációit, az R mátrix a magyarázó változók egymás közötti páronkénti korrelációit, az α vektor pedig a magyarázó változók standardizált meredekségeit tartalmazza. A fenti egyenletrendszert a standardizált meredekségekre átrendezve (lásd a (2,2) rendű mátrix invertálására vonatkozó nevezetes szabályt):
éa ù é 1 α= R r= ê X ú = ê ë a Z û ërX , Z -1
rX , Z ù 1 úû
-1
érX ,Y ù 1 êr ú = 2 ë Z ,Y û 1 - rX , Z
é 1 ê- r ë X ,Z
- rX , Z ù érX ,Y ù , 1 úû êë rZ ,Y úû
melyből a standardizált meredekségekre az
aX = megoldás adódik.
rX ,Y - rZ ,Y rX , Z 1 - rX2 , Z
aZ =
rZ ,Y - rX ,Y rX , Z 1 - rX2 , Z
894
DR. HAJDU OTTÓ
E paraméterekkel a többszörös determinációs együttható (a /23/ és /24/ formulákat használva):8
RY2. X , Z = α T r = a X rX ,Y + a Z rZ ,Y = rT R-1 r =
=
rX2 ,Y + rZ2,Y - 2rX ,Y rZ ,Y rX , Z
= rX2 ,Y +
1 - rX2 , Z
= rX2 ,Y +
1 - rX2 ,Y (rZ ,Y - rX , Z rX ,Y ) 2 1 - rX2 ,Y
1 - rX2 , Z
(rZ ,Y - rX , Z rX ,Y ) 2 1 - rX2 , Z
=
= rX2 ,Y + (1 - rX2 ,Y )rZ2,Y . X ,
/27/
ahol rZ2,Y . X a /14/ formulának megfelelően a Z és Y változók közötti parciális korreláció négyzete. Analóg módon az
RY2. X ,Z = rZ2,Y + (1 - rZ2,Y )rX2 ,Y .Z
/28/
felbontás is teljesül. A /27/ és /28/-ból a parciális determinációs együttható más alakokban
rZ2,Y . X = rX2 ,Y .Z =
RY2. X , Z - rX2 ,Y
/29/
1 - rX2 ,Y
RY2. X , Z - rZ2,Y 1 - rZ2,Y
.
/30/
Látható, hogy a parciális determinációs együttható azt számszerűsíti, hogy a Z magyarázó változónak az X magyarázó változó után való bevonása a modellbe (a kétváltozós modell háromváltozóssá bővítése) milyen arányban csökkenti az eredményváltozó varianciájából az X változó által meg nem magyarázott hányadot. Vegyük észre továbbá, hogy mivel a parciális determinációs együttható (lévén négyzetszám) nem lehet negatív, ezért a modell további magyarázó változóval való bővítésekor a többszörös determinációs együttható sohasem csökkenhet. A korábbi szinten csak akkor marad, ha az újonnan bevonandó magyarázó változónak az eredményváltozóval való parciális korrelációja zérus. A parciális determinációs együttható értéke alapján a parciális korreláció irányára, előjelére vonatkozóan még nincs információnk. A háromváltozós modellben definiált /14/ parciális korreláció azonban lehetővé teszi bármilyen többváltozós modell esetén is a parciális korreláció meghatározását, ha kijelöljük a kérdéses Y eredmény- és X magyarázó változót, miközben Z az összes többi változó együttesét jelöli. A változók standardizált formáját használva, tekintsük az
Xˆ = a1X Z1 + ... + a qX Z q = X - e X modelleket. 8
A T felső index az illető mátrix (vektor) transzponáltját jelöli.
Yˆ = a1Y Z1 + ... + a qY Z q = Y - eY
ÖSSZEFÜGGÉSEK A LINEÁRIS REGRESSZIÓS MODELLBEN
895
E modellekre (lásd a Függeléket, valamint a parciális meredekségek /23/ alatti meghatározását):
(
C Xˆ ,Yˆ = α TX R ZZ α Y = R -ZZ1 rXZ
) R (R T
ZZ
-1 ZZ rYZ
)= r
T -1 XZ R ZZ rYZ
ahol az rYZ vektor az Y változónak valamennyi Z változóval, az rXZ vektor az X változónak valamennyi Z változóval, az RZZ mátrix pedig a Z változók egymással vett páronkénti korrelációit tartalmazza. Ekkor, a parciális korreláció /14/ definíciója szerint:
rX ,Y .Z1 ,..., Z q = rX ,Y .Z = re X ,eY =
rX ,Y - C Xˆ ,Yˆ 1 - R X2 .Z 1 - RY2.Z
T R -ZZ1 rYZ rX ,Y - rXZ
=
1 - R X2 .Z 1 - RY2.Z
,
/31/
ahol R X2 .Z és RY2.Z az Y.Z1,...,Zq és X.Z1,...,Zq modellek többszörös determinációs együtthatói. Amennyiben csak egyetlen Z változót definiálunk, úgy a fenti formula a /14/ képletre egyszerűsödik. A parciális korreláció a változók számától függetlenül, mindig számolható a klaszszikus, háromváltozós /14/ formulával, egy lépéssorozat eredményeképpen. Például négy változó (rendre X,Y,U,Z) esetén az rX,Y.U,Z parciális korreláció meghatározása az alábbiak szerint is végrehajtható. Szűrjük ki előbb U lineáris hatását az összes többi változóból, majd az eredményül kapott három parciális korrelációt tisztítsuk meg Z lineáris hatásától:
rX ,Y .Z ,U =
rX ,Y .U - rX , Z .U rY , Z .U 1 - rX2 , Z .U 1 - rY2, Z .U
.
/32/
Mivel /27/ és /28/ értelmében a parciális determinációs együttható a többszörös determinációs együttható relatív növekményét jellemzi a vonatkozó változóval történő bővítés hatására, ezért a parciális korreláció /32/ formulájának az alkalmazásával bármilyen modell többszörös determinációs együtthatója fölépíthető a kétváltozós modelléből kiindulva. REZIDUÁLIS KÖVETELMÉNYEK A PARAMÉTERBECSLÉS TÜKRÉBEN Végezzünk i=1,…,n számú megfigyelést az eredményváltozóra vonatkozóan, a magyarázó változók rögzített xi=[Xi1,...,Xij,...,Xip]T értékei mellett. Az így nyert y=[y1,...,yi,...,yn]T minta alapján becsüljük a parciális meredekségeket, és a becsléseket a bX=[b1,...,bj,...,bp]T vektorba foglaljuk.9 Ha szerepel a modellben tengelymetszet, akkor ennek becsült értéke b0. 9
A mintavétel módjára egyáltalán nem, a becslési módszerre pedig egyelőre nem teszünk megszorítást.
896
DR. HAJDU OTTÓ
A modell által a mintából meg nem magyarázott e=[e1,...,ei,...,en]T reziduális (maradék) részek figyelembe vételével: y = Xb + e ,
/33/
ahol az X mátrix i-edik sora [1,Xi1,...,Xij,...,Xip] és b=[b0,b1,...,bj,...,bp]T lesz.10 A lineáris regresszió a változók mintán belüli átlagos értékeire is fennáll: p
y = b0 + å b j X j + e ,
/34/
j =1
ahol y = 1
n y , és e értéke a paraméterek birtokában kivonással adódik. n åi =1 i A b paraméterek becslési módszerét annak függvényében választjuk meg, hogy az ei reziduumokkal szemben milyen követelményeket támasztunk.
A korrelálatlansági kritérium Amennyiben a magyarázó változók bármelyikével korrelálatlan reziduum az elvárásunk, ez független attól, hogy becsülünk-e tengelymetszetet vagy sem. A korrelálatlansági követelménynek mindig eleget teszünk, ha a parciális meredekségeket – /21/ analógiájára – a b X 0 = C -XX1 c Xy
/35/
formulával becsüljük, ahol
c Xy
éCX ,y ù ê 1 ú =ê M ú. êC ú ëê X p , y ûú
Ez esetben a tengelymetszet becsült értéke annak függvénye, hogy a reziduumok átlagára milyen megkötést teszünk. Ha elvárás, hogy a reziduumok átlaga zérus legyen, akkor a /34/ összefüggésből a tengelymetszetre
b00 = y - b1 X 1 - K - b p X p adódik. Amennyiben a tengelymetszet értékét másképp választjuk meg, úgy e ¹ 0 .
A legkisebb négyzetek kritérium Ha viszont célunk a reziduális négyzetösszeg minimálása, akkor ez a célfüggvény – mint az közismert – az XTe=0 normálegyenletrendszer teljesülése esetén minimált. Ennek 10
Ha a modell nem tartalmaz tengelymetszetet, akkor b = b X és az X mátrix oszlopaiból elhagyjuk az összegző vektort.
ÖSSZEFÜGGÉSEK A LINEÁRIS REGRESSZIÓS MODELLBEN
897
tudatában a /33/ azonosság mindkét oldalát balról szorozva az XT mátrixszal, majd átrendezve az egyenletet az ( X T X ) -1 X T y becslőfüggvényt kapjuk, melynek eredménye b, ha a modell tartalmaz tengelymetszetet, és bX ha nem.11 Látható, hogy a normálegyenletrendszer kizárólag akkor ekvivalens a korrelálatlansági követelménnyel, ha a modell tartalmaz tengelymetszetet. Ekkor ugyanis e = 0 , és ebből következően: XTe = n×cXe = 0. Ebben az esetben természetesen [b00, bX0] = b, egyébként viszont bX0 ¹ bX. Ha tehát nem indokolt a tengelymetszet elhagyása, úgy szerepeltetésével egyidejűleg minimáljuk a reziduális négyzetösszeget, és a magyarázó változókkal korrelálatlan reziduumokat biztosítunk. FÜGGELÉK A KOVARIANCIA LINEÁRIS DEKOMPOZÍCIÓJA Tekintsük az Xj centrált (átlagtól vett eltéréssel helyettesített) változók a j súlyokkal definiált X=
p
åajX j j =1
és az Yt változók bt súlyokkal képzett q
Y = å bt Yt t =1
lineáris kombinációit. Ekkor az X és Y változók közötti (i=1,…,N megfigyelés alapján számított) CX,Y kovariancia felírható, mint az Xj és Yt változók közötti kovarianciák lineáris kombinációja, az alábbi módon: C X ,Y =
1 N
N
å X i Yi
i =1
=
p
q
å å a j b t C X j ,Y t j = 1t = 1
vagy mátrix jelöléssel bi-kvadratikus formában: CX,Y = aT CXY b , ahol a és b a súlyokat tartalmazó vektorok, CXY pedig az Xj és Yt változók közötti kovarianciákat tartalmazó (p,q) rendű, tehát nem föltétlenül szimmetrikus mátrix.
IRODALOM GREEN, H. (1993): Econometric analysis. Macmillan, New York. HAJDU O. – HERMAN S. – PINTÉR – RAPPAI G.– RÉDEY K. (1994): Statisztika I-II. Janus Pannonius Tudományegyetem, Pécs. 11 Természetesen a tengelymetszetet tartalmazó modell minimált reziduális négyzetösszege kisebb (nem nagyobb), mint a tengelymetszet nélkül specifikált modell minimált reziduális négyzetösszege.
898
DR. HAJDU OTTÓ
HAJDU O. – HUNYADI L. – VITA L. (2001): Statisztikai elemzések. Egyetemi jegyzet. Aula, Budapest. HUNYADI, L. (2001): Statisztikai következtetéselmélet közgazdászoknak. Központi Statisztikai Hivatal, Budapest. HUNYADI L. – MUNDRUCZÓ GY. – VITA L. (1996): Statisztika. Aula, Budapest. KERÉKGYÁRTÓ GY-NÉ – MUNDRUCZÓ GY. –SUGÁR A. (2001): Statisztikai módszerek és alkalmazásuk a gazdasági, üzleti elemzésekben. Aula, Budapest. KÖVES, P. – PÁRNICZKY, G. (1982): Általános Statisztika I-II. (3. átdolgozott kiadás). Közgazdasági és Jogi Könyvkiadó, Budapest. MUNDRUCZÓ, GY. (1981): Alkalmazott regressziószámítás. Akadémiai Kiadó, Budapest. MYERS, R. (1990): Classical and modern regression with applications. 2nd PWS-KENT, Boston. WEISBERG, S. (1985): Applied linear regression. Wiley, New York.
SUMMARY The paper discusses the structure of the linear regression model. The focus is on the initial assumption of an error term uncorrelated with the explanatory variables. The main question is what further model properties can be derived assuming merely an error term that meets the initial requirement. The paper shows that several 2
basic model parameters such as regression coefficients, multiple R and partial correlation coefficients can also be defined as model components analogous to those calculated from the sample. Further, the study highlightes the meaning of the parameters. Finally, the paper investigates the similarities and differences between the estimators of the regression coefficients, based on the one hand on an uncorrelated error term and on the other hand on a least squares residual term.