Tartalom
Tartalomjegyzék 1. Jelölési konvenciók
1
2. Lineáris regresszió 2.1. Út a lineáris regresszióhoz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Regresszió kétváltozós esetben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Többváltozós lineáris regresszió . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 3 7 10
3. Az OLS működése
14
4. A többváltozós lineáris regressziós modell minősítése
17
5. Parciális korreláció és standardizált regresszió 18 5.1. Parciális korreláció . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.2. Standardizált regresszió . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 A cím arra utal, hogy egyelőre nem foglalkozunk annak a következményeivel, hogy az adatbázisunk csak egy nagyobb sokaságból vett minta, így a belőle számolt jellemzők nem (csak) a valóságot tükrözik, hanem ki vannak téve annak hatásának is, hogy konkrétan hogyan választottuk ki a mintát a sokaságból. Ehelyett, egyelőre úgy tekintjük, hogy a kezünkben lévő minta tökéletesen írja le a valóságot, a belőle számolt jellemzők „a” keresett értékek. Ez tehát azt jelenti, hogy egyelőre nem foglalkozunk a modelleink mintavételi vonatkozásaival (illetve általában a valószínűségelméleti megalapozásukkal).
1. Jelölési konvenciók Az lakásár adatbázis madártávlatból – gretl-ben
Ez az I. esettanulmány adatbázisa gretl-ben megnyitva.
1
Változók körei • Az ökonometriában mindig szisztematikusan megkülönböztetjük az eredmény- és a magyarázó jellegű változókat: mi hat mire? • Most mindig egy eredményváltozót (endogén vagy függő változót) feltételezünk, jele: y, és több magyarázó változót (exogén vagy független változót), jelük: xi , i = 2, 3, . . . , k • Figyelem: az első magyarázó változó tehát a 2 alsó indexet viseli (ennek okát később látni fogjuk), így a magyarázó változók száma k − 1 • A valóságban gyakran nem lehet ilyen „vegytisztán” csoportosítani a változókat (bonyolultabban terjednek a hatások), ez vezet el a többegyenletes ökonometriához Ebben a megkülönböztetésben a kauzalitás hangsúlyos nyomon követése tükröződik, ami az ökonometriai modellek egyik fontos, sajátos jellemzője (azaz más diszciplínákban nem, vagy csak kisebb hangsúlyt kap a regressziószámítás kapcsán). A megkülönböztetés hangsúlyozását elvi szempontok diktálják, statisztikailag sok esetben nincs jelentősége a kérdésnek. Például kétváltozós regresszió esetén tökéletesen ugyanaz marad minden modelljellemző, ha az eredményés a magyarázóváltozót megcseréljük. (A konkrét paraméterek természetesen módosulnak.) Ezt a kérdést fordított regresszió néven tárgyalja az irodalom. Általában is elmondható, hogy regressziószámítás esetén mindig az oksági kapcsolatok (és a feltételezett véletlen hatások) alapján kell az eredményváltozót kijelölni (és nem például a tervezett előrejelzési irány alapján). Egy konkrét regressziós feladat vonatkozásában talán nem tűnik igazi megszorításnak, hogy csak egyetlen eredményváltozót tekintünk. (Mondván, hogy ha több változót is akarunk modellezni, akkor legfeljebb több modellt építünk. Ez azonban figyelmen kívül hagyja az így használt eredményváltozók közti esetleges kapcsolatokat.) Egy komolyabb modellezési feladatban viszont nagyon is elképzelhető, hogy több, egymástól nem függetleníthető változónk van, melyeket szeretnénk, hogy a modellünk határozzon meg. (Erre jó példa az ár és a mennyiség valamely piacon, melyek nyilvánvaló, hogy kölcsönösen hatnak egymásra.) Ennek következtében ezeket egymástól „izoláltan” becsülni nem lehet, olyan modellt kell építeni, mely több endogén változót tartalmaz. Szokás ezt emiatt többegyenletes modellnek is nevezni; jellemzőik alapján beszélhetünk rekurzív, szimultán, széteső stb. többegyenletes modellekről, ez azonban túlmutat jelen kurzus keretein. Mátrixalgebrai jelölési konvenciók • Sok szempontból célszerű ezt az adatbázist egy mátrixként felfogni. Jelölés (Mintanagyság, mintaméret). A minta nagyságát (tehát a megfigyelési egységek számát) általában n-nel jelöljük. • Ahogy a gretl-ös output is sugallta, a magyarázó változókat célszerű egy n × (k − 1) típusú mátrixba, az eredményváltozókat pedig egy n hosszú (oszlop)vektorba összefogni A mintanagyság jele angol szakirodalomban néha inkább T . Követjük azt a konvenciót, hogy ha pusztán vektort mondunk, az alatt mindig oszlopvektort értünk. Ha sorvektorról van szó, akkor explicite jelöljük a transzponálást. Emlékeztetünk rá, hogy vastagon szedett kisbetűvel vektort, nagybetűvel mátrixot jelölünk. Már most megjegyezzük, hogy a mintavételi vonatkozások bevezetésekor a jelölési rendszer tovább 2
fog bonyolódni, így ott majd külön kitérünk erre a kérdésre, és részletesen tárgyaljuk a célszerű jelölési konvenciót. A kurzus egésze során törekszünk arra, hogy következetesen alkalmazott mátrixos (vektoros) jelölésrendszerben prezentáljuk az ökonometriát. Mátrixalgebrai jelölési konvenciók: eredményváltozó Az eredményváltozó (a mi példánkkal együtt): y1 10,7 y2 10,0 yn×1 = [yi ] = . = . .. .. yn 32,5
Mátrixalgebrai jelölési konvenciók: magyarázó változók A magyarázóváltozók (a mi példánkkal együtt): h i h iT e n×(k−1) = xi(k+1) = [x2 , x3 , . . . , xk ] = x1 , x2 , . . . , xn = X x12 x13 · · · x1k 32 0 ··· 0 0 · · · 0 x22 x23 · · · x2k 32 = = .. .. .. .. . .. .. .. . . .. . . . . . xn2
xn3
···
xnk
116
8,6
···
1
Hamarosan világossá fog válni, hogy miért használtunk hullámot a változó elnevezésére. Vegyük észre, hogy a magyarázó változók mátrixának oszlopait (azaz az egyes magyarázó változókat) alsó, a sorait (azaz az egyes megfigyelési egységeket) pedig felső indexszel jelöljük. A vektorok és a mátrixok méreteit a későbbiekben már általában nem fogjuk kiírni explicite; ha így teszünk, akkor úgy értjük a méreteket, hogy a műveletek elvégzéséhez konformak legyenek.
2. Lineáris regresszió 2.1. Út a lineáris regresszióhoz A lineáris regresszió sok módon bevezethető, mi most egy meglehetősen természetes irányból fogunk közeledni: azt mutatjuk meg, hogyan juthat az ember erre a gondolatra akkor, ha adatbázisok strukturálódását igyekszik feltárni. Néhány általános gondolat elöljáróban • A lineáris regresszió a „legfontosabb” módszerek egyike az alkalmazott statisztikában • A legtipikusabb eszköze empirikus adatok kvantitatív elemzésének • Majdnem minden terület (biostatisztikai, pszichometria, mérnöki tudományok stb.) használja (az ökonometrián túl) • Egyelőre deskriptív megközelítés (mintavételi vonatkozások, valószínűségelméleti megalapozás később) 3
• Elsőként pár definíciót ismétlünk meg (inkább csak a jelölésrendszer egyértelműsítése érdekében) Alapvető deskriptív mutatók: átlag Jelölés (Összegzővektor). Összegzővektornak nevezzük, és 1-gyel jelöljük azt a vektort, melynek minden eleme 1: T 1 = [1, 1, . . . , 1] . Definíció (Átlag). Legyen x egy változó, xi (i = 1, 2, . . . , n) megfigyelésekkel. Ekkor x változó átlagának (jelben: x) a következő értéket nevezzük: Pn xi 1 x = i=1 = 1T x. n n Alapvető deskriptív mutatók: variancia, szórás Definíció (Szórásnégyzet, variancia). Egy x változó szórásnégyzetének, más szóval varianciájának (jelben: var (x)) a következő értéket nevezzük: Pn 2 (xi − x) var (x) = i=1 . n Definíció (Szórás). Egy x változó szórásának (jelben: sd (x)) a szórásnégyzetéből (varianciájából) vont négyzetgyököt nevezzük: p sd (x) = var (x). Ez itt természetesen a szórásnégyzetet sokasági definíciója. Ha mintából kívánunk varianciát becsülni, akkor van rá jobb becslőfüggvény! (Ez ugye torzított.) Néhány megjegyzés a szórásnégyzethez Definíció (Változó centrálása). Egy x változó centráltjának (jelben: xc ) az alábbi változót nevezzük: xc = x − x1, azaz [xc ]i = xi − x. Ezzel a szórásnégyzet felírása: Pn 2 (xi − x) 1 1 T var (x) = i=1 = (x − x1) (x − x1) = xcT xc . n n n
A Steiner-tétel Állítás (Steiner-tétel). n n X 1X 1 2 2 2 (xi − c) = (xi − x) + (x − c) n i=1 n i=1 Következmény. n
1X 2 min (xi − c) = var (x) c n i=1 n
arg min c
1X 2 (xi − c) = x. n i=1 4
Többváltozós adatelemzés • Lépjünk tovább több dimenzióra: többváltozós adatbázisoknál kulcskérdés az adatok közötti kapcsolatok vizsgálata is • Egy igen gyakran használt, praktikus eszköz a szóródási diagram (scattergram vagy scatterplot) 200 180 160
KinArMFt
140 120 100 80 60 40 20 0 100
200
300
400
500
Terulet
A szóródási diagram két változó kapcsolatának szemléltetésére alkalmas. A szóródási diagramon minden megfigyelési egységnek egy pontot feleltetünk meg a síkban, úgy, hogy a pont egyik koordinátája az egyik, a másik a másik változó szerinti értéke a megfigyelési egységnek. Változók sztochasztikus kapcsolata I. Az előző ábra már sugallja a változók sztochasztikus kapcsolatának fogalmát Definíció (Sztochasztikus kapcsolat). Két változó sztochasztikus kapcsolatban van egymással, ha az egyik (saját) átlaga feletti értékei tendenciaszerűen a másik (saját) átlaga feletti értékeivel járnak együtt (pozitív kapcsolat) vagy fordítva, átlag feletti értékek átlag alatti értékekkel (negatív kapcsolat). Változók sztochasztikus kapcsolata II. Mit jelent az, hogy „tendenciaszerűen”? → egyelőre fogadjuk el intuitívan, később pontosítjuk 250
KinArMFt
200
150
100
50
0 100
200
300 Terulet
A sztochasztikus kapcsolat erőssége • Vessük össze az előző szóródási diagramot ezzel:
5
400
500
180 160 140
KinArMFt
120 100 80 60 40 20 0 0
10
20
30
40
50
Terasz
• Kvalitatíve eljutunk a kapcsolat erősségének fogalmához A kapcsolat erősségének kvantifikálása Most ezt a fogalmat fogjuk matematikai szabatossággal megragadni: Definíció (Kovariancia). Legyen x és y két változónk, a rájuk vonatkozó megfigyeléseket jelölje xi és yi (i = 1, 2, . . . , n). Ekkor x és y kovarianciájának a következő értéket nevezzük: Pn 1 i=1 (xi − x) (yi − y) = xcT yc . cov (x, y) = n n Érdemes az előző ábrára visszatekintve végiggondolni, hogy miért valóban a kapcsolat erősségét fogja meg! Ismét csak: ez a kovariancia sokasági definíciója. Pár hozzáfűznivaló a kovariancia fogalmához Tulajdonság. Az önkovariancia (tehát egy változó önmagával vett kovarianciája) a változó varianciája: cov (x, x) = var (x) . Tulajdonság. A kovariancia abszolút nagysága legfeljebb a két változó szórásának szorzata lehet: cov (x, y) ≤ sd (x) · sd (y) . Mi a baj a kovarianciával? • Nem tudjuk a kapcsolat szorosságát ebből az egyetlen számból megítélni (csak az irányát) → a cov (KinAr, Terulet) = 712,1 most „sok” vagy „kevés”. . . ? • Ám kihasználva az előző tulajdonságot, bevezethetünk egy új mutatót (viszonyítunk, relatíve a maximális értékhez) Definíció (Lineáris korrelációs együttható). Legyen x és y két változó, ekkor a (lineáris) korrelációs együtthatójuknak a következő értéket nevezzük: corr (x, y) =
6
cov (x, y) sd (x) · sd (y)
A korreláció értelmezhetősége Tulajdonság. Tetszőleges x és y változókra −1 ≤ corr (x, y) ≤ 1. • A corr (KinAr, Terulet) = 0,86 mindjárt informatívabb! (corr (KinAr, Terasz) = 0,55!) • A korreláció abszolút értéke a kapcsolat erősségét jelzi, előjele pedig annak irányát Pár hozzáfűznivaló a korreláció fogalmához Definíció (Változó standardizálása). Legyen x egy változó, xi (i = 1, 2, . . . , n) megfigyelésekkel. Ekkor a változó standardizáltjának (jelben: xz ) az alábbi változót nevezzük: xz =
x − x1 xc = , sd (x) sd (x)
azaz [xz ]i =
xi − x . sd (x)
Ezzel: corr (x, y) = cov (xz , yz ) , azaz corr (x, y) =
1 T x yz . n z
2.2. Regresszió kétváltozós esetben A korreláció mélyebb tartalma • Aránylag könnyen észrevehető, hogy a kapcsolatszorosságra ilyen módon definiált korreláció épp azt méri, hogy „mennyire egy egyenes körül” szóródnak az adatok • Megj.: itt természetesen nem nulla meredekségű egyenest értünk • Szemléletesen: KinArMFt versus Terulet (with least squares fit) 250
Y = -4,31 + 0,400X
KinArMFt
200
150
100
50
0 100
200
300
400
500
Terulet
Regressziós egyenes • „Az egyenes” értelemszerűen a legjobban illeszkedő egyenes • Kvantifikáljuk ezt: azon egyenes, amely a legjobban illeszkedik az adatainkhoz, analitikusan meghatározható • Ez lesz a regressziós egyenes → ez egy ökonometriai modell! (torzított lényegkiemelés!) • Mire jó? → mint minden ökonometriai modell, két célra alkalmazható: 7
– Elemzés (→ pl. meredekség) – Előrejelzés (→ kínálati ár becslése terület alapján) Torzított, hiszen az egyes pontokban általában nem pont ott húzódik az egyenes, ahol a pont van; a lényeget ragadja meg, mert alapjaiban azért visszaadja az eredményváltozó alakulását; és lényeget kiemelő jellegű, hiszen 1406 szám helyett mindössze 2 (!) számmal éri el ezt a – meglehetősen jó – leírását az eredményváltozó alakulásának. A regressziós egyenes leírása • Ha csak két változónk van (egy eredmény és egy magyarázó!), akkor az egyenest két paraméter írja le • Egy célszerű formátum (a megfigyelési egységek szintjén): ybi = βb1 + βb2 x2i Jelölés. A kalap (b.) becsült értékre utal (akár olyan értelemben, hogy minta alapján becsült, akár olyan értelemben, hogy modell alapján becsült – az előző egyenlet mindkettőre mutat példát). • Az egész adatbázisra felírva: b = βb1 1 + βb2 x2 y A regressziószámításban (annak ellenére is, hogy a változók szerepe ebben az egyszerű kétváltozós esetben könnyen megcserélhető lenne) sokkal világosabban kifejeződik az oksági hatások feltételezett iránya, mint a teljesen szimmetrikus korrelációszámításban. Lásd még a kauzalitás kapcsán mondottakat! Az illeszkedés jellemzése • Alkalmazzuk az egyenest az adatbázisunk megfigyelési egységeinek előrejelzésére • Az egyes pontokban hibázhatunk: Definíció (Reziduum). u bi = yi − ybi • Az egész adatbázisra: b =y−y b u • Más szóval: b+u b = βb1 1 + βb2 x2 + u b y=y Már itt megjegyezzük, hogy ez a fajta hiba-definíció (lévén, hogy ugyanazokkal az adatokat minősíti a modellt, amit annak becslésére is felhasznált) csak korlátozottan alkalmas a modell általánosítóképességének a jellemzésére. Az általánosítóképesség kérdésével később fogunk foglalkozni. Az a későbbiekben válik nyilvánvalóvá, hogy a reziduumot miért kalapos betűvel jelöltük.
8
Hagyományos legkisebb négyzetek (OLS) módszere • Mit értünk „legjobban illeszkedő” alatt? • Most ezt legkisebb négyzetes értelemben tekintjük, azaz azt nevezzük legjobban illeszkedő egyenesnek, melyre az ESS =
n X
u b2i
T
=u u=
i=1
n X
2
T
b) (y − y b) (yi − ybi ) = (y − y
i=1
ún. eltérés-négyzetösszeg minimális • Miért kell a négyzetreemelés? • A reziduum jellemzi a hibát egy pontban, az ESS az egész adatbázisra vonatkoztatva • Azt a becslési eljárást, mely az adatbázis alapján megkeresi az ilyen értelemben legjobban illeszkedő egyenest, hagyományos legkisebb négyzetek (OLS) módszerének nevezzük OLS kétváltozós esetben • Az OLS tehát az adatbázis alapján két paramétert kell becsüljön: β1 -t (neve: tengelymetszet, konstans, intercept) és β2 -et (meredekség, slope) • Ezeket regressziós koefficienseknek nevezzük; a sokasági („valódi”) értékük (pl. β1 ) neve c1 ) neve elméleti (vagy sokasági) regressziós koefficiens, a mintából becsült értékük (pl. β becsült regressziós koefficiens • Az OLS tehát ezt az optimalizációs problémát oldja meg: T b) (y − y b) = βb1 , βb2 = arg min ESS = arg min (y − y b1 ,b2
b1 ,b2
T = arg min y − (b1 1 + b2 x) y − (b1 1 + b2 x) b1 ,b2
A minimum-képzés változóját (a futóváltozót) azért jelöltük b1 , b2 -vel, hogy véletlenül se legyen összekeverhető βb1 , βb2 -val, ez utóbbi ugyanis már az előbbi optimális értéke. OLS kétváltozós esetben • A példánkban (kínálati ár modellezése terület alapján) az OLS a következő koefficienseket szolgáltatja: βb1 = −4,312 βb2 = 0,4002 • Az OLS azt garantálja számunkra, hogy ezzel a két együtthatóval a minimális az ESS → garantálja, hogy bármilyen más értékpárt választva romlana (de legalábbis nem javulna az ESS). . . • . . . hogy ez miért van így (és egyáltalán, hogyan oldja meg az optimalizációt), azzal az általános esetnél foglalkozunk 9
2.3. Többváltozós lineáris regresszió Az előzőek általánosítása • Két változó kapcsolatában ez (a regressziós egyenes bevezetése) még nem bír sok gyakorlati jelentőséggel • Általánosítsunk több változóra! • Ezt abból kiindulva végezzük el, hogy a linearitást meg kívánjuk tartani. . . • . . . azaz továbbra is a magyarázó változók lineáris kombinációjaként kívánjuk előállítani az eredményváltozót: b = βb1 1 + βb2 x2 + βb3 x3 + . . . + βbk xk . y • Három változó (két magyarázó változó) esetén még megpróbálkozhatunk szemléltetéssel n Általában regressziónak azt a feladatot nevezzük, amikor egy yi , xi i=1 minta alapján az azt (pontosabban a sokasági megfelelőjét) leíró „legjobb” y = f xi : Rk−1 → R függvényt keressük (a jóság valamilyen mértéke szerint). Az itt szereplő kikötés tehát lényegében azt jelenti, hogy ezt a keresést leszűkítjük a lineáris függvények terére. E függvények viszont már egyértelműen felírhatóak egységes algebrai alakban, ahogy fent is szerepel. Háromváltozós regresszió
300 250 200 150 KinArMFt 100 50 0
200 150 100 Terasz 50 0
50
100
150
200
250
300
350
400
450
500
Terulet
Háromváltozós regresszió • Itt a magyarázó változók egy adott értéke nem egy pont a számegyenesen, hanem egy pont a síkon (az ábrán a „vízszintes” síkon), az adott ponthoz tartozó eredményváltozót pedig „függőlegesen” mérjük fel • 3 dimenziós pontfelhőt kapunk, ahol a regressziós egyenes helyébe regressziós sík lép Több változó esetén a regressziós sík helyett regressziós hipersíkról beszélhetünk; ez – értelemszerűen – már semmilyen módon nem vizualizálható. Ilyenkor általában azzal a trükkel élnek, hogy a sokdimenziós pontfelhőt levetítik minden lehetséges koordinátapárra, ilyen módon kétdimenziós
10
szóródási diagramok sokaságát kapják. (Például a hárdomdimenziós esetben az x − y, x − z és y − z síkokra, azaz „le-fel”, „jobbra-balra” és „szembe-hátra” irányokba lehet vetíteni a pontfelhőt, ilyen módon három darab, kétdimenziós szóródási diagramot előállítva.) Ezekből az ábrákból persze még elméletileg sem rekonstruálható az eredeti pontfelhő (ahogy egy szóródási diagram sem állítható vissza két hisztogramból), de szemléltetés céljára ez a leggyakrabban alkalmazott módszer. Megjegyezzük továbbá, hogy akárhány magyarázó változónk is van, létezik egy adatsor ami mindenképp egy dimenziós: a reziduumok sorozata. Éppen ezért ennek vizsgálata (akár önmagában (azaz eloszlására), akár például kiválasztott magyarázóváltozókkal szemben) fontos szerepet játszik sok változó használata esetén. A többváltozós lineáris regresszió • 3-nál több változó esetén már végképp nincs szemléletes tartalom → analitikus módszer kell • Továbbra is az OLS használjuk (csak algebrailag bonyolódik) • A megoldást tehát az alábbi alakban keressük: b = βb1 1 + βb2 x2 + βb3 x3 + . . . + βbk xk . y • Megfigyelési egységek szintjén: ybi = βb1 + βb2 xi2 + βb3 xi3 + . . . + βbk xik . • Az OLS szolgáltatja tehát a βbi becsült regressziós koefficienseket (megbecsli őket a minta alapján) A többváltozós lineáris regresszió • A példánkban: c1 = −7,19 β βbT erulet = 0,30 βbT erasz = −0,35 βbSzoba = 1,18 .. . βbDeliT aj = 1,40 • Ismét csak: az OLS garantálja, hogy ezzel érjük el a legkisebb ESS-t, bármilyen más paraméter-választás mellett nőne (de legalábbis nem csökkenne) az ESS Többváltozós jelölési konvenciók • Gondolva a b = βb1 1 + βb2 x2 + βb3 x3 + . . . + βbk xk y
11
felírásra, logikus, hogy a jövőben az h i e = [1, x2 , x3 , . . . , xk ] = Xn×k = 1, X 1 x12 x13 · · · x1k 1 x22 x23 · · · x2k = . .. .. .. .. . . . . . . 1 xn2 xn3 · · · xnk mátrixot vegyük alapul • Neve: design mátrix Többváltozós jelölési konvenciók • Következő lépésben a regressziós koefficienseket is fogjuk össze egy (oszlop)vektorba: h iT b= β c1 , β c2 , β c3 , . . . , β ck β • Ezzel még rövidebben írhatóak az eddigiek: b b = Xβ, y és b +u b+u b = Xβ b, y=y b b =y−y b = y − Xβ azaz u A modellünk használata: elemzés (meredekség) • A paraméterek értelmezésével elemezhetjük a modellünket; kérdéseket válaszolhatunk meg a modellezett jelenségről • A meredekségek egyszerű értelmezése: ha a vizsgált magyarázó változó egy egységnyivel nagyobb lenne c. p., akkor modellünk szerint várhatóan hány egységnyit változna az eredményváltozó • Hiszen: βb1 + βb2 xi2 + . . . + βbl (xil + 1) + . . . + βbk xik = = βb1 + βb2 xi2 + . . . + βbl xil + βbl + . . . + βbk xik = ybi + βbl . • Figyelem: – Ceteris paribus – Mindegyik változót a saját egységében mérve – Abszolút változásokat kapcsol össze • Később precízebben is értelmezzük a meredekséget
12
A lineáris specifikáció hatása • Eddigi definíció a meredekségre: a többi változót rögzítjük, a vizsgált egy egységgel nagyobb. . . de: milyen szinten rögzítjük a többit? milyen szintről indulva nő egy egységgel a vizsgált? • A linearitás fontos következménye, hogy mindkettő mindegy! – Mindegy milyen szinten rögzítjük a többi változót. . . – Mindegy milyen szintről indulva növeljük eggyel a vizsgált változót. . . • . . . mindenképp ugyanannyi lesz a növelés hatása az eredményváltozóra! • Szemléletes tartalom: gondoljunk az egyenesre (illetve síkra) Ez a megközelítés két kérdést vet fel: egyrészt, hogy vajon a valóságos jelenségeknek egyáltalán elfogadható modellje-e ez, másrészt, hogy ha valahol nem, akkor hogyan oldható fel ez a megkötés. Később mindkét kérdést részletesen is tárgyaljuk az ún. nemlineáris kiterjesztéseknél. A modellünk használata: elemzés (tengelymetszet) • A konstans értelmezése: ha valamennyi magyarázó változó nulla értékű, akkor modellünk szerint várhatóan mekkora az eredményváltozó • Ha a minden magyarázó változó nulla kombináció kívül esik az értelmes tartományon, akkor ennek lehet, hogy nincs tárgyi értelme (ilyenkor: egyszerűen az illeszkedést javító paraméter) A nemlineáris kiterjesztéseknél ezt a jelenséget is mélyebben meg fogjuk érteni. A modellünk használata: elemzés (rugalmasság) • A meredekséghez hasonló mutatót szeretnénk, de úgy, hogy ne abszolút, hanem relatív változásokat kössön össze • Tehát: ha a vizsgált magyarázó változó 1 %-nyival nagyobb lenne c. p., akkor modellünk szerint várhatóan hány %-nyit változna az eredményváltozó • Számítás: El (ybi , xil ) =
βbl /ybi xil = βbl · b b 1/xil β1 + β2 xi2 + . . . + βbk xik
• Figyelem: – Ceteris paribus – Minden elmozdulást relatíve (%-osan) mérve • Ami új: az érték függ attól, hogy milyen pontban vagyunk (ezt tükrözi a jelölés is); teljesen logikus módon
13
A modellünk használata: előrejelzés b b = Xβ • A modellel: y • A mintánkra: yi − ybi = ubi
•
Pn
i=1
ubi 2 = ESS = 110865,7
3. Az OLS működése Az OLS belülről • Most megvizsgáljuk, hogy az OLS hogyan állítja elő a becsléseit. . . • . . . azaz hogyan oldja meg az alábbi optimalizációs feladatot (immár általános esetre felírva): b = arg min ESS = arg min uT u = arg min kuk2 = β b
b T
b 2
= arg min (y − Xb) (y − Xb) = arg min ky − Xbk = b b h i T T T T T = arg min y y − 2b X y + b X Xb b
A minimum-képzés változóját (a futóváltozót) ezúttal is azért jelöltük b-vel, hogy véletlenül b se legyen összekeverhető β-val, ez utóbbi ugyanis már az előbbi optimális értéke. Lényegében egyszerű algebrai átalakításokat végzünk (és a definíciókat használjuk), hiszen a zárójeleket felbontani, műveleteket elvégezni, mátrixokkal-vektorokkal is hasonlóan kell mint valós T számokkal. (A transzponálás tagonként elvégezhető, azaz (a − b) = aT − bT .) Egyedül annyit T kell észrevenni, hogy a y Xb egy egyszerű valós szám, ezért megegyezik a saját transzponáltjával, T bT XT y-nal. Ezért írhattunk − (Xb) y − yT Xb helyett egyszerűen – például – −2bT XT y-t. T (Itt mindenhol felhasználtuk, hogy a transzponálás megfordítja a szorzás sorrendjét: (AB) = AT BT .)
14
Az OLS megoldása • A szélsőérték-keresést oldjuk meg többváltozós deriválással (kvadratikus felület konvex, a stacionárius pont egyértelmű globális szélsőértékhely): i ∂ h T y y − 2bT XT y + bT XT Xb = ∂b −1 b = XT X = −2XT y + 2XT Xb = 0 ⇒ β XT y, ha XT X nem szinguláris (később visszatérünk rá) • Ez nem más, mintha X Moore-Penrose pszeudoinverzével szoroznánk y-t: b = X+ y β Itt jelentkezik igazán a mátrixos jelölésrendszer előnye. A yT y−2yT Xb+bT XT Xb lényegében egy „másodfokú kifejezés” többváltozós értelemben (az ax2 + bx + c többváltozós megfelelője), és ami igazán szép: pont ahogy az ax2 +bx+c lederiválható a változója (x) szerint (eredmény 2ax+b), ugyanúgy ez is lederiválható a változója (azaz b) szerint. . . és az eredmény az egyváltozóssal teljesen analóg lesz, ahogy fent is látható! Bár ezzel átléptünk egyváltozóról többváltozóra (sőt, a változók száma itt nem is ismert előre), a többváltozós analízisbeli eredmények biztosítanak róla, hogy formálisan ugyanúgy végezhető el a deriválás. (Ezt írja le röviden a „vektor szerinti deriválás” jelölése. Egy b vektor szerinti derivált alatt azt a vektort értjük, melyet úgy kapunk, hogy a deriválandó kifejezést lederiváljuk b egyes bi komponensei szerint (ez ugye egyszerű skalár szerinti deriválás, ami már definiált!), majd ez eredményeket összefogjuk egy vektorba. Látható tehát, hogy a vektor szerinti derivált egy ugyanolyan dimenziós vektor, mint ami szerint deriváltunk.) Azt, hogy a megtalált stacionaritási pont tényleg minimumhely, úgy ellenőrizhetjük, hogy megvizsgáljuk a Hesse-mátrixot a pontban. A mátrixos jelölésrendszerben ennek az előállítása is pofonegyszerű, mindössze még egyszer deriválni kell a függvényt a változó(vektora) szerint: i i 2 h ∂ h T T T T T T T b = ∂ H β y y − 2b X y + b X Xb = −2X y + 2X Xb = 2XT X. ∂b2 ∂b b Az ismert tétel szerint a függvénynek akkor van β pontban ténylegesen is (lokális, de a konvexitás b pozitív definit. Ehhez tudni kell, hogy az minden miatt egyben globális) minimuma, ha H β további nélkül teljesül, hogy XT X pozitív szemidefinit (ez egy skalárszorzat-mátrix, más néven Gram-mátrix, amelyek mindig pozitív szemidefinitek), a kérdés tehát csak a határozott definitség. Belátható, hogy ennek feltétele, hogy XT X ne legyen szinguláris – azaz itt is ugyanahhoz a feltételhez értünk! Megjegyezzük, hogy ez pontosan akkor valósul meg, ha az X teljes oszloprangú. (Erre a kérdésre a modellfeltevések tárgyalásakor még visszatérünk.) Végül egy számítástechnikai megjegyzés: az együtthatók számításánál a fenti formula direkt követése általában nem a legjobb út, különösen ha sok megfigyelési egység és/vagy változó van. Ekkor nagyméretű mátrixot kéne invertálni, amit numerikus okokból (kerekítési hibák, numerikus instabilitás stb.) általában nem szeretünk. Ehelyett, a különféle programok igyekeznek a direkt mátrixinverziót elkerülni, tipikusan az X valamilyen célszerű mátrix dekompozíciójával (QR-dekompozíció, Cholesky-dekompozíció). Pár további gondolat
15
• Az előrejelzések a mintánkra: −1 b = X XT X b = Xβ y XT y • Ez alapján vezessük be a −1 P = X XT X XT mátrixot • Ezzel b = Py y • Emiatt szokták „hat” mátrixnak is nevezni Az OLS alternatív interpretáció • P projektormátrix lesz (P2 = P, azaz idempotens) → út az OLS geometriai interpretációjához • „Túlhatározott egyenletrendszer megoldása” interpretáció Ezen a ponton szánunk pár bekezdést arra, hogy megismerkedjünk az OLS alternatív bevezetési lehetőségeivel. Természetesen végeredményben minden interpretáció ugyanazt a b = XT X −1 XT y becslést adja, ám filozófiájuk teljesen eltérő. Mi a továbbiakban is maradunk β a „négyzetes értelemben legjobban illeszkedő hipersík” interpretációnál (amivel be is vezettük az OLS-t), így ez a rész kitekintő jellegű – de a lentiek végiggondolása segítheti egy jobb, mélyebb kép kialakítását az OLS-ről. Az OLS geometriai interpretációja Mindenekelőtt emlékeztetünk rá, hogy az z1 , z2 , . . . , zn vektorok által kifeszített alteret azok a pontok alkotják, melyek előállnak e vektorok lineáris kombinációjaként. (E pontok mindig az eredeti vektortér (ami felett a vektorokat értelmeztük) alterét alkotják, ezért jogos az elnevezés.) Ha most vektortérnek az Rn -et tekintjük, vektoroknak pedig az 1, x2 , . . . , xn magyarázóváltozókat (és a konstanst), azaz X oszlopvektorait, akkor az ezek által kifeszített altér – ezt szokás egyébként az X mátrix oszlopterének nevezni – épp azon pontokból áll, melyek előállhatnak becsült eredményváltozó(vektor)ként valamilyen regressziós koefficiensekkel! (Hiszen a becsült eredményváltozót is e vektorok lineáris kombinációjaként állítjuk elő.) Általánosságban persze nem várható, hogy a tényleges eredményváltozó(vektor) benne legyen ebben az altérben (azaz egzaktan – értsd: minden egyes megfigyelési egységre megvalósulóan – elő lehessen állítani lineáris kombinációként), ezt fejezi ki a reziduum. Mint a tényleges és a becsült eredményváltozó(vektor) különbségvektora, a reziduum hossza megmutatja, hogy mennyire messze van a becsült és a tényleges eredményváltozó egymástól (az Rn -ben). Mi azt szeretnénk, ha ez minimális lenne. Választva a szokásos euklideszi metrikát, visszakapjuk a legkisebb négyzetes értelmezést. A kérdés már csak az, hogy adott ponthoz (tényleges eredményváltozó) hogyan határozható meg az altér (azaz: amit lineáris regresszióval elő tudunk állítani) legközelebbi pontja. . . de hát ez épp a geometriai vetítés művelete! A megoldás tehát az, hogy a tényleges eredményváltozót merőlegesen rávetítjük (ortogonális projekció) a magyarázóváltozók (és a konstans) által kifeszített altérre! A vetítés eredményeként kapott pont lesz a ténylegeshez legközelebbi előállítható becsült eredményváltozó, az előállításában szereplő együtthatók pedig az optimális becsült regressziós koefficiensek. Így aztán azt is megállapíthatjuk, hogy a fenti P mátrix nem más, mint ami a tényleges eredményváltozót levetíti a magyarázóváltozók (és a konstans) által kifeszített altérre. 16
Túlhatározott egyenletrendszer megoldása interpretáció Az „ideális” eset az lenne, ha b vektort, mellyel Xβ b = y előállítható lenne, azaz ha a tényleges eredményváltotalálnánk olyan β zókat egzaktan reprodukálni tudnánk. Ez persze általánosságban nem várható, már csak azért sem, mert a fenti lineáris egyenletrendszerben n egyenlet és csak k ismeretlen szerepel (ahol a mi feladatainkban tipikusan n k). Ezt túlhatározott egyenletrendszernek szokás nevezni. Az ilyen egyenletrendszert tehát általánosságban „megoldani” nem tudjuk, de logikus alternatíva, hogy akkor inkább keressük meg azt a „megoldását” (azaz ismeretlenek konkrét értékeit), mely mellett a tényleges jobb oldalak a legközelebb vannak a számított jobb oldalakhoz. Ha a „közelséget” L2 2 metrikában értelmezzük, akkor épp az arg minb ky − Xbk feladathoz jutunk! Ez pedig, ahogy láttuk is, épp az OLS által is megoldott feladat.
4. A többváltozós lineáris regressziós modell minősítése Modell jóságának viszonyítási pontjai • A modell minősítése az ESS alapján? → kézenfekvő, de nem önmagában: viszonyítani kell! Két kézenfekvő alap: – Tökéletes (v. szaturált, perfekt modell): minden mintaelemre a pontos értéket becsüli → ubi = 0 ⇒ ESS = 0 – Nullmodell: semmilyen külső (magyarázó)információt nem használ fel → minden mintaelemet az átlaggal becsül Definíció (Teljes négyzetösszeg, T SS). Egy adott regressziós modell teljes négyzetösszegének nevezzük a hozzá tartozó (tehát ugyanazon eredményváltozóra vonatkozó) nullmodell hibanégyzetösszegét: n X 2 T SS = ESSnull = (yi − y) . i=1
Hogyan jellemezzük modellünk jóságát? • A minősítést képezzük a „hol járunk az úton?” elven: a tökéletesen rossz modelltől a tökéletesen jó modellig vezető út mekkora részét tettük meg • Az út „hossza” T SS (= T SS − 0), amennyit „megtettünk”: T SS − ESS Definíció (Regressziós négyzetösszeg, RSS). Egy adott regressziós modell négyzetösszegének nevezzük a teljes négyzetösszegének és a hibanégyzetösszegének különbségét: RSS = T SS − ESS. Ahogy már említettük is, sajnos néhány könyv az RSS-t más néven, hogy még rosszabb legyen a helyzet, néha ESS-ként, emlegeti. (Az itteni ESS pedig épp RSS az ottani terminológiában. . . ) Az új mutató bevezetése Ezzel az alkalmas modelljellemző mutató: Definíció (Többszörös determinációs együttható, R2 ). Egy regressziós modell többszörös deter2 minációs együtthatója (jele: Ry|x , vagy ha a változók megadása nem fontos, egyszerűen 2 ,x3 ...,xk 2 R ): T SS − ESS RSS R2 = = . T SS T SS 17
Az R2 -ről bővebben • Ha van konstans a modellben, akkor nyilván ESS < T SS, így: Tulajdonság. Minden regressziós modellre, amiben van konstans: 0 ≤ R2 ≤ 1. • Az R2 egy modell jóságának legszéleskörűbben használt mutatója • Értelmezhető %-ként: a magyarázó változók ismerete mennyiben csökkentette az eredményváltozó tippelésekor a bizonytalanságunkat (ahhoz képest, mintha nem ismertünk volna egyetlen magyarázó változót sem) • De vigyázat: nagyságának megítélése, változók száma stb. • A belőle vont négyzetgyököt többszörös korrelációs együtthatónak szokás nevezni Az R2 -ről bővebben • Ha van konstans a modellben, akkor érvényes a következő felbontás: n X
2
(yi − y) =
n X
n X
2
(yi − ybi ) +
i=1
i=1
2
(b yi − y)
i=1
• (Négyzetek nélkül nyilvánvaló, de négyzetekkel is!) • Röviden tehát: T SS = ESS + RSS • Összevetve az előző definícióval, kapjuk, hogy RSS =
n X
2
(b yi − y)
i=1
Egy megjegyzés a konstans szerepéről • Az előzőek is motiválják, hogy megállapítsuk: konstanst mindenképp szerepeltetünk a regresszióban, ha inszignifikáns, ha nem látszik különösebb értelme stb. akkor is! – csak és kizárólag akkor hagyhatjuk el, ha az a modell tartalmából adódóan elméleti követelmény (erre látni fogunk nemsokára egy példát is, a standardizált regressziót) • Ellenkező esetben (ún. konstans nélküli regresszió), a fenti felbontás nem teljesül, így a „hol járunk az úton” elven konstruált R2 akár negatív is lehet! Néhány könyv, az R2 alternatív definiálása révén, a negatív esetet kizárja.
5. Parciális korreláció és standardizált regresszió 5.1. Parciális korreláció A parciális korreláció tartalma • Az eddig látott korrelációt mindig két változó között értelmezzük 18
• Megjelennek benne a többi változón keresztül terjedő hatások • Látszólagos korreláció jelensége (pl. félszobák száma és terület között) • Ennek algebrai szűrésével (konkrét módszer most nem érdekes) nyerjük a parciális korrelációt • Jelölése, pl. ha y és xj között számítjuk, minden más magyarázó változó hatását szűrve: corr y, xj .x2 , x3 , . . . , xj−1 , xj+1 , . . . , xk Olyan kontextusban, ahol ezt használjuk, a „hagyományos” korrelációt néha megkülönböztetésül totális korrelációnak nevezzük.
5.2. Standardizált regresszió A standardizált regresszió logikája • Az eddig látott βbi regressziós koefficiensek mértékegység-függőek → mi is történik ha m2 -ről áttérünk a cm2 -re? • Szeretnénk ettől megszabadulni: egy lehetőség, ha standardizáljuk az egész adatbázisunkat (eredményváltozót és magyarázó változókat is!) b • Ekkor lefuttatva a regressziót, a βei ún. standardizált regressziós koefficienseket nyerjük • Érvényes a sd (xi ) b βei = βbi · sd (y) összefüggés (azaz a standardizált együtthatók megkapásához nem kell ténylegesen standardizálni az adatbázist) A standardizált regresszió értelme • Ezek értelmezése: mint a szokásos regressziós együttható, de szórásnyi változásokat köt össze szórásnyi változóssal • A szokásos βbi koefficiensek nem alkalmasak a hozzájuk tartozó változó hatásnagyságának jellemzésére (bár intuitíve nagyon is így tűnhet: „jó naggyal kell szorozni, akkó’ biztos nagyon hat az eredményváltozóra”) → ld. a mértékegységfüggést b • A βei standardizált koefficiensek viszont már (persze csak mint heurisztikus mérőszámok) alkalmasak erre! • Még egy érdekes összefüggés (R2 alternatív számítása): R2 =
n X b βei · corr (y, xi ) . i=1
19