Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
Bevezetés az ökonometriába Többváltozós lineáris regresszió: mintavételi vonatkozások és modelljellemzés
Ferenci Tamás MSc1
[email protected] 1 Statisztika Tanszék Budapesti Corvinus Egyetem
Harmadik előadás, 2010. szeptember 28.
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
Tartalom 1
Ismétlés Utóbbi előadások áttekintése
2
Mintavételi vonatkozások A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
3
A modell minősítése A többszörös determinációs együttható
4
Parciális korreláció és standardizált regresszió Parciális korreláció Standardizált regresszió
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
Utóbbi előadások áttekintése
Előző részeink tartalmából
Ismerkedés az ökonometria fogalmával, feladataival, módszereivel Az ökonometriai modellalkotás menete Kétváltozós szóródás jellemzése Regresszió kétváltozós esetben Lineáris regresszió általában, többváltozós esetben
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
Utóbbi előadások áttekintése
Legfontosabb eredmények képletekben A többváltozós lineáris regresszió matematikai kerete nagyon tömören: b = βb1 + βb2 X2 + βb3 X3 + . . . + β ck Xk Y ubi = Yi − Ybi ESS =
n X
ubi 2
i=1
min ESS b β
Előrejelzés látható a fentiekből Értelmezés: koefficiensek (meredekség, tengelymetszet), elaszticitás Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
A mintavételi helyzet hatásai b Az adatbázisunk alapján megkaptuk a regressziós egyenest (β) De vigyázat: az adatbázis csak egy minta az eladásra kínált lakások sokkal bővebb sokaságából → a βbi paraméterek annak hatását is tükrözik, hogy konkrétan milyen mintát választottunk Mintavételi ingadozás lép fel (még akkor is, ha tökéletes a mintavétel, ennek tehát semmi köze pl. a reprezentativitáshoz) Tehát: az egyes βbi paraméterek „mintáról-mintára ingadoznak” : minden mintából más paramétereket kapnánk (Természetesen reméljük, hogy az ingadozás „kellemes” tulajdonságokkal bír, például a valós érték körül történik, szorosan körülötte stb., erről később) Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
Az OLS mint becslőfüggvény Ha ismernénk az egész sokaságot, akkor arra lefuttatva megkaphatnánk a tökéletes βi paramétereket (értsd: nem terheli őket mintavételi hiba) Ezeket nevezzük sokasági vagy elméleti regressziós koefficienseknek Tehát: van egy sokasági paraméter, amit mi mintából próbálunk megsaccolni. . . nem ismerős? Ez épp a becslés statisztikai feladata ! Az OLS tehát egy becslőfüggvény ! (Mint az X csak kicsit bonyolultabb. . . ) → ezért a kalap Vizsgálhatóak tehát a tulajdonságai, mint becslőfüggvény
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
OLS modellfeltevései Bizonyos feltételek teljesülése esetén az OLS szolgáltatta becslések BLUE-k (Gauss-Markov tétel): Best (minimális varianciájú) Linear (lineáris a mintaelemekben) Unbiased (torzítatlan)
Ezért szeretjük az OLS-t ! A feltételek amiknek teljesülnie kell (a nyilvánvalóakon túl): Homoszkedaszticitás Autokorrelálatlanság
Ezeket együttesen szokás a lineáris modell standard modellfeltevéseinek nevezni → később részletesen tárgyaljuk őket
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
Egy példa a BLUE tulajdonságra Például a szobaszám mintavételi eloszlása (csak szemléltetés : feltételeztük, hogy a valódi érték βSzobaszam = 1,18) 1
0.8
0.6
0.4
0.2
0 -0.5
0
0.5
1
1.5
2
2.5
3
Összekapcsoltan mutatja a mintáról-mintára ingadozást és a becslőfüggvény jellemzőit Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
Változó relevanciája Definíció (Változó relevanciája) Egy változót relevánsnak nevezünk, ha a sokasági paramétere nem nulla: βi 6= 0. Elárulom, hogy a βbi becsült regressziós koefficiensek mintavételi ingadozását a következő összefüggés írja le: βbi − βi ∼ tn−k se b βbi
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
Hipotézisvizsgálat változó relevanciájára Ez alapján már konstruálhatunk próbát változó relevanciájának vizsgálatára: 1 2
3
H0 : βi = 0 Ekkor (azaz ha ez fennáll !) a temp,i =
βbi se b (βbi )
kifejezés n − k
szabadságfokú t-eloszlást követ (nulleloszlás) Számítsuk ki a konkrét temp,i -t a mintánkból és döntsük el, hogy hihető-e, hogy tn−k -ból származik
A hipotézisvizsgálat elvégzéséhez szükséges minden tudnivalót – a nullhipotézisen kívül – összefoglal tehát a következő kifejezés (a későbbiekben is ezt a sémát fogjuk használni hipotézisvizsgálatok megadására): temp,i =
Ferenci Tamás MSc
[email protected]
βb i ∼ tn−k . se b βbi Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
Példa változó relevanciájának vizsgálatára Az alapterület példáján: hihető-e, hogy a az eloszlásból származik:
0,2964 0,0108
0.5
= 27,43 ebből
t(1398)
0.4
0.3
0.2
0.1
0 -5
-4
-3
-2
-1
0
1
2
3
4
Jellemzés: kritikus érték, p-érték Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
5
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
A gretl outputján
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
Konfidenciaintervallum a paraméterekre Ez alapján könnyen szerkeszthető CI is, 1 − α megbízhatósági szintre: βbi ± t1−α/2 · se b βbi . A gretl-ben (1 − α = 0,95):
Mi az összefüggés a CI és a p-érték között? Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A többszörös determinációs együttható
Modell jóságának viszonyítási pontjai A modell minősítéséhez kézenfekvő az ESS-t felhasználni Önmagában semmit nem ér, viszonyítani kell ! Két kézenfekvő viszonyítási alap: Tökéletes (v. szaturált, perfekt modell) : minden mintaelemre a pontos értéket becsüli → ubi = 0 ⇒ ESS = 0 Nullmodell : semmilyen külső információt nem használ fel → minden mintaelemet az átlaggal becsül.
Definíció (Teljes négyzetösszeg, TSS) Egy adott regressziós modell teljes négyzetösszegének nevezzük a hozzá tartozó (tehát ugyanazon eredményváltozóra vonatkozó) nullmodell hibanégyzetösszegét: TSS = ESSnull =
n X
Yi − Y
2
.
i=1 Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A többszörös determinációs együttható
Hogyan jellemezzük modellünk jóságát? A minősítést képezzük a „hol járunk az úton?” elven: a tökéletesen rossz modelltől a tökéletesen jó modellig vezető út mekkora részét tettük meg Az út „hossza” TSS (= TSS − 0), amennyit „megtettünk” : TSS − ESS Definíció (Regressziós négyzetösszeg, RSS) Egy adott regressziós modell négyzetösszegének nevezzük a teljes négyzetösszegének és a hibanégyzetösszegének különbségét: RSS = TSS − ESS.
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A többszörös determinációs együttható
Az új mutató bevezetése
Ezzel az alkalmas modelljellemző mutató: Definíció (Többszörös determinációs együttható, R 2 ) 2 , Egy modell többszörös determinációs együtthatója (jele: RY|X 1 ,...,Xk 2 vagy ha a változók megadása nem fontos, egyszerűen R ):
R2 =
TSS − ESS RSS = . TSS TSS
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A többszörös determinációs együttható
Az R 2 -ről bővebben Tulajdonság Minden regressziós modellre, amiben van konstans: 0 ≤ R 2 ≤ 1. Hiszen ESS < TSS, ez a definíció alapján nyilvánvaló Ebből adódóan az R 2 egy modell jóságának legszéleskörűbben használt mutatója Értelmezhető %-ként: a magyarázó változók ismerete mennyiben csökkentette az eredményváltozó tippelésekor a bizonytalanságunkat (ahhoz képest, mintha nem ismertünk volna egyetlen magyarázó változót sem) De vigyázat: nagyságának megítélése, változók száma stb. A belőle vont pozitív négyzetgyököt többszörös korrelációs együtthatónak szokás nevezni Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A többszörös determinációs együttható
Az R 2 -ről bővebben Ha van konstans a modellben, akkor érvényes a következő felbontás: n X i=1
Yi − Y
2
=
n X i=1
Yi − Ybi
2
+
n X
Ybi − Y
i=1
(Négyzetek nélkül nyilvánvaló, de négyzetekkel is !) Röviden tehát: TSS = ESS + RSS Összevetve az előző definícióval, kapjuk hogy 2 RSS = Ybi − Y
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
2
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A többszörös determinációs együttható
Egy megjegyzés a konstans szerepéről
Az előzőek is motiválják, hogy megállapítsuk : konstanst mindenképp szerepltetünk a regresszióban, ha inszignifikáns, ha nem látszik különösebb értelme stb. akkor is! – csak és kizárólag akkor hagyhatjuk el, ha az a modell tartalmából adódóan elméleti követelmény (erre látni fogunk nemsokára egy példát is, a standardizált regressziót) Ellenkező esetben (ún. konstans nélküli regresszió), a fenti felbontás nem teljesül, így a „hol járunk az úton” elven konstruált R 2 akár negatív is lehet !
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A többszörös determinációs együttható
Függetlenségvizsgálat
A modellünk lényegesen különbözik-e a nullmodelltől? Tehát: van-e lényeges magyarázó ereje? Formálisan H0 : β2 = β3 = . . . = βk = 0 Ha ez fennáll, szokás azt a megfogalmazást használni, hogy a modell egészében irreleváns (vö. változó irrelevanciája) Az ellenhipotézis nem az, hogy valamennyi változó releváns, hanem hogy van legalább egy, ami releváns !
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
A többszörös determinációs együttható
Függetlenségvizsgálat A próba: RSS/ (k − 1) ∼ Fk−1,n−k ESS/ (n − k) ANOVA-tábla (a gretl-ben): Femp =
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
Parciális korreláció Standardizált regresszió
A parciális korreláció tartalma Az eddig látott korrelációt mindig két változó között értelmezzük Megjelennek benne a többi változón keresztül terjedő hatások → mit jelent ez megfogalmazás ? Látszólagos korreláció jelensége (pl. félszobák száma és terület között) Ennek algebrai szűrésével (konkrét módszer most nem érdekes) nyerjük a parciális korrelációt Jelölése, pl. ha Y és Xj között számítjuk, minden más magyarázó változó hatását szűrve : corr Y, Xj .X1 , X2 , . . . , Xj−1 , Xj+1 , . . . , Xk Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
Parciális korreláció Standardizált regresszió
A parciális korrelációról
Olyan kontextusban, ahol ezt használjuk, a „hagyományos” korrelációt néha megkülönböztetésül totális korrelációnak nevezzük Egy érdekes összefüggés: v u u corr Y, Xj .X1 , X2 , . . . , Xj−1 , Xj+1 , . . . , Xk = t
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
tj2 tj2 + (n − k)
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
Parciális korreláció Standardizált regresszió
A standardizált regresszió logikája Az eddig látott βbi regressziós koefficiensek mértékegység-függőek → mi is történik ha m2 -ről áttérünk a cm2 -re? Szeretnénk ettől megszabadulni : egy lehetőség, ha standardizáljuk az egész adatbázisunkat (eredményváltozót és magyarázó változókat is !) b Ekkor lefuttatva a regressziót, a βei ún. standardizált regressziós koefficienseket nyerjük Érvényes a σXi b βei = βbi · σY összefüggés (azaz a standardizált együtthatók megkapásához nem kell ténylegesen standardizálni az adatbázist) Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába
Ismétlés Mintavételi vonatkozások A modell minősítése Parciális korreláció és standardizált regresszió
Parciális korreláció Standardizált regresszió
A standardizált regresszió értelme Ezek értelmezése: mint a szokásos regressziós együttható, de szórásnyi változásokat köt össze szórásnyi változóssal A szokásos βbi koefficiensek nem alkalmasak a hozzájuk tartozó változó hatásnagyságának jellemzésére (bár intuitíve nagyon is így tűnhet: „ jó naggyal kell szorozni, akkó’ biztos nagyon hat az eredményváltozóra”) → ld. a mértékegységfüggést b A βei standardizált koefficiensek viszont már (persze csak mint heurisztikus mérőszámok) alkalmasak erre! Még egy érdekes összefüggés (R 2 alternatív számítása): R2 =
n X b βei · corr (Y, Xi ) . i=1
Ferenci Tamás MSc
[email protected]
Bevezetés az ökonometriába