Útmutató a GRETL ökonometriai szoftver használatához, ökonometriai példákkal
Oktatási segédlet
Írta: Földvári Péter Debreceni Egyetem Közgazdaságtudományi Kar Gazdaságelemzés és Üzleti Informatika Tanszék
2007. június
Bevezetés.................................................................................................................................... 3 I. Adatfájlok megnyitása, mentése és konvertálása............................................................... 4 I.1. Adatfájlok megnyitása ..................................................................................................... 4 I.1.1. Példafájlok megnyitása............................................................................................. 4 I.1.2. Új adatfájl készítése .................................................................................................. 6 I.1.3. Adatfájlok exportálása .............................................................................................. 8 I.1.4. Adatfájlok importálása............................................................................................ 10 I.1.5. Adatfájlok mentése .................................................................................................. 11 I.1.6. Adatok importálása külső adatbázisokból .............................................................. 11 II. Változók átalakítása, leíró statisztikák, és grafikonok a GRETL-ben ............................. 16 II.1. Változók átalakítása, és új változók készítése .............................................................. 16 II.1.1. Beépített átalakítások ............................................................................................ 16 II.1.2. Új változó létrehozása meglévő változók felhasználásával................................... 17 II.2. Leíró statisztikák........................................................................................................... 18 II.2.1. A „Descriptive statistics” opció használata.......................................................... 18 II.2.2. Az ikonnézet használata......................................................................................... 19 II.2.3. A parancskonzol használata .................................................................................. 21 II.3. A GRETL grafikus képességeinek használata.............................................................. 24 II.3.1. A gyorsmenüből elérhető grafikonok..................................................................... 24 II.3.2. A „View”menűből elérhető grafikonok ................................................................. 28 II.3.3. A regresszió kimenetéről elérhető grafikonok ....................................................... 32 II.3.4. A grafikonok tulajdonságainak módosítása .......................................................... 33 III. Alapvető, egyegyenletes regressziós technikák ........................................................... 35 III.1. Legkisebb Négyzetek Módszere (OLS) ...................................................................... 35 III.1.1. Néhány előzetes megjegyzés................................................................................. 35 III.1.2. Az OLS alkalmazása............................................................................................. 35 III.1.3. Az eredmények interpretációja............................................................................. 37 III.1.4. A regressziós eredményeken végezhető tesztek .................................................... 38 III.2. Regresszió a hiba heteroszkedaszticitása és autókorrelációja esetén.......................... 47 III.2.1. Heteroszkedaszticitás korrekciója a súlyozott legkisebb négyzetek módszere (WLS) segítségével ........................................................................................................... 47 II.2.2. Autókorreláció korrekciója.................................................................................... 50 IV. Egyegyenletes idősoros technikák ............................................................................... 53 IV.1. Egységgyöktesztek...................................................................................................... 53 IV.1.1. Stacionaritás jelentősége...................................................................................... 53
Bevezetés A GRETL (Gnu Regression, Econometrics and Time-series Library), egy C nyelven írt, nyílt forráskódú, felhasználóbarát ökonometriai szoftver, amely ingyenesen letölthető a http://gretl.sourceforge.net/ címen. A GRETL előnye, ingyenessége mellett, hogy folyamatos fejlesztés alatt áll, és a fejlesztők a legújabb eljárásokat is igyekeznek integrálni. A GRETL-t különösen alkalmassá teszi az ökonometria tanulására/tanítására, hogy letölthetőek hozzá olyan alapvető tankönyvek adatfájljai is, mint Greene (2003), Gujarati (2003), Wooldridge (2006), Stock és Watson (2006), Verbeek (2004) és Ramanathan (2003). 1 Ezenkívűl a GRETL egyedülálló módon hozzáférést biztosít számos nagy adatbázishoz (Penn World Table, NBER, St. Louis Fed stb.) így azok adatai közvetlenül és gyorsan konvertálhatóak a GRETL-be. Magyarországon a GRETL az Eviews® mellett talán a legelterjedtebb ökonometriai szoftver 2 , amelyben leginkább az játszik szerepet, hogy a Ramanathan könyvhöz a GRETL egy elavult verzióját is mellékelik. A GRETL azonban a saját jogán is nagyszerű eszköz: amennyiben az olvasó beszerzi a legfrissebb verziót a fent említett honlapról, akkor egy korszerű, egyszerűen kezelhető és stabil ökonometriai szoftverhez jut, amely természetesen mind az MS Windows, mind a Linux operációs rendszerek alatt futtatható. Ez az oktatási segédlet a GRETL 1.6.5 használatába vezet be, ökonometriai alkalmazásokon keresztül. A szoftver előzetes ismeretét nem igényli, de feltételezi, hogy az olvasó rendelkezik azokkal a felhasználói ismeretekkel, amelyek a program telepítéséhez szükségesek, illetve – mivel ez az útmutató nem ökonometria vagy statisztikai tankönyv – az adott alkalmazás alapvető elméleti hátterével is tisztában van. Mivel a GRETL részletes kezelési útmutatóval van ellátva, amely a „Help” menüpontban elérhető, ebben az útmutatóban nem térek ki minden kérdésre inkább a hivatalos útmutató kiegészítésére törekszem.
1 Greene, W. H., Econometric Analysis (5.kiadás), Prentice Hall 2003 Gujarat, D. N., Basic Econometrics (4. kiadás), McGraw.Hill, 2003 Wooldridge, J., Introductory Econometrics: A Modern Approach (3.kiadás), Thomson, 2006 Stock J. H. és Watson, M. W., Introduction to Econometrics (2.kiadás), Addison Wesley, 2006 Verbeek, M. , A Guide to Modern Econometrics (2. kiadás), Wiley, 2004 Ramanathan, R., Bevezetés az Ökonometriába, alkalmazásokkal, Panem, 2003 2 Olyan statisztikai szoftvercsomagok, mint például az SPSS vagy a SAS, nem tekinthetőek ökonometriai szoftvereknek, bár korlátozottan ilyen alkalmazásokra is megfelelnek.
I.
Adatfájlok megnyitása, mentése és konvertálása
I.1. Adatfájlok megnyitása I.1.1. Példafájlok megnyitása A GRETL installálása után érdemes rögtön telepíteni a honlapról letölthető adatfájlokat tartalmazó csomagokat. Ezek ’exe’ kiterjesztésű fájlok, amelyek telepítése a telepítési könyvtár kijelölése után automatikusan zajlik le. A telepítő által felajánlott könyvtárt alapesetben nem szükséges megváltoztatni.
A példafájlokat a „File” menüben érhetjük el:
Ahol, amennyiben már telepítettük az összes példaadatot, a következő menüben választhatjuk ki a megnyitandó fájlt:
A menü tetején található fülekkel választhatjuk ki, hogy melyik tankönyv adatfájljai jelenjenek meg az ablakban. Az „Open” funkcióval a kijelölt fájlt megnyithatjuk (a kettős kattintás az egér bal gombjával ugyanezt eredményezi). Az „Info” gombbal információkat érhetünk el a kijelölt adatok forrásáról, illetve gyakran a változókról és az alkalmazott mértékegységekről.
I.1.2. Új adatfájl készítése A GRETL lehetőséget ad arra, hogy saját adatainkból GRETL adatfájlt készítsünk. Természetesen mivel a GRETL nem táblázatkezelő szoftver, erre alkalmasabb programokat is találhatunk. Első lépésként használjuk a „File” menü „New data set” opcióját:
A következő ablakban adjuk meg a megfigyelések számát (number of observations):
A következő lépésben az adataink struktúráját kell meghatároznunk aszerint, hogy keresztmetszeti adatokról, idősorról, vagy panelről van szó.
Keresztmetszeti adatok esetén a szoftver csupán a választásunk megerősítését kéri, mielőtt létrehozza az új fájlt:
Amennyiben az adataink struktúrájánál az idősort („time series”) választottuk, akkor meg kell adnunk a megfigyelések gyakoriságát is:
Amely az évtizedenkénti megfigyelésektől („decennial”) az óránkénti megfigyelésekig terjed („hourly”). Amennyiben nem kívánjuk pontosan meghatározni a gyakoriságokat, vagy például a lehetőségek között nem szereplő gyakoriságokat alkalmazunk (percenként pl.) akkor az „other” opcióval egyszerű időindexet is használhatunk. Panel esetén a megfigyelések számánál a panel dimenzióját (egyedszám x időszak, vagy NxT) kell megadnunk. Ezt követően határozzuk meg a szoftvernek, az egyének számát (N).
Ebből a szoftver már meg tudja határozni a panel típusát és megerősítést kér:
Miután megerősítettük az adatfájl struktúrájával kapcsolatos választásunkat, a program felajánlja a lehetőséget, hogy a GRETL saját táblázatkezelőjét használva gépelhessük be az adatokat:
Ha ezt a lehetőséget választjuk, akkor meg kell adnunk az első változó nevét:
Ezután megjelenik a GRETL egyszerű táblázatkezelője, ahol bevihetjük az adatokat:
A táblázatkezelő „Variable” menüpontjában, az „Add” opcióval újabb változókat adhatunk hozzá a fájlhoz. I.1.3. Adatfájlok exportálása A GRETL formátumú adatainkat más formátumokba is konvertálhatjuk. „File” menü „export data” opciójával.
Amennyiben például később Excelben szeretnénk tárolni az adatokat, akkor a CSV fájlformátumot érdemes alkalmazni. A CSV kiválasztása után megadhatjuk, hogy az oszlopokat milyen karakter válassza el, illetve, hogy a megfigyelések indexeit külön oszlopként exportáljuk-e.
Ezután kiválaszthatjuk, hogy mely változók kerüljenek az újonnan létrehozandó fájlba:
Végül elmenthetjük az adatokat. I.1.4. Adatfájlok importálása A GRETL képes számos program formátumait beolvasni és GRETL formátumba konvertálni. Ehhez a „File” menü „open data” opcióján belül válasszuk ki az „import data” lehetőséget.
Az átlagos felhasználó szempontjából különösen értékes tulajdonság, hogy a GRETL képes közvetlenül Excel munkalapokat vagy Eviews és Stata 3 adatfájlokat importálni.
3 Mindkettő elterjedt ökonometriai szoftver.
I.1.5. Adatfájlok mentése Az adatfájlokat a „File menű” „Save as” vagy „Save” opcióival tudjuk elmenteni.
A „standard format” választása esetén az adatokat a GRETL saját formátumában menthetjük el. Először azonban lehetőségünk van meghatározni, hogy mely változókat mentse el a program:
I.1.6. Adatok importálása külső adatbázisokból Mint a bevezetőben említettem, a GRETL nagy előnye, hogy online adatbázisokból közvetlenül konvertálhatunk adatokat a saját adatfájlunkba. Ez a tulajdonsága még akkor is hasznossá teszi a GRETL-t, ha esetleg magához az elemzéshez más programot szeretnénk
alkalmazni. Természetesen az online adatbázisok eléréséhez internet kapcsolattal kell rendelkeznünk.
Az online adatbázisokhoz a „File” menüben a „Databases/On database server” opcióval férhetünk hozzá. A következő ablakban az elérhető adatbázisok listája jelenik meg.
A kiválasztott adatbázis nevére kattintva, annak státusza „not installed”-ről „up to date”-re változik a fenti listán, és egy ablakban megjelennek az adatbázisról letölthető adatsorok elnevezései és fő adatai is:
Jelen példában a St. Louis-i Fed monetáris adatokat tartalmazó adatbázisához kértünk hozzáférést. A listán továbbhaladva láthatjuk, hogy az elérhető idősorok gyakorisága változó, vannak éves (A), negyedéves (Q) és havi (M) bontásban elérhető adatok. A végcél természetesen az, hogy a saját adatbázisunkba már egységesen kerüljenek be az adatok. Ebben segít a GRETL aggregáló funkciója, amelynek segítségével a havi adatokat negyedéves vagy éves adatokká konvertáljuk. Ha például most a reáljövedelemről (reál GDP), a pénzmennyiségről (pl. M2) szeretnénk adatokhoz jutni, akkor érdemes a GDP-vel kezdeni, mert az áll a legaggregáltabb formában rendelkezésre (negyedévi adat, míg a pénzmennyiségről havi adataink vannak).
Ha a gdp96 idősort kijelöljük, majd a jobb oldali egérgomb megnyomása után megjelenő menüben az „import” funkciót választjuk, akkor a gdp96 idősor átkerül, negyedéves bontásban, az aktuális (megnyitott) fájlunkba. Ha éppen nem volt fájl megnyitva, akkor a
GRETL automatikusan egy új fájlt készít, és ebbe tölti be az adatbázisból származó adatokat. Ha rápillantunk az adatfájlunkra, az új idősort már ott találjuk, elemzésre készen.
A következő lépésben a pénzmennyiség havi bontásban elérhető adatait importáljuk. Ehhez az m2ns idősort használjuk:
Amennyiben ezt az idősort is importáljuk, a GRETL felajánlja a választást, hogy milyen módszerrel aggregálja a havi adatokat negyedévessé. Ezt a döntést az adatok ismeretében nekünk kell meghozni:
Mivel a pénzmennyiség egy állapot (stock) változó, az átlagolás (compact by averaging), vagy valamely kitüntetett időpontbeli érték alkalmazása („end-of-period” vagy „start-ofperiod values”) egyaránt megfelelő, de leggyakrabban az átlagolást alkalmazzuk. Az aggregálási technika kiválasztása után az adatfájlunkban már csak negyedéves adatok szerepelnek, 1967 első negyedévétől 2003 harmadik negyedévéig bezárólag.
A GRETL aggregáló képességével sok munkát takaríthat meg a felhasználónak.
II.
Változók átalakítása, leíró statisztikák, és grafikonok a GRETLben
II.1. Változók átalakítása, és új változók készítése II.1.1. Beépített átalakítások A GRETL-ben a legalapvetőbb adat-átalakítási módszereket a menüből elérhetjük. Első lépésként az átalakítandó változót az egér bal gombjával kijelöljük (akár többet is, ehhez az egér bal gombjának lenyomva kell tartanunk). A beépített átalakításokat és változó készítési lehetőségeket az „Add” menüpontban érhetjük el:
A szokásos átalakítások (logaritmizálás, differenciálás, négyzetre emelés) mellett új változókat is készíthetünk: az index változó az egyes megfigyelések sorszámát tartalmazza, az időtrend pedig egy lineáris időtrendet készít. A „random variable” opcióval véletlen változót kreálhatunk, amely választásunktól függően számos nevezetes eloszlást követhet:
Ha például egy olyan változót szeretnénk készíteni,a melynek neve „veletlen”, átlaga 10 és szórása 3, akkor azt a „Normal” lehetőség kiválasztásával a következő módon tehetjük meg:
’ Amennyiben az idősorunk gyakorisága miatt ez lehetséges, szezonális dummy (bináris vagy dichotóm) változókat is készíthetünk a „periodic dummy” opcióval. II.1.2. Új változó létrehozása meglévő változók felhasználásával A „Define new variable” opcióval saját formulával hozhatunk létre új változót a már meglévőkből. A „Squares of selected variables” opció segítségével például képesek vagyunk egy változó négyzetét felvenni új változóként, de például ugyanezen változó köbét már csak a „Define new variable” opcióval tudjuk képezni:
A fenti példában a PCED változó köbét, mint új változót vesszük fel az adataink közé. Ugyanígy ezt a funkciót kell használnunk kereszthatás változók (két változó szorzata) vagy reciprokváltozók létrehozásához. Amennyiben a (nem dichotóm) függő változónknak felső
⎛ Y ⎞ korlátja van (például 1), akkor alkalmazhatunk logit átalakítást is, azaz Yi logit = ln ⎜ i ⎟ . 4 ⎝ 1 − Yi ⎠ Ezt a „Define new variable” funckióval a következő módon állíthatnánk elő:
Dummy (bináris) változókat a feltétel megadásával, logikai művelettel készthetünk:
A fenti kifejezéssel egy olyan D nevű bináris változót készítünk, amely 1-es értéket vesz fel minden olyan esetben, amikor az Y változó értéke nullánál nagyobb, és nullát egyébként. II.2. Leíró statisztikák II.2.1. A „Descriptive statistics” opció használata A legegyszerűbb módszer adataink alapvető statisztikáinak megjelenítésére a „Decriptive statistics” opció. A változó kijelölése után, az egér jobb gombjára kattintva több lehetőség közül választhatunk:
A „Descriptive Statistics” funckió használatával a következő kimenethez jutunk:
4
Ilyen korlátos változó lehet például egy ország részesedése a teljes magyar exportból, ez nyílván sohasem lehet több mint 1 (100%).
A táblázatban szerepel a változó elnevezése (a jelen példában IP), a megfigyelések száma (696), a változó számtani átlaga („mean”), mediánja, szélsőértékei, valamint szórása („standard deviation”), relatív szórása („C.V.” azaz Coefficient of Variance, ami a szórás és az átlag hányadosa), ferdesége („Skewness”), és lapultsága („Ex. Kurtosis”). A „View” menüpont Correlation matrix opciójával az általunk megjelölt változók közötti lineáris korrelációs együtthatókat jeleníthetjük meg.
II.2.2. Az ikonnézet használata A GRETL-ben rendelkezésre áll egy „Icon view” funkció is, amelyet a „View” menüpontban érhetünk el.
Az ikonnézetben lehetőségünk van az összes változónk leíró statisztikáit megtekinteni a „Summary” opcióval:
A „Correlations” opcióval a változónk közötti korrelációs táblát érhetjük el, hasonlóan a fentebb bemutatott „Correlation matrix” opcióhoz, amelyet a „View” menüpont alatt érhetünk el.:
Az ikonnézet egyéb lehetőségeivel később foglalkozunk. II.2.3. A parancskonzol használata Természetesen a GRETL rendelkezik parancskonzollal is, ahol a különböző utasításokat közvetlenül adhatjuk meg a programnak. Az utasításokról bővebb információ a GRETL kézikönyvében (user’s guide) és az utasítások gyűjteményében (command reference) érhető el, amelyeket a „Help” menűpontból elérhetünk.
Amennyiben például csak két változónk között szeretnénk korrelációs együtthatót számolni akkor azt a corr utasítással megtehetjük:
A fenti példában az IP (industrial production index) és az Oil (oil-price shocks) változók közötti lineáris korrelációs együtthatót számoltuk ki. A konzolról elérhető a GRETL minden funckciója. Például egy OLS regressziót az ipari kibocsátás és az árszínvonal között a következő utasítással hajthatnánk végre: ols IP const CPI
A konzolon pontosan ugyanaz a kimenet jelenik meg, mintha a menüből indítottuk volna el a regressziót. A konzolon lehetőségünk van kihasználni a GRETL mátrixalgebrai képességeit is. Például bármely változónkat definiálhatjuk vektorként (vagy több változót mátrixként) és azokkal műveleteket végezhetünk. Szemléltetésül, becsüljük meg az előbbi egyenlet paramétereit mátrixalgebrai eszközökkel! 1. Képezzük az Y vektort a függő változóból. matrix Y=IP 2. Képezzük az X mátrixot a konstans tagból (egységvektor) és a CPI változóból! matrix X={const CPI}
3. Most becsüljük meg az együtthatók beta vektorát a tankönyvekből ismert becslőfüggvénnyel: matrix beta=inv(X’X)*(X’Y) 4. A „beta” utasítással nézzük meg a vektort:
Láthatjuk, hogy a mátrixalgebrai művelettel valóban a fentebb, az ols utasítással kapott együtthatókhoz jutottunk el. 5. A standard hiba vektorának kiszámítása kissé bonyolultabb. Ehhez első lépésben vektorként hozzuk létre a maradékokat: matrix u=Y- X*beta 6. Majd a maradék négyzetösszegét számoljuk ki. scalar SSR=u’u 7. A minta maradékának négyzetösszegéből a hiba négyzetösszegét úgy becsülhetjük meg, ha elosztjuk a regressziónk szabadságfokával, azaz a megfigyelések számának és a megbecsült együtthatók számának különbségével (ezt minden alapvető statisztikai tankönyv tartalmazza). scalar ESS=USS/(rows(X)-rows(beta)) 8. Ebből kiszámolhatjuk az együtthatók varianciáinak vektorát: matrix V=ESS*inv(X’X) 9. És végül a V diagonálisának négyzetgyökeit véve megkapjuk az együtthatók szórását is: matrix se=sqrt(diag(V))
Egy technikai jellegű megjegyzés: a fenti módszerrel csak akkor jutunk eredményhez, ha az adataink között nincsenek hiányzó megfigyelések. Természetesen a GRETL ols függvénye automatikusan kezeli ezt a problémát.
II.3. A GRETL grafikus képességeinek használata II.3.1. A gyorsmenüből elérhető grafikonok A GRETL az ugyancsak nyílt forráskódú gnuplot szoftvert használja grafikonok készítéséhez. Ezt a szoftvert a GRETL automatikusan telepíti. A GRETL néhány alapvető grafikontípusa az egér jobb gombjával előhívható gyorsmenüből elérhető. Ehhez először ki kell jelölnünk egy változót, majd a gyorsmenüben választhatunk, az adataink struktúrájának megfelelően, a különböző grafikonokból.
A „Time series plot” a kijelölt idősort az idő függvényében ábrázolja:
A „Frequency plot” opcióval az egyes megfigyelések gyakoriságát ábrázolhatjuk, azaz hisztogrammot készíthetünk. Nagyszámú megfigyelés esetén nem feltétlenül szeretnénk minden egyes megfigyelést ábrázolni, ezért a GRETL felajánlja a lehetőséget, hogy az egyes megfigyeléseket csoportokba (bins) osztva ábrázolja. Ebbe a példában elfogadjuk a program által javasolt 27 csoportot.
A ”Boxplot” grafikon szintén a változó eloszlásáról ad információt:
A grafikonon látható doboz az alsó és a harmadik kvartilisek által határolt területet adja meg, az egyenes pedig a mediánt jelöli ki. A „Correlogram” opcióval az idősorok elemzéséhez nélkülözhetetlen korrelogramhoz juthatunk. Először ki kell választanunk, hogy a korrelogram hány késleltetettig számolja ki az autokorreláció és a parciális autokorreláció értékeit.
A választásunk megerősítése után megjelenik a korrelogram grafikusan és szövegesen is:
A szöveges kimenet jelentősége abban áll, hogy így hozzájuthatunk az eredményekhez akkor is ha valamilyen oknál fogva nem működnek a GRETL grafikus képességei a gépünkön. A korrelogram értelmezéséhez szükséges ismereteket bármilyen bevezető, idősorelemzéssel foglalkozó tankönyből elsajátíthatja az Olvasó. Röviden: az ACF (Autocorrelation Function) egy változó és valamelyik késleltetettje közötti korrelációs együtthatót adja meg. A jelen
példában például ez az együttható IPt és az IPt-2 esetében 0,9908. A PACF (Partial Autocorrelation Function) ettől annyiban tér el, hogy az alacsonyabb rendű autókorrelációk hatását kivonja a magasabb rendű autókorrelációk együtthatóiból. Így például az ACF esetében azt látjuk, hogy a jelenbeli megfigyelés még a 28-ik rendű késleltetettel is erős pozitív kapcsolatban van. PACF esetén erős pozitív kapcsolatot találunk az első késleltetettel (elsőrendű autókorreláció), de miután ezt a hatást korrigáltuk magasabb rendű autókorrelációt nem találunk. Ezek alapján az IP idősort egy első rendű autókorrelációval (AR(1)) tudnánk leírni, és az autókorreláció együtthatója olyan közel van egyhez, hogy az idősorban egységgyök van (unit-root). A szöveges kimeneten megtalálhatjuk a Portmanteau-féle Q statisztikákat is, amelyek nullhipotézise, hogy az adott folyamat fehér zaj. Ezt a fenti példában elvethetjük. A ”Spectrum” opció segítségével a spektrumanalízishez szükséges periodogramhoz és a Bartlet-féle ablakhoz jutunk.
A spektrumanalízis nem képezi a bevezető statisztika kurzusok tananyagát, bár azt gazdasági idősorok elemzéséhez is használják (például üzleti ciklusok elemzéséhez). A spektrumanalízis
lényege, hogy az idősort frekvencia-tartomány alapú módon elemezzük. Ehhez a Fourier tételt használjuk fel, amely szerint bármilyen gyengén stacioner periodikus függvényt elő lehet állítani egymástól független sinus és cosinus függvények (azaz különböző frekvenciájú ciklusok) súlyozott összegeként. Más szavakkal: az idősorunkban megfigyelhető ingadozásokat (a varianciát) az egyes frekvenciák szerint bontjuk fel alkotóelemekre. Ezt az eljárást nevezzük spektrál- vagy spektrumelemzésnek. 5 A fenti ábrán, illetve a táblázatban megadott spektrális sűrűségfüggvény a legmagasabb értéket az idősorra leginkább jellemző (az idősor varianciáját legnagyobb mértékben magyarázni képes frekvenciájú ciklusnál) veszi fel (az IP idősort előbb differenciáltam a stacionaritás érdekében). A grafikon tetején a frekvenciákhoz tartozó időtávokat is megtaláljuk. Az első domináns frekvencia az 1, ami az IP idősor alacsony frekvenciájú komponense. A második domináns frekvencia a 69, ami kb. 10 hónapos ciklusnak felel meg. II.3.2. A „View”menűből elérhető grafikonok A „View” menűben összetettebb grafikonok készítésére is lehetőségünk nyílik. A „Graph specified graphs” opcióban pontdiagramokat (X-Y scatter) és idősorokat is készíthetünk, több változó bevonásával.
Amennyiben pontdiagramot szeretnénk készíteni, akkor a meg kell adnunk hogy mely változók helyezkedjenek el az X és az Y tengelyen:
5
Körülbelül ennyi szerepel erről a témakörről a Maddala-féle tankönyvben (Nemzeti Tankönyvkiadó, 2004) is.
Jelen példában az IP változót, mint a CPI függvényét ábrázoljuk. Az OK megnyomása után megkapjuk a pontdiagramot, amely a két változó közötti kapcsolatot szemlélteti:
A szoftver automatikusan egy lineáris regressziót is futtat, amelynek eredményét (illesztett értékeit) és az egyenletet a diagrammon meg is jeleníti. Ez segíthet eldöntenünk, hogy valóban szerencsés-e lineáris kapcsolatot feltételeznünk a változóink között. A grafikonra jobb egérgombbal kattintva elérhető gyorsmenüben az „OLS estimates” opcióval a grafikonon alkalmazott regresszió kimenetét hagyományos regresszióként is megjeleníthetjük.
Ehhez hasonló diagrammot kapunk ha az ”X-Y with impulses” opciót választjuk. Ez lényegében egy tűdiagram:
Az „X-Y with factor separation” opcióval olyan grafikonhoz juthatunk, ami egy bizonyos minőségi kategória alapján (ezt egy dummy változóval ragadjuk meg) különbséget tesz a megjelenített pontok között. Vegyük például a GRETL saját példafájlai között található engin.gdt fájlt. Ebben a thai mérnökök fizetésére, és egyéb jellemző adataikra vonatkozó megfigyeléseket találunk. Az egyik ilyen ismérv a megfigyelt mérnökök neme, amit a male dummy (dichotóm) változó ragad meg. Ez 1 értéket vesz fel, ha a válaszadó férfi volt, és 0 értéket, ha nő. Ábrázoljuk grafikusan a kapcsolatot a munkatapasztalat (exper) és a bér (wage) között és kezeljük kitüntetett minőségi ismérvként a válaszadó nemét (male)!
A megjelenő grafikon egy egyszerű pontdiagram lesz a wage és az exper változók között, azonban most azok a pontok, ahol férfiak voltak a válaszadók pirossal, ahol pedig nők, ott kékkel vannak megjelölve.
Azt figyelhetjük meg, hogy a kék pontok jellemzően az ugyanahhoz az exper értékhez tartozó piros pontok alatt vannak, tehát a női mérnökök ugyanolyan tapasztalat mellett alacsonyabb fizetést kapnak. Nyílván annak eldöntéséhez, hogy itt valóban nemi diszkriminációról van szó, ennél összetettebb modell lenne szükséges, a megfelelő hipotézisvizsgálatokkal (egy kétváltozós regresszió semmiképpen sem alkalmas eszköz ilyen kérdések eldöntésére). A „Boxplots” és a „Notched boxplots” opciókkal több változó dobozdiagrammjait jeleníthetjük meg egymás mellett. Ezeket külön nem mutatom be. Végül lehetőségünk van 3 változó közötti kapcsolat grafikus ábrázolására is, a „3D Plot” opció használatával. A példában a Green-féle példafájlok közül a 8_3-ast használom, amely egy Cobb-Douglas típusú termelési függvény becsléséhez szükséges adatokat tartalmazza. A kibocsátást (q), mint a tökeállomány (k) és a teljes tényezőhatékonyság index (A) függgvényeként ábrázoljuk:
A kapott grafikonon látható rácsos felületen helyezkednek el a megfigyelt kibocsátási adatok. A grafikont az egér bal gombjának lenyomva tartása mellett, az egér mozgatásával el is forgathatjuk. A grafikonról leolvashatjuk, hogy a kibocsátás mind k-ban, mind A-ban növekszik. A ”Multiple graphs” opciót bővebben nem tárgyalom, itt egyszerre több grafikon (idősorok és pontdiagrammok) elkészítésére van lehetőség, használata a fentebb leírtak ismeretében magától értetődő. II.3.3. A regresszió kimenetéről elérhető grafikonok Miután egy regressziót lefuttattunk a GRETL szoftverrel, lehetőségünk van speciális grafikonokat megjeleníteni, amelyek a regressziónk esetleges hibáinak diagnosztizálásában, a
modellezés sikerének megítélésében lehetnek hasznosak. Ezekről a következő fejezetekben az egyes módszerek tárgyalásakor esik szó. II.3.4. A grafikonok tulajdonságainak módosítása A grafikonok módosítására is lehetőségünk van. A grafikonon elérhető gyorsmenüben (egér jobb gomb) válasszuk az „Edit” lehetőséget:
A megjelenő ablakban elvégezhetjük a módosításokat:
Az első lapon („Main”) megadhatjuk a grafikon címét, a betűtípust, illetve módosíthatjuk a vonal színét. Az („X-axis”) és („Y-axis”) lapokon megadhatjuk, vagy módosíthatjuk az egyes tengelyek feliratait, és beállíthatjuk a tengelyen ábrázolt adatok alsó és felső korlátait. Ezzel például egy számunkra érdekes időszakra, vagy tartományra fókuszálhatjuk a grafikonunkat.
A „Lines” opcióval a grafikonon megjelenített vonal tulajdonságait módosíthatjuk. Nevet adhatunk neki (legend), meghatározhatjuk a típusát (vonal, pontok, ezek kombinációja, stb.), áthelyezhetjük az y tengelyt a jobb oldalra, és megnövelhetjük a vonal vasatgságát (line width):
A „labels” opcióval feliratokat helyezhetünk el a grafikonon. A felirat helyét meghatározhatjuk a kép koordinátái segítségével is, de a legegyszerűbb az egér ikon használatával egyszerűen kijelölni, hogy hol jelenjen meg a felirat. Végül az „output to file” lapon megadhatjuk, hogy a grafikont milyen formátumban mentse el a GRETL.
III.
Alapvető, egyegyenletes regressziós technikák
III.1. Legkisebb Négyzetek Módszere (OLS) III.1.1. Néhány előzetes megjegyzés Az Legkisebb Négyzetek módszerét (továbbiakban OLS) alkalmazását egy példán keresztül ismerjük meg. A példánkhoz a Stock és Watson (2nd ed.) féle példafájlok közül a Growth.gdt nevűt használjuk fel. Az adataink keresztmetszetiek (cross-section), mivel 65 országot figyelünk meg ugyanabban az időpontban. A feladatunk, hogy meghatározzuk, hogyan befolyásolják a gazdasági növekedést (growth) olyan tényezők, mint a nyitottság (tradeshare) 6 az emberi tőke ellátottság (yearsschool) 7 , illetve a politikai instabilitás amelyet a felkelések és puccsok számának (rev_coups) és a politikai gyilkosságok számának (assassin) 1960 és 1995 közötti éves átlagával ragadunk meg. Mivel ez az útmutató a GRETL ökonometriai alkalmazásáról szól, így elengedhetetlenül szólnom kell arról, mi teszi a statisztikai elemzésünket ökonometria jellegűvé. Az ökonometriai elemzést, hacsak nem pusztán előrejelzésre (forecasting) törekedünk, szilárd elméleti (közgazdasági) alapokon álló hipotézisekkel kezdjük. Az ökonometria célja nem az adatokban megtalálható információk feltárása, kinyerése (ez az adatbányászat feladata), hanem a közgazdasági ismereteink bővítése, a modellek tesztelése az adatok szisztematikus, elméletileg megalapozott elemzése útján. A társadalomtudományokban oly fontos ok-okozati összefüggések feltárását nem oldhatjuk meg pusztán statisztikai módszerekkel: eredményeinknek interpretálható tartalmat a háttérben meghúzódó elméleti modell ad. Egy ökonometriai eszközöket alkalmazó szakcikk mindig hipotézisek teszteléséről szól. A hipotézisünket pedig egy (akár verbális, akár formalizált) modell alapján, megfelelő irodalmi hivatkozásokkal együtt kell megadnunk. Ha több hipotézist is tesztelni szándékozunk, összefoglalhatjuk ezeket egy táblázatban. Ebben a konkrét példában: Változó Nyitottság (tradeshare) Iskolázottság (yearsschool) Puccsok száma (rev_coups) Politikai gyilkosságok száma (assassin)
Az együttható feltételezett előjele + + -
A regressziónkat szokásos függvényszerű formában is felírni (specifikálni): growthi = β 0 + β1 ⋅ tradesharei + β 2 ⋅ yearsschooli + β3 ⋅ rev_coupsi + β 4 ⋅ assassin i + ui III.1.2. Az OLS alkalmazása Az OLS eljárás „Model” menüpontból érhető el:
6 7
Az export és az import összege a GDP arányában. A lakosság átlagos iskolázottsága években (average years of schooling)
Ezután adjuk meg a változókat:
Az OLS eljárásnál, de általában minden regressziónál érdemes a „Robust standard errors” opciót kijelölni. Ekkor a jelentett standard hibák és t-statisztikák heteroszkedaszticitás és (idősorok esetén) autokorreláció robosztusak lesznek. 8 Az OK gombra kattintás után megjelenik a kimenetünk, amely a más statisztikai szoftvereknél már megszokott konvenciókat követi.
8
Ezek a fogalmak bármilyen bevezető ökonometriai tankönyvben megtalálhatóak. A robosztus statisztikák lényege, hogy ezek még heteroszkedasztikus és autokorrelált maradékváltozó esetén is megbízhatóak és hipotézisvizsgálatra alkalmasak.
Az egyes együtthatók hipotézisvizsgálatához szükséges t-statisztikákat és p értékeket a megfelelő együtthatóval egy sorban találhatjuk, a modell egészének megítéléséhez szükséges statisztikákat pedig a kimenet alsó részén. III.1.3. Az eredmények interpretációja Értelmezzük a regressziónk eredményeit! A modell illeszkedését az R2 statisztika segítségével jellemezhetjük, amely kb. 0,25. Ez azt jelenti, hogy a függő változónk szórásnégyzetének hozzávetőleg 25%-át magyarázta meg modellünk. Mielőtt ebből azt a következtetést vonnánk le, hogy modellünk teljességgel alkalmatlan bármilyen értelmes elemezés végrehajtására, érdemes tudnunk, hogy a legtöbb társadalomtudományokban alkalmazott keresztmetszeti regresszió esetében az R2 igen alacsony, általában 0,6 alatti értéket vesz fel. Idősorok esetében, ahol a variancia (szórásnégyzet) nagy része az adatokban jelenlévő trendből származik, ugyanakkor igen magas értékekkel találkozunk (0,9 felett). Önmagában tehát az R2 statisztika nem elegendő a modellünk megítéléséhez, különböző modellek összehasonlítására pedig végképp alkalmatlan. Az alacsony R2 általában azt tükrözi, hogy vannak olyan tényezők, amelyek ugyan befolyásolják az egyes országok gazdasági teljesítményét, mégsem jelennek meg a modellünkben. Hogy ez gondot okoz-e az attól függ, hogy milyen módon értelmezzük a regressziónk együtthatóit: az adott magyarázó változó jövedelmi egyenlőtlenségre gyakorolt marginális(vagy parciális) hatásaként (ceteris paribus, azaz minden más tényező rögzítése mellett), vagy pedig olyan hatásként, amely esetében a kihagyott változókat nem tekintjük rögzítetnek (azaz az együttható nem csak az adott változó hatását tartalmazza, hanem minden kihagyott, de a változónkkal korreláló változó hatását is). Amennyiben az első módon akarjuk eredményeinket interpretálni, a kihagyott változó (amelynek jelenlétére az alacsony R2 is utalhat) torzítást okoz (omitted variable bias). Ez alól az egyetlen kivétel az az eset, ha a kihagyott változók függetlenek (korrelálatlanok) a modellben lévő magyarázó változókkal. Ezt mindig elméleti alapokon kell tisztáznunk, de a legtöbb esetben abból indulhatunk ki, hogy a kihagyott változók összefüggnek a regresszorokkal. Ilyenkor vagy instrumentális változók alkalmazásával próbálkozunk, vagy kénytelenek vagyunk elfogadni, hogy a kihagyott változók hatása megjelenik az együtthatóinkban. Jelen esetben nyilvánvaló, hogy gazdasági növekedést sokkal több változó befolyásolja, mint amelyek explicit módon megjelentek a modellünkben, és így kénytelenek vagyunk a második megközelítést választani, azaz az együtthatókat óvatosan kell interpretálnunk (ld. alább).
A rövid elméleti kitérő után nézzük meg, hogy a fenti táblázatban szereplő hipotéziseink közül melyeket vethetjük el! Mindenekelőtt azt kell megállapítanunk, hogy modellünkben csak két együttható különbözik szignifikánsan nullától: a tradeshare, és az yearsschool. Ezt a p-értékek (0,001 és 0,008) valamint a sorok végén megjelenő csillagok (asterisk) 9 jelzik. A p-érték az elsőfajú hiba elkövetésének valószínűségét adja meg, azaz annak esélyét, hogy a nullhipotézist hibásan vetjük el (elsőfajú hiba). Más szavakkal, a pérték az a szignifikanciaszint, amely mellett még elvethetjük a nullhipotézist. Ez a nullhipotézis minden esetben az, hogy az adott együttható nem különbözik nullától, azaz, lényegtelen a függő változó szempontjából. A nyitottság és az emberi tőke ellátottság egyaránt a várt, pozitív együtthatóval bír. Ezekben az esetekben tehát a kezdeti hipotéziseink látszólag beigazolódtak. A politikai instabilitás együtthatói viszont láthatólag nem különböznek nullától, azaz jelen modellünk szerint lényegtelenek. A kihagyott változók miatt azonban a fenti modell interpretációja nem ilyen egyszerű: a lakosság átlagos iskolázottságának együtthatója például egész biztosan összefügg egyéb országspecifikus tényezőkkel (pl. az infrastruktúra és az intézményrendszer fejlettsége), amelyeket nem ragadtunk meg külön változóval. A következmény az, hogy ebben az együtthatóban ezeknek a tényezőknek is megjelenik a hatása, azaz nem állíthatjuk, hogy egy évvel magasabb iskolázottság önmagában valóban 0,22 százalékponttal magasabb növekedési ütemhez vezet - a valódi hatás ennél alacsonyabb. III.1.4. A regressziós eredményeken végezhető tesztek A Gauss–Markov tétel szerint az OLS csak akkor a leghatásosabb, torzítatlan lineáris becslés, ha néhány feltétel teljesül. Ezek a következők: 1. A hibaváltozó várható értéke zérus. 2. A hibaváltozó varianciája (azaz szórásnégyzete) független a magyarázó változóktól (azaz homoszkedasztikus). 3. A hibaváltozó különböző megfigyelésekhez tartozó értékei függetlenek (nincs autokorreláció). 4. A magyarázó változók exogének, azaz függetlenek a hibaváltozótól (nem hagytunk ki fontos változót, amely a regresszorainkkal korrelál – ld. II.1.3). 5. A magyarázó változók között tilos a tökéletes multikollinearitás, azaz egyik sem állítható elő a többi regresszor lineáris kombinációjaként (az X mátrix oszlopai lineáris függetlenek). A fenti feltételek közül az első mindig érvényesül az OLS eljárás esetében, az ötödik sérülése esetén, pedig a regresszió nem tudnánk elvégezni (magas, de nem tökéletes multikollinearitás viszont létezhet, és ez ellenőrizhető is). A második és a harmadik feltétel teljesülését képesek vagyunk ellenőrizni, míg az ötödik feltétel teljesülését elsősorban elméleti alapokon ellenőrizhetjük (bár léteznek eljárások az exogenitás tesztelésére is). Homoszkedaszticitás tesztelése Elsőként ellenőrizzük, hogy a hibaváltozónk homoszkedasztikus-e! Ezt ellenőrizhetjük grafikusan is, bár ez természetesen nem helyettesíti a formális tesztet. A maradékváltozónk grafikonját a regressziós kimenetünk „Graphs” menüjében érhetjük el, ahol azt is meg kell adnunk, hogy a maradékot mely változó függvényében kívánjuk ábrázolni. Ha azt 9
A hasonlóság nem véletlen, a rómaiak gall rémének neve a csillag karakter francia nevéből (asterisque) ered.
feltételezzük, hogy a hiba varianciája a lakosság átlagos iskolázottságával függ össze, akkor a yearsschool változót jelöljük ki:
Még ha a fenti grafikon alapján nem is lehet eldönteni, hogy az összefüggés az iskolázottság és a modellünk maradékának szórása között szignifikáns-e, az látszik, hogy a hiba szóródása a vérható értéke (azaz nulla) körül, nagyobb alacsonyabb yearsschool értékeknél, mint magasabbaknál. Ez heteroszkedasztikus maradékra utal. Egyszerűbben megfogalmazva: a modellünk jobban teljesít (kisebb a hiba szórása) olyan országoknál, ahol az emberi tőke minősége jobb, azaz magasabb a lakosság átlagos iskolázottsági szintje, mint a szegény és elmaradott országok esetében. A heteroszkedaszticitás mögött tehát mindig találhatunk elméletileg is érdekes és értelmes magyarázatot. A heteroszkedaszticitás ugyanis nem valamilyen hiba, hanem az adataink tulajdonsága. Ez a tulajdonság kihatással van az OLS
becslésünk hatásosságára, de alapvetően nem hitelteleníti az elemzésünket és nem is katasztrófa. A formális tesztet a „Tests” menüben érhetjük el:
A GRETL alapesetben a White-féle heteroszkedaszticitás tesztet végzi el, azaz a hibaváltozó négyzetét mint a magyarázóváltozók, azok négyzetei, és a különböző magyarázóváltozók szorzatainak függvényét modellezi le. Ezután együttes szignifikancia teszttel (LM teszt) határozza meg, hogy valóban heteroszkedaszticitásról beszélhetünk-e.
Az LM teszt p-értéke körülbelül 0,821, azaz nem tudjuk elvetni a nullhipotézist miszerint a hibaváltozónk homoszkedasztikus. Természetesen, függően attól, hogy mit feltételezünk a hibánk varianciája és a magyarázó változók közötti összefüggés függvényformájáról, másféle teszteket is alkalmazhatunk, ezeket azonban a GRETL automatikusan nem tudja elvégezni: a segédregressziókat magunknak kell lefuttatni az OLS eljárással. Az ehhez szükséges változókat (maradék, maradék négyzete, becsült értékek), a „Save” menüpontban tudjuk felvenni az adataink közé.
Ha például azt feltételezzük, hogy a maradék szórásnégyzete és magyarázó változók közötti kapcsolatot egy exponenciális függvény jobban megragadja, mint egy White-féle teszt kereszthatásokkal és négyzetre emelt magyarázó változókkal, akkor mentsük el a maradék négyzetét („Squared residuals”), amely megjelenik a változóink között. Vegyük logartimusát, és becsüljük meg a következő regressziós egyenletet: ln ui2 = α 0 + α1 ⋅ tradesharei + α 2 ⋅ yearsschooli + α 3 ⋅ rev_coupsi + α 4 ⋅ assassin i + vi
Amennyiben a modell együttesen szignifikáns, azaz maradék négyzetének várható értéke függ egy vagy több magyarázó változótól, heteroszkedaszticitásról beszélünk. Az együttes szignifikancia vizsgálathoz használhatjuk az F-próbát: a regressziós kimenetünk szerint az Fstatisztika 2,045, ami alapján 10%-os szignifikanciaszinten elvethetjük a homoszkedasztikus maradék nullhipotézisét. Alternatívaként az Lagrange-szorzós (LM) próbát is használhatjuk (ld. például a Ramanathan-féle tankönyvet). A maradékváltozó autókorrelációjának tesztelése A maradékváltozó autókorrelációjára vonatkozó feltevést szintén beépített teszttel ellenőrizhetjük. Idősor esetében a regressziónk kimenete automatikusan tartalmazni fogja a Durbin-Watson tesztstatisztikát. Mivel a fenti példában keresztmetszeti adatokat használtunk, erre nincs lehetőség, de egy idősoros példát választva, ezt a funkciót is áttekinthetjük. Legyen a példafájlunk a greene 5_1 jelű a Greene-féle tankönyv adatfájljai közül, amely az USA-ra
vonatkozó negyedéves idősorokat tartalmaz. Becsüljük meg az USA nominális pénzmennyiségének logaritmusát (az M1 aggregátummal mérve – l_M1) mint az árszínvonal (l_infl), a nominális kamatláb (tbilrate), és a reálkibocsátás logaritmusának (l_realgdp) függvényeként! 10 A következő eredményekhez jutunk:
A regresszió kimenetei között szereplő Durbin-Watson tesztstatisztika 0,135, ami pozitív elsőrendű autókorreláció jelenlétére utal. A DW statisztika alatt a szoftver jelenti a maradék az elsőrendű autókorreláció együtthatóját is, ami rendkívül közel esik egyhez. Természetesen van mód magasabb rendű autókorreláció tesztelésére is a Test menüpontban.
Itt megadhatjuk, hogy hanyad fokú autókorreláció szeretnék tesztelni. Negyedéves adatoknál legalább megyerendű autókorrelációt érdemes tesztelni (a szezonális hatások miatt):
10
Ez lényegében a mennyiségi pénzelmélet alapegyenlete (a Fisher-egyenletben szereplő forgási sebességet konstansnak tekintjük), amelyet a kamatláb bevonásával alkalmassá teszünk a spekulációs pénztartási motívum és a pénztartás alternatív költségének megragadására is.
A teszt kimenete minden lényeges információt tartalmaz: a Breusch-Godfrey teszt segédregressziójában a maradék mind a négy késleltetettjéhez szignifikáns együttható tartozik, azaz magasabb rendű autókorrelációt találtunk. Mivel a Durbin-Watson teszt csak elsőrendű autókorrelációt képes kimutatni, a magasabb rendű autókorreláltságot mindig érdemes külön tesztelni. Az LM teszt szintén elveti azt a nullhipotézist, miszerint a maradékváltozó nem autokorrelált. A kimenet utolsó sorában szereplő Ljung-Box Qstatisztika nullhipotézise szerint a maradékváltozó fehér zajként kezelhető. Ezt láthatóan szintén elvethetjük. Ebben a konkrét esetben a magas elsőrendű autokorrelációs együttható arra utal, hogy a regressziónk maradékában egységgyök van, azaz nem stacioner. Következésképpen, még ha az együtthatók a vártnak megfelelnek, a kapott eredmények nem hihetünk, valószínűleg hamis regresszióval van dolgunk (ld. tankönyv!). Ekkor érdemes az egységgyöktől differenciálással megszabadulni. Strukturális stabilitás tesztelése Előfordulhat, hogy a modellünk együtthatói idővel megváltoznak. Ennek sokféle oka lehet, például valamilyen külső hatás (háború, olajválság, technológiai fejlődés), vagy valamilyen intézményi, politikai változás (például a monetáris politika változása: mondjuk átmenet az árfolyamcélról az inflációs célkitűzés rendszerére). Azaz: számíthatunk rá, hogy modellünk „szavatossága” idővel lejár, egyenletünk együtthatói igen ritkán maradnak stabilak hosszútávon. A strukturális stabilitás tesztelésére több módszer is rendelkezésünkre áll. Mindenekelőtt az előbbi példában bemutatott regressziót most differenciálva futtatjuk le, azaz az egységgyök jelenlétét korrigáltuk. A regressziós kimenet a következő:
Chow-teszt Az egyik legalapvetőbb módszer a Chow-teszt (amelynet Gregory Chow 1960-ban publikált). A teszt lényege, hogy a mintánkat két részre bontjuk, mindkettőn elvégezzük a regressziót, majd összehasonlítjuk az eredeti regresszió és a rész-regressziók maradék-négyzetösszegét. A módszerhez szükséges, hogy előre ismerjük a strukturális törés valószínű időpontját, ami egyben a módszer gyengesége is. Jelen esetben feltételezhetjük, hogy a töréspont valahol az 1980-es években volt, amikor jelentős változások történtek mind a monetáris, mind a fiskális politikában. Ha ezt tesszük fel, akkor a Chow tesztet a következő módon végezhetjük el:
Ahol megadhatjuk a töréspontot. Legyen ez most például 1980:1!
Jelen estben a Chow-teszt nem tudta elvetni a strukturális stabilitás hipotézisét, azaz 1980 első negyedévében nem történt strukturális törés. Az eredmény hátterében az áll, hogy valójában a törés valódi időpontját nem ismertük. Ha azonban a Chow tesztet több esztendőre is elvégezhetnénk, akkor valószínűleg megtalálnák a most még ismeretlen töréspontot. Pontosan ezt a lehetőséget kínálja a QLR teszt: QLR teszt
A QLR teszt eredményeként szöveges kimenetként megkapjuk azt az időpontot, amikor a Chow teszt statisztikája a legmagasabb értéket vette fel.
Ezek szerint a törés valószínűleg 1985 első negyedévében következett be, és valóban, a szakirodalom tanulmányozás meg fog erősíteni minket abban, hogy ebben az évben a
pénzállomány GDP-hez viszonyított aránya jelentősen megnövekedett. A grafikus kimenet a Chow tesztstatisztikákat az idő függvényében ábrázolja:
A grafikon alapján arra a következtetésre is juthatunk, hogy a törés 1983 folyamán már megtörtént (1985-öt megelőzően van egy csúcs), és ha a Chow tesztet 1983 első negyedévére elvégezzük, ott valóban 1% szignifikancia szinten el tudjuk vetni a strukturális stabilitás hipotézisét. Következtetésünk szerint tehát valamikor 1982 után alapvető változás következett be a pénzkereslet összetevőiben (vagy éppen a monetáris politikában) amely miatt ugyanazzal az egyenlettel nem modellezhetjük a pénzmennyiség 1983 előtti és utáni alakulását. CUSUM és CUSUMSQ tesztek (CUSUM - cumulative sum - kumulált összeg) Brown, Durbin és Evans 1975-ös cikkükben javasolták a CUSUM strukturális stabilitás tesztet. A módszer lényege ebben az esetben is az egyenletet több időszakra megbecsüljük, majd a t-edik időpontra érvényes maradékot a t-1-ik időszakig tartó almintából (tehát a megfigyeléseink a 0. időponttól t-1-ig) becsült együttható felhasználásával becsüljük meg és standardizáljuk. Ezeknek a rekurzív módon kiszámolt standardizált reziduumoknak a súlyozott összege adja az adott időszakra érvényes tesztstatisztikát. Ha a kritikus értéket ez a statisztika abszolút értékben meghaladja, akkor el kell vetnünk a strukturális stabilitás nullhipotézisét. A teszt a menüből elérhető:
A tesztstatisztikák mind szövegesen, mind grafikusan megjelennek. A szöveges kimenetben csillag jelöli azokat az időpontokat, ahol a tesztstatisztika átlépte a 95%-os konfidencia intervallum határait (azaz 5%-os szingifikanciaszinten elvethetjük a strukturális stabilitás hipotézisét).
A grafikon szerint a strukturális törés 1980 után következik be. III.2. Regresszió a hiba heteroszkedaszticitása és autókorrelációja esetén III.2.1. Heteroszkedaszticitás korrekciója a súlyozott legkisebb négyzetek módszere (WLS) segítségével Ehhez a példához használjuk a labour2.gdt adatfájlt, amelyet a Verbeek tankönyv példaadatai között találunk. Ez 569 belga vállalatról tartalmaz megfigyeléseket: célunk hogy a belga vállalati szektor munkaerő keresletét modellezzük. Bármilyen bevezető közgazdasági tankönyv tartalmazza az ehhez szükséges elméleti ismereteket: a vállalat profitmaximalizációs
problémájának megoldása szerint a reálbár egyenlő a munka határtermékével. 11 Feltételezve egy kéttényezős termelési függvényt (K – tőke, L – munkaerő), nyilvánvaló hogy a keresleti függvényünkben a munkaerő iránti kereslet a tőkeállománytól, kibocsátástól (Y) és a bértől (w) függ. Az adataink keresztmetszetiek, azaz a hibaváltozó autókorreláltsága miatt nem kell aggódnunk, elegendő a heteroszkedaszticitás ellenőrzése. Szintén a keresztmetszeti adatok miatt eltekinthetünk a technológiai haladástól, hiszen azt most minden vállalatra azonosnak tehetjük fel (és minden megfigyelés ugyanarra az időszakra vonatkozik). A hipotéziseinket ismét táblázatban foglaljuk össze: Változó Az együttható feltételezett előjele + Tőkeállomány (capital) Munkabér (wage) + Hozzáadott érték (output) Először OLS eljárással becsüljük meg az egyenletet, hatványfüggvényt (log-log) feltételezve:
Mint megállapíthatjuk, a tőkeállomány kivételével (amelyik nem szignifikáns) minden együtthatónk előjele a várakozásoknak megfelelően alakul. Most ellenőrizzük a már ismertetett módon a maradékváltozó szórását, heteroszkedaszticitást keresve!
11
Ez persze megköveteli azt a feltételt, hogy a munkaerő mennyisége befolyásolja a határterméket, de a bér nem hat a termelékenységre. Ha ez másként van, ld. hatékonysági bérek (efficiency wages), akkor a munkaerőpiac már nem feltétlenül tart a teljes foglalkoztatottság felé.
A White-féle heteroszkedaszticitás teszt egyértelműen (1%-os szignifikancia szinten) elutasítja a nullhipotézist, azaz a hibánk heteroszkedasztikus. Kereshetünk intuitív magyarázatot erre a jelenségre: a teszt segéd-regressziójának kimenete szerint a munkaerő kereslet szórása pozitívan függ a tőkeállománytól: azaz minél tőkeerősebb (és nagyobb) egy vállalat, a modellünk annál kevésbé pontosan képes megbecsülni a munkaerő keresletét. A háttérben részben minden bizonnyal a szektorális különbségek állnak (gépesítés foka), de az is valószínű, hogy egy nagyobb vállalat a bevételeinek ingadozásait hosszabb ideig képes elbocsátások nélkül elviselni, mint egy kisvállalat, amely kénytelen sokkal rugalmasabban reagálni, és ahol a munkaerő is kevésbé szervezett. A segéd regresszióból becsült értékeket felhasználva, azokból súlyokat képezhetünk, amelyet az „Other Linear Models” menüpontból elérhető „Weighted Least Squares” opcióval használhatunk (a témáról bővebben a Ramanathan könyvben lehet olvasni, de standard órai anyag).
A másik, gyorsabb és kényelmesebb, lehetőség, ha a WLS alatt található „Heteroskedasticity corrected” opciót választva az egész eljárást a GRETL-lel végezetjük el. Az egyetlen engedmény amit tennünk kell, hogy a heteroszkedaszticitás függvényformáját nem határozhatjuk meg, a szoftver egy exponenciális, polinom függvényformát fog feltételezni. Ezzel az eljárással a következő eredményeket kapjuk:
Azaz, az OLS-szel ellentétben, most mindegyik együtthatót szignifikánsnak találtuk, bár a tőkeállomány együtthatója olyan kicsi, hogy ugyan statisztikailag szignifikáns az eredmény, közgazdaságilag ez a hatás elhanyagolható. II.2.2. Autókorreláció korrekciója Ehhez a témához ismét idősorra lesz szükségünk, tehát térjünk vissza a greene 5_1 példafájlhoz! Most egy egyszerű modellt vizsgáljunk, amelyben az árszínvonal (azaz egy nominális változó) és a rögzített árakon vett kibocsátás (egy reálváltozó) közötti kapcsolatot vizsgáljuk. Először futassuk le a regressziót OLS-szel!
Az eredményeink szerint az árszínvonal igenis magasabb reálkibocsátással jár együtt. Elfogadjuk-e ezt az eredményt? Nem. Mint korábban volt róla szó, ez a hamis (spurious) regresszió esete, azaz két egységgyököt tartalmazó idősor között akkor is találhatunk szignifikáns kapcsolatot, ha azok valójában függetlenek egymástól. Ilyenkor a változóinkból el kell távolítanunk az egységgyököt (differenciálással) és csak azután végezhetünk valid regresszióanalízist rajtuk. A hamis regresszió egyik jele a maradékváltozó magas pozitív autókorrelációja, amit a nullához közeli Durbin-Watsion statisztika is jelezni szokott. (Hüvelykujjszabály: ha a DW statisztikai kisebb, mint az R2, valószínűleg hamis regresszióval állunk szemben.) Vannak azonban olyan technikák is (jellemzően az egységgyök okozta problémák felvetése előtti évtizedekből), amelyek kifejezetten a maradékváltozó autókorrelációjának korrekcióját célozzák. Az első, talán legismertebb technika a Cochrane-Orcutt eljárás, amely egy kvázidifferenciáláson alapuló, iterációs technika. Tegyük fel, hogy a következő egyenletben: yt = α + β xt + ε t A maradék első fokon autókorrelált: ε t = ρε t −1 + vt ahol vt fehér zaj és ρ az elsőrendű autókorrelációs együttható, amelynek valódi értékét azonban nem ismerjük pontosan. A kvázi-differenciálás a következő módon írható fel: yt − ρ yt −1 = (1 − ρ )α + β ( xt − ρ xt −1 ) + ε t Az első lépésben ρ-t az OLS egyenlet maradékából becsüljük meg. Ezután megbecsüljük a kvázi differenciált regressziót, és az alapegyenletbe már az ebből kapott együtthatókat helyettesítjük be. Ebből ismét maradékot számolunk, és meghatározzuk az elsőrendű autókorrelációs együtthatót. Következő lépésben ezzel az új együtthatóval végezzük el az
eljárást. Az ismétléseket (iterációkat) addig folytatjuk, amíg a becsült ρ lépésről-lépésre haladva már nem változik tovább lényegesen. Ezt a küszöbértéket mi magunk határozhatjuk meg.
A korrekció befejezése után a következő eredményekhez jutunk:
Láthatjuk, hogy a programnak 6 iterációra volt szüksége, hogy meghatározza ró értékét. A fenti eredmények szerint, miután a maradék elsőrendű autókorrelációját korrigáltuk (amelyet a jóval magasabb DW statisztika is jelez), azt találjuk, hogy az árszínvonal együtthatója nem szignifikáns. A második közismert technikai Hildreth és Lu nevéhez fűződik. Ez az eljárás különböző ró értékek mellett (tetszőlegesen kis lépésekben haladva) kiszámolja az eltérés négyzetösszeget T
∑ε t =2
2 t
. Azt a ró értéket választjuk, amely mellett ez minimális. A Hildreth-Lu eljárás sokkal
számítás igényesebb, mint a Cochrane-Orcutt, viszont globális megoldást keres a ró értékére. Hildreth-Lu eljárással a következő eredményekre jutunk:
A GRETL grafikusan is megjeleníti az eljárást: láthatjuk, hogy az eltérés-négyzetösszeg folyamatosan csökken ahogy egyre magasabb elsőrendű autókorrelációs együtthatót feltételezünk. A minimumot 0,999-nél éri el, tehát ezt a ró értéket választjuk.
A regresszió kimenete annyiban módosítja az Cochrane-Orchutt eljárásból származó eredményeinket, hogy most azt találjuk, hogy a magasabb árszínvonal általában alacsonyabb kibocsátási szinttel járt együtt az USA-ban. Az autokorreláció korrekciója után tehát most is az eredeti OLS-szel becsült paraméterektől gyökeresen eltérő eredményekre jutottunk. Az autokorreláció korrekciójára azonban a legszélesebb körben a Prais-Winsten (vagy YuleWalker)-féle becslési technikát alkalmazzák. Ez az eljárás lényegében a GLS egyik fajtája, azaz minden változónkat úgy súlyoz, hogy a feltételezett elsőrendű autókorrelációt korrigálja. A súlyok a ró értékétől függnek, és így szintén egy iteratív eljárásról van szó.
A Prais-Winsten regresszió esetében az találjuk, hogy a magasabb árszínvonal általában magasabb kibocsátással járt együtt, de az együttható kisebb, mint az OLS esetben. Összegzésül azt állapíthatjuk meg, hogy a fentebb megismert eljárások meglehetősen különböző eredményekre vezethetnek. Valójában a korábban felvetett kérdésre, azaz az árszínvonal és a reálkibocsátás kapcsolatára ezek alapján nem lehet következtetni. További hátrány hogy ezek az eljárások csak statikus modellek esetén használhatóak (a függő változó késleltetettje nem szerepel a jobb oldalon), és fel kell tételeznünk, hogy a maradékváltozónkban csak első rendű autókorreláció van. Szintén érdemes azon is elgondolkodnunk, hogy az autókorreláció általában a rossz modellspecifikáció jele, és ilyenkor nem a korrekció, hanem a korrekt modell megtalálása a megfelelő megoldás.
IV.
Egyegyenletes idősoros technikák
IV.1. Egységgyöktesztek IV.1.1. Stacionaritás jelentősége Egy idősor akkor stacioner szigorú értelemben, ha valószínűség-eloszlása minden időpontban ugyanaz. A gyakorlatban a stacionaritás gyenge definícióját (kovariancia stacionaritás) alkalmazzuk, mivel ez könnyebben tesztelhető. Eszerint egy idősort akkor tekintünk gyenge értelemben stacionernek, ha várható értéke (átlaga), és varianciája időben nem változik (azaz nem függ a megfigyelés időpontjától), és két megfigyelés kovarianciája csak a két megfigyelés időbeli távolságától, de nem azok időpontjától függ. Ez utóbbi nyilvánvalóan szükséges feltétele annak, hogy az adott idősorról egy értelmes/használható korrelogrammot tudjunk készíteni (lásd II.3.1). Definiáljuk a következő elsőrendű differenciaegyenletet: yt = α + ρ yt −1 + ε t Ha |ρ|>1, a folyamat explozív. Ebben az esetben bármilyen külső hatás (sokk vagy innováció) éri a rendszert annak hatásai idővel egyre nagyobbak lesznek; a rendszer teljesen instabil. Ha |ρ|=1, a folyamatban egységgyök van. Ebben az esetben bármilyen külső hatás (sokk vagy innováció) éri a rendszert annak hatásai időben állandóak és megmaradnak; a rendszer szintén instabil.
Ha |ρ|<1, a folyamat konvergens vagy trendhez visszatérő (trend reverting), azaz a külső hatás (sokk vagy innováció) éri a rendszert annak hatásai idővel egyre csökkennek és a rendszer stabil. Az alábbiakban különféle eseteket szimulálok:
Folytatása következik