Tisztelt Olvasó ! Jelen oktatási anyag az ökonometria főbb statisztikai módszereinek a bemutatása céljából, a módszertani elvek, az alkalmazott algoritmusok működésének megértését és az adatállományok megfelelő elemzését segítendő készült. Ennek érdekében a könyv szándéka: 1.
Az elemzendő gazdasági – társadalmi problémát megfogalmazni,
2.
a hozzá tartozó adatállomány struktúráját bemutatni,
3.
részletes számításokkal, becslésekkel alátámasztani az alkalmazott módszertani hátteret,
4.
végül Függelék jelleggel csatolni információkat a részletesebb módszertani követhetőség érdekében.
Alapvető cél, hogy olyan ökonometriai módszerek kerüljenek tárgyalásra, melyek a modern közgazdasági-társadalmi problémák megoldására alkalmasak. Az egyes statisztikai elvek, módszerek esettanulmány/példa jellegűek, mindig egy megfelelő specifikus adatállomány, probléma köré szervezve. A könyv hazai gazdasági-társadalmi adatokat alkalmaz és alapvető statisztikai-matematikai ismeretekre támaszkodik.
1
Bevezetés Statisztikai módszerek gazdasági-társadalmi környezetben ökonometriai célú elemzéseket és előrejelzéseket eredményez.
való
alkalmazása
A koncepció modell szemléletű, melynek feladatai – főbb mozzanatai – rendre az alábbiak: • Szakmai (közgazdasági, marketing, pszichológiai, stb.) indíttatású modellek, hipotézisek megfogalmazása. • A hipotetikus modellek elméleti alkotó elemeinek empirikus, statisztikai becslése. • A becsült modellek statisztikai tesztelése, aminek során arról döntünk, hogy a modell részletei adekvátak-e az adatokkal, vagy sem. • Az adekvát modellek sorából kiemelendő az, mely diagnosztikailag is megfelelő, és ugyanakkor a legjobb előrejelző. • A kiválasztott modell két fő alkalmazási célja: • előrejelzés (prognózis, predikció) készítése, • elemzési célú hatásvizsgálat, ok-okozati kapcsolatokra építve.
2
Keresztmetszeti adatelemzés A keresztmetszeti adatelemzés alapvetően – módszertanilag – abban különbözik az idősori hatásokat is tartalmazó adatok elemzésétől, hogy az állományt alkotó megfigyelések egymás utáni felsorolásának a sorrendje érdektelen, tehát nem tartalmaz ordinalitást. Így mindazon módszertanok, melyek az ordinális sorrend jelenlétére (pl. időbeliség) támaszkodnak, itt értelmüket vesztik (lásd pl. később az idősori DurbinWatson tesztet). Minden statisztikai-modell alapja (pillére) a lineáris regresszió, ezért ezen módszer részletes bemutatásával kezdjük a tematika tárgyalását. Szubjektív döntés eredménye, hogy végül melyik konkrét modellt választjuk alkalmazásra. Természetesen ebben statisztikai tesztek és diagnosztikák segítenek. A statisztikai elemzésben általában a hangsúly nem a vizsgált változó (dependent, target, regressor, predictor) konkrét értékén van, hanem az illető jellemző egymástól élesen elkülönülő kategóriáinak egyikéhez való tartozás a lényeg. Ez a „categorical” kimenet értelemszerűen megjelenhet egy oksági modellnek mind a magyarázott bal oldalán, mind a magyarázó jellegű jobb oldalán. Ennek megvalósítása az aktuálisan alkalmazott statisztikai módszertan megfelelő megválasztását igényli. Továbbmenve, a valóság nemlineáris, ezért ezt a tényt is kezelni kell tudni megfelelő nemlineáris modellek alkalmazásával. A minél alkalmasabb modell meghatározása és kiválasztása optimálási feladat, vagyis célfüggvény kérdése. Ennek során két értelmes cél lehet: 1.
a modell hibájának a minimalizálása, vagy
2.
az általa szolgáltatott eredmények hihetőségének a maximalizálása.
A korlátozott értékkészletű eredmény változók modellezése központi kérdésű az ökonometriában, mert jelenlétük természetes, kézenfekvő. Például gépkocsi használat nélkül zéró az üzemanyag költség magas jövedelem mellett, vagy, hogy egy vállalkozás csődbe megy, vagy nem (kimenet) összefügg a gazdálkodásával.
3
A hiba minimalizálása Az ökonometriai elemzés alapvető statisztikai módszere a regresszió számítás, akár lineáris, akár nem lineáris az aktuális modell. A regressziós modell alapvetően egy függő jellegű eredmény, és több független jellegű, szerepüket tekintve előrejelző (predictor, magyarázó, független) változók kölcsönhatására bontható. Míg a függő változó, mint elemzési cél adottság, a független, a vizsgált jelenséget magyarázó változók induló körének megadása már szakmailag szubjektív. Ebből a végső, releváns magyarázó-kör kialakulása statisztikai alapú, objektív szelektálás eredménye, tehát döntési probléma. A lineáris regresszió minden ökonometriai-statisztikai modell alapvető módszere. Egy statisztikai modell mindig hibával jár, amely hiba mértékét az ún. reziduális, maradék érték számszerűsíti. A legkisebb négyzetek módszer a modell összesített négyzetes-hibáját minimalizáló eljárás, melynek során: 1. A reziduális változó normális eloszlása követelmény akkor, ha az empirikus modell becsült jellemzőire valószínűségi állítást (hipotézist) kívánunk tesztelni, vagy megbízhatósági intervallumot kívánunk megadni. 2. Két statisztikai adatsor egymás melletti (akár keresztmetszeti, akár idősori) „együtt ingadozása” jelenthet valódi ok-okozati kapcsolatot, de takarhat ok-okozati kapcsolat nélküli, ún. „hamis együtt ingadozást” is. 3. Az előrejelzett pontbecslés mellett annak szűk, intervallum-kiterjesztésű megadása alapvető igény!
4
A többváltozós lineáris regresszió terminológiája, jelölésrendszere A vizsgált Y jelenség, a függő, dependent változó, példánkban a budai használt lakások kínálati ára, ahol i a lakások indexe, n a megfigyelések (lakások) száma (a mintaméret), míg j az Y árat magyarázó independent, predictor, vagy regresszor jellegű X magyarázó változók indexe. A lineáris regressziós modell alapvetően a várható Y értéket – most a várható kínálati árat – hivatott modellezni az X predictor változók lineáris kombinációja alapján, de előrejelzési hibák óhatatlan elkövetése mellett. A várható lakásár alakulását az X predictorok alakulásával a βj parciális regressziós koefficiensek kapcsolják össze, ok-okozati viszonyt definiálva, majd számszerűsítve. A Y lakásárat a regressziós modell az alábbi összetevőkre bontja: 1.
A predictorok hatása: β1X1+ β2X2+…+ βkXk a modellbe bevont predictorok együttes lineáris hatása.
2.
A torzítás mértéke: a β0 paraméter, mely a modellből kimaradt változók átlagos hatását sűríti. Ez konstans abban az értelemben, hogy mértéke minden lakás mellett „Constant”, egyforma. Megszokott hivatkozásai e faktornak: „Constant, Const, Intercept, Tengelymetszet, Konstans”.
3.
Az egyedi hiba: Az átlagos hibán felül marad még egy egyedi (értsd lakásonkénti), de összességében lehetőleg minél kisebb hiba, a maradék, az εi error veszteség, vagy másképpen eltérésváltozó, vagy további megszokott terminológia szerint a „véletlen hatás”. Ez másik megnevezéssel és jelöléssel az „u-unexplained” változó. Utóbbi megnevezést és jelölést alkalmazza a Gretl ökonometriai regressziós program.
Az 1. és 2. pont együttesen a lineáris prediktor: β0 + β1X1+ β2X2+…+ βkXk , mely az egyes prediktor értékek, szintek ismeretében adja a lineáris előrejelzést (az ún. „predicted value” értéket). Ez a lineáris prediktor az Y eredményváltozó X magyarázó változók szerinti feltételes várható értéke: E(Y|X). A lineáris prediktor becsült értéke (azaz a regresszió számított értéke) az ún. „lineáris score”. A becsült paraméterek összes száma a modellben p=k+1, ahol a predictor jellegű változók száma k. Predictor változóként példánkban 7 szerepel, de a modell 8 változós, mert a 8. utas az Y lakásár. A terminológia szerinti Y függő (eredmény) és X független (magyarázó) változók megszokott megnevezései alkalmazási területtől függően – a nemzetközi irodalomban: Dependent, Explained, Predictand, Regressand, Response, Outcome, Endogenous,
Independent, Explanatory, Predictor, Regressor, Stimulus, Covariate, Exogenous.
5
Lakásáralku Tekintsük példaként egy budai, használt, eladásra kínált X lakás „arculatát”: X = [ Terület=70m2, Terasz=5m2, Szoba=2, Félszoba=1, Fürdő=1, Emelet=2, Tájolás=Déli ] amely mellett a várható Kínálati_Ár a predictorok alapján – lineáris modell szerint becsülve: 26.77 MFt. Kérdés, hogy milyen felső árról indulunk, és meddig engedünk: a regressziós becslési feladat következő lépése tehát az induló kínálati ár, majd az áralkut záró ár szintjének a meghatározása. A statisztikai alapú megoldás: a feltételes várható kínálati ár 95% konfidencia intervallumának a meghatározása. Ennek során: a pontbecslés standard hibája SE=0.91, mellyel a 95% CI felső határ CIU = 26.77 + 1.96*0.91 = 28.56, az alsó határ pedig CIL = 26.77 - 1.96*0.91 = 24.98MFt. Tehát az alku folyamat során a CIU értékről indulunk, és legfeljebb a CIL értékig engedünk. A módszertani részleteket a további oldalak, fejezetek magyarázzák.
6
A „Klasszikus Legkisebb Négyzetek” módszer paraméterbecslés Az adatállomány első oszlopa (i-index) a kínált lakások sorszámait, a második pedig a kínálati áraikat (Y) tartalmazza. A következő oszlopok a magyarázó X változók értékeit tartalmazzák. Figyeljük meg, hogy az első három lakás, majd a következő kettő egyforma X struktúrával rendelkezik, csak a kínálati árban változnak, feltételes eloszlásokat alkotva! A déli fekvés (1,0) kimenetű változó elnevezése a statisztikában indikátor változó, mely valamely tulajdonság meglétét 1, hiányát pedig 0 értékkel rögzíti. Másik szokásos elnevezése dummy változó. A regressziós koefficiensek az adatok felett a fejrovatban jelennek meg. A koefficiensek alkalmazása kétirányú: egyfelől i) előrejelzés, másfelől ii) érzékenységi hatásvizsgálat. Az előrejelzési feladat: Az első lakásra végzett Ár becslésünket mutatja az első sor predictor értékeiből következő lineáris Pred.Ár score: 10.47 millió forint. A reziduum ezen lakás kínálati árának és az előrejelzésének a különbsége. A kivonással nyert hiba 0.23 millió forint. Ahogy haladunk a drágább lakások felé, a hiba nagyságrendje is változik. Ha valamennyit összeadjuk, az összeg mindig zéró (ezt a lineáris OLS modell biztosítja) tehát ezt nem lehet minimálni, ezért négyzetre emelve keressük a hibák minimumát. Azon paramétereket választjuk, melyek mellett a hibák négyzetösszege minimális. Ez a legkisebb négyzetek elvén alapuló paraméterbecslés, ahol a négyzetre emelés „bünteti” a kiugró, ún. „outlier” hibákat, felnagyítva azok hatásukat. A módszer megnevezése: Ordinary Least Squares. Az elemzési feladat: Elemzésre is alkalmasak a modell koefficiensei, ha szignifikánsak. Tartalmilag parciális regressziós koefficiensek, ceteris paribus (c.p.) értelmezéssel. E koefficiensek – mert most a modell lineáris – marginális hatások. Mivel a marginális hatás az Y jellegű Ár változó megfelelő magyarázó változója szerinti parciális derivált, ez most lineáris modell mellett maga a regressziós paraméter, becslése így a megfelelő koefficiens. Például az alapterület koefficiense 0.309, vagyis, ha az alapterület c.p. 1m2-rel magasabb, akkor a kínálati ár várhatóan 0.309 MFt-tal drágább. Vegyük észre, hogy a lineáris modellben a marginális hatás Lakás_X_jellemző-független! Egy másik alapvető érzékenység-vizsgálati irány a rugalmasság, elaszticitás mérése. Itt a kérdésfeltevés, hogy az Xj magyarázó változó 1százalékos emelkedése hatására – az X változók szintjeinek rögzített kombinációjából indulva – c.p. a pred.Y előrejelzés százalékos mértékben hogyan reagál. Értéke formálisan Marginális hatás / Átlaghatás. Például az első lakás alapterülete esetén El.(Ár, Terület) = 0.309/(10.47/32)=0.945. E szerint, ha az alapterület 1% növekedést mutat c.p., ez az Árban várhatóan 0.945% emelkedést eredményez az első három lakáskategória csoportban. Figyeljük meg, hogy az eredmény közvetlenül százalékos értelmű és hogy a lineáris modellben a rugalmasság Lakás(X_jellemző) függő.
7
Az illeszkedés vizsgálata: A mintabeli modell előrejelzéseinek magához a mintához való illeszkedését az Előrejelzett v.s. Megfigyelt Y(Ár) értékek közötti r2 determinációs együttható jellemzi, aminek értéke r2(pred.Y,obs.Y)=0.8122. Ez egyben többszörös R2 determinációs együttható, mivel pred.Y – lévén lineáris kombináció – egyidejűleg a magyarázó változók kombinált hatását sűríti. Értelmezését tekintve, a modell X predictorai az Ár alakulását 81.22 százalékban magyarázzák.
7
A legkisebb négyzetek OLS (Ordinary Least Squares) becslési módszer jelölései A standard regressziós modellben az X predictorok előre rögzített [ xi1, xi2,…, xij,…,xik ] variánsai mellett végzünk véletlen megfigyelést az Y függő változóra, ahol az i. megfigyelés (lakás) eredményeként az yi mintaelem (lakásár) adódik. Az (y,x) kisbetűs jelölés a továbbiakban az (Y,X) jelenségek manifesztálódott értékeire, a becslési szándékra pedig a ^ kalap (hat) hangsúly utal, ami a becsült értéket (predicted value) jelenti. Példánk alapvető szándéka a lakásár előrejelzése a becsült koefficiensek ismeretében. A függő változó várható értékének az előrejelzését az ún. lineáris score adja, a b regressziós koefficiensek, mint súlyok alkalmazásával:1 ŷ = b0 + b1 x1+ b2 x2 + … + bk xk . A b jelölés kifejezetten a regressziós Béta paraméter OLS becslésére utal. A hibaváltozó becsült értéke az „e” tapasztalati reziduum: e=y-ŷ Az OLS modell a reziduális négyzetösszeget minimálja a regressziós koefficiensek tekintetében. Jelen példában valamennyi lakásnál az elkövetett „e” hibát négyzetre emeli, ezek SSE (Error Sum of Squares) összegét minimálja a becsült b koefficiensek tekintetében. Más szóval az OLS paraméterbecslés mindig azt a , , , ... koefficiens vektort szolgáltatja eredményül, amely mellett a modell hiba-négyzetösszege minimális, miközben: 1.
A legkisebb négyzetekkel nyert reziduum a mintában biztosítottan korrelálatlan a magyarázó változókkal, és átlaguk zéró, ha a modell tartalmaz tengelymetszetet.2
2.
Ha nincs tengelymetszet a modellben, akkor az OLS kritérium szerint sem az átlagos zéró reziduum, sem a zéró korreláció kritérium teljesülése nem biztosított a becsült modellben.
1
Vegyük észre, hogy az eredményváltozóra adott regressziós becslés a feltételes várható érték becslése. A hangsúly azért fontos, mert készíthetünk a centrális tendencia más paraméterére, pl. a robusztus mediánra is regressziós becslést. 2 A zéró átlag tulajdonság abból fakad, hogy – intercept jelenléte esetén – a tapasztalati OLS reziduumok összege zéró.
8
A véletlen hatás forrásai Az ε eltérés változóban megtestesülő előrejelzési hiba maradékként adódik, az Y tényadat ismeretében. Tekintettel tartalmára, szokásos – szinonim – megnevezései: 1. Eltérés, vagy reziduális változó, 2. Hiba (error term) változó, 3. Véletlen (random term) változó, 4. Zaj (noisy) változó, 5. Innováció az idősorban. A további tárgyalásokban mindegyik terminológia megjelenik, a szövegkörnyezet, és az alkalmazott adatállomány jellegének a függvényében. A „véletlen” és „zajos” megfogalmazások arra utalnak, hogy megfelelő előrejelzés mellett a „maradék” már véletlenszerűen kell alakuljon abban az értelemben, hogy a magyarázó változók tekintetében tovább már nem modellezhető. A véletlen változó a modell átlagos torzításától vett véletlen egyedi eltéréseket számszerűsíti. Praktikus modell nem működik hiba nélkül. A hiba főbb forrásai: 1. Lényeges okot, magyarázó változót kihagytunk a modellből: nem mindegy a fűtési rendszer, a lakás övezete, közlekedése, stb., ami jelen modellben nem került figyelembe vételre. 2. Fölösleges változót szerepeltetünk a modellben: a szobaszám minden bizonnyal redundáns információt hordoz, mert magasabb alapterület többnyire (nem mindig) magasabb szobaszámmal és így magasabb árral jár együtt, miközben az árat valójában az alapterület mozgatja. 3. A lineáris függvénytípus nem alkalmas az ár alakulásának a leírására, például az emelet függvényében. 4. Nem megfelelő proxy (helyettesítő) változót alkalmaztunk az Övezet leírására. Helytelen proxy választás az Övezetet a Kerülettel azonosítani. 5. Modellkövetelmény szerint a véletlen változó várható értéke zéró, és korrelálatlan a magyarázó változókkal. Egyedül az Y eredményváltozóval korrelál: intuitíve, extrém, outlier árakhoz – legyen akár alacsony, akár magas – az elkövetett hiba is értelemszerűen, arányosan alacsonyabb, illetve magasabb. A predictorral való korrelálatlanság követelménye az ún. „Exogenitási” kritérium. A követelmény a kritérium teljesülését formálisan az Xj magyarázó változó és az ε hibaváltozó közötti zéró kovariancia formában fogalmazza meg. Fontos részlet, hogy az exogenitási követelmény empirikusan manifesztálódik az OLS módszer alkalmazásakor, de nem biztosított a változók elvi kapcsolataiban, közgazdasági megfontolásokat és statisztikai tesztelési és becslési meggondolásokat és megoldásokat igényel.
9
A hibacsökkenés heurisztikus mérése A táblázat Modellek című oszlopában találhatók az alapmodellek. A második oszlop közli az egyes hibaforrások hibáit. Itt az „SS” jelölés a négyzetösszegre (Sum of Squares) utal. A harmadik oszlop az egyes hibatípusokhoz tartozó hibákat az extrém nagy hiba (null modell) százalékában fejezi ki. A felső sorban a Totális hiba, vagyis a null (intercept only, másik szóhasználattal üres) modell hibája szerepel. Az „üres”, „null” modell a konstans tagon kívül nem tartalmaz szakmai-gazdasági X predictort, amik szórnák az árakat, vagyis minden megfigyelésre (most lakásra) azonos, konstans előrejelzést ad, ami OLS becslés esetén egyben a számtani átlag. Ennek oka, hogy az OLS négyzetösszeget minimál, és a számtani átlag „négyzetes minimum” tulajdonságú. Így az üres modell konstans tagjának OLS becslése értelemszerűen maga a számtani átlag, esetünkben az átlagos kínálati lakásár. A 7 magyarázó változó hatására – melyeket bevontunk a modellbe – ezen aktuális tárgyi modell SSE értéke lett a minimált hiba. Az üres induló, majd az aktuális tárgyi modell hibáinak különbsége adja a modellbe bevont predictoroknak köszönhető csökkenést az induló hibában. Mint említettük, az utolsó oszlop utolsó sora ezen javulás százalékos megoszlását közli. A többszörös determinációs együttható definiálása Az R2 többszörös determinációs együttható klasszikus definíciója a regressziós hibacsökkenés százalékos mértéke: R SSR/SST 1 SSE/SST . Az R2 mutató tehát megadja, hogy az aktuális modellünk illesztésével a maximálisan elérhető hibacsökkenés (SST) hány százalékát sikerült abszolválnunk. Értéke 0 és 1 közé esik (0100%). Az R2 mutatót a modell magyarázó erejeként értelmezzük. Másik megközelítésben az R2 megadja, hogy tárgyi modellünk az Y mintabeli szóródását hány százalékban magyarázza.1 A használt lakások kínálati árára illesztett OLS modellünk R2 értéke 81.22%. Ez a fentiek értelmében azt jelenti, hogy a 7 lakásjellemző figyelembevételével a maximálisan lehetséges hibacsökkenés 81.22%-a valósult meg. Ha újabb paramétereket (X predictorokat) vonnánk be a modellbe, akkor tovább csökkenne az aktuális hiba. Kérdés, hogy jelentősen, vagy elhanyagolhatóan csökkenne-e a hiba? Megéri-e újabb változót, paramétert bevonni? A hibacsökkenés elméleti korlátja az ún. szaturált (saturated) modell elérése. A szaturált modell annyi paraméterrel van feltöltve, mint amennyi a mintabeli reprodukálandó információk száma. Így az előrejelzése perfekt, hibátlan, és az OLS becslés esetén a hiba értelemszerűen zéró: SSszaturált=0. A szaturált modellnek - mint szélső esetnek - természetesen csak viszonyítási alap szerepe van: jó illeszkedés érdekében ehhez a modellhez kell minél közelebb kerülni, de minél kevesebb paraméter alkalmazásával. Ez a modellépítés takarékossági, vagy parszimónia alapelve. Minél több paramétert „költünk el” az illeszkedés jóságának a javítása érdekében, annál közelebb kerülünk a szaturált modellhez, de annál kevésbé alkalmas a modell a mintán kívüli megfigyelések előrejelzésére.
10
A tanuló minta a rendelkezésre álló teljes minta azon szegmense, melyhez a modellt a paraméterek optimális becslése érdekében illesztjük. A teszt minta ezzel szemben a teljes mintának a tanuló mintán felüli azon része, amely elkülönítése arra szolgál, hogy a becsült modell előrejelző képességét torzításmentesen ellenőrizzük. A tanuló minta triviális esetben (leválasztás nélkül) egybeesik a teljes mintával. 1Felhívjuk
a figyelmet, hogy az R2 illeszkedés-javulásként (magyarázó-erőként) való értelmezése, illetve intervallum megjelölése feltételezi, hogy konstans tagot is tartalmazó OLS modellről van szó. Más becslési eljárások, illetve konstans tag hiánya esetén az SSR, SSE és SST ugyan számítható, azonban a belőlük képzett R2 elveszti a fenti tartalmát, és a (0-1) intervallumon kívülre is eshet.
10
A függetlenség vizsgálat ANOVA (Analysis of Variance) tesztje Az ANOVA teszt arra szolgál, hogy teszteljük a modell globális előrejelző képességét. Null hipotézise azt állítja, hogy a jelöltek közül egyetlen X predictor sem releváns a modellben. Az alternatívája szerint legalább egy predictor fontos. A teszt végrehajtásának praktikus igénye akkor jelentkezik, ha relatíve, „szemre” kicsiny az R2 értéke. Az ANOVA null és alternatív hipotézise az üres null modellt állítja szembe az aktuális modellel. A teszteléshez a magyarázott (explained) v.s. nem magyarázott (unexplained) hatások összevetésére képezünk egy törtet (lásd a formulát alább). A számlálóba a hibacsökkenésnek az egy bevont parciális paraméterre eső fajlagos értékét helyezzük (SSR/k), mely azt mutatja, hogy az alkalmazott predictorok átlagosan milyen mértékben járultak hozzá a hiba csökkenéséhez. Ezzel szemben a nevezőbe a megmaradt (ledolgozandó) hibának az egy, még a szaturált modell eléréséig bevonható paraméterekre eső fajlagos értéke kerül: SEE/(n-k-1). A tört számlálóját és nevezőjét egyaránt elosztva SST-vel, valamint felhasználva a többszörös determinációs együttható formuláját, az R2 összefüggéshez jutunk. ⁄ ⁄
⁄ 1
⁄
⁄ ⁄
⁄ 1
1
⁄
1
∼
,
n−p)
A teszt-statisztika – mely nem lehet negatív – H0 érvénye mellett F-eloszlást követ. Magas F-érték releváns, alacsony pedig irreleváns modellre utal. A zéró közeli és zéró távoli F-értékek elhatárolása végett szükséges egy kritikus F-érték megadása előre rögzített alfa (konvencionálisan alfa=5%) szignifikancia (döntési) szinten. A kritikus F-érték megadása az F-eloszlás sűrűségfüggvényének az alakját, tehát az F-statisztika számlálója és nevezője szabadsági fokának - mint paramétereknek - az ismeretét, és a szignifikancia (döntési) szint rögzítését igényli. Az F-eloszlás sűrűségfüggvényének az alakját tekintve enyhén balra csúcsosan aszimmetrikus, mint az ábra mutatja. A számláló szabadsági foka a lenullázott magyarázó változók száma, ami esetünkben k=7, a nevező szabadsági foka pedig a mintaméret mínusz a becsült paraméterek száma, ami n-k-1=n-p, esetünkben 642-8=634. Példánkban a számított F-érték 391.8. Kérdés, hogy ez zéró közeli, vagy zéró távoli értéknek minősül, ahol ez utóbbi esetben bizonyul a modell egésze relevánsnak (értsd: tartalmaz előrejelzésre alkalmas információt). A p-érték döntéselméleti alkalmazása Hogy ne kelljen adott szabadságfok pár mellett megkeresni a kritikus F-értéket, integráljuk a sűrűségfüggvény alatti területet a számított F-értékhez képest az extrém magas F-értékek (most a pozitív végtelen) irányában és ezt az ún. p-értéket (p-value, P-value, Prob., Sig.) viszonyítjuk a rögzített (konvencionálisan 5%) szignifikancia szinthez. Ha ugyanis a számított F-érték a (ki nem keresett) kritikus F-től (ahová a piros nyíl a vízszintes tengelyre mutat) jobbra esik, mint példánkban, akkor a p-érték szükségszerűen kisebb mint 5%, lévén az 5%-os kritikus értéktől definíció szerint jobbra éppen 5% terület (valószínűség) esik. Példánkban a számított F-érték 391.8, ami az adott szabadsági fok pár mellett messze szignifikáns (mert a pérték kerekítve 0.000), a döntés tehát H1, azaz a modell egésze tartalmaz valamely releváns előrejelzésre alkalmas X információt a lakásár alakulását illetően. Ha nem is mindet.
11
A releváns regresszorok hipotézisvizsgálati alapú kiválasztása Alapvető kritérium, hogy az irreleváns predictorok elhagyásával egyszerűsödjön a modell. A változó releváns, ha magyarázó hatással bír az Y függő változóra, ekkor a Béta paramétere nem zéró. Erre a becsült koefficiens zérótávoli értéke utal, tekintet nélkül az előjelére. A koefficiens zérótávoli megítélése viszont csak akkor megbízható, ha kicsiny annak a mintavételi szórása, vagyis a standard hibája, tehát megismételt mintavételek után is zérótávoli maradna. E kettős megközelítést kombinálja a t-statisztika, melynek számítási módja: t=Coeff/SE(Coeff). Magas abszolút értékű t-statisztika releváns, zéróközeli t-érték viszont irreleváns magyarázó változóra utal. A t-statisztika nagyságának a megítélése hipotézisvizsgálat alkalmazásával, döntés alapján történik. Az első oszlop közli a teljes modell magyarázó változóit, a második a koefficiensek pontbecsléseit, a harmadik pedig a koefficiensek becsült standard hibáit. A konstans értéke -4.692. Ez a kihagyott változók átlagos hatása, tehát a modell torzítása: az alkalmazott magyarázó változók most átlagosan 4.692 millió forint értékben felülbecslik a lakásárat, mert ennek levonásával kerülünk közelebb a valósághoz. Hipotézisvizsgálat: az X predictor nem releváns akkor, ha a BétaX paramétere zéró. Formálisan: H0: Béta=0. A H1 alternatíva szerint a paraméter – akár pozitív, akár negatív – nem zéró. Erre zérótávoli t-érték utal, ami kicsiny pértéket eredményez. Hogy mi a kicsiny p-érték, az döntési határ kérdése. Konvencionális választás a p<0.05 döntési szint. A regresszor megtartását szigorítandó, csökkenthetjük a döntési szintet pl. a p<0.01 szignifikancia szintre, ahol a szignifikancia szint definíció szerint a statisztikai elsőfajú hiba elkövetésének a valószínűsége! Kétoldali t-teszt alkalmazása 5%-os szignifikancia szinten, DF szabadsági fok mellett 1.
2. 3.
H0: a t-érték nem szignifikáns, azaz zéró-közeli, H1: a t-érték szignifikáns, vagyis zéró-távoli. Kritikus tértékek: ±1.96 (magas mintaméret mellett bármely DF mellett alkalmazhatók). A kritikus értékektől az extrém (végtelen) irányokban megosztva, definíció szerint egyaránt 2.5%; 2.5% valószínűség esik. Döntés a kritikus érték alapján: ha a számított t-érték a kritikus t-érték extrém szárnyai valamelyikére (végtelen irányba) esik, akkor a döntés: H1, egyébként pedig H0. Döntés a p-érték alapján: Legyen a p-érték a számított ±t-értékektől extrém irányba integrált területek összege a sűrűségfüggvény alatt. Ha a p-érték kisebb mint 5%, akkor szükségszerűen a számított érték a kritikus érték extrém szárnyára esik, tehát a döntés H1, egyébként H0.
Rögzített, konvencionális 5%-os szignifikancia szinten a p<0.05 tartomány (kisebb mint 5%) jelez szignifikáns tértéket, tehát releváns magyarázó változót. A p-érték számítása igényli a t-eloszlás DF szabadsági fokának a megadását, ami DF=(mintaméret–becsült paraméterek száma) = (n-k-1) = (n-p). Látható, hogy a „Const” tengelymetszet (a modell torzítása) szignifikáns, míg a „Félszoba”, „Emelet” és „Déli fekvés” paraméterek parciálisan inszignifikánsak. A szignifikáns negatív konstans modellspecifikációs hibára utal, miszerint árcsökkentő predictorok maradtak ki a modellből.
12
Az 5%-os t-teszt ekvivalens módon végrehajtható úgy is, hogy készítünk a Béta paraméterre egy 95%-os konfidencia intervallumot (CI95%), és azt vizsgáljuk, hogy tartalmazza-e a hipotetikus értéket, jelen esetben a zérót. Ha igen, akkor az alsó és felső határ ellentmondó előjelű hatást mond ugyanarra a statisztikai tartalomra, tehát nem állítjuk, hogy a paraméter nem zéró. A 95% megbízhatóságú CI alsó és felső határa: CI(95) = Coeff ±tDF(.975)*SE(Coeff), ahol most t634(.975)=1.964 a 0.975, vagyis 97.5% rendű kvantilis. Látható, hogy ahol a t-teszt p-értéke nagyobb mint 0.05, ott a CI95% alsó és felső határának előjele ellentétes!
12
Változók együtt ingadozása Az ábra az Y lakásárakat a függőleges, az X szobaszámot pedig a vízszintes tengelyen ábrázolja. Eredményül a szóródás kétdimenziós megítélésének vizuális eszközét, az ún. pontfelhőt kapjuk a síkban. Az ábrán a zöld tengelyek a két változó átlagos értékeit jelzik, a pontfelhőt 4 szegmensre bontva, ahol metszéspontjuk az átlagpont. Az emelkedő pontfelhő – mint esetünkben - pozitív korrelációra utal, mikor átlag feletti X többnyire átlag feletti Y értékkel, míg megfordítva, átlag alatti X többnyire átlag alatti Y értékkel párosul. Ekkor a pontok többsége vagy az 1. vagy a 3. sík-negyedben található, ahol az átlagtól vett eltérések azonos előjelűek, tehát az átlagtól vett eltérések (X-Xátlag)*(Y-Yátlag) szorzatai túlnyomóan pozitív előjelűek, ebből következően e szorzatok átlaga is – az ún. Cov(X,Y) kovariancia mutató is pozitív előjelű. Példánkban az átlagtól vett eltérések szorzatainak az átlaga, a kovariancia értéke: +23.05. Az ár átlaga és szórása rendre 34.5 és 23.9, míg a szobaszámé rendre 2.9 és 1.33. A kovariancia abszolút értékének lehetséges felső határa a két változó szórásainak a szorzata. Így a szórások szorzatával való osztással a kovariancia a [-1,+1] intervallumra normálható az alábbi módon. Az r=Kovariancia(X,Y)/[ Szórás(X) * Szórás(Y) ] Pearson-féle lineáris korrelációs együttható értéke példánkban: r = 0.742 = 23.05 / [23.9*1.33] ami szoros pozitív irányú együtt ingadozást jelez. Kérdés, hogy a szoros együtt ingadozás valódi ok-okozati kapcsolatot takar-e, vagy csupán egyéb közös mozgatók, okok közvetett eredője? Fölmerül például a lehetőség, hogy a magasabb árat valójában a magasabb alapterület okozza, de a magasabb alapterület többnyire (nem föltétlenül mindig) magasabb szobaszámmal együtt jelentkezik, tehát közvetetten a magasabb szobaszám is magasabb árral jár együtt, bár az ár alakulásának nem ez a valódi oka. A heteroszkedaszticitás jelenléte, vagy hiánya A homoszkedaszticitás hipotézise azt tételezi fel, hogy a kínálati ár varianciája bármely szobaszám rögzítése mellett konstans, tehát homogén. E feltételezésnek a minta vagy ellent mond, vagy nem. Ez statisztikai hipotézisellenőrzési eljárással tesztelhető. Ha a homogenitási hipotézis nem tartható, akkor a függő változó varianciája heteroszkedasztikus, heterogén, és az OLS regressziós koefficiensek standard hibái torzítottak. Torzított standard hibák torzított t-statisztika értékekhez vezetnek, amik torzított regresszor-listát eredményeznek! Az „outlierek” detektálása és kiszűrése Az extrém megfigyelési egységek akár függő, akár predictor szerepkörben kiszűrendők, mivel jelenlétük a statisztikai adatokon nyugvó tendenciákat elvezetik.
13
A releváns változók heurisztikus szelektálása A prediktor változók releváns/irreleváns voltát megítélhetjük ún. heurisztikus mérőszámok alapján is, melyek – szemben a hipotézisvizsgálattal - nem igényelnek valószínűségi eloszlással kapcsolatos feltételezéseket. Két nevezetes heurisztikus módszer a változók egyedi relevancia-vizsgálatára a standardizált koefficiens, illetve a parciális korreláció. Standardizált regressziós koefficiens A standardizált koefficiens a standardizált változókra illesztett regresszióban szereplő regressziós koefficiens: ∗
∗ ∗
! "
∗ ∗
! ". . . "
∗
! ∗ " # ∗ , ahol a * felső index a standardizált változót és a vonatkozó paraméterét jelzi.
A változók standardizált értéke a centrált (átlagtól tisztított) változó szórással való normálása (osztása) eredményeként áll elő: ! ∗ ! !$ ⁄%& , ahol !$ a számtani átlag, σX pedig a szórás. A standardizált változó három tulajdonságát kell kiemelnünk: 1. Átlaga 0, szórása pedig 1. (A bizonyítást az Olvasóra bízzuk.) 2. Az X* egységnyi növekedése azt jelenti, hogy az eredeti – nem standardizált – változó egy szórásnyit emelkedik: !∗ " 1 ! !$ ⁄%& " 1 ! " %& !$ ⁄%& . 3.
Az X* mértékegység-független, mivel a számláló és a nevező mértékegysége megegyezik. Ezzel szemben az eredeti szinten mért változókra vonatkozó koefficiensek függnek Y és X mértékegységétől. Ha például a lakások kínálati árát millióFt-ról ezerFt-ra változtatjuk, akkor az OLS modellben az összes regressziós koefficiens megváltozik (ezerrel szorzódik).
A standardizálás eredményeként az intercept lenullázódik a regressziós modellben. Lineáris modellről lévén szó, a standardizált regressziós koefficiens továbbra is marginális hatás tartalommal bír, tehát Béta* megmutatja, hogy c.p. X* egységnyi növekedése Y* értékét várhatóan hány egységgel változtatja. Ugyanakkor a fentiek alapján a standardizált regressziós koefficiens marginális hatás tartalma az eredeti változók viszonyára is lefordítható: ha X c.p. egy szórásnyit emelkedik, akkor Y várhatóan a saját szórásának Béta* arányában szorzódik: inflálódik/deflálódik. A dián szereplő táblázat második oszlopa a lakások kínálati árára illesztett eredeti OLS modellt ismétli. A harmadik oszlop pedig a standardizált lakásárra illesztett standardizált OLS modellt publikálja. Utóbbi esetben a prediktorok is standardizáltak. Vegyük például az alapterület prediktort, amelynek standardizált OLS koefficiense 0.637. Ez azt jelenti, hogy ha az alapterület c.p. 1-szórásnyi alapterülettel magasabb (nem érdekes, hogy ez mennyi)
14
akkor a kínálati ár a saját szórása 63.7%ával emelkedik. Ugyanez a mérték a szobaszám tekintetében csak 7%. A standardizált koefficiensek azért használhatók az egyedi relevancia-vizsgálat heurisztikus módszereként, mert mértékegység-függetlenek és így összehasonlítható módon mutatják a prediktorok hatását az Y eredményváltozóra. A standardizált koefficiensek egymáshoz való nagyságrendi viszonya megmutatja, hogy melyik magyarázó változó bír jelentős, és melyik elhanyagolható hatással a függő változóra. Visszatérve az esettanulmányunkhoz, a Kínálati ár szempontjából a leginkább releváns lakásjellemző a Terület, mivel ennek a legnagyobb a standardizált koefficiense (0.637). Második helyen a Terasz méret áll. Ezzel szemben a 0.008-as standardizált koefficiensével a Félszoba szám mutatkozik e legkevésbé releváns magyarázó változónak. A standardizált koefficiensek alapján való relevancia-vizsgálatnak van egy, a koefficiensek relatív nagyságrendjével szoros kapcsolatban álló leágazása. Az OLS modell többszörös determinációs együtthatója előállítható a standardizált koefficiensek és a megfelelő lineáris korrelációk skaláris szorzatával. Példánkban ez a következőképpen alakul: 0.637 ⋅ 0.878 + 0.196 ⋅ 0.591 + 0.070 ⋅ 0.742 + 0.008 ⋅ (−0.004) + 0.109 ⋅ 0.686 + (−0.031) ⋅ (−0.133) + 0.030 ⋅ 0.200
= 0.559 + 0.116 + 0.052 − 0.000032 + 0.075 + 0.004 + 0.006 = 0.812 Ebből megítélhető, hogy mely magyarázó változók járulnak leginkább hozzá az aktuális magyarázott hányadhoz. Esetünkben az alapterület hatása kiemelkedő: a 81.2 százalékos illeszkedésjavulásból közel 56 százalékpont a Terület prediktorhoz kapcsolható. Ezzel szemben a félszobáé elhanyagolható, hozzájárulása az R2-hez praktikusan zéró. Parciális korreláció A magyarázó változók fontosságát az eredményváltozóval való korrelációjuk is rangsorolja. E korrelációs érték lehet valódi ok-okozati jellegű, de lehet látszólagos, egyszerű együtt ingadozás eredménye is. Mint láttuk korábban, a szobaszám lineáris korrelációja magas, r(Ár,Szoba)=0.742, a standardizált koefficiense viszont alacsony: 0.07. Fölmerül a lehetőség, hogy az alapterület mozgatja mind az ár, mind a szobaszám alakulását, aminek közös eredményeként a szobaszám az árral is együtt ingadozik. Az X változó fontosságát elvileg az jelzi, ha kivéve a modellből, az R2 determináció jelentősen csökken. Ekkor értelemszerűen visszatesszük az X változót a modellbe. Ha elhanyagolható a romlás, akkor nem tesszük vissza. Az R2 romlás/javulás mértékének százalékos megítélése a szűkebb modell (H0: BétaX=0) szaturált modelltől való (potenciálisan ledolgozható) távolságának a bázisában (százalékában) történik. A szaturált modell R2 értéke: 1. Az így nyert megoszlási arányszám az ún. parciális determinációs együttható: 12,3.4 =
8 8 567 956: 8 956:
,
ahol a H1, H0 alsóindexek rendre a BétaX=0, illetve a BétaX≠0 modellspecifikációra utalnak, illetve az r2 alsóindexében a pont jobb oldalán lévő Z a többi prediktor hatásától való tisztítást jelzi. A parciális korreláció a parciális determinációs együttható négyzetgyöke, a parciális regressziós koefficiens előjelét örökölve. A parciális korrelációs együttható a modellben szereplő többi (Z) prediktor hatásától tisztítva mutatja az X predictor és az Y függő, „dependent” változó közötti kapcsolat szorosságát. A koefficiens értéke – a normál, köztes hatásoktól tisztítatlan lineáris korrelációs együtthatóhoz hasonlóan 0 és 1 közé esik. Példánkban a szobaszám nélküli (H0) modell determinációja R2=0.8108, míg a bővített (H1) modellé 0.8122, tehát a romlás/javulás a szűkebb modell szaturált modelltől való távolsága százalékában:
14
12,&;<=>?.4 =
.@
9 .@ @ 9 .@ @
= 0.0072
Lévén a szobaszám OLS koefficiense pozitív, ezért a 0.0072 pozitív gyöke a parciális korreláció: 0.085. Vegyük észre, hogy a szobaszám és kínálati ár kapcsolat-szorossága a másik hat lakásjellemző hatásának szűrését követően radikálisan lecsökkent, 0.742-ről 0.085-re. A parciális korrelációs együttható alapján tehát a két változó közötti ok-okozati kapcsolat gyenge, ahogyan azt egyébként az alacsony standardizált OLS koefficiens is jelezte. Formálisan, a parciális determinációs együttható kifejezhető a t-statisztika négyzete, és a szabadsági fok függvényében: t2 / ( t2 + DF). A Szoba szám predictor esetén a számítási mód: 2.1372 / ( 2.1372 + 634) = 0.0072.
14
Regressziós előrejelzés a tengelymetszet felhasználásával Feladatunk előrejelzést adni az Y feltételes várható értékére az X0 predictor pontban (tehát az X0 lakás feltétel mellett). Ekkor: Pred.Y = Const + Coeff * X0 Példánkban tekintsük a várható Ár becslését Szobaszám=2 mellett. Az OLS regresszió alapján: Pred.Ár = Const + Coeff * 2 = -3.594 + 13.29 * 2 = 23 MFt. Itt praktikus probléma, hogy a 23±t*St.Error formátumú CI konfidencia tartomány számítása olyan információkat igényel, amik a standard OLS outputban nem állnak rendelkezésre. Az előrejelzés konfidencia intervallumának számítását egyszerűsítendő, a fenti előrejelzést – ekvivalens módon – meghatározhatjuk egy transzformált adatállományon regresszált „Const” tag kalkulálásával is annak érdekében, hogy a kívánt eredmény standard OLS output részeként adódjon. Az alábbiak szerint. Adjuk hozzá az OLS modell jobb oldalához és vonjuk is ki abból a Coeff * X0 értéket: Pred.Y = Const + Coeff * X0 + Coeff * X – Coeff * X0 = [ Const + Coeff * X0 ] + Coeff * (X – X0). A [.] zárójelben szereplő tengelymetszet így egyben a keresett előrejelzés, de a magyarázó változó transzformálódott úgy, hogy minden X megfigyelésből rendre levontuk az előrejelzési pont (jelen esetben a Szoba=2) értékét. Példánkban tehát minden szobaszámból levontunk két szobát Szobaszám-2 módon, és az Árat e transzformált magyarázó változón regresszáltuk. A kapott regresszió: Pred.Ár = 23 + 13.3 * (Szobaszám -2). Most a Szobaszám=2 feltétel melletti eredeti előrejelzés egybeesik a becsült 23 tengelymetszettel. Mivel a standard OLS output része a konstans tag standard hibája, így az előrejelzésre tetszőleges megbízhatóság mellett a CI konfidencia intervallum automatikusan kalkulálható.
15
Többváltozós áralku kalkuláció Többváltozós esetben a pred.Y feltételes várható érték 95% CI konfidencia intervallumának a meghatározása analóg módon történik. Példánkban az eladásra kínált lakás „arculata”, tehát a kovariáns a következő: X = [ Terület=70m2, Terasz=5m2, Szoba=2, Félszoba=1, Fürdő=1, Emelet=2, Tájolás=Déli ] amely mellett a várható Kínálati_Ár pontbecslése 26.77 MFt. Így annak a lineáris modellnek a tengelymetszete Const=26.77, melynek predictorai rendre: (Terület-70), (Terasz-5), (Szoba-2), (Félszoba-1), (Fürdő-1), (Emelet-2), (Tájolás-1). A tengelymetszet standard hibája SE(Const)=0.91, mellyel a kontans tag 95% CI felső határa: CIU = 26.77 + 1.96*0.91 = 28.56, alsó határa pedig CIL = 26.77 - 1.96*0.91 = 24.98MFt. Tehát az alku folyamat során a CIU értékről indulunk, és a CIL értékig engedünk.
16
Az OLS becslési módszer alkalmazási feltételei Az OLS becslés (mintavételi értelemben) torzítatlan és egyben hatásos (legkisebb mintavételi ingadozással járó) lineáris becslés az alábbi feltételek teljesülése esetén: 1. Exogenitás: A hiba nem korrelál a magyarázó változókkal. Technikailag ez a kritérium a X és az ε zéró kovarianciáját követeli meg: ABC !, # 0. 2. Linearitás: Az Y a magyarázó változók paramétereiben lineáris függvénye. A paraméterekben vett linearitáson van tehát a hangsúly. A későbbiekben a nem lineáris – de linearizálható – modelleknél látni fogjuk, hogy az X predictorokban vett nem linearitás önmagában nem sérti az OLS alkalmazási feltételeit. 3. Szférikus hibatag: Ez a kritérium a „jól viselkedő” hibatag kritériuma, amely több pillérre támaszkodik. Egyrészt, szükséges a hiba normális eloszlása: #D ∼ E FD , %D G. Másrészt, a hiba várható értékének zérónak kell lennie: FD #D 0. Harmadrészt, szükséges a hiba feltételes szóródásának a homogenitása (értsd konstans volta): %D % . Negyedrészt, az egyedi hibáknak korrelálatlanoknak kell lenniük egymással, azaz teljesülni kell a HI1 #|KD ABC #D , #L 0 megkötésnek minden (i, j) relációban – az i = j esettől eltekintve. A harmadik kritériumot a homoszkedaszticitás feltételének, a negyediket pedig idősoros modellek esetén az autokorrelálatlanság feltételének nevezzük. (Lásd a későbbiekben.) Az OLS alkalmazási feltételeinek nem teljesülése eltérő fajsúlyú és vonatkozású következményekkel járnak. A torzítatlan paraméterbecsléshez az exogenitás és a linearitás elengedhetetlen. Ezek bármelyikének sérülése esetén NL , azaz az empirikus koefficiensek várható értéke nem fog megegyezni a sokasági (elméleti) L M megfelelőikkel. A hibatag szférikusságának nem teljesülése két vonatkozással jár. Egyrészt, nem szférikus hiba esetén már nem igaz, hogy az OLS hatásos – lineáris – becslés. Másrészt, a hiba (ill. az Y) nem normális eloszlása esetén az alkalmazott hipotézisvizsgálati eljárások megbízhatatlanná válnak. Ugyanakkor le kell szögeznünk, hogy a szférikus hiba, mint feltétel, nem szükséges a torzítatlan paraméterbecsléshez. A linearitás adottság, vagy jellemzi az Y dependent változó mögött álló adatgeneráló folyamatot, vagy nem. Az exogenitás azonban jelentős részben modell-specifikációs kérdés. Releváns változók kihagyása a modellből, vagy a regresszió függvény-formájának rossz megválasztása (lineáris modell illesztése egy nem lineáris folyamatra) egyaránt az exogenitás sérülését okozza, mivel szisztematikus, az X magyarázóváltozókkal összefüggésben álló tartalmat delegál az eltérés változóba. Az exogenitás nem teljesülésének az esetét endogenitásnak hívjuk. A hibatagok szférikus voltának tesztelése a modelldiagnosztika keretében történik (5. fejezet). A reziduum normalitásának, homoszkedaszticitásának és (auto)korrelálatlanságának tesztelésére egyaránt rendelkezünk statisztikai eszközökkel. Mivel az OLS alkalmazása biztosítja, hogy – konstans tag megléte esetén – az empirikus hiba korrelálatlan lesz a regresszorokkal, ezért az OLS reziduumra elvégzett modelldiagnosztika keretében az exogenitást tesztelni nem tudjuk.1 1Az
exogenitás tesztelésére, illetve az endogén modellek torzítatlan becslésére az ún. Intrumentális Változók (IV) becslési eljárás alkalmazott. Az IV módszer bemutatás azonban meghaladja a kurzus kereteit.
17
Modellszelekció Elemzésre és előrejelzésre alkalmazhatunk szűkebb, vagy bővebb modellt, és változtathatjuk mind a függő, mind a független változók körét. A cél egy minél egyszerűbb, takarékosabb, „parsimonious” modellt építeni, de amely előrejelzése megfelelően pontos. A jelen induló elképzelés szerint a modellt fokozatosan szűkítve egyszerűsítjük addig, míg annak nem romlik jelentősen az előrejelzése, vagy – ellenkezőleg – fokozatosan bővítjük mindaddig, míg jelentősen javul az előrejelzése. Az egyes koncepciók megnevezései rendre: backward és foreward változó-szelekció. Ily módon paramétereikben egymásba ágyazott, ún. „nested” modellek sorából választva kapjuk a végső, „final” modell verziót. Paramétereik tekintetében egymásba nem ágyazott modellek között is tudnunk kell szelektálni. A következő esettanulmányok illusztratív adatállományai: 1. hazai szakágazatok a megfigyelési egységek és termelési modell becslése az ökonometriai cél, ahol az egyes szakágazatok átlagos vállalkozásai a megfigyelési egységek, és az egy vállalkozásra jutó mérleg és eredményadat képezi a változókat, 2. hazai háztartások a megfigyelési egységek és fogyasztási modell becslése az ökonometriai cél, ahol a háztartási évi jövedelmének a háztartás éves összes kiadására gyakorolt parciális határhatásának az elemzése az elsődleges feladat.
18
A termelési függvény, mint ökonometriai modell Függő változó szerepben a termelés méretét kívánjuk elemezni és előrejelezni a termelési tényezők, mint magyarázó változók függvényében. A vizsgált eredményváltozó példánkban az üzleti (másik megnevezéssel üzemi) tevékenység eredménye, tehát a megtermelt jövedelem, melynek levezetése a bruttó kibocsátásból kiindulva történik a hozzáadott érték, majd a nettó termelés megadása során jutva el az üzleti tevékenység eredményéhez. Egy lépésben meghatározva, az üzleti tevékenység eredménye: a bruttó kibocsátás csökkentve az összes ráfordítással. Az üzleti tevékenység eredménye a vállalkozás (szakágazat) jövedelem-termelési képességet mutatja abban a tevékenységi körben, amire a vállalkozás létrejött.
19
A magyarázó változók intuitív köre Az esettanulmányban a magyarázó változók induló körét négy X faktor köré szervezzük: 1.
Létszámigény,
2.
Eszközigény,
3.
Forrásigény,
4.
Ráfordításigény.
Felhívjuk a figyelmet, hogy: 1. Az Alkalmazott létszám és a Személyi jellegű ráfordítások egyaránt a munkafelhasználást jellemző változók. Együtt való ingadozásuk ágazatról ágazatra lehet kézenfekvő, de nem szükségszerű. 2. A Befektetett eszközök + Forgóeszközök összeg nem adja ki az „Összes eszközöket”, mert a hiányzó harmadik komponens az „aktív időbeli elhatárolások”. 3. A Saját tőke lehet negatív. 4. A Hosszú és Rövidlejáratú kötelezettségek összege még nem az összes kötelezettségek, mert a kiegészítő harmadik komponens a „hátrasorolt kötelezettségek”.
20
A szakágazati adatállomány A megfigyelési egységek a magyar gazdaság szakágazatai, vagyis a leginkább homogén tevékenységű vállalkozás-csoportok. Sorszámuk az oldalrovatban szerepel, ez az adott év szerinti nómenklatúrában szám szerint 479. Tevékenységüket a TEÁOR kódjuk azonosítja, mely a nómenklatúra szerint egy tevékenységi kört definiál. A minta mérete: n=479. Szakágazaton belül minden vállalkozásra összesítésre kerültek az adott jellemző (pl. létszám) vállalati adatai, majd az egy vállalkozásra vetített értékük alkotja a regressziós modell adatállomány-rekordjait. Az egyes változókat tartalmazzák az oszlopok. A létszám adatok főben, az értéki adatok pedig millió forintban mértek. A mintában a 2003. év összes kettős könyvvitelt vezető vállalkozása szerepel, a vállalkozások száma a 3. oszlopban olvasható. Az utolsó sor tájékoztató jellegű, a regressziós adatállománynak nem része. A nemzetgazdasági szintű átlagos, egy vállalkozásra vetített értékeket tartalmazza. Ily módon az egyes szakágazati értékek súlyozott számtani átlaga, ahol súlyként a vállalkozások száma szerepel. Lévén súlyozott átlagok sorozata, nem esik egybe a lineáris regressziós adatállomány súlyozatlan átlagpontjával.
21
Modellszűkítési koncepciók A dia a példánkban szereplő legbővebb 10 változós full modell javasolt szűkítési módjait tárgyalja. A táblázatban előbb a full modell szerepel a koefficiensekkel és a p-értékekkel. Ezt követően pedig az alább tárgyalandó szűkített modellek kerülnek bemutatásra. Minden modell esetén kiemelve szerepelnek a parciális tpróba alapján 1 százalékos szinten inszignifikáns változók p-értékei, amik potenciálisan elhagyhatók. (Csoportos szelektálásuk azonban mindig tesztelendő! Lásd később.) Az R2 értéke modellről-modellre haladva az utolsó sorban látható. A táblázatban három koncepció, javaslat van arra vonatkozóan, hogy első megközelítésben miként érdemes szűkíteni a full modellt. Kérdés, hogy érdemes-e ezt megtenni. Türkizzel kiemeltek a modellszűkítések paraméter specifikációi és a járulékos becslési eredményeik. 1. Először az inszignifikáns (a magas mintaméret miatt szigorú, 1%-os szignifikancia szinten) Saját Tőke és Személyi Ráfordítás együttes elhagyása szerepel: zérón megszorított koefficienssel szerepelnek a 0). Csökken az R2, de kérdés, hogy jelentősen, vagy elhanyagolhatóan: a változólistában (O : QR QS5 0.8481-es R2 érték mindössze 0.8464-re csökkent, tehát alig változott a két paraméter elhagyásának a következtében. Ezzel szemben áll a vonatkozó két paraméter megtakarítása, amelynek köszönhetően a modell szabadsági foka 469-ről (479-8)=471-re nő. 2.
A második javaslatban a Befektetett Eszköz és a Forgóeszköz paraméterét egyenlőként kezeljük, azaz bármelyik változó is mozdul, a hatása az Üzleti Eredményre a közös paraméter: -0.023. Ez a hipotézis a 2 koefficiensek egyezőségét állítja (O : TU VU ). Az R értéke 0.7954 lett, ami most egy nagyobb mértékű romlás. Ezzel szemben áll a szabadsági fok egységnyi növekménye.1
3.
A harmadik modellben elhagytuk az alkalmazotti Létszámot (zéró koefficiens megszorítással szerepel a változólistában, O : W 0), mert lehet, hogy a személyi ráfordítás minden lényeges munkaráfordítás információt tartalmaz már, ezért az alkalmazott létszám redundáns, fölösleges változó. Vegyük észre, hogy ennek hatására az inszignifikáns Személyi Ráfordítás paraméter szignifikánssá válik, és előjele is megváltozik. Az R2 új értéke ennek hatására: 0.8429.
Összefoglalva három alapvető technika javasolt egy kiinduló, full modell szűkítésére: 1. A t-próba alapján parciálisan irreleváns változók együttes elhagyása. Változók csoportos szelektálása azonban mindig tesztelendő Wald- vagy LM-teszttel! 2. Prediktorok összevonása (pl. a különböző eszköztípusok helyett egy „aggregát” eszköz prediktor szerepeltetése), vagy – ekvivalens módon – koefficiensek egyezőségére tett megkötés. A megszorításban érintett prediktorok kiválasztásánál első körben a hasonló tartalmú Xj -ket érdemes figyelembe venni. Második körben pedig a hasonló nagyságrendű becsült paraméterrel rendelkezőket. Utóbbi esetben azonban érdemes figyelni arra, hogy a statisztikai megkötés a vizsgált jelenség szempontjából tartalmilag is értelmezhető legyen.
22
3.
A vizsgált jelenség szempontjából redundáns prediktorok szelektálása – akkor is, ha egyébként p-értékük ezt nem indokolná. A modellépítés (szűkítés) során a három technika elméletileg tetszőleges sorrendben használható. Praktikusan azonban célravezető első lépésben mindig a t-próbák alapján az irrelevánsnak tűnő magyarázó változók elhagyásával próbálkozni. 1
Vegyük észre, hogy a két paraméter egyezőségére tett megkötés révén a modellben becsülendő paraméterek száma 10-ről 9-re csökken.
22
Modellszelekciós „Parszimonia” Kritériumok A heurisztikus szelekciós kritériumok alkalmazása azt a célt szolgálja, hogy közel azonos pontosságú modellek közül a paraméterekkel takarékosabban bánó modellt tartsuk meg végső modellként. Ugyanis minél egyszerűbb modellel tudunk jó illeszkedést adni a „tanuló-training” mintán, annál megbízhatóbb prognózis adható a mintán kívüli „teszt-minta” értékekre. Szemben a hipotézisvizsgálati módszerekkel, e kritériumok alkalmazása nem igényli az eredményváltozó eloszlásának az ismeretét. A klasszikus R2 mutató modellközi viszonylatban mint célfüggvény nem alkalmas maximálásra, mert értéke újabb paraméter bevonásával praktikusan mindig nő (nem csökken), tehát végül a legbővebb modellt preferálná. A kritériumok közös működési elve: a kisebb hibát preferáljuk, de ezek közül is azt választva, amelyik a lehető legkevesebb paramétert költi el: fölösleges – vagyis nem jelentős javulást hozó – újabb paraméter bevonása büntetendő! A korrigált R2 kritérium értelemszerűen a magas R2 értéket preferálja. Ha kicsit nő az R2, de ezt a hatást túlszárnyalja a paraméterek számának fölösleges bővülése, akkor csökkenhet is a korrigált R2 értéke. Mivel magyarázott hányad maximálására szolgál a mutató „magja”, tehát a kritérium modellről-modellre haladva maximálandó. A következő három kritérium magja az átlagos négyzetes hiba: SSE/n, tehát az egy megfigyelési egységre vetített négyzetes hiba. Lévén a hiba minél kisebb, annál pontosabb a modell, tehát ezen kritériumok modellről modellre haladva minimálandók, ahol az illeszkedés javulását ellensúlyozza, bünteti a paraméterek számának a növekedése. Ezt a hatást veszi figyelembe a büntető faktor. A büntetés mértékének egyre szigorúbb sorrendje: Akaike, Hannan-Quinn, Schwarz-Bayes.
23
Szelekciós kritériumok alkalmazása Az oldalrovat a korábban megismert full modell háromféle megszorított változatát sorolja fel, ahol az „=” megszorítások a megfelelő predictorok paramétereire vonatkoznak. A fejrovat közli rendre a hiba-négyzetösszeget, a klasszikus R2 értéket, majd a korrigált R2 értékét, végül az Akaike és a Schwarz-Bayes-kritériumokat. A hiba-négyzetösszeg publikálása csak az újra-számolhatóságot szolgálja. Mint látható, a klasszikus R2 a legtöbb paramétert alkalmazó modell esetén a legmagasabb, tehát nem alkalmas a fölöslegesen bevont paraméterek büntetésére. Mindemellett a korrigált (adjusted) R2 és az Akaike az utolsó, a Schwarz viszont az utolsó előtti modellt preferálja, amikor kivesszük a saját tőkét és a személyi ráfordításokat a modellből.
24
Fölösleges változó bevonása Kérdés, hogy egy újabb prediktor modellbe való bevonásának mi a hatása a korábban már bevont prediktorok koefficienseire! Ugyanis az újabb prediktor lehet indokolt, de lehet indokolatlan is! A fenti modellekben Y az „Üzleti eredmény (MFt)”, a „Fő” változó az alkalmazotti létszámot a „Bér (MFt)” változó pedig a személyi jellegű ráfordítást jelöli. A „valódiként feltételezett” modell csak a Bér prediktort tartalmazza, de a becsült modell az R2 magyarázó erő javítása érdekében a Fő változót is tartalmazza.1 Óhatatlanul a Bér is magyarázottá válik az alkalmazotti létszám, azaz a Fő által. Így a Bér redundánssá válhat, pedig elméletileg relevánsként kezeljük. Redundáns magyarázó változó nem tolerált a modellben. Annál inkább tolerált egy magyarázó változó a modellben, minél kevésbé magyarázza őt a többi magyarázó változó. A tolerancia mutató (Tx) azt mutatja meg, hogy az X magyarázó változó mintabeli szóródásából hány százalék az önálló információ, azaz a többi prediktor által nem magyarázott rész. A tolerancia komplementere (1 T3) pedig értelemszerűen azt adja meg, hogy az X szóródásának hány százalékát magyarázza a modellben szereplő többi prediktor. Praktikusan TX komplementere azon OLS modell R2 értékének, amelyben az X változót magyarázzuk a többi prediktorral.2 A (in)tolerancia, azaz a prediktorok egymás általi magyarázottsága mögött a multikollinearitás jelensége áll. A multikollinearitás alatt a magyarázó változók egymásközti – X-körben értelmezett – korrelációinak rendszerét értjük. A multikollinearitás a modellel járó adottság, a magyarázó változók ugyanis általában sztochasztikus kapcsolatban állnak egymással, azaz korrelálnak. Ezért a multikollinearitás jelenléte természetes, nem föltétlenül modellspecifikációs hiba. Erőssége azonban már nagyban függ a modellspecifikációtól. Minél több magyarázó változót vonunk ugyanis be a modellbe, annál erősebb lesz a multikollinearitás, és annál inkább csökken az egyes prediktorok toleranciája. Esettanulmányunk – és tágabb értelemben a tolerancia/multikollinearitás jelensége – kapcsán a konklúzió a parcális bér-koefficiens standard hibájára vonatkozik. A mintavételi varianciát (négyzetes standard hibát) mutatja a 3. pont, a bér-koefficiensre felírva.3 A formulában az 1/Tolerancia tényező a tolerancia csökkenésével emelkedik. A végtelenig is emelkedhet. A koefficiens szórásnégyzete tehát a tolerancia csökkenése mellett – ceteris paribus – megnő (inflálódik). Az 1/Tolerancia mutatót emiatt szokás Variancia Inflátor Faktornak (VIF) is nevezni. A szórás növekedésével a t-statisztika csökken, a megfelelő p-érték ennek megfelelően nő, azaz egyre kevésbé mutatkozik fontosnak a Bér változó. A releváns Bér kikerülhet tehát a modellből pusztán annak hatására, hogy az irreleváns létszám Fő bekerült: tanulság tehát, hogy fölösleges változó bevonásának hatására korábban bevont releváns változó kieshet a modellből. Meg kell említenünk azonban, hogy bár új változó bevonásával a modellben szereplő regresszorok toleranciája csökken (biztosan nem nő), és így a VIF mutatójuk emelkedik, a koefficiensek standard hibájának emelkedése nem törvényszerű. A modell hiba-négyzetösszege ugyanis új változó bevonásával csökken (biztosan nem nő), és így a négyzetes Coeff standard hiba formulában szereplő reziduális variancia (lásd a diát) becsült értéke is csökken, mivel X # ⁄ HI1 YG. Új változó bevonásával tehát a koefficiensek varianciájában két ellentétes hatás jut érvényre: egyrészt csökken a számított reziduális variancia, másrészt nő a VIF mutató. A két ellentétes hatás eredője – vagyis az, hogy a koefficiens standard hibája nő, vagy csökken – alapvetően attól függ, hogy az új, bevont prediktor releváns a magyarázott jelenség szempontjából vagy sem. Amennyiben nem releváns (fölösleges), akkor a hibanégyzetösszegben – és a számított reziduális varianciában – bekövetkező csökkenés jellemzően nem lesz elegendő, hogy ellensúlyozza a VIF növekedését.
A szakágazati termelési modell esete Vegyük észre, hogy ha a megelőző empirikus szakágazati termelési modellben az alkalmazott létszám változót visszatesszük a modellbe, tehát visszatérünk a full modellre, akkor a Személyi Ráfordítás paraméter inszignifikánssá válik. Tekintve, hogy a Létszám és a Személyi Ráfordítás ugyanazon termelési tényező felhasználását mérik különböző aspektusból, ezért a köztük lévő korreláció értelemszerűen erős – a mintában ennek értéke: 1QS5,W = 0.94. Így a jelenség hátterében minden bizonnyal az áll, hogy a Létszám bevonása a modellbe inflálja a Személyi Ráfordítás koefficiens standard hibáját. 1Az
R2 érték új prediktor bevonásával mindig emelkedik (biztosan nem csökken). Formálisan: &Z|4 = (1 − &Z ) , ahol [ = [! , . . . , !L9 , !L] , . . . , ! ]. 3 A formula a háromváltozós OLS modellre vonatkozik. 2
25
Lényeges változó kihagyásának hatása a modellből Legyen a valódi termelési modellünk háromváltozós, ahol a két magyarázó változó rendre a Forgó Eszközök és a Saját Tőke. A regressziós koefficiensek nagyságrendi összehasonlíthatósága miatt tekintsük a standardizált változók rendszerében számított, ún. „standardizált” paramétereket. Így a tengelymetszet definíció szerint zéró, Béta* pedig a megfelelő standardizált parciális koefficienst jelöli. A Forgóeszköz* valódi parciális hatása az Üzleti eredményre* vonatkozóan: Béta*Fe = 0.5033. Hagyjuk ki most a modellből a Saját tőke (relevánsnak feltételezett) prediktor változót. Így a kétváltozós 1_magyarázó változós - modell b*fe koefficiens értéke e redukált modellben az Üzleti eredmény és a Forgóeszközök közötti lineáris korreláció értéke (mivel a változók standardizáltak). Vessük össze a változást a valódi modell megfelelő paraméterének a viszonylatában. A háromváltozós lineáris modell standardizált paramétereinek a számítására zárt formula áll rendelkezésre, mely a három lehetséges korrelációt alkalmazza: 1. r(Üzleti eredmény, Forgóeszköz) = 0.5722, 2. r(Üzleti eredmény, Saját tőke) = 0.4567, 3. r(Forgóeszköz, Saját tőke) = 0.7162. A Forgóeszközök* változó koefficiensének számítási lépései rendre: A Fe koefficiens* számlálója: r(Üzleti eredmény, Forgóeszközök) – r(Üzleti eredmény, Saját tőke) × r(Forgóeszközök, Saját tőke). A Fe koefficiens* nevező értékének az alakulása: 1. az Y „Üzleti eredmény” (dependent) változótól független, 2. a kér prediktor közötti korreláció által meghatározott. A két prediktor közötti korreláció adott esetben a koefficiens előjelét át is válthatja. A valódi paraméter értéke a mintánkban 0.5033, míg a torzított koefficiens értéke 0.5722. Tehát a releváns Saját Tőke prediktor kihagyása a modellből: az Fe koefficienst* koefficienst felülbecsli.
26
Lényeges változó kihagyásának hatása a modellből Legyen a hipotetikus termelési modellünk háromváltozós, ahol a két magyarázó változó rendre a Befektetett eszközök és a Saját tőke. A regressziós koefficiensek egymással való fontossági rangsorolása érdekében – mint korábban - a standardizált változókat súlyozó, ún. „standardizált” paramétereket tekintjük. A tengelymetszet ezért definíció szerint zéró, Béta* pedig a standardizált parciális koefficienst jelöli. A Befektetett Eszközök* valódi parciális hatása az Üzleti Eredményre* vonatkozóan: Béta*Be = – 1.3203 Hagyjuk ki most a modellből a Saját tőke (egyébként hipotézisünk szerint releváns) prediktor változót. Így a kétváltozós (1_magyarázó változós) modell b*be koefficiens értéke a redukált standardizált modellben az Üzleti eredmény és a Befektetett eszközök közötti lineáris korreláció értéke (mivel standardizáltak a változók). Vessük össze a változást a „valódi” modell megfelelő paraméterének a viszonylatában, ahol a háromváltozós lineáris modell standardizált paramétereinek a számítására zárt formula áll rendelkezésre, mely az alábbi három lehetséges korrelációt alkalmazza: 1. r(üzleti eredmény, befektetett eszköz) = 0.2871 2. r(üzleti eredmény, saját tőke) = 0.4567, 3. r(befektetett eszköz, saját tőke) = 0.9439. A Befektetett Eszközök* változó koefficiensének számítási lépései rendre: A Be koefficiens* számlálója: r(Üzleti eredmény, Befektetetett eszköz) – r(Üzleti eredmény, Saját tőke) × r(Befektetett eszközök, Saját tőke). A Be koefficiens* nevező értékének az alakulása: 1. Az Y „Üzleti eredmény” (dependent) változótól független, 2. a kér prediktor közötti korreláció által meghatározott. A valódi paraméter értéke a mintánkban -1.3203, míg a torzított koefficiens értéke 0.2871. Tehát a releváns Saját tőke prediktor kihagyása a modellből: a Be koefficienst* felülbecsli, miközben előjelet is vált. A háromváltozós esetre felírt zárt formulát, valamint a páronkénti korrelációkat megvizsgálva megállapíthatjuk, hogy az előjelváltásnak a két prediktor közötti magas korreláció az oka.
27
Útelemzés az Üzleti Eredmény alakulására Posztulált modellünkben az Üzleti eredmény a „dependent” függő változó, a Saját tőke és a Befektetett eszközök pedig az alkalmazott prediktorok. Feladatunk a Saját tőke marginális hatásának a vizsgálata Befektetett eszközök szerepeltetése mellett, majd annak elhagyásával. Ennek során megkülönböztetjük a Saját tőke direkt, indirekt és teljes hatását. A Saját tőke direkt hatása a Saját tőke parciális marginális hatása az eredményváltozóra – lineáris modell esetében a parciális regressziós koefficiens –, amely jelen modellben: BétaSt=0.118. Ennek értelme, hogy ha 1 millió forinttal emelkedik a Saját tőke, c.p. 0.118 millió forinttal nő az Üzleti eredmény várhatóan, átlagosan. A Saját tőke indirekt értelemben a többi prediktorra gyakorolt hatásán keresztül is hat az eredményváltozóra. Az indirekt hatás tehát két hatást foglal magában: egyrészt a Saját tőke egységnyi növekményének hatását a Befektetett eszközökre, másrészt a Befektetett eszközök indukált változásának a hatását az Üzleti eredményre.1 Visszatérve a szemléltető példánkhoz, a Befektetett eszközökre illesztett kétváltozós OLS modellben a Saját tőke koefficiense 1.172 (2. pont). Ez azt jelenti, hogy a Saját tőke egységnyi növekménye c.p. várhatóan 1.172 egységnyi növekményt eredményez a Befektetett eszközökben. Ezt a növekményt felszorozva a Befektetett eszközök Üzleti eredményre gyakorolt parciális hatásával megkapjuk a Saját tőke indirekt hatását: _`QR NTU
1.172 ⋅
0.074
0.087.
Vegyük észre, hogy a Saját tőke Üzleti eredményre gyakorolt indirekt hatása a Befektetett eszközökkel való sztochasztikus kapcsolatán alapul. Egy predictor indirekt hatása tehát nem önálló, parciális hatás, hanem a multikollinearitásból fakadó jelenség, a predictorok parciális hatásánál rögzített ceteris paribus feltétel praktikus feloldása. Modellspecifikációs szempontból az indirekt hatás fontossága abban áll, hogy számszerűsíti a releváns változó kihagyásából fakadó specifikációs torzítást. Példánkban, a Saját tőke indirekt hatása -0.087, amely a Befektetett eszközök kihagyásával megjelenik torzításként a Saját tőke paraméterében, 0.118-ról (0.1180.087)=0.031-re csökkentve azt. A csökkenés oka, hogy a Saját tőke koefficiens a szűkített modellben a predictor (direkt+indirekt) = totális hatását testesíti meg lefelé torzítva ezzel a becsült – direkt – marginális hatást. Formálisan Xj indirekt hatása Y-ra Xl -en keresztül a következő: a!b ⁄a!L koefficiense az Y-ra illesztett regresszióban. 1
b
, ahol
b
az Xl parciális regressziós
28
Wald teszt paramétereiben „nested” modellek szelektálására A Wald-féle tesztet paramétereikben egymásba ágyazott modellek közötti választásra használjuk. A szűkebb modellt a bővebből kapjuk, annak paramétereire megszorításokat téve. Kérdés, hogy érdemes-e szűkíteni, vagy maradjunk az eredeti, bővebb modellnél. Jelölje a megszorítások számát általában m. Tekintsük elsőként az X magyarázó változókat, melyek között m számú hipotézisünk szerint nem releváns, tehát e sorban valamennyi Béta paraméter zéró, tehát az adott X változóknak együttesen sincs hatása a modellben, valamennyien egyidejűleg elhagyhatók. Formálisan, például két paraméterre vonatkozóan: Béta4=Béta8=0. Itt két megszorítás történik, tehát m=2. Ha valamennyi Béta paramétert lenullázzuk, akkor az „Üres”, másképpen „Null” modellt kapjuk, mely az ún. ANOVA tesztet eredményezi. A hipotéziskört bővíthetjük pl. olyan megfontolásokkal is, miszerint Bétaj+Bétal=0, vagyis a paraméterek kioltják egymás hatását, vagy pl. Bétaj=Bétal, tehát a két változó hatása azonos. Ezzel a megszorítások száma 1+1-gyel nő. Megfelelő c súlyok megadásával bármely megszorítás felírható, mint a paraméterek lineáris kombinációja. A tágabb modellben a meg nem szorított változók paraméterei ún. szabad paraméterként szerepelnek. A Wald-F-teszt számlálójában és nevezőjében összeveti a magyarázó változók körében történt elmozdulás okozta R2 változást: R2H1 a bővebb, meg nem szorított modellhez, R2H0 pedig a szűkebb, megszorított modellhez tartozik. A modellszűkítés konkrét hipotézisei példánkban: 1. A Saját tőke és a Személyi ráfordítás Béta paramétere egyaránt nulla. 2. A következő hipotézis szerint a Hosszú és a Rövid lejáratú kötelezettségek marginális hatása azonos. 3. Utolsó hipotézisként a Befektetett.eszközök és a Forgóeszközök kioltják egymás marginális hatásait. Kivonva a két R2 értéket egymásból 0.849-0.825 adódik, ahol a számláló szabadsági foka a megszorítások m=4 száma, a nevező szabadsági foka pedig n-p, vagyis a mintaméret csökkentve a H1 modell becsült paramétereinek a számával (479-10). A döntéshez, hogy jelentős-e az R2 csökkenés, vagy elhanyagolható, rögzíteni kell egy döntési szintet. Most a magas mintaméret miatt szigorú, 1%-os szignifikancia-szinten döntünk. A p-érték kerekítve 0.000, ami – lévén kisebb mint 1% – a kritikus értéktől jobbra eső zéró-távoli Fértéket jelez, ami a null hipotézis-rendszer elutasítását támasztja alá. Mint konklúzió, a null-hipotézisek között van legalább egy elutasítandó.
29
A Lagrange-Multiplikátor teszt alkalmazása Az építkező modellszelekció alapvető eszköze a Lagrange-Multiplikátor teszt. Az LM-teszt végrehajtása nem F, hanem Chi2 eloszlású statisztika számításával történik. Példánkban most csak a Befektetett eszközök és a Forgó eszközök paramétereinek egyezőségét, tehát az azonos marginális hatás hipotézisét teszteljük, aminek gondolatmenete a következő: 1. A hipotézis szerint formálisan a két paraméter különbsége zéró. 2. A teszt alapja a parciális determinációs együttható, miszerint a megszorított H0 modellről való maximális javulás lehetséges terjedelme (1-R2H0), aminek csak egy bizonyos hányada valósul meg a megszorítás feloldásával. E lehetséges terjedelem példánkban (1-0.795). A megszorított H0 modellről való tényleges javulás mértéke a H1 szabad modellre áttérve azonban csak: (R2H1 - R2H0) = (0.849-0.795). A javulás százalékos mértéke: (0.849-0.795) / (1-0.795). Ennek zéró közeli, vagy zéró távoli voltának a megítélése a döntési feladat. 3. A LM-teszt a parciális determináció mértékét a Chi2-tengelyre vetítve ítéli meg: 1. A teszt statisztika Chi2 formulája m=1 szabadsági fokkal: Chi2(m) = n * (R2H1 - R2H0) / (1-R2H0) = 479 * (0.849-0.795) / (1-0.795) = 126.18(1). 2. A szignifikáns Chi2 érték alapján döntésünk, hogy a kétféle eszköztípus paraméterei (marginális hatásai) szignifikánsan eltérők!
30
A specifikációs torzítás kezelése Hangsúlyozzuk, hogy most a háztartás „Összes évi jövedelme” növekményének parciális hatását vizsgáljuk a háztartás „Összes évi kiadása” alakulására vonatkozóan. Ez az ún. „kiadási (fogyasztási)” határhajlandóság. A specifikációs torzítás csökkentésének alapvetően két útja van: 1. Egyfelől minden lényeges predictor bevonása a modell regresszor körébe, 2. másfelől minden irreleváns predictor elhagyása a regresszor körből. A fenti dia példája a szükséges bevonásra példa: itt ugyanis a függő változó a háztartások összes kiadása, ami egy komplex kiadási együttes. Ezért e komplexitás minél inkább való lefedése vezet a preferált modellhez, de szem előtt tartva a paraméter-takarékosság szempontját is. A jelen modellben a felsorolt 6 faktor rejti mindazon manifeszt predictorokat, melyeket érdemes mérni a Jövedelem-hatás (kiadási határhajlandóság) minél torzítatlanabb becslése, elemzése érdekében.
31
Háztartási Költségvetési Felvétel (HKF) Példa A közgazdasági elemzési cél a kiadási határhajlandóság becslése, elemzése. A megfigyelési egységeket a hazai háztartások alkotják. Mintánkban 8314 háztartástípus szerepel, melyek egy év teljeskörű háztartás populációját reprezentálják. Egy típushoz számos háztartás tartozik, lefedve így 3,700,000 háztartást. A kiadási határhajlandóság közgazdasági jelentése jelen példában, hogy ha ezer forinttal magasabb az éves összes háztartási jövedelem, akkor c.p. a háztartások átlagosan, várhatóan 513 forinttal hajlandók növelni évi összes kiadásaikat (Modell_3). Természetesen az éves összes kiadást olyan sok más összetevő mozgatja, hogy a fenti didaktikai célú modell messze alulspecifikált. A modell függő (Y) változója a háztartás éves összes kiadása (Ezer forint). A magyarázó predictorok köre: 1. 2. 3. 4.
Éves összes háztartási jövedelem (Ezer forint), A háztartás taglétszáma (Fő), A lakás becsült értéke (Millió forint), A háztartás által üzemeltett gépkocsik futott kilométere (Ezer kilométer).
Három modellt építünk: M1, M2, M3 azonosítóval, ahol a predictorok rendre: 1. M1: Jövedelem, 2. M2: Jövedelem + Taglétszám, 3. M3: Jövedelem + Taglétszám + Lakásérték + Gépkocsi_kilométer. A kiadási határhajlandóság becslése a lineáris modellben a „Jövedelem” változó parciális regressziós koefficiense. Láthatóan, ahogy egyre több predictor szerepel magyarázó változóként a modellben, ezzel együtt változik (most csökken) a kiadási határhajlandóság, vagyis a Jövedelem koefficiens marginális hatása. Ennek oka, hogy ha lényeges magyarázó változók maradnak ki a modellből (mint pl. a lakásérték és a futott kilométer) akkor ezek hatását a már szereplő predictorok (jövedelem, taglétszám) magukba építik, így pl. a Jövedelem koefficiens értéke nagyságrendben torzítottá válik. Ez a nagyságrendi jellegű torzítás a specifikációs torzítás. Fölhívjuk továbbá a figyelmet az alábbi részletekre: 1. Ez a torzítás nem mintavételi értelmű, mert az OLS koefficiens mintavételi értelemben torzítatlan. 2. Ez a modellspecifikációs torzítás – az útelemzéstől függően – lehet alulbecslés és lehet felülbecslés is. 3. Ha a modell tévesen specifikált – most az M3 a preferált modell – akkor a kiadási hajlandóság elemzése tévesen nem 513Ft, hanem vagy 637Ft, vagy 617Ft.
32
4. Tehát, ha ezer forinttal magasabb az éves összes háztartási jövedelem, akkor c.p. a háztartások átlagosan, várhatóan 513 forinttal hajlandók növelni évi összes kiadásaikat. Természetesen az éves összes kiadást olyan sok más összetevő mozgatja, hogy a fenti didaktikai célú modell messze alulspecifikált. Ezért az 513 Ft is tovább „hangolandó”.
32
Változóiban és paramétereiben nemlineáris OLS modellek A gazdasági, társadalmi jelenségek többnyire nem lineárisan alakulnak. Kétféle megközelítésben lehet nem lineáris a statisztikai modell: változóiban, vagy paramétereiben. Változóiban nem lineáris például a modell, mikor a változók interakcióit vagy kvadratikus hatásaikat alkalmazzuk magyarázó változóként. A paramétereiben a modell kétféleképpen lehet nem lineáris. Egyfelől oly módon nem lineáris, hogy változóinak alkalmas transzformációjával lineáris regresszióra vezet: így paraméterei tekintetében lineárissá, miközben változóiban nem lineárissá válik. A másik esetben nem vezethető vissza semmilyen transzformációval lineáris modellre, ekkor a paraméterek becslése iteratív módszer alkalmazását igényli, mely egy adott induló megoldásból lépésről lépésre közelíti az optimálist. Jelen fejezet olyan nem lineáris modellekkel foglalkozik, melyek lineáris regresszióra visszavezethetők, így paramétereik OLS módon becsülhetők. A modellek megnevezése utalhat az alkalmazandó transzformációra, a modell sajátos jegyeire (marginális hatás, vagy rugalmasság tekintetében), vagy a paraméterei értelmére, jelentésére. A függvénytípus megválasztása alapvetően nem illeszkedésvizsgálati, hanem szakmai indokláson alapul: azt a függvényt preferáljuk, amelynek elméleti tulajdonságai – elsősorban a rugalmassága – konform az empirikus megfelelőkkel, illetve paramétereinek az értelme azt az információt adja, amit kutatunk.
33
Interakciók tesztelése Modellépítési lehetőség a meglévő változók interakcióinak bevonása a magyarázó változók körébe. A hazai háztartások sokaságát és adatait vizsgálandó, tekintsük az Y: kiadás X: {jövedelem, taglétszám, életkor (a háztartásfő életkora)} ún. főhatás modellt.1 Adott X predictor direkt, fő hatását a saját paraméterén keresztül fejti ki. Ez a paraméter azt feltételezi, hogy X marginális hatása nem függ más változók szintjétől, esetleg saját szintjétől sem. Vegyük a kiadási határhajlandóság esetét. Ha a jövedelem 1 millió forinttal magasabb, kérdés, hogy ez mekkora változást eredményez a kiadásban. A főhatás modell szerint mindegy, hogy mekkora szintről emelkedik a jövedelem, és mindegy, hogy hány fős háztartás esetén. Reálisan viszont nem egyformán nő a kiadás, ha egy alacsony vagy ha egy magas jövedelmi szint a kiinduló érték, és más a hatása 1fős, és más 3fős háztartások esetén. A probléma a változók interakcióinak a figyelembe vételéhez vezet el. Második lépésben feloldjuk a konstans marginális hatás feltevést, és megengedjük, hogy a Jövedelem hatása függjön a Taglétszámtól egy Lambda paraméteren át, majd a Taglétszám hatása szintén függjön a Jövedelemtől szintén egy Lambda paraméteren át, és a Kor hatása függjön magától az életkortól egy Béta paraméteren át. Látszik, hogy a főhatás mellett Lambda*Taglétszám interakció is módosítja a kiadási határhajlandóságot és a Lambda*Jövedelem interakció is befolyásolja a Taglétszám hatását. Hasonlóan, a Kor hatása is változik attól függően, hogy milyen idősen öregszik valaki 1Évet. Most a Jövedelem és a Taglétszám egymással interakcióba lépett, a Kor pedig kvadratikusan szerepel. Öninterakció kvadratikus hatást eredményez. Felbontva a zárójeleket és elvégezve a szorzásokat, a modell úgy bővült két változóval (J*T és K*K=K2 ), hogy nem figyeltünk meg új változót, hanem már meglévők szorzata szerepel új változóként az adatállományban. A J*T interakcióhoz értelemszerűen egy közös Lambda koefficiens tartozik. A bővített modell bár paramétereiben lineáris, változóiban már nem lineáris, de OLS módszerrel becsülhető. Az életkor hatása másodfokú polinommal írandó le, melynek a Kor szerinti deriváltja a Kor marginális hatása: Béta1+2Béta2*Kor. Az interakciók relevanciájának a tesztelése a paramétereik (Lambda, Béta2) tesztelése útján történik. 1A
modell bevezeti az R-project statisztikai program
jelölését, miszerint Y magyarázott az X változókkal
34
Példa interakciók alkalmazására Tekintsük a Tagszám*Jövedelem és a Kor2 változókkal bővített lineáris modellt. Az adott háztartás létszám és jövedelmi adatát összeszoroztuk, életkori adatát pedig négyzetre emeltük. Egy 3000EFt, 2Fős, 40Éves háztartás esetén a két új adat rendre: 3000*2 és 40*40. A Tag*Jöv interakció koefficiense -0.038, ami a Lambda paraméter megfelelője. A négyzetre emelt életkor szorzója -0.185, ez pedig a β2 paraméter becslése. A t-statisztika alapján mindkét hatás szignifikáns, azaz megőrzendő a modellben bármilyen szokásos szignifikancia szintet alkalmazva. (Megjegyezzük, hogy a mintaméret igen magas.) A kvadratikus életkor hatás az előrejelzésben 15.981Kor-0.185*Kor2, míg marginális hatása: 15.981-2*0.185*Kor. Egy 40 éves háztartásfő esetén ez: 15.981-2*0.185*40 =1.181EFt. A marginális hatást Kor tekintetében zéróra megoldva, a maximális kiadás a 43.2 éves háztartásfő esetén várható. A taglétszám marginális hatása úgy számítandó, hogy valamennyi magyarázó változóból, mely tartalmazza a tagszámot, kiemeljük a tagszámot, és számszerűsítjük az együtthatóját: 79.678 - 0.038*Jövedelem. Ha tehát egy fővel nő a taglétszám, akkor e formulának megfelelően változik a kiadás. Egy 3MFt háztartás esetén: 79.678 -0.038*3000 = -34.322EFt. A Jövedelem határhatása hasonlóan számítható. Itt is kiemeljük a Jövedelem változót, aminek az együtthatója 0.723-0.038Tag. Tehát egy 2Fős háztartás esetén a kiadási határhajlandóság: 0.723-0.038*2=0.647EFt. Természetesen a modellben további magyarázó tényezőkként a Jövedelem és a Taglétszám kvadratikus hatásai, valamint a Kor Jövedelemmel és a Kor Taglétszámmal vett interakciói is becsülhetők és tesztelhetők. Indikátor jellegű (dummy) változó kvadratikus hatása nem vizsgálható, mert önmaga, tehát jelenléte egzakt multikollinearitást okozna a modellben! Megjegyezzük, hogy a dián szereplő modell a magyar háztartások teljes mintájára (n=3.737.941) lett becsülve a HKF adatállomány alapján.1 1
A GRETL-ben a Súlyozott Legkisebb Négyzetek (Weighted Least Squars, WLS) eljárást alkalmaztuk. A WLS egy olyan OLS becslés, ahol a minta-elemek rögzített súlyfaktorral szorzódnak. Az alkalmazás célja, hogy súlyozza az egyes megfigyelések fontosságát a paraméter-becslés során. A korábbiakban már tárgyaltuk, hogy a HKF adatállomány 8314 háztartástípust tartalmaz a figyelembe vett háztartásjellemzők alapján, amely lefedi a teljes magyar lakosságot – az adatfelvétel időpontjában (2003) szám szerint 3.737.941 háztartást. A WLS becslés során súlytényezőként a „Suly” változót használtuk (lásd HKF.gdt), mely az egyes háztartástípusok számosságát sorolja. A WLS eredmények így ekvivalensek a teljes háztartás-népességre futatott OLS becsléssel.
35
A konstans rugalmasságú modell A modell multiplikatív módon definiált, tehát mindkét oldalának logaritmálásával (log-log transzformáció) már lineáris modellt kapunk. E modell valamennyi változójában logaritmált, tehát változóiban nem lineáris. Ha az Y eredményváltozó a Termelés, és az X magyarázó változók a termelési tényezők, akkor az ú.n. Cobb-Douglass termelési modellt definiáljuk. Esetünkben Y az értékesítés nettó árbevétele, a termelési tényezők pedig a munka felhasználás M, és a tőke ráfordítás T. A tényezők szorzódnak, a paraméterek pedig a kitevőben szerepelnek. Szokás a modellt ezért multiplikatív, vagy hatványkitevős modellként is hivatkozni: βm a munka, βt pedig a tőke felhasználás paramétere. Véve mindkét oldal logaritmusát, a Munka, Tőke és Const logaritmáltak, de a paraméterek nem logaritmált lineáris paraméterek maradnak. A pontbecslés során így kapjuk közvetlenül az OLS koefficienseket. A modell jellemzője: Meghatározva a parciális rugalmasságokat Munka és Tőke szerint, a regressziós kitevőket nyerjük, amik – a magyarázó változók tekintetében – konstans értékek. A termelés rugalmassága e modell szerint tehát független attól, hogy a termelési tényező c.p. milyen base-line szintről nő 1% (relatív) mértékben. Innen a modell megnevezése: konstans rugalmasságú modell. A modell másik gyakori elnevezése az alkalmazott linearizálási transzformációra, a logaritmálásra utalva: log-log modell.
36
A volumenhozadék tesztelése A Munka és a Tőke mellé újabb tényezőket is felvéve, a koefficiensek értékeit publikálja a táblázat. Minden változó logaritmált értékben szerepel. Ezért az OLS koefficiensek egyben parciális elaszticitások. Ha pl. a Befektetett eszközök értéke 1%-kal magasabb, akkor a Hozzáadott érték 0.929%-kal magasabb várhatóan, c.p. A Hozzáadott érték klasszikus termelési függő változó, értéke nem lehet negatív, zéró értéke sem „életszerű”, tehát logaritmálható. A volumenhozadék a parciális rugalmasságok összege: ha valamennyi termelési tényező egyidejűleg 1%kal emelkedik, akkor várhatóan ennyi %-kal emelkedik a Hozzáadott érték. Ha ez a valóságban nagyobb, mint 1, akkor a növekvő volumenhozadék, ha egyenlő 1, akkor az állandó, ha pedig kisebb mint 1, akkor a csökkenő volumenhozadék esete adódik. A mintabeli megfelelő, kalkulált érték 1.38. Teszteljük az állandó volumenhozadék hipotézisét: tartható, vagy sem. Az 1.38 pontbecslés standard hibája 0.04. A t-statisztika értékét úgy számítjuk, hogy az empirikus értékből levonjuk a hipotézis szerinti 1-et és a különbséget normáljuk a standard hibával: (1.38-1)/0.04=9.5. Lévén a p-érték itt praktikusan zéró (0.0000), ezért elutasítjuk az állandó hozadék hipotézisét. Tehát a növekvő hozadék hipotézisét fogadjuk el. Az R2 értéke itt nem informatív, mert a lineáris regressziós OLS becslés logaritmált (zsugorított) skála adatain alapszik. Probléma, hogy ha az eredeti Y adatokon számítunk nem lineáris modellből R2 értéket, az lehet negatív is, vagy nagyobb mint 1. Megoldás: a megfigyelt és az előrejelzett Y értékek közötti R2 számítása és értelmezése.
37
A konstans rugalmasság tesztelése A konstans rugalmasság azt jelenti, hogy a Hozzáadott érték rugalmassági szintje független a predictor változók szintjeitől. Ennek a vizsgálatához ki kell jelölnünk, hogy melyik termelési tényező függvényében tekintjük a rugalmasságot, majd empirikus rugalmasságok sorozatát kell számítanunk és modellezni. Ha az empirikus rugalmasságok nem mondanak ellent a konstans szintnek, akkor a Cobb-Douglas függvény adekvát. Példánkban a Hozzáadott értéknek, mint termelési mutatónak a Forgó eszközök szerinti rugalmasságát tekintjük. Ennek során a következő lépéseket járjuk végig: 1.
Rendezzük az adatállományt (értsd szakágazatokat) növekvőleg a Forgó eszközök értékei szerint,
2.
számítjuk a Forgó eszközök relatív hozam-sorozatát: FeHozam = (Xi – Xi-1) / Xi-1 ,
3.
számítjuk a Hozzáadott érték relatív hozam-sorozatát: HeHozam = (Yi – Yi-1) / Yi-1 ,
4.
számítjuk a Hozzáadott érték vs. Forgó eszköz empirikus, szakágazat-sorosan rendezett rugalmasságait, amit a HeHozam / FeHozam hányados definiál.
5.
Végül az így létrejött empirikus rugalmasság-sorozatot, mint függő változót regresszáljuk a modell predictor változói függvényében, és teszteljük a koefficiensek szignifikanciáját.
Az eredmények a következők: 1. Minden becsült koefficiens a p-értékek alapján inszignifikáns, vagyis „zéró közeli”. 2.
Az R2 determinációs együttható értéke elenyésző (a statisztikai tesztnek sincs gyakorlati értelme).
Konklúzió: 1. A Hozzáadott értéknek a Forgó eszközök függvényében vett rugalmassága konstansnak tekinthető. 2. A többi predictor esetében az elemzés analóg módon végrehajtandó. A tengelymetszet-konstanssal kapcsolatban a következő megjegyzéseket emeljük ki: 1. Jelen esetben inszignifikáns a modellben, tehát elhagyható, előjele nem értelmezendő. 2. Ha szignifikáns, akkor „outlier” szakágazatok jelenléte esetén, a koefficiensek specifikációs torzítottsága elkerülése érdekében, elhagyása indokolt.
38
Az exponenciális, növekedési modell A modell Háztartási Költségvetési Felvételi, azaz „HKF03” adatokat elemez a 2003. évre vonatkozóan, ahol: Y a háztartás éves összes jövedelme EFt. Az exponenciális függvény kitevőjében szerepel a lineáris regressziós predictor. A modell paraméterének jelentése: ha pl. egy fővel magasabb a taglétszám, akkor miként változik relatív értelemben (százalékosan) a háztartás jövedelme. Ezt fejezi ki a β paraméter: X+1 hatására Y értéke egzaktan exp(β) értékkel inflálódik, amely inflátor 1-hez viszonyított százalékos értéke a növekedés ráta. A paraméterbecslés módja: az induló modellt visszavezetjük a lineáris modellre logaritmálással, ahol csak az eredményváltozó logaritmált, a paraméterek nem transzformálódnak. A linearizálás következményeként előálló függvényforma nyomán ezt a modellcsaládot log-lin modelleknek is hívjuk. Az árnyaltabb modellspecifikáció érdekében bevont magyarázó változók köre: 1. a háztartásfő (HF) neme, iskolai végzettsége, kora, 2.
a vállalkozók, munkanélküliek, alkalmazottak száma,
3.
majd a háztartás teljes taglétszáma.
E predictor körben c.p. a taglétszám növekedési rátája: 100(exp(0.1605)-1)=17.41%. Azaz, ha c.p. a taglétszám egy fővel emelkedik, akkor a háztartás éves jövedelme várhatóan 17.41 százalékkal emelkedik. Vegyük észre, hogy ezen érték magasabb mint a megfelelő koefficiens 100szorosa: 100*0.1605=16.05%. Ez mindig így van.
39
A „pillanatnyi” növekedési ütem Tekintve a Jövedelem és az Életkor kapcsolatát, fölmerül a kérdés, hogy ha a Kor „végtelen” kicsiny 1 egységgel idősebb (abszolút értelemben), hány százalékkal változik (relatív értelemben) a Jövedelem. A növekedési ráta értéke most zéró közeli X változás környezetében becsülendő. A válasz a regressziós Coeff koefficiens, kétféle megközelítésben indokolva: 1.
A regressziós koefficiens a logaritmusban mért differencia (X tart 0-hoz) esetén, ami a kérdésre ad választ.
2.
A koefficiens a növekedési rátát közelíti, ha Coeff
0: Exp(Coeff)-1 ≈ Coeff .
Vegyük észre, hogy példánkban most 0.0011= exp(0.0011)-1 (négy tizedes-jegy pontossággal). A közelítés még pontosabb, ha az életkort napokban, órákban, percekben, másodpercekben, stb. mérjük. Innen a pillanatnyi ütem megnevezés. Összefoglalva: A log-lin modelleknél a prediktorok hatáselemzéséhez kapcsolódó két alapvető fogalom a növekedési ráta és a pillanatnyi növekedési ütem. Mindkettő a magyarázó változó eredményváltozóra gyakorolt százalékos marginális hatását méri, csak utóbbi zéró közeli – határátmeneti értelemben egységnyi – X változás, míg előbbi egzaktul egységnyi X változás esetén. A két relatív marginális hatás közel megegyezik, ha a vonatkozó Béta koefficiens zéró közeli. A hatáselemzés másik útja a rugalmasság számítás. Amint a dián látható, a logaritmált modell rugalmassága: Coeff*X, tehát a magyarázó prediktor lineáris függvénye. Az eredményváltozó magyarázó változó szerinti parciális rugalmasság tehát – a log-log modellekkel szemben – a log-lin modelleknél nem konstans, hanem függ az X kiindulási szintjétől. Más szóval a rugalmasság pontfüggő. Például, a háztartás éves jövedelmének kor szerinti becsült rugalmassága 0.0011*Kor százalék. Ez azt jelent, hogy 50 éves háztartásfő esetén a kor 1 százalékos emelkedése a háztartás jövedelmét várhatóan (0.0011*50)=0.055 százalékkal emeli meg.
40
Keresleti-kínálati Lin-log modell Használt lakások kínálati árának (Ár: MFt) az alakulása a T alapterület függvényében az illusztratív példa. A lakásár eredeti mértékegységében (lineárisan) szerepel, de az alapterület logaritmizált formában: ezért a megnevezés, „lin-log” modell. A modelltípus alkalmazásának az igénye akkor merül fel, ha az az alapvető kérdés, hogy a Terület relatív, 1%-os növekmény hatására mennyi a várható abszolút MFt változás az Árban. A probléma jellege miatt a modellt keresleti-kínálati modellként szokás alkalmazni. A becsült modell szerinti Ár = -113.45 + 33.1*ln(Terület). A pillanatnyi növekedési ütem szabály szerint, ha a Terület 1%-kal emelkedik, akkor a megfelelő növekedés az ln(Terület) változóban 0.01 volt. Ekkor viszont az Ár Béta*0.01 mértékben emelkedik. Mivel az Ár Millió forintban van, ezért az értelmezés, hogy ha egy százalékkal nagyobb az alapterület, akkor 331000 forinttal nő a kínálati ár c.p., várhatóan. A rugalmasság számítása: vegyük a lakás árnak a terület szerinti deriváltját, ami Béta/T. Ezt szorozva a T/Ár tényezővel (X/Y) kapjuk a rugalmasság formuláját: Béta/Ár (Béta/Y). A rugalmasság tehát az eredményváltozó függvénye, reciprok módon. Ha 1%-kal nagyobb az alapterület a 30 Milliós lakások körében, akkor 1.103%-kal drágább a lakás.
41
A telítődési modell A modellben J a háztartás éves összes jövedelmét jelenti (Eft). Az éves kiadás kifejezetten a háztartás éves élvezeti cikkekre fordított kiadásaira vonatkozik. Az első modellben a kiadás tömegét tekintjük értékben, a második modellben viszont az élvezeti cikkek részarányát az összes kiadáson belül. Számunkra most nagyságrendileg az Alfa paraméter az érdekes, mert ha növekedik a jövedelem, akkor a reciprok összefüggés miatt a Béta/J tört értéke csökken és a kiadás közelít az Alfa értékhez. Ha a Béta paraméter előjele pozitív, akkor J emelkedésével egyre kevesebbet adunk az Alfa paraméterhez, tehát a függvény csökkenő. Ha a Béta paraméter előjele negatív, akkor egyre kevesebbet veszünk el az Alfa paraméter értékéből, tehát a függvény növekvő. A táblázat első modelljében az Alfa érték 97.4, tehát a negatív Béta paraméter miatt ehhez növekszik az EFt kiadás. A táblázat második modelljében az Alfa paraméter 6.2%, tehát a pozitív Béta miatt az élvezeti cikkekre fordított kiadás aránya ehhez az értékhez csökken. Az elaszticitás (rugalmasság) mind az Y eredmény, mind pedig az X magyarázó változó függvénye, reciprok összefüggés szerint. Egy 200ezres kiadású és 2milliós jövedelmű háztartás esetén a rugalmasság 0.034%, míg egy 10% kiadású és 2milliós jövedelmű háztartás esetén -0.0138%.
42
A RESET nemlinearitási teszt A RESET teszt nem alkalmas javasolni az adekvát függvényformát, csak azt, hogy a linearitás tartható-e, vagy sem. Háztartás-statisztikai példánkban a hazai háztartások évi összes élelmiszer-kiadása a függő változó, és a predictorok rendre: Taglétszám, Életkor, Éves összes jövedelem. A lineáris v.s. nem lineáris összevetés gondolatmenete, lépései e teszt szerint a következők: 1.
Regresszáljuk a Kiadást(Y), a Létszám(X1), Kor(X2) és a Jövedelem(X3) függvényében.
2.
Meghatározzuk a regresszió prediktált értékeit: c , c d , c
3.
Kibővítjük a regresszor kört e hatványozott prediktált értékekkel.
4.
Teszteljük F-teszttel, hogy a bővítés jelentős magyarázó erő javulást eredményez-e, vagy nem.
5.
Ha a javulás jelentős, akkor a modell nem lineáris.
6.
Többet nem tudunk állítani.
e
hatványozással.1
Példánkban a prediktált Y hatványértékekkel való bővítést tesztelő Wald-F próba p-értéke 0. Ez azt jelenti, hogy minden standard szignifikancia szinten elvetjük az alábbi nullhipotézist:
O0:
2c 8
2c f
2c g
0
A három hatványozott pred(Y) bevonása a modellbe tehát érdemi magyarázó erő javulást eredményezett. Így a RESET teszt alapján kijelenthetjük, hogy a modellünk nem lineáris. A nem-linearitás forrását azonban a teszt alapján nem tudjuk megítélni, ez további modellbővítési próbálkozásokat (modellspecifikációs lépéseket) és azok statisztikai próbáit igényli. 1
A GRETL modelldiagnosztikai eszköztárában szereplő RESET-teszt csak a pred(Y) második és harmadik hatványával operál. Minden egyéb tekintetben azonban ekvivalens az itt leírtakkal.
43
Változóikban nem-linearitási tesztek Kétféle esetet tárgyalunk, de ha szükséges, akkor a kétféle megközelítés kombinálható, és más esetekre is kiterjeszthető. Az egyik hipotézis szerint érdemes az eredeti mértékegységben mért prediktor kört kiegészíteni azok kvadratikus hatásaival, a másik hipotézis pedig a prediktorok körét azok logaritmizált értékeivel bővítené. (Használhatnánk interakciókat is, bár az Ábra ezt nem tartalmazza.) Mindkét hipotézis a Lagrange-Multiplikátor módszer alapján kerül tesztelésre, de most egy ún. segédregressziós becslés eredményeire alapozva. Ennek lényege, hogy becsüljük a Kiadásokat a Tag, a Kor, és a Jövedelem független változókkal, majd ezen modell reziduumait regresszáljuk: 1.
egyfelől a kvadratikus hatásokkal bővítve az eredeti hármas prediktor kört,
2.
másfelől a logaritmált változókkal bővítve az eredeti hármas prediktor kört.
Mivel a reziduum már nem tartalmazza az eredeti három prediktor hatását, ezért ha a segédregresszió szignifikáns magyarázó-erővel rendelkezik, akkor érdemes szerepeltetni a változók nem lineáris hatásait is a modellünkben, ellenkező esetben viszont nem. Szemléltetésként vegyük a kvadratikus hatásokkal való bővítés esetét. A nested modellszelekcióhoz felállítandó hipotézisrendszer a következő:
O 0:
R8
h8
i8
0
H1: A három bevont négyzetes prediktor közül legalább egy releváns. Figyelem, a hipotézisrendszer közvetlenül a reziduumra illesztett segédregresszióra vonatkozik! További sajátosság, hogy a H0 modell praktikusan az üres modell, hiszen a reziduumok az alapmodell prediktorainak hatásától már tisztítottak.1 A H1 modell maga a segédregresszió. A teszt tehát lényegében a segédregresszióra elvégzett függetlenségvizsgálat. Mindezek alapján belátható, hogy a H0 modell többszörös determinációs együtthatója zéró. A kapcsolódó LM próba értéke a következő (az eltérés a dián szereplő értéktől a kerekítésből fakad):
jk
8 8 567 956: 8 956:
8314
.
l m9 9
210.095~Aop23.
A próba p-értéke zéró, így a H0 hipotézist elvetjük a H1-el szemben. A három kvadratikus hatás között tehát van releváns a Kiadás alakulása szempontjából. Annak eldöntése, hogy mind a három négyzetes hatás releváns-e, további nested modell-tesztet igényel. Zárásként megjegyezzük, hogy a segédregresszió függetlenségvizsgálatát – hasonló statisztikai tartalom mellett – Wald-F próbával is elvégezhetjük. 1
A H0 modell üres modell voltát úgy is könnyű belátni, ha felidézzük, hogy az OLS becslésnél az empirikus reziduumok korrelálatlanok a magyarázó változókkal. Így a segédregresszióban szereplő „basic predictorok” az eredményváltozó szempontjából irrelevánsak.
44
Kategória kimenetű predictorok alkalmazása Egy nominális változó kimeneteit kategóriák alkotják (munkanélküli-nem munkanélküli, férfi-nő, Budapest-vidék, stb.). A fejezet statisztikai mondandója, hogy milyen módszerrel lehet szerepeltetni egy regressziós modellben nominális változókat predictor változó szerepben. A módszertan egyben a strukturális törés tesztelése is.
45
A strukturális törés Adott évben európai országok (szám szerint 28) fejlettsége (egy főre jutó relatív GDP%) alapján magyarázzuk a munkanélküliségi ráta (%) alakulását az egyes országok Uniós statusa ismeretében: A, B, C csoportok rendre. Az adatokat a tábla közli. Az első oszlop a munkanélküliségi rátát, az utolsó oszlop pedig a GDP% értékeit tartalmazza. Az egy főre jutó GDP Olaszország bázisában (%) értendő, és eggyel korábbi évet jellemez, mint a Ráta. A DA, DB, DC „indikátor” változók az (1,0) értékek egyikével jelzik a csoport tagság meglétét vagy hiányát. Az indikátor változók szinonim megnevezése: „dummy” változó. A vizsgálat a Ráta v.s. Fejlettség kétváltozós regressziós kapcsolat elemzését célozza. Lehet, hogy a regressziós paramétereket nem érinti csoporthatás. Ez egy Globális kapcsolat adekvát alkalmazását tenné lehetővé. A globális, minden csoportra közösen érvényes kapcsolat megnevezése: „pooled” regresszió. Reálisan a kapcsolat legmélyebben árnyalható úgy, hogy a kétváltozós kapcsolatok minden paraméterükben csoportfüggők: a GDP hatása a rátára másik országcsoportban más és más tendencia mentén érvényesül. E jelenség tesztelése a statisztikai feladat. A statisztikai teszt alkalmazása egymásba ágyazott modellek specifikálását igényli, rendre: 1. a legbővebb modell esetünkben 6 paraméterrel a valamennyi paraméterében specifikus regresszió, melynek leginkábbi megszorítása adja a pooled egyenest 2 paraméterrel, 2. kézenfekvő közbülső megszorítás lehet a különböző szinteken, de párhuzamosan haladó kapcsolatok esete 4 paraméter alkalmazásával, 3. másféle közbülső meggondolás lehet a közös tengelymetszetből induló, de eltérő meredekségek mentén haladó regressziós egyenesek hipotézise, szintén 4 paraméter alkalmazásával. A paramétereikben egymásba ágyazott modellek szembe állíthatók a másikkal, és a szelekció Wald-F vagy LM-Chi2 statisztika alapján is történhet. Látható, hogy Bulgária outlier, ami a C csoport jellemzőit, eredményeit alapvetően befolyásolja, de ha Bulgáriát elhagyjuk, akkor a C csoportban a GDP nem szóródik, így regressziója nem definiált, továbbá második X nem vonható be, mert csak két megfigyelés marad a csoportban.
46
A strukturális törés szélső esetei Az ábrán 4 kétváltozós regressziós egyenes szerepel, 2 modellt reprezentálva. Az egyik – szélső – modell a törésmentes globális (Pooled) egyenes 2 paraméterrel: Ráta = 14.363-0.075 GDP | R2 = 0.39. A másik – szélső – modell a totálisan, 3 egyenesre tört modell 6 paraméter becslésével: RátaA =
12.779-0.058 GDP
|DA=1
RátaB =
23.961-0.259 GDP
|DB=1
RátaC = -108.550+4.875 GDP
|DC=1
A csoportnak megfelelő egyeneseket alkalmazva mindenkor, totálisan értelemszerűen kisebb hibát követünk el, mint a pooled egyenest használva. A globális egyenes R2 együtthatója: 0.39. Ez vetendő össze – példánkban az F-statisztikával – a totálisan tört modell R2 értékével. Ehhez meg kell fogalmazni a teljesen tört modellt 6-paraméteres formában, melyre az R2 érték OLS módon adódik, és ugyanakkor paramétereire 4 megszorítást téve a beágyazott Pooled egyenest nyerjük. A vizsgált két R2 érték különbség tesztelésével a strukturális törés tesztjét hajtjuk végre.
47
A Fix hatású modell paraméterezése A csoportspecifikus egyenesek közös modellbe foglalása indikátor változók és interakcióik megfelelő alkalmazásával történik. Mind a tengelymetszet, mind a meredekség paramétereket csoportokra törjük, így a globális megfelelőiket elimináljuk a modellből. A Fix tengelymetszeteket az AlfaA, AlfaB, AlfaC rögzített paraméterek, a Fix meredekségeket pedig a BétaA, BétaB, BétaC paraméterek jelentik. E paraméterek becsülendők. Képezve az AlfaA*DA tagot, ez csak akkor lesz AlfaA, ha az A csoportban vagyunk, mert ekkor DA=1, egyébként DA=0. Ez érvényes a B és a C csoportok megfelelőire is. Az algoritmus ismervén az Ország D# indikátor értékét, szelektálja a megfelelő Alfa# tengelymetszetet. Képezve a BétaA*DA tagot, ez csak akkor lesz BétaA, ha az A csoportban vagyunk, mert ekkor DA=1, egyébként DA=0. Ez érvényes a B és a C csoportok megfelelőire is. Az algoritmus a D# indikátor érték alapján szelektálja a megfelelő Béta# meredekséget. Rendelkezésre áll a 6-paraméteres totálisan tört modell egyetlen regresszióba foglalva, mely az előrejelzés közben mindig ahhoz az egyeneshez nyúl, amely csoportban előrejelzést adunk, és adja a 6paraméteres modell R2 együtthatóját. A becsülendő regresszió magyarázó változói a zárójelek felbontása után adódnak: 1. egyfelől valamennyi csoport D indikátorai (szelektálandó tengelymetszet szerepkörben), főhatásként, 2. másfelől valamennyi indikátor interakciói az X változóval (szelektálandó meredekség szerepkörben). Vegyük észre, hogy globális tengelymetszet ebben a modellben nem szerepeltethető, mert a csoporton belüli konstans tagokkal együtt egzakt multikollinearitást okozva, túlparaméterezné a modellt. A Pooled regresszió hipotézise a csoport-specifikus tengelymetszetek egymással, valamint a csoportspecifikus meredekségek egymással való egyezésében fogalmazandó meg.
48
A Fix-hatás tesztelése A Totálisan_tört, és a Globális regresszió közötti választást szolgálják a modellszámítások alábbi eredményei. A H1 modell tartalmazza mindhárom indikátort mint fő hatást, és mindhárom indikátor GDPfejlettséggel vett interakcióit. A modell értelemszerűen nem tartalmaz globális tengelymetszetet (konstans tagot), és a 6 paraméter alkalmazásával elért R2 = 0.6413. Szűkítve a modellt a H0 szerinti globális egyenesre 2 paraméterrel, az R2 értéke lecsökken: 0.39. Kérdés, hogy a 4 paraméter eliminálásának köszönhető R2 romlás jelentős, vagy sem. Ha jelentős, akkor nem hagyjuk el a paramétereket, de ha nem jelentős, akkor nincs rájuk szükség. Ennek eldöntéséhez az F-tesztre támaszkodunk, melynek számított értéke F=3.845, (4, 22) szabadsági fok párral. A vonatkozó p-érték 0.016, ami kisebb mint 5%, tehát 5 százalékos döntési szinten az F-érték szignifikáns, vagyis a totálisan tört modell jelentős, a globális egyenes semmiképpen nem váltja ki. Vegyük észre, hogy 1% döntési szinten a döntés megfordulna, de az alacsony mintaméret (n=28) miatt a reális döntési szint (%) most inkább lazítandó. Az F-statisztika számlálójának szabadsági foka 4, mert H0 négy megszorítást tesz a H1 modell paramétereire: 6 helyett 2 paramétert becslünk.
49
Variancia analízis: Csoportspecifikus Null modellek Tekintsük az indikátor változók paramétereinek a tartalmát, jelentését akkor, ha exogén X változót nem vonunk be a modellbe, hanem a Ráta alakulását csak a csoporttagság függvényében vizsgáljuk. Most is választhatunk a Fix hatású, globális tengelymetszet nélküli, vagy a (C) referencia csoporthoz viszonyító – globális tengelymetszetet tartalmazó – alkalmazások közül. Mindkét modell csoporton belüli előrejelzése konstans és értelemszerűen azonos, az A csoportban BétaA, a B csoportban BétaB, a C csoportban pedig BétaC. A Fix-hatású modell esetében a indikátorok koefficiensei: rendre: 6.58%, 10.44%, 11.70%. A számtani átlag négyzetes minimum tulajdonsága alapján, a legkisebb négyzetek OLS koefficiensei most a Ráta csoportokon belüli átlagos értékeit adják, ezért a % a mértékegység. Így – bár alacsony a mintaméret – mégis, a szignifikáns t-statisztika értékek (zéró közeli p-értékek) azt a triviális helyzetet adják vissza, miszerint a Ráta átlagos értéke egyik csoportban sem zéró. Ezzel szemben, a második modell indikátorainak a koefficiensei a C referencia csoporthoz képest vett „többleteket” becslik: -5.12 és -1.26 rendre. Mivel százalékos mutatóban vett különbségek, ezért értékük százalékpontban értendő. Értelemszerűen az A csoport átlagos rátája 5.12 százalékponttal alacsonyabb a C csoporténál, a B csoporté pedig 1.26 százalékponttal alacsonyabb szintén a C csoporténál, miközben a C csoport átlagos Rátája 11.7%, ami a globális tengelymetszet. Vegyük észre, hogy az indikátor koefficiensek p-értékei most az eltéréseket tesztelik. Ennek értelmében a -5.12 eltérés közel szignifikáns, míg a -1.26 eltérés egyértelműen inszignifikáns. A Fix-hatású modell 1. előrejelzése a részátlagokat adja országonként, melyek varianciája a Külső Variancia = 2.14^2, 2. reziduumai a részátlagtól szűrt Ráta értékek, melyek varianciája a Belső Variancia = 4.1425^2. Az R2=0.2107 determináció e specifikációban megegyezik a Ráta: Külső/Totális módon definiált Wilkslambda variancia-hányadosával.
50
Referencia csoport alkalmazása Egy referencia kategória megválasztása mellett (ez lehet a kategóriák bármelyike) a három tengelymetszet és a három meredekség megkülönböztetését megvalósíthatjuk a referencia kategória indikátorának az elhagyásával, de tengelymetszet és az X főhatás szerepeltetése mellett, mert 3 kategória leírása három paramétert igényel. Példánkban C a referencia kategória, majd Alfa és Béta a globális paraméterek, melyek egyben a C csoport paramétereit adják. Ekkor (DA,DB) az (1,0),(0,1),(0,0) értékük szerint a tengelymetszetet Alfa bázisában, majd a meredekséget Béta bázisában korrigálják, megfelelően: az A csoport meredeksége Béta+BétaA, a B csoportté Béta+BétaB, a tengelymetszetek pedig rendre Alfa+AlfaA, és Alfa+AlfaB. E paraméterezésben a Pooled egyenes hipotézisét a korrigáló koefficiensek zéró volta fogalmazza meg: AlfaA=AlfaB=BétaA=BétaB=0. A tesztelést szolgáló, becsülendő modell struktúrája tartalmazza a globális tengelymetszetet, a DA és DB dummy főhatásokat, az X főhatását és a DA és DB indikátorok X kovariánssal vett interakcióit. A megszorított modell koefficienseit számszakilag a Pooled egyenes koefficiensei adják. A bővebb és szűkebb modellek R2 többszörös determinációs együtthatói megegyeznek a szelekciós módszer értékeivel, így az F-teszt konklúziója változatlan: A globális egyenes hipotézise elvetendő.
51
Párhuzamos egyenesek hipotézise Fölmerül a kérdés, hogy bár a ráták szintje országcsoportonként változik, de a GDP-fejlettség marginális hatása azonos. E probléma módszertanilag a különböző tengelymetszetű, de párhuzamos meredekségű regressziók feltevésének becsléséhez, majd teszteléséhez vezet el. A teszt végrehajtható mind a Fix hatású modell mind a Referencia csoport modell alkalmazásával. Illesztve bármelyik módszerrel a Full (6 paraméteres) modellt, az előbbi elven azt a megszorítást tesszük, hogy a meredekségek egyenlők egymással: BétaA=BétaB=BétaC, míg az utóbbi elven a referencia meredekség korrigálásai egyöntetűen zérók: BétaA=BétaB=0. A párhuzamos egyenesek melletti R2 érték bármelyik paraméterezéssel 0.4, a megszorítások száma most 2. Így az F-érték 7.384, p=0.004 szignifikancia értékkel. Lévén az F-statisztika értéke a p-érték alapján szignifikáns, így a meredekségek is különbözőek konklúziót megfogalmazó alternatív hipotézist fogadjuk el 5százalékos döntési szinten.
52
Kontraszt változók szerepe a csoporthatások vizsgálatában Meghatározva a GDP relatív szintje alapján várt globális trendet a Munkanélküliségi Ráta (MR) alakulásában, célunk a csoportoknak köszönhető „többlet” hatás becslése és tesztelése. Feltevés szerint a meredekség Béta paramétere csoport-független, a tengelymetszetek azonban egy rögzített centrális Alfa érték körül alakulnak csoportról-csoportra, vagyis csoport-specifikusak. Az OLS paraméterbecslés megfelelő technikai eszköze most az ún. Kontraszt változók alkalmazása. A modell az alábbi problémát fogalmazza meg: az XGDP által indokolt trendhez képest mennyi az egyes országcsoportok AlfaA, AlfaB, AlfaC additív hatása (többlete, elmaradása), és ez a hatás jelentős-e, vagy sem. A többlethatás forrása a csoport-specifikus tengelymetszet véletlen eltérése egy centrális Alfa tengelymetszettől. A modell formálizálása egyszerű, hiszen a GDP várható főhatását korrigáljuk a megfelelő csoporthatásokkal: Ráta = Alfa + Béta*X + AlfaADA + AlfaBDB + AlfaCDC + Error . Így azonban az Alfa globális tengelymetszet szerepeltetése numerikus problémát okozna, mert DA+DB+DC=1 miatt lineárisan összefüggő változók lennének az adatok között. Becsülhetővé válik viszont a modell a csoporthatások összegének zéró voltát megkövetelve: AlfaA+AlfaB+AlfaC=0 . Kifejezve az AlfaC=(-AlfaA-AlfaB) hatást és visszahelyettesítve az induló modellbe, kapunk egy trendet, melyben az AlfaA,, AlfaB koefficiensek kontraszt változói rendre: KA=(DA-DC), KB=(DB-DC). E változók abban különböznek a klasszikus dummy kódolástól, hogy a referencia kategória (most a C csoport) esetén a {-1,-1} értékeket veszik fel rendre. Az AlfaC koefficiens becsült értéke a zéró-összeg megszorítás alapján következik: -1.124 - 0.057= -1.181. Az exogén GDP pedictor -0.09 koefficiense egyben a párhuzamos regressziók közös meredeksége, míg pl. a KA változó AlfaA=1.124 koefficiense nem más, mint az átlagos tengelymetszettől vett A-csoportbeli eltérés. Az A- csoport tengelymetszete ezen eltérés és a centrális (főhatás/átlagos) Alfa összegeként adódik: 15.111+1.124=16.235. A végső előrejelző modell a fentiek alapján: Pred(MR)= 15.111-0.09GDP+1.124DA+0.057DB-1.181DC .
53
54
A fejezet két részre tagolódik: a modelldiagnosztikára, illetve a kvantilis regresszióra. A modelldiagnosztika a regressziós modell reziduumainak előre rögzített szempontok szerinti vizsgálatát jelenti. Alapvető célja, hogy az alkalmazott becslési eljárás feltételeit utólagosan verifikálja az empirikus hibatagok vizsgálatával. Elnevezése is erre utal: a modell – alkalmazási feltételek szerinti – megbízhatóságának a diagnosztiázálása. Az OLS becslés alkalmazásának feltételei az exogenitás, illetve a szférikus hibatag. Amint azt korábban már leszögeztük, az exogenitás tesztelésére az OLS reziduumok nem alkalmasak, mivel a zéró regresszor-hibatag korreláció (Cov(X,e)=0) a becslés során adottságként jelentkezik. Az OLS modell diagnosztikája így a hibatag szférikus voltának vizsgálatára korlátozódik. Utóbbi keretében a reziduum normalitása, illetve homoszkedaszticitása tesztelendő. Az alkalmazási feltételek vizsgálatán túl, hagyományosan a modelldiagnosztika részét képezi az extrém (ún. outlier) megfigyelések detektálása, illetve ezzel párhuzamban az eredmények robosztusságának a tesztelése. Az outlier dependent értékek, azaz a minta tendenciájától markánsan eltérő (Y,X) pontok jelenlétére az OLS becslés különösen érzékeny. Az OLS ugyanis hibanégyzetösszeget minimál, ezért a nagy hibát (ei) generáló extrém Y értékek szükségszerűen magukhoz húzzák az illesztett regressziós egyenest, azaz a paraméter-vektort. A paraméterbecslésre gyakorolt hatásuk miatt ezeket az extrém megfigyeléseket az angolszász terminológia csak „influantial observations” (befolyásos megfigyelések) névvel illeti. Az outlier megfigyelések detektálásának módszertana nem képezi a kurzus részét. Ehelyett rögtön a probléma megoldására fókuszálva, az extrém megfigyelésekre robosztus eredménnyel szolgáló kvantilis regressziókat tárgyaljuk a fejezet második felében. A kvantilis regresszió alkalmazási területe kettős. Az egyik alkalmazási terület a már említett robosztus becslés az outlier megfigyelésektre. A módszertan másik alkalmazási területe az, amikor X ismeretében az Y eredményváltozó eloszlásának nem a centrális értékére (várható értékére, mediánjára) vagyunk kíváncsiak, hanem az eloszlás meghatározott kvantilisére (pl. 9. decilis). (A módszer neve is innen származik.) A feltételes kvantilisek vizsgálata tipikusan például a jövedelemeloszlás (szegénység-) vizsgálat során jelentkezik igényként.
55
A fejezet során tárgyalt témákat egy fogyasztási modell esettanulmányán keresztül szemléltetjük. A modell a háztartások éves élelmiszer-fogyasztását (ElelmEFt) magyarázza három változó segítségével: a háztartás éves jövedelmével (JovEFt vagy J), a háztartás taglétszámával (Tletszam vagy T) és a háztartásfő korával (Hfkora vagy K). A változók mértékegysége ezerFt, fő és év. A minta a háztartások 2003-as költségvetési felvételében szereplő 8314 háztartástípus. Az OLS illesztés eredményét a dia publikálja.
56
A reziduális változó normalitása Formálisan Az OLS koefficiens az Y eredményváltozó mintabeli y értékeinek a lineáris kombinációjaként áll elő: −1 OLS \ X′X X′ ^⋅ y . Következésképpen, ha az eredményváltozó normális eloszlású, akkor a b_OLS koefficiensek is normális eloszlásúak1 Ekkor a t-statisztika Student-féle t-eloszlást követ, H0 érvénye mellett. Ha viszont y nem normális, akkor a t-statisztika nem t-eloszlású. Hasonlóképpen az eredményváltozó normalitása szükséges ahhoz, hogy a Wald-teszt és az LM-teszt a feltételezett F és Chi2 eloszlást kövessék – legalább is kis minta esetén. Amennyiben tehát a normalitás nem teljesül, a hagyományos próbák megbízhatatlanná, a hipotézis tesztelési következtetések és a konfidencia intervallum konklúziók pedig inkorrekté válnak. Az Y dependent változó normalitása tehát vizsgálatot igényel, ami a modelldiagnosztika részét képezi. Ha az eredmény változó normális eloszlású, akkor a várható értékétől vett eltérése is normális eloszlású. Ezen eltérés mintából való becslése a reziduum. Praktikusan tehát a reziduum eloszlásvizsgálata ad lehetőséget az Y változó normalitásának a tesztelésére. Normalitási tesztek (reziduális illeszkedésvizsgálat) Az alábbiakban két normalitási tesztet, a Jarque-Bera (JB) tesztet és a Doornik-Hansen (DH) tesztet mutatjuk be. A JB teszt az egyik legismertebb normalitási teszt. A GRETL program alapértelmezésben a DH tesztet használja a modelldiagnosztika során.2 Mindkét teszt esetén a H0 hipotézis a normalitást, míg H1 a nem normalitás jelenti. A Jarque-Bera teszt-statisztika Chi2-eloszlású mindig DF=2 konstans szabadsági fokkal, mert a normális eloszlás két alapvető jellemzőjét, az S ferdeséget (skewness) és a K csúcsosságot (curtosis) teszteli: normál eloszlás esetén S= 0 és K= 3. Amint a formulából látható (dia), a tesztstatisztika a normalitástól való távolságot méri, úgy hogy a normalitásra alacsony, zéró-közeli Chi2 érték és ezzel egyetemben magas p-érték utal. Vegyük észre, hogy a tesztstatisztika értékét az n mintaméret növeli, míg szabadsági foka konstans. Ezért megfelelően magas mintaméret mellett semmilyen minta nem teljesíti a tesztet. Módszertanilag analóg teszt a Doornik-Hansen próba, mely szintén a ferdeség és a csúcsosság (empirikus értékei) alapján méri a reziduumok illeszkedését a normális eloszláshoz. A JB teszttel szemben azonban ezt nem egy zárt formula, hanem algoritmus eredményeként teszi. Normalitási teszt a fogyasztási modell reziduumaira: A fogyasztási modell reziduumainak empirikus eloszlását (hisztogramját) publikáltuk a dián. Az eloszlás becsült ferdesége és csúcsossága a következő: pred(S)= 1.37 , pred(K)= 10.86. A JB teszt kalkulált értéke: 8314*(1.372/6+(10.86-3)2/24)≈24002.3 A számított p-érték zéró. A DH teszt szintén zéró p-értékre vezet. Így mindkét teszt alapján egyértelműen elutasítjuk a H0 normalitási hipotézist. A fogyasztási modellünk reziduuma (eredmény változója) tehát nem normális eloszlású. Ez a vizsgált jelenségből kifolyólag várható volt. 1A
félkövér változó minden esetben vektort jelöl. A b tehát a becsült paramétervektort szimbolizálja. Ugyanakkor a programcsomag a DH és a JB teszteken túl, további két normalitási tesztet (Shapiro-Wilk próba, Lilliefors próba) is elvégez az adatállományban szereplő változókra külön futtatva, tehát nem a klasszikus modelldiagnosztika részeként. 3 Az eltérés a dián szereplő értéktől a kerekítési hibának köszönhető. 2
57
A heteroszkedaszticitás jelensége Az OLS becslés alkalmazási feltételei kapcsán már említettük, hogy jól viselkedő, ún. szférikus hibatagot feltételezünk. Azt is leszögeztük, hogy ez a feltétel nem szükséges az OLS paraméterek torzítatlanságához, azonban a leghatásosabb (legkisebb mintavételi ingadozású) becslés tulajdonsághoz elengedhetetlen. A jól viselkedő hibatag egyik ismérve, hogy a feltételes szóródása konstans: HI1 #|qD %D % minden i-re. Ilyenkor a modellt homoszkedasztikusnak hívjuk. Ha a szórás változó, akkor a modell heteroszkedasztikus: HI1 #|qD %D M % . 1 A jelenség megértése végett időzzünk el egy pillanatra az eredményváltozó feltételes szórásának tartalmánál regressziós környezetben. Mint ismert, a regressziós függvény X feltétele mellett adja meg az Y várható értékét. A megfigyelt, tényleges eredmény-változó ezen feltételes várható érték és a véletlen eredőjeként áll elő: rD |qD " #D . A véletlen hibatag nem modellezhető valószínűségi változó zéró várható értékkel és σi szórással: #D ∼ E 0, %D G. Mindez azt is jelenti, hogy a tényleges (manifeszt) Y értékek xi kovariáns feltétele (értéke) mellett a reziduális szórással megegyező mértékben szóródnak a várható értékük körül:
HI1 r|q D
HI1
|q D " #D
HI1
|q D
" HI1 #|q D
0 " %D .
Úgy is fogalmazhatunk, hogy az y szóródása a regressziós várható érték körül a reziduális szórásnak köszönhető, és azzal egyenértékű. Az alábbi ábra az Y feltételes szórását mutatja be kétváltozós regressziónál a homoszkedaszticitás és a heteroszkedaszticitás esetére. Mindkét esetben három függőleges vonal szúr le az x-tengelyre kijelölve a magyarázó változó x1 , xh és xl értékeit. A pirossal jelölt (elméleti) regressziós egyenes megadja a vonatkozó várható értékeket. A várható érték körül. A 900-ban elforgatott sűrűségfüggvények pedig az Y eloszlását reprezentálják a heteroszkedasztikus modell esetén láthatóan különbözik a sűrűségfüggvények alakja, amely egyenértékű a szórásnégyzet különbözéségével. Jelen esetben az egyre szélesedő Gauss-görbék egyre nagyobb mértékű szóródást jeleznek. A homoszkedasztikus modellnél a sűrűségfüggvények azonosak, azonos szórásnégyzetet jelezve. Változó reziduális szóródás (heteroszkedaszticitás)
Konstans reziduális szóródás (homoszkedaszticitás)
58
A heteroszkedaszticitás lehet modellspecifikáció következménye, illetve származhat önmagában a vizsgált jelenségből is. A modellspecifikáció által indukált heteroszkedaszticitás esetei a következők lehetnek: 1. Kihagyott releváns változó: A kihagyott releváns változó a hibatagba delegálódik, és így értelemszerűen mozgatja annak szóródását az Y-ra gyakorolt hatásán keresztül. 2. A regresszió csoport-átlagokon való futtatása: Sokszor a mintánkat egy csoportosított sokaság csoport- átlagai alkotják. Vegyük példának a már tárgyalt szakágazati termelési modellt, ahol a 479 megfigyelést a szakágazati átlagok képezték. Más szóval az ni elemszámú i-dik szakágazat dependent változója az átlagos (egy vállalkozásra eső) szakágazati üzleti eredmény volt: r$D
tu
s
Lv
rL w
D
. Az independent változók hasonló
módon
számítódtak.
Könnyen belátható, hogy amennyiben az egyes szakágazatokban (csoportokban) eltérő számú vállalat (megfigyelés) szerepel, akkor a szakágazati (csoport-) átlagokra futatott regresszió mesterségesen válik heteroszkedasztikussá.1 3. Skála-hatás indukálta heteroszkedaszticitás: Bizonyos jelenségek esetén az eredményváltozó lehetséges szóródási tartományát illetően érvényesül egyfajta mennyiségi/skála determináció. Más szóval a magyarázó változó értéke kijelöli az eredményváltozó releváns szóródási tartományát, ezáltal heteroszkedasztikussá téve a modellt. Esettanulmányunk kiváló példája a skálahatás indukálta heteroszkedaszticitásnak. A háztartások jövedelmének abszolút nagysága ugyanis meghatározza az (élelmiszer)kiadások lehetséges felső határát és ezáltal szóródási tartományát is. Nyilván a háztartás jövedelmének a növekedésével a kiadások alakulásának is nagyobb a szabadsági foka. Ugyanez igaz a háztartás taglétszám szerinti méretére is. A skálahatás indukálta heteroszkedaszticitás elkerülésére lehetséges megoldásként az egy főre eső, fajlagos értékek (JovEft/Taglétszám, ElelmEft/Tagletszam) használata adódik. 1 Közismert,
hogy független, azonos eloszlású (independetly and identically distributed, iid) megfigyelések számtani átlagának a varianciája az egyedi megfigyelések varianciájának az összege, normálva a mintaelem% ⁄ D . Az átlag szórása tehát függ a mintaelem-számtól. Így viszont eltérő számoságú számmal: HI1 r$D csoportok számtani átlagát véve, akkor is eltérő varianciájú megfigyelésekhez jutunk, ha egyébként az átlagolás alapját képező csoportelemek feltételes szóródása megegyezik 1 Az
elnevezés a feltételes szórás függvényének matematikai nevére, a szkedasztikus függvényre utal.
58
A fentiekből kiindulva praktikus tanácsot fogalmazhatunk meg a heteroszkedaszticitásnak az eredményváltozó vagy a reziduum pontdiagramja alapján történő felismeréséhez. Ami az eredményváltozót illeti, könnyen belátható, hogy ha a modell homoszkedasztikus, akkor az Y „pontfelhő” egy konstans szélességű sávban alakul az Xj magyarázó változó mentén. Ez a sáv lehet linearisan növekvő/csökkenő vagy nem-lineáris is a regressziós görbe függvényében. Heteroszkedaszticitás esetén az Y pontfelhő szélessége (szóródási amplitúdója) változik. A dián szemléltetésként a jövedelem függvényében ábrázoltuk az élelmiszerkiadás alakulását a mintában szereplő 8314 háztartásra. A pontfelhő szóródása láthatóan növekszik: az élelmiszerkiadások terjedelme adott jövedelmi kategóriáról magasabb jövedelmi kategóriára lépve egyre tágul. Ez közgazdaságilag kézenfekvő, logikus jelenség. A tágulást a két közös pontból induló nyíl határolja be. A táguló pontfelhő a heteroszkedaszticitás jelenlétére utal. Az Y pontfelhő kapcsán tett megállapításaink egyszerűen konvertálhatóak a reziduális pontfelhőre. Homoszkedaszticitás esetén a reziduumokat bármely Xj mentén ábrázolva a x-tengellyel párhuzamos sávban alakuló szóródást kell tapasztalnunk. Ellenkező esetben a modell heteroszkedasztikus. Az ábra (jobbra) az élelmiszerkiadásra illesztett modellünk reziduumait közli a jövedelem függvényében. A reziduális pontfelhő – „örökölve” az ElelmEft növekvő szóródását a JovEft függvényében – láthatóan tágul, és nem egy, a zéró köré illesztett sávban szóródik. A heteroszkedaszticitás forrásai A heteroszkedaszticitás lehet modellspecifikáció következménye, illetve származhat önmagában a vizsgált jelenségből is. A modellspecifikáció által indukált heteroszkedaszticitás esetei a következők lehetnek: 1. Kihagyott releváns változó: A kihagyott releváns változó a hibatagba delegálódik, és így értelemszerűen mozgatja annak szóródását az Y-ra gyakorolt hatásán keresztül. 2. A regresszió csoport-átlagokon való futtatása: Sokszor a mintánkat egy csoportosított sokaság csoportátlagai alkotják. Vegyük példának a már tárgyalt szakágazati termelési modellt, ahol a 479 megfigyelést a szakágazati átlagok képezték. Más szóval az ni elemszámú i-dik szakágazat dependent változója az átlagos (egy vállalkozásra
eső) szakágazati üzleti eredmény volt: r$D
tu
s
Lv
rL w
D
.
Az independent változók hasonló módon számítódtak. Könnyen belátható, hogy amennyiben az egyes szakágazatokban(csoportokban) eltérő számú vállalat (megfigyelés) szerepel, akkor a szakágazati (csoport) átlagokra futatott regresszió mesterségesen válik heteroszkedasztikussá.1 3. Skála-hatás indukálta heteroszkedaszticitás: Bizonyos jelenségek esetén az eredményváltozó lehetséges szóródási tartományát illetően érvényesül egyfajta mennyiségi/skála determináció. Más szóval a magyarázó változó értéke kijelöli az eredményváltozó releváns szóródási tartományát, ezáltal heteroszkedasztikussá téve a modellt. Esettanulmányunk kiváló példája a skálahatás indukálta heteroszkedaszticitásnak. A háztartások jövedelmének abszolút nagysága ugyanis meghatározza az (élelmiszer)kiadások lehetséges felső határát és ezáltal szóródási tartományát is. Nyilván a háztartás jövedelmének a növekedésével a kiadások alakulásának is nagyobb a szabadsági foka. Ugyanez igaz a háztartás taglétszám szerinti méretére is. A skálahatás indukálta heteroszkedaszticitás elkerülésére lehetséges megoldásként az egy főre eső, fajlagos értékek (JovEft/Taglétszám, ElelmEft/Tagletszam) használata adódik. 1 Közismert,
hogy független, azonos eloszlású (independetly and identically distributed, iid) megfigyelések számtani átlagának a varianciája az egyedi megfigyelések varianciájának az összege, normálva a mintaelem-számmal: HI1 r$D % ⁄ D . Az átlag szórása tehát függ a mintaelem-számtól. Így viszont eltérő számoságú csoportok számtani átlagát véve, akkor is eltérő varianciájú megfigyelésekhez jutunk, ha egyébként az átlagolás alapját képező csoportelemek feltételes szóródása megegyezik
59
A heteroszkedaszticitás következménye és kezelése A heteroszkedaszticitás nem befolyásolja az OLS becslés mintavételi értelemben vett torzítatlanságát ( NxWQ ). Nem konstans reziduális szórás mellett azonban az OLS becslés elveszíti a leghatásosabb lineáris becslés tulajdonságát. Heteroszkedasztikus modell esetén ugyanis az Általánosított Legkisebb Négyzetek (Generalized Least Squares, GLS) módszer hatásosabb paraméterbecslést szolgáltat, mint az OLS. Ennél is fajsúlyosabb negatív következmény azonban, hogy az OLS standard hibák torzítottak és inkonzisztensek lesznek.1 A torzított standard hiba miatt a modellépítéshez hagyományosan használt hipotézisvizsgálati tesztek kalkulált p-értéke helytelenné, a tesztek pedig ezáltal megbízhatatlanná válnak. Ez a t-próbánál kézenfekvő, hiszen a koefficiens becsült szórása közvetlenül is megjelenik a Coeff/s.e.(Coeff) képletben. A Wald-F és az LM-Chi2 próbáknál a belátás nem ennyire triviális, így ehelyütt eltekintünk tőle. A fentiekből kifolyólag a heteroszkedaszticitást kezelni szükséges. Ez háromféleképpen történhet: 1. Megszüntetjük a heteroszkedaszticitásért felelős esetleges modellspecifikációs „hibát”. Például abszolút értékek helyett fajlagos értékekkel dolgozunk. Vagy bővítjük a regresszorok körét a magyarázandó jelenség szempontjából relevánsnak vélt további X változókkal. 2. GLS becslést alkalmazunk. A GLS becslés tulajdonképpen egy transzformált (átskálázott) adatállományra elvégzett OLS becslés, amely esetén a homoszkedaszticitás adottságként jelentkezik (lásd a későbbiekben). A GLS becslés természetesen az OLS paraméterektől eltérő eredményhez vezet. 3. Az OLS becslést megtartva, a heteroszkedaszticitásra robosztus módon kalkuláljuk a paraméterek standard hibáit. Az OLS standard hibák torzítottsága abból fakad, hogy a mögöttes formula feltételezi a %D % összefüggést, amely heteroszkedaszticitás esetén nyilvánvalóan nem állja meg a helyét.2 Kézenfekvő megoldásként adódik, hogy a %D reziduális szórásnégyzetet alkalmas proxy (becslő/közelítő) változóval helyettesítsük a standard hiba formulájában. A White-féle robosztus standard hiba becslés az OLS reziduumok négyzetét használja a %D helyettesítésére: pred(σi2 ) = ei2. A White-féle standard hiba nagy hátránya, hogy – kis mintában – túl „optimista” a koefficiens mintavételi ingadozását illetően: a koefficiens valódi szórását jellemzően alulbecsli. Ennek korrigálására több megoldás született, melyeket itt nem részletezünk.3 A heteroszkedaszticitás kezelésének zárásaként egy fontos dologra fel kell hívnunk a figyelmet. Mind a GLS eljárás, mind a robosztus standard hiba becslés nagymintás eljárások, kismintás tulajdonságaik nem ismertek. Ez praktikusan azt jelenti, hogy kicsi minta esetén nem biztos, hogy jobban járunk, ha a normál OLS becslést, akár GLS-re, akár robosztus standard hibára cseréljük. A minta „kicsi” vagy elegendően „nagy” volta nem határozható meg egzaktul. Az n=100 mintaelem-számot azonban alkalmazhatjuk egyfajta mintanagyságot klasszifikáló hüvelykujjszabályként. További megjegyzés az alkalmazással kapcsolatban, hogy nagy minta esetén egyre inkább a robosztus standard hiba becslés használata válik általánossá a GLS becsléssel szemben.4 1 Az inkonzisztencia
azt implikálja, hogy a koefficiens-szórás becslésének torzítottsága a mintaelem-szám növekedésével sem szűnik meg. A dián a kétváltozós OLS modell b meredekségi paraméterének négyzetes standard hiba formulája szerepel. Többváltozós esetben a formula komplikáltabb, azonban a lényeg nem változik: a basic OLS becslés során alkalmazott VARH0(b) formula hibás a H1 heteroszkedaszticitás esetén. 3 A GRETL háromféle korrigált White standard hiba becslést tesz lehetővé. Bár mindmáig a basic White standard hiba a leggyakrabban használt heteroszkedaszticitás robosztus standard hiba, egyre inkább terjed a fentiek értelmében korrigált változatainak az alkalmazása. 4 Ez annak köszönhető, hogy a GLS eljárás feltételezi a reziduális szórásnégyzet ismeretét, amely a valóságban nem realisztikus. A becsült szórásnégyzettel operáló FGLS (lásd később) pedig a %D modellezésével az inkonzisztencia egyik forrásává válhat. 2
60
A heteroszkedaszticitási tesztek logikája Egy regressziós modell hetero-/homoszkedaszticitásának tesztelésére több statisztikai próba ismert. A három legismertebb próba a White-teszt, a Breusch-Pagan-tesz, és a Koenker-tesz. Ezen próbák közös logikát követnek: 1. Első lépésben megfogalmazzák a hipotézisrendszert, ahol a H0 hipotézis a homoszkedaszticitás, a H1 hipotézis pedig a heteroszkedaszticitás:
O0: HI1 #|q D O1: HI1 #|q D
%
%D M %
2. Második lépésben a tesztelendő modell reziduumának valamilyen f(e) transzformációjára (pl. négyzetére) mint dependent változóra ún. segédregressziót illesztenek. 3. Harmadik lépésben függetlenség-vizsgálatot végeznek, azaz tesztelik a segédregresszióban szereplő magyarázó változók globális relevanciáját. 4. Amennyiben a függetlenségvizsgálat alapján a segédregresszió szignifikáns magyarázó erővel rendelkezik a dependent transzformált reziduum tekintetében, elvetik a homoszkedaszticitás null-hipotézisét, ellenkező esetben pedig elfogadjuk azt.1 A közös alapgondolat mellett, az egyes heteroszkedaszticitási próbák két dimenzió mentén differenciálódnak: egyrészt, az empirikus reziduumokra alkalmazott transzformáció tekintetében; másrészt, a segédregresszióban szerepeltetett Z prediktorok tekintetében. White-teszt A legismertebb és egyben leggyakrabban alkalmazott heteroszkedaszticitási teszt a White-próba. A White-próba a fenti logikát követve megfogalmazza a H0:homoszekdaszticitás – H1:heteroszkedaszticitás hipotézisrendszerét. Ezt követően az OLS reziduumok négyzetére (y zD zD ) egy olyan segédregressziót illeszt, melyben a prediktorok a tesztelendő modell prediktorai, azok kvadratikus hatásai, illetve interakciói: 4 ! , . . . , ! , . . . , ! ! , . . . , ! ! 9 . Végül a segédregresszióra elvégzett függetlenség-vizsgálat alapján dönt a H0 elfogadásáról, vagy elvetéséről. Esettanulmányunkban az élelmiszerkiadást a jövedelemmel, a taglétszámmal, illetve a háztartásfő korával magyarázzuk. Ennek megfelelően a vonatkozó White-próba segédregressziójában 3 főhatás (J,T,K), 3 kvadratikus hatás (J2, T2, K2), illetve három interakció (J*T, J*K, T*K) fog megjelenni. Az OLS illesztés eredménye a következő: Y1z{ z
37841 " 17.9| " 213.7 " 1204.2} " 5.2 ⋅ 109e| " 685.7
8.7} " 0.12|
0.11|}
24.1 }
R2 = 0.0543 , n=8314 . 1
A negyedik pont logikája abban keresendő, hogy amennyiben a transzformált OLS reziduumok szóródása magyarázható, a feltételes reziduális szórás nem lehet konstans. Ennek hátterében az áll, hogy a reziduum feltételes szórása megegyezik a reziduumok négyzetének várható értékével: HI1 #|qD #|qD #|qD # |qD , ahol #|qD 0. Utóbbi pedig azt eredményezi, hogy a torzítatalan OLS reziduumok, illetve azok transzformáltja megfelelő proxy változói a feltételes reziduális szórásnak. Így, amennyiben f(e) magyarázható – azaz nem konstans –, akkor ugyanez igaz a HI1 #|qD -re is.
61
Breusch-Pagan teszt A White-próba a leginkább elterjedt heteroszkedaszticitási próba. Gyakori kritika azonban vele szemben, hogy az erejével kapcsolatban kevés ismerettel rendelkezünk.1 A White-próbánál kevésbé általános, de éppen ebből kifolyólag nagyobb erővel rendelkező heteroszkedaszticitási próba a Breusch-Pagan (BP) próba. A BreuschPagan próba, hasonlóan a White-próbához, a bevezetőben felvázolt gondolatmenetet követi. Sajátossága, hogy a segédregresszió eredményváltozójaként a feltételes reziduális szórásnégyzet átlagos szórásnégyzettől ⁄ való relatív eltérését használja, azaz a kettő szórásnégyzet hányadosával operál. Mivel mindkét % szórásnégyzet nem megfigyelhető (sokasági) paraméter, ezért értelemszerűen az empirikus megfelelőiket, azaz a becsült varianciákat alkalmazzuk a próba során. A próba a segédregresszió magyarázó változó-körét az alapmodell magyarázó változó-körével felelteti meg. Ennek megfelelően a segédregresszió a következőképpen néz ki:2 ~u8 ~8
•
€u8 QQU ⁄t
• " • K ". . . "• K " ‚ ,
ahol Y1z{ %D
zD , Y1z{ %
⁄
és
u a hibatag.
A segédregresszió globális magyarázó erejét tesztelő LM próba a regressziós hibacsökkenést szorozza 0.5tel: jk
⁄2 ∼ Aop2 ƒv
, ahol az eloszlás m szabadásig foka a segédregresszió k prediktor száma.
A próbát az élelmiszerkiadást magyarázó modellünkre futtatva a következő segédregressziót kapjuk: Y1z{ z ⁄
⁄
0.6055 " 5.7 ⋅ 109e | " 0.13 " 4.5 ⋅ 109d } , SSR= 4317.
A számított tesztstatisztika és p-érték : jk 4317⁄2 2158.5 ∼ Aop2 d → Y 0.000 Hasonlóan tehát a White-teszthez, a BP-teszt alapján is elutasítjuk a H0 homoszkedaszticitás hipotézist a H1 heteroszkedaszticitás alternatív hipotézissel szemben. Koenker-teszt A BP-teszt érzékeny a reziduum normalitására, mint feltételre. A Koenker-teszt ezzel szemben robosztus a normalitásra. Szokták emiatt robosztus BP-tesztnek is hívni. A BP teszthez képest egyetlen lényegi változás a segédregresszió dependent változójával kapcsolatos. Továbbra is a feltételes reziduális szórás átlagos szórástól való eltérésén van a hangsúly. A Koenker-teszt esetén azonban nem a relatív, hanem az abszolút eltérés magyarázandó:
62
Az Általánosított Legkisebb Négyzetek módszere (Generalized Least Squares, GLS) Az Általánosított Legkisebb Négyzetek módszere nem követeli meg a homoszkedasztikus hibatagot. Minden olyan esetben, amikor teljesül az exogenitási kritérium torzítatlan becslést szolgáltat a paraméterekre. Abban az esetben pedig, amikor a hibatag nem szférikus – akár a változó reziduális szórás (heteroszkedaszticitás), akár a reziduumok egymással való korrelációja (auto-/keresztkorreláció) miatt – a leghatásosabb is egyben. Szférikus hibatag esetén azonban az OLS hatásosabb becslés a GLS eljárásnál. Ami a módszer lényegét illeti, a GLS eljárás praktikusan az adatállomány transzformált változatára elvégzett OLS becslés. A transzformáció oly módon történik, hogy a hibatag homoszkedaszticitása (vagy auto/keresztkorrelálatlansága) biztosított legyen. A mögöttes gondolatot az egyszerűség kedvéért a következő kétváltozós, lineáris modellen keresztül szemléltetjük: D " !D " #D , ahol HI1 #|!D %D . A feltételes reziduális variancia tehát nem konstans, a modell heteroszkedasztikus. Osszuk el a regressziós egyenlet mindkét oldalát a σi szórással: 2u
~u
…: ~u
"
&u ~u
"
†u
~u
→ ‡D
~u
"
!‡D " #̃D
Látható, hogy így egy transzformált adatállományra felírt modellhez jutunk, ahol minden egyes megfigyelést a saját reziduális szórásával normálunk. ( ‡D !‡D !D ⁄%D , #̃D #D ⁄%D ). Azt is könnyű belátni, hogy a D ⁄%D , transzformált adatállományra felírt modell homoszkedasztikus, egységnyi szórással:
HI1 #̃|!‡D
HI1 # ⁄%D |!‡D
‰Š‹ †|&u ~u8
~u8 ~u8
1
Mivel a transzformáció nem érinti a paramétereket, ezért azok becsülhetőek a transzformált modell OLS illesztésével. Heteroszkedasztikus modell esetén tehát az egyedi reziduális szórásokkal normálva az adatállományt hatásos és torzítatlan OLS becsléshez jutunk.1 A GLS becslés alkalmazása során két probléma merül fel. Egyrészt, teoretikusan eltűnik a konstans, hiszen a ⁄%D tag meredekségi tag tartalmú, β0 koefficienssel. Másrészt, a reziduális szórás ismeretlen. Az első probléma nem fajsúlyos, mindössze az R2 értelmezését érinti. A második probléma viszont kardinális jelentőséggel bír. Szórás hiányában ugyanis a GLS becslés nem megvalósítható. A probléma orvoslását a reziduális szórás becslése adja. Amennyiben ugyanis képesek vagyunk a reziduum feltételes varianciáját – konzisztens módon – becsülni, akkor a prediktált varianciákat használva a sokasági varianciák helyett a GLS becslés megvalósítható.2 A becsült varianciákkal való operálás miatt az (F)GLS becslés nagymintás eljárás. Az ökonometriai szoftvercsomagok az (F)GLS becslést négy lépésben hajtják végre: 1. Becslik a modellt OLS alapon. 2. Az OLS reziduumok valamely transzformáltját – jellemzően négyzetét – magyarázzák egy segédregresszió keretében. 3. Az illesztett segédregresszióval prediktálják a reziduális szórásokat, majd utóbbiakkal normálják az adatállományt. 4. A transzformált adatállományra futtatják az OLS modellt.
63
A GLS becslést számítva az élelmiszerkiadást magyarázó modellünkre a dián jelölt eredményekre jutunk. Összehasonlítás végett, az alap OLS becslés eredményét is feltüntettük. Látható, hogy a GLS becslés eredményeként a koefficiensek megváltoztak. Továbbá a GLS standard hibák kisebbek az OLS standard hibáknál. Utóbbiakról tudjuk, hogy torzítottak, hiszen mindhárom teszt korábban egyértelműen kimutatta a modell heteroszkedasztikus jellegét. Figyelembe véve a nagy mintaelem-számot, a GLS becslés egyértelműen preferált az OLS becsléssel szemben.
64
Kvantilis regresszió Továbbra is magyar háztartások (n=8314) éves élelmiszer kiadásait vizsgáljuk az éves jövedelmeik (ezerFt) függvényében. Az egyszerűség kedvéért most tekintsünk el a három prediktorral magyarázó alapmodellünktől, és nézzük azt a kétváltozós esetet, amikor az egyetlen magyarázó változó a háztartások jövedelme. A dián megjelenik a két-dimenziós pontfelhő már ismert diagramja. A diagram 4 regressziós egyenest ábrázol, melyek értelmezése – rögzített X jövedelmi szint mellett – rendre a következő: 1. OLS: Az átlagos kiadást becsli:
204 + 0.116X ,
2. LAD: A medián kiadást becsli:
151 + 0.133X ,
3. Tau(0.9): A felső decilis kiadást becsli: 267 + 0.205X , 4. Tau(0.1): Az alsó decilis kiadást becsli:
89 + 0.071X .
A pontfelhő jellegzetességei: 1. Outlierek jelennek meg mind a Jövedelem, mind a Kiadás tekintetében. 2. A kiadás terjedelme a jövedelmi szint szerint tágul, jelezve a heteroszkedaszticitást. Látható, hogy egyetlen regressziós egyenessel nem lehet leírni a teljes pontfelhőt, és ha a közepes kiadást modellezzük, akkor az OLS egyenes nem adekvát, mert a feltételes átlagot modellezve érzékeny az outlierekre. A közepes kiadás modellezésére most célszerű a feltételes mediánt modellezni, míg a nagyon magas és nagyon alacsony kiadások tekintetében a feltételes felső és alsó decilis modellezése indokolt.
65
A medián (LAD) regresszió A medián regresszió paraméter-becslésének kiinduló gondolata a medián abszolút eltérés minimum (Least Absolute Deviation, LAD) tulajdonsága. A medián abszolút eltérés minimum tulajdonsága azt jelenti, hogy amennyiben vesszük egy minta elemeinek az abszolút eltérését egy hipotetikus (YC) centrális értéktől, akkor ezen eltérések összege akkor lesz minimális, ha a centrális érték a medián: min ∑tDv | 2•
‘|
D
→
‘,W’“
kz{pá .
A LAD becslés ennek megfelelően – célfüggvényként – az abszolút eltérések összegét minimálja, más szóval azt a paramétervektort szolgáltatja eredményként, amely mellett a reziduumok abszolút értékének összege minimális. Emlékeztetőül az OLS becslés valamennyi megfigyelésre a centrális értéktől vett négyzetes távolságokat összegzi és minimálja, ami üres modell esetén akkor minimális, ha a centrális érték a számtani átlag: t
min •Dv 2•
D
‘
→
‘,xWQ
Számtani Átlag
Az OLS és a LAD tehát egyaránt centrális tendenciát (feltételes centrális értéket) becsül, csak míg az OLS a feltételes várható értéket, addig a LAD a feltételes mediánt modellezi lineáris modell keretében. A linearitásból kifolyólag, a LAD regresszióban a regressziós koefficiensek továbbra is (konstans) marginális hatás tartalommal bírnak, azonban az Xj marginális hatás most a mediánra gyakorolt marginális hatásként értelmezendő. A LAD alkalmazása akkor indokolt, ha továbbra is az eredményváltozó centrális értékét akarjuk modellezni, azonban a mintában extrém megfigyelések találhatóak, amelyek az OLS becslést – nem statisztikai értelemben véve – „eltorzítják”. A LAD robosztussága az outlier problémára abból a jól ismert tényből fakad, amely szerint a számtani átlag érzékeny az extrém értékekre, a medián azonban nem. Robusztus becslés igénye esetén tehát kézenfekvő a feltételes centrális értéket nem az átlagra, hanem a mediánra regresszálni, és az OLS helyett a LAD módszert alkalmazni.
66
A kvantilis regresszió A kvantilis regresszió a medián regresszió általánosítása. Célja, hogy az előre meghatározott tau rendű kvantilisre (Qτ ) becslést adjon X feltétele mellett. A tau=0.5 a medián regresszió esete. A kvantilis regresszió módszertana a medián regressziónál alkalmazott LAD becslésből indul ki. Ugyanúgy a reziduumok abszolút értéke van a fókuszpontban. A reziduum most a megfigyelt Y és a becsült –c— |! kvantilis közötti eltérésként értelmezendő. Az OLS reziduumoktól (amelyek a várható értéktől vett eltérést becslik) való megkülönböztetés végett, a LAD reziduumokat diffi szimbólummal jelöljük a továbbiakban. Bár a kvantilis regresszió becslése során a reziduumok abszolút értékét vesszük alapul, azonban a minimálandó célfüggvény – az egyszerű LAD becsléssel szemben – most az abszolút eltérések súlyozott összege. A súlyozás célja a LAD egyenesnek a megfelelő kvantilishez húzása. Ennek érdekében a pozitív eltérések tau-val, a negatív eltérések pedig (1-tau)-val szorzódnak, utóbbiak értelemszerűen mínusz előjellel ellátva. Mindez azt eredményezi, hogy tau>0.5 esetén a LAD egyenes felfelé, míg tau<0.5 esetén lefelé tolódik. Az alapgondolat tehát az, hogy mivel távolságok összegét minimáljuk, ezért az adott kvantilishez képest az eloszlás extrém irányába eső megfigyeléseket nagyobb súllyal „büntessük”. Nézzük például az Y eloszlásának alsó és felső decilis becslését X függvényében. A felső decilis esetében a tau=0.9 rendű kvantilisre vagyunk kíváncsiak. Ennek megfelelően a pozitív hibát jobban büntetjük, mint a negatív hibát, mivel előbbi az, amely most az eloszlás széle felé eső megfigyeléseket jelenti. A keresett kvantilis rendjének megfelelően, a pozitív hiba 0.9-el, míg a negatív 0.1 súlyozódik a célfüggvényben. A negatív hibánál természetesen megjelenik a (-1) szorzótényező az előjelváltás érdekében. Az alsó decilis esetén a helyzet fordított. Itt a tau=0.1 rendű kvantilist keressük X feltétele mellett. Az eloszlás extrém irányába eső Y megfigyeléseket most a negatív hiba reprezentálja, amely (-1)(0.9)-el súlyozódik. (A (-1) ismét az előjelváltás miatt szükséges.) A pozitív hiba súlya jelen esetben 0.1. A kvantilis regresszió alkalmazásának praktikus célja, hogy megőrizzük az eloszlás extrém széleinek az információit. Erre általában akkor van szükség, ha a centrális tendencia nem adekvát az Y-X kapcsolat leírására a rezidumok volatilis szóródásából kifolyólag. Visszautalva az esettanulmányunkra, láttuk, hogy az élelmiszerkiadások a jövedelem függvényében egy egyre szélesedő pontfelhő mentén alakulnak. A várható értéket becslő OLS modell a jövedelem növekedésével így egyre kevésbé alkalmas önmagában az élelmiszerfogyasztás jellemzésére. Szükséges az Y-t szegmensenként (kvantilisenként) regresszálni a megbízhatóbb előrejelzés és hatáselemzés végett. Ugyanakkor, ha a modell homoszkedasztikus és az Y szóródása stabil, akkor a kvantilis regresszió redundánssá válhat, mivel a –c— |! regressziós egyenes az OLS egyenes egyszerű eltolásaként manifesztálódik.
67
A kvantilis regresszió alkalmazása az élelmiszer-fogyasztás modellezésére A dia az illusztratív esettanulmányunkra mutatja be a kvantilis regresszió alkalmazását. A feladat továbbra is a háztartások élelmiszer-kiadásának a modellezése. A konzisztencia megőrzése végett a magyarázó változók köre változatlan: jövedelem, taglétszám és a háztartásfő kora. Az előbbiekben megállapítottuk, hogy a heteroszkedaszticitás miatt az élelmiszer-fogyasztás eloszlásának extrém széleihez kapcsolódó információ figyelembe vétele indokolt. A regressziós output tábla 5 különböző rendű kvantilis regresszió eredményét összegzi: alsó decilis (tau=0.1), alsó kvartilis (tau=0.25), medián (tau=0.5), felső kvartilis (tau=0.75) és felső decilis (tau=0.9) regresszió. A paraméterek mellett megjelenik a koefficiensek 90 százalékos konfidencia intervalluma. Vegyük észre, hogy a konfidencia intervallumok nem szimmetrikusak a koefficiensekre, számításuk ugyanis nem az OLS-nél megszokott „coeff ± s.e.(coeff)*critical value” módon történik. Ez a kvantilis regressziónál adottság. Megvizsgálva a különböző tau rendhez tartozó koefficienseket két megállapítást tehetünk. Egyrészt, a magasabb rendű kvantilisek nagyobb tengelymetszettel rendelkeznek, azaz magasabbról indulnak. Ez persze nem meglepő. Sokkal érdekesebb, hogy a meredekségi koefficiensek is növekednek a kvantilis rendjével párhuzamban.1 (Az egyetlen kivétel a háztartásfő kora koefficiens.) Ez összhangban van a táguló Y pontfelhőre tett megfigyelésünkkel. A két centrális tendencia összehasonlítása végett, a dián felidéztük a korábbi OLS becslés eredményét. Látható, hogy a LAD (medián) regresszió eredménye jelentősen különbözik az OLS regresszió eredményétől a konstans és a HFkora koefficiens esetében. Ez az outlier problémára utal. Az OLS becslést valószínűleg extrém megfigyelések torzítják. A GRETL programcsomag egy igen hasznos funkciója, hogy a tau-kvantilisek adott sorozatának (pl. tau= 0.1, 0.25, 0.5, 0.75, 0.9 ) egyidejű becslésekkor – „kérésre” – a tau függvényében ábrázolja az egyes koefficienseket, a hozzá tartozó konfidencia intervallummal egyetemben. A diagramon megjelenik a vonatkozó OLS eredmény is. Ez szemléletes eszköze annak, hogy megállapítsuk, mennyire ad „jó” becslést az OLS. Amennyiben ugyanis a a különböző tau-hoz becsült béták az OLS béta konfidencia-sávjába esnek, akkor nincs különösebb oka, hogy ne bízzunk meg az OLS által prediktált centrális tendenciában. Látható, hogy esetünkben nem ez a helyzet. Az ábrázolt jövedelem koefficiensek – a medián regresszió esetét leszámítva – szignifikánsan különböznek az OLS értéktől.
68
Bevezetés Kategória kimenetű eredményváltozó előre definiált kategóriái közül a legvalószínűbb előrejelzése – magyarázó változók értékeinek az ismeretében – klasszifikálási feladatot jelent. A kategóriák száma kettőnél több is lehet, és a predictorok száma is több lehet egynél, tetszőlegesen. A módszer a kategóriák a priori szubjektív valószínűségeit vezeti át objektív – a kategóriák környezetére vonatkozó pótlólagos információkra támaszkodva – a posteriori valószínűségekbe, és a maximális posterior valószínűséggel bíró kategóriát adja meg mint előrejelzést. A priori modell alatt az X predictor változók ismerete nélkül előrejelző – tehát konstans előrejelzésű – null modellt, a posteriori modell alatt pedig a predictorok értékének és eloszlásának az ismeretében átskálázott posterior valószínűségek alapján előrejelző modellt értjük. Az a priori valószínűségből az a posteriori valószínűségbe való átmenet matematikai eszköze a Bayes-elv alkalmazása. A klasszifikáció regressziós statisztikai technikákkal is megoldható, jelen fejezet – a rendelkezésre álló módszerek közül – a probit regresszió alkalmazását ismerteti.
69
A klasszifikációs feladat Célunk adott vállalkozás működési állapotának előrejelzése mérleg és eredményadatai alapján. Az egyszerűség kedvéért előbb csak egy magyarázó változót kezelünk, a likviditás X színvonalát, amit később bővítünk a jövedelmezőség szintjével. A döntési feladat környezete, lépései a következők: Definiáljuk a lehetséges kategóriák körét: Példánkban a vállalkozás működése két kimenettel: Csőd, vagy Működés, három kimenettel: Csőd, Negatív saját tőke melletti, Pozitív saját tőke melletti működés. Általában a kategóriák futó indexe: g, a konkrét csoport azonosítója: G, számosságuk pedig: m. Két csoportot véve, feltevés szerint a likviditás szintje diszkriminálja a Csőd-Működés csoportokat. Ezért megfigyeljük a vállalkozás X likviditását. Kézenfekvő megoldás elhatárolni mindazon vállalkozásokat, akik adóssága éppen X=X, majd számolni e körben a Csőd-Működés gyakorisági megoszlásokat, és „Posterior” valószínűségekként kezelni azokat. Végül a klasszifikálandó vállalkozást a legmagasabb posterior valószínűségű csoporthoz rendeljük.
70
A Bayes – döntési környezet Kétcsoportos esetet tárgyalva, mindkét esetben a normális eloszlás sűrűségfüggvényét használjuk a két L|X likelihood kalkulálásához. A két csoport neve rendre: 1) Csődbe ment, 2) Működik. A sűrűségfüggvény matematikai formuláját az L(X) képlet, paramétereit pedig a „legend box” mutatja. Az alacsonyabb várható értékű (piros) eloszlás jelzi a „Csőd-csoportot”. Mű és Szigma a csoport-átlagok és szórások, melyek egyértelműen megadják a csoport-specifikus sűrűségfüggvények alakját. Hangsúlyos, hogy a két „harang-görbe” varianciája eltérő, így alakjuk is eltérő. 1. A priorok jelen esetben a relatív gyakoriságok, rendre: Csőd=20% , Működés=80%. 2. A likviditás szintje most az egyedüli predictor változó: X = forgóeszköz / rövid lejáratú kötelezettség. 3. Olyan cégeket minősítünk, ahol a Likviditás értéke egyöntetűen: X = 0.5. 4. L|X az X = 0.5 pontban kalkulálja a Likelihood feltételes értékét. Működés esetén L(0.5)|Működés=0.228, melynek jelentése: a Működésen belül a 0.5±0.005 likviditás relatív gyakorisága 0.01*0.228 (a kijelölt téglalap területe), melyből a százalékos relatív gyakoriság éppen a Likelihood értéke, azaz 0.228%. Ezt szorozva a 0.8 prior valószínűséggel kapjuk a 0.8*0.228=0.183 Prior*Likelihood értéket. Ennek statisztikai értelme, hogy 100 céget tekintve 0.183 olyan van, mely működik és a likviditása „éppen” 0.5. Csődesetben L(0.5)|Csőd=0.967, melynek jelentése: a Csőd csoporton belül a 0.5±0.005 likviditás relatív gyakorisága 0.01*0.967 (az analóg, de nem ábrázolt téglalap területe), melyből a százalékos értelmű relatív gyakoriság Likelihood értéke 0.967%. Ezt szorozva a 0.2 prior valószínűséggel kapjuk a 0.2*0.967=0.193 Prior*Likelihood értéket. Ennek statisztikai értelme, hogy 100 céget tekintve 0.193 olyan van, mely csődbe ment és „éppen” 0.5 a likviditása. Csoportonként összegezve a Prior*Likelihood értékeket, kapjuk, hogy 100 vállalkozás között 0.376 bír 0.5 Likviditási szinttel. Végül a 0.193/0.376=0.514 megoszlás adja a Csőd-esemény posterior valószínűségét. Mivel a Csőd-esemény 0.514 posterior valószínűsége magasabb, mint a működésé, ezért az X=0.5 céget likviditása alapján ebbe a csoportba klasszifikáljuk.
71
A posterior valószínűségek meghatározása A valószínűségek számításának lépései a következők: 1. Rögzítjük a prior valószínűségeket, 2. Minden csoportban megadjuk a Likelihood típusát és paramétereit, 3. Megfigyeljük a klasszifikálandó X* értéket, 4. Kalkuláljuk X* Likelihoodját minden csoportban, 5. Képezzük minden csoportban a Prior*Likelihood értéket, 6. Képezzük a Prior* Likelihood értékek százalékos megoszlásait, 7. A megoszlásokat posterior valószínűségként kezeljük, 8. Az X* megfigyelést a legnagyobb posterior kategóriába klasszifikáljuk.
72
Kétcsoportos posterior számítás kvadratikus klasszifikációs függvények alapján Kétcsoportos esetet tárgyalva, mindkét esetben a normális eloszlás sűrűségfüggvényét használjuk a két L|X likelihood kalkulálásához. A két csoport neve rendre: 1) Csődbe ment, 2) Működik. Mű és Szigma a csoport-átlagok és csoport-szórások, melyek egyértelműen megadják a csoportspecifikus sűrűségfüggvények alakját. Hangsúlyos, hogy a két „harang-görbe” varianciája eltérő, így alakjuk is eltérő. A priorok rendre: Csőd=20% , Működés=80%. A likviditás szintje az egyedüli predictor változó: X = forgóeszköz / rövid lejáratú kötelezettség. Olyan cégeket minősítünk, ahol a Likviditás értéke X* = 0.5. L|X* az X* = 0.5 pontban kalkulálja a Likelihood feltételes értékét. Csőd esetben ez 0.967, amelynek a 0.2 prior valószínűséggel való szorzata adja a 0.2*0.967=0.193 Prior*Likelihood értéket. Analóg módon számoljuk a Működik csoport Prior*Likelihood értékekét. Csoportonként összegezve a Prior*Likelihood értékeket, kapjuk, hogy 100 vállalkozás között 0.376 bír 0.5 Adósság szinttel, és így a 0.193/0.376=0.514 adja a Csőd posterior valószínűségét. Kvadratikus klasszifikációs függvények alkalmazása A posterior számítását könnyítendő, a klasszifikációs függvény Cgroup értéke a log(Prior*Likelihood) érték számítására szolgál: C = Ln(Prior*Likelihood) = ln(Prior) + ln(Likelihood). Ebből következően a Posterior által igényelt Prior*Likelihood érték az Exp(C) módon adódik. Normális eloszlású X predictor esetén a Likelihood logaritmusa X tekintetében egy másodfokú függvény mentén alakul: C0+C1*X+C2*X2. A C0 értéke a Likviditástól nem függő konstans. C1 a lienáris tag együtthatója, C2 pedig a kvadratikus tag együtthatója. A függvény használata: megadva az X*=0.5 értéket, számítjuk a függvény értékét minden csoportban. A Csőd-csoportban -1.643 a klasszifikációs függvény értéke. Ezt anti-logaritmálva Exp(-1.643)=0.193 a Prior*Likelihood érték. Innen a Posterior tartalmú megoszlások kalkulálása értelemszerű. Figyeljük meg, hogy az X tekintetében konstans tag két hatás összege: ln(Prior)+C0 .
73
Kétcsoportos posterior számítás lineáris klasszifikációs függvények alapján Kétcsoportos esetet tárgyalva, mindkét esetben a normális eloszlás sűrűségfüggvényét használjuk a két L|X likelihood közelítéséhez. A két csoport neve rendre: 1) Csődbe ment, 2) Működik. Mű és Szigma a csoport-átlagok és csoport-szórások, melyek egyértelműen megadják a csoport-specifikus sűrűségfüggvények alakját. Hangsúlyos, hogy a két „harang-görbe” varianciája most azonos, így alakjuk egybevágó. A priorok rendre: Csőd=20% , Működés=80%. A likviditás szintje az egyedüli predictor változó: X = forgóeszköz / rövid lejáratú kötelezettség. Olyan cégeket minősítünk, ahol a Likviditás értéke X*=0.5. L|X* az X*=0.5 pontban kalkulálja a Likelihood feltételes értékét. Összhangban az előzőekkel a Csőd esetben a Likelihood feltételes értéke 0.656, amelynek a 0.2 prior valószínűséggel való szorzata adja a 0.2*0.656=0.131 Prior*Likelihood értéket. A Működik csoport Prior*Likelihood értéke analóg. Összegezve a Prior*Likelihood értékeket, kapjuk, hogy 100 vállalkozás között 0.264 bír 0.5 Adósság szinttel, és így a 0.131/0.264=0.497 adja a Csőd posterior valószínűségét. Most az X=0.5 vállalkozást Működőként klasszifikáljuk! Lineáris klasszifikációs függvények alkalmazása A posterior számítása egyszerűsíthető, ha a csoportok varianciái egyenlők. Vegyük észre, hogy példánkban mindkét szórás egyaránt 0.6, tehát a kvadratikus koefficiens mindkét csoportban egyaránt C2 = -1/(2*0.62) = 1.39, így a klasszifikációs értékhez való hozzájárulása is értelemszerűen egyenlő értéket eredményez, nevezetesen: -1.39*0.5^2. E kvadratikus tag elhagyásával kapjuk a lineáris (C0+C1*X) klasszifikációs függvényt, mely (kizárólag a szórások egyezősége esetén) ugyanazon Posterior valószínűségeket eredményezi, mint a kvadratikus függvény. Ezen lineáris klasszifikációs érték a Csőd csoportban -1.684, a Működő csoportban pedig -1.673. Láthatóan a Posterior valószínűség a kvadratikus tag elhagyásával nem változott, mert a két szórás egyaránt Szigma=0.6, és így a posterior hányados formulája egyszerűsíthető a kvadratikus hatásokkal.
74
Háromcsoportos – kétváltozós posterior számítás normalitási feltevés mellett A csoportok számát háromra bővítve, mindhárom csoportban a normális eloszlás sűrűségfüggvényét használjuk a klasszifikáláshoz, ahol a három csoport rendre: 1) Csődbe ment, 2) Negatív a saját tőkéje, 3) Pozitív a saját tőkéje. Kettőre bővítve, és megváltoztatva a predictorok körét, az adósságszint és a jövedelmezőség a predictor változók definíciója: X1: adósság = kötelezettség / eszköz, X2: jövedelmezőség = eredmény / eszköz. Olyan cégeket minősítünk, ahol ezek értéke rendre: X1 =1.5 és X2 =0.1. A priorok jelen esetben a relatív gyakoriságok: 5%, 10% és 85%, és a Mű és Szigma csoport-átlagok és csoport-szórások egyértelműen megadják a csoport-specifikus sűrűség függvény alakját. L|X az X=1.5 és X=0.1 pontokban adja a Likelihood feltételes értékeit, a predictornak megfelelően: 1. Csőd_adósság esetben a Likelihood 0.084, amely szerint a Csőd populáción belül az 1.5±0.005 adósság relatív gyakorisága százalékban 0.084%. 2. Csőd_jövedelmezőség esetben a Likelihood 0.432, amely szerint a Csőd populáción belül az 0.1±0.005 jövedelmezőség relatív gyakorisága százalékban 0.432%. Csődesetben az együttes, független likelihood a két csoportlikelihood szorzata: 0.084*0.432=0.036, tehát a megfelelő csoportonkénti Likelihood értékek szorzata. Ezt súlyozva a 0.05 prior valószínűséggel kapjuk a 0.05*0.036=0.0018 ún. Naive-Bayes Prior*Likelihood értéket. Ennek statisztikai értelme, hogy 10000 céget tekintve 0.0018 olyan cég van, mely csődbe ment és 1.5 az eladósodottsága, és egyidejűleg 0.1 a jövedelmezősége. Analóg módon számoljuk a többi csoport megfelelő jellemzőit. Összegezve a csoportonkénti Prior*Likelihood értékeket, kapjuk, hogy 10000 vállalkozás között 0.0112 bír az előrejelzendő kovariánssal. A 0.0018/0.0112=0.161 megoszlás a Csőd posterior valószínűségét adja. Lévén a Pozitív Saját Tőke 0.633 posterior valószínűsége a legmagasabb, az X=[1.5, 0.1] céget ebbe a kategóriába klasszifikáljuk.
75
76
77
Probit regresszió A probit regresszió célja szintén az Igen/Nem kategóriák egyikének az előrejelzése, feltételes valószínűség alapján, X predictor változók értékeinek az ismeretében. A modell rokon a logit modellével, a módszertan a feltételes valószínűség eloszlástípusában különbözik. A feltevés egy latens, másképpen index-változó létezése, melynek skáláján extrém alacsony érték inkább a 0 (Nem), és extrém magas érték inkább az 1 (Igen) esemény bekövetkezésére utal. Maradva a csődmodell példánál, a latens index-változó neve a Csődhelyzet, ami közvetlenül nem mérhető. Feltesszük, hogy van egy kritikus Cut_Csődhelyzet érték, amit meghaladva a kimenet Igen (1), egyébként a kimenet Nem (0). A Nyereség és Adósság szint predictorok alkalmazásával a csődhelyzet modellezett értéke: Csődhelyzet(X) = Alfa + Béta1*Nyereség + Béta2*Adósság + u . Feltételezhetően Béta1<0 és Béta2>0. Más szóval, alacsonyabb a csődhelyzet, ha magasabb a nyereség, és magasabb a csődhelyzet, ha magasabb az adósságszint. Eredményképp mi ebből annyit látunk, hogy a vállalkozás adott Nyereség és Adósság kombináció mellett Igen vagy Nem kimenetű. E feltevés mellett minden olyan Cut-értékre, mely kisebb mint a kalkulált Csődhelyzet(X), az előrejelzés: Igen(1). Ezért az Igen(1) esemény valószínűsége: Pr(1|X) = Pr( Cut < Csődhelyzet(X) ). A probit modell a Pr(1|X) valószínűséget a standard normális eloszlás Φ(.) eloszlásfüggvénye szerint kalkulálja a Csődhelyzet(X) pontban: Pr(1|X)_Probit = Pr( Cut < Csődhelyzet(X)) = Φ(Csődhelyzet(X) ) . A paraméterbecslés – a Pr(1|X) és Pr(0|X) valószínűségek mintaelemeknek megfelelő választásával – a Maximum Likelihood módszerrel történik. A fenti gondolatmenet a logit modellre is alkalmazható. A logit regresszió a Pr( Cut < Csődhelyzet(X) ) valószínűséget a logisztikus eloszlás eloszlásfüggvénye szerint számítja: Pr(1|X)_Logit = Pr( Cut < Csődhelyzet(X) ) = 1 / [ 1+ exp(-Csődhelyzet(X)) ] .
78
Probit számítások Az összehasonlítás végett a 100 elemű Csőd-kimenet adatállományát elemezzük, melyek között 14 a Csőd(1) kimenet. Az index-változó becsült lineáris predictora: Csődhelyzet = -2.059 -0.352Nyereség + 0.753Adósság. A [Nyereség = -4, Adósság = 2] vállalkozás becsült Csődhelyzete a standard normális z skálán: z = -2.059 -0.352·(-4) + 0.753·2=0.855, Tehát a feltételes csődvalószínűség: Pr( Csőd | Nyereség = -4, Adósság = 2 ) = Φ(0.855) = 0.804, ahol Φ(.) a standard normális eloszlás eloszlásfüggvénye. Lévén ez a valószínűség két vállalkozásra vonatkozik, a következő 0.693 valószínűség pedig 4 vállalkozásra, stb., a minta likelihoodja: L=0.804^2 * 0.693^4 *…* 0.000^2 a fenti 3 koefficiens mellett maximális. A Goodness-of-Fit illeszkedésvizsgálatot most a Pearson Chi2 teszt alkalmazásával végezzük el, mely az Igen(1) Respons kimenetek megfigyelt és várt gyakoriságainak a Chi2 távolságát teszteli: Chi2=Sum_(Observed – Expected)^2 / Expected = 82.516, DF=(10-3) szabadsági fokkal, mely p=0.000 szignifikancia értéket eredményez. A távolság tehát a minta és a modell között jelentős, a jó illeszkedés hipotézisét elvetjük. A z-score értékét adó lineáris predictor koefficienseinek az abszolút értékéhez nem, csak az előjeléhez tudunk statisztikai tartalmat, jelentést fűzni.
79
80
Bináris regresszió Az Igen/Nem kimenetű Y={1,0} bináris módon kódolt eredményváltozó előrejelzése a statisztikai feladat. Az Y változó értéke csak az 1 (Igen) vagy 0 (Nem) értékek egyikét veheti fel. Az Y=1 eset valamely tulajdonság meglétét, az Y=0 eset pedig a hiányát jelzi. A példa szerint Y=1 ha a cég Csődbe ment, és Y=0 egyébként. Az adatállomány 100 vállalkozás Y sorsát vizsgálja az X1 jövedelmezőség és az X2 eladósodottság ismeretében, gyakorisági sorba rendezve. A Nyereség és az Eladósodottság a Csődesemény magyarázó változói (predictorai) melyek diszkretizált szintjeit a mintában az X1 és X2 oszlopok közlik. Azt, hogy az X1_X2 párok – értsd kovariánsok – hány cég esetén következtek be, az f gyakorisági oszlop mutatja. Az X1 szint a lehetséges [-10, +10] intervallumon közli a megfigyelt értékeket, míg X2 szintjei a [0, +10] skálára vonatkoznak. Az Y oszlop közli, hogy csődbe mentek-e az X kovariánshoz tartozó cégek vagy sem. Mintánkban adott X kovariánshoz tisztán csak Csőd vagy Működő cégek tartoznak, de módszertanilag ez közömbös. Feladat, hogy a rendelkezésre álló információk alapján előrejelezzük az Y=1, vagy Y=0 értékek egyikét. Az előrejelzés két lépésből áll: 1) előbb meghatározzuk az X predictor ismeretében az Y=1 kimenet Pr(1|X) feltételes valószínűségét, 2) rögzítve egy kritikus C (Cut-off-value) döntési szintet e feltételes valószínűség alapján jelezzük előre az Y=1 értéket, ha az meghaladja a kritikus C értéket, vagy az Y=0 értéket egyébként. A csőd feltételes Pr(1|X) valószínűsége röviden: PX. Ez az érték 80.4% az első cégcsoportnál, 68.67% a másodiknál, stb. Ha C=0.3, akkor azokra akik ezt meghaladják az előrejelzés Y=1, egyébként Y=0. Ezt közli a C=0.3 oszlop. Ha C=0.5, akkor megfelelően módosul az előrejelzés. Látható, hogy mely X1_X2 variánsoknál követtünk el és milyen irányú hibákat. Jelen esetben az 1_helyett_0 hiba pénzügyileg veszélyesebb, kerülendőbb, mert a meghitelezett, de csődbement Cég nem fizeti vissza a hitelt.
81
A klasszifikációs mátrix A klasszifikációs tábla egy gyakorisági típusú tábla, mely az alkalmazott klasszifikációs modell empirikus ellenőrzését segíti. A tábla oldalrovatában és fejrovatában azonos sorrendben a vizsgált kategóriák kódjai szerepelnek (most 1;0 és 1;0), a megfelelő cellákban pedig az előrejelzés helyességének [(1_1),(0_0)], vagy hibájának [(1_0),(0_1)] gyakoriságai (Number) szerepelnek. A főátló a korrekt klasszifikációk gyakoriságokat méri.
gyakoriságait publikálja, míg a mellékátló az inkorrekt
A klasszifikációs tábla ismerete több alapvető kérdés megválaszolásának az eszköze: 1.
Más és más „cut-value” más és más klasszifikációs mátrixokat eredményez.
2.
Klasszifikációs mátrixok sorozata ismeretében rögzíthetjük egy végső előrejelző modell kritikus „cut-value” döntési szabályát.
82
Logit regresszió A Csőd feltételes valószínűségét az ún. odds hányados függvényében fejezzük ki, az alábbi lépésekben: 1.
Legyen (1 - PX) = QX a működés feltételes valószínűsége.
2.
Felírjuk a PX valószínűséget változatlanul a PX = PX / ( PX + (1 - PX) ) formában.
3.
Egyszerűsítve a törtet – osztva a számlálót és a nevezőt is a QX működési valószínűséggel – jelenik meg a számlálóban és a nevezőben is a P/Q tartalmú ún. odds érték (két valószínűség hányadosa). Ha ez pl. 4, akkor a csőd valószínűsége négyszerese a működés valószínűségének.
4.
Ha az odds értéke ismert, akkor a csőd valószínűsége: odds / (1+odds), a működésé pedig 1/ (1+odds).
Az odds a P=Q=0.5 esetre aszimmetrikus: 1.
ha P < Q beszorul a (0,1) intervallumra,
2.
ha P > Q akkor viszont az értéke végtelen is lehet.
Ezért a modell feltevése szerint az odds a predictorok tekintetében exponenciálisan, logaritmusa pedig lineárisan, tehát log-lin modell szerint alakul. Az odds kalkulálása igényli az α és β paraméterek értékeit. A log(odds) mennyiség megnevezése logit, innen a módszer neve: logit regresszió. A csőd valószínűsége a regressziós koefficiensek és az X predictorok értékeinek az ismeretében előbb a logit majd az odds értékek kalkulálásán át számíthatóvá válik.
83
Elemzés A paraméterek értelmezése a következő. A negatív -0.63 nyereség koefficiens azt jelenti, hogy a nyereség emelkedése csődesélyt csökkentő magyarázó változó. Az odds ratio (OR) odds arány mutató tartalma: ha a jövedelmezőség egy egységgel magasabb szintű c.p., akkor ennek eredményeképpen az odds Exp(-0.63)=0.53 arányban inflálódik, tehát 47 százalékkal csökken. Ez látszik a következő táblázat első két sorában is, mert ott csak a nyereség szint javul éppen egy egységnyit, miközben az adósság szintje változatlan, és ekkor 47%-kal csökken az odds a 2.192 értékre. Analóg módon, az eladósodás egységnyi szintű emelkedése c.p. közel 10-szeres csőd-odds emelkedést okoz. A második képlet számítja az X predictor marginális (X+1) hatását magára a csőd valószínűségre c.p. Itt 0.141 %ponttal csökken a csőd valószínűsége, ha a NY=3 és az A=3 együttes szintjéről a Nyereség egy „osztályt” javul. A logit modell definíció szerint magában foglalja a heteroszkedaszticitás jelenségét, mivel más és más X szintek mellett (alcsoportokban) a feltételes PXQX variancia értelemszerűen különböző.
84
Paraméterbecslés A táblázatban újra megjelennek a korábban már bemutatott paraméterek számszerű értékei: „a” tengelymetszet, „b1” nyereség, „b2” pedig az adósság koefficiensek. Ezek alkalmazásával számítjuk a Csőd PX valószínűségeket az alábbi módon. Az első kovariáns esetén az ln(odds) érték, vagyis a Logit számítása: Logit = -5.73+(-0.63)*(-4) + 2.31*2 = 1.413 ami egyben az odds logaritmusa. Ebből az Odds=Exp(1.413)=4.1082 érték adódik. Az Odds tartalma, hogy ezen X1= -4, X2= 2 feltétel mellett a csőd valószínűsége 4.11-szerese a működés valószínűségének. A Csőd PX valószínűsége ezek birtokában: Odds/(1+Odds)=4.1082/5.1082=0.8042, a működés valószínűsége pedig 1/(1+Odds)=0.1958. A Csődvalószínűségek a regressziós koefficiensek változtatásával változnak. A paraméterek becslése a Maximum Likelihood módszerrel történik. Az LX oszlop szelektálja a Csődvalószínűséget a csődbement cégek esetén és a Működés valószínűségét a működő cégek esetén, tehát mindenkire a saját mintabeli sorsának a valószínűségét. Így kapunk 10 db különböző kovariáns valószínűséget, mely 10 különböző osztályt valószínűsít, de 100 cégre vonatkozik, súlyozottan. Előbb osztályon belül összeszorozva az LX értékét annyiszor ahány cég van az osztályban, majd mind a 10 osztály Lf értékét összeszorozva, az eredmény egy 100-tényezős szorzat, aminek a számított végeredménye L = 1.233E-12, vagyis a minta együttes bekövetkezésének a Likelihoodja (valószínűsége). Ha a koefficiensek változnak, akkor a minta likelihoodja is elmozdul. Optimális megoldás azon koefficienseket választani, melyek mellett a Likelihood maximális. A becslés iteratív módszert igénylő technika. Numerikus paraméterbecslési, majd modellszelekciós és illeszkedésvizsgálati alkalmazások érdekében érdemes a Likelihood maximálása helyett a -2ln(Likelihood) célfüggvény minimálása. Példánkban a modell konvergált -2ln(Likelihood) értéke: 54.8.
85
Pszeudó R2: Heurisztikus illeszkedésvizsgálat A modell mintához való illeszkedésének a jóságát a célfüggvény konvergált értéke jellemzi, mely esetünkben -2*ln(L) = 54.84. A -2*ln(L) metrika végletesen legfeljebb a perfekt előrejelzésű, szaturált modelléig csökkenhet, ami esetünkben 0, mert ekkor LX =1 minden kovariánsra, tehát a szorzatuk is 1, és így ln1=0. A Null modell esetén pedig, ami X tekintetében üres: -2lnL= -2(14*ln0.14+86*ln0.86)=81.0. A két extrém modell közötti úton a becsült current modell így R2 = (81-54.849) / 81 = 32.3% javulást eredményez.
86
A Wald teszt alkalmazása Paramétereikben egymásba ágyazott modellek szelektálásának egyféle hipotézis vizsgálati eszköze a Wald-teszt, mikor a paraméterbecslés a ML módszerrel történt. A Wald teszt a H0 null és a H1 alternatív hipotézisek közötti standardizált Chi2 távolságot számítja és teszteli. A W_Chi2 teszt szabadsági foka a megszorítások száma. Parciális H0:Bétaj=0 hipotézis esetén a koefficiens eltérését a zéró hipotézistől osztja (standardizálja) a koefficiens standard hibájával, majd ezt négyzetre emeli. A „Likelihood Ratio” teszt alkalmazása Paramétereikben egymásba ágyazott modellek szelektálásának másik hipotézis vizsgálati eszköze a LRteszt, mikor a paraméterbecslés a ML módszerrel történt. A H0 hipotézisben tett megszorítások egy a paramétereiben korlátozott M0 modellt eredményez, mely szükségszerűen rosszabb L0 Likelihood értéket ad, mint a paramétereiben H1 hipotézis alatt nem korlátozott M1 modell L1 Likelihood értéke. H0 és H1 egyetértését vagy ellentmondását L0 és L1 viszonya minősíti. E távolság megítélésének relatív eszköze az LR = L0 / L1 likelihood-ratio statisztika, mely szükségszerűen 0 és 1 közötti érték. Nagymintás esetben a -2ln(LR) = (-2lnL0) – (-2lnL1) statisztika Chi2 eloszlású H0 érvénye mellett, annyi DF szabadsági fokkal, amennyi korlátozást tettünk a H0 és H1 modellek megkülönböztetése érdekében. A Chi2 metrika a H0 és a H1 hipotézisek egymástól való távolságát méri. Speciális H0 hipotézisek: 1. A predictor X változók egy m számú (j+1, j+2, …,j+m) köre nem releváns, paramétereik értéke egyöntetűen zéró: elhagyásuk nem ront jelentősen a jelen modellen. 2. Adott X(j) predictor nem releváns, paramétere zéró: elhagyása nem ront jelentősen a jelen modellen. 3. Modell függetlenség (Independence): valamennyi X predictor irreleváns, paramétereik értéke egyöntetűen zéró : jelen modell előrejelzése lényegesen nem jobb mint a Null modellé. 4. Modell illeszkedés (Goodness-of-Fit): a jelen modell előrejelzése lényegesen nem rosszabb mint a szaturált modellé, ami maga a minta.
87
Tesztek: Wald_H0: Béta2 = 0 Wald-Chi2: a ML becslés négyzetes, standardizált távolsága a H0 hipotézistől: [(2.31 – 0) /1.02 ]^2 = 5.17, p=2.3% szignifikancia értékkel, ami szerint az adósság 5 százalékos döntési szinten releváns, de 1 százalékos döntési szinten irreleváns. A standardizálás a koefficiens négyzetes standard hibájával történik, ami az információs mátrix inverzének megfelelő diagonális eleme: 1.035. 95% Confidencia Intervallum_H0: Béta2 = 0 Lévén az OR mutatóra készített 95% CI= Exp(2.31±1.96*1.02)=[1.38; 74.2] nem tartalmazza az 1 értéket, ezért a koefficiensre vonatkozó CI nem tartalmazza a zérót, tehát a H0 hipotézist 5% döntési szinten elvetjük. Likelihood Ratio_H0: Béta2 = 0 A Jövedelmezőség után bevonva az Adósság b2 koefficiensét a modellbe, a -2lnL célfüggvény érték javulása: Improvement_Chi2=(61.0-54.8)=6.2, DF=1 szabadsági fokkal, mely p=1.3% szignifikancia értéket eredményez, tehát 5% döntési szinten a H0 hipotézist elvetjük. A konklúzió tehát konform a Wald-tesztével. Likelihood Ratio_Independence: H0: Béta1=Béta2 = 0 Chi2=(81.0-54.8)=26.2, DF=2 szabadsági fokkal, p=0.000 szignifikancia értékkel, tehát H0 elvetendő, X1 és X2 valamelyike, vagy mindkettő együtt releváns a Csőd klasszifikálás tekintetében. Likelihood Ratio_Goodness-of-Fit: H0: Becsült 3paraméteres Modell, H1: Szaturált Modell Chi2=(54.8-0)=58.4. Mivel a szaturált modell jelen esetben 10 paramétert igényel (10 különböző kovariáns klaszterezi a mintát) a szabadsági fok DF=10-3=7, ami p=0.000 szignifikancia értéket ad. A Modell Chi2 távolsága a mintától szignifikáns, tehát a modell nem illeszkedik kellően a mintához. Vegyük észre, hogy ha a minta nem lenne klaszterezett, hanem rendre egyedi adatokból állna, a szaturált modell paramétereinek száma 100 lenne, és a konklúzió megfordulna.
88
Multinomiális logit regresszió A két – Igen/Nem – kimenet egyikének a klasszifikálását kiterjeszthetjük kettőnél több kimenet előrejelzésére is. A logit modell alkalmazása kézenfekvő. Az eredményváltozó valamennyi kategóriájának az esélyét egy rögzített, az ún. referencia kategória viszonylatában adjuk meg, majd ezen odds-értékek megoszlási struktúrája adja a vizsgált kategóriák valószínűségeit. A referencia kategória megválasztása tetszőleges, de az eredményváltozó kategóriáinak az egyike. A logit modell alkalmazása a multinomiális klasszifikációs feladatot bináris logit modellekre vezeti vissza: eggyel kevesebb számú bináris logit modell megadására van szükség, mint amennyi az Y kategóriák száma. A referencia kategória odds-értéke értelemszerűen 1, ismerete nem igényel külön logit modellt: A Pr(RefCat | X) / Pr(RefCat | X) =1 ön-odds tartalmilag a bázis odds. Általában g=1,2,…,m számú kategória alkotja az Y függő változó kategóriáit, és többnyire az első, vagy az utolsó sorszámú a referencia kategória. Ha az utolsó, m. kategória a referencia, akkor (m-1) számú Pr(g|X)/Pr(m|X) odds érték becsülendő, a g=1,2,…,(m-1) viszonylatokban: odds(1), odds(2),…,odds(m1), és odds(m)=1. Ekkor a G-kategória valószínűsége (G=1,2,…,m) az odds értékek statisztikai megoszlásai. Például a G=2 kategória valószínűsége: Pr(2|X) = odds(2) / ( 1+ odds(1) + odds(2) +… + odds(m-1) ), vagy az utolsó, G=m kategóriáé: 1 / ( 1+ odds(1) + odds(2) +… + odds(m-1) ). Mindenkire a saját, mintabeli kategóriájának a valószínűségét kalkulálva képezzük és maximáljuk a Likelihood függvényt. A paraméterbecslés invariáns a referencia kategória megválasztására.
89
Multinomiális logit paraméterek Az adatállományt a Budapesti Értéktőzsde (BÉT) 76 tőzsdetag brókercége alkotja, melyek között adott időpontban csődbement 8, rendben működött 57, a többi 11 pedig kérdéses volt, hogy inkább Csődként, vagy rendben Működőként, vagy továbbra is Kérdésesként klasszifikálható? Az Y kategóriák kódolása az adatállományban: Y=0: Működik, Y=1: Kérdéses, Y=2: Csőd, és a referencia kategória: Ref_Cat=Csőd. A klasszifikálás két odds kalkulálását igényli: odds(Működő/Csőd) és odds(Kérdéses/Csőd), míg az odds(Csőd/Csőd)=1. A két számítandó odds két paramétervektor becslésén alapul, ahol a predictorok rendre: X1: Jövedelmezőség, X2: Forgóeszközarány, X3: Saját tőke aránya, X4: Adósság, X5: Eszközök forgási sebessége, X6: Likviditás. A változók skálája %pontban értendő, erre utal név végén a 100. A ML koefficienseket a tábla „B” oszlopa tartalmazza. Lévén a magyarázó változók száma 6, és Intercept van a modellben, ezért a becsült paraméterek száma: 2*(6+1)=14. Látható, hogy ha az Y kategóriák száma és az X predictorok száma magas, akkor a Multinomiális Logit modell nem bánik takarékosan a becsülendő paraméterek számával. A koefficiensek jelentése más a Működő és a Kérdéses csoportokban: A Forgóeszköz koefficienst tekintve rendre: Exp(0.111)=1.117 és Exp(0.181)=1.198. Jelentésüket illetően, ha a Fe 1%ponttal magasabb c.p., akkor a Csődhöz képest a Működés odds 11.7%-kal, a Kérdéses odds pedig szintén a Csődhöz képest 19.8%-kal emelkedik várhatóan. Míg az utóbbi 5%os döntési szinten szignifikáns, az előbbi hatás nem. E konklúziót követi a 95%-os megbízhatóságú CI melynek határai az utóbbi esetben egyértelműek (>1), míg az előbbi esetben ellentmondóak (<>1). Áttekintéssel látható, hogy a predictorok hatása eltérő attól függően, hogy melyik csoportot vetjük össze a Csőd referencia kategóriával. Az Independence_LR_Chi2 teszt szabadsági foka most DF=2*6=12.
90
Multinomiális Logit Klasszifikáció Jelölje X a klasszifikálandó vállalkozást (kovariánst). A táblában megismételjük a korábban már publikált Logit koefficienseket. Legyen A: a Működő, B: a Kérdéses, C: a Csőd (referencia) csoport. A Logit a vállalkozás csoportspecifikus lineáris kiértékelése a lineáris predictor alapján: Logit_A = -9.722 -0.001*-10 + …+ 0.002*20 =-1.801 Logit_B = -13.226 – 0.019*-10 + …+ -0.001*20 = -2.310 Logit_C = 0. Az Odds definíció szerint a Logit exponenciálisa: Exp(Logit): Odds_A = 0.165: a Működés/Csőd valószínűség hányados, Odds_B = 0.099: a Kérdéses/Csőd valószínűség hányados, Odds_C = 1
: a Csőd/Csőd valószínűség hányados.
Innen például a B kérdéses kategória klasszifikációs valószínűsége a B_odds megoszlása az összes odds százalékában: Pr(B) = 0.078 = 0.099 / (1 + 0.165 + 0.099).
91
92
93
94
A Null-modell likelihood értékének maximálása Ismert eloszlású sokaság valamely ismeretlen paraméterének eloszlásfüggő becslési módszere a Maximum Likelihood (ML) elv alkalmazása. Az ismeretlen paraméter szokásos jelölése: Theta. Ha több paramétert becslünk egyidejűleg, akkor Theta paramétervektort jelöl. A becslés alapja egy n elemű véletlen, független minta, melyre a mintaelemek együttes bekövetkezési esélye (valószínűsége) – a minta likelihoodja – a sokaság eloszlásának az ismeretében megadható. Azonban, mivel az eloszlás paramétere nem ismert, a likelihood csak a paraméter egy feltételezett értéke mellett számítható. Mivel a becslést mindig a mintához igazítjuk, kézenfekvő, hogy Theta becsléseként azt az értéket vegyük, amely mellett a Likelihood maximális. Példánkban arra keressük a választ (Theta?), hogy a működő vállalkozások között mekkora a csődhelyzetben lévők P aránya. Azt, hogy mennyien mentek ténylegesen már csődbe és milyen körülmények között ismert, és ez alapján modellezhető, hogy a működők között kire mi várható. Valamennyi vállalkozás minősítése azonban költséges, ezért egy n=100 elemű mintából következtetünk. Az Y változó a minősítés kimenetét jegyzi fel: Y=1 Igen minősítést, Y=0 pedig Nem minősítést jelöl. A mintában 14 Igen és 86 Nem adódott. Ha rögzítjük P értékét, akkor a minta Likelihoodja egy 100 tényezős szorzat, melyben P 14-szer, (1-P) pedig 86-szor szorzódik össze. Más P mellett más lesz a szorzat éréke. A tábla a P=0.14, P=0.1 és P=0.2 eseteket ragadja ki illusztratív céllal, és a szorzat sorban közli a Likelihood eredményeket. Ezek láthatóan kicsiny zéró és 1 közötti számok. Azt a P értéket választjuk az ismeretlen P arány ML becsléseként, amely mellett a szorzat maximális. A P arány paraméterre a ML becslés egybeesik az Y=1 Igenek mintabeli relatív gyakoriságával, példánkban 14/100 = 0.14. Az egyszerűség kedvéért a numerikus megoldás során érdemes a log(Likelihood) értéket maximálni, hiszen az optimum hely nem változik meg, viszont a szorzat-likelihood összeggé alakul, és a nagyságrendje is kezelhetőbbé válik. A log(Likelihood) értéke a ML becslési pontban: -40.5, a -2 log(Likelihood) értéke pedig 81.
95
96