Ökonometria Dummy változók használata
Ferenci Tamás1 –
[email protected] 1 Statisztika Tanszék Budapesti Corvinus Egyetem
Hetedik fejezet
IV. esettanulmány Nominális tulajdonságok kódolása
Tartalom
1
IV. esettanulmány Uniós országok munkanélkülisége
2
Nominális tulajdonságok kódolása Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Uniós országok munkanélkülisége
Uniós országok adatbázisa Makroökonómiai feladatot kell megoldanunk: vizsgáljuk a munkanélküliség alakulását, befolyásoló tényezőit az Európai Unió országain belül! Kvantitatív vizsgálat a feladat, ökonometriai modellezést fogunk bevetni A munkanélküliség munkanélküliségi rátaként (%-ban mérve) van operacionalizálva, a GDP az EU-átlaghoz relatíve (szintén %-ban mérve) A fenti eredmény és magyarázó változón kívül még azt is tudjuk, hogy az egyes országok melyik kategóriába esnek tagságuk szerint: régi tag, újonnan csatlakozó, tagjelölt (Az adatbázis 2002-ből való, így értendőek a kategóriák)
Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Nominális tulajdonságok a regresszióban A kérdés, ami mostani kutatásainkat motiválja: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot, pl. férfi/nő, egészéges/beteg, régi tagállam/újonnan csatlakozó/tagjelölt (az EU-ban) stb. egy regressziós modellben A regresszió csak számszerű adatokat tud felhasználni → valahogy kódolni kell a nominális tulajdonság lehetséges értékeit (kimeneteit, csoportjait) Eddig csak mennyiségi tulajdonságokkal foglalkoztunk, aminek kódolása triviális volt: a naturáliában kifejezett értékével (m2 , eFt stb.) A minőségi változókat úgy kódoljuk, hogy a lehetséges (véges sok!) kimenet mindegyikéhez hozzárendelünk egy egész (ritkábban racionális) számot, pl. a férfi nemet 0-val, a nőt 1-gyel kódoljuk Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Dummy változó fogalma A kódolást megvalósíthatjuk olyan változóval vagy változókkal, melyek csak 0 vagy 1 értéket vehetnek fel Az ilyen változókat nevezzük dummy változónak Ha két kimenet van, akkor a kódolás teljesen kézenfekvő: egy dummy változóra van szükségünk, mely (például) 0 értéket vesz fel férfira, 1-et nőre Bonyolultabb a helyzet, ha több kimenet van D1 D2 D3 A 1 0 0 Triviális kódolás: B 0 1 0 C 0 0 1 . . . ám vegyük észre, hogy 3 csoporthoz nem kell 3 dummy változó, kódolható 2-vel is! Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Referencia-kódolás Általában k kimenet kódolása megoldható k − 1 dummy változóval az ún. referencia-kódolás logikájával Itt kiválasztunk egy kimenetet, aminél mind a k − 1 darab dummy változó 0 értéket vesz fel (ez az ún. kontrollcsoport), és a többi k − 1 csoportot az jelzi, hogy a k − 1 dummy változó közül melyik vesz fel 1 értéket (mindig csak 1!) RA RB A 1 0 Például (3 kimenetre): B 0 1 C 0 0 Itt C a referenciacsoport, RA és RB a két szükséges (ugye k = 3!) magyarázó változó Vegyük észre, hogy RA ≡ DA és RB ≡ DB (tehát a két kódoláshoz pontosan ugyanazon dummykra van szükség, csak a referencia-kódolásnál eldobjuk az egyiket) Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Referencia-kódolás az uniós országok példáján Triviális módon kódoltuk dummyval, hogy egy ország melyik kategóriába (régi tag, újonnan csatlakozó, tagjelölt) esik, referencia-kódolást kapunk, ha valamelyiket elhagyjuk:
Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Dummy változó csapda Ha van konstans a modellben, akkor tilos is k csoporthoz k dummyt használni a kódoláshoz Ellenkező esetben egzakt multikollinearitás jön létre (gondoljuk végig, hogy a dummy változókhoz mi tartozik az X mátrixban, ld. előbb!); ez az ún. dummy változó csapda További magyarázat: gondoljunk bele, ha mégis lenne konstans és k csoporthoz k darab dummy, akkor k értéket (a k csoportra becsülendő eredményváltozót, hiszen ne feledjük, itt mindegyikhez egyetlen számot becsülünk eredményként, azaz mindegyik elemeire ugyanazt a konstans adjuk vissza eredményváltozóként) k + 1 változóban (konstans + k darab dummy) kéne „eltárolnunk” → nem oldható meg egyértelmű módon; mindenképp k darab változóban kell ezeket tárolnunk Ha k csoportot mégis k dummyval kódolunk (a triviális módon), akkor nem szerepeltethetünk konstanst Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Dummy változó csapda
Az előző okfejtésből az is látszik, hogy k kategóriához kell is k − 1 darab dummy (ha van konstans, különben k darab) → különben „nem lenne hol” tárolni a becsült eredményváltozóként visszaadandó értékeket
Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Triviális kódolás konstans nélkül A két kódolási mód (k darab dummy, nincs konstans és k − 1 darab dummy, van konstans) jól szemléltethető egy csak a nominális tulajdonsággal magyarázó regresszióval Eredményváltozónk legyen tehát a munkanélküliségi ráta, magyarázó változónk a csoporttagság (varianciaanalízis-modell)
k darab dummy, nincs konstans:
A B C
DA 1 0 0
DB 0 1 0
Y = βA DA + βB DB + βC DC + u Együtthatók értelmezése? Ferenci Tamás –
[email protected]
Ökonometria
DC 0 0 1
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Referencia-kódolás konstanssal
k − 1 darab dummy, van konstans:
A B C
DA 1 0 0
Y = β ∗ + βA∗ DA + βB∗ DB + u Együtthatók értelmezése?
Ferenci Tamás –
[email protected]
Ökonometria
DB 0 1 0
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
A kettő kapcsolata
Értelmezésnél egy dolgot tartsunk mindig szem előtt: ugyanarra a csoportra ugyanannak az értéknek kell kijönnie, akárhogy kódolunk! Például a B csoportra: βB = β ∗ + βB∗ . . . ezért a fenti egyenlet így kell kinézzen: Y = βC + (βA − βC ) DA + (βB − βC ) DB + u
Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Mindezek az EU országok munkanélküliségének példáján A két különböző módon kódolt modell megbecslése: Dependent variable: MnRata
D1 D2 D3
Coefficient
Std. Error
t-ratio
p-value
6,58000 10,4400 11,7000
1,11155 1,36136 2,48550
5,9197 7,6688 4,7073
0,0000 0,0000 0,0001
R2 F (2, 25)
const D1 D2
0,210656 3,335935
Adjusted R 2 P-value(F )
Coefficient
Std. Error
11,7000 −5,12000 −1,26000
2,48550 2,72273 2,83391
R2 F (2, 25)
0,210656 3,335935
0,147509 0,051979
t-ratio
p-value
4,7073 −1,8805 −0,4446
0,0001 0,0717 0,6604
Adjusted R 2 P-value(F )
0,147509 0,051979
Értelmezzük az együtthatókat! → az értelmezések eltérnek, de egy adott csoport értéke mindenképp ugyanannyi Vegyük észre, hogy a változónkénti szignifikanciák eltérhetnek (mert másra fognak vonatkozni!), de a modellminősítő mutatók nem Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Fontos hipotézisvizsgálatok Referencia-kódolás esetén (a triviális kódolás tesztelésének általában nincs sok tartalma) a kézenfekvő kérdés, hogy van-e különbség a csoportonkénti értékek (amik ugye itt konstans számok) között (mint az ANOVA-nál) Precízebben: szignifikáns-e egy adott csoportbeli érték eltérése a referenciacsoportétől Ez itt nem más, mint β ∗ relevanciája Egyszerűen t-próbával ellenőrizhető! Az ANOVA megfelelője: H0 : βA∗ = βB∗ = . . . = 0 H1 : ∃j : βj∗ 6= 0
Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Dummyzás folytonos magyarázó változó jelenléte mellett
Amit eddig csináltunk az lényegében az volt, amit konstans dummyzásának nevezhetünk: csoportonként eltérő (de konstans) értékkel becsültük az eredményváltozót Mi van, ha bevonunk egy magyarázó változót, pl. a GDP-t? Azaz ekkor már nem egy konstanst becsülünk az egyes csoportokra, hanem egy egyenest (GDP függvényében) Dummyzással (tehát a csoporttagság szerint) eltéríthetjük az egyenesek tengelymetszetét és meredekségét is! Lehet csoportonként különböző 1 2
+1 egység GDP-hatása a 0 GDP-hez tartozó munkanélküliségi szint
Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Eltérő tengelymetszet Ha csak a tengelymetszetet térítjük el (+1 egység GDP hatása ugyanaz minden csoportban, de nem ugyanannyi a 0 GDP-hez tartozó munkanélküliség) 25
beta_1 + beta_X * X beta_1 + beta_D * D + beta_X * X
20
Y
15
10
5
0 0
2
4
6
8
X
Algebrailag: Y = β1 + βD D + βX X + u Ferenci Tamás –
[email protected]
Ökonometria
10
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Eltérő meredekség Ha csak a meredekséget térítjük el (0 GDP-hez ugyanakkora munkanélküliség tartozik, de +1 egység GDP hatása csoportonként eltérő) 35
beta_1 + beta_X * X beta_1 + (beta_X + beta_D) * X
30 25
Y
20 15 10 5 0 0
2
4
6
8
X
Algebrailag: Y = β1 + (βX + βD D) X + u Ferenci Tamás –
[email protected]
Ökonometria
10
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Eltérő tengelymetszet és meredekség Akár a tengelymetszet és a meredekség is lehet különböző De hát ez megoldható a minta szétszedésével is! Például a globális regresszió: Dependent variable: MnRata
const GDP
Coefficient
Std. Error
t-ratio
p-value
14,3628 −0,0745601
1,59829 0,0182874
8,9863 −4,0771
0,0000 0,0004
R2 F (1, 26)
0,390001 16,62304
Adjusted R 2 P-value(F )
0,366540 0,000382
Regresszió a régi tagállamok csoporton belül: const GDP
Coefficient
Std. Error
t-ratio
p-value
12,7791 −0,0580442
2,48209 0,0225065
5,1485 −2,5790
0,0002 0,0229
R2 F (1, 13)
0,338464 6,651238
Ferenci Tamás –
[email protected]
Adjusted R 2 P-value(F )
Ökonometria
0,287577 0,022900
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Eltérő tengelymetszet és meredekség
Regresszió az újonnan csatlakozók csoporton belül const GDP
Coefficient
Std. Error
t-ratio
p-value
23,9611 −0,258530
4,71505 0,0866423
5,0818 −2,9839
0,0010 0,0175
R2 F (1, 8)
0,526725 8,903502
Adjusted R 2 P-value(F )
0,467566 0,017497
Regresszió a tagjelöltek csoporton belül const GDP
Coefficient
Std. Error
t-ratio
p-value
−108,550 4,87500
1,06888 0,0433013
−101,5551 112,5833
0,0063 0,0057
R2 F (1, 1)
0,999921 12675,00
Ferenci Tamás –
[email protected]
Adjusted R 2 P-value(F )
Ökonometria
0,999842 0,005655
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Eltérő tengelymetszet és meredekség
És persze megoldható mindez dummyzással is → ahogy előbb láttuk, csak a módszereket kell kombinálni: a konstanst és a meredekséget is megdummyzzuk Mi értelme ennek a minta szétszedéséhez képest? Egyrészt spórolunk a szabadsági fokokkal (nagyobb erejű próbák stb.), másrészt fontos hipotéziseket vizsgálhatunk egyszerűen (ld. mindjárt)
Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
A dummyzás általános modellje Az előző két eset (konstans és meredekség dummyzása) így foglalható tehát össze az előbb mondottaknak megfelelően (3 csoportra): Y = β1 + β2 X + u, de úgy, hogy β1 = α + αA DA + αB DB és β2 = γ + γA DA + γB DB Vegyük észre, hogy a meredekség dummyzása a dummy és a mennyiségi változó közti interakcióra vezet: Y = α + αA DA + αB DB + γX + γA (DA X ) + γB (DB X ) + u Végeredmény bizonyos értelemben ugyanaz. . . de messzemenően több lehetőségünk van a fenti modellel → makroökonómiailag releváns hipotézisek tesztelése! Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Hipotézisvizsgálat a dummyzott modellben Pl.: van-e egyáltalán bármilyen eltérés a csoportok között? (Értsd: eltér-e a becsült egyenes (bármilyen szempontból) a csoportok között, vagy mindegyikben teljesen ugyanaz?) Ez az ún. strukturális törés, hipotézispárja: H0 : αA = αB = γA = γB = 0, H1 : valamelyik ezek közül nem nulla, tehát van strukturális törés És most jön a szép rész: ha a fenti modellt megbecsültük (sima OLS-sel), akkor ez a hipotézis egyszerűen egy közönséges Wald- (vagy hasonló) próbát jelent! Hasonlóképp: nem lehet, hogy csak a tengelymetszetek eltérőek? → ez az ún. párhuzamos ráták hipotézise, H0 : γA = γB = 0; szintén Wald-teszttel elintézhető Minden hasonló (itt: makroökonómiailag releváns) kérdés vizsgálata változó vagy változók relevanciájának tesztelésére vezethető vissza Ferenci Tamás –
[email protected]
Ökonometria
IV. esettanulmány Nominális tulajdonságok kódolása
Regresszió csak nominális tulajdonsággal Regresszió folytonos magyarázó változó bevonásával
Kontraszt-kódolás
Kontraszt-kódolás: trükkös kódolás úgy kitalálva, hogy a dummy-k együtthatója ne a referencia-csoporthoz, hanem az átlaghoz képesti eltérést jelentse Itt fordulhat elő, hogy a dummy változó nem 0 és 1 értéket vehet csak fel Ha a csoportok tagszáma nem ugyanannyi (pl. ez a helyzet az EU-s adatbázis esetén is), akkor ún. súlyozott kontraszt változókat kell alkalmazni (itt ráadásul már nem is egész értékeket fognak a dummy változóink felvenni) Nem foglalkozunk vele ennél bővebben
Ferenci Tamás –
[email protected]
Ökonometria