Praktikum z ekonometrie Panelová data Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze,
[email protected]
9. kvˇetna 2014
1 Terminologie a znaˇcení • Sledujeme-li pro všechny pr˚urˇezové jednotky stejná cˇ asová období, hovoˇríme o vyrovnaném panelu; pro jednoduchost se budeme zabývat pouze vyrovnanými panely (zjednoduší to znaˇcení a modifikace pro nevyrovnané panely bývají zpravidla jednoduché). • Poˇcet pr˚uˇrezových jednotek znaˇcíme N, poˇcet cˇ asových období T , poˇcet vysvˇetlujících promˇenných K. • Indexy: pr˚uˇrezové jednotky i, cˇ asová období t, vysvˇetlující promˇenné j. • Rozlišují se tzv. krátké a dlouhé panely podle délky cˇ asové ˇrady (vzhledem k poˇctu pozorování); rozlišení není pˇresnˇe dáno, jde o to, zdali chceme uplatˇnovat asymptotickou teorii pro N → ∞ nebo pro T → ∞. • Pˇríklady na krátké vs. dlouhé panely: 500 jednotlivc˚u sledovaných v 5 navazujících obdobích vs. Visegrádská cˇ tyˇrka v letech 1995–2015. • Krátké panely koncepˇcnˇe jednodušší – asymptotické úvahy opˇet ve smyslu náhodného výbˇeru jedinc˚u z populace. • Aspekty náhodných proces˚u, zejména stacionarita a heteroskedasticita v cˇ ase, se ˇreší o poznání ménˇe než u dlouhých panel˚u.
2 Model s nepozorovanou heterogenitou S panelovými daty lze poˇcítat bˇežný LRM, tj. y = α + β1 x1 + . . . βK xK + u = α + xβ β + u. Z jistého d˚uvodu, který bude patrný za chvíli, jsme oproti pˇredchozím zápis˚um oddˇelili intercept od vektoru β , jinak je ovšem všechno pˇri starém. Rozepíšeme-li model pro jednotlivá
Praktikum z ekonometrie: Panelová data
2
pozorování v náhodném výbˇeru, je situace trochu ménˇe pˇrehledná kv˚uli dvˇema rozmˇer˚um (pr˚uˇrezovému a cˇ asovému): yit = α + β1 xit1 + . . . βK xitK + uit = α + xit β + uit . {z } | [xit1 ... xitK ][β1 ... βK ]0 =xit β
Jedním z d˚uvod˚u použití panelových dat je snaha vypoˇrádat se s tím, že není v naší moci sledovat (a zahrnout do modelu) všechny charakteristiky, které ovlivˇnují závisle promˇennou. Napˇríklad v modelu, kde vysvˇetlujeme mzdu jedince, nejsme zpravidla schopni zmˇeˇrit jeho motivaci, talent a další vlastnosti – oznaˇcované souhrnnˇe jako nepozorovaná heterogenita. Panelová struktura dat nám umožní velmi efektivnˇe obejít problémy s tou složkou nepozorované heterogenity, která je nemˇenná v cˇ ase, jako tˇreba zmiˇnovaný talent, nebo též tˇelesná výška, vlivy výchovy v dˇetství apod. Oznaˇcme souhrnný vliv všech nepozorovaných faktor˚u, v cˇ ase nemˇenných, jako c. V lineárním modelu vypadá situace takto: yit = α + xit β + ci + uit .
(1)
Všimnˇete si, že promˇenná c nepotˇrebuje cˇ asový index t, nebot’ je pro každou pr˚uˇrezovou jednotku v cˇ ase nemˇenná. Díky pˇrítomnosti interceptu α si m˚užeme dovolit bez okolk˚u a újmy na obecnosti pˇredpokládat, že pr˚umˇerný dopad nepozorované heterogenity je ve zkoumané populaci nulový, tj. E c = 0. (2)
3 Ruzné ˚ pˇrístupy k odhadu modelu s nepozorovanou heterogenitou 3.1 Diferencování (first-difference estimator, FD) Zapíšeme-li rovnici (1) zpoždˇenou o jedno období, yi,t−1 = α + xi,t−1 β + ci + ui,t−1 , a odeˇcteme od (1), dostaneme ∆yit = ∆xit β + ∆uit ,
(3)
kde ∆yit = yit − yi,t−1 a podobnˇe ∆xit = xit − xi,t−1 a ∆uit = uit − ui,t−1 . Za zmínku stojí nˇekolik pozorování: (i)
V (3) se nevyskytuje nepozorovaná heterogenita ci (ani intercept α). Naopak parametr β je shodný jako v p˚uvodním modelu (1).
(ii) Máme-li data pro y a x, snadno z nich pˇripravíme první diference ∆y a ∆x. (iii) Chceme-li tedy odhadnout parametr β , m˚užeme aplikovat OLS pˇrímo na model (3).
Praktikum z ekonometrie: Panelová data
3
(iv) Je-li p˚uvodní náhodná složka uit nekorelovaná v cˇ ase, pak ∆uit vykazuje negativní autokorelaci prvního ˇrádu, konkrétnˇe corr(∆uit , ∆ui,t−1 ) = −0.5. Pokud má naopak uit podobu náhodné procházky (ˇcili uit = ui,t−1 + šum, krajní pˇrípad pozitivní autokorelace), pak jsou ∆uit v cˇ ase nekorelované. Autokorelace Testování autokorelace po FD: (i)
Irelevantní pˇri T = 2.
c it , a odhadneme (ii) Pˇri T ≥ 3 uložíme rezidua z (3), ∆u c i,t−1 + šumit c it = ρ ∆u ∆u a testujeme nulovou hypotézu H0 : ρ = 0 (nulová hypotéza ˇríká, že ∆uit je nekorelovaná). (iii) Pˇri zamítnutí H0 použijeme robustní standardní chyby, pˇríp FDGLS (viz pokroˇcilý Wooldridge). Je-li ale ρˆ poblíž −0.5, naznaˇcuje to, že p˚uvodní náhodná složka uit byla možná nekorelovaná (viz výše); za takových podmínek je výhodnˇejší použít FE. 3.2 Fixní efekty (fixed-effects estimator, within estimator, FE) Zpr˚umˇerujeme rovnici (1) pro i-tou pr˚uˇrezovou jednotku pˇres všechna cˇ asová období; získáme yi = α + xi β + ci + ui , T kde yi = T1 ∑t=1 yit a podobnˇe xi = (1) a dostaneme
1 T
T xit a ui = ∑t=1
y¨it = x¨ it β + u¨it ,
1 T
T uit . Tuto rovnici odeˇcteme od ∑t=1
(4)
kde y¨it = yit − yi a podobnˇe x¨ it = xit − xi a u¨it = uit − ui . Pˇrechod od promˇenné k její dvojitˇe teˇckované verzi, tj. napˇr. od y k y, ¨ se nˇekdy oznaˇcuje jako cˇ asové centrování (time demeaning). Za zmínku stojí nˇekolik pozorování: (i)
V (4) se nevyskytuje nepozorovaná heterogenita ci (ani intercept α). Naopak parametr β je shodný jako v p˚uvodním modelu (1).
(ii) Máme-li data pro y a x, snadno pˇripravíme jejich cˇ asovˇe centrované protˇejšky y¨ a x¨ . (iii) Chceme-li tedy odhadnout parametr β , m˚užeme aplikovat OLS pˇrímo na model (4). ˇ (iv) Casové centrování zanáší korelaci do náhodných složek u¨it . Lze ukázat, že je-li p˚u1 vodní náhodná složka uit v cˇ ase nekorelovaná, pak corr(u¨it , u¨is ) = − T −1 pro s 6= t. Metoda fixních efekt˚u je dostupná ve všech moderních statistických/ekonometrických SW, operaci cˇ asového centrování není tedy tˇreba „ruˇcnˇe“ provádˇet. Vˇetšina SW vypíše ještˇe odhad interceptu α, který není v odhadované rovnici (4) obsažen. Tento odhad se získá jako αˆ = y − βˆ x.
Praktikum z ekonometrie: Panelová data
4
Autokorelace Testování autokorelace po FE: (i)
Komplikované.
(ii) Irelevantní pˇri T = 2. (iii) Pˇri T ≥ 3 lze odhadnout model uˆ¨it = ρ uˆ¨i,t−1 + šumit 1 (nulová hypotéza ˇríká, že p˚uvodní náhodná a testovat nulovou hypotézu H0 : ρ = − T −1 složka uit je nekorelovaná, viz výše). Pro test je tˇreba použít standardní chyby robustní v˚ucˇ i autokorelaci.
(iv) Pˇri zamítnutí H0 použijeme robustní standardní chyby. Lze též zvážit útˇek k FD (viz též níže) nebo FEGLS (viz pokroˇcilý Wooldridge). 3.3 Odhad pomocí pruˇ ˚ rezových dummy promˇenných (dummy variable regression, DVR) Souhrnný vliv nepozorované heterogenity lze chápat jako parametr, který je tˇreba odhadnout. M˚užeme psát yit = αi + xit β + uit , (5) kde αi nahrazuje výraz α + ci z modelu (1). Aˇckoli rozdíl oproti pˇredchozímu modelu je nepatrný, zde chápeme αi jako intercept pro i-tou pr˚uˇrezovou jednotku, potažmo jako parametr, který je tˇreba odhadnout. Model m˚užeme ekvivalentnˇe pˇrepsat jako yit = α1 d1i + α2 d2i + . . . + αN dNi + xit β + uit ,
(6)
kde d1i je promˇenná, která nabývá hodnoty 1 pro všechna pozorování první pr˚uˇrezové jednotky (tj. pokud i = 1) a hodnoty 0 jinak; promˇenné d2i až dNi jsou definovány analogicky. (Napˇr. v Gretlu lze tyto promˇenné vyrobit po nastavení panelové struktury dat pˇríkazem Add → Unit dummies .) V této podobˇe lze model bˇežným zp˚usobem odhadnout v SW pomocí OLS. Tato metoda není pˇríliš praktická v pˇrípadˇe, že máme velký poˇcet pr˚uˇrezových jednotek. Vezmˇeme výše zmínˇený pˇríklad panelového souboru 500 respondent˚u sledovaných v pˇeti navazujících cˇ asových obdobích. Aˇckoli není problém pˇripravit promˇenné d1 až d500 a spoˇcítat požadovaný regresní model, výsledková tabulka bude neˇcitelný kolos s více než 500 ˇrádky, navíc nám zbyteˇcnˇe naroste datový soubor o 500 promˇenných. Kromˇe této ryze praktické nevýhody je tu problém statistického rázu, který je daleko závažnˇejší. Odhady parametr˚u αi nemají dobré statistické vlastnosti, konkrétnˇe nejsou konzistentní. Tento problém má jednoduchý intuitivní d˚uvod. Zvˇetšujeme-li rozsah výbˇeru co do poˇctu pr˚uˇrezových jednotek (tj. roste N), s každou novou jednotkou pˇribývá jeden odhadovaný parametr (tzv. incidental parameters problem). Pˇri N → ∞ tedy nedochází k jinak
Praktikum z ekonometrie: Panelová data
5
obvyklému hromadˇení informace o jednotlivých parametrech αi . Jinými slovy, jednotlivé odhady αˆ i nelze brát pˇríliš vážnˇe. Je nicménˇe pravda, že pˇri dodržení obvyklých G-M pˇredpoklad˚u jsou αˆ i a BLUE. (Mimochodem, jedná se o klasický pˇríklad odhadové statistiky, která je nestranná, nikoli však konzistentní.) Obecnˇe vzato, odhady αˆ i bývají pˇresnˇejší v modelech s delšími cˇ asovými ˇradami (vˇetší T ). Aˇckoli konkrétní hodnoty αˆ i pro jednotlivé pr˚uˇrezové jednotky zpravidla neinterpretujeme, lze si na základˇe celého souboru odhad˚u (pro všechna i) udˇelat rámcovou pˇredstavu o rozdˇelení heterogenity v populaci (zdali je hodnˇe koncentrovaná okolo svého pr˚umˇeru nebo naopak hodnˇe rozptýlená, zdali je symetrická nebo sešikmená apod.). Pˇredchozí výhrady k odhad˚um parametr˚u αi ovšem neplatí pro odhady parametr˚u β – tyto odhady se pˇri r˚ustu N klasickým zp˚usobem zpˇresˇnují, tj. jsou konzistentní. Ve skuteˇcnosti je to ještˇe zajímavˇejší: lze ukázat, že odhady parametr˚u z DVR jsou identické s odhady poˇrízené metodou FE. V tomto smyslu je tedy jedno, kterou z obou metod použijeme. Je tˇreba se mít ale na pozoru: tento výsledek platí cˇ istˇe jen pro námi uvažovaný lineární model. Konkrétnˇe, podobné vztahy neplatí v hojnˇe používaných nelineárních panelových modelech s nepozorovanou heterogenitou (napˇr. pro cˇ ítací modely nebo modely diskrétní volby). V takových pˇrípadech jsou zpravidla odhady β pomocí pr˚uˇrezových dummy promˇenných nekonzistentní! 3.4 Náhodné efekty 3.5 Metody ignorující nepozorovanou heterogenitu – prostá (hromadná) OLS, meziskupinový model
4 FE nebo FD? • Pro T = 2 metody stejné. Rozhodnutí ˇrešíme jen pro T ≥ 3. • Je-li uit v cˇ ase nekorelovaná, je FE vydatnˇejší než FD. Vykazuje-li uit výraznou pozitivní autokorelaci, je FD vydatnˇejší než FE. Testovat lze zp˚usoby uvedenými výše. • FE i FD jsou konzistentní pouze pˇri striktnˇe exogenních regresorech – lze testovat jak v FD, tak v FD (viz pokroˇcilý Wooldridge).