Panelová data Jana Čerbáková KPMS, MFF-UK Praha
23. Říjen 2006
Jana Čerbáková
Panelová data
Přehled
Badi. H. Baltagi: Econometric Analysis of Panel Data, John Wiley & Sons, Ltd, 2001 (2nd ed.). Definice a příklady panelových dat. Panelová data jako regresní model. Odhady parametrů v modelu s pevnými efekty. Odhady parametrů v modelu s náhodnými efekty. Predikce. Příklady.
Jana Čerbáková
Panelová data
Panelová data = dvoudimenzionální data pozorování 1 jevu pozorovaného přes několik časových obdobích . . . časová řada pozorování mnoha jevů v jednom časovém okamžiku . . . průřezová data pozorování mnoha jevů po několik časových období . . . panelová data číslo osoby 1 1 1 2 2 2
rok 2003 2004 2005 2003 2004 2005
Jana Čerbáková
příjem 1500 1700 2000 2100 2100 2200
věk 27 28 29 41 42 43
Panelová data
pohlaví 1 1 1 2 2 2
Panelové studie v USA
Od 60. let minulého století Panel Study of Income Dynamics (PSID) http : \\www .isr .umich.edu/src/psid/index.html National Longitudinal Surveys of Labor Market Experience (NLS) http : \\www .bls.gov /nlshome.htm Health and Retirement Study (HRS) http : \\www .umich.edu/∼ hrswww /
Jana Čerbáková
Panelová data
Panelové studie v Evropě
Od 80. let minulého století German Social Economic Panel (GSOEP) http : \\www .diw .de/soep Belgian Socioeconomic Panel http : \\www .ufsia.ac.be/∼ csb/eng /septab.htm European Community Household Panel (ECHP) http : \\www .ceps.lu/paco/pacochar .htm
Jana Čerbáková
Panelová data
Výhody
kontrola individuální heterogenity více informační data lépe vystihují dynamiku přizpůsobivosti lépe identifikují a měří efekty nedekovatelné pouze analýzou průřezových dat nebo časové řady dovolují konstruovat a testovat komplikovanější modely eliminují odchylky způsobené agregací přes pozorované jednotky
Jana Čerbáková
Panelová data
Nevýhody
problémy s návrhem a sběrem dat deformace chyb měření samovýběrovost nezískání odpovědí opotřebení malé dimenze časových řad
Jana Čerbáková
Panelová data
Model
yit = α + Xit0 β + uit ,
i = 1, . . . , N,
t = 1, . . . , T ,
kde i indexuje domácnosti, jedince, firmy, státy, t indexuje čas, Xit it-tá pozorování K vyvětlujicích proměnných. Ve většině modelů uit = µi + νit , kde µi nepozorovatelný individuální vliv, νit zbylé disturbance.
Jana Čerbáková
Panelová data
(1)
Model - vektorový zápis
y = α1NT + X β + u = Z δ + u u = Zµ µ + ν
u 0 = (u11 , u12 , . . . , u1T , u21 , . . . , uNT ) µ0 = (µ1 , . . . , µN ) ν 0 = (ν11 , . . . , ν1T , . . . , νNT ) Přičemž Zµ = IN ⊗ 1T značí výběrovou matici 0 a 1 individuálních dummies parametrů µi .
Jana Čerbáková
Panelová data
(2)
Projekční matice
P = Zµ (Zµ0 Zµ )−1 Zµ = IN ⊗ J¯T . . . průměruje pozorování v čase pro každého jedince, typickým prvkem T P Pu je T1 uiT i=1
Q = INT − P . . .napočítává odchylky od individuálních průměrů, typickým prvkem Qu je (uit − u¯i. ) symetrické, idempotentní ortogonální P + Q = INT
Jana Čerbáková
Panelová data
Model s pevnými efekty
µi pevné odhadované parametry νit ∼ IID(0, σν2 ) Xit nezávislé s νit pro všechna i, t y = α1NT + X β + Zµ µ + ν = Z δ + Zµ µ + ν
OLS odhad parametrů α, β, µ pro velké N vzniká potřeba invertovat matici velké dimenze
Jana Čerbáková
Panelová data
(3)
LSDV odhad Zajímáme-li se jen o odhady α, β, lze přenásobením (3) maticí Q vymazat individuální vlivy µ y˜ = Qy = QZ δ + Qν = Qα1NT + QX β + Qν, (k)
(k)
tj. (yit − y¯i. ) ∼ (Xit − Xi. ),
k = 1, . . . , K ,
pak již invertujeme v OLS odhadu matici dimenze jen K + 1. OLS odhad parametrů δ˜ = [(QZ )0 QZ ]−1 (QZ )0 Qy = [Z 0 QZ ]−1 Z 0 Qy β˜ = [X 0 QX ]−1 X 0 Qy ˜ = σν2 (X 0 QX )−1 = σν2 (X ˜ 0X ˜ )−1 , var(β)
Jana Čerbáková
Panelová data
˜ = QX X
(4)
Withinova regrese Z modelu (3) yit = α + βxti + µi + νit získáme pouze odhady β a (α + µi ). Withinova regrese
yit − y¯i. = β(xti − x¯i. ) + (νit − ν¯i. ) y¯i. = α + β¯ xi. + µi + ν¯i. y¯.. = α + β¯ x.. + ν¯.. ,
N X i=1
Odtud pak získáme odhady β˜ z modelu (5) ˜x.. α ˜ = y¯.. − β¯ ˜xi. µ˜i = y¯i. + α ˜ − β¯
Jana Čerbáková
Panelová data
µi = 0
(5)
Testování podmodelu
Test významnosti dummies parametrů H0 : µ1 = µ2 = · · · = µN−1 = 0 vede na F -test F0 =
(RRRS - URSS)/(N − 1) ∼H0 FN−1,N(T −1)−K , URSS/(NT − N − K )
kde URRS reziduální součet čtverců v modelu RRRS reziduální součet čtverců v podmodelu za platnosti H0
Jana Čerbáková
Panelová data
Arellano (1987) - robustní odhad Arellamo navrhl metodu umožňující získat odhady pro libovolnou kovarianční matici. Uvažujme yi = Zi δ + µi 1T + νi
i = 1, . . . , N.
Obecně Ωi = E (νi νj0 ) = 0 pro i 6= j. Předpokládejme T malé, N velké - asymptotické výsledky pro N → ∞. Na transformovaný systém získaný pronásobením maticí Q ˜i β + ν˜i y˜i = X aplikujeme metodu nejmenších čtverců za předpokade, že β je stejné ve všech modelech, a dostáváme 1 N 2 (β˜ − β) ∼ N(0, M −1 VM −1 ),
˜ 0X ˜ X N→∞ N
kde M = p − lim
N P 1 ˜i ). ˜ 0 Ωi X (X i N N→∞ i=1
a V = p − lim
Jana Čerbáková
Panelová data
Model s náhodnými efekty
µi ∼ IID(0, σµ2 ) νit ∼ IID(0, σν2 ), nezávislé s µi Xit nezávislé s µi a νit pro všechna i, t Individuální vliv je charakterizován jako náhodný a mající vliv na populaci, z které byl výběr vybrán. Haavelmo (1944):
Populace se obecně neskládá z nekonečného množství jedinců, ale z nekonečného počtu rozhodnutí, která mohou tito jedinci učinit.
Jana Čerbáková
Panelová data
Kovarianční struktura Z uit = µi + νit dostáváme var(u) = Ω = E (u 0 u) = Zµ E (u 0 u)Zµ0 + E (ν 0 ν) = = σµ2 (IN ⊗ JT ) + σν2 (IN ⊗ IT ) cov (uit , ujs ) = σµ2 + σν2 =
σµ2
=0 cor (uit , ujs ) = 1
i = j, t = s i = j, t 6= s jinak i = j, t = s
σµ2 = 2 σµ + σν2
i = j, t 6= s
=0
jinak
Jana Čerbáková
Panelová data
GLS odhad
Wansbeek, Kapteyn (1982,1983) ukázali Ω = σ12 P + σν2 Q, kde σ12 = T σµ2 + σν2 . Odtud pak Ω−1 =
1 1 P + 2 Q. σν σ12
GLS odhad získáme metodou vážených nejmenších čtverců βˆGLS = (X 0 Ω−1 X )−1 X 0 Ω−1 y .
Jana Čerbáková
Panelová data
Transformace - OLS odhad
Fuller, Battese (1973,1974) navrhli vynásobit model (2) zleva 1
σ ν Ω− 2 = Q +
σν P, σ1
tím získali model 1
1
1
1
y ∗ = σν Ω− 2 y = σν Ω− 2 α1NT + σν Ω− 2 X β + σν Ω− 2 u. Typickým prvekm y ∗ je (yit − θ¯ yi. ), kde θ = 1 −
σν σ1 .
OLS odhad v tomto modelu již vyžaduje invertování matice dimenze jen K + 1.
Jana Čerbáková
Panelová data
BQU odhad rozptylů σ12 , σν2 Balestra (1973) odvodil σ ˆ12 =
N u 0 Pu T X −2 = ui. tr(P) N i=1
σ ˆν2
u 0 Qu = = tr(Q)
N P T P
(uit − u¯i. )2
i=1 t=1
N(T − 1)
Skutečné disturbance nejsou známé, proto se jedná o nepřípustné odhady. Wallace, Hussain (1969) navrhli nahradit u odhadnutými rezidui µ ˆOLS . Amemiya (1971) navrhl použít LSDV rezidu.
Jana Čerbáková
Panelová data
Swamy a Arora (1972)
navrhli použítí dvou regresí: (1) Withinova regrese vedoucí na odhad σ ˆν2 =
[y 0 Qy − y 0 QX (X 0 QX )−1 X 0 Qy ] N(T − 1) − K
¯ 0 β + u¯i. pro i = 1, . . . , N, vedoucí (2) Betweenova regrese y¯i. = α + X i. k odhadu [y 0 Py − y 0 PZ (Z 0 PZ )−1 Z 0 Py ] σ ˆ12 = N −K −1 Maddala (1971) odvodil βˆGLS = W1 β˜Within + W2 βˆBetween .
Jana Čerbáková
Panelová data
Odhad metodou maximální věrohodnosti
Za předpokladu normality reziduí L(α, β, φ, σν2 ) = K − kde Ω = σν2 Σ, φ2 =
σν2 σ12
NT N 1 log σ ν + log φ2 − 2 u 0 Σ−1 u, 2 2 2σν
a Σ = Q + φ−2 P.
Breusch (1987) navrhl ¯..0 βˆMLE , α ˆ MLE = y¯.. − X 2 σ ˆν,MLE =
Jana Čerbáková
1 0 ˆ −1 uˆ Σ uˆ. NT
Panelová data
(6)
Odhad metodou maximální věrohodnosti
LC (β, φ2 ) = K −
N NT log d 0 Q + φ2 (P − J¯NT ) d + log φ2 2 2
Pro pevné β maximalizací přes φ2 N P T P
0
d Qd φˆ2 = = (T − 1)d 0 (P − J¯NT )d
(dit − d¯i. )2
i=1 t=1
T (T − 1)
N P
, (d¯i. − d¯ii )2
i=1
při pevném φ2 maximalizací přes β −1 0 βˆMLE = X 0 (Q + φ2 (P − J¯NT ))X X Q + φ2 (P − J¯NT ) y .
Jana Čerbáková
Panelová data
Odhad metodou maximální věrohodnosti
Postupnou iterací nůžeme napočítávat parametry β a φ2 dokud nedosáhneme konvergence. Breutsch (1987) ukázal, že pro T > 1 libovolná i-tá iterace βi vede k 0 < φ2i+1 < ∞. Navíc, φ2i mají významnou tendenci tvořit monotonní posloupnost. Začneme-li s β˜Within pro φ2 = 0, další φ2 bude kladné, konečné a bude začínat rostoucí poslupnost φ2 . Začneme-li s βˆBetween pro φ2 → 0, další φ2 bude kladné, konečné a bude začínat klesající poslupnost φ2 . Konvergují-li obě iterace ke stejnémů maximu, pak jsme našli globální maxmum.
Jana Čerbáková
Panelová data
Predikce
Goldberger (1962) ukázal, že BLUP predikce o S období dopředu má tvar: 0 0 −1 ˆ yˆi,T +S = Zi,T ˆGLS +S δGLS + w Ω u
pro S ≥ 1,
kde uˆGLS = y − Z δˆGLS a w = E (ui,T +S u). Přičemž ui,T +S = µi + νi,T +S , w = σµ2 (li ⊗ 1T ). Odtud pak w 0 Ω−1 = σµ2 (li0 ⊗ 10T )
σµ2 0 1 1 Q = P + (l ⊗ 10T ). σν2 σ12 σ12 i
Jana Čerbáková
Panelová data
(7)
Příklad 1 - Grundfeld (1958) Uvažujme investiční rovnici Iit = α + β1 Fit + β2 Cit + uit , kde Ii t reálné hrubé naklády firmy i v roce t Fi t reálná hodnota firmy i v roce t Ci t reálná hodnota základního kapitálu firmy i v roce t Bylo sledováno 10 US výrobních podniků v letech 1935-54.
OLS Between Within Walhaus Amemiya Swar Jana Čerbáková
β1 0.116 0.135 0.110 0.110 0.110 0.110
β2 0.231 0.032 0.310 0.307 0.308 0.308
Panelová data
Příklad 2 - Baltagi a Griffin (1983) Uvažujme rovnici poptávky po benzínu ln
Gas Y PMG Car = α + β1 ln + β2 ln + β3 ln + u, Car N PGDB N
kde Gas Car PMG PGDB Y N Car N
spotřeba benzínu na auto reálná cena benzínu reálné příjmy na osobu počet aut na osobu
Byla provádená roční pozorování v 18 zemích OECD v období 1960-1978. OLS Between Within Walhaus Amemiya Swar
β1 0.890 0.968 0.662 0.543 0.601 0.555
Jana Čerbáková
β2 −0.892 −0.964 −0.322 −0.471 −0.366 −0.420 Panelová data
β3 −0.763 −0.763 −0.795 −0.640 −0.606 −0.620
Software
Neexistuje software speciálně věnovaný odhadům a testovaní v modelech panelových dat. Lze použít balíky programů: LIMDEP RATS SAS TSP GAUSS STATA
Jana Čerbáková
Panelová data