5EN306 Aplikované kvantitativní metody I Přednáška 10
Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) •
témata se prolínají
2
Panelová data (First differencing, Fixed Effects,…) • • •
minule: instrumentální proměnné identifikační strategie = způsob, jakým výzkumník využívá napozorovaná data (tedy data negenerována náhodně) k přiblížení se k reálnému (přirozenému) experimentu pozorovaná korelace X a Y nemusí nutně znamenat existenci kauzality z důvodu možné existence nepozorovaných faktorů
Panelová data • data, u kterých opakovaně pozorujeme charakteristiky statistických jednotek: – roční míra nezaměstnanosti každého státu za několik let – čtvrtletní prodeje každé z poboček Tesca za několik čtvrtletí – mzda jedince v několika zaměstnáních • podstata – měříme stále stejnou statistickou jednotku (na rozdíl od „pooled cross-section data“ – náhodný výběr) • definice vyrovnaného a nevyrovnaného panelu (balanced / unbalanced) • krátký vs. dlouhý panel (práce s krátkými panely je podobnější práci s průřezovými údaji, práce s dlouhými panely práci s časovými řadami) • Wooldridge – kap. 13 a 14
3
Unobserved heterogeneity (unobserved effect) • •
• • • •
• •
forma omitted variable bias problém k řešení: statistické jednotky i (jedinci, domácnosti, firmy, státy,…) se od sebe můžou lišit o specifické charakteristiky, které jsou v čase neměnné: – demografické (kromě věku) – geografické atd. to má vliv na měřenou (závislou) veličinu úrovňová konstanta pro každou ze statistických jednotek unobserved effect model nebo fixed effect model (v čase neměnné) příklad – crime rate (různé způsoby reportování zločinů v různých státech USA, lokace) – mzda vs. vzdělání (různá barva pleti, genetická zátěž, sociální zázemí apod.) neměřitelné vlivy (neměřitelný vliv je náhodná složka) tak dělíme na – v čase neměnné – fixed effects – v čase proměnlivé – náhodná složka uit jak bychom to řešili (odhad modelu)? – přidat regresory? – binární proměnné? 4
Vymezení problému • •
panelová data (datová kostka) základní model:
yit t xit wit
– je zde problematizován heterogenitou jednotek:
yit t xit ai uit
– kde wit = ai + uit, ai = fixní, nepozorovaný efekt (nemění se v čase, ale je jiný pro každou pozorovanou jednotku) – také nepozorovaná či individuální heterogenita uit = idiosynkratická chyba • • • • •
ai ovlivňuje Y a může být korelována i s X! ai jsou konstantní v čase, neměřitelné i když uit a xit jsou nekorelované, problém, pokud ai a xit korelované, tj. platí, že E(aixit) ≠ 0 omitted variable bias = heterogeneity bias pozn.: trend může být definován formou dummies
5
First differencing (první diference) • • •
princip: diference sousedních časových period ztrácíme jedno období pro každou jednotku (n) nejjednodušší - pro dvě časové periody
yi 0 0 d 2t 1 xit ai uit Period 2: yi 2 ( 0 0 ) 1 xi 2 ai ui 2 Period 1: yi1 0 1 xi1 ai ui1 First-differencing:
yi 2 yi1 0 1 ( xi 2 xi1 ) ui 2 ui1
•
yi 2 0 1 xi 2 ui 2
fixní efekty jsou odstraněny (stále ale mohou být v čase proměnné faktory, které v modelu nemáme)
6
First differencing (první diference) Předpoklady • Δui není skorelované s Δxi (platí, pokud je uit nekorelovaná s xit v každém t) • nenastáva podstatná heterogenita proměnlivá v čase • homoskedasticita Δui • pro více časových period neautokorelace Δuit • Δxi musí mít nějakou variabilitu přes i (problém, pokud x se v čase nemění nebo se mění o stejnou hodnotu – neodseparujeme od ai) – příklad? Nedostatky • redukce variability x (ztrácíme informaci) – někdy se dá do určité míry obejít velkým počtem pozorování) – někdy se používají diference přes delší časové periody – hodně nízká variabilita (vysoké standardní chyby) • některé charakteristiky se v čase vůbec nemění, či o konstantu – nelze je použít (nelze je odseparovat od ai) • ztráta n pozorování • stále tu mohou být faktory v čase proměnné
7
First differencing (první diference) Více časových period • nezbavíme se faktoru času • musíme řešit autokorelaci Δuit pro t = 2, 3, … – pokud je uit neautokorelovaná, pak Δuit autokorelovaná je: – sousední pozorování náhodné složky ve FD uit – uit-1 a uit+1 – uit • •
pokud uit ~ AR(1) → pak Δuit autokorelované pokud uit ~ RW → pak Δuit nekorelované
8
First differencing – příklad 1 – mzda • •
•
příklad s více nezávislými proměnnými závislá proměnná: yit = logaritmus mzdy pracovníka i v čase t nezávislé proměnné: xit1 = lokální míra nezaměstnanosti pracovníka i v čase t xit2 = počet měsíců zkušeností pracovníka i v čase t xi3 = počet let vzdělání pracovníka i (v čase neměnná!!!) ai = talent pracovníka i (neměřitelná a zároveň v čase neměnná) Δyi2 = δ0 + β1Δxi21 + β2Δxi22 + Δui2
• xi3 – počet let vzdělání + ai – talent pracovníka jsme metodou FD odstranili!!! • Δxi22 bude rovna 12 pro skoro všechny pracovníky (méně než 12 pro nezaměstnané) → nízká variabilita → nepřesně odhadnut koeficient β2 → vysoké standardní chyby • významný heterogeneity bias!!!
9
First differencing – příklad 2 – kriminalita • • • •
míra kriminality: období 1982 a 1987 46 měst USA míra nezaměstnanosti (v %) a míra kriminality (počet zločinů na 1000 obyvatel) rok 1987 po FD
Interpretace • 15,4 = nárůst kriminality o 15,40 na 1000 obyvatel • mezi obdobími 1982 až 1987 bez změny nezaměstnanosti • 2,22 = vzroste-li nezaměstnanost o 1 %, vzroste počet zločinů o 2,22 na 1000 obyvatel
10
First differencing – příklad 3 – školení Účastníci školení • měřím kauzální efekt účastníků školení • nezávislé proměnné – účast na školení, individuální charakteristiky,… • závislá proměnná – mzdy, produktivita práce,… • t = 2 … období po absolvování školení
yit d 2t progit ai uit , t 1, 2 •
first differencing model:
yi progi ui •
•
model OLS:
ytreat ycontrol náhodná složka vit = ai + uit kontroluje v čase neměnné charakteristiky firem: • účastník školení: progit = 1 • nezúčastnil se školení: progit = 0
11
Fixed effects model • • •
přístup č. 2 k dohadu panelových dat Jak odseparovat fixní efekty ai + neztratit pozorování? uvažujme model:
– zprůměrujme rovnici v čase pro každé i: kde např.: •
odečtu obě rovnice od sebe
• • • •
tímto jsme odstranili fixní efekty ai poslední rovnice je tzv. „time-demeaned“ odhadneme „pooled“ data OLS metodou tento estimátor se nazývá within-estimátor, protože využívá rozptyl v čase v rámci (within) průřezových jednotek pokud bychom odhadli model přímo z průměrů (neodečetli bychom rovnice mezi sebou) metodou OLS, jednalo by se o betweenestimátor – není nestranný
•
12
Fixed effects model Předpoklady • opět striktní exogenita xit • homoskedasticita uit • neautokorelace uit (musíme řešit i pro 2 periody) Nedostatky • ztratíme proměnné konstantní v čase (wage = f(sex, race,…) • proměnné konstantní v čase můžeme použít v interakcích (educ*časová dummy) • proměnné měnící se o konstantu – neodlišíme od trendu • jestli do modelu dáme všechny časové dummies, nemůžeme odhadnout efekt proměnných, jejichž změna v čase je konstantní (např. počet let zkušeností) • počet stupňů volnosti je N*T-N-k (tato úprava je nutná, protože navíc odhadujeme N*průměry)
13
Fixed effects model Předpoklady • opět striktní exogenita xit • homoskedasticita uit • neautokorelace uit (musíme řešit i pro 2 periody) Nedostatky • ztratíme proměnné konstantní v čase (wage = f(sex, race,…)) • proměnné konstantní v čase můžeme použít v interakcích (educ*časová dummy) • proměnné měnící se o konstantu – neodlišíme od trendu • jestli do modelu dáme všechny časové dummies, nemůžeme odhadnout efekt proměnných, jejichž změna v čase je konstantní (např. počet let zkušeností) • počet stupňů volnosti je N*T-N-k (tato úprava je nutná, protože navíc odhadujeme N*průměry) Pozitiva • neztrácíme pozorování • po FE odhadu můžeme fixní efekty odhadnout:
14
Fixed effects model nebo First difference? •
když T = 2, FE a FD jsou identické
•
když T > 2, FE je vydatnější než FD, pokud jsou splněny předpoklady KLRM
•
pokud náhodná složka uit neautokorelovaná, pak lepší FE
•
pokud náhodná složka uit generována RW, pak lepší FD
•
obecně se spíše používají FE, ale je vhodné aplikovat obojí a porovnávají se výsledky
•
pokud dlouhé časové řady (T velké) a problém s nestacionaritou (hrozí zdánlivá regrese), pak může být FD lepší variantou (speciálně máme-li málo jednotek)
•
také závisí, zda nás zajímají odhady ai
15