5EN306 Aplikované kvantitativní metody I Přednáška 6
Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) •
témata se prolínají
2
Dnes • •
minule: dummies dnes: - korelační analýza - regresní analýza - princip - koeficienty a základní statistiky - omitted variable bias
3
Korelační analýza • • •
Regresní analýza: analýza jednostranných závislostí mezi vysvětlovanou (závisle) proměnnou a vysvětlující (nezávisle) proměnnou. Popis průběhu závislosti určitou analytickou funkcí. Cíle – co nejpřesnější kvantifikace vlivu určitého faktoru na jiný, odhalení kauzálních vztahů (příčina-následek), co nejpřesnější model k vysvětlované proměnné k predikcím Konstrukce korelačních koeficientů:
XY E[( X E( X ))(Y E(Y ))] XY 1;1 X Y E( X E( X )) E(Y E(Y )) • • • • •
vzájemné vztahy vždy pouze 2 veličiny nerozeznáme kauzalitu tabulky sdružených četností, pravděpodobností grafy education x wage
4
Regresní analýza populace y = β0 + β1x + u
wagei 0 1educi ui
výběr
wagei 7,8 8,9educi ui
5
Regresní analýza • • • • •
•
Zajímáme se (zpravidla) o podmíněné průměry (podmíněné střední hodnoty) vysvětlované proměnné při změnách proměnných vysvětlujících – hledáme vhodný model Snaha poznat příčinné vztahy mezi veličinami Snaha matematicky popsat vztahy (závislosti) mezi veličinami Hledáme co nejlepší matematickou funkci (empirickou regresní funkci) popisující průběh podmíněné střední hodnoty (hypotetickou (populační) regresní funkci) Korelační analýza hovoří o intenzitě závislosti a regresní analýza o průběhu závislosti mezi dvěma znaky; aplikace společně graficky:
6
Korelační analýza vs. regrese • • • •
u regrese již vkládáme jistou strukturu s řadou předpokladů – (L/P strana, aditivní charakter, /ne/linearita) realita („chaos“) vs. model ceteris paribus nebezpečí: jedná se pořád pouze o korelaci, nikoliv kauzální vztah
Metoda nejmenších čtverců - MNČ y = β0 + β1x + u • předpokládáme vztah v populaci (nikdy neodhalíme „úplně“) • hledáme jeho odraz ve vzorku •
• •
PC najde nejlepší β0 a β1 a získáme fitted values z nejlepší regresní přímky pak musíme rozlišovat: yi a rozdíl je residuum (chyba, error):strukturu s řadou předpokladů (L/P
7
MNČ – metoda nejmenších čtverců • • •
MNČ – metoda nejmenších čtverců Jak najít přímku, tak aby co nejlépe popisovala závislost? Tj. byla co nejblíže všem bodům? Chceme minimalizovat součet čtverců odchylek (reziduí) 2 T e e i e min
Maticový zápis KLRM • obecný model (maticový zápis): • • • •
Y
X
y Xβ u
X – matice (n x k) pozorování exogenních (resp. predeterminovaných) proměnných y – vektor (n x 1) pozorování endogenní proměnné β – vektor (k x 1) parametrů u – náhodná složka, o které předpokládáme, že má normální rozdělení N(0,σ2) 8
MNČ – metoda nejmenších čtverců Odvození bodové odhadové funkce „b“ b … ∑ eTe → min
eTe (y Xb)T (y Xb) y Ty bT XTy y T Xb bT XT Xb y Ty 2bT XTy bT XT Xb, kde platí, že y T Xb (yT Xb)T bT XTy eTe (yTy 2bT XTy bT XT Xb) 0 2XTy 2XT Xb b b 2XTy 2XT Xb (XT X)b XTy (XT X)1 (XT X)b (XT X)1 XTy b (XT X)1 XTy 9
MNČ – metoda nejmenších čtverců Minimalizací funkce: Dostaneme:
=0 =0
klíčové pro nás je
10
Regresní koeficienty • říká, o kolik se v průměru změní Y pokud se X změní o jednotku • průměrná odchylka X od průměru statisticky spojena s průměrnou odchylkou Y od průměru…
• kovariance X,Y normalizovaná rozptylem X
1
cov( x, y) cov( x, y) ( y) cov( x, y) ( y) ( y) . . ( x , y ). 2 ( x) 2 ( x) ( y) ( x) ( y) ( x) ( x)
• koeficient β0 - co je očekávaná hodnota Y pokud je X=0? • koeficient β1 - změní-li se X o jednotku, jaká je očekávaná změna Y? - graficky? • žádná kauzalita (pokouší nás to!!!) 11
Vychýlený (biased) odhad • • • • • • • • •
Wooldridge str. 87 př. 1: yield = β0 + β1fertilizer + u př. 2: wage = β0 + β1educ + u vždy se ptáme otázku: jsme „dostatečně“ blízko laboratoři? ideálně: každý faktor X úplně nezávislý na všech ostatních. realita: pravý opak X je exogenní vůči Y (= není endogenní)
•
vychýlený (skreslený, biased) odhad patří mezi chyby specifikace modelu
12
Vychýlený (biased) odhad 1) Vynechání důležité proměnné • vede k vychýlení odhadu koeficientu • ex ante: identifikujeme pomocí teoretického modelu: číst jiný výzkum • ex post: konfrontujeme výsledky s jiným výzkumem • nemůžeme přidat všechno • přinejmenším musíme znát směr vychýlení a diskutovat jej • velikost zkreslení? • Wooldridge: wage – educ – innate ability
13
Vychýlený (biased) odhad • • •
vynechání způsobí neplatnost E(u|x) – E(u) = 0 vychýlení odhadu nahor či dolů (upward or downward bias) nemůžeme-li jej odstranit, alespoň diskutujeme
• • •
x1 neskorelována s x2 → b0 – skreslený, b1 - neskreslený skreslený odhad všech rozptylů prametrů nekorektní testování hypotéz a konfidenčních intervalů
14
Vychýlený (biased) odhad 2) Chybný tvar funkce • pokud vztah v základní populaci není lineární (a my máme lin. funkci), máme vychýlený odhad • opět: ex ante, ex post výzkum • můžeme zvolit více forem, ale ne všechny • uvnitř jednoho modelu často používáme více forem najednou (jaké?) Mocninný tvar
wagei experi ui wagei experi experi 2 ui wage 2 exper exper
15
Vychýlený (biased) odhad
16
Vychýlený (biased) odhad – příklad Returns to education • kolik je průměrný výnos z dodatečného roku studia? • Mincer, Jacob (1974) “Schooling, Experience and Earnings”, NBER • teoretický model: wagei f (edui )
wagei f (edui , experi , genderi , abilityi , firmi , regionj ,i )
•
problémy: ability, forma funkce
ln wagei 0 1edui 2experi 3 femalei ui ln wagei 0 1edui 2experi 3exper 2i 4 femalei ui
17
Vychýlený (biased) odhad – příklad OLS estimates Dependent variable: lwage (1)
const
(2)
0.4808** (0.1050)
0.3905** (0.1022)
educ
0.09129** (0.007123)
0.08414** (0.006957)
exper
0.009414** (0.001449)
0.03891** (0.004824)
-0.3436** (0.03767)
-0.3372** (0.03632)
female
expersq
n Adj. R**2 lnL
-0.0006860** (0.0001074) 526 0.3488 -299.1
526 0.3950 -279.3
Standard errors in parentheses * indicates significance at the 10 percent level ** indicates significance at the 5 percent level 18
Vychýlený (biased) odhad 3) Další problémy způsobující vychýlení • nenáhodný vzorek • selekce agentů • obrácená nebo oboustranná kauzalita (simultaneita) • problém identifikujeme hlavně teoreticky: jiný výzkum • řešení: identifikační strategie přednášky 8-13
19
Vychýlený (biased) odhad •
poptávka po brazilské kávě v USA je funkcí PriceBrazCof (-), PriceTea (+), DispInc (+)
Const PriceBrazCof PriceTea DispInc PriceColomCof R2adj • • • •
•
Model 1 9,1 7,8 (15,6) 2,4 (1,2) 0,0035 (0,0010)
Model 2 9,3
0,60
0,61
2,6 (1,0) 0,0036 (0,0009)
Model 3 10,0 -5,6 (2,0) 2,6 (1,3) 0,0030 (0,0010) 8,0 (4,0) 0,65
Model 1: PriceTea a DispInc jsou SV, znamínka jsou ok; problém u PriceBrazCof předpokládejme, že poptávka po kávě je cenově neelastická → Model 2 porovnejme oba modely – vyřazení PriceBrazCof teoreticky i z pohledu t-testu; zvýšil se R2adj, vychýlení u PriceTea a DispInc je zanedbatelné závěr – poptávka po kávě je cenově neelastická a tato proměnná by měla být vyřazena z modelu – neoprávněný!!! → nebude platit cenově neelastická v porovnání s jinou kávou, např.! → Model 3 Model 3: PriceBrazCof a PriceColomCof – zařazení do modelu teoreticky ok, SV, zvýšil se R2adj, vychýlení u PriceTea a DispInc je zanedbatelné, významné vychýlení u PriceBrazCof (porovnej Model 1 a Model 3) 20
Vychýlený (biased) odhad • • • •
PriceColomCof > 0, corr(PriceBrazCof,PriceColomCof) > 0 → positive bias ponechat proměnnou v modelu i když je statisticky nevýznamná, je to důležité z teoretického hlediska PriceColomCof měla být zařazena do modelu už na začátku a ne zkoušet různé proměnné vyvarovat se mylnému vyřazení nevýznamné proměnné z modelu (viz Model 2)
21