5EN306 Aplikované kvantitativní metody I Přednáška 12
Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti a citlivosti 10. Úvod do časových řad (zbyde-li čas) •
témata se prolínají
2
Testy hypotéz v KLRM – alternativní t-testy Oboustranný (two-sided / two-tail t-test) H0: β1 = 0 H0: β1 = 0,3 H1: β1 ≠ 0 H1: β1 ≠ 0,3 0,5091 − 0 𝑡 = = 14,24 0,0357
𝑡 =
0,5091 − 0,3 = 5,86 0,0357
H0: β1 = − 0,3 H1: β1 ≠ − 0,3 𝑡 =
0,5091 − (−0,3) = 22,66 0,0357
t* = 2,306 (α = 0,05, d.f. = 8), v tabulkách two-tailed
3
Testy hypotéz v KLRM – alternativní t-testy Jednostranný (one-sided / one-tail t-test) pravostranný (right-tail) H0: β1 ≤ 0,3 0,5091 − 0,3 𝑡 = = 5,86 H1: β1 > 0,3 0,0357 t* = 1,860 (α = 0,05, d.f. = 8), v tabulkách one-tailed t > t* → zamítám H0
levostranný (left-tail) H0: β1 ≥ 0,3 0,5091 − 0,3 𝑡= = 5,86 H1: β1 < 0,3 0,0357 − t * = − 1,860 (α = 0,05, d.f. = 8), v tabulkách one-tailed t > − t * → nezamítám H0
4
Testy hypotéz v KLRM – alternativní t-testy Jednostranný (one-sided / one-tail t-test) pravostranný (right-tail) H0: β1 ≤ − 0,3 0,5091 − (−0,3) 𝑡 = = 22,66 H1: β1 > − 0,3 0,0357 t* = 1,860 (α = 0,05, d.f. = 8), v tabulkách one-tailed t > t* → zamítám H0
levostranný (left-tail) H0: β1 ≥ − 0,3 0,5091 − (−0,3) 𝑡 = = 22,66 H1: β1 < − 0,3 0,0357 − t * = − 1,860 (α = 0,05, d.f. = 8), v tabulkách one-tailed t > − t * → nezamítám H0
5
Testy hypotéz v KLRM – alternativní t-testy
6
Testy hypotéz v KLRM – dílčí F-test • pro libovolnou podmnožinu regresorů • zpravidla pro skupinu souvisejících proměnných (např. dummies) • k včetně úrovňové konstanty
• neomezený (unrestricted) model
• omezený (restricted) model 7
Kontrola modelu Nejčastější chyby a problémy: • • • • • • • •
outliers, distribuce a charakter dat, jednotky měření výběr proměnných, jejich definice, způsob měření a vztahy funkční forma modelu endogenita (= korelace e a y): omitted variable, selekce, simultaneita… proč nezahrnout X? strukturní změny ve vzorku (časové řady, panel) konzistence v datech (zejména dotazníky) => všechny kroky poctivě (a kontrolovat)
8
Kontrola modelu • • • • • •
multikolinearita = není porušením GM (to je pouze perfektní kolinearita), ale kontrolovat perfektní kolinearita – téměř vždy chyba specifikace modelu hetero = je porušením, důvod: špatná forma funkce, opomenutí X, outliers auto = u časových dat zdánlivé vztahy (nestacionarita,…) ne vyjmenovat!!! ale aplikovat a diskutovat v kontextu práce
9
Testy robustnosti (1) Další podmínka: výsledek vydrží (smysluplné!!) externí šoky; hledáme slabá místa, testujeme stabilitu modelu: •
jiná funkční forma − nelineární; logaritmizace proměnných, mocniny, interakce
•
jiná specifikace − zejména v případě očekávaných problémů
•
jiná definice proměnných − z absolutních na míru; normuji jinou proměnnou; měřím věc jinak − jiná definice (ability - IQ, KWW)
10
Testy robustnosti (2) • • • • • • • • •
odlehlá pozorování různé odhadové techniky (IV, FD x FE x RE, pro autokorelaci,…) robustní st. chyby přidání, ubrání proměnných změna vzorku (nový vzorek, změna rozsahu) citlivost parametrů na změny variantní analýza kontrolní proměnné jiná definice kontrolní skupiny (D in D), (př. spalovna – jiná definice vzdálenosti (treat x control)), (př. Bronzini, De Blasio)
11
Testy robustnosti (3) • • • •
strukturní změny v rámci vzorku (Chow,…) změna definice vysvětlované proměnné, změna vysvětlující proměnné rozdělení vzorku dle některé charakteristiky změna funkční formy modelu
• Reportovat všechno; i nula je výsledek, i nesignifikantní vliv je výsledek • ZAPSAT: cílem není NĚCO naměřit − hledáme TRUE POPULATION MODEL − radši nic než špatně
12
Odlehlá pozorování • • • •
transformace dat - logaritmická transformace,… odstranění odlehlých pozorování, jak? nahrazení průměry, apod. př. t-testy (s menším n se zlepšují?!?) – asymetrie zvyšuje rozptyl
13
Změna funkční formy
14
Robustní standardní chyby
15
Rozdělení vzorku • •
vliv kouření matek během těhotenství na porodní váhu dítěte celý dataset
•
birwt <= 2500 g
•
birwt >= 4000 g
16
Kontrolní proměnné •
Kontrolní proměnné pro redukci omitted variable bias
17
Jiná odhadová technika • •
př. Asensio (2006) – IV pro kvalitu př. kvantilová regrese (lze i pro odlehlá pozorování)
18
Různé odhadové techniky
19
Různé odh. techniky – pooled cross-section – RE - FE •
The drop in the marriage premium is consistent with the idea that men who are more able - as captured by a higher unobserved effect, ai are more likely to be married. Therefore, in the pooled OLS stimation, a large part of the marriage premium reflects the fact that men who are married would earn more even if they were not married.
•
•
The remaining 4.7% has at least two possible explanations: – (1) marriage really makes men more productive or – (2) employers pay married men a premium because marriage is a signal of stability. We cannot distinguish between these two hypotheses.
•
Wooldridge, str 451.
20
Jiná kontrolní skupina • • •
INCINERATOR (Kiel, McClain (1995)) nearinc = 1, pokud dist <= 15840 stop zkusme nearinc2 = 1, pokud dist <= 15000
21
Změna distribuce • •
• •
Meyer (2008) Workers' Compensation and Injury Duration: Evidence from a Natural Experiment Změna distribuce zranění (změna délky a závažnosti zranění) “We emphasize the mean of the logarithm of duration because this statistic is likely to be more precisely measured and less susceptible to the influence of a few large observations. This issue of robustness is important here since the distribution of claim lengths has a few large values, but most values are small.”
22
Změna distribuce
23
Změna distribuce •
The mean of costs in Kentucky shows a relative decrease in severity for the high-earnings group. We should emphasize, though, that none of the difference-in-differencee stimates is significantly different from zero.
•
The comparability of the claims from the year before the increases to those the year after the benefit increases is generally supported by the numbers on total medical costs associated with the claims. These numbers, reported in the second panel of Table 4, show that the high- and low-earnings groups experience similar increases in median costs, probably due to a general rise in medical costs.
24
Změna struktury ve vzorku Chowův test (tzv. Chowův 1. test) • liší se regresní parametry modelu pro různé podmnožiny pozorování (podvzorky)?
H0 : struktura je stejná H1 : struktura se v čase mění • • •
•
T … celkový počet pozorování T = T1 + T2 podmínka: T1 > k a T2 > k (test je možné použít i pro více podvýběrů)
SSR (SSR1 SSR2 ) / k (SSR1 SSR2 ) / (T 2k )
F (k , T 2k )
zamítnutí nulové hypotézy znamená, že model není vhodný pro predikce
25
Použití: Bronzini – Investice •
• • •
Bronzini, R., Blasio, G. (2006): Evaluating the Impact of Investment Incentives: The Case of Italy´s Law 488/1992. Bank of Italy k dispozici na stránkách http://nb.vse.cz/~figlova/vyuka_5en306.htm výzkumní otázka: Jaké jsou rozdíly ve výši investic u podpořených a nepodpořených firem? motivace: Zjistit účinnost vládní politiky – zapříčiňuje zvýšení investic nebo pouze „platí“ za projekty, které by byly realizovány stejně…
Kontext: • Italská vláda od r. 1996 poskytuje investiční pobídky do vybraných regionů na základě aukce • v každém regionu jsou nabídky investorů seřazeny dle předem známých kritérií (podíl vlastních zdrojů, počet vytvořených prac. míst, environmentální a regionální charakteristiky…) Možné problémy: • jiné granty? • plnění investice v čase • zánik či špatná situace firem, které grant nedostaly
26
Použití: Bronzini – Investice DATA: • z každého kola aukce získali vzorek cca 1000 firem; • typ: panelová data o investicích jednotlivých firem; mají časovou řadu, vyvářejí vyvážený panel JAK NA TO? • co by bylo nejlepší pro měření?? • co srovnat firmy s grantem s ostatníma firmami v ekonomice?
MODEL:
yit – It/Kt-1 Zit – sales, ROA, own capital/debt…
27
Použití: Bronzini – Investice •
jednoduché rozdíly průměrů/mediánů
•
výsledek regresní rovnice (diffs in diffs) – koeficienty γt
28
Použití: Bronzini – Investice Co když program akceleroval prodeje/odpisy starého majetku a tudíž nadhodnotil I/K? (positive bias) • kontrolujeme náhradou vysvětlované proměnné za I/sales; I/assets; …výsledky: stejné! Co když program zachránil některé firmy a jiné díky jeho „nedostání“ nepřežily? (survivorship bias - negative) • využijeme nevyvážený panel: všechny firmy, které mají alespoň 1 PRE a jedno POST pozorování • výsledky: o málo vyšší, ale nevýznamné • co to znamená? jak na to jinak? Jiný faktor než INCENTIVES • kontrolujeme dalšími proměnnými • výsledky: velmi podobné!
29
Použití: Bronzini – Investice Vliv regionu nebo velikosti firmy - rozdělíme vzorek podle R (např. vybereme nejbohatší, pak nejchudší) - rozdělíme vzorek podle velikosti firem (pak např. vybereme 10% největších apod.) - výsledky: efekty pro menší firmy jsou silnější, ale γt přibližně stejné – tj. až na výjimky nevýznamné a POST významně negativní! Špatný výběr kontrolní skupiny?
30