Pooled data
𝑦 = 𝑋𝛽 + 𝜖
Cross-section pozorování Firma, člověk
𝑑𝑆 = 𝛼𝑆𝑑𝑡 + 𝜎𝑆𝑑𝑊
Časový úsek „Základní soubor“ Je Proces
Základní soubor Výběrový soubor
1 konkrétní realizace
Co sledovat firmu(y), osobu(y) v čase? Pro začátek ve dvou rozdílných obdobích Jak cross-section Tak časový charakter
Základní soubor
Základní soubor Výběrový soubor
𝑡=1 1990
Výběrový soubor 𝑡=2 2000
Mluvíme o dvou typech pooled data 1) nezávisle pooled cross sections 2) Panelová data (longitudinal data)
Pooled cross sections Výběr z populace–v každém období (např. rok) se dotážeme x subjektu na…. Období se mění a sním i výběrový soubor (jiné subjekty) Jedná se tak o nezávislé výběry – nejsou korelovány (není autokorelace) Je však přítomný prvek času
Panel data Český statistický úřad a rodinné účty (mikrodata) Pravidelné dotazování rodin na income, health, education, employment, etc. Jedná se tak o průřezová data, sbíraná v čase Výběrový soubor se nemění !!!
Pooling Independent Cross Sections Across Time Proč to děláme? • Zvýšíme počet pozorování (rozptyl, multikolinearita, atd.) • Můžeme zkoumat změny v čase • Můžeme zkoumat „efekt“ času
Rozdílné výběrové soubory
Základní soubor
𝑡=1
Základní soubor
𝑡=2
Základní soubor
𝑡=3
„přirozený experiment“ Je analyzována policy change Pokud provádíme experiment potřebujeme treatment and control groups Následně tak můžeme porovnat (analyzovat) změny, které nastaly mezi skupinami Mějme 2 skupiny (T,C) pro 2 různé časové intervaly t=1,2 Jak zakomponujeme čas do modelu? Pomocí dummy (umělých) proměnných
Plán vybudovat spalovnu vznikl v po roce 1978 Vlastní výstavba nastala v roce 1981 Spuštění v roce 1985 Hypotéza – měla výstavba spalovny vliv na cenu nemovitostí v jejím okolí? Jak určíme co je „okolí“? Uvažujme, že „blízko“ bereme okruh do 15840 stop Využijeme dummy proměnnou 𝑛𝑒𝑎𝑟𝑖𝑛𝑐 = 1 − blízko 𝑛𝑒𝑎𝑟𝑖𝑛𝑐 = 0 − mimo pásmo
Změnila se cena domů po roce 1981? 𝑟𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛿1 𝑦81 + 𝛿2 𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 + 𝜖 𝑟𝑝𝑟𝑖𝑐𝑒 = 101307,5 − 30688,27𝑛𝑒𝑎𝑟𝑖𝑛𝑐 Co jsme odhadli? Jaká byla cena nemovitostí v roce 1981 V okolí/mimo spalovnu
Využijeme dummy proměnnou 𝑛𝑒𝑎𝑟𝑖𝑛𝑐 = 1 − blízko 𝑛𝑒𝑎𝑟𝑖𝑛𝑐 = 0 − mimo pásmo Změnila se cena domů po roce 1981?
𝑟𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛿1 𝑦81 + 𝛿2 𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 + 𝜖 𝑟𝑝𝑟𝑖𝑐𝑒 = 101307,5 − 30688,27𝑛𝑒𝑎𝑟𝑖𝑛𝑐 Co jsme odhadli? Jaká byla cena nemovitostí v roce 1981 V okolí/mimo spalovnu
𝑟𝑝𝑟𝑖𝑐𝑒 = 101307,5 − 30688,27 ∗ 1 𝑟𝑝𝑟𝑖𝑐𝑒 = 101307,5 − 30688,27 ∗ 0 Průměrná cena nemovitosti v okolí spalovny Průměrná cena mimo okolí spalovny
Je zřejmé, že v okolí spalovny je nižší cena nemovitostí Je to však vlivem spalovny? To takto nezjistíme!
Jaká byla cena nemovitostí v okolí dnešní spalovny, před plánovanou výstavbou?
𝑟𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛿1 𝑦78 + 𝛿2 𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦78 + 𝜖
𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 − 18824. 𝑛𝑒𝑎𝑟𝑖𝑛𝑐 Co jsme odhadli? Jaká byla cena nemovitostí v roce 1978 V okolí/mimo „dnešní“ spalovnu 𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 − 18824 ∗ 1 𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 − 18824 ∗ 0
Průměrná cena nemovitosti v okolí DNEŠNÍ spalovny Průměrná cena mimo okolí DNEŠNÍ spalovny
Již před odsouhlasením výstavby, byly v dané lokalitě nižší ceny nemovitostí Zatím jsme tak nezjistili jaký „čistý“ efekt měla výstavba spalovny
1978
1981 𝑟𝑝𝑟𝑖𝑐𝑒 = 101307,5 − 30688,27𝑛𝑒𝑎𝑟𝑖𝑛𝑐
𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 − 18824. 𝑛𝑒𝑎𝑟𝑖𝑛𝑐
Jak se ovlivnila výstavba spalovny cenu nemovitostí v jejím okolí? 𝛿3 = −30688,27 − −18824 = −11863
Vlivem výstavby spalovny se snížila cena nemovitostí v jejím okolí o 11863 $
𝛿3 = −30688,27 − −18824 = −11863 𝛿3 − 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 − 𝑖𝑛 − 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑠 𝑜𝑑ℎ𝑎𝑑
𝛿3 = (𝑟𝑝𝑟𝑖𝑐𝑒81,𝑛𝑟 − 𝑟𝑝𝑟𝑖𝑐𝑒81,𝑓𝑟 ) − (𝑟𝑝𝑟𝑖𝑐𝑒78,𝑛𝑟 − 𝑟𝑝𝑟𝑖𝑐𝑒78,𝑓𝑟 )
𝑓𝑟 − 𝑑á𝑙𝑒 𝑜𝑑 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 𝑛𝑟 − 𝑣 𝑜𝑘𝑜𝑙í 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦
Problém je, že nevíme zda-li je odhad 𝛿3 signifikantní Jak určit?
𝑟𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛿1 𝑦81 + 𝛿2 𝑛𝑒𝑎𝑡𝑖𝑛𝑐 + 𝛿3 𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 + 𝜖
Jaká data jsou obsažena v modelu? Domy pro období 1978 a 1981 Pooled cross-section data
𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 + 18790𝑦81 − 18824𝑛𝑒𝑎𝑡𝑖𝑛𝑐 − 11863𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 𝑦81 = 0 − 𝑟𝑜𝑘 1978 𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 − 18824𝑛𝑒𝑎𝑡𝑖𝑛𝑐 82517 − 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑐𝑒𝑛𝑎 𝑑𝑜𝑚ů 𝑣 𝑟𝑜𝑐𝑒 1978, 𝑘𝑡𝑒𝑟é 𝑛𝑒𝑙𝑒ží 𝑣 𝑜𝑘𝑜𝑙í dnešní 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 82517 − 18824 = 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑐𝑒𝑛𝑎 𝑣 𝑏𝑙í𝑧𝑘𝑜𝑠𝑡𝑖 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 𝑣 1978
𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 + 18790𝑦81 − 18824𝑛𝑒𝑎𝑡𝑖𝑛𝑐 − 11863𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 𝑦81 = 0 − 𝑟𝑜𝑘 1978 𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 − 18824𝑛𝑒𝑎𝑡𝑖𝑛𝑐
82517 − 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑐𝑒𝑛𝑎 𝑑𝑜𝑚ů 𝑣 𝑟𝑜𝑐𝑒 1978, 𝑘𝑡𝑒𝑟é 𝑛𝑒𝑙𝑒ží 𝑣 𝑜𝑘𝑜𝑙í dnešní 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 82517 − 18824 = 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑐𝑒𝑛𝑎 𝑣 𝑏𝑙í𝑧𝑘𝑜𝑠𝑡𝑖 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 𝑣 𝑟𝑜𝑐𝑒 1978 11863 − 𝑚ěří 𝑣𝑙𝑖𝑣 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 𝑛𝑎 𝑐𝑒𝑛𝑢 𝑛𝑒𝑚𝑜𝑣𝑖𝑡𝑜𝑠𝑡í 𝛿3 = −30688,27 − −18824 = −11863
Nyní však můžeme určit signifikantnost 𝛿3
𝐻0: 𝛿3 = 0 𝐻1: 𝛿3 < 0
𝑟𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛿1 𝑦81 + 𝛿2 𝑛𝑒𝑎𝑡𝑖𝑛𝑐 + 𝛿3 𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 + 𝑜𝑡ℎ𝑒𝑟_𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠 + 𝜖
log(𝑟𝑝𝑟𝑖𝑐𝑒) = 𝛽0 + 𝛿1 𝑦81 + 𝛿2 𝑛𝑒𝑎𝑡𝑖𝑛𝑐 + 𝛿3 𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 + 𝜖
Přirozený experiment Je analyzována policy change Pokud provádíme experiment potřebujeme treatment and control groups Následně tak můžeme porovnat (analyzovat) změny, které nastaly mezi skupinami
𝛿3 = −30688,27 − −18824 = −11863 𝛿3 − 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 − 𝑖𝑛 − 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑠 𝑜𝑑ℎ𝑎𝑑 𝛿3 = (𝑟𝑝𝑟𝑖𝑐𝑒81,𝑛𝑟 − 𝑟𝑝𝑟𝑖𝑐𝑒81,𝑓𝑟 ) − (𝑟𝑝𝑟𝑖𝑐𝑒78,𝑛𝑟 − 𝑟𝑝𝑟𝑖𝑐𝑒78,𝑓𝑟 ) 𝛿3 = (𝑇𝐴 − 𝐶𝐴) − (𝑇𝐵 − 𝐶𝐵)
𝛿3 = (𝑻𝑨 − 𝑻𝑩) − (𝑪𝑨 − 𝑪𝑩)
Policy analysis Uvedenou metodologii můžeme použít při zkoumání (experimentu) v určité politice
Je třeba mít kontrolní skupinu (C), které se opatření nedotkne A skupinu, kterou opatření ovlivní (T) Musíme mít „nějaký“ vztah mezi C a T Společný trend Dopad vlivu změny spotřební daně z cigarety na poptávané množství USA vs ČR Stejné reakce na změnu podmínek
Exogenní událost - např. změna zákona, vládní nařízení To se dotkne „cross-section units“ –lidé, firmy, města atd. skupiny T, ale ne skupiny C Událost nebyla reakcí na vývoj T Neexistuje jiná neznámá exogenní změna Dále potřebujeme 2 období PŘED a PO změně
Díky tomu můžeme změřit čistý efekt exogenní změny při daných podmínkách
Jak funguje lék? Jaký dopad má výstavba továrny na zdraví lidí v okolí? Jaký je dopad opatření na Y? (bodový systém v ČR, změna spotřební daně cigaret, alkoholu) Jaký je dopad deregulace na Y? (odstranění povinnosti nosit helmy) Jaký je dopad výstavby dálničního obchvatu na Y? Jak úspěšný byl kurz pro zaměstnance?
Samozřejmě určitý problém je mít T a C skupinu
𝑟𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛿1 𝑦81 + 𝛿2 𝑛𝑒𝑎𝑡𝑖𝑛𝑐 + 𝛿3 𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 + 𝑜𝑡ℎ𝑒𝑟_𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠 + 𝜖 𝑦 = 𝛽0 + 𝛿1 𝑑2 + 𝛿2 𝑑𝑇 + 𝛿3 𝑑𝑇. 𝑑2 + 𝑜𝑡ℎ𝑒𝑟_𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠 + 𝜖
𝑑2 − 𝑜𝑏𝑑𝑜𝑏í 𝑃𝑂 𝑧𝑚ě𝑛ě, 𝑑𝑢𝑚𝑚𝑦 𝑑𝑇 − treatment group − 𝑑𝑢𝑚𝑚𝑦 𝛿3 = (𝑦2,𝑇 −𝑦2,𝐶 ) − (𝑦1,𝑇 − 𝑦1,𝐶 ) 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 − 𝑖𝑛 − 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟
𝑦 = 𝛽0 + 𝛿1 𝑑2 + 𝛿2 𝑑𝑇 + 𝛿3 𝑑𝑇. 𝑑2 + 𝑜𝑡ℎ𝑒𝑟_𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠 + 𝜖 𝑑2 − 𝑜𝑏𝑑𝑜𝑏í 𝑃𝑂 𝑧𝑚ě𝑛ě, 𝑑𝑢𝑚𝑚𝑦 𝑑𝑇 − treatment group − 𝑑𝑢𝑚𝑚𝑦
𝑦 = 𝛽0 + 𝛿1 . 0 + 𝛿2 . 0 + 𝛿3 0.0 + ⋯ 𝑦 = 𝛽0 + 𝛿1 1 + 𝛿2 0 + 𝛿3 0.1 + ⋯
𝑦 = 𝛽0 + 𝛿1 𝑑0 + 𝛿2 1 + 𝛿3 1.0 + ⋯ 𝑦 = 𝛽0 + 𝛿1 1 + 𝛿2 1 + 𝛿3 1.1 + ⋯
Před
Po
Před-Po
Control
𝛽0
𝛽0 + 𝛿1
𝛿1
Treatment
𝛽0 + 𝛿2
𝛽0 + 𝛿1 + 𝛿2 + 𝛿3
𝛿1 + 𝛿3
Treatmen-control
𝛿2
𝛿2 + 𝛿3
𝛿3
Před
Po
Před-Po
Control
𝛽0
𝛽0 + 𝛿1
𝛿1
Treatment
𝛽0 + 𝛿2
𝛽0 + 𝛿1 + 𝛿2 + 𝛿3
𝛿1 + 𝛿3
Treatmen-control
𝛿2
𝛿2 + 𝛿3
𝛿3
𝑟𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛿1 𝑦81 + 𝛿2 𝑛𝑒𝑎𝑡𝑖𝑛𝑐 + 𝛿3 𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 + 𝜖
𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 + 18790𝑦81 − 18824𝑛𝑒𝑎𝑡𝑖𝑛𝑐 − 11863𝑛𝑒𝑎𝑟𝑖𝑛𝑐. 𝑦81 82517 − 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑐𝑒𝑛𝑎 𝑑𝑜𝑚ů 𝑣 𝑟𝑜𝑐𝑒 1978, 𝑘𝑡𝑒𝑟é 𝑛𝑒𝑙𝑒ží 𝑣 𝑜𝑘𝑜𝑙í dnešní 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 82517 − 18824 = 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑐𝑒𝑛𝑎 𝑣 𝑏𝑙í𝑧𝑘𝑜𝑠𝑡𝑖 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦
Jak vzrostla cena nemovitostí? Co cenová hladina? 𝑦81 = 0 − 𝑟𝑜𝑘 1978
𝑟𝑝𝑟𝑖𝑐𝑒 = 82517 − 18824𝑛𝑒𝑎𝑡𝑖𝑛𝑐 82517 − 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑐𝑒𝑛𝑎 𝑑𝑜𝑚ů 𝑣 𝑟𝑜𝑐𝑒 1978, 𝑘𝑡𝑒𝑟é 𝑛𝑒𝑙𝑒ží 𝑣 𝑜𝑘𝑜𝑙í dnešní 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 82517 − 18824 = 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑐𝑒𝑛𝑎 𝑣 𝑏𝑙í𝑧𝑘𝑜𝑠𝑡𝑖 𝑠𝑝𝑎𝑙𝑜𝑣𝑛𝑦 𝑣 𝑟𝑜𝑐𝑒 1978
Soubor obsahuje charakteristiky 7150 náhodně vybraných pozorování (statistickou jednotkou je jedinec) z let 1980 (stát Kentucky, USA, zvýšení týdenní „nemocenské“ ze 131 USD na 217 USD) a 1982 (stát Michigan, USA, zvýšení týdenní „nemocenské“ ze 181 USD na 307 USD). Data jsou
rozdělena na vysokopříjmovou a nízkopříjmovou skupinu. Bylo zjištěno, že vysokopříjmoví jedinci před navýšením „nemocenské“ zkracovali svůj pobyt doma. Zadání:
a) definujte treatment a control group; b) naformulujte ekonometrický model a odhadněte vliv období před a po navýšení „nemocenské“ a skupiny vysokopříjmových a nízkopříjmových na délku pobytu na „nemocenské“ pomocí metody difference-in-difference; c) přidejte do modelu z b) další možné charakteristiky a odhadněte model, testujte multikolinearitu a
heteroskedasticitu (pro α = 0,05).
Jak výše náhrady mzdy determinuje délku domácí léčby? náklady ušlé příležitosti • na co má výše kompenzace vliv? –počet rerpotovaných zranění –délka domácí léčby • X otázkou je ovšem morálka –chuť pracovat • přirozený experiment (náhodný výběr před a po změně)
log 𝑑𝑢𝑟𝑎𝑡 = 𝛽0 + 𝛿1 𝑎𝑓𝑐ℎ𝑛𝑔𝑒 + 𝛿2 ℎ𝑖𝑔ℎ𝑒𝑎𝑟𝑛 + 𝛿3 𝑎𝑓𝑐ℎ𝑛𝑔𝑒. ℎ𝑖𝑔ℎ𝑒𝑎𝑟𝑛 + 𝜖
𝑦 = 𝛽0 + 𝛿1 𝑑2 + 𝛿2 𝑑𝑇 + 𝛿3 𝑑𝑇. 𝑑2 + 𝑜𝑡ℎ𝑒𝑟_𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠 + 𝜖
𝑑2 − 𝑜𝑏𝑑𝑜𝑏í 𝑃𝑂 𝑧𝑚ě𝑛ě, 𝑑𝑢𝑚𝑚𝑦 𝑑𝑇 − treatment group − 𝑑𝑢𝑚𝑚𝑦