5EN306 Aplikované kvantitativní metody I Přednáška 4
Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) •
témata se prolínají
2
Kde jsme? wage f (educ, exper, tenure, age, female, married , reg1, reg2, soc,...)
wagei 0educi 1experi 2tenurei 3agei 4 femalei 5marriedi ui
3
Teorie
• • •
cena substitutu → Q důchod → Q cena auta → pravděpodobnost luxusní SPZ
• • •
cena komplementu → Q důchod → Q výše trestu → Q zločinů
• •
počet policistů → zabráněné zločiny advertising → extra spotřebitelé
4
Teorie • • • • •
když něco očekáváme, musíme mít důvod (ne: „bylo to tak minule“, ale HLAVNĚ logický důkaz) základní je substituční efekt (klesající poptávka) + kontext hezké, hladké a spojité je jasné, že X → Y (ale častokrát již teorie predikuje i Y → X) ceteris paribus
• • • •
ošklivé, kostrbaté a nespojité nelineární ne ceteris paribus Y → X; X → Y; Y ↔ X a existuje Z
5
Data – základní pojmy + doporučení • • • • • • • •
pozorování (= řádek; observation) atributy jednotlivých pozorování (obsah konkrétního řádku; characteristics) charakteristika, proměnná, faktor (= sloupec; variable) minimálně 1 identifikátor!!! missing data – prázdne políčko nebo tečka „.“ bez odpovědi – 99, 999, příp. negativní hodnoty → vychýlení!!! nikdy nepracovat s originální proměnnou!!! vhodný název proměnné – hrubyDomaciProdukt, HDP,…
6
Typy proměnných kvantitativní • diskrétní – pouze celočíselné obměny (počet dětí, pohlaví) • spojité – libovolné hodnoty z určitého intervalu (příjem, cena, věk) kvalitativní • ordinální (pořadová) – kategorie v určitém logickém pořadí (vzdělání, úroveň spokojenosti) • nominální – text, číselné kódy, ne ordinální info k porovnání jednotek dle nominálního znaku (rodinný stav, region, pohlaví) kategoriální (obměny jsou kategorie) - nominální, ordinální a kvantitativní diskrétní • dichotomické (alternativní) – binární • vícekategoriální (množné)
7
Typy dat Dle úrovně: • agregovaná - individuální • velmi důležité: absolutní vs. relativní ukazatele (indexy) + jak kombinovat Dle struktury: • průřezová • časové řady • pooled cross-sections • panelová
8
Průřezová data • • • • • •
definice – jednotné časové vymezení co je „pozorování“? náhodný výběr? (domácnosti, firmy) neexperimentální charakter dat (mzda vs. vzdělání) velikost a nezávislost jednotek (státy, města) výhody a nevýhody
9
Časové řady • • • • • • •
definice – řada hodnot jistého věcně a prostorově vymezeného ukazatele, která je uspořádána v čase; realizace stochastického procesu (každá hodnota časové řady je náhodná veličina) Intervalová a okamžiková; dlouhodobé, krátkodobé, vysokofrekvenční do je „pozorování“? problém (ne)závislosti v čase frekvence měření výhody a nevýhody pozor: autokorelace, sezónnost, trendovost, zdánlivé vztahy,…
10
Pooled cross-sections • • •
definice – náhodný výběr průřezových dat v různém čase nezávislé, různý rozsah rok se stává „proměnnou“
11
Panelová data • • • • • •
definice nejlepší a nejdražší co je „pozorování“? indexy vyvážený vs. nevyvážený panel můžeme přesněji analyzovat kauzalitu
12
Jak data „uchopit“? (ojetá auta)
13
Jak data „uchopit“? (ojetá auta)
14
Kontrola 1 – popisné charakteristiky aritmetický průměr (aritmetic average, mean) N
• • •
Xi i 1
N
SCORE 4 5 6
4 5 6 8 12 35 7 5 5
8 12
nejjednodušší jenom míra polohy citlivý na extrémní pozorování
15
Kontrola 1 – popisné charakteristiky rozptyl (variance) N
2
2 X i i 1
N
4, 5, 6, 8, 12 mean = 7
(4 7)2 (5 7)2 (6 7)2 (8 7)2 (12 7)2 5 9 4 1 1 25 8 5 2
standardní odchylka
8 2,83 16
Summary (descriptive) statistics • popisné charakteristiky (průměry, mediány, max, min, rozptyly, počty pozorování, ad.) • missing values
17
Kontrola 2 – četnosti • • •
četnosti (histogram) odlehlá pozorování chyby, kódy
18
Kontrola 3 – vztahy • •
korelační analýza grafy
19
Úpravy dat – transformace, funkční tvar v LRM logaritmování • co to znamená? • proč to děláme? • škála – pozor na nuly a záporná čísla
•
pozor na interpretaci β:
20
Úpravy dat – transformace, funkční tvar v LRM •
obecně nás zajímá, jaký efekt závislé proměnné vyvolá marginální změna j-té vysvětlující proměnné level-level 𝐹𝑜𝑜𝑑𝐸𝑥𝑝𝑖 = 94,201 + 0,437𝑇𝑜𝑡𝑎𝑙𝐸𝑥𝑝𝑖 • zvýšení celkových výdajů o 1 rupii vyvolá v průměru zvýšení výdajů na jídlo o 0,437 rupie level-log 𝐹𝑜𝑜𝑑𝐸𝑥𝑝𝑖 = −1283,910 + 257,270 ln 𝑇𝑜𝑡𝑎𝑙𝐸𝑥𝑝𝑖 • zvýšení celkových výdajů o 1 % vyvolá v průměru zvýšení výdajů na jídlo o 2,573 rupie (dělím 100) log-level ln 𝑒𝑥𝑝𝑠𝑒𝑟𝑣𝑖𝑐𝑒𝑠𝑡 = 7,789 + 0,007𝑡𝑖𝑚𝑒 • výdaje na služby rostli čtvrtletně o 0,7 % (násobím 100) log-log ln 𝑒𝑥𝑝𝑑𝑢𝑟𝑡 = −9,697 + 1,906 ln 𝑝𝑐𝑒𝑥𝑝𝑡 • elasticita • zvýšení celkových výdajů o 1 % vyvolá v průměru zvýšení výdajů na předměty dlouhodobé spotřeby o 1,91 %
21
Úpravy dat – transformace, funkční tvar v LRM mocniny
𝑤𝑎𝑔𝑒𝑖 = −3,73 + 0,298𝑒𝑥𝑝𝑒𝑟𝑖 − 0,0061𝑒𝑥𝑝𝑒𝑟𝑖2
∆𝑦 = 𝛽1 + 2𝛽2 𝑒𝑥𝑝𝑒𝑟
mocniny a logaritmy ln 𝑦𝑖 = 𝛽0 + 𝛽1 ln𝑥𝑖 + 𝛽2 (ln 𝑥𝑖 )2 +𝑢𝑖 ∆𝑦 = 𝛽1 + 2𝛽2 ln 𝑥
22
Úpravy dat – transformace, funkční tvar v LRM Tvorba nových proměnných • DUMMY – 0-1 (rozlišovací, sezónnost / trend) – interakce (dummies,…- diff-in-diff. apod.) – příklad – článek Asensio – Dráhy, dummy – měsíce, Sevilla Expo, Barcelona Olympics • PROXY proměnné – náhrada neměřitelné / obtížně měřitelné proměnné – kvalita života → per-capita HDP – schopnosti → IQ test, počet let vzdělání – pozor na odlišení od instrumentálních proměnných – příklad – článek Asensio – Dráhy, str. 4 – reálna cena benzínu jako proxy proměnná k nákladům alternativních způsobů dopravy • transformace (logaritmy, mocniny, indexy, součty, rozdíly, součiny, poměry,…) • missingy – příčiny – nahrazení průměrem, modusem, … – pokročilé metody Úprava dat • sezónní očištění, modelování trendu, odlehlá pozorování, … 23
Data – zdroje dat a prezentace Zdroje dat • czso.cz, cnb.cz, Eurostat, OECD, ECB, WB • banky, národní a mezinárodní instituce, firmy • centrální banky, statistické úřady jiných zemí • většinou kombinace více zdrojů • dotazníky; Experimenty, Databáze (daně, důchodový systém, firma) • Google • •
vždy uvést zdroj; spolehlivost, rok měření a vydání… !!!Pozor na reprezentativnost dat!!!
Prezentace dat • zdroj, typ, roky, problémy • deskriptivní statistiky (průměry, směr. odchylky, extrémy) • všechny úpravy a jejich důvody • intepretace • citlivost, robustnost
24