5EN306 Aplikované kvantitativní metody I Přednáška 3
Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) •
témata se prolínají
2
Data – základní pojmy + doporučení • • • • •
empirický projekt vyžaduje data (kap. 1) pozorování - řádek atributy jednotlivých pozorování - obsah konkrétního řádku - hodnota charakteristika, proměnná, faktor - sloupec minimálně 1 identifikátor pro každé pozorování!!!
3
Data – základní pojmy + doporučení + chybějící hodnoty • •
nikdy nepracovat s originální proměnnou!!! vhodný název proměnné - hrubyDomaciProdukt, HDP,…
Chybějící hodnoty (missing values) • první krok analýzy - identifikace chybějících hodnot: – systémové - záznam v datech nebyl u dané proměnné vůbec proveden, nebo se proměnná daného případu (respondenta) netýká (např. rok rozvodu u svobodných/ženatých). – uživatelsky definované - máme-li např. z dotazníku k dispozici podrobnější informaci (například „Netýká se“, „Odmítl odpovědět“, „Neví“) • pokud je relativní počet chybějících hodnot menší než cca 5 %, pak je lze většinou ignorovat (v „dostatečně velkém“ výběrovém souboru) • přesáhne-li počet chybějících hodnot tuto hranici, pak je nutná analýza závislosti chybějících hodnot na jiných znacích (→ příčin), tj. měli bychom se ptát: „kdo neodpovídá na naše otázky?“ • při > 5% výskyt chybějících hodnot totiž nemusí být už jen náhodný (tj. náhodně distribuovaný v populaci), což je třeba ověřit, případně zvážit imputaci chybějících hodnot.
4
Data – základní pojmy + doporučení + chybějící hodnoty Postup: • zjištění zda jsou v datech chybějící hodnoty označeny a jak (min, max, frequencies), • pokud ne, pak: označení (nastavení) chybějících hodnot (případně překódování či jiné transformace dat) • věcná analýza chybějících hodnot: – zhodnocení zda je lze ignorovat, pokud ne: – analýza jejich závislosti na jiných proměnných • imputace chybějících hodnot (odhad hodnot, tam kde chybí): – průměr a doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy proměnná) a testovat její statistickou významnost – imputaci hodnot za použití sofistikovaných metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných. Chybějící hodnoty v datech mohou být: • missing completely at random (MCAR) - ideální situace, výsledky nejsou zkreslené (biased) • missing at random (MAR) - chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny • not missing at random (NMAR) - chybějící hodnoty jsou něčím (nenáhodně) podmíněny a nastává problém - zkreslení výsledků 5
Typy dat Dle úrovně: • agregovaná vs. individuální • velmi důležité: absolutní vs. relativní ukazatele (indexy) + jak kombinovat Dle struktury: • průřezová (cross-sectional data) • časové řady (time series data) • pooled cross sections • panelová (panel/longitudinal)
6
Průřezová data • • • •
definice – náhodný výběr jednotlivců a jejich charakteristik (domácností, firem, měst, států,…) v určitém časovém okamžiku neexperimentální charakter dat (mzda vs. vzdělání) velikost a nezávislost jednotek (státy, města) výhody a nevýhody
7
Časové řady • • • • • •
definice - řada hodnot jistého věcně a prostorově vymezeného ukazatele, která je uspořádána v čase; realizace stochastického procesu (každá hodnota časové řady je náhodná veličina) intervalová a okamžiková; dlouhodobé, krátkodobé, vysokofrekvenční problém (ne)závislosti v čase frekvence měření výhody a nevýhody pozor: autokorelace, sezónnost, trendovost, zdánlivé vztahy,…
8
Pooled cross sections • • • •
definice - náhodný výběr průřezových dat v různém čase nezávislé, různý rozsah rok se stává „proměnnou“ analýza změny politiky (např. změna daně z nemovitostí)
před změnou po změně
9
Panelová data • • • • •
definice - stejný výběr průřezových dat v různém čase nejlepší a nejdražší indexy vyvážený vs. nevyvážený panel můžeme přesněji analyzovat kauzalitu
Každé město má pozorování pro rok 1986 a 1990
10
Transformace dat •
operace, kdy z existujících proměnných vznikají nové nebo se tyto proměnné systematicky podle zadaného předpisu mění
Rekódování hodnot • slučování hodnot • kategorizování číselných–kardinálních proměnných (vytváření intervalů) • změna pořadí kategorií (např. otočení škály) • vyloučení některých kategorií z analýz Vytváření nových proměnných • sešikmená data - logaritmování / druhá mocnina / reciproční (1/x) / druhá, třetí odmocnina (pravostranně sešikmená data) – pozor na nulové a negativní hodnoty • standardizace dat – na interval hodnot <0,1> bez interpretace (porovnávaní proměnných v různých jednotkách), nejčastěji standardní skóre: (x-průměr x)/std x • snadná interpretace – transformace na procenta • interakce proměnných – pohlaví x region •
součty, rozdíly, součiny, poměry 11
Transformace dat •
•
•
dummy proměnné - 0-1 (rozlišovací, sezónnost / trend). – interakce – příklad - článek Asensio - Dráhy, dummy proměnné - měsíce, Sevilla Expo, Barcelona Olympics proxy proměnné - náhrada neměřitelné / obtížně měřitelné proměnné – kvalita života → per-capita HDP – schopnosti → IQ test, počet let vzdělání – pozor na odlišení od instrumentálních proměnných – příklad –článek Asensio - Dráhy, str. 4 – reálna cena benzínu jako proxy proměnná k nákladům alternativních způsobů dopravy je nezbytné zmínit se o všech manipulacích (překódování apod.) s daty
12
Jak data „uchopit“
13
Jak data „uchopit“
14
Odlehlá a vlivná pozorování • • •
výskyt extrémních hodnot v datech je třeba zkontrolovat, jestli nemáme evidentní chybu v datech, pokud ano, raději pozorování opravíme / odstraníme když ne – ponechat, ale odhadnout model bez outlierů a s outliery a porovnat výsledky – transformovat proměnnou (logaritmus,…) – nahradit nejbližší nižší / vyšší hodnotou – použít jinou odhadovou techniku (LAD - Least Absolute Deviations - minimalizuje sumu absolutních odchylek • robustnější vůči odlehlým pozorováním • na rozdíl od OLS estimátoru, který odhaduje parametry podmíněného průměru, odhaduje LAD estimátor parametry podmíněného mediánu • LAD estimátor je speciálním případem kvantilové regrese, při které se odhadují parametry podmíněných kvantilů
15
Kontrola dat - popisné charakteristiky • • •
nominální znaky - modus ordinální znaky - medián (aritmetický průměr) intervalové znaky - aritmetický průměr
16
Kontrola dat - četnosti •
histogram
17
Kontrola dat - vztahy korelační analýza grafy – bodový x-y graf (scatter plot)
Sledování TV a věk 4,5 4
Sledování TV (počet hodin)
• •
3,5 3 2,5 2 1,5 1 0,5 0 20
30
40
50
60
70
Věk
18
Zdroje dat a prezentace • •
vždy uvést zdroj; spolehlivost, rok měření a vydání… pozor na reprezentativnost da
Prezentace dat • zdroj, typ, roky, problémy • deskriptivní statistiky (průměry, směr. odchylky, extrémy) • všechny úpravy a jejich důvody • intepretace • citlivost, robustnost
19