4EK211 Základy ekonometrie ZS 2014/15 Cvičení 6: Dummy proměnné, úvod do časových řad
LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE
1. Multikolinearita - příklad k procvičení Otevřete si soubor rice.wf1
Zdroj: ECON2300, University of Queensland, 2012. Proměnné:
Prod: množství sklizené rýže (tuny) Area: osevná plocha (hektary) Labour: počet odpracovaných dní na poli
Fert: množství hnojiva (kg)
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
2
1. Multikolinearita - příklad k procvičení Odhadněte sami model:
ln 𝑝𝑟𝑜𝑑 = 𝛽0 + 𝛽1 ln 𝑎𝑟𝑒𝑎 + 𝛽2 ln 𝑙𝑎𝑏𝑜𝑢𝑟 + 𝛽3 ln(𝑓𝑒𝑟𝑡)
1. Interpretujte parametry (nezapomeňte, že proměnné jsou zlogaritmované) 2. Ověřte přítomnost multikolinearity pomocí párových korelačních koeficientů a pomocných regresí.
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
3
2. Umělé proměnné Otevřete si data z minula. Upravte proměnnou price (vydělte 1000).
Data: pizza.wf1 Zdroj: ECON2300, University of Queensland, 2012, upraveno
Co budeme zkoumat: kolik utrácí lidi za pizzu v závislosti na různých faktorech
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
4
2. Umělé proměnné Proměnné: - pizza: - zena: - muz: - prijem - vek - hranolky - hamburgery - salaty
roční útrata za pizzu v dolarech = 1 pro ženy, jinak 0 (umělá proměnná, dummy variable) = 1 pro muže, jinak 0 (umělá proměnná, dummy variable) roční příjem v dolarech věk (v letech) roční útrata za hranolky v dolarech roční útrata za hamburgery v dolarech roční útrata za saláty v dolarech
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
5
2. Umělé proměnné Minule jsme začali mluvit o umělých proměnných.
Zkuste nyní odhadnout následující dva modely: 1 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 𝑧𝑒𝑛𝑎 + 𝑢 2 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 (𝑝𝑟𝑖𝑗𝑒𝑚 ∙ 𝑧𝑒𝑛𝑎) + 𝑢 Interpretujte koeficienty a nakreslete v obou případech regresní přímku pro muže a pro ženy.
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
6
2. Umělé proměnné 1 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 𝑧𝑒𝑛𝑎 + 𝑢 𝑝𝑖𝑧𝑧𝑎 = 226 + 1,41 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 − 182 ∙ 𝑧𝑒𝑛𝑎
Střední hodnota vysvětlované proměnné: Muž: E(𝑝𝑖𝑧𝑧𝑎) = 226 + 1,41 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 Žena: E 𝑝𝑖𝑧𝑧𝑎 = 44 + 1,41 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
7
2. Umělé proměnné 2 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 (𝑝𝑟𝑖𝑗𝑒𝑚 ∙ 𝑧𝑒𝑛𝑎) + 𝑢 𝑝𝑖𝑧𝑧𝑎 = 106 + 3,57 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 − 3 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 ∙ 𝑧𝑒𝑛𝑎
Střední hodnota vysvětlované proměnné: Muž: E(𝑝𝑖𝑧𝑧𝑎) = 106 + 3,57 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 Žena: E 𝑝𝑖𝑧𝑧𝑎 = 106 + 0,57 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
8
2. Umělé proměnné 1. Kdybyste chtěli zkoumat útratu za pizzu v závislosti na tom, zda má člověk základní, střední či vyšší vzdělání, jaká data byste museli nasbírat a jak byste takový model specifikovali? 2. Napadá vás, jak by se mohly použít umělé proměnné při analýze časových řad?
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
9
3. Kvadratická regrese Otevřete si soubor test.wf1 Proměnné: Body: počet bodů ze závěrečné písemky (0 až 100 bodů)
Čas: počet hodin věnovaný přípravě Přítomnost: počet přednášek, na kterých byl student přítomen (0 až 13)
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
10
3. Kvadratická regrese 1. Odhadněte regresi: 𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝑢
2. Pomocí párového korelačního koeficientu zhodnoťte, zda jsou zde potíže s multikolinearitou. 3. Nakreslete graf závislosti počtu bodů na čase.
Myslíte, že je funkční vztah mezi nimi lineární? Zakomponujte případnou nelinearitu do modelu.
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
11
3. Kvadratická regrese Graph cas body Scatter 110 100
Odhadneme tedy regresi:
90 80
BODY
Graf naznačuje, že od určitého okamžiku jsou dodatečné hodiny studia spíš na škodu a student nejspíš v důsledku únavy získá spíše méně bodů v testu, než kdyby se šel místo učení vypsat. (jde o čistě hypotetický příklad)
70 60 50
𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝛽3
cas2
+u
Jaké znaménko byste čekali u 𝛽3 ?
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
40 30 0
4
8
12
16
20
24
28
32
CAS
12
3. Kvadratická regrese 𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝛽3 cas2 + u
𝑏𝑜𝑑𝑦 = 33,6 + 1,06 ∙ 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 3 ∙ 𝑐𝑎𝑠 − 0,07 ∙cas2 Otestuje nulovou hypotézu, že čas přípravy nemá vliv na počet bodů v testu.
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
13
3. Kvadratická regrese 𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝛽3 cas2 + u
𝑏𝑜𝑑𝑦 = 33,6 + 1,06 ∙ 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 3 ∙ 𝑐𝑎𝑠 − 0,07 ∙cas2 Otestuje nulovou hypotézu, že čas přípravy nemá vliv na počet bodů v testu.
Sdružená nulová hypotéza: 𝛽2 = 𝛽3 = 0 děláme F-test F=
(𝑅𝑆𝑆0 −𝑅𝑆𝑆𝑁 )/𝑞 𝑅𝑆𝑆𝑁 /(𝑛−𝑘−1)
=
(7940−4584)/2 4584/(50−3−1)
= 16,8 porovnáme s F*(2,46)
V EViews stačí: View Coefficient Tests Wald Coefficient Restrictions C(3) = C(4) = 0
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
14
3. Kvadratická regrese
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
15
3. Kvadratická regrese 𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝛽3 cas2 + u
𝑏𝑜𝑑𝑦 = 33,6 + 1,06 ∙ 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 3 ∙ 𝑐𝑎𝑠 − 0,07 ∙cas2 Jaký je podle modelu ideální počet hodin, které by student měl strávit přípravou?
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
16
4. Časové řady Data: HDP.wf1
Zdroj: Zouhar, J.: http://nb.vse.cz/~zouharj/zek.html Proměnné: hdp: HDP ČR v letech 1993 až 2007 v mld CZK
Budeme zkoumat vývoj HDP a předpovídat jeho hodnoty.
CVIČENÍ 7 ČASOVÉ ŘADY, AUTOKORELACE
4. Časové řady - lineární trend 1. Odhadněte model:
ℎ𝑑𝑝𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝑢𝑡
Použijte všechna data (1995 - 2007). 2. Předpovězte hodnotu HDP pro rok 2008 ručně i v EViews. Jde o ex-post nebo ex-ante predikci?
CVIČENÍ 7 ČASOVÉ ŘADY, AUTOKORELACE
4. Časové řady - ex-ante předpověď 1. Odhadněte model:
ℎ𝑑𝑝𝑡 = 1459 + 156,3 ∙ 𝑡
V EViews: Quick Estimate Equation hdp c @trend ◦ Pozn. @trend je funkce, která generuje řadu 0, 1, 2… (začíná od nuly)
2. Předpovězte hodnotu HDP pro rok 2008 ručně i v EViews. Jde o ex-post nebo ex-ante predikci? Jde o ex-ante predikci. Bodová předpověď: ℎ𝑑𝑝2008 = 1459 + 156,3 ∙ 13 = 3491 V EViews: Proc Structure/Resize current page 1995 2008 Forecast zadat Forecast sample, Forecast name, S.E.,
CVIČENÍ 7 ČASOVÉ ŘADY, AUTOKORELACE
4. Časové řady - ex-post předpověď 1. Odhadněte model:
ℎ𝑑𝑝𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝑢𝑡
Použijte pouze data 1995 až 2003. 2. Předpovězte hodnotu HDP pro roky 2004 až 2007 v EViews. Jde o ex-post nebo ex-ante predikci?
CVIČENÍ 7 ČASOVÉ ŘADY, AUTOKORELACE
4. Časové řady 1. Odhadněte model:
ℎ𝑑𝑝𝑡 = 1532 + 134,3 ∙ 𝑡
V EViews: Quick Estimate Equation hdp c @trend Sample 1995 až 2003 2. Předpovězte hodnotu HDP pro roky 2004 až 2007 v EViews. Jde o ex-post nebo ex-ante predikci? Jde o ex-post predikci. Často se tak testuje kvalita modelu. Ve výstupu EViews jsou hodnoty RMSE, Mean Absolute Error, Mean Abs. Percent Error. Poslední zmiňovaná by měla být nejvýše kolem 5 %.
CVIČENÍ 7 ČASOVÉ ŘADY, AUTOKORELACE
4. Časové řady - exponenciální trend 1. Odhadněte model:
ln(ℎ𝑑𝑝𝑡 ) = 𝛽0 + 𝛽1 𝑡 + 𝑢𝑡
2. Jak se liší interpretace parametru 𝛽1 od předchozího případu?
CVIČENÍ 7 ČASOVÉ ŘADY, AUTOKORELACE
4. Časové řady - exponenciální trend 1. Odhadněte model: ln(ℎ𝑑𝑝𝑡 ) = 7,35 + 0,07𝑡 + 𝑢𝑡 2. Je-li vysvětlovaná proměnná zlogaritmovaná, zjistíme, o kolik procent se přibližně v průměru změní vysvětlovaná proměnná s jednotkovou změnou vysvětlující proměnné.
CVIČENÍ 7 ČASOVÉ ŘADY, AUTOKORELACE
Na doma: Co byste měli umět 1. Co jsou umělé proměnné, jak s nimi pracovat?
2. Jak zakomponovat nelineární vztahy do modelu? 3. Jak otestovat sdruženou hypotézu, že se více parametrů rovná nule? 4. Co je to ex-post a ex-ante predikce?
5. Jak se dělají predikce v EViews?
CVIČENÍ 6 DUMMY PROMĚNNÉ, ÚVOD DO ČASOVÝCH ŘAD
24