4EK211 Základy ekonometrie ZS 2014/15 Cvičení 5: Vícenásobná regrese, multikolinearita
LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE
1. Jednoduchá regrese opakování Zdroj: ECON2300, University of Queensland, Australia, 2012.
Data: domy.wf1 Zadání: Zkoumáme závislost ceny domu (v dolarech, proměnná cena) na jeho obytném prostoru (v m2, proměnná rozloha).
CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
2
1. Jednoduchá regrese opakování Vykreslete bodový graf závislosti ceny domů na obytném prostoru. 600,000
500,000
PRICE
400,000
300,000
200,000
100,000
0 0
100
200
300
400
500
M2 CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
3
1. Jednoduchá regrese opakování 1. Odhadněte regresi: 𝑐𝑒𝑛𝑎 = 𝛽0 + 𝛽1 𝑟𝑜𝑧𝑙𝑜ℎ𝑎 + 𝑢
2. Interpretujte odhadnutý parametr 𝛽1 . 3. Jaký je koeficient determinace?
4. Jakou byste předpověděli cenu domu o rozloze 200 m2? 5. Na 5% hladině významnosti otestujte nulovou hypotézu o nevýznamnosti 𝛽1 .
CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
4
1. Jednoduchá regrese opakování 1. Odhadněte regresi: 𝑐𝑒𝑛𝑎 = −18385,65 + 876 ∙ 𝑟𝑜𝑧𝑙𝑜ℎ𝑎
2. Interpretujte odhadnutý parametry 𝛽1 . S každým metrem čtverečním vzroste cena domu o 876 dolarů. 3. Jaký je koeficient determinace? 0,67
4. Jakou byste předpověděli cenu domu o rozloze 200 m2? 156 814 dolarů 5. Na 5% hladině významnosti otestujte nulovou hypotézu o nevýznamnosti 𝛽1 . 𝑡=
876 20,65
= 42,4. Kritická hodnota: 1,96. Zamítáme nulovou hypotézu.
CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
5
1. Jednoduchá regrese opakování 1. Odhadněte regresi: ln(𝑐𝑒𝑛𝑎) = 𝛽0 + 𝛽1 𝑟𝑜𝑧𝑙𝑜ℎ𝑎 + 𝑢 2. Interpretujte odhadnutý parametr 𝛽1 .
3. Jaký je koeficient determinace? 4. Jakou byste předpověděli cenu domu o rozloze 200 m2?
CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
6
1. Jednoduchá regrese opakování 1. Odhadněte regresi: ln(𝑐𝑒𝑛𝑎) =10,59+ 0,0064 ∙ 𝑟𝑜𝑧𝑙𝑜ℎ𝑎
Quick Estimate equation log(cena) c rozloha 2. Interpretujte odhadnutý parametr 𝛽1 . S každým metrem čtverečním vzroste cena domu o 0,64 %.
3. Jaký je koeficient determinace? 0,71 4. Jakou byste předpověděli cenu domu o rozloze 200 m2? exp(11,87) = 142 914 dolarů
CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
7
1. Jednoduchá regrese opakování 1. Odhadněte regresi: ln(𝑐𝑒𝑛𝑎) = 𝛽0 + 𝛽1 ln 𝑟𝑜𝑧𝑙𝑜ℎ𝑎 + 𝑢 2. Interpretujte odhadnutý parametr 𝛽1 .
3. Jaký je koeficient determinace? 4. Jakou byste předpověděli cenu domu o rozloze 200 m2?
CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
8
1. Jednoduchá regrese opakování 1. Odhadněte regresi: ln(𝑐𝑒𝑛𝑎) = 6,56+ 1 ∙ ln(𝑟𝑜𝑧𝑙𝑜ℎ𝑎)
Quick Estimate equation log(cena) c log(rozloha) 2. Interpretujte odhadnutý parametr 𝛽1 . S každým růstem rozlohy o 1 % vzroste cena domu o 1 %.
3. Jaký je koeficient determinace? 0,69 4. Jakou byste předpověděli cenu domu o rozloze 200 m2? exp(11,86) = 141 492 dolarů
CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
9
1. Jednoduchá regrese opakování Vysvětlovaná proměnná 𝑦 𝑦 ln(𝑦) ln(𝑦)
Vysvětlující proměnná
Interpretace 𝛽1
𝑥 ln(𝑥) 𝑥 ln(𝑥)
∆𝑦 = 𝛽1 ∆𝑥 ∆𝑦 = (𝛽1 /100)%∆𝑥 %∆𝑦 = (100𝛽1 )∆𝑥 %∆𝑦 = 𝛽1 %∆𝑥
CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL
10
2. Vícenásobná regrese příklad 1 Data: sleep.wf1
Zdroj: Zouhar, http://nb.vse.cz/~zouharj/zek.html Původní zdroj: model vychází z článku Biddleho a Hamermeshe (1990)
Co budeme zkoumat: Kompenzují lidé delší pracovní dobu zkrácením délky spánku?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
11
2. Vícenásobná regrese příklad 1 Proměnné:
- totwrk:
celková doba spánku za týden (v minutách)
- sleep:
celková doba práce za týden (v minutách)
- educ:
počet let vzdělání (v letech)
- age:
věk (v letech)
Regresní přímka: 𝑠𝑙𝑒𝑒𝑝 = 𝛽0 + 𝛽1 𝑡𝑜𝑡𝑤𝑟𝑘 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝛽3 𝑎𝑔𝑒 + 𝑢
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
12
2. Vícenásobná regrese příklad 1 Regresní přímka:
𝑠𝑙𝑒𝑒𝑝 = 𝛽0 + 𝛽1 𝑡𝑜𝑡𝑤𝑟𝑘 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝛽3 𝑎𝑔𝑒 + 𝑢 1. Jaká znaménka byste očekávali u koeficientů 𝛽1 , 𝛽2 , 𝛽3 ?
2. Může u 𝑏1 vyjít jiné znaménko, než jste očekávali, i v případě, že je model správně specifikován a jsou splněny G-M předpoklady? 3. Odhadněte regresní přímku.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
13
2. Vícenásobná regrese příklad 1 Regresní přímka:
𝑠𝑙𝑒𝑒𝑝 = 3638 − 0,15 ∙ 𝑡𝑜𝑡𝑤𝑟𝑘 − 11,1 ∙ 𝑒𝑑𝑢𝑐 + 2,2 ∙ 𝑎𝑔𝑒 Interpretujte odhadnuté koeficienty. Jak se změní doba spánku, začneme-li pracovat o 10 hodin týdně více? Kolik hodin spánku denně byste dle modelu předpověděli sobě? Jaký je koeficient vícenásobné determinace? Připomeňte, co vyjadřuje. Jaký je korigovaný koeficient vícenásobné determinace? Co to je?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
14
2. Vícenásobná regrese příklad 1 Regresní přímka:
𝑠𝑙𝑒𝑒𝑝 = 3638 − 0,15 ∙ 𝑡𝑜𝑡𝑤𝑟𝑘 − 11,1 ∙ 𝑒𝑑𝑢𝑐 + 2,2 ∙ 𝑎𝑔𝑒 1. Otestujte nulovou hypotézu, že 𝛽2 = 0. Spočítejte 95 % interval spolehlivosti pro 𝛽2 a učiňte na základě něj nějaký závěr ohledně testované hypotézy. 2. Otestujte nulovou hypotézu, že 𝛽2 < 0. 3. Otestujte významnost modelu jako celku.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
15
2. Vícenásobná regrese příklad 1 Regresní přímka:
𝑠𝑙𝑒𝑒𝑝 = 3638 − 0,15 ∙ 𝑡𝑜𝑡𝑤𝑟𝑘 − 11,1 ∙ 𝑒𝑑𝑢𝑐 + 2,2 ∙ 𝑎𝑔𝑒 1. Otestujte nulovou hypotézu, že 𝛽2 = 0. ◦ H0 : 𝛽2 = 0 ◦ H1 : 𝛽2 ≠ 0 ◦ Testová statistika: −1,89 ◦ Kritická hodnota: 1,96 ◦ |−1,89| < 1,96 → Nezamítáme nulovou hypotézu.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
16
2. Vícenásobná regrese příklad 1 Regresní přímka:
𝑠𝑙𝑒𝑒𝑝 = 3638 − 0,15 ∙ 𝑡𝑜𝑡𝑤𝑜𝑟𝑘 − 11,1 ∙ 𝑒𝑑𝑢 + 2,2 ∙ 𝑎𝑔𝑒 1. 95 % interval spolehlivosti pro 𝛽2 ◦ < −11,1 − 5,88 ∙ 1,96; −11,1 + 5,88 ∙ 1,96 > ◦ < −22,6; 0,4 > ◦ Obsahuje nulu nezamítáme nulovou hypotézu.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
17
2. Vícenásobná regrese příklad 1 Regresní přímka:
𝑠𝑙𝑒𝑒𝑝 = 3638 − 0,15 ∙ 𝑡𝑜𝑡𝑤𝑜𝑟𝑘 − 11,1 ∙ 𝑒𝑑𝑢 + 2,2 ∙ 𝑎𝑔𝑒 2. Otestujte nulovou hypotézu, že 𝛽2 < 0. ◦ H0 : 𝛽2 = 0 ◦ H1 : 𝛽2 < 0 ◦ Testová statistika: −1,89 ◦ Kritická hodnota: 1,64 ◦ |−1,89| > 1,64 → Zamítáme nulovou hypotézu.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
18
2. Vícenásobná regrese příklad 1
-1,89
-1,89
http://new.euromise.org/czech/tajne/ucebnice/html/html/node9.html
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
19
2. Vícenásobná regrese příklad 1 Regresní přímka: 𝑠𝑙𝑒𝑒𝑝 = 3638 − 0,15 ∙ 𝑡𝑜𝑡𝑤𝑜𝑟𝑘 − 11,1 ∙ 𝑒𝑑𝑢 + 2,2 ∙ 𝑎𝑔𝑒 3. Otestujte významnost modelu jako celku. ◦
H0 : 𝛽1 = 𝛽2 = 𝛽3 = 0
◦
H1 : 𝑛𝑜𝑛 H0
𝑅2 𝑛−𝑘−1 1−𝑅2 𝑘
0,1134 706−3−1 = 1−0,1134 3
◦
𝐹=
◦ ◦
Porovnáváme s kritickou hodnotou z Fisherova rozdělení: F*(k, n - k - 1) EViews uvádí p-hodnotu.
=
29,9
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
20
2. Vícenásobná regrese příklad 1
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
21
3. Vícenásobná regrese příklad 2 Data: pizza.wf1
Zdroj: ECON2300, University of Queensland, 2012, upraveno Co budeme zkoumat: kolik utrácí lidi za pizzu v závislosti na různých faktorech
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
22
3. Vícenásobná regrese příklad 2 Proměnné: - pizza: - zena: - muz: - prijem - vek - hranolky - hamburgery - salaty
roční útrata za pizzu v dolarech = 1 pro ženy, jinak 0 (umělá proměnná, dummy variable) = 1 pro muže, jinak 0 (umělá proměnná, dummy variable) roční příjem v dolarech věk (v letech) roční útrata za hranolky v dolarech roční útrata za hamburgery v dolarech roční útrata za saláty v dolarech
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
23
3. Vícenásobná regrese příklad 2 Upravte proměnnou prijem tak, že ji vydělíte 1000. Odhadněte tři modely: (a)
𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚 + 𝑢
(b)
𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 𝑣𝑒𝑘 + 𝑢
(c)
𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 𝑣𝑒𝑘 + 𝛽3 𝑣𝑒𝑘 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 + 𝑢
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
24
3. Vícenásobná regrese příklad 2 Odhadněte tři modely a vždy řekněte, které proměnné jsou v modelu významné. Interpretujte parametry. (a)
𝑝𝑖𝑧𝑧𝑎 = 129 + 1,46 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚
(b)
𝑝𝑖𝑧𝑧𝑎 = 343 + 2,38 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 − 7,58 ∙ 𝑣𝑒𝑘
(c)
𝑝𝑖𝑧𝑧𝑎 = 162 + 9,07 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 − 2,98 ∙ 𝑣𝑒𝑘 −0,16 ∙ 𝑣𝑒𝑘 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚
Jak se ve třetím případě změní útrata za pizzu s 1 rokem věku navíc? Jak se změní s růstem ročního příjmu o 1 tisíc dolarů?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
25
3. Vícenásobná regrese příklad 2 (c)
𝑝𝑖𝑧𝑧𝑎 = 162 + 9,07 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 − 2,98 ∙ 𝑣𝑒𝑘 −0,16 ∙ 𝑣𝑒𝑘 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚
𝜕𝑝𝑖𝑧𝑧𝑎 𝜕𝑝𝑟𝑖𝑗𝑒𝑚 𝜕𝑝𝑖𝑧𝑧𝑎 𝜕𝑣𝑒𝑘
= 𝛽1 + 𝛽3 ∙ 𝑣𝑒𝑘
=
𝛽2 + 𝛽3 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚
S rostoucím věkem útrata za pizzu klesá, a to tím více, čím vyšší má daná osoba příjem.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
26
4. Multikolinearita Budeme zkoumat vliv pohlaví na útratu za pizzu.
Odhadněte model: 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 𝑣𝑒𝑘 + 𝛽3 𝑧𝑒𝑛𝑎 + 𝛽4 𝑚𝑢𝑧 + 𝑢 V čem je problém? Který G-M předpoklad je porušen? Jakou úpravu modelu byste navrhli?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
27
4. Multikolinearita Odhadněte následující modely a posuďte, zda jsou proměnné v modelu významné. 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝑢 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝑢
𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝛽3 𝑠𝑎𝑙𝑎𝑡𝑦 + 𝑢 Může zde hrát roli multikolinearita?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
28
4. Multikolinearita jde o lineární závislost vysvětlujících proměnných je pak obtížné poznat, jak každá z vysvětlujících proměnných ovlivňuje vysvětlující proměnnou (poznáme, jak ji ovlivňují dohromady) příčiny: ◦ Tendence časových řad vyvíjet se stejným směrem ◦ Průřezová data ◦ Zpožděné hodnoty proměnných ◦ Nesprávný počet dummy proměnných - kdy jsme se s tím dnes setkali?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
29
4. Multikolinearita netestujeme ji, nýbrž ji měříme v jednom konkrétním souboru
důsledky: ◦ Odhady jsou nestranné i vydatné, ale… ◦ Odhady nejsou stabilní, jsou citlivé i na malé změny v matici X ◦ Směrodatné chyby koeficientů jsou velké - proměnná se může jevit jako nevýznamná, i když to nemusí být pravda
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
30
4. Multikolinearita Měření - 2 proměnné:
multikolinearita je v modelu únosná, pokud platí současně: |𝑟𝑥1 ,𝑥2 | ≤ 0,9 𝑟𝑥21 ,𝑥2
≤ 𝑅2
Kde 𝑟𝑥1 ,𝑥2 je párový korelační koeficient mezi dvěma vysvětlujícími proměnnými 𝑅2 je koeficient determinace z modelu
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
31
2. Multikolinearita Měření - více než 2 proměnné:
Tabulka párových korelačních koeficientů (Quick Group Statistics Correlations)
Odhalí lineární závislost mezi dvojicemi proměnných. Nedokáže ale zachytit například závislost hamburgery = 2 ∙ hranolky - 0,5 ∙ hamburgery, pokud by tam taková třeba byla. V případě více proměnných používáme pomocné regrese.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
32
4. Multikolinearita Měření - více než 2 proměnné:
Původní regrese: y = f(x1,x2,x3) R2 Pomocné regrese: x1 = f(x2,x3) R12 x2 = f(x1,x3) R22 x3 = f(x1,x2) R32 Jsou-li všechny dílčí koeficienty determinace z pomocných regresí menší než koeficient determinace z původní regrese, je multikolinearita v modelu únosná.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
33
4. Multikolinearita 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝛽3 𝑠𝑎𝑙𝑎𝑡𝑦 + 𝑢 → 𝑅2 = 0,16
ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 = 𝛽0 + 𝛽1 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝛽2 𝑠𝑎𝑙𝑎𝑡𝑦 + 𝑢
ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 𝑠𝑎𝑙𝑎𝑡𝑦 + 𝑢
→ 𝑅2 = 0,72
→ 𝑅2 = 0,73
s𝑎𝑙𝑎𝑡𝑦 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝑢 → 𝑅2 = 0,60
𝑀𝑢𝑙𝑡𝑖𝑘𝑜𝑙𝑖𝑛𝑒𝑎𝑟𝑖𝑡𝑎 𝑛𝑒𝑛í 𝑣 𝑚𝑜𝑑𝑒𝑙𝑢 ú𝑛𝑜𝑠𝑛á.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
34
4. Multikolinearita řešení: ◦ Získat další pozorování ◦ Použít jiný model (jiná formulace, vypuštění proměnné), pozor na specifikační chybu ◦ Transformace pozorování (první diference, podíly)
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
35
Na doma: Co byste měli umět 1. Jak se interpretují odhadnuté koeficienty, jsou-li proměnné zlogaritmované? 2. Co je to koeficient determinace a korigovaný koeficient determinace? 3. Jak otestujeme významnost modelu jako celku? 4. Co je to multikolinearita, co je její příčinou? 5. Jak se měří multikolinearita v daném výběru?
6. Co je důsledkem multikolinearity?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
36