4EK211 Základy ekonometrie ZS 2014/15 Cvičení 6: Dummy proměnné, multikolinearita
LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY
VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE
1. Pokračování z minula: umělé proměnné Otevřete si data z minula. Data: pizza.wf1 Zdroj: ECON2300, University of Queensland, 2012, upraveno Co budeme zkoumat: kolik utrácí lidi za pizzu v závislosti na různých faktorech
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
2
1. Pokračování z minula: umělé proměnné Proměnné: - pizza: - zena: - muz: - prijem - vek - hranolky - hamburgery - salaty
roční útrata za pizzu v dolarech = 1 pro ženy, jinak 0 (umělá proměnná, dummy variable) = 1 pro muže, jinak 0 (umělá proměnná, dummy variable) roční příjem v dolarech věk (v letech) roční útrata za hranolky v dolarech roční útrata za hamburgery v dolarech roční útrata za saláty v dolarech
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
3
1. Pokračování z minula: umělé proměnné Minule jsme začali mluvit o umělých proměnných. Zkuste nyní odhadnout následující dva modely: 1 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 𝑧𝑒𝑛𝑎 + 𝑢 2 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 (𝑝𝑟𝑖𝑗𝑒𝑚 ∙ 𝑧𝑒𝑛𝑎) + 𝑢 Interpretujte koeficienty a nakreslete v obou případech regresní přímku pro muže a pro ženy. Upravte si zase předem proměnnou příjem tak, že ji vydělíte 1000.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
4
1. Pokračování z minula: umělé proměnné 1 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 𝑧𝑒𝑛𝑎 + 𝑢 𝑝𝑖𝑧𝑧𝑎 = 226 + 1,41 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 − 182 ∙ 𝑧𝑒𝑛𝑎
Střední hodnota vysvětlované proměnné: Muž: E(𝑝𝑖𝑧𝑧𝑎) = 226 + 1,41 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 Žena: E 𝑝𝑖𝑧𝑧𝑎 = 44 + 1,41 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
5
1. Pokračování z minula: umělé proměnné 2 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑗𝑒𝑚+ 𝛽2 (𝑝𝑟𝑖𝑗𝑒𝑚 ∙ 𝑧𝑒𝑛𝑎) + 𝑢 𝑝𝑖𝑧𝑧𝑎 = 106 + 3,57 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 − 3 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 ∙ 𝑧𝑒𝑛𝑎
Střední hodnota vysvětlované proměnné: Muž: E(𝑝𝑖𝑧𝑧𝑎) = 106 + 3,57 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚 Žena: E 𝑝𝑖𝑧𝑧𝑎 = 106 + 0,57 ∙ 𝑝𝑟𝑖𝑗𝑒𝑚
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
6
1. Pokračování z minula: umělé proměnné 1. Kdybyste chtěli zkoumat útratu za pizzu v závislosti na tom, zda má člověk základní, střední či vyšší vzdělání, jaká data byste museli nasbírat a jak byste takový model specifikovali? 2. Napadá vás, jak by se mohly použít umělé proměnné při analýze časových řad?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
7
2. Multikolinearita Odhadněte následující modely a posuďte, zda jsou proměnné v modelu významné. 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝑢 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝑢 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝛽3 𝑠𝑎𝑙𝑎𝑡𝑦 + 𝑢
Může zde hrát roli multikolinearita?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
8
2. Multikolinearita jde o lineární závislost vysvětlujících proměnných je pak obtížné poznat, jak každá z vysvětlujících proměnných ovlivňuje vysvětlující proměnnou (poznáme, jak ji ovlivňují dohromady) příčiny: ◦ Tendence časových řad vyvíjet se stejným směrem ◦ Průřezová data ◦ Zpožděné hodnoty proměnných ◦ Nesprávný počet dummy proměnných - kdy jsme minule setkali?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
9
2. Multikolinearita netestujeme ji, nýbrž ji měříme v jednom konkrétním souboru důsledky: ◦ Odhady jsou nestranné i vydatné, ale… ◦ Odhady nejsou stabilní, jsou citlivé i na malé změny v matici X ◦ Směrodatné chyby koeficientů jsou velké - proměnná se může jevit jako nevýznamná, i když to nemusí být pravda
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
10
2. Multikolinearita Měření - 2 proměnné: multikolinearita je v modelu únosná, pokud platí současně: |𝑟𝑥1 ,𝑥2 | ≤ 0,9
𝑟𝑥21 ,𝑥2
≤ 𝑅2
Kde 𝑟𝑥1 ,𝑥2 je párový korelační koeficient mezi dvěma vysvětlujícími proměnnými 𝑅2 je koeficient determinace z modelu
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
11
2. Multikolinearita Měření - více než 2 proměnné: Tabulka párových korelačních koeficientů (Quick Group Statistics Correlations)
Odhalí lineární závislost mezi dvojicemi proměnných. Nedokáže ale zachytit například závislost hamburgery = 2 ∙ hranolky - 0,5 ∙ hamburgery, pokud by tam taková třeba byla. V případě více proměnných používáme pomocné regrese.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
12
2. Multikolinearita Měření - více než 2 proměnné: Původní regrese: y = f(x1,x2,x3) R2 Pomocné regrese: x1 = f(x2,x3) R12 x2 = f(x1,x3) R22 x3 = f(x1,x2) R32 Jsou-li všechny dílčí koeficienty determinace z pomocných regresí menší než koeficient determinace z původní regrese, je multikolinearita v modelu únosná.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
13
2. Multikolinearita 𝑝𝑖𝑧𝑧𝑎 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝛽3 𝑠𝑎𝑙𝑎𝑡𝑦 + 𝑢 → 𝑅2 = 0,16
ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 = 𝛽0 + 𝛽1 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝛽2 𝑠𝑎𝑙𝑎𝑡𝑦 + 𝑢 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 𝑠𝑎𝑙𝑎𝑡𝑦 + 𝑢
→ 𝑅2 = 0,72 → 𝑅2 = 0,73
s𝑎𝑙𝑎𝑡𝑦 = 𝛽0 + 𝛽1 ℎ𝑟𝑎𝑛𝑜𝑙𝑘𝑦 + 𝛽2 ℎ𝑎𝑚𝑏𝑢𝑟𝑔𝑒𝑟𝑦 + 𝑢 → 𝑅2 = 0,60
𝑀𝑢𝑙𝑡𝑖𝑘𝑜𝑙𝑖𝑛𝑒𝑎𝑟𝑖𝑡𝑎 𝑛𝑒𝑛í 𝑣 𝑚𝑜𝑑𝑒𝑙𝑢 ú𝑛𝑜𝑠𝑛á.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
14
2. Multikolinearita řešení: ◦ Získat další pozorování ◦ Použít jiný model (jiná formulace, vypuštění proměnné), pozor na specifikační chybu ◦ Transformace pozorování (první diference, podíly)
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
15
2. Multikolinearita - příklad k procvičení Otevřete si soubor rice.wf1 Zdroj: ECON2300, University of Queensland, 2012. Proměnné: Prod: množství sklizené rýže (tuny) Area: osevná plocha (hektary)
Labour: počet odpracovaných dní na poli Fert: množství hnojiva (kg)
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
16
2. Multikolinearita - příklad k procvičení Odhadněte sami model: ln 𝑝𝑟𝑜𝑑 = 𝛽0 + 𝛽1 ln 𝑎𝑟𝑒𝑎 + 𝛽2 ln 𝑙𝑎𝑏𝑜𝑢𝑟 + 𝛽3 ln(𝑓𝑒𝑟𝑡)
1. Interpretujte parametry (nezapomeňte, že proměnné jsou zlogaritmované) 2. Ověřte přítomnost multikolinearity pomocí párových korelačních koeficientů a pomocných regresí.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESEPOMOC
17
3. Kvadratická regrese Otevřete si soubor test.wf1 Proměnné: Body: počet bodů ze závěrečné písemky (0 až 100 bodů) Čas: počet hodin věnovaný přípravě Přítomnost: počet přednášek, na kterých byl student přítomen (0 až 13)
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
18
3. Kvadratická regrese 1. Odhadněte regresi: 𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝑢 2. Pomocí párového korelačního koeficientu zhodnoťte, zda jsou zde potíže s multikolinearitou. 3. Nakreslete graf závislosti počtu bodů na čase. Myslíte, že je funkční vztah mezi nimi lineární? Zakomponujte případnou nelinearitu do modelu.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
19
3. Kvadratická regrese Graph cas body Scatter 110 100
Odhadneme tedy regresi:
90 80
BODY
Graf naznačuje, že od určitého okamžiku jsou dodatečné hodiny studia spíš na škodu a student nejspíš v důsledku únavy získá spíše méně bodů v testu, než kdyby se šel místo učení vypsat. (jde o čistě hypotetický příklad)
70 60 50
𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝛽3
cas2
+u
40 30 0
Jaké znaménko byste čekali u 𝛽3 ?
4
8
12
16
20
24
28
32
CAS
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
20
3. Kvadratická regrese 𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝛽3 cas2 + u 𝑏𝑜𝑑𝑦 = 33,6 + 1,06 ∙ 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 3 ∙ 𝑐𝑎𝑠 − 0,07 ∙cas2 Otestuje nulovou hypotézu, že čas přípravy nemá vliv na počet bodů v testu.
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
21
3. Kvadratická regrese 𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝛽3 cas2 + u 𝑏𝑜𝑑𝑦 = 33,6 + 1,06 ∙ 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 3 ∙ 𝑐𝑎𝑠 − 0,07 ∙cas2 Otestuje nulovou hypotézu, že čas přípravy nemá vliv na počet bodů v testu. Sdružená nulová hypotéza: 𝛽2 = 𝛽3 = 0 děláme F-test F=
(𝑅𝑆𝑆0 −𝑅𝑆𝑆𝑁 )/𝑞 𝑅𝑆𝑆𝑁 /(𝑛−𝑘−1)
=
(7940−4584)/2 4584/(50−3−1)
= 16,8 porovnáme s F*(2,46)
V EViews stačí: View Coefficient Tests Wald Coefficient Restrictions C(3) = C(4) = 0
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
22
3. Kvadratická regrese
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
23
3. Kvadratická regrese 𝑏𝑜𝑑𝑦 = 𝛽0 + 𝛽1 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 𝛽2 𝑐𝑎𝑠 + 𝛽3 cas2 + u 𝑏𝑜𝑑𝑦 = 33,6 + 1,06 ∙ 𝑝𝑟𝑖𝑡𝑜𝑚𝑛𝑜𝑠𝑡 + 3 ∙ 𝑐𝑎𝑠 − 0,07 ∙cas2 Jaký je podle modelu ideální počet hodin, které by student měl strávit přípravou?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
24
Na doma: Co byste měli umět 1. Co je to multikolinearita, co je její příčinou? 2. Jak se měří multikolinearita v daném výběru? 3. Co je důsledkem multikolinearity?
4. Jak zakomponovat nelineární vztahy do modelu? 5. Jak otestovat sdruženou hypotézu, že se více parametrů rovná nule?
CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE
25