Základy ekonometrie Příklady ze cvičení (ZS 2012) Jan Zouhar Katedra ekonometrie FIS VŠE v Praze,
[email protected]
1. října 2014 Pár slov úvodem. Zadání příkladů je rozděleno po jednotlivých cvičeních. Jedná se o orientační rozvržení – je možné, že v průběhu semestru dojde z nejrůznějších důvodů ke skluzu. (Koneckonců, z toho důvodu je poslední 12. cvičení vyhrazeno na „dodělávky“ a opakování.) Pokud budete na cvičení chybět a budete mít v plánu si neprobranou látku do příštího cvičení doplnit (což samozřejmě vřele doporučuji), zkuste se od svých kolegů informovat o tom, které příklady jsme probrali.
Cvičení 1: Metoda nejmenších čtverců a R2 Příklad 1.1 (Různé odchylky od přímky.) Je dána regresní přímka y = x + 1 a jedno pozorování hodnot x a y, které představuje bod A = [1, 1]. Vypočtěte, jaká je . . . a ) . . . absolutní odchylka bodu A od regresní přímky. b ) . . . čtvercová odchylka bodu A od regresní přímky. c ) . . . ortogonální odchylka bodu A od regresní přímky. Příklad 1.2 (Metoda nejmenších čtverců a R2 – ruční výpočet.) V následující tabulce jsou zadány hodnoty veličin x (délka přípravy v hodinách) a y (body z testu) pro pět sledovaných průřezových jednotek: Eva, Vašek, Hynek, Vilém a Jarmila. Tyto jednotky jsou očíslovány v uvedeném pořadí od 1 do 5 a rozlišovány pomocí indexu i. i
1
2
3
4
5
xi yi
0 35
1 55
1.5 50
2.5 75
4 95
a ) Uvažujte následující dvě regresní přímky popisující závislost y na x: p1 : y = 30 + 18x, p2 : y = 35 + 15x.
b)
c)
d) e)
Vypočtěte součet čtverců pro obě přímky a rozhodněte, která z nich je podle tohoto kritéria lepší. Nalezněte takovou přímku, která minimalizuje součet čtverců, tj. proveďte odhad regresní přímky pomocí metody nejmenších čtverců (mnč). Návod: při obecném vyjádření přímky ve tvaru y = βˆ0 + βˆ1 x zapište celkový součet čtverců jako funkci dvou proměnných βˆ0 a βˆ1 a najděte její globální minimum (vynulováním jejích parciálních derivací podle βˆ0 a βˆ1 ). O kolik se v průměru zvýší počet bodů s dodatečnou hodinou studia (podle odhadnuté regresní přímky)? (Jinak řečeno, jaká je průměrná absolutní pružnost bodů z testu vzhledem k počtu hodin přípravy?) Víte, že Emil se připravoval na test 2 hodiny. Kolik byste mu předpověděli bodů z testu? Vypočtěte pro vaši regresní přímku a všechna pozorování tzv. vyrovnané hodnoty (fitted values, yˆ) podle vztahu yˆi = βˆ0 + βˆ1 xi .
1
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
f ) Vypočtěte pro vaši regresní přímku a všechna pozorování tzv. rezidua (residuals, e) podle vztahu ei = yi − yˆi . Pozn.: Nepočítali jste je náhodou už v jiném bodě tohoto příkladu jako mezikrok nějakého výpočtu? g ) Vypočtěte tzv. nevysvětlený součet čtverců (též reziduální, residual sum of squares, RSS) deP5 P finovaný předpisem (ve zbytku tohoto příkladu budeme zkracovat zápis i=1 na ) X X RSS = e2i = (yi − yˆi )2 . Pozn.: viz součet čtverců pro přímku p2 z a. h) Vypočtěte tzv. celkový součet čtverců pro proměnnou y (total sum of squares, TSS), X TSS = (yi − y¯)2 , kde y¯ je průměrná hodnota proměnné y ve vašich datech, čili zde y¯ = 62. i ) Vypočtěte tzv. vysvětlený součet čtverců pro proměnnou y (explained sum of squares, ESS), X ESS = (ˆ yi − y¯)2 . Rada: Co takhle namísto počítání podle předchozího vzorce využít identity o součtech čtverců? j ) Vypočtěte koeficient determinace (R-squared, R2 ) podle vzorce R2 =
ESS RSS =1− . TSS TSS
Příklad 1.3 (Zamyšlení nad R2 .) a ) Jaká je přesná interpretace koeficientu determinace z předchozího příkladu? b ) Po odhadu jisté regresní přímky vyšlo R2 = 1. Co vám to říká o y, yˆ a e? c ) Po odhadu jisté regresní přímky vyšlo R2 = 0. Co vám to říká o βˆ0 a βˆ1 ? d ) Jak moc vám pomůže znalost x při předpovědi hodnoty y, je-li R2 = 0, R2 = 0.6, R2 = 1? Příklad 1.4 (Seznámení s Gretlem.) Otevřete soubor test.gdt v programu Gretl a ověřte, že v něm uložená data odpovídají příkladu s body z testu. a ) Odhadněte regresní přímku pomocí mnč v Gretlu (Model → Ordinary least squares). b ) Najděte ve výstupu v Gretlu hodnoty βˆ0 , βˆ1 , y¯, RSS a R2 . Jak byste dopočítali TSS a ESS? c ) Zapište odhadnutou regresní funkci. Pozn.: odhadnutou regresní funkci zapisujeme ve tvaru yˆ = βˆ0 + βˆ1 x. d ) Vykreslete graf s vašimi pozorováními – body (xi , yi ) – a odhadnutou regresní přímkou (Graphs → Fitted, actual plot → Against x). e ) Uložte rezidua (e) a vyrovnané hodnoty (ˆ y ) jako nové proměnné (Save → Residuals, Save → Fitted values) a ověřte, že se shodují s výsledky vašich předchozích ručních výpočtů. f ) Najděte výběrový průměr reziduí (View → Summary Statistics) a výběrový korelační koeficient mezi e and x (View → Correlation Matrix). Je tento výsledek neočekávaný, nebo lze zobecnit i na jiné regresní přímky odhadnuté mnč? Vysvětlete. g ) Najděte výběrový korelační koeficient mezi y a yˆ, umocněte jej na druhou a porovnejte s R2 . Pozn.: Toto je vlastně původ označení R2 – statistici zpravidla označují výběrové korelační koeficienty písmenem r.
Cvičení 2: Opakování základních statistických pojmů Příklad 2.1 (Tři charakteristiky polohy.) Přiřaďte každé z definic v seznamu a–d jeden pojem ze seznamu 1–3. 1) Střední hodnota. 2) Medián. 3) Modus. 2
Základy ekonometrie: příklady ze cvičení (ZS 2012)
a) b) c) d)
Jan Zouhar
Nejpravděpodobnější (tj. nejběžnější) hodnota v populaci. Dlouhodobý průměr výsledků při opakovaném náhodném výběru z populace. Hodnota oddělující horní polovinu populace od spodní. Vážený průměr možných hodnot, kde váhy představují pravděpodobnosti (tj. relativní četnosti) jednotlivých hodnot.
Příklad 2.2 (Průměrná, mediánová a modální mzda.) a ) „Průměrná měsíční mzda v populaci je e 1000.“ Vztahuje se termín průměrná mzda ke střední hodnotě, mediánu nebo modu populačního rozdělení mezd? b ) Která mzda je zpravidla větší, the mediánová nebo průměrná? (Nebo jinak, vydělává většina lidí více nebo méně, nežli je průměrná mzda?) Příklad 2.3 (Výpočet střední hodnoty.) a ) Uvažujme náhodnou veličinu (nv) x. Je možné, že Pr{x = Ex} = 0? (Např., je možné, že nikdo nevydělává přesně průměrnou mzdu?) b ) Jaká je střední hodnota z hodu šestistěnnou kostkou? c ) Uvažujte falešnou kostku, která dává výsledky 1 až 6 s různými pravděpodobnostmi, uvedenými v tabulce 1. Jaká je střední hodnota z hodu touto kostkou? Tabulka 1: Falešná kostka
ξ Pr{x = ξ}
1 0.1
2 0.1
3 0.1
4 0.2
5 0.2
6 0.3
Příklad 2.4 (Rozptyl a směrodatná odchylka.) a ) Jak byste popsali pojem rozptyl (např. mezd v populaci) někomu, kdo neví nic o statistice? b ) Obrázek 1 znázorňuje rozdělení dvou náhodných veličin (pomocí jejich hustot). Která z nich má větší rozptyl? c ) nv x má následující characteristiky: Ex = 10, varx = 0. Co dalšího můžeme říci o x? d ) Předpokládejte, že výška dospělého člověka má v populaci přibližně normální rozdělení se střední hodnotou 180 cm a rozptylem σ 2 . Jaké procento dospělé populace spadá (z hlediska výšky) do rozpětí ±σ od populačního průměru (tj. do intervalu [180 − σ, 180 + σ])? A jak je tomu při rozpětí ±2σ a ±3σ? Nakreslete obrázek, který situaci ilustruje.
Obrázek 1: Dvě rozdělení s různými rozptyly
Příklad 2.5 (Počítání se středními hodnotami a rozptyly.) Mějme nezávislé nv x a y, Ex = 10, varx = 1,
Ey = 5, var y = 2.
Vypočtěte:
3
Základy ekonometrie: příklady ze cvičení (ZS 2012)
a) b) c) d) e)
Jan Zouhar
E(4x). E(4x + 5). E(x + y). E(x − y). E(4x − 3y + 5).
f) g) h) i) j)
var(4x). var(4x + 5). var(x + y). var(x − y). var(4x − 3y + 5).
Příklad 2.6 (Více kostek.) a ) Představte si, že dvakrát hodíte šetstistěnnou kostkou a sečtete oba počty ok. Jaké jsou možné výsledky? Jaké jsou jejich pravděpodobnosti? Nakreslete výslednou pravděpodobnostní funkci. b ) Jaká je střední hodnota a rozptyl nv z bodu a? (Rada: rozptyl při hodu jednou kostkou je 35 12 .) c ) Představte si součet ok při hodu 10 kostkami. Jaká je střední hodnota a rozptyl výsledku? Příklad 2.7 (Náhodný výběr a výběrový průměr.) Populační rozdělení počtu zubů (x) má střední hodnotu 20 a rozptyl 64. Chystáme se provést následující pokus. Náhodně vybereme 10 jedinců, změříme hodnotu x pro každého z nich (získáme tak hodnoty x1 , x2 , . . . , x10 ), a pak spočteme prostý P10 1 ¯ náhodná veličina. aritmetický průměr x ¯ = 10 i=1 xi . Jelikož vybíráme jedince náhodně, je x a ) Jaká je střední hodnota x ¯? Jaký je rozptyl? b ) (Zákon velkých čísel.) Místo 10 lidí nyní uvažujme n. Co se stane s E x ¯ a var x ¯, jestliže postupně zvedáme n nade všechny meze? c ) (Centrální limitní věta.) Opět máme náhodný výběr n jedinců, ale zajímáme se o hodnotu Pn √ (xi − 20) y = n(¯ x − 20) = i=1 √ . n Roste-li n, co se děje s rozdělením y? d ) A co kdybychom nyní uvažovali veličinu x ¯ − 20 y ? z=√ = q 64 64 n
Příklad 2.8 (Nestranné odhady.) Uvažujme náhodný výběr (x1 , x2 , x3 , x4 ) z populace, v níž má sledovaný znak x neznámou střední hodnotu (označme ji jako µ) a neznámý rozptyl (označme jej σ 2 ). P4 a ) Je výběrový průměr x ¯ = 41 i=1 xi nestrannou odhadovou statistikou (nebo stručně nestranným odhadem) populační střední hodnoty µ? (Připomeňme, že s je nestranná odhadová statistika parametru µ, je-li Es = µ.) b ) Uvažujme namísto prostého aritmetického průměru vážený průměr podle předpisu w = 0.1x1 + 0.2x2 + 0.3x3 + 0.4x4 . Je w nestranným odhadem µ? Které z obou statistik x ¯ a w byste při odhadu µ věřili víc? c ) Je statistika P4 1 ¯ )2 s2 = 4−1 i=1 (xi − x nestranným odhadem populačního rozptylu σ 2 ? Příklad 2.9 (Testování hypotéz.) Představitel opoziční politické strany tvrdí, že průměrná hrubá měsíční mzda (µ) klesla na 20 tisíc korun. Premiér se rozhodl udělat si malý průzkum, který má ukázat, že mzdy jsou ve skutečnosti vyšší. Hodlá náhodně vybrat 16 jedinců z ČR a dotázat se jich na jejich mzdu (x), čímž získá náhodný výběr (x1 , x2 , . . . , x16 ). Na základě tohoto výběru chce provést test hypotézy, který snad poukáže na lživost výroku opozičního představitele. a ) Jak by měl premiér volit nulovou a alternativní hypotézu (zapište formálně). b ) Premiér se rozhodl provést test na hladině významnosti α = 0.05. Co to znamená? Co přesně zde vyjadřuje číslo 0.05?
4
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
c ) Představte si, že po sběru dat vyjde najevo, že výběrový průměr (¯ x) činí 19 500 Kč. Je to důvod pro zamítnutí nulové hypotézy? A co v případech, že x ¯ = 20 500, x ¯ = 25 000 nebo x ¯ = 40 000? d ) Jistojistě víte, že rozptyl mezd v celé populaci činí 1 000 000. Výběrový průměr vyšel 20 500. Jaká je přibližně pravděpodobnost, že při platnosti nulové hypotézy vyjde výběrový průměr (při šestnácti dotázaných jedincích) vyšší nežli 20 500? (Pozn.: pokud jste správně formulovali jednostrannou alternativní hypotézu, označuje se tato pravděpodobnost jako p-hodnota vašeho testu. Pro její výpočet využijte centrální limitní věty.) Můžete na základě tohoto výpočtu zamítnout nulovou hypotézu z bodu a na hladině významnosti 5%? e ) Řešte stejný problém jako v předchozím bodě s tím, že populační rozptyl mezd neznáte, nýbrž P16 1 ¯)2 , jejíž hodnota vyšla 1 000 000. pouze odhadujete na základě statistiky s2 = 16−1 i=1 (xi − x f ) Vysvětlete, co je špatně na následující větě: „Hodnota testové statistiky padla mimo kritický obor, tedy přijímáme nulovou hypotézu.“ Příklad 2.10 (Korelace & kovariance.) a ) Řekli byste, že mzdy a vzdělání jsou pozitivně korelované, negativně korelované or nekorelované? Jak je tomu v případě mezd a tělesné výšky? b ) Najděte příklad negativně korelovaných ekonomických veličin. c ) Víme-li, že nv jsou negativně korelované, co nám to říká o jejich kovarianci? d ) Jakých hodnot může nabývat kovariance dvou nv? e ) Nechť x a y jsou nezávislé. Je možné, že cov(x, y) = 0.58? Proč? f ) Víme, že cov(x, y) = 0. Znamená to, že x a y jsou nutně nezávislé? (Pokud ne, zkuste najít nv, které jsou nekorelované navzdory tomu, že nejsou nezávislé.) g ) Jakých hodnot může nabývat korelační koeficient dvou nv? h) Která z následujících možností může nastat: 1) 2) 3) 4)
corr(x, y) = −1.56. corr(x, y) = 0.28, cov(x, y) = 0. corr(x, y) = 0.28, cov(x, y) = −0.5. corr(x, y) = 0.28, cov(x, y) = 0.5.
Proč? Jaký je vztah mezi kovariancí a korelačním koeficientem? Příklad 2.11 (Podmíněná střední hodnota.) a ) Jaká je průměrná měsíční mzda v ČR? (Zkuste zhruba odhadnout.) b ) Představte si, že potkáte někoho na ulici a dozvíte se, že dotyčný dokončil pouze základní školu, nežli začal pracovat. Změní tato informace vaší představu o jeho mzdě? c ) Tipněte si hodnoty pro následující ukazatele: E(mzda |vzdělání = 9), E(mzda |vzdělání = 13), E(mzda |vzdělání = 18). (Proměnná mzda je měsíční mzda jedince v Kč a vzdělání je zde vyjádrěno v letech, tj. 9 let vzdělání představuje zpravidla dokončenou základní školu a 18 let magisterský titul.) d ) Na základě c zkuste „od oka“ aproximovat E(mzda |vzdělání ) pomocí lineárního vztahu E(mzda |vzdělání ) = β0 + β1 vzdělání. e ) Na základě d, jaký je očekávaný rozdíl mezd dvou jedinců, jejichž vzdělání se liší o 1 rok? | vzdělání ) ?) Jinými slovy, jaká je hodnota ∆E (mzda ∆vzdělání Příklad 2.12 (Podmíněný rozptyl.) Myslíte, že se rozptyl mezd liší v různých kategoriích podle dosaženého vzdělání? Konkrétně, je rozdíl mezi var(mzda |vzdělání = 9) a var(mzda |vzdělání = 18)?
Cvičení 3: Lineární regresní model
5
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
Příklad 3.1 (Teoretická doplňovačka.) Vysvětlujeme-li y pomocí x prostřednictvím lineárního regresního modelu, předpokládáme, že veličina y se v ekonomice/populaci utváří podle vztahu y = β0 + β1 x + u,
(1)
kde u je neznámá (též disturbance) a β0 , β1 jsou reálná čísla (konstantní parametry, které charakterizují danou ekonomiku/populaci). Koeficientu β0 říkáme (též intercept). Veličinu u lze chápat jako souhrn vlivů všech dalších faktorů, které spolu s x utvářejí y. Hodnoty β0 , β1 neznáme, ale máme-li k dispozici sadu pozorování pro veličiny x, y (v případě průřezových dat to bude tzv. ze zkoumané populace), můžeme hodnoty β0 , β1 alespoň odhadnout (prostřednictvím vhodně zvolených odhadových statistik, též estimátorů, nebo méně korektně, ale stručně jen odhadů). Zatímco parametry β0 , β1 jsou (neznámé) konstanty, jejich odhadové statistiky (označované zpra1 , ) jsou , má tedy smysl zabývat se jejich stavidla jako tistickými vlastnostmi, např. jejich střední hodnotou, nebo pravděpodobnostním . Ukáže-li se například, že E βˆ1 = β1 , říkáme, že βˆ1 je odhadem β1 . Pro odhad zpravidla používáme metodu . Důvodem je to, že tato metoda má řadu dobrých statistických vlastností (např. nestrannost, ale též třeba tzv. konzistenci a vydatnost); to ovšem jenom v případě, že jsou splněny předpoklady (dále jen G-M předpoklady). Příklad 3.2 (G-M předpoklady – šedá teorie.) Zapište stručně G-M předpoklady a řekněte, který z nich vylučuje přítomnost a ) heteroskedasticity, b ) autokorelace, c ) perfektní multikolinearity. Pozn.: G-M předpoklady lze zapsat různým způsobem. Někteří autoři dokonce rozlišují různé varianty G-M předpokladů podle typu použitých dat (průřezová data, časové řady, panel), viz např. mnou doporučovaná Wooldridgeova učebnice. Příklad 3.3 (G-M předpoklady v praxi.) Uvažujte lineární regresní model mzda = β0 + β1 vzdělání + u, kde mzda představuje hrubou měsíční mzdu respondenta a vzdělání je měřeno v letech. a ) Vysvětlete, proč je v modelu heteroskedasticita, neboli proč var(u |vzdělání ) není konstantní (mění se s úrovní dosaženého vzdělání). Rada: Uvědomte si, že při dané hodnotě vzdělání je na pravé straně rovnice všechno kromě u konstantní, tedy var(u |vzdělání ) = var(mzda |vzdělání ), vizte též příklad 2.12. b ) Vysvětelete, proč v modelu neplatí, že E(u |vzdělání ) je konstantní, a vysvětlete, který G-M předpoklad tato skutečnost porušuje. Rada: Ukažte, že u obsahuje vliv nějakého faktoru určujícího mzdu, který je korelovaný se vzděláním jedince. c ) Víte, že výběr respondentů bude probíhat náhodným losováním jedinců z populace. Má smysl v takovém případě očekávat autokorelaci? Proč? Příklad 3.4 (Změna jednotek a odhadnuté koeficienty.) Data v souboru birth_weight.gdt pochází z článku J. Mullahyho (1997), cílem je odhadnout nežádoucí dopady matčina kouření cigaret v době těhotenství na zdraví plodu. Jedním ze snadno měřitelných indikátorů zdraví dítěte je jeho porodní váha. Uvažujte následující populační regresní funkci E(bwght |cigs) = β0a + β1a cigs, 1 Záleží
(a)
totiž na tom, jaká konkrétní pozorování se nám podaří získat (např. při náhodném výběru z populace); jinak řečeno, jak to dopadne v našem výběrovém vzorku s hodnotami neznámé náhodné složky.
6
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
kde bwght ja váha plodu měřená v uncích (1 oz ' 28 g) a cigs je průměrný počet cigaret, které matka vykouřila za den v průběhu těhotenství. Oba dva ukazatele (porodní váhu i počet cigaret) bychom mohli samozřejmě vyjádřit i v jiných měřítkách: váhu bychom chtěli možná převést na gramy a počet cigaret bychom mohli třeba vyjádřit v krabičkách cigaret namísto v kusech. Místo proměných bwght a cigs bychom pak použili proměnné bwgram = 28bwght, 1 cigs. packs = 20 Uvažujte dále populační regresní funkce E(bwght |packs) = β0b + β1b packs,
(b)
E(bwgram |packs) = β0c + β1c packs.
(c)
a ) Jaký je vztah mezi koeficienty β0a , β0b a β0c ? A mezi koeficienty β1a , β1b a β1c ? b ) S daty ze souboru birth_weight.gdt odhadněte modely (a), (b) a (c) a ověřte, že mezi odhadnutými koeficienty je stejný vztah, jako mezi skutečnými populačními hodnotami parametrů (které jste zkoumali v bodě a). Pozn.: Nejdříve bude potřeba vytvořit proměnné bwgram a packs. Toho docílíte následovně. Zvolíte v menu Add → Define new variable... a do zobrazeného příkazového řádku zapíšete bwgram = 28*bwght, resp. packs = cigs/20. c ) Kolik žen v datovém souboru nekouřilo během těhotenství? Jaký byl nejvyšší průměrný počet vykouřených cigaret? Rada: Zkuste třeba View → Summary statistics nebo Data → Sort data... . Příklad 3.5 (Model s konstantní elasticitou.) V tomto příkladu použijte datový soubor house1.gdt, který obsahuje charakteristiky domů prodávaných v roce 1981 v Andoveru, Massachusetts, z článku Kiel a McClain (1995). a ) Odhadněte následující rovnici, která poukazuje na souvislost ceny nemovitostí se vzdáleností od nově vybudované městské spalovny odpadu: log(price) = β0 + β1 log(dist) + u, kde price je prodejní cena domu v dolarech a dist je vzdálenost od spalovny ve stopách. Rada: Logaritmy obou proměnných je třeba vytvořit před vlastním odhadem pomocí funkce Add → Logs of selected variables. Pak již lze odhadovat klasickou mnč, ovšem již s nově vytvořenými proměnnými l_price a l_dist. b ) Zapište odhadnutou regresní rovnici a interpretujte koeficient u proměnné log(dist). c ) Jaké další faktory ovlivňují prodejní cenu domu? Jsou některé z nich korelovány se vzdáleností od spalovny? Jaké to má důsledky ohledně naplnění G-M předpokladů?
Cvičení 4: Statistické vlastnosti MNČ Příklad 4.1 (Teoretická doplňovačka.) V příkladu 3.1 jsme si připomněli, že zatímco koeficienty βj v LRM jsou (neznámé) konstanty, jejich odhady βˆj pořízené libovolnou odhadovou technikou jsou náhodné veličiny, neboť závisí na realizaci náhodného výběru z populace. Jsou-li splněny G-M předpoklady, je nejvýhodnější za odhadovou techniku volit MNČ, neboť vykazuje řadu příjemných , a . statistických vlastností, konkrétně ˆ říká, že E βj = βj , neboli při opakovaném náhodném výběru vzorku z populace a následném odhadu parametrů nedochází k systematickému ani vlivu jednotlivých proměnných. Nestrannost není ovšem měřítkem přesnosti odhadů; za ukazatel přesnosti nestranného odhadu βˆj se zpravidla bere jeho . Vlastnost MNČ nazývaná (též eficience) říká, že MNČ je ze všech nestranných lineárních technik v průměru nejpřesnější (měřeno čtvercovou odchylkou od skutečné hodnoty parametru), tj. její odhady mají .
7
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
Zatímco a jsou vlastnosti, které se týkají použití MNČ na výběrových souborů libovolného rozsahu, je vlastnost asymptotická, tj. hovoří o tom, co (n) roste nade všechny meze. Konkrétně říká, že se děje, pokud lim Pr |βˆj − βj | ≥ ε = 0 pro libovolné ε > 0, n→∞
neboli = βj . Jelikož rozptyl odhadu βˆj slouží jako základní měřítko jeho přesnosti, je třeba umět tento rozptyl odhadnout. K tomu je nejprve třeba dhadnout rozptyl náhodné složky u, který typicky značíme – jeho odhad se pak označuje většinou s2 . Potíž je, že náhodnou složku neznáme (nemáme pro ni . Lze ukázat, že nestranný odhad data); pro příslušný odhad tedy místo ní použijeme rozptylu u lze získat jako , s2 = kde k je počet vysvětlujících proměnných. Rozptyl odhadu βˆj−1 při daných hodnotách vysvětlujících proměnných, potom odhadneme jako j-tý diagonální prvek matice , kde matice X obsahuje v prvním sloupci samé jednotky a v j-tém hodnoty pozorování proměnné xj−1 . Odmocnině z odhadu odhadu βˆj , anglicky standard error, a značíme sβˆj . rozptylu βˆj říkáme Abychom mohli konstruovat intervaly spolehlivosti a provádět testy hypotéz a ohledně hodnot parametrů βj , nestačí znát jen střední hodnotu a rozptyl pro odhady jednotlivých parametrů; potřebujeme vědět, jaké mají . Ukazuje se, že je výhodné mluvit nikoli přímo o rozdělení odhadů, nýbrž o rozdělení standardizovaných odhadů spočtených jako βˆj − βj
,
při n → ∞, tj. pro velké jejichž rozdělení se při splnění G-M předpokladů blíží k (vzorec) výběry. Pro malé výběry musíme přijmout další předpoklad (nad rámec G-M), a sice předpoklad o složky. Standardizované odhady pak mají rozdělení s stupni volnosti, kde k je počet vysvětlujících proměnných. Příklad 4.2 Vysvětlete, co je špatně na následujících tvrzeních. Všechny se vztahují k odhadům LRM (1). a ) „Používám nestrannou odhadovou metodu. Nemusím se tedy bát, že můj odhad parametru β1 bude o hodně vyšší, nežli je jeho skutečná hodnota.“ b ) „Moje odhadová technika systematicky nadhodnocuje vliv proměnné x. To znamená, že odhad koeficientu β1 bude vyšší, nežli je jeho skutečná hodnota.“ c ) “Odhadová technika A je vydatnější nežli odhadová technika B. To znamená, že odhady pořízené pomocí A jsou vždy přesnější než odhady pořízené pomocí B.“ Příklad 4.3 (Monte Carlo.) Na přednáškách zkoumáte statistické vlastnosti MNČ analytickými prostředky. Existuje ještě jiná možnost, a sice počítačová simulace (někdy též nazývaná metodou Monte Carlo). Uvažujte lineární regresní model y = β0 + β1 x + u,
β0 = 5, β1 = 10,
(2)
který splňuje všechny G-M předpoklady, a náhodný výběr o 15 pozorováních. Proveďte následující simulaci v MS Excel (můžete využít soubor MonteCarlo.xls). a ) Náhodně generujte hodnoty x a u pro vašich 15 pozorování a zapište je do dvou sloupců. Použijte funkci RANDBETWEEN – tato funkce vrací náhodná celá čísla mezi zadanými mezemi. Pro x můžete použít libovolné meze, nicméně aby byly splněny G-M předpoklady, Eu musí být rovno nule. Horní a dolní mez pro u musí tedy být opačná čísla; jinými slovy, použijte RANDBETWEEN(−umax , umax ). b ) Vytvořte sloupce pro y a E[y |x]; ty budou dopočítány podle (2).
8
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
c ) Nakreslete bodový diagram (scatterplot) pro y vs. x a přidejte do něj přímku E[y |x] = β0 +β1 x. Za opakovaného stisku klávesy F9 sledujte, jak se vyvíjejí hodnoty pro váš náhodný výběr. Co představuje v grafu náhodná složka u? d ) Spočtěte odhady βˆ0 a βˆ1 pořízené MNČ pomocí funkcí INTERCEPT a SLOPE. Pak vypočítejte vyrovnané hodnoty vysvětlované proměnné (ˆ y ) a rezidua (e). Přidejte do grafu získanou regresní funkci, tj. přímku yˆ = βˆ0 + βˆ1 x. Opět tiskněte F9 a posuďte, jak blízko jsou ke skutečným hodnotám β0 a β1 . Který z dvou odhadů bývá v průměru přesnější, βˆ0 nebo βˆ1 ? Co představují v grafu rezidua e? e ) Desetkrát stiskněte F9, zapište výsledné hodnoty βˆ0 a βˆ1 a pak spočtěte prostý aritmetický průměr ze všech deseti pokusů pro βˆ0 a βˆ1 . Jaké výsledky byste očekávali, kdybychom provedli tisíc pokusů místo deseti? f ) Otevřete soubor MonteCarlo2.xls. Je zde zautomatizován experiment z bodu e pro tisíc pokusů. Všech tisíc hodnot pro βˆ0 a βˆ1 je zapsáno ve sloupcích W a AC. Ve stejných sloupcích lze vyčíst i průměr a výběrovou směrodatnou odchylku ze všech 1000 pokusů. Porovnejte směrodatné odchylky pro βˆ0 a βˆ1 . Odpovídá rozdíl těchto hodnot vašim předchozím závěrům ohledně přesnosti jednotlivých odhadů? g ) Histogramy napravo zachycují relativní četnosti pro βˆ0 (zelená) a βˆ1 (modrá) v rámci všech 1000 pokusů. Tyto grafy nám napovídají něco o pravděpodobnostních rozděleních náhodných veličin βˆ0 a βˆ1 . Připomínají vám histogramy svým tvarem nějaké důvěrně známé rozdělení? h) Vytvořte nový soubor v MS Excel a uložte do prvních dvou sloupců aktuálních 15 hodnot proměnných x a y. Následně načtěte data z tohoto souboru do Gretlu a odhadněte lineární regresní model y = β0 + β1 x + u pomocí MNČ. Co vám říkají hodnoty ve sloupci std. error? Odpovídají jejich hodnoty podobným údajům zjištěným na základě Monte Carlo simulací? Co je nejspíš přesnějším měřítkem rozptylu odhadů, čísla ve sloupci std. error v Gretlu nebo směrodatné odchylky spočítané ze souboru 1000 pokusů pro βˆ0 a βˆ1 ? Příklad 4.4 (Asymptotika.) Společnost Klapeme, s. r. o., pořádá intenzivní tréninkové kurzy v psaní všemi deseti. Jejím cílem je odhadnout model, který porovnává hodiny tréninku (trénink) s počtem překlepů na jednu přepisovaného textu (překlepy). Bude proto odhadovat lineární regresní model překlepy = β0 + β1 trénink + u. Představme si, že by firma postupně sbírala údaje o náhodném souboru 10 lidí, 20, lidí, 100 lidí, 1000 lidí atd. a pokaždé odhadla koeficienty β0 a β1 . Předpokládejme, že jsou v modelu splněny všechny G-M předpoklady. Určete, které z následujících statistik se budou někam systematicky vyvíjet (nahoru či dolů) a uveďte kam. U ostatních (které budou oscilovat nesystematicky) určete, zdali se s rostoucím rozsahem výběru bude ustalovat jejich hodnota okolo určité úrovně. a ) odhadnuté koeficienty, b ) odhad rozptylu náhodné složky, c ) směrodatné chyby (standard errors) odhadovaných koeficientů, d ) R2 . Co se bude dít s t-poměrem pro trénink (tb1 = b1 /sb1 ), předpokládáme-li, že. . . a ) . . . trénink je zcela k ničemu. b ) . . . trénink pomáhá při omezení překlepů. Lze v tomto případě nějak snadno určit asymptotické pravděpodobnostní rozdělení pro t-poměr?
Cvičení 5: Vícenásobná regrese Příklad 5.1 Vaším záměrem je provést pro studenty VŠE studii, která se se zabývá vztahem mezi studijním průměrem a časem stráveným různými aktivitami. Máte k dispozici výsledky ankety, ve které studenti rozdělili celý svůj průměrný týden mezi následující čtyři kategorie: studium, práce, zábava a spánek. Studenti měli za úkol roztřídit veškeré své aktivity mezi tyto čtyři kategorie, čili součet hodin strávených ve všech kategoriích musí dát 168. 9
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
a ) Uvažujte lineární regresní model stud_průměr = β0 + β1 studium + β2 práce + β3 zábava + β4 spánek + u.
(3)
Mohou se dvě pozorování (např. i-tý a j-tý student) lišit pouze v jedné vysvětlující proměnné? b ) Vysvětlete, proč vysvětlující proměnné v modelu (3) porušují G-M předpoklady. c ) Navrhněte nějakou změnu modelu (3) tak, aby byl odstraněn problém s G-M předpoklady, a koeficienty modelu (tj. βj ) měly přitom interpretaci, která se vztahuje k původnímu zadání. Uveďte interpretaci koeficientů v upraveném modelu. Příklad 5.2 (Spánek vs. práce.) Následující model je zjednodušenou verzí modelu z článku Biddleho a Hamermeshe (1990), který mj. zkoumá, zda lidé kompenzují delší pracovní dobu zkrácením délky spánku: sleep = β0 + β1 totwrk + β2 educ + β3 age + u, kde sleep a totwrk (total work) jsou vyjádřeny v minutách za týden a educ (education) a age jsou měřeny v letech. a ) Pokud lidé kompenzují delší pracovní dobu kratším spánkem, jaké je znaménko β1 ? b ) I v případě, že model je zcela správně specifikován (a všechny G-M předpoklady jsou splněny), musí nutně vyjít stejné znaménko i u βˆ1 ? c ) Co si myslíte o znaménkách koeficientů β2 a β3 ? d ) Data o výběrovém vzorku obsahuje souboru sleep.gdt, odhadněte uvažovaný model a zapište odhadnutou regresní funkci. e ) Přesně interpretujte odhadnuté koeficienty. f ) Pokud se někdo rozhodne pracovat o 5 hodin týdně víc, jaké zkrácení jeho doby spánku byste očekávali? Je to velká kompenzace? g ) Vysvětlují proměnné totwrk, educ, a age velkou část výběrové variability proměnné sleep? Jaké další faktory ovlivňují délku spánku? Mohou být některé z nich korelovány s totwrk? Který z G-M předpokladů by to porušilo? h) Máte za úkol provést na 5% hladině významnosti statistický test s hypotézami H0 : β2 = 0, H1 : β2 6= 0. Vysvětlete, co přesně říká nulová hypotéza, a následně test vyhodnoťte. i ) Změnil by se závěr předchozího testu, pokud bychom použili jednostrannou alternativu H1 : β2 < 0? Příklad 5.3 (Nízké R2 .) Pro tento příklad použijte soubor birth_weight.gdt (se kterým jsme pracovali už v příkladě 3.4). a ) Odhadněte rovnici log(bwght) = β0 + β1 cigs + β2 log(faminc) + β3 male + β4 parity + β5 white + u a zapište odhadnutou regresní funkci v rovnicovém tvaru, včetně směrodatných chyb. Rada: Můžete po odhadu rovnice využít funkce File → View as equation. b ) Interpretujte získané R2 . Myslíte, že jeho hodnota snižuje použitelnost modelu? c ) Máte testovat, zda je vliv kouření ceteris paribus statisticky významný na hladině významnosti 5 %. Formulujte formálně nulovou a alternativní hypotézu (použijte oboustrannou alternativu). Test následně vyhodnoťte pomocí 95% intervalu spolehlivosti pro koeficient β1 , který vypočtěte podle přibližného vztahu bodový odhad ± 2×směrodatná chyba, neboli v Gretlu coefficient ± 2×std. error . Poté výsledek porovnejte s výsledkem Analysis → Confidence intervals for coefficients. Co přesně nám říká 95% interval spolehlivosti? Myslíte, že je vliv kouření v těhotenství odhadnutý dostatečně přesně? 10
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
Příklad 5.4 (Ojeté škodovky – interpretace, dummy proměnné atd.) Data, se kterými se pracuje v tomto příkladě, pocházejí z ledna 2004 a týkají se 328 ojetých vozů značky Škoda; konkrétně jde o modely Octavia, Felicia a Superb. Shromáždil jsem je kdysi pro účely semestrální práce na předmět Statistika a SPSS na této škole. a ) Prohlédněte si obsah souboru škoda_původní.xls a zamyslete se, jak kvantifikovat do ekonometrických proměnných údaje o modelu vozu, použitém palivu a objemu motoru. b ) Ve zbylých úkolech pracujte se souborem škoda.gdt. Otevřete jej v Gretlu a podívejte se, jak jsou kvantifikovány jednotlivé proměnné. Rada: Zobrazení dat, které nejvíce připomíná databázi z tabulkového kalkulátoru typu MS Excel, se vyvolá pomocí View → Icon view → Data set. c ) Odhadněte LRM, který vysvětluje cenu vozidla pomocí proměnných km a stari a interpretujte odhadnuté koeficienty u jednotlivých regresorů. Lze nějak smysluplně interpretovat i intercept? Připadá vám jeho výše „rozumná“? d ) Nechte otevřené okno s předchozím výstupem a odhadněte LRM, který vysvětluje cenu vozidla pomocí proměnných km a rok. Sledujte rozdíly oproti předchozímu modelu. Jak byste interpretovali konstantu v tomto případě? e ) Odhadněte lineární regresní model, který vysvětluje cenu vozidla pomocí všech dostupných regresorů. Proč byly z modelu vyřazeny některé proměnné? Vysvětlete. f ) Odhadněte model znovu, tentokrát vynechejte vysvětlující proměnné rok, felicia a benzin. Interpretujte koeficienty a porovnejte je s předchozími výsledky. g ) Zkuste vytvořit co nejlepší model vysvětlující cenu ojeté škodovky. Je zde lineární tvar regresního modelu na místě? Zkuste odpověď ekonomicky zdůvodnit, zvažte (a následně odhadněte) jiný funkční tvar modelu. Důsledně interpretujte odhadnuté koeficienty a porovnejte je s předchozími výsledky. h) Jakou cenu byste požadovali (v lednu 2004) za škodu Felicii, která má najeto 100 000 km, motor 1.9D a je vyrobena v roce 1998? Návod: Pokud jste v předchozím bodě pracovali podle mých očekávání, berete za vysvětlovanou proměnnou log(cena). Predikce v takovém případě není úplně jednoduchá, viz Wooldridge (2002), str. 202.
Cvičení 6: Vícenásobná regrese II Příklad 6.1 (Lineární restrikce koeficientů.) a ) Uvažujte model, který vysvětluje závislost mezd (wage) na vzdělání (v letech, educ), pracovních zkušenostech (v letech, exper), a době strávené u aktuálního zaměstnavatele (v letech, tenure), ve tvaru log(wage) = β0 + β1 educ + β2 exper + β3 tenure + u, b ) Formulujte nulovou hypotézu, že dodatečný rok všeobecných pracovních zkušeností má stejný dopad na mzdu jako další rok strávený u stávajícího zaměstnavatele. c ) Odhadněte zadaný model pomocí dat ze souboru wages.gdt. Testujte hypotézu z bodu b proti oboustranné alternativě na hladině významnosti 5%. Příklad 6.2 (Interakce proměnných, F -test a multikolinearita.) Pracujte opět s daty v souboru škoda.gdt, se kterými jste pracovali již v příkladu 5.4. a ) Budeme se zajímat o rozdíly mezi Octaviemi a Feliciemi. Jelikož Superby v našem výběrovém souboru svými charakteristikami značně vybočují (v roce 2004 byly všechny existující Superby poměrně nová auta), budeme je chtít z výběrového souboru pro následující výpočty vypustit. Omezte tedy výběrový soubor pouze na ta pozorování, kde superb = 0. Návod: Použijte funkci Sample → Restrict, based on criterion. b ) Vaším cílem je zjistit, zdali se pro Octavie a Felicie liší přirážka za variantu kombi. Odhadujete proto model cena = β0 + β1 octavia + β2 kombi + β3 octavia · kombi + u.
11
Základy ekonometrie: příklady ze cvičení (ZS 2012)
c)
d)
e)
f)
Jan Zouhar
Vysvětlete přesně, jakou interpretaci budou mít jednotlivé parametry. Následně formulujte hypotézu, že přirážka za kombi variantu je pro oba modely shodná. Nakonec model odhadněte a hypotézu testujte na 5% hladině proti jednostranné alternativě, že přirážka za kombi je vyšší pro Octavie. Vysvětlete, proč předchozí model neposkytl netranný odhad rozdílu přirážky v důsledku kombi varianty. Jinými slovy, ukažte, že nejde o rozdíl v přirážce ceteris paribus. Následně se pokuste formulovat model, který bude v tomto ohledu vyhovovat lépe, a opakujte test hypotézy z předchozího bodu. Odhadněte model, který bude vysvětlovat logaritmus ceny vozu pomocí všech dostupných proměnných (již víte, že některé z proměnných udávajících model a palivo je třeba vynechat; vynechejte proto proměnné octavia a benzin). Následně formulujte a testujte hypotézu, že palivo nemá vliv na výši ceny (ceteris paribus). Spočtěte tzv. VIF ukazatel v předchozím modelu pro proměnnou stari: odhadněte pomocný model, který vysvětluje stáří vozu pomocí proměnných udávajících najeté kilometry, model, 2 2 typ karoserie a palivo, a spočtěte VIFstari = 1/ 1−Rstari , kde Rstari je koeficient determinace z pomocné regrese. Dopočtěte VIF pro ostatní proměnné pomocí procedury Tests → Collinearity v okně s výstupem pro model z bodu d.
Příklad 6.3 (Kvadratická regrese.) Pro tento příklad použijte data ze souboru wages.gdt. a ) Odhadněte lineární regresní model ve tvaru wage = β0 + β1 exper + β2 exper2 + u a zjistěte, zdali mají zkušenosti jedince (vyjádřené v letech) vždy pozitivní vliv, či zda mohou po určitém počtu let z hlediska mzdy spíše škodit. Pokud ano, najděte takovou hodnotu exper, kdy začínají dodatečné zkušenosti snižovat mzdu („bod zlomu“). Diskutujte možné zkreslení závěrů při použití uvedeného modelu. b ) Na základě bodu a zjistěte, s jakým přírůstkem mzdy je spojen pátý rok zkušeností. c ) Řešte analogický problém jako v bodu a s tím, že tentokrát použijete logaritmované mzdy, tj. budete pracovat s modelem log(wage) = β0 + β1 exper + β2 exper2 + u. d ) Na základě bodu c zjistěte, s jakým přírůstkem mzdy je spojen pátý rok zkušeností. Použijte přitom aproximaci . %∆wage = 100(βˆ1 + 2βˆ2 exper)∆exper. e ) Odhadněte lineární regresní model ve tvaru wage = β0 + β1 exper + β2 exper2 + β3 educ + β4 female + u
f) g) h) i)
a formulujte hypotézu, že vliv pracovních zkušeností není významný. Následně tuto hypotézu testujte na 5% hladině významnosti. Zjistěte, zda se výnosnost investice do vzdělání (returns to education) liší pro muže a ženy (použijte vhodný regresní model, který bude obsahovat interakci female · educ). Nahraďte v předchozím modelu interakci female·educ výrazem female·(educ−12.5). Porovnejte v obou modelech koeficient u proměnné female a diskutujte rozdíly. Zjistěte, zda se výnosnost investice do vzdělání liší pro občany bílé pleti a pro ostatní. Odhadněte model, ve kterém se výnosnost investice do vzdělání liší podle dosažených zkušeností. Testujte nulovou hypotézu, že výnosnost investice na aktuální úrovni zkušeností nezávisí.
Cvičení 7: Heteroskedasticita
12
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
Příklad 7.1 (Teoretická doplňovačka.) Vyskytuje-li se v našem LRM heteroskedasticita, znamená to, že je porušen jeden z předpokladů, konkrétně ten, který vyžabyl konstantní (a konečný); matematicky duje, aby zapsáno, = , kde x představuje vektor všech vysvětlujících proměnných a σ 2 je nějaké kladné reálné číslo. Již jsme si uvedli příklad modelů, ve kterých se zdá zřejmé, že tento předpoklad bude porušen – viz třeba příklad 3.3. Obecně vzato, heteroskedasticita se vyskytuje jak u průřezových dat, tak v časových řadách. U průřezových dat zpravidla předpokládáme, že se rozptyl náhodné složky systematicky mění s hodnotami jedné nebo několika vysvětlujících proměnných. U časových řad existuje navíc . možnost, že rozptyl náhodné složky kolísá Heteroskedasticita nestrannost a konzistenci odhadů regresních koeficientů pořízených . Je ovšem zřejmé, že nejsou korektně spočteny veškeré ukazatele, při jejichž výpočtu se pracuje se σ 2 (neboť při heteroskedasticitě nemá smysl počítat s jedním číslem, které by charakterizovalo rozptyl náhodné složky pro všechna pozorování). Konkrétně, nejsou korektní výsledky chyb, čili ani výsledky -testů a -testů. Vztaženo k výstupu z Gretlu, ohledně sloupcích výsledkové nemá smysl se příliš zabývat výsledky v posledních (doplňte číslovku) tabulky a v . řádku výstupu pod tabulkou. Přítomnost heteroskedasticity lze statisticky testovat. Jelikož chceme zjistit něco o náhodné složce , spočtené po u, jejíž hodnoty však neznáme, používáme pro účely testování hodnoty odhadu modelu pomocí MNČ. Statistické testy heteroskedasticity lze dělit na a . První z nich se vyznačují tím, že předpokládáme nějaký konkrétní funkční tvar závislosti rozptylu náhodné složky na hodnotách vysvětlujících proměnných a odhadujeme parametry této funkce. Patří sem například test nebo test. V obou těchto testech se postupuje nejprve tím způsobem, že se odhadne pomocný LRM, který vysvětluje hodnotu (která aproximuje rozptyl náhodné složky) pomocí všech vysvětlujících proměnných z původního modelu ( test zde zahrnuje i druhé mocniny a interakce těchto proměnných). Pokud je v modelu , neměly by být v této pomocné regresi vysvětlující proměnné jako celek statisticky významné – pro vyhodnocení lze tedy použít -test. Tradičně se ovšem používají i jiná kritéria, konkrétně tzv. LM -statistika, spočtená jako , kde n je počet pozorování a Re22 je koeficient determinace z pomocné regrese. Tato statistika se testuje proti kritickým hodnotám rozdělení s stupni volnosti, kde p je počet odhadovaných parametrů v pomocné regresi. Příkladem testu je Spearmanův test korelace pořadí. Vychází z myšlenky, že pokud se rozptyl náhodné složky systematicky vyvíjí s hodnotami proměnné x, potom by mělo být korelováno pořadí pozorování podle |e| a podle x. Počítá se proto Spearmanův podle vzorce Pn 6 i=1 di2 r|e|,x = 1 − . n(n2 − 1) Jeho možné hodnoty jsou mezi a , hodnoty poblíž obou těchto extrémů indikují přítomnost . Ná základě r|e|,x lze též konstruovat statistický test, jehož testová statistika se dopočte z r|e|,x a porovnává se s kvantily Studentova rozdělení. Pro praktické použití je důležité si pamatovat, že nulová hypotéza u všech testů heteroskedasticity říká, že náhodná složka u je . Nízké p-hodnoty tedy poukazují na heteroskedasticity. Příklad 7.2 (Testování heteroskedasticity.) Pro tento příklad použijte soubor house2.gdt. a ) Odhadněte rovnici price = β0 + β1 lotsize + β2 sqrft + β3 bdrms + u a uložte druhou mocninu reziduí, tj e2 (Save → Squared residuals).
13
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
b ) Proveďte Breuschův-Paganův test heteroskedasticity: odhadněte rovnici e2 = γ0 + γ1 lotsize + γ2 sqrft + γ3 bdrms + ε
c)
d)
e) f)
a testujte nulovou hypotézu o současném vynulování parametrů γ1 , γ2 , γ3 . Poté spočtěte hodnotu LM -statistiky a porovnejte ji s 95% kvantilem χ23 . Jaké jsou závěry testů ohledně přítomnosti heteroskedasticity? Proveďte Whiteův test heteroskedasticity: vysvětlete e2 pomocí proměnných lotsize, sqrft, bdrms, lotsize2 , sqrft2 , bdrms2 , lotsize·sqrft, lotsize·bdrms, sqrft·bdrms a testujte hypotézu o současném vynulování koeficientů u těchto proměnných. Poté opět testujte pomocí LM -testu. Jaký bude v tomto příkladě počet stupňů volnosti pro použité χ2 rozdělení? Odhadněte model z bodu a znovu, tentokrát však pracujte se vzorcem pro výpočet směrodatných chyb, který je robustní vůči heteroskedasticitě. Jak se změnily intervalové odhady a závěry z testů hypotéz? Odhadněte model metodou zobecněných nejmenších čtverců (MZNČ, Model → Other linear models → Heteroskedasticity corrected) a porovnejte s předchozími výsledky. Opakujte body a, b, c pro model log(price) = β0 + β1 log(lotsize) + β2 log(sqrft) + β3 bdrms + u. Pozn.: Logaritmická transformace vysvětlované proměnné často pomůže snížit míru heteroskedasticity.
Příklad 7.3 (Spearman korelující, testující.) Hodnoty proměnné x v lineárním regresním modelu y = β0 + β1 x + u a hodnoty reziduí získané po odhadu parametrů pomocí MNČ jsou uvedeny v následující tabulce. Pomocí Spearmanova koeficientu korelace pořadí vyšetřete, zda je v modelu přítomna heteroskedasticita. i
1
2
3
4
5
xi ei
5 0
10 1
11 −0.5
16 2
13 −2.5
Příklad 7.4 (Cobbova-Douglasova produkční funkce.) Soubor CDPF.gdt obsahuje data o 868 zemědělských firmách, jmenovitě záznamy o roční produkci obilovin (produkce), použitém množství hnojiva NPK (hnojivo) a spotřebě energie a maziv (energie), vždy vztaženo k hektaru půdy. a ) Odhadněte Cobbovu-Douglasovu produkční funkci pro uvedené vstupy a výstup a zapište její výsledný tvar. b ) Určete charakter výnosů z rozsahu pro vaši produkční funkci. Testujte na 5% hladině nulovou hypotézu, že výnosy z rozsahu jsou konstantní. c ) Určete elasticitu (tj. relativní pružnost) produkce vůči změnám v použitém množství hnojiva. d ) Určete mezní míru technické substituce hnojiva za energii. e ) Určete elasticitu substituce hnojiva za energii.
Cvičení 8: Úvod do práce s časovými řadami Příklad 8.1 (Trendy lososi.) V souboru losos.gdt najdete časovou řadu popisující roční výlov lososů norskými rybářskými společnostmi (losos) a údaje o hrubém domácím produktu USA (gdp) za roky 1983–2011. a ) Odhadněte rovnici gdpt = β0 + β1 losost + ut a otestujte, zda je β1 statisticky významně odlišné od nuly. Co vám říká výsledek o provázanosti rybolovu v Norsku a HDP v USA? Vysvětlete. 14
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
b ) Odhadněte stejný model s tím, že nejprve očistíte proměnnou gdp o lineární trend. Nejprve přidejte v Gretlu proměnnou t, která bude v roce 1983 nabývat hodnoty 1, v roce 1984 hodnoty 2 atd. Nejsnáz toho docílíte volbou Add → Time trend. Poté odhadněte rovnici gdpt = α0 + α1 t + εt a uložte výsledná rezidua pod názvem gdpoc (tato rezidua představují HDP v USA očištěný o lineární trend). Nakonec odhadněte rovnici gdpoct = β0 + β1 losost + ut . Co říkají nové výsledky o vztahu obou veličin? c ) Odhadněte rovnici gdpt = β0 + β1 losost + β2 t + ut a porovnejte s výsledky z bodu b. Příklad 8.2 (Lineární vs. exponenciání trend.) V souboru HDP.xls najdete údaje o HDP v ČR v letech 1995–2007. Nejprve importujte data do Gretlu a zvolte příslušný formát časové řady. Poté popište vývoj HDP v čase pomocí a ) lineárního trendu, tj. odhadněte model hdpt = β0 + β1 t + ut , b ) exponenciálního trendu, tj. odhadněte model ln(hdpt ) = β0 + β1 t + ut . V obou případech důsledně interpretujte koeficient β1 . Příklad 8.3 (Logistický růstový model.) V souboru mycka.xls najdete údaje o vývoji vybavenosti domácností v ČR myčkou nádobí v letech 1999–2008 (hodnoty představují počet domácností v tisících). Odhadněte logistický růstový model pro vybavenost myčkou za předpokladu, že potenciální velikost celého trhu je 4 mil. domácností. Určete a interpretujte inflexní bod odhadnuté logistické S-křivky. Příklad 8.4 (Sezónní ochutnávka.) Měsíční a čtvrtletní makroekonomické časové řady se zpravidla vykazují v podobě sezónně očištěných údajů; bývá problém vůbec se dostat k původním neočištěným údajům. V případě, že pracujete s neočištěnými údaji, je dobré vědět, že existuje jedna velmi jednoduchá metoda pro posouzení a korekci sezónnosti, založená na použití dummy proměnných. a ) Soubor durgoods.gdt obsahuje čtvrtletní údaje o prodeji předmětů dlouhodobé spotřeby v USA v letech 1975–1984. Otevřete tento soubor a sdělte Gretlu, že se jedná o čtvrtletní časovou řadu (Data → Dataset structure). b ) Vytvořte dummy proměnné q1t až q4t definované jako ( 1 pro pozorování z i-tých čtvrtletí, qit = 0 jinak. V Gretlu toho docílíte snadno volbou Add → Periodic dummies. Následně odhadněte model disht = β0 + β1 q1t + β2 q2t + β3 q3t + ut . O kolik se v průměru liší prodeje myček (dish) v poslední čtvrtletí oproti prvnímu? c ) Formulujte nulovou hypotézu, že prodeje myček nepodléhají sezónním výkyvům. Následně ji testujte na 5% hladině významnosti. d ) Proveďte stejnou analýzu i pro ledničky a pračky. Který z výrobků vykazuje při prodeji sezónnost? Uměli byste vaše výsledky nějak ekonomicky zdůvodnit?
15
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
e ) Pro model popisující pračky si nechte vykreslit graf s původní i sezónně očištěnou časovou řadou (Graphs → Fitted, actual plot. . .). Příklad 8.5 (Dynamická CDPF.) V souboru farms.gdt najdete agregovaná data o zemědělské výrobě v USA za roky 1948 až 1993. a ) Odhadněte model ln(output t ) = β0 + β1 ln(labor t ) + β2 ln(machines t ) + ut . Interpretujte odhadnuté koeficienty a vysvětlete, proč nejsou v souladu s apriorními očekávání jejich hodnot. Diskutujte možné příčiny. b ) Odhadněte dynamickou Cobbovu-Douglasovu produkční funkci, tj. model output t = β0 · labortβ1 · machinestβ2 · eβ3 t+ut , interpretujte získané odhady a porovnejte výsledky s bodem a.
Cvičení 9: Autokorelace Příklad 9.1 Autokorelace se vyskytuje především při práci s . Jedná se o porušení jednoho z předpokladů, konkrétně toho, který požaduje, aby (zapište vzorcem) pro všechna s různá od t. Při její detekci zpravidla předpokládáme, že náhodné složky ut jsou generovány procesem (tzv. AR(1) procesem), který má předpis ,
ut =
(4)
kde ρ představuje koeficient prvního řádu a εt jsou v čase nekorelované náhodné složky s nulovou střední hodnotou a konstantním a konečným rozptylem. Aby byl AR(1) proces stacionární, musí být hodnota ρ mezi a . Je-li ρ > 0, hovoříme o autokorelaci, pokud ρ < 0, jde o autokorelaci . Koeficient ρ se zpravidla odhaduje tak, že do rovnice (4) dosadíme namísto neznámých hodnot náhodné složky (ut ) známá , získaná po odhadu původní rovnice (y = x>β + u) metodou nejmenších čtverců. Namísto (4) tak získáme rovnici + εt ,
=
(5)
kterou můžeme opět odhadnout MNČ. Při detekci autokorelace ovšem nevycházíme z předchozí rovnice, nýbrž zpravidla počítáme tzv. statistiku d podle předpisu .
d=
Pro dané k a n (tj. počet regresorů a pozorování) jsou tabelovány kritické hodnoty jejichž základě vyhodnocujeme tzv. DW-test následujícím způsobem: • je-li d < • je-li d > • je-li d mezi
a
, na
, počítáme s autokorelací, , počítáme s autokorelací, a , nezamítáme hypotézu o absenci autokorelace,
v ostatních případech jsou výsledky DW-testu neprůkazné. DW-test není korektní (a nepoužíváme ho) v případě, že • zkoumaný model neobsahuje • zkoumaný model obsahuje mezi regresory zpožděné hodnoty
16
, nebo proměnné.
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
Příklad 9.2 Hodnoty reziduí, které byly získány po odhadu lineárního regresního modelu yt = β0 + β1 xt + ut ,
t = 1, 2, . . . , 6
pomocí mnč, jsou v následující tabulce. Testujte pomocí Durbinovy-Watsonovy statistiky, zda je v modelu přítomna autokorelace. t et
1 2
2 0
3 -1
4 -2
5 0
6 1
Příklad 9.3 V souboru usa.gdt jsou k dispozici roční údaje o agregátní spotřebě v USA (cons) a hrubém domácím produktu USA (usa) v letech 1959–1994. a ) Odhadněte lineární regresní model gdpt = β0 + β1 cons t + β2 t + ut ,
t = 1959, . . . , 1994
a testujte, zda se v získaných reziduích vyskytuje autokorelace. Nejprve použijte DurbinovuWatsonovu statistiku (tj. proveďte DW-test), a poté proveďte t-test pro rovnice tvaru et = ρet−1 + vt , et = β0 + β1 cons t + β2 t + β3 et−1 + εt . b ) Odhadněte lineární regresní model gdpt = β0 + β1 cons t + β2 gdpt−1 + ut ,
t = 1960, . . . , 1994
a testujte, zda se v získaných reziduích vyskytuje autokorelace. Použijte Durbinovo h a Breuschův-Godfreyův test. Příklad 9.4 S použitím dat ze souboru makro.xls uvažujte lineární regresní model ve tvaru output t = β0 + β1 cons t + β2 inc t + ut ,
t = 1980:1, . . . , 2004:4.
a ) Model odhadněte pomocí mnč a ukažte, že je v modelu přítomna autokorelace prvního řádu. b ) Pokuste se odstranit autokorelaci s využitím odhadu r autokorelačního koeficientu ρ. c ) Odhadněte model pomocí Cochraneovy-Orcuttovy metody a porovnejte výsledky z bodů a,b,c.
Cvičení 10: Průběžný test
Cvičení 11: Modely simultánních rovnic Příklad 11.1 Uvažujte model simultánních rovnic popisujících funkce nabídky a poptávky ve tvaru qt = α0 + α1 pt + α2 yt + ut , q t = β0 + β1 p t + vt ,
t = 1, 2, . . . , T, t = 1, 2, . . . , T,
(6)
přičemž předpokládáme, že hodnoty parametrů splňují α1 > 0, α2 < 0, β1 > 0. a ) Určete, které proměnné jsou v uvedeném modelu endogenní a které exogenní. b ) Soustava (6) představuje strukturní tvar msr. Převeďte soustavu do tvaru redukovaného. c ) po odhadu redukovaného tvaru pt = π10 + π11 yt + w1t , qt = π20 + π21 yt + w2t ,
t = 1, 2, . . . , T, t = 1, 2, . . . , T
jsme získali následující hodnoty: π10 = 1, π11 = 2, π20 = 3, π21 = 4. Pokuste se na základě těchto hodnot odhadnout původní parametry modelu (6). 17
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
d ) Ověřte řádovou podmínku identifikace obou rovnic. e ) Ověřte hodnostní podmínku identifikace obou rovnic. Příklad 11.2 V souboru plyn.xls jsou uvedeny údaje z USA o celkových tržbách za dodávky plynu v mld. USD (q), cenách plynu (p) a příjmech domácností (y) v letech 1980–2000. Uvažujte model simultánních rovnic qt = α0 + α1 pt + α2 yt + ut , qt = β0 + β1 pt + β2 qt−1 + vt ,
t = 1981, . . . , 2000, t = 1981, . . . , 2000.
(7)
a ) Určete, které proměnné jsou v uvedeném modelu endogenní a které predeterminované. b ) Určete, zda jsou jednotlivé rovnice podidentifikované, přesně identifikované nebo přeidentifikované. c ) Odhadněte soustavu (7) metodou nepřímých nejmenších čtverců. d ) Odhadněte soustavu (7) metodou dvoustupňových nejmenších čtverců a porovnejte výsledky s přechozím bodem.
Cvičení 12: Rezerva
Dodatek: Namátkové poznámky Multikolinearita. Platí: var(βˆj |x) =
σ2 , SSTj (1 − Rj2 )
P kde SSTj = i (xij − x ¯j )2 , tedy SSTj je celkový součet čtverců proměnné xj , a Rj2 je koeficient determinace z pomocné regrese, kde vysvětlujeme xj pomocí zbylých vysvětlujících proměnných, tj. pomocí x1 , . . . , xj−1 , xj+1 , . . . , xk . V Gretlu lze snadno vypočítat tu část výše uvedeného vzorečku, která poukazuje na míru multikolinearity, a sice tzv. variance inflation factors (VIF ), definované jako VIFj =
1 . 1 − Rj2
VIF se zobrazí, zvolíme-li v menu okna s výstupem po odhadu modelu volbu Tests → Collinearity. Gretl naznačuje, že multikolinearitou má smysl se zabývat, je-li pro některé j hodnota VIF > 10, což odpovídá tomu, že Rj2 > 0.9. Pravdou ale je, že toto číslo nelze nijak pádně odůvodnit. Testování hypotéz po odhadu LRM. Po odhadu LRM lze testovat celá řada statistických hypotéz, udělejme si stručný přehled, jak na ně. • Významnost (parciálního, tj. očištěného) vlivu jednotlivých proměnných. Testujeme vlastně hypotézu o skutečném (ale neznámém) parametru βj , konkrétně při oboustranném testu H0 : βj = 0, H1 : βj 6= 0. Tady je situace jednoduchá, Gretl nám vrací automaticky p-hodnotu daného testu (a rovněž všemi tak oblíbené hvězdičky) v základní výsledkové tabulce. Často chceme volit test jednostranný – např. že stáří vozu (což je řekněme j-tá vysvětlující proměnná) má negativní vliv na jeho cenu, tj. chceme testovat H0 : βj = 0, H1 : βj < 0. Tady je na místě ostražitost. Vyjde-li βˆj > 0, zřejmě nezamítáme nulovou hypotézu. V opačném případě. tj. pokud data poukazují na očekávaný směr závislosti, stačí použít opět p-hodnotu z výsledkové tabulky s tím, že ji nejprve vydělíme 2 ! 18
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
• Konkrétní úroveň vlivu jednotlivých proměnných. Obecnějším případem předchozího testu je nulová hypotéza ve tvaru H0 : βj = c, kde c je libovolná konstanta. Volíme-li oboustrannou hypotézu, můžeme vyhodnotit test pomocí intervalu spolehlivosti: pokud neleží c v 95% intervalu spolehlivosti pro βj , zamítáme H0 na 5% hladině významnosti. Analogicky můžeme postupovat pro jiné hladiny významnosti, ale 95% interval spolehlivosti se snadno přibližně spočítá jako coefficient ± 2 × std. error. Pro libovolnou podobu alternativní hypotézy pak můžeme využít výsledek βˆj − βj sβˆj
při H0
=
coefficient − c ∼ tn−k−1 , std. error
kde tn−k−1 je Studentovo rozdělení s n − k − 1 stupni volnosti. Při testování vypočítáme výraz za rovnítkem a porovnáme s kritickými hodnotami ze Studentova rozdělení, které najdeme pod Tools → Statistical tables v základním okně Gretlu. • Významnost souhrnného vlivu několika proměnných. Tento test používáme např. v případě, že chceme testovat významnost vlivu kategoriálního faktoru zakódovaného do sady dummy proměnných – viz příklad 6.2c –, nebo pokud máme testovat vliv proměnné, která se vyskytuje v první i druhé mocnině (kvadratická regrese) – viz příklad 6.3e. V posledním zmiňovaném příkladu jsme měli hypotézy ve tvaru H0 : β1 = β2 = 0, H1 : non H0 , testujeme ji tzv. F -testem. Jméno naznačuje, že testová statistika má za platnosti H0 Fisherovo (též Fisherovo-Snedeckerovo) rozdělení s vhodně zvolenými stupni volnosti. Nic z toho si naštěstí nemusíme pro praktické použití pamatovat. Stačí vědět, že v Gretlu test spustíme v okně s výsledky našeho odhadu volbou Tests → Omit variables, ve výstupu koukáme na závěrečnou p-hodnotu. Speciálním případem tohoto testu je rovněž tzv. celkový F -test, kdy se testuje hypotéza, zda lze z modelu vynechat všechny vysvětlující proměnné současně. Hypotézy mají podobu H0 : β1 = . . . = βk = 0, H1 : non H0 . Upozorňuji, že k hodnotě úrovňové konstanty β0 se nulová hypotéza nijak nevyslovuje, jde pouze o koeficienty u vysvětlujících proměnných. Tento test není třeba ručně spouštět, jeho vyhodnocení je součástí standardního výstupu po odhadu modelu (v části pod hlavní tabulkou). • Lineární restrikce koeficientů. Lineární restrikce koeficientů jsou zobecněním předchozích omezení. Nulová hypotéza může být formulována v podobě nějaké soustavy lineárních rovnic, kterou musí koeficienty β0 , . . . , βk splňovat. Konkrétní využítí ukazuje např. příklad 6.1; tam měla H0 podobu H 0 : β2 = β3 , což je zřejmě jedna lineární rovnice v proměnných β2 a β3 . Alternativní hypotéza se opět volí vždy ve tvaru H1 : non H0 . Testujeme stejně jako v předchozím případě jistou formou F -testu, v Gretlu ji najdeme v nabídce Tests → Linear restrictions. Test opět vyhodnotíme na základě výsledné p-hodnoty.
19
Základy ekonometrie: příklady ze cvičení (ZS 2012)
Jan Zouhar
Cobbova-Douglasova produkční funkce (statická). CDPF představuje jeden z nejpoužívanějších funkčních tvarů, který ekonomové používají pro modelování nejen vícefaktorové produkce, ale rovněž např. funkce užitku apod. V učebnicích se zapisuje nejčastěji jako dvoufaktorová – výrobní faktory se zpravidla označují jako K a L a nazývají práce a kapitál –, ale lze ji jednoduše zobecnit na více výrobních faktorů. Označíme-li objem produkce jako Q, má tradiční CDPF předpis Q = aK α Lβ .
(8)
Zlogaritmováním obou stran (log je zde přirozený logaritmus) dostaneme log Q = log a + α log K + β log L. Toto už je tvar, který je lineární v parametrech α, β. Odhadujeme-li parametry CDPF z empirických dat, sestrojíme z ekonomického modelu model ekonometrický – parametry nazveme standardně jako βj a přidáme náhodnou složku: log Q = β0 + β1 log K + β2 log L + u.
(9)
Co se parametrů týče, udělali jsme vlastně substituci β0 = log a,
čili a = eβ0 ,
β1 = α, β2 = β. Model (9) již připomíná na první pohled LRM, můžeme odhadovat MNČ. Po odhadu je třeba si uvědomit, že zatímco parametry odhadnuté u výrobních faktorů jsou přímo odhady α a β, úrovňová konstanta je odhad log a, je tedy třeba ji prohnat exponencielou (neboť elog a = a). Následují některá zajímavá fakta o CDPF: • Jelikož jsou všechny proměnné modelu (9) logaritmovány, udávají koeficienty přibližné vztahy mezi relativními změnami výstupu na straně jedné a výrobních faktorů na straně druhé. Konkrétněji, α a β jsou elasticity výstupu vzhledem ke kapitálu a práci, neboli %∆Q ∆Q/Q = , ∆K/K %∆K %∆Q ∆Q/Q = . β' ∆L/L %∆L
α'
CDPF je tedy funkce s konstantními elasticitami, tj. elasticity nejsou závislé na aktuální výši K a L, jsou konstatní podél CDPF. • Mělo by platit, že 0 < α < 1. První nerovnost odpovídá požadavku, aby při nárůstu výrobního faktoru vzrostl výstup, druhá nerovnost zachycuje zákon o klesajícím mezním výnosu při změně jednoho výrobního faktoru. Stejné vztahy platí i pro β. • Součet α + β udává stupeň homogenity CDPF, neboli určuje výnosy z rozsahu. α+β
výnosy z rozsahu
<1 =1 >1
klesající konstantní rostoucí
• Mezní míra technické substituce práce za kapitál (MRTSL,K ) vyjadřuje, kolik potřebujeme přidat jednotek práce (L), pokud se kapitál (K) sníží o jednotku a chceme udržet stejný výstup (Q). Platí: α L MRTSL,K = · . β K Mezní míra technické substituce se tedy podél CDPF mění. • Elasticita substituce je podél celé CDPF konstantní a jednotková.
20