Obsah Úvod
5
1 Základy ekonometrického modelování 6 1.1 Lineární regresní model . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Metoda nejmenších čtverců . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Verifikace lineárního regresního modelu . . . . . . . . . . . . . . . . 10 2 Umělé proměnné v regresních modelech 2.1 Dichotomické umělé proměnné . . . . . . 2.2 Kategoriální umělé proměnné . . . . . . 2.3 Sezónní (umělé) proměnné . . . . . . . . 2.4 Shrnutí . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
13 13 16 20 22
3 Typové příklady obsahující umělé proměnné 3.1 Analýza typových příkladů uváděných v literatuře . . . . . 3.1.1 Náklady na koupi domu . . . . . . . . . . . . . . . 3.1.2 Lodní nehody . . . . . . . . . . . . . . . . . . . . . 3.2 Některé další příklady implementace umělých proměnných 3.2.1 Rodinné příjmy - studium důchodové dynamiky . . 3.2.2 Platby kreditní kartou . . . . . . . . . . . . . . . . 3.2.3 Faktory ovlivňující mzdu . . . . . . . . . . . . . . . 3.3 Uplatnění umělých proměnných v analýze sezónnosti . . . 3.3.1 Investice firem . . . . . . . . . . . . . . . . . . . . . 3.3.2 Stavební průmysl v ČR . . . . . . . . . . . . . . . . 3.4 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
24 24 24 27 29 29 36 40 49 49 52 60
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Závěr
62
Příloha
65
Příloha CD
73
4
Úvod Nejčastěji v ekonometrickém modelu vystupují takové kvantitativní proměnné, které jsou přímo měřitelné. V ekonometrické teorii se mimoto setkáváme s proměnnými, které nelze přímo ohodnotit, a přesto mohou sehrát důležitou roli v každé fázi ekonometrické analýzy. Takové proměnné nazýváme umělé (ang. dummy) a jejich pomocí můžeme do ekonometrických modelů zahrnout i mimoekonomické faktory konkretizující vlastnosti statistických jednotek, týkající se např. jednotlivců (pohlaví, národnost, barva pleti apod.), místního určení (sever proti jihu, regiony v rámci státu aj.) nebo při vyrovnání periodických sezónních výkyvů v časových řadách (sezónní proměnné), a získat tak podrobnější výpověď o zákonitostech ekonomeckých procesů a jevů. Cílem zpracování této diplomové práce je podrobnější analýza specifikací umělých (a sezónních) proměnných, při jejich zahrnutí jako vysvětlující veličiny do regresních rovnic a následné provedení kvantifikace, verifikace a interpretace ekonometrického modelu. Odhady parametrů všech proměnných v uvedených regresních rovnicích jsou spočteny pomocí programu MATLAB. K převážné většině příkladů je vykreslen i graf znázorňující pozorované vs. vyrovnané hodnoty (OLS Actual vs. Predicted) a rezidua (Residuals). První kapitola představuje teoretický úvod o základech ekonometrického modelování (v rámci lineárního regresního modelu) a použité odhadové metodě (metoda nejmenších čtverců). Druhá kapitola již blíže seznamuje se základními typy umělých proměnných a ke každému z nich je uveden typický příklad modelovaný buď na jednoduchém hypotetickém datovém souboru v příp. dichotomických a kategoriálních proměnných, nebo na reálných datech v příp. sezónních proměnných. Třetí kapitola obsahuje praktické příklady, členěné do 3 podkapitol. První z nich uvádí 2 ukázkové příklady prezentované v ekonometrických monografiích, které jsou rozšířeny o vlastní interpretaci výsledků. Druhá a třetí podkapitola se věnuje konkrétním analýzám datových souborů a interpretacím spočtených odhadů parametrů regresních rovnic.
5
Kapitola 1 Základy ekonometrického modelování Základní metodologický postup v ekonometrické analýze sestává z těchto fází: 1. Specifikace ekonometrického modelu • určení a klasifikace všech proměnných zahrnutých do modelu na základě ekonomické teorie a získaných dat • volba matematického tvaru modelu (jedno nebo vícerovnicový model, interdependentní popř. rekursivní model) 2. Kvantifikace ekonometrického modelu - zahrnuje metody odhadu hodnot parametrů obsažených v modelu 3. Verifikace ekonometrického modelu - tj. ověření a vyhodnocení, zda jsou získané odhady parametrů v souladu s ekonomickou teorií 4. Interpretace ekonometrického modelu
1.1
Lineární regresní model
Standardní lineární regresní model má tvar Y = β0 X0 + β1 X1 + β2 X2 + ... + βk Xk + u, kde u je náhodná složka, βj je j-tý regresní koeficient neboli parametr, j = 1, 2, ..., k.
6
(1.1.1)
7
1.1. Lineární regresní model
Za předpokladu lineární závislosti mezi vysvětlovanou proměnou Y a k vysvětlujícími proměnnými X0 , X1 , X2 , ..., Xk lze X0 specifikovat jako zvláštní (umělou) proměnnou, která nabývá ve všech pozorovaních hodnoty rovné jedné, takže vztah lze psát jako Y = β0 + β1 X1 + β2 X2 + ... + βk Xk + u,
(1.1.2)
kde β0 je tzv. absolutní člen neboli úrovňová konstanta. Koeficienty regresní rovnice ani parametry rozdělení náhodné složky nám nejsou známé, musíme se tedy spokojit s jejich odhady, které získáme z výběrových dat. Obvykle známe jeden konečný výběr n pozorování (někdy značené jako délka vzorku T ), z nichž každé obsahuje konkrétní hodnotu vysvětlované proměnné Y a množinu k hodnot vysvětlujících proměnných X1 , X2 , ..., Xk . Platí-li pro náhodnou složku E(u) = 0, pak střední hodnotu Y jako funkci daných hodnot vysvětlujících proměnných můžeme vyjádřit pomocí deterministického vztahu E(Y ) = β0 + β1 X1 + β2 X2 + ... + βk Xk
(1.1.3)
nazývaného také jako regresní funkce základního souboru. Regresní koeficienty β0 , β1 , β2 , ..., βk měří změnu E(Y ) odpovídající jednotkové změně libovolné jedné vysvětlující proměnné, přičemž ostatní vysvětlující proměnné zůstávají neměnné. Platí-li pro základní soubor, z kterého jsme získali náhodný výběr n pozorování, regresní vztah (1.1.2), pak v zápise pro i-té pozorování dostaneme Yi = β0 + β1 Xi1 + β2 Xi2 + ... + βk Xik + ui ,
i = 1, 2, ..., n.
(1.1.4)
Pomocí tzv. výběrové regresní funkce Yi = b0 + b1 Xi1 + b2 Xi2 + ... + bk Xik
(1.1.5)
a použitím některé z patřičných metod odhadneme z výběru n pozorování parametry regresní rovnice. Veličina Y je vyrovnaná nebo predikovaná hodnota Y , a tak lze její vyrovnané hodnoty pro jednotlivá pozorování psát ve tvaru Yi = b0 + b1 Xi1 + b2 Xi2 + ... + bk Xik ,
i = 1, 2, ..., n.
(1.1.6)
8
1.1. Lineární regresní model
Rozdíl mezi skutečnou hodnotou Yi a vyrovnanou hodnotou v jednom výběru Yi nazýváme i-té reziduum, tedy Yi − Yi = ei ,
i = 1, 2, ..., n
(1.1.7)
a měřitelná rezidua ei lze chápat jako odhady neznámých náhodných složek ui. Vzhledem k (1.1.6) platí Yi = Yi + ei = b0 + b1 Xi1 + b2 Xi2 + ... + bk Xik + ei ,
i = 1, 2, ..., n.
(1.1.8)
Zde je zřejmé, že obecně ui = ei , jelikož reziduum je odchylka skutečných hodnot závisle proměnné od příslušných vyrovnaných, zatímco náhodná složka je rozdíl mezi skutečnými hodnotami závisle proměnné a jejími očekávanými nebo průměrnými hodnotami. Pro snadnější znázornění vztahů mezi proměnnými lineárního regresního modelu lze vyjádřit soustavu n rovnic (1.1.4) v maticovém tvaru y = Xβ + u nebo
⎛
⎞ ⎛ Y1 1 X11 X12 ⎜ Y2 ⎟ ⎜1 X21 X22 ⎜ ⎟ ⎜ ⎜ .. ⎟ = ⎜ .. .. .. ⎝ . ⎠ ⎝. . . 1 Xn1 Xn2 Yn
(1.1.9)
⎞⎛ ⎞ ⎛ ⎞ β0 u1 . . . X1k ⎜β1 ⎟ ⎜ u2 ⎟ . . . X2k ⎟ ⎟⎜ ⎟ ⎜ ⎟ .. ⎟ ⎜ .. ⎟ + ⎜ .. ⎟ .. . . ⎠⎝ . ⎠ ⎝ . ⎠ βk un . . . Xnk
kde y . . . sloupcový vektor n pozorování hodnot vysvětlované (závisle) proměnné X . . . matice n × k pozorování hodnot vvysvětlujících proměnných β . . . sloupcový vekotr k hodnot neznámých regresních koeficientů u . . . sloupcový vektor n pozorování hodnot nepozorovatelné náhodné složky Musí platit n > k (v příp. zahrnutí jednotkového vektoru n ≥ k) a rozdíl mezi počtem pozorování (nazývané také délkou vzorku) n a počtem odhadovaných parametrů (v příp. lineárního modelu rovného počtu vysvětlujících proměnných) k udává počet stupňů volnosti. Standardní či klasický lineární regresní model je charakterizován těmito vlastnostmi modelových veličin (tzv. Gauss-Markovovy podmínky):
1.2. Metoda nejmenších čtverců
9
1. E(u) = 0 Ve všech výběrech mají náhodné složky identické rozdělení a nulovou střední hodnotu. Jsou centrované. 2. E(uu) = σ 2 I n Vyjadřuje diagonalitu kovarianční matice náhodných složek. Prvky na diagonále matice se stopou nσ 2 představují konečný a konstatní rozptyl náhodné složky σ 2 , tzv. vlastnost homoskedasticity a nediagonální prvky představují nulové kovariance nebo-li neautokorelovanost náhodných složek. 3. E(X u) = 0 Jde o podmínku nekorelovanosti náhodných složek s kteroukoliv z vysvětlujících proměnných. Pokud předpokládáme nestochastické vysvětlující proměnné obsažené v matici X, je tato podmínka vždy splněna. 4. h(X) = k Matice X je plné hodnosti. Neobsahuje žádné perfektně lineárně závislé sloupce pozorování vysvětlujících proměnných.
1.2
Metoda nejmenších čtverců
Při splnění výše uvedených předpokladů lineárního regresního modelu můžeme pomocí metody nejmenších čtverců odhadnout vektor neznámých regresních koeficientů a stochastické parametry rozdělení náhodných složek. Vyjdeme-li z (1.1.9), pak pro bodovou odhadovou funkci b platí y = Xb + e, přičemž současně máme y = Xb, kde y je vektor vyrovnaných hodnot vysvětlované proměnné, e = (y − Xb) je vektor n reziduí - rozdílů mezi pozorovanými a vyrovnanými hodnotami vysvětlované proměnné. Metoda nejmenších čtverců je založena na minimalizaci výrazu součtu čtverců reziduí min(e e) = (y − Xb) (y − Xb) = y y − 2bXy + b X Xb.
(1.2.1)
1.3. Verifikace lineárního regresního modelu
10
Výraz má být minimální, spočteme proto 1. parciální derivace výrazu a položíme je rovny nule ∂(e e) = −2b Xy + b X Xb = 0. ∂b
(1.2.2)
Úpravami vztahu (1.2.2) získáme soustavu tzv. normálních rovnic X Xb = X y.
(1.2.3)
Řešení (1.2.3) je jednoznačné vzhledem k předpokladu o plné hodnosti matice vysvětlujících proměnných lineárního regresního modelu h(X) = k, a tedy při zaručené existenci inverzní matice k matici X X dostaneme bodovou odhadovou funkci, minimalizující součet čtverců reziduí: b = (X X)−1 X y.
(1.2.4)
Vlastnosti odhadové funkce nejmenších čtverců Odhadová funkce prosté metody nejmenších čtverců b odhadovaného vektoru regresních koeficientů β je při splnění Gaussovy-Markovovcýh podmínek pro klasický lineární regresní model: • nestranná (nevychýlená), tj. platí Eb = β. • vydatná, jestliže V (b∗) ≥ V (b)1 , kde b∗ je libovolná jiná odhadová funkce vektoru β, která je lineární v y. Tzn., že rozdíl variančních matic V (b∗) − V (b) je pozitivně semidefinitní matice v tom smyslu, že b je vydatná v porovnání s jakoukoliv jinou lineární nestrannou odhadovou funkcí vektoru β. • konzistentní, platí-li p limn→∞ b = β. • normálně rozdělená, tj. b ∼ N[β, σ 2 (X X)−1 ], pokud navíc platí, že vektor náhodných složek má rozdělení N(0, σ 2 I n ) .
1.3
Verifikace lineárního regresního modelu
U bodových odhadů neznámých parametrů standarního lineárního regresního modelu metodou nejmenších čtverců nebylo nutné předpokládat konkrétní rozdělení pravděpodobnosti náhodných složek nebo reziduí. Pro možnost konstrukce intervalových odhadů parametrů a testování jejich statistické významnosti to již neplatí. 1
V (b) = σ 2 (X X)−1 , jelikož X X
−1
je nestochastická symetrická matice a E(uu ) = σ 2 I n .
1.3. Verifikace lineárního regresního modelu
11
Při testování hypotéz resp. konstrukci intervalových odhadů musíme ještě kromě původních 4 předpokladů pro standardní LRM2 připojit další, 5. předpoklad normality, tedy 5. u ∼ N(0, σ 2 I n ) Vektor náhodných složek u má n-rozměrné identické normální rozdělení s nulovým vektorem středních hodnot a kovarianční matici σ 2 I n . K určení odhadu S(b) kovarianční matice V (b) je třeba znát i odhad rozptylu náhodných složek σ 2 . Nestrannou odhadovou funkcí rozptylu σ 2 je odhadová statistika s2 =
1 e e = (y y − bX y). n−k n−k
(1.3.1)
Protože (X X)−1 je nestochastická symetrická matice a s2 je nestrannou odhadovou funkcí σ 2 , pak nestrannou odhadovou funkcí kovarianční matice odhadů parametrů vypočtenou metodou OLS je odhadová statistika S(b) = s2 (X X)−1 .
(1.3.2)
Odmocniny odhadů rozptylů na diagonále kovarianční matice S(b) jsou odhady standarních chyb bodových odhadů bj a platí pro ně √ (1.3.3) sbj = s xjj , j = 1, 2, . . . , k, kde xjj je j-tý diagonální prvek matice (X X)−1 . b −β
Z vlastnosti normálního rozdělení je podíl jσb j standardizovaná normální proj měnná s nulovým průměrem a jednotkovým rozptylem. Testovací statistika tj =
bj − βj , sbj
j = 1, 2, . . . , k
(1.3.4)
bude mít pro každé j Studentovo t-rozdělení s n − k stupni volnosti vhodné i pro malé výběry (n ≤ 30). K ověření, zda je odhadnutý model použitelný je třeba zkoumat statistickou významnost jak jednotlivých odhadů parametrů tak celého modelu na nějaké hladině spolehlivosti. Ve všech dále prezentovaných příkladech jsem použila obvyklou hladinu významnosti 5% (α = 0, 05). 2
Lineární regresní model
1.3. Verifikace lineárního regresního modelu
12
Odhad parametru prohlásíme za statisticky významný, pokud je s pravděpodobností 1−α hodnota skutečného parametru rovna 0 a vypočtený odhad tohoto parametru je ovlivněn spíše náhodnými vlivy než závislostí mezi proměnnými v modelu. Proto se často testuje hypotéza, že vybraná vysvětlující proměnná k níž přísluší regresní parametr βj vyjadřuje nulový vliv na vysvětlovanou proměnnou. Pro j-tý parametr získáme z (1.3.4) při formulaci nulové hypotézy βj = 0 zjednodušenou testovací statistiku tj =
bj , sbj
j = 1, 2, . . . , k.
(1.3.5)
Na základě tohoto poměru posoudíme statistickou významnost parametru tak, že nulovou hypotézu βj = 0 akceptujeme, jestliže |tj | ≤ t α2 pro hladinu spolehlivosti α a n − k stupňů volnosti. Nebo naopak s pravděpodobností 100(1 − α)% prohlásíme bodový odhad bj za statisticky nevýznamný. V tabulkách s odhady parametrů v jednotlivých příkladech uvedených v následujících kapitolách to znamená, aby hodnota ve sloupci ”významnost” byla nižší než 0, 05. Statistická významnost modelu jako celku je postavena na zjištění statistické významnosti koeficientu determinace R2 . Obsahuje-li regresní funkce úrovňovou konstantu, definujeme koeficient determinace vztahem R2 = 1 −
ee yy bX Xb = = y y y y y y
(1.3.6)
a můžeme ho interpretovat jako podíl součtu čtverců vyrovnaných (predikovaných) hodnot a součtu čtverců pozorovaných hodnot. Koeficient determinace nabývá hodnoty mezi 0 a 1 a jde o nejpoužívanější indikátor ukazující na vhodnost použitého modelu. Byla-li by všechna rezidua nulová, bude R2 = 1 a regresní model vysvětlí všechny změny, tedy 100% v chování vysvětlované proměnné. R2 = 0 znamená, že model vysvětluje 0% variabilitu vysvětlované proměnné. Vhodně zvolený model bude mít hodnotu koeficientu determinace blízkou jedné. Posledním testovacím kritériem je Durbin-Watsonův koeficient d. Na základě výpočtu jeho hodnoty nám potvrdí nebo vyvrátí přítomnost autokorelace (závislost) náhodných složek. Hodnota Durbin-Watsonova koeficientu blízká číslu 2 znamená neautokorelovanost reziduí a spočteme ji pomocí vztahu n (ei − ei−1 )2 d = i=2n 2 . (1.3.7) i=1 ei
Kapitola 2 Umělé proměnné v regresních modelech Umělé proměnné představují v ekonometrických modelech ty proměnné, které 1. jsou významem natolik vlivné, že s ohledem na vztah k vysvětlované proměnné lze předpokládat jejich vliv na její chování, 2. nelze je přímo „ocenit hodnotou, která by vyjadřovala nějaký měřitelný aspekt jejich obsahu. Jedná se především o veličiny kvalitativního nebo diskrétního charakteru. Nejčastěji jsou to proměnné sociální, demografické a podobné povahy. V těchto případech se nejčastěji bere v úvahu tzv. uměle-proměnná metoda. Zahrnutí umělých proměnných do modelu hraje svou roli a zpravidla jsou členěny do vzájemně se vylučujících skupin, kategorií nebo intervalů, podle hodnot, které nabývají. Umělé proměnné považujeme za takové proměnné, které vytváříme za účelem transformace nejen kvalitativních, ale i kvantitativních veličin do správně zkonstruované klasifikační stupnice. Implicitním předpokladem je, že se regresní přímky pro různé skupiny liší jen v bodě, v němž protínají svislou osu, ale mají stejný sklon (obr. 2.1).
2.1
Dichotomické umělé proměnné
Nejčastější klasifikační stupnicí je „nula-jednotková , která obsahuje dichotomické neboli binární umělé proměnné. Tyto mohou nabývat pouze dvou možných hodnot, nula a jedna. Např. muž/žena, rezident/nerezident, pracující/student apod. Skupinu, která je „hodnocena nulou a v regresi nevystupuje (je užita jako srovnávací hladina pro vyjádření relativního poměru ostatních skupin), bereme 13
14
2.1. Dichotomické umělé proměnné
Y
X
Obrázek 2.1: Regresní přímky
jako základ, se kterým se ostatní skupiny porovnávají. Při „hodnocení jedničkou se umělá proměnná s tímto kvalitativním znakem v regresi explicitně uplatní, tzn. značí přítomnost v regresi. Poznámka 2.1.1. Model, který obsahuje pouze ”nula-jednotkové” vysvětlující proměnné nazýváme také model analýzy rozptylu (analysis-of-variance (AOV) model ). Na následujícím příkladu si ukážeme závislost příjmu na kvalitativním vysvětlujícím faktoru - pohlaví zaměstnance: Yi = β0 + β1 Xi + ui,
i = 1, 2, ..., 20,
(2.1.1)
kde Yi představuje příjem i-tého zaměstnance, Xi = 1 pro zaměstnankyně, = 0 jinak (v našem případě pro zaměstnance), ui je náhodná složka. Nebo, vyjádříme-li parametry β0 a β1 v podmíněných středních hodnotách pozorovaných veličin, máme E(Yi|Xi = 0) = β0 . . . . . . . . . pro příjem mužů, E(Yi|Xi = 1) = β0 + β1 . . . . . . pro příjem žen.
15
2.1. Dichotomické umělé proměnné
4
x 10
1.7
ID pohlavi 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 1 10 1
prijem 9 750,00 9 750,00 10 200,00 10 200,00 10 950,00 10 950,00 11 250,00 13 200,00 13 200,00 15 500,00
ID pohlavi 11 0 12 0 13 0 14 0 15 0 16 0 17 0 18 0 19 0 20 0
prijem 11 550,00 12 000,00 13 900,00 14 250,00 14 550,00 15 000,00 15 600,00 15 750,00 16 050,00 16 050,00
prijem mu i prijem eny 1.6
1.5
1.4
1.3
1.2
1.1
1
0.9
1
2
3
4
5
6
7
8
9
10
Obrázek 2.2: hypotetická data, tabulka + graficky koeficient determinace 0.4452 2 s 3063791.6667 Durbin-Watsonův koeficient 1.1352 proměnná koeficient t-statistika významnost konstanta 14470.000000 26.142006 0.000000 pohlavi -2975.000000 -3.800514 0.001310 Tabulka 2.1: odhadnuté koeficienty regresní rovnice (2.1) Na obr. 2.2 máme znázorněna hypotetická data o příjmech 10 zaměstnanců podle pohlaví. Výsledné hodnoty odhadu parametrů rovnice (2.1.1) metodou nejmenších čtverců (OLS1 ) z tabulky (2.1) přepíšeme zpět do rovnice: Yˆi = 14470 + (−2975Xi1 ),
i = 1, 2, ..., 20,
(2.1.2)
čímž zjistíme, že odhad středního příjmu je u mužů 14470 (= b0 ) a u žen 11495 (= b0 + b1 ). Jestliže jsme testovali nulovou hypotézu, že v příjmech neexistuje diskriminace mužů a žen (H0 : β1 = 0), pak tuto hypotézu zamítneme na základě zřetelné statistické významnosti koeficientu b1 .2 Nízký koeficient determinace by mohl poukazovat na nevhodnost použitého modelu, což může být vyvoláno zahrnutím pouze umělé proměnné do modelu. Nízká hodnota Durbin-Watsonova koeficientu v porovnání s dalšími příklady je způsobena přijatým uspořádání dat ve vzorku. Graficky znázorněná regrese (2.1.2) je zobrazena na obrázku 2.3 - pro tento účel byl vzorek dat předem seřazen. 1 2
Ordinary Least Squares Method. Na hladině významnosti 5% (α = 0, 05), tj. s pravděpodobností (1 − α).
16
2.2. Kategoriální umělé proměnné
pĜí Ĝíjem jem muži mu
pĜí Ĝíjem ženy
Obrázek 2.3: Regresní přímky rovnice (2.1.2)
2.2
Kategoriální umělé proměnné
Klasifikační stupnice tvořená více než dvěma kombinacemi číselných znaků, ale s omezeným počtem přípustných hodnot, obsahuje kategoriální umělé proměnné. Zde je nutno zkoumat předem analytický tvar skutečné závislosti vysvětlované proměnné na vysvětlující umělé proměnné, protože hodnoty odhadnutých parametrů mohou být citlivé na použitou klasifikační stupnici. Následující příklad je ukázkou modelu, který obsahuje jako umělou proměnnou věk zaměstnance. Věkové skupiny byly rozděleny do této klasifikační stupnice: 1. skupina do 30 let 2. skupina od 31 let do 45 let 3. skupina nad 46 let Opět definujeme funkci příjmu Yi = α0 + α1 Di1 + α2 Di2 + ui , kde Yi představuje příjem i-tého zaměstnance, Di1 = 1 pro skupinu 2, = 0 ostatní, Di2 = 1 pro skupinu 3, = 0 ostatní, ui je náhodná složka.
i = 1, 2, ..., 12,
(2.2.1)
2.2. Kategoriální umělé proměnné
17
Pro podmíněné střední hodnoty platí E(Yi|Di1 = 0, Di2 = 0) = α0 , E(Yi|Di1 = 1, Di2 = 0) = α0 + α1 , E(Yi|Di1 = 0, Di2 = 1) = α0 + α2 . Úrovňová konstanta α0 představuje příjem zaměstnance ve věku do 30 let, parametry α1 pak rozdíl mezi příjmy zaměstnanců 1. a 2. skupiny a α2 rozdíl v příjmech osob 1. a 3. skupiny. Hypotetická data o příjmech a věku zaměstnanců: ID 1 2 3 4 5 6 7 8 9 10 11 12
Prijem Vek skup. 1 skup. 2 skup. 3 29950 23 1 0 0 30000 26 1 0 0 30300 28 1 0 0 31200 29 1 0 0 30100 41 0 1 0 31250 43 0 1 0 31500 44 0 1 0 32200 45 0 1 0 30000 54 0 0 1 31100 54 0 0 1 31800 54 0 0 1 32250 55 0 0 1
Opět pomocí OLS spočteme odhady parametrů (viz tabulka 2.2). Kromě konstanty není žádný koeficient statisticky významný. Lze tedy usuzovat, že přestože s přibývajícím věkem příjem zaměstnace mírně roste, nemá samotný věk zaměstnance vliv na jeho příjem. Koeficient determinace je opět velice nízký, ale hodnota Durbin-Watsonova koeficientu nenaznačuje autokorelovanost reziduí.3 koeficient determinace 0.2646 s2 686180.5556 Durbin-Watsonův koeficient 2.2072 proměnná koeficient t-statistika významnost konstanta 30362.500000 73.307485 0.000000 2. skupina 900.000000 1.536520 0.158787 3. skupina 925.000000 1.579201 0.148747 Tabulka 2.2: odhadnuté koeficienty regresní rovnice (2.2.1)
3
U dat, která nepochází ze vzorku časových řad, není zpravidla třeba autokorelovanost reziduí samostatně vyšetřovat. Není totiž důvod k uspořádání pozorovaných hodnot.
18
2.2. Kategoriální umělé proměnné
4
3.25
OLS Actual vs. Predicted
x 10
Actual Predicted
3.2 3.15 3.1 3.05 3 2.95
0
2
4
6
8
10
12
8
10
12
Residuals 1000 500 0 −500 −1000 −1500
0
2
4
6
Obrázek 2.4: Graf regresní rovnice (2.2.1)
Nyní zahrneme do regresního modelu kromě věkového faktoru také kvantitativní proměnnou udávající délku praxe v měsících. Poznámka 2.2.1. Model obsahující jak kvalitativní (umělé) tak kvantitativní vysvětlující proměné nazýváme též model analýzy kovariance (analysis-ofcovariance (ACOV) models). Funkci příjmu pak definujeme takto: Yi = α0 + α1 Di1 + α2 Di2 + β1 Xi + ui , kde Yi – příjem i-tého zaměstnance, Di1 = 1 pro 2. věkovou skupinu, = 0 ostatní, Di2 = 1 pro 3. věkovou skupinu, = 0 ostatní,
i = 1, 2, ..., 25,
(2.2.2)
2.2. Kategoriální umělé proměnné
19
Xi – délka praxe v měsících, ui – náhodná složka Věkové skupiny jsou rozděleny jako v předchozím příkladu a 1. věková skupina je zde chápána jako základní. Podmíněná střední hodnota bude vyjádřena ve tvaru E(Yi|Di1 = 0, Di2 = 0, Xi) = α0 + β1 Xi . Hypotetická data o příjmech, věku a zkušenostech zaměstnanců pro regresi (2.2.2):
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
prijem 27480 27480 27480 28740 28740 29490 30000 31250 31500 31980 32010 32490 33000 33000 33000 33750 34980 35010 35040 36750 39990 42510 43500 45000 79980
vek skup. 1 skup. 2 skup. 3 m zkus. 29 1 0 0 7 39 0 1 0 8 46 0 0 1 9 30 1 0 0 10 28 1 0 0 13 31 0 1 0 18 31 0 1 0 23 28 1 0 0 26 31 0 1 0 27 28 1 0 0 35 30 1 0 0 45 34 0 1 0 54 29 1 0 0 62 31 0 1 0 68 32 0 1 0 74 30 1 0 0 75 39 0 1 0 81 34 0 1 0 96 36 0 1 0 120 46 0 0 1 129 47 0 0 1 156 34 0 1 0 175 46 0 0 1 199 39 0 1 0 199 49 0 0 1 221
Podle tabulky 2.3 obsahující odhady koeficientů regresní rovnice (2.2.2) je kromě úrovňové konstanty statisticky významný ještě koeficient u proměnné „zkušenosti . Lze tedy říci, že výše příjmu zaměstnance není závislá na jeho stáří, ale závisí především na jeho získaných zkušenostech z praxe předchozích let.
20
2.3. Sezónní (umělé) proměnné
koeficient determinace 0.6624 2 s 42507613.1372 Durbin-Watsonův koeficient 1.0979 proměnná koeficient t-statistika významnost konstanta 26766.238961 10.934118 0.000000 2. skupina -2088.535444 -0.660179 0.516315 3. skupina 1606.330230 0.353047 0.727572 zkusenosti 120.220104 4.978555 0.000063 Tabulka 2.3: odhadnuté koeficienty regresní rovnice (2.2.2) 4
8
OLS Actual vs. Predicted
x 10
Actual Predicted
7 6 5 4 3 2
0
5
10
4
3
15
20
25
15
20
25
Residuals
x 10
2
1
0
−1
0
5
10
Obrázek 2.5: Graf pro regresní rovnici (2.2.2)
2.3
Sezónní (umělé) proměnné
Zvláštním typem umělých proměnných jsou sezónní proměnné. Ty se často vyskytují v ekonometrické analýze časových řad k vyrovnání sezónních vlivů. Výkyvy způsobené sezónností mohou být např. období vánočních svátků (zvýšené spotřební výdaje domácností), letní období (růst zaměstnanosti v některých odvětvích) apod. Působení sezónních faktorů je vhodné z časových řad vyloučit nebo omezit ještě před odhadem parametrů.
21
2.3. Sezónní (umělé) proměnné
Uplatňují se v podstatě dva základní postupy k eliminaci sezónních vlivů. V prvním z nich použitím postupného vyhlazování pomocí klouzavých průměrů, nebo pomocí harmonické analýzy se sezónnost odstraňuje ještě před vlastní regresní analýzou. Druhý, zde popisovaný přístup naopak užívá k vystižení sezónnosti časové řady vysvětlované proměnné simultánně s dalšími regresory právě sezónní umělé proměnné. Přínosem zde může být především získání vyšší přesnosti odhadů. Pro znázornění na jednoduchém příkladu jsem použila reálná data o hrubých mzdách zaměstnanců za r. 2007 jedné nejmenované reklamní agentury. Tato agentura vyplácí 2x do roka mimořádné odměny v červnových a prosincových mzdách. K odhadu parametrů použijeme metodu umělých proměnných pro jednotlivá čtvrtletí. Regresní rovnice bude mít následující tvar: Yi = α0 + α1 Di1 + α2 Di2 + α3 Di3 + ui ,
i = 1, 2, ..., 12,
(2.3.1)
kde Yi – objem hrubých mezd zaměstnanců, Di1 = 1 pro 2. čtvrtletí, = 0 ostatní, Di2 = 1 pro 3. čtvrtletí, = 0 ostatní, Di3 = 1 pro 4. čtvrtletí, ui – náhodná složka. 1. čtvrtletí bylo zvoleno jako základní. Statistická významnost odhadnutých parametrů α1 , α2 , α3 nám ukáže vliv sezónnosti na objem hrubých mezd v jednotlivých čtvrtletích vůči základnímu. V našem případě tedy předpokládáme statisticky významný koeficient α1 a α3 .
22
2.4. Shrnutí
Data pro regresní rovnici (2.3.1): období hrubé mzdy 1 317 288 2 347 932 3 362 712 4 341 906 5 339 085 6 406 536 7 326 219 8 352 289 9 341 743 10 375 999 11 416 729 12 469 208
Q1
Q2 1 1 1 0 0 0 0 0 0 0 0 0
Q3 0 0 0 1 1 1 0 0 0 0 0 0
Q4 0 0 0 0 0 0 1 1 1 0 0 0
0 0 0 0 0 0 0 0 0 1 1 1
koeficient determinace 0.5925 2 s 1087009536.1667 Durbin-Watsonův koeficient 2.0778 proměnná koeficient t-statistika významnost konstanta 26766.238961 18.000604 0.000000 2. ctvrtleti 19865.000000 0.737934 0.481637 3. ctvrtleti -2560.333333 -0.095110 0.926567 4. ctvrtleti 78001.333333 2.897550 0.019967 Tabulka 2.4: odhadnuté koeficienty regresní rovnice (2.3.1) Hodnoty odhadnutých koeficientů spočtené opět metodou OLS, viz tabulka 2.4, ukazují na statistickou významnost kromě úrovňové konstanty pouze u koeficientu pro 4. čtvrtletí. Na závěr bychom tedy mohli říct, že vyplacené mimořádné odměny v měsíci červnu (zahrnuté do 2. čtvrtletí) nebyly oproti prosincovým odměnám (ve 4. čtvrtletí) dostatečně vysoké, aby se projevily signifikantním výkyvem ve srovnání se základním obdobím.
2.4
Shrnutí
Zahrnutí umělých proměnných do ekonometrického modelu má některá nepsaná, ale zároveň nutně respektovaná pravidla. Řídí se jistými zásadami a postupy. Jedná se především o přiřazení hodnot z klasifikační stupnice jednotlivým proměnným, ať už diskrétním, či kategoriálním. Je zřejmé, že nezáleží na tom, zda ženy označíme
23
2.4. Shrnutí
5
5
OLS Actual vs. Predicted
x 10
Actual Predicted 4.5
4
3.5
3
0
2
4
4
5
6
8
10
12
8
10
12
Residuals
x 10
0
−5
0
2
4
6
Obrázek 2.6: Graf pro regresní rovnici (2.3.1)
jedničkou a muže nulou nebo naopak. Členění stupnice by mělo vycházet především z potřeb analýzy. Zajímají nás rozdíly mezi jednotlivými skupinami nikoliv uvnitř jedné skupiny. Dále je vhodné na základě ekonomické teorie zjistit, zda je klasifikační stupnice vhodně zvolena jak v rozsahu, tak ve funkční závislosti vysvětlované proměnné na všech, i umělých vysvětlujích proměnných. Do regrese vždy zahrnujeme pouze m − 1 klasifikací pro m obměn nebo kategorií, kterých velična nabývá. Jsou-li v modelu dvě nebo více diskrétních nebo kvalitativních vysvětlujících proměnných, pak z každého systému odpovídajících umělých proměnných jednu obměnu nebo kategorii v regresi vynecháme.
Kapitola 3 Typové příklady obsahující umělé proměnné 3.1 3.1.1
Analýza typových příkladů uváděných v literatuře Náklady na koupi domu
Na úvod této kapitoly si ukážeme 2 „učebnicové příklady. První z nich je převzat z českého překladu monografie Arthura S. Goldbergera - Teorie ekonometrie, část II, kap. 5, str. 292–294. Na vzorku výběru 117 pozorovaných domácností, které v r. 1957 zakoupily dům, bylo testováno hned několik funkčních závislostí. Vysvětlovanou proměnnou zde představuje náklad na koupi domu v dolarech s označením Y . Vysvětlující faktory tvoří v regresi tyto proměnné: x1 = velikost příjmu v dolarech, x2 = x21 , x3 = věk v letech, x4 = x23 , x5 = 1 svobodný, 0 ve všech zbývajících případech, x6 = 1 ženatý méně než 1 rok, 0 ve všech zbývajících případech (x5 = x6 = 0, je-li ženatý více než 1 rok), 24
3.1. Analýza typových příkladů uváděných v literatuře
25
x7 = 1 vedoucí pracovník, 0 ve všech zbývajících případech, x8 = 1 úředník, 0 ve všech zbývajících případech, x9 = 1 dělník, 0 ve všech zbývajících případech (x7 = x8 = x9 = 0, je-li nezaměstnaný či v důchodu), x10 = 1 středoškolské vzdělání, 0 ve všech zbývajících případech, x11 = 1 vysokošlkolské vzdělání, 0 ve všech zbývajících případech (x10 = x11 = 0, skončilo-li vzdělání před ukončením střední školy), x12 = 1 běloch, 0 barevný, x13 = 1 žena, 0 muž, x14 = 1 bydlení v severní části USA, 0 ve všech zbývajících případech, x15 = 1 bydlení v jižních státech USA, 0 ve všech zbývajících případech, x16 = 1 bydlení v západních státech USA, 0 ve všech zbývajících případech, x17 = 1 nedošlo-li ke změně příjmu vzhledem k předchozímu roku, 0 ve všech zbývajících případech, x18 = 1 došlo-li k růstu příjmu v porovnání s předchozím rokem, 0 ve všech zbývajících případech (x17 = x18 = 0, došlo-li k poklesu příjmu ve srovnání s předchozím rokem), x19 = 1 vlastnil-li kupující na počátku roku dům, 0 v opačném případě. Regresní rovnice o vlivu nákladů na bydlení s již dosazenými výsledky odhadnutých parametrů: Yˆ = 3715 + 2, 10x1 − 0, 000046x2 − 142x3 + 4, 5x4 (0, 65) (0, 000022) (487) (5, 7) − 3487x5 − 496x6 + 4119x7 + 556x8 (3994) (4831) (3118) (2948) − 953x9 + 1116x10 + 463x11 + 928x12 (4740) (2147) (2881) (4507) − 830x13 − 728x14 − 2668x15 − 4797x16 (5733) (2497) (2434) (2711) − 2703x17 − 4345x18 − 37x19 (2619) (2185) (1972)
3.1. Analýza typových příkladů uváděných v literatuře
26
Uvedený model obsahuje jak kvantitativní, tak kvalitativní proměnné. Dále také obsahuje proměnné v druhých mocninách u příjmu a věku. Pro lineární model nepříliš tradiční postup. Nejdříve se podíváme na kvalitativní proměnné. Např. očekávaná hodnota domu je pro svobodného o 3487 dolarů nižší než pro více než rok ženatého za předpokladu, že všechny zbývající proměnné jsou stejné. Obdobně bych si dovolila vyvodit, že nejvyšší očekávaná hodnota nákladů na koupi domu bude pro muže bílé pleti se středoškolským vzděláním, pracujícím ve vedoucí funkci, ženatého více než 1 rok, žijícího na východě USA, jenž vlastní dům nemá a ještě mu oproti předchozímu roku klesl příjem. Podíváme-li se ještě na uvedené kvantitativní proměnné, pak očekávaná hodnota domu roste s příjmem a klesá s věkem. Možná v důsledku životních preferencí obdobně jako „s jídlem roste chuť – s vyšším příjmem si můžeme dovolit větší komfort a v mládí více tendujeme k luxusnějšímu bydlení s větší ochotou se stěhovat. Jaký vliv může mít zahrnutí kvadrátů příjmu a věku do regresního vztahu? Tyto kvadratické členy vystupují jako přídavné nezávisle proměnné a mohou posloužit k tomu, aby byla vyjádřena hypotetická nelineární funkce. Ačkoli je přesný lineární vztah v praktických příkladech nepravděpodobný, mezi ekonomickými jevy existuje vzájemná závislost, která může být příčinou přibližné lineární závislosti mezi vysvětlujícími proměnnými v ekonometrickém modelu, tzv. multikolinearity. Ta vede ke vzniku velkých, a tedy nežádoucích směrodatných odchylek regresních koeficientů. Pokud bych měla zvážit důvod zahrnutí nebo nezahrnutí nezávisle proměnných (druhých mocnin příjmů a věku) do regresní rovnice o vlivu nákladů na bydlení, testovala bych statistickou významnost odhadnutých koeficitentů u těchto proměnných. Jestliže známe směrodatné odchylky (hodnoty uvedené v závorkách pod jednotlivými odhady parametrů regresní rovnice), pak při počtu pozorování (117) a počtu parametrů (20) na 5% hladině významnosti je proměnná x2 těsně statisticky významná1 (t2 = 2, 09)2 a proměnná x4 je statisticky nevýznamná (t4 = 0, 79).3 Lze teď uvažovat, jakou interpretaci má proměnná x2 s nepřímo úměrným vztahem k vysvětlované proměnné. Snad že náklady na koupi domu nejsou neomezené a od určité výše příjmu klesají. V relaci s proměnnou x1 to znamená, že s růstem 1
Je-li n − k > 30 můžeme ingorovat počet stupňů volnosti a položit pro 5% hladinu významnosti hodnotu t α2 = t0,025 = 2. Pak testujeme nulovou hypotézu βj = 0 tak, že pro |tj | > 2 ji odmítneme a prohlásíme příslušný koeficient za statisticky nevýznamný. Pro j-tý parametr platí b tj = sbj . Pak výběrová hodnota |tj | > 2, když bodový odhad bj > 2sbj . 2
j
Hodnota t-statistiky proměnné x2 . 3 Hodnota t-statistiky proměnné x4 .
3.1. Analýza typových příkladů uváděných v literatuře
27
příjmů výdaje na dům rostou, ale pomaleji než lineárně (s decelerujícím tempem růstu). Obdobný význam má relace mezi proměnnými x3 a x4 . S věkem výdaje klesají, ale méně než úměrně.
3.1.2
Lodní nehody
Druhý, pro osobu ze střední Evropy méně typický příklad je převzat z publikace Econometric Analysis od Williama Greena, kap. 8, str. 320. Na datech o lodních nehodách byl sledován počet nahrazených lodí v důsledku nehod v letech 1960–1979. Sledované obodbí je rozděleno na 4 podobdobí a lodě jsou rozděleny do 5 kategorií podle data, kdy byly vyrobeny. Data o lodních nehodách: Období Typ 1960-64 1965-69 1970-74 1975-79 A 0 4 18 11 B 29 53 44 18 C 1 1 2 1 D 0 0 11 4 E 0 7 12 1
Zápis do regresní rovnice zde vypadá následovně: Yi = α0 + α1 Di1 + α2 Di2 + α3 Di3 + α4 Di4 + β1 Xi1 + β2 Xi2 + β3 Xi3 + β4 Xi4 + ui , kde Yi – počet nehod (nahrazených lodí), Di1 = 1 pro typ lodi B, 0 pro ostatní, Di2 = 1 pro typ lodi C, 0 pro ostatní, Di3 = 1 pro typ lodi D, 0 pro ostatní, Di4 = 1 pro typ lodi E, 0 pro ostatní Xi1 = 1 pro období stavby lodě 1965–1969, 0 jinak,
(3.1.1)
28
3.1. Analýza typových příkladů uváděných v literatuře
Xi2 = 1 pro období stavby lodě 1970–1974, 0 jinak, Xi3 = 1 pro období stavby lodě 1975–1979, 0 jinak, ui – náhodná složka. koeficient determinace 0.8482 2 s 55.0750 Durbin-Watsonův koeficient 2.3163 proměnná koeficient t-statistika významnost konstanta 3.400000 0.724389 0.482712 Typ B 27.750000 5.288113 0.000192 Typ C -7.000000 -1.333938 0.206988 Typ D -4.500000 -0.857532 0.407952 Typ E -3.250000 -0.619329 0.547279 1965-69 7.000000 1.491389 0.161673 1970-74 11.400000 2.428833 0.031800 1975-79 1.000000 0.213056 0.834860 Tabulka 3.1: odhadnuté koeficienty regresní rovnice o lodních nehodách
OLS
Actual vs. Predicted
60 Actual Predicted
50 40 30 20 10 0
0
2
4
6
8
10
12
14
16
18
20
12
14
16
18
20
Residuals 40 30 20 10 0 −10 −20
0
2
4
6
8
10
Obrázek 3.1: Graf pro regresní rovnici o lodních nehodách
3.2. Některé další příklady implementace umělých proměnných
29
Regrese obsahuje pouze umělé proměnné, jedná se tedy o příklad analýzy rozptylu. Podíváme-li se na výsledky odhadnutých koeficientů, zjistíme, že nejvíce nehod bylo zaznamenáno u lodi typu B a v období let 1970–1974. Tyto proměnné jsou oproti ostatním vysvětlujícím proměnným jako jediné statisticky významné. Koeficient determinace R2 má celkem vysokou vypovídací hodnotu (téměř 85%) a Durbin-Watsonův koeficient nenaznačuje existenci kladné autokorelace.
3.2
Některé další příklady implementace umělých proměnných
Převážná většina datových souborů v následujících příkladech je převzata z elektronické verze publikace Econometric analysis Williama Greena, Prentice Hall, 6th Edition, 2008 (http://pages.stern.nyu.edu/∼wgreene).
3.2.1
Rodinné příjmy - studium důchodové dynamiky
Datový soubor o 753 pozorováních (viz příloha na přiloženém datovém nosiči CD) obsahuje tyto proměnné: LF P = 1 pro pracující ženy v r. 1975, 0 jinak, W HRS – odpracované hodiny manželky v r. 1975, KL6 – počet dětí v rodině mlatších 6 let, K618 – počet dětí v rodině mezi 6 a 18 roky, W A – věk manželky, W E – počet let vzdělání manželky, W W – průměrný hodinový výdělek manželky v dolarech v r. 1975, RP W G – mzda manželky oznámená při pohovoru v r. 1976 (jiná než odhadovaná mzda v r. 1975). Pokud chceme použít zúžený vzorek s touto mzdou, musíme vybrat r. 1975. V případě pracovníků, kteří mají LFP = 1, vybereme jen ženy s nenulovým RPWG. Jen 325 žen pracovalo v r. 1975 a mělo nenulový RPWG v r. 1976. HHRS – odpracované hodiny manžela v r. 1975, HA – věk manžela,
3.2. Některé další příklady implementace umělých proměnných
30
HE – počet let vzdělání manžela, HW – mzda manžela v dolarech v r. 1975, F AMINC – rodinný příjem v r. 1975, MT R – mezní (federální) daňová sazba týkající se příjmů manželky a je odvozená z oficiálních federálních daňových tabulek USA (státní a místní/regionální daně jsou vyňaty). Zdanitelný příjem, ze kterého se vypočítá tato daňová sazba, zahrnuje sociální pojištění, pokud se vztahuje na manželku. W MED – vzdělání matky manželky v letech, W F ED – vzdělání otce manželky v letech, UN – míra nezaměstnanosti v místě bydliště v procentních bodech, CIT = 1 pro „velkoměšťáky , 0 jinak, AX – délka předchozí praxe manželky. Jestliže bychom nebrali v úvahu poznámky u porměnné RP W G a do funkce příjmu rodiny žijící v USA v r. 1975 zahrnuli bez výjimky všechny ostatní vysvětlující faktory, bude regresní rovnice ve tvaru
F AMINC = β0 + β1 LF P + β2 W HRS + β3 KL6 + β4 K618 + β5 W A (3.2.1) + β6 W E + β7 W W + β8 RP W G + β9 HHRS + β10 HA + β11 HE + β12 HW + β13 MT R + β14 W MED + β15 W F ED + β16 UN + β17 CIT + β18 AX + u. a výsledné hodnoty odhadů parametrů z regrese (3.2.1) metodou OLS uvádí tabulka 3.2. Koeficient determinace je vysoký a Durbin-Watsonův koeficient nevykazuje známky kladné autokorelace. Celkově můžeme ekonometrický model příjmové funkce zhodnotit jako vhodně zvolený. Mezi ty odhady parametrů kvantitativních proměnných, které jsou v přímé úměře s příjmem domácnosti a lze říci, že jsou z ekonomického hlediska v souladu s očekáváním, patří tyto proměnné: - W HRS, KL6, K618, W A, W W, HHRS, HW a jsou navíc statisticky významné, - W E, RP W G, HA, W MED, ale nemají postačující statistickou průkaznost.
3.2. Některé další příklady implementace umělých proměnných
31
koeficient determinace 0.8224 2 s 27033236.2955 Durbin-Watsonův koeficient 2.0288 proměnná koeficient t-statistika významnost konstanta 71820.757222 14.447745 0.000000 LFP -1664.853862 -2.399217 0.016679 WHRS 1.359080 3.608299 0.000329 KL6 973.981025 2.257820 0.024250 K618 998.890757 6.033894 0.000000 WA 106.883956 1.963783 0.049932 WE 160.480664 1.333831 0.182673 WW 189.569584 2.126159 0.033823 RPWG 147.527638 1.221320 0.222357 HHRS 2.106547 5.176441 0.000000 HA 23.110853 0.440850 0.659452 HE -207.249290 -2.387602 0.017211 HW 807.904705 9.278176 0.000000 MTR -97118.699144 -21.389406 0.000000 WMED 3.264634 0.045097 0.964043 WFED -8.161781 -0.119307 0.905064 UN -30.147905 -0.476729 0.633697 CIT -36.274949 -0.083982 0.933094 AX -60.649843 -2.081436 0.037740 Tabulka 3.2: odhadnuté koeficienty regresní rovnice o příjmech domácností (3.2.1) Odhady koeficientů kvantitativních proměnných HE, MT R, AX jsou statisticky významné a mají protichůdný vliv na příjem domácnosti. Jestliže s růstem předchozí délkou praxe manželky (AX) klesá rodinný příjem, pak je možné, že ženy jsou na trhu práce méně flexibilní, méně často mění svoje zaměstnání a zůstávají za cenu nerostoucího příjmu v původním zaměstnání. S rostoucím počtem let vzdělání u mužů (HE) bych spíše očekávala také růst příjmů. U proměnné federální daňové sazby (MT R), i když má v regresi (3.2.1) podle hodnoty odhadu koeficientu značný vliv, se domnívám, že může být ovlivněna proměnnou RP W G. Tu bychom měli v datovém vzorku filtrovat4 podle poznámky ve výčtu pozorovaných proměnných.
4
Myšleno zúžit.
3.2. Některé další příklady implementace umělých proměnných
32
Podíváme-li se na 2 umělé proměnné obsažené v regresi, pak o něco málo vyšší příjmy vykazují rodiny, v nichž žena ve sledovaném roce 1975 nepracovala (proměnná LF P ). Vliv místa bydliště (CIT ) není statisticky významný, ale naznačuje (proti očekávání) vyšší příjmy pro rodiny bydlící mimo město.
4
10
OLS Actual vs. Predicted
x 10
8 6 4 2 Actual Predicted
0 −2
0
100
200
300
4
5
400
500
600
700
800
500
600
700
800
Residuals
x 10
4 3 2 1 0 −1 −2
0
100
200
300
400
Obrázek 3.2: Graf pro regresní rovnici (3.2.1)
Nyní zkusíme filtrovat již zmíněnou proměnnou RP W G. Dostaneme 326 pozorování (o jedno více, než se uvádí v popisu proměnných). K aplikaci dat do regresního modelu použijeme upravenou rovnici (3.2.1), ve které vynecháme proměnnou LF P . Bez toho bychom se dostali blízko singulární matici a hrozil by vznik multikolinearity.
F AMINC = β0 + β1 W HRS + β2 KL6 + β3 K618 + β4 W A + β5 W E (3.2.2) + β6 W W + β7 RP W G + β8 HHRS + β9 HA + β10 HE + β11 HW + β12 MT R + β13 W MED + β14 W F ED + β15 UN + β16 CIT + β17 AX + u. Získané hodnoty odhadů parametrů regresní rovnice (3.2.2) jsou zaznamenané v tabulce 3.3.
3.2. Některé další příklady implementace umělých proměnných
33
koeficient determinace 0.8034 2 s 26454353.8449 Durbin-Watsonův koeficient 1.9643 proměnná koeficient t-statistika významnost konstanta 92773.042379 9.892574 0.000000 WHRS 1.051986 2.028285 0.043391 KL6 1031.761689 1.197697 0.231956 K618 640.462440 2.418031 0.016185 WA 221.645410 2.464304 0.014274 WE -50.926786 -0.281507 0.778511 WW 203.715545 1.554357 0.121126 RPWG 381.551547 1.738675 0.083091 HHRS 0.500160 0.681638 0.495980 HA -62.049894 -0.767206 0.443547 HE -169.897545 -1.341072 0.180885 HW 490.767776 2.820780 0.005102 MTR -116815.992086 -13.627781 0.000000 WMED -60.580186 -0.541808 0.588342 WFED -18.714961 -0.174537 0.861558 UN -105.304222 -1.062646 0.288775 CIT -872.326088 -1.272386 0.204196 AX -128.268079 -2.616943 0.009310 Tabulka 3.3: odhadnuté koeficienty upravené regresní rovnice o (3.2.2) Většina hodnot odhadnutých parametrů zůstala ve stejném vztahu jako v původním výpočtu. Změna nastala u proměnných W E, HA, W MED, ale nadále nejsou statisticky významné. Proměnná MT R stále vystupuje v regresi (3.2.2) se značným vlivem. Pro zajímavost zkusíme ještě vynechat výrazně vlivovou proměnnou MT R a proměnnou RP W G (data ponecháme filtrovaná, tedy pro LF P = 1):
F AMINC = β0 + β1 W HRS + β2 KL6 + β3 K618 + β4 W A + β5 W E + β6 W W + β7 HHRS + β8 HA + β9 HE + β10 HW + β11 W MED + β12 W F ED + β13 UN + β14 CIT + β15 AX + u.
(3.2.3)
3.2. Některé další příklady implementace umělých proměnných
34
Z tabulky 3.4. obsahující výsledky odhadů parametrů regresního modelu (3.2.3) zjistíme, že výraznou statistickou průkaznost mají parametry kromě konstanty taky u počtu odpracovanýh hodin obou manželů (W HRS a HHRS), u průměrného hodinového výdělku žen (W W , v dolarech) a u mzdy manžela (HW , v dolarech). Kladná znaménka těchto parametrů potvrzují očekávání, že výše příjmů rostou s početem odpracovaných hodin a tedy i s růstem mzdy manžela i manželky. Ostatní parametry nejstou statisticky významné. Také změna znaménka u parametru CIT na kladné naplnila očekávání, že příjmy jsou vyšší ve větších městech než na venkově. Koeficient determinace je o něco nižší než vykazuje původní regresní rovnice, ale Durbin-Watsonův koeficient nenaznačuje kladnou autokorelaci v modelu (3.2.3). koeficient determinace 0.6774 2 s 43137469.3442 Durbin-Watsonův koeficient 2.0179 proměnná koeficient t-statistika významnost konstanta -27672.043238 -6.625326 0.000000 WHRS 4.456302 7.624518 0.000000 KL6 925.802559 0.845656 0.398397 K618 -6.563307 -0.019724 0.984276 WA 188.881398 1.645684 0.100842 WE 371.658504 1.655166 0.098903 WW 725.936895 5.174063 0.000000 HHRS 7.205854 10.296506 0.000000 HA 5.681431 0.055110 0.956086 HE -177.174680 -1.095863 0.273989 HW 2366.081119 17.286931 0.000000 WMED 84.764520 0.596626 0.551193 WFED 34.782511 0.254202 0.799508 UN -149.553397 -1.182584 0.237880 CIT 201.972839 0.235018 0.814350 AX -77.657230 -1.253879 0.210831 Tabulka 3.4: odhadnuté koeficienty upravené regresní rovnice o (3.2.3)
3.2. Některé další příklady implementace umělých proměnných
4
10
OLS Actual vs. Predicted
x 10
Actual Predicted
8 6 4 2 0
0
50
100
150
4
5
200
250
300
350
200
250
300
350
Residuals
x 10
4 3 2 1 0 −1
0
50
100
150
Obrázek 3.3: Graf pro regresní rovnici (3.2.2)
4
10
OLS Actual vs. Predicted
x 10
Actual Predicted
8 6 4 2 0 −2
0
50
100
150
4
6
200
250
300
350
200
250
300
350
Residuals
x 10
4 2 0 −2 −4
0
50
100
150
Obrázek 3.4: Graf pro regresní rovnici (3.2.3)
35
3.2. Některé další příklady implementace umělých proměnných
3.2.2
36
Platby kreditní kartou
V následujícím příkladu se podíváme na výdajový model, kde vysvětlovanou proměnnou bude tvořit průměrná útrata kreditní kartou (ozn. Avgexp). Vstupní datový soubor o 100 pozorováních (viz příloha na přiloženém datovém nosiči CD) obsahuje tyto proměnné: MDR – počet derogačních reportů5 , Acc = 1 pro akceptovanou žádost o platbu kreditní kartou, Age – věk respondenta, Income – příjem/10.000, Avgexp – prům. měsíční výdaje přes kreditní kartu, Ownrent = 1 vlastní-li dotazovaný dům/byt, 0 nájemce, Self empl = 1 pro OSVČ6 , 0 jinak. Avgexp = β0 + β1 MDR + β2 Acc + β3 Age + β4 Income + β5 Ownrent + β6 Self empl + u.
(3.2.4)
Výsledky odhadnutých koeficientů regresní rovnice (3.2.4) zobrazuje tabulka 3.5. Statisticky významný koeficient u proměnné Income a jeho kladná hodnota potvrzuje očekávání, že výdaje porostou s příjmem. Významnost vykazuje také odhad parametru Acc. Podíváme-li se na zaznamenané hodnoty u této proměnné přímo v datovém souboru, zjistíme, že nabývá pouze dvou hodnot, a to 1 pro uskutečněné transakce nebo 0 pro neuskutečněné transakce. Pokud se transakce neuskutečnila, je i hodnota výdajů rovna 0. Plusové znaménko zmíněného parametru utvrzuje skutečnost, že bez provedené platby kreditní kartou nevzrostou průměrné měsíční výdaje na té samé kreditní kartě. Ostatní koeficienty nejsou statisticky významné. V uvedeném modelu tedy nezáleží ani na věku respondenta ani na tom, zda vlastní dům/byt či podniká jako OSVČ. Nyní zkusíme proměnnou Acc z regrese vynechat a data „ořežeme pouze na ta pozorování, kde hodnota transakce platební kartou nebyla nulová. Počet pozorování se tak zredukoval na 72. Upravená regresní rovnice bude ve tvaru 5
Number of derogatory reports - budeme předpokládat, že se jedná o počet bankou zamítnutých požadavků k úhradě nákupu kreditní kartou. 6 Osoba samostatně výdělečně činná.
3.2. Některé další příklady implementace umělých proměnných
37
koeficient determinace 0.2975 2 s 64748.6103 Durbin-Watsonův koeficient 1.7038 proměnná koeficient t-statistika významnost konstanta -218.519515 -1.641533 0.104065 MDR -11.782020 -0.416104 0.678292 Acc 235.529153 3.531725 0.000645 Age 0.429761 0.120031 0.904717 Income 62.812060 3.515171 0.000681 Ownrent 44.314325 0.756126 0.451485 Selfempl -30.494136 -0.242353 0.809041 Tabulka 3.5: odhadnuté koeficienty regresní rovnice (3.2.4)
Avgexp = β0 + β1 MDR + β2 Age + β3 Income + β4 Ownrent + β5 Self empl + u
(3.2.5)
a hodnoty odhadnutých parametrů jsou uvedeny v tabulce 3.6. koeficient determinace 0.2173 2 s 85171.4485 Durbin-Watsonův koeficient 1.6692 proměnná koeficient t-statistika významnost konstanta -63.751132 -0.369313 0.713077 MDR -58.860910 -0.599123 0.551142 Age 0.410344 0.073155 0.941904 Income 95.502415 3.537581 0.000745 Ownrent -0.580182 -0.006536 0.994804 Selfempl -289.567036 -1.182686 0.241177 Tabulka 3.6: odhadnuté koeficienty regresní rovnice (3.2.5) Výsledky odhadů se oproti původní regresi téměř nezměnily. Koeficienty determinace i Durbin-Watsonův zůstaly na nízké hodnotě a statisticky významný je pouze odhad parametru příjmu.
3.2. Některé další příklady implementace umělých proměnných
OLS Actual vs. Predicted 2000 Actual Predicted
1500 1000 500 0 −500
0
10
20
30
40
50
60
70
80
90
100
60
70
80
90
100
Residuals 2000 1500 1000 500 0 −500
0
10
20
30
40
50
Obrázek 3.5: Graf pro regresní rovnici (3.2.4)
OLS Actual vs. Predicted 2000 Actual Predicted 1500
1000
500
0
0
10
20
30
40
50
60
70
80
50
60
70
80
Residuals 1500
1000
500
0
−500
0
10
20
30
40
Obrázek 3.6: Graf pro regresní rovnici (3.2.5)
38
3.2. Některé další příklady implementace umělých proměnných
39
Význam proměnné Avgexp bychom mohli s trochou fantazie chápat i jako průměrný měsíční limit na platby kreditní kartou. Zápis do regresní rovnice bude následující MDR = β0 + β1 Acc + β2 Age + β3 Income + β4 Avgexp + β5 Ownrent + β6 Self empl + u.
(3.2.6)
V tabulce 3.7 najdeme hodnoty odhadnutých koeficientů regrese (3.2.6). Výrazně statisticky významný odhadovaný koeficient umělé proměnné Acc je ve shodě s předpokladem, že s každou další akceptovanou žádostí o platbu kreditní kartou oproti zamítnuté platbě, bude vykázaný počet derogačních zpráv menší (blížící se nule). Koeficient determinace je i v tomto případě velice nízký, ale zároveň se mírně zvýšila hodnota Durbin-Watsonova koeficientu. koeficient determinace 0.2022 2 s 0.8668 Durbin-Watsonův koeficient 1.8743 proměnná koeficient t-statistika významnost konstanta 1.043280 2.164163 0.033013 Acc -0.982466 -4.109924 0.000085 Age -0.004182 -0.319351 0.750177 Income 0.076417 1.105360 0.271855 Avgexp -0.000158 -0.416104 0.678292 Ownrent -0.047276 -0.219853 0.826467 Selfempl -0.851541 -1.884069 0.062680 Tabulka 3.7: odhadnuté koeficienty regresní rovnice (3.2.6)
3.2. Některé další příklady implementace umělých proměnných
40
OLS Actual vs. Predicted 8 Actual Predicted
6 4 2 0 −2
0
10
20
30
40
50
60
70
80
90
100
60
70
80
90
100
Residuals 6
4
2
0
−2
0
10
20
30
40
50
Obrázek 3.7: Graf pro regresní rovnici (3.2.6)
3.2.3
Faktory ovlivňující mzdu
V dalším příkladu porovnáme výsledky odhadů jednotlivých koeficientů u stejných proměnných za různá období. Máme soubor dat z roku 1988 o 575 jedincích za 7leté období (přílohy na přiloženém datovém nosiči CD) s těmito proměnnými: EXP – délka praxe, W KS – odpracované týdny, OCC = 1 jde-li o zaměstnaného dělníka, IND = 1 pro zpracovatelský průmysl, SOUT H = 1 bydlí-li jedinec na jihu USA, SMSA = 1 bydlí-li jedinec ve městě, MS = 1 pro ženatého/vdanou, F EM = 1 pro ženu, UNION = 1 jedná-li se o mzdu stanovenou dle kolektivní smlouvy,
3.2. Některé další příklady implementace umělých proměnných
41
ED – délka vzdělání (v letech), BLK = 1 pro osobu černé pleti, LW AGE – logaritmus mzdy. Za vysvětlovanou proměnnou zvolíme mzdu (LW AGE) a regresní rovnice bude mít tento tvar LW AGE = β0 + β1 EXP + β2 W KS + β3 OCC + β4 IND + β5 SOUT H + β6 MS + β7 F EM + β8 UNION + β9 ED + β10 BLK + u.
(3.2.7)
Vypočtené odhady koeficientů pro jednotlivá období (základní období má ozn. T1 ) jsou uvedeny v tabulkách 3.9 až 3.15 a příslušné grafy zobrazují obrázky 3.8 až 3.14. Jednotlivé hodnoty odhadů se až na konstantu pohybují kolem nuly. Shrneme je do jedné tabulky (Tab. 3.8). Označení „+ vyjadřuje ty odhady parametrů, které rostou s růstem příjmu (jedná-li se o kvantitativní proměnné) nebo nabývají vyšších hodnot oproti základní skupině umělých proměnných v regresi nezahrnutých. Označení „− vyjadřuje přesný opak. období KD7 DW8 konstanta EXP WKS OCC IND SOUTH SMSA MS FEM UNION ED BLK
T1 T2 T3 T4 T5 T6 T7 0.4890 0.4868 0.4313 0.4504 0.4747 0.4476 0.4461 1.9407 1.9076 1.8529 1.9137 1.9001 1.8533 1.8426 + + + + + + + + + + + + + + + +9 +9 + + +9 +9 − − − − − − − 9 9 9 + + + + + + + − − −9 − −9 −9 −9 + + + + + + + 9 9 9 + + + + + + + − − − − − − − + + +9 +9 + + + + + + + + + + − − − − − − −
Tabulka 3.8: souhrn výsledků odhadnutých koeficientů (tab. 3.9 až 3.15) 7
Koeficient determinace Durbin-Watsonův koeficient 9 Odhad koeficientu je statisticky nevýznamný 8
3.2. Některé další příklady implementace umělých proměnných
42
Z tabulky 3.8. lze vyčíst, že všechna období jsou ve shodě ve vlivu jednotlivých proměnných na výši příjmu a zároveň v souladu s očekáváním z pohledu ekonomického. Příjem poroste s délkou praxe, počtem odpracovaných hodin i odstudovaných let. V případě kvalitativních proměnných budou mít vyšší příjmy zaměstnanci na vyšších pozicích oproti dělníkům, pracující ve zpracovatelském průmyslu a jejichž mzda je stanovena kolektivní smlouvou. Dále jsou lépe ohodnoceni muži než ženy a ženatí před svobodnými. Hůře jsou na tom po příjmové stránce jedinci žijící v jižních zemích a z etnického hlediska černoši. Žádný rok nevykazuje vliv sezónnosti. Můžeme si však povšimnout, že v některých letech není statisticky průkazný parametr počet odpracovaných hodin. Jako vysvětlení se nabízí možnost nepružných mezd vzhledem ke kolektivním smlouvám, které mohou být po určitou dobu fixní. Zajímavá je také statistická významnost parametru proměnné IND pouze pro poslední 4 roky za 7leté období. Ze zadání je patrné, že datový soubor je pořízen v roce 1988, ale nevíme za která předchozí období. Ani nevíme, jaká diferenciace mezd byla v tehdejším období v průmyslových odvětvích. Mohli bychom se domnívat, že ve zmiňovaných posledních 4 letch byly průměrné mzdy znatelněji vyšší ve zpracovatelském průmyslu než v jiných průmyslových odvětvích. Hodnota koeficientu determinace je vzhledem k počtu vysvětlujících proměnných překvapivě nízká, a to opakovaně ve všech obdobích. koeficient determinace 0.4890 s2 0.0786 Durbin-Watsonův koeficient 1.9407 proměnná koeficient t-statistika významnost konstanta 5.203450 38.870806 0.000000 EXP 0.009852 8.697860 0.000000 WKS 0.005871 3.128423 0.001845 OCC -0.126298 -4.140053 0.000040 IND 0.019959 0.797467 0.425504 SOUTH -0.055850 -2.108388 0.035424 SMSA 0.180696 6.989768 0.000000 MS 0.094362 2.058961 0.039942 FEM -0.290383 -5.283173 0.000000 UNION 0.120929 4.491945 0.000009 ED 0.047538 8.605403 0.000000 BLK -0.138459 -2.963408 0.003167 Tabulka 3.9: odhadnuté koeficienty regresní rovnice (3.2.7) pro období T1
3.2. Některé další příklady implementace umělých proměnných
OLS Actual vs. Predicted 7 Actual Predicted 6.5
6
5.5
5
0
100
200
300
400
500
600
400
500
600
Residuals 1 0.5 0 −0.5 −1 −1.5
0
100
200
300
Obrázek 3.8: Graf pro regresní rovnici (3.2.4) pro období T1 koeficient determinace 0.4868 2 s 0.0688 Durbin-Watsonův koeficient 1.9076 proměnná koeficient t-statistika významnost konstanta 5.610636 40.650769 0.000000 EXP 0.007505 7.101535 0.000000 WKS 0.000680 0.313295 0.754169 OCC -0.105053 -3.668061 0.000267 IND 0.017576 0.754662 0.450757 SOUTH -0.059075 -2.378488 0.017705 SMSA 0.156086 6.405037 0.000000 MS 0.070581 1.694390 0.090725 FEM -0.345561 -6.826773 0.000000 UNION 0.108929 4.245158 0.000025 ED 0.046909 9.096544 0.000000 BLK -0.136484 -3.127167 0.001853 Tabulka 3.10: odhadnuté koeficienty regresní rovnice (3.2.7) pro období T2
43
3.2. Některé další příklady implementace umělých proměnných
OLS Actual vs. Predicted 7 Actual Predicted 6.5
6
5.5
5
0
100
200
300
400
500
600
400
500
600
Residuals 1
0.5
0
−0.5
−1
0
100
200
300
Obrázek 3.9: Graf pro regresní rovnici (3.2.7) pro období T2 koeficient determinace 0.4313 2 s 0.1156 Durbin-Watsonův koeficient 1.8529 proměnná koeficient t-statistika významnost konstanta 5.707219 30.175120 0.000000 EXP 0.007903 5.742763 0.000000 WKS 0.000218 0.071524 0.943005 OCC -0.161565 -4.283141 0.000022 IND 0.044222 1.444962 0.149006 SOUTH -0.052972 -1.627240 0.104226 SMSA 0.150109 4.831569 0.000002 MS 0.068852 1.325527 0.185516 FEM -0.424978 -6.637005 0.000000 UNION 0.063105 1.906567 0.057068 ED 0.054045 8.040706 0.000000 BLK -0.155721 -2.738629 0.006358 Tabulka 3.11: odhadnuté koeficienty regresní rovnice (3.2.7) pro období T3
44
3.2. Některé další příklady implementace umělých proměnných
OLS Actual vs. Predicted 9 Actual Predicted
8 7 6 5 4
0
100
200
300
400
500
600
400
500
600
Residuals 2 1 0 −1 −2 −3
0
100
200
300
Obrázek 3.10: Graf pro regresní rovnici (3.2.7) pro období T3 koeficient determinace 0.4504 2 s 0.1088 Durbin-Watson koeficient 1.9137 proměnná koeficient t-statistika významnost konstanta 5.241862 28.037233 0.000000 EXP 0.006795 5.080656 0.000001 WKS 0.010189 3.285456 0.001079 OCC -0.142569 -3.867656 0.000122 IND 0.064006 2.147398 0.032173 SOUTH -0.064803 -2.068987 0.038987 SMSA 0.144073 4.764035 0.000002 MS 0.090966 1.802461 0.071989 FEM -0.379785 -6.158038 0.000000 UNION 0.061148 1.893207 0.058825 ED 0.059919 9.246259 0.000000 BLK -0.175580 -3.184933 0.001525 Tabulka 3.12: odhadnuté koeficienty regresní rovnice (3.2.7) pro období T4
45
3.2. Některé další příklady implementace umělých proměnných
OLS Actual vs. Predicted 9 Actual Predicted 8
7
6
5
0
100
200
300
400
500
600
400
500
600
Residuals 2 1.5 1 0.5 0 −0.5 −1
0
100
200
300
Obrázek 3.11: Graf pro regresní rovnici (3.2.7) pro období T4 koeficient determinace 0.4747 2 s 0.0962 Durbin-Watsonův koeficient 1.9001 proměnná koeficient t-statistika významnost konstanta 5.560873 32.488440 0.000000 EXP 0.006127 4.894171 0.000001 WKS 0.005933 2.228414 0.026233 OCC -0.166858 -4.763228 0.000002 IND 0.087139 3.172773 0.001589 SOUTH -0.054451 -1.850340 0.064770 SMSA 0.162663 5.722080 0.000000 MS 0.095774 1.992217 0.046813 FEM -0.365279 -6.283877 0.000000 UNION 0.079951 2.693647 0.007271 ED 0.056084 9.122299 0.000000 BLK -0.153952 -2.954306 0.003260 Tabulka 3.13: odhadnuté koeficienty regresní rovnice (3.2.7) pro období T5
46
3.2. Některé další příklady implementace umělých proměnných
OLS Actual vs. Predicted 8.5 Actual Predicted
8 7.5 7 6.5 6 5.5 5
0
100
200
300
400
500
600
400
500
600
Residuals 1
0.5
0
−0.5
−1
0
100
200
300
Obrázek 3.12: Graf pro regresní rovnici (3.2.7) pro období T5 koeficient determinace 0.4476 2 s 0.1012 Durbin-Watsonův koeficient 1.8533 proměnná koeficient t-statistika významnost konstanta 5.572087 31.635322 0.000000 EXP 0.005749 4.462398 0.000010 WKS 0.005128 1.886830 0.059680 OCC -0.130951 -3.663642 0.000271 IND 0.090706 3.193697 0.001480 SOUTH -0.055239 -1.817272 0.069689 SMSA 0.174066 6.041759 0.000000 MS 0.151474 2.961036 0.003191 FEM -0.264007 -4.257554 0.000024 UNION 0.097375 3.121445 0.001889 ED 0.057857 9.101156 0.000000 BLK -0.166948 -3.133799 0.001812 Tabulka 3.14: odhadnuté koeficienty regresní rovnice (3.2.7) pro období T6
47
3.2. Některé další příklady implementace umělých proměnných
OLS Actual vs. Predicted 8.5 Actual Predicted
8 7.5 7 6.5 6 5.5
0
100
200
300
400
500
600
400
500
600
Residuals 1 0.5 0 −0.5 −1 −1.5
0
100
200
300
Obrázek 3.13: Graf pro regresní rovnici (3.2.7) pro období T6 koeficient determinace 0.4461 2 s 0.1085 Durbin-Watsonův koeficient 1.8426 proměnná koeficient t-statistika významnost konstanta 5.849507 32.546398 0.000000 EXP 0.004895 3.661076 0.000274 WKS 0.002883 1.065630 0.287032 OCC -0.164794 -4.414750 0.000012 IND 0.090302 3.064571 0.002281 SOUTH -0.057701 -1.845456 0.065478 SMSA 0.162151 5.427321 0.000000 MS 0.104431 2.112302 0.035085 FEM -0.318212 -5.181309 0.000000 UNION 0.111976 3.498171 0.000504 ED 0.057661 8.648975 0.000000 BLK -0.191104 -3.471671 0.000556 Tabulka 3.15: odhadnuté koeficienty regresní rovnice (3.2.7) pro období T7
48
3.3. Uplatnění umělých proměnných v analýze sezónnosti
49
OLS Actual vs. Predicted 9 Actual Predicted
8.5 8 7.5 7 6.5 6 5.5
0
100
200
300
400
500
600
400
500
600
Residuals 1.5 1 0.5 0 −0.5 −1 −1.5
0
100
200
300
Obrázek 3.14: Graf pro regresní rovnici (3.2.7) pro období T7
3.3 3.3.1
Uplatnění umělých proměnných v analýze sezónnosti Investice firem
Budeme uvažovat mikroekonomický model závislosti výše investic firmy na její bonitě a vytvořeném rozvojovém fondu v průběhu let 1935–1954. Jedná se o roční data. Funkční závislost zapíšeme do lineárního regresního modelu I = β0 + β1 F + β2 C + u, kde I – investice firmy dle výroční zprávy, F – bonita firmy dle záznamů bank), C – rozvojový fond firmy (na vybavení a zařízení).
(3.3.1)
3.3. Uplatnění umělých proměnných v analýze sezónnosti
50
koeficient determinace 0.6432 2 s 1.1780 Durbin-Watsonův koeficient 1.0722 proměnná koeficient t-statistika významnost konstanta 0.161519 0.078196 0.938585 F 0.004573 0.168384 0.868269 C 0.437369 5.495354 0.000039 Tabulka 3.16: odhadnuté koeficienty regresní rovnice (3.3.1) Z výsledných hodnot odhadů parametrů metodou OLS uvedených v tabulce 3.16 zjistíme, že jediný statisticky významný je odhad parametru u proměnné C. Z toho plyne, že investice jsou závislé především na vytvořeném rozvojovém fondu společnosti za účelem budoucích nákupů nových strojů a technologií. Kladná hodnota tohoto parametru splňuje očekávání, že se zvyšováním hodnoty rozvojového fondu firmy poroste i objem investic. OLS Actual vs. Predicted 7 Actual Predicted
6 5 4 3 2 1 0
1934
1936
1938
1940
1942
1944
1946
1948
1950
1952
1954
1946
1948
1950
1952
1954
Residuals s 3 2 1 0 1 2
1934
1936
1938
1940
1942
1944
Obrázek 3.15: Graf pro regresní rovnici (3.3.1)
3.3. Uplatnění umělých proměnných v analýze sezónnosti
51
Podíváme-li se na období, za které máme průřezová data pořízena a na obrázek grafu 3.15, zjistíme, že v období lehce před 2. světovou válkou nejdříve investice mírně klesaly a v průběhu války byl již pokles výraznější. Na základě tohoto zjištění zavedeme do regresního modelu (3.3.1) umělou proměnnou vyjadřující sezónnost:
I = β0 + β1 F + β2 C + α1 S + u,
(3.3.2)
kde S = 1 pro odbobí během 2. světové války (1939-1945), 0 jinak. koeficient determinace 0.7205 2 s 0.9804 Durbin-Watsonův koeficient 1.3160 proměnná koeficient t-statistika významnost konstanta 1.401906 0.710032 0.487905 F 0.000192 0.007730 0.993928 C 0.347626 4.128139 0.000789 S -1.132727 -2.103985 0.051547 Tabulka 3.17: odhadnuté koeficienty regresní rovnice (3.3.2) Záporné znaménko odhadu koeficientu umělé proměnné S a jeho statistická významnost potvrzuje skutečnost, že ve válečném období byly investice na pořízení nových strojů a zařízení nižší než v období míru. Zároveň se zvýšila hodnota jak koeficientu determinace, tak hodnota Durbin-Watsonova koeficientu. Celkově tedy můžeme pokládát regresní rovnici (3.3.2) se zavedením sezónní proměnné za lépe specifikovanou oproti původní (3.3.1), která sezónnost nerespektovala.
3.3. Uplatnění umělých proměnných v analýze sezónnosti
52
OLS Actual vs. Predicted 7 Actual Predicted
6 5 4 3 2 1 0
1934
1936
1938
1940
1942
1944
1946
1948
1950
1952
1954
1946
1948
1950
1952
1954
Residuals s 3 2 1 0 1 2
1934
1936
1938
1940
1942
1944
Obrázek 3.16: Graf pro regresní rovnici (3.3.2)
3.3.2
Stavební průmysl v ČR
Oblast, ve které lze důvodně očekávat vliv sezónnosti nebo cyklické výkyvy, je stavebnictví. Vybrala jsem tedy údaje o stavební výrobě v České republice v letech 1998–2007 ze statistik ČSÚ (Český statistický úřad, www.czso.cz), členěné na čtvrtletí. Metodika ČSÚ: Stavební produkce zahrnuje stavební práce prováděné podniky s převažující stavební činností. Stavební podnik je podnikatelský subjekt s převažující stavební činností. Stavební podniky podle velikosti: – podniky s 20 a více zaměstnanci, za které se údaje zjišťují výkazy – podniky s méně než 20 zaměstnanci a fyzické osoby podnikající s živnostenským oprávněním, za které se provádí měsíční odhad stavebních prací. Stavební práce jsou zejména práce na výstavbě, přestavbě, rozšíření, obnově, opravách a údržbě stálých i dočasných budov a staveb. Zahrnují i montážní práce stavebních konstrukcí a hodnotu zabudovaného materiálu a konstrukcí.
53
3.3. Uplatnění umělých proměnných v analýze sezónnosti
Charakter kvartální sezónnosti potvrdí následující graf (obr. 3.17), z něhož vyčteme propad vždy v 1. čtvrtletí každého zaznamenaného roku. Tento jev je způsoben především tím, že do 1. čtvrtletí spadají zimní měsíce leden a únor, kdy objem stavebních prací realizovaných v exteriéru klesá. V tuto dobu lze provádět stavební práce většinou pouze v interiéru. Z grafu lze také vyčíst i rostoucí trend stavební produkce v čase. Stavební výroba 160,0
140,0
120,0
mld. Kþ
100,0
80,0
60,0
40,0
20,0
2007.4
2007.3
2007.2
2007.1
2006.4
2006.3
2006.2
2006.1
2005.4
2005.3
2005.2
2005.1
2004.4
2004.3
2004.2
2004.1
2003.4
2003.3
2003.2
2003.1
2002.4
2002.3
2002.2
2002.1
2001.4
2001.3
2001.2
2001.1
2000.4
2000.3
2000.2
2000.1
1999.4
1999.3
1999.2
1999.1
1998.4
1998.3
1998.2
1998.1
0,0
þtvrtletí
Obrázek 3.17: Graf stavební výroby v ČR v letech 1998–2007
Stavební výrobu lze mimo jiné měřit počtem vydaných stavebních povolení. Tyto údaje ČSÚ také zjišťuje a tak vysvětlovanou proměnnou bude v tomto případě objem stavební výroby v mld. Kč Sv a jako vysvětlující proměnná bude v jednoduchém regresním modelu vystupovat proměnná P , představující počet vydaných stavebních povolení v daných čtvrtletích. Sv = β0 + β1 P + u
(3.3.3)
Odhadnuté parametry rovnice (3.3.3) metodou OLS jsou zaznamenány v tabulce 3.18. Výsledky potvrzují skutečnost, že s počtem vydaných stavebních povolení poroste objem produkce stavební výroby. Statistická významnost koeficientu u proměnné P je více než značná.
54
3.3. Uplatnění umělých proměnných v analýze sezónnosti
koeficient determinace 0.9097 2 s 94.1994 Durbin-Watsonův koeficient 2.0778 proměnná koeficient t-statistika významnost konstanta -2.957209 -0.587734 0.560595 P 1.383977 18.502040 0.000000 Tabulka 3.18: odhadnuté koeficienty regresní rovnice (3.3.3) OLS Actual vs. Predicted 160 Actual Predicted
140 120 100 80 60 40 20
0
5
10
15
20
25
30
35
40
25
30
35
40
Residuals 20
10
0
−10
−20
0
5
10
15
20
Obrázek 3.18: Graf pro regresní rovnici (3.3.3)
Očekávaný vliv sezónnosti zaneseme do regresní rovnice (3.3.3) ve formě umělé proměnné (ozn. Q) a její tvar bude následující
Sv = β0 + β1 P + β3 Q + u, kde Q = 1 pro 1. čtvrtletí, 0 jinak.
(3.3.4)
55
3.3. Uplatnění umělých proměnných v analýze sezónnosti
koeficient determinace 0.9368 2 s 94.1994 Durbin-Watsonův koeficient 1.4317 proměnná koeficient t-statistika významnost konstanta 20.714802 2.727721 0.010138 P 1.440159 22.086136 0.000000 Q -0.000740 -3.769426 0.000644 Tabulka 3.19: odhadnuté koeficienty regresní rovnice (3.3.4) Odhadnuté koeficienty regresní rovnice upravené o sezónní složku (3.3.4) zachycuje tabulka 3.19. Záporná hodnota u sezónní proměnné Q potvrdila očekávání, že vždy v 1. čtvrtletí je objem produkce stavební výroby nižší než v ostatních čtvrtletích. Zároveň je i statisticky významná a sezónní vliv je tedy průkazný.
OLS Actual vs. Predicted 200 Actual Predicted 150
100
50
0
0
5
10
15
20
25
30
35
40
25
30
35
40
Residuals 15 10 5 0 −5 −10 −15 −20
0
5
10
15
20
Obrázek 3.19: Graf pro regresní rovnici (3.3.4)
3.3. Uplatnění umělých proměnných v analýze sezónnosti
56
Důležitou součástí stavebnictví je mimo jiné i bytová výstavba realizovaná v rámci bytové politiky státu. K dispozici máme čtvrtletní data o bytové výstavbě České republiky za období 2002–2007. Vysvětlovanou proměnnou zde bude počet dokonečných bytů v jednotlivých čtvrtletích. Vysvětlující proměnné budou představovat počty zahájených a rozestavěných bytů. Tuto závislost zapíšeme do regresní rovnice
Bd = β0 + β1 Bz + β2 Br + u,
(3.3.5)
kde Bd - počet dokončených bytů ve čtvrtletí, Bz - počet zahájených bytů ve čtvrtletí, Bz - počet rozestavěných bytů ve čtvrtletí, u - náhodná složka. Podíváme-li se na hodnoty odhadů vysvětlujících proměnných spočtených metodou OLS (tabulka 3.19), zjistíme, že žádný z nich není statisticky významný. Vliv na počet dokončených bytů v rámci bytové výstavby v ČR mají sice kladný, ale téměř nulový. Koeficient determinace také nevypovídá a vhodně zvoleném modelu. koeficient determinace 0.2089 s2 8300320.3472 Durbin-Watsonův koeficient 1.8155 proměnná koeficient t-statistika významnost konstanta -2462.727447 -0.438986 0.665155 Bz 0.859174 1.392413 0.178367 Br 0.013007 0.233827 0.817384 Tabulka 3.20: odhadnuté koeficienty regresní rovnice (3.3.5)
57
3.3. Uplatnění umělých proměnných v analýze sezónnosti
4
1.8
OLS Actual vs. Predicted
x 10
Actual Predicted
1.6 1.4 1.2 1 0.8 0.6 0.4
0
5
10
15
20
25
15
20
25
Residuals 8000 6000 4000 2000 0 −2000 −4000 −6000
0
5
10
Obrázek 3.20: Graf pro regresní rovnici (3.3.5)
Zaměříme se tedy na vývoj v jednotlivých letech. Z grafu na obrázku 3.19 lehce rozpoznáme cyklický výkyv vždy ve 4. čtvrtletí každého roku. Tento jev potvrdí i sloupcový graf s údaji o počtu dokončených bytů na obr. 3.20. Vliv na tento vývoj může mít již zmíněné roční období, kdy v zimních měsících klesá stavební produkce z důvodu omezených stavebních prací. Většinu staveb, zde konkrétně bytů, je tedy vhodnější dokončit ještě před začátkem zimní sezóny, aby stavební práce během tohoto období nestály a zbytečně se neprodlužovala doba od zahájení do dokončení stavby. Současným trendem je spíše dobu na dokončení výstavby bytů zkracovat. Dalším důvodem mohou být podmínky čerpání státních nebo evropských dotací na bytovou výstavbu. Do regresního modelu (3.3.5) opět přidáme sezónní proměnnou, ale tentokrát pro 4. čtvrtletí. V ostatních čtvrtletích bude nulová.
Bd = β0 + β1 Bz + β2 Br + β3 Q + u, kde Q = 1 pro 4. čtvrtletí, 0 jinak.
(3.3.6)
58
3.3. Uplatnění umělých proměnných v analýze sezónnosti
Bytová výstavba v ýR 20000
18000
16000
poþet dokonþených bytĤ
14000
12000
10000
8000
6000
4000
2000
2007.4
2007.3
2007.2
2007.1
2006.4
2006.3
2006.2
2006.1
2005.4
2005.3
2005.2
2005.1
2004.4
2004.3
2004.2
2004.1
2003.4
2003.3
2003.2
2003.1
2002.4
2002.3
2002.2
2002.1
0
þtvrtletí
Obrázek 3.21: Graf dokončené výstavby bytů v ČR v letech 2002–2007
Hodnoty odhadnutých parametrů regresní rovnice (3.3.6) zachycuje tabulka 3.21. Koeficient determinace se výrazně zvýšil. Po zanesení vlivu sezónnosti (proměnná P ) můžeme model bytové výstavby v ČR pokládat za vhodně zvolený. Odhad parametru u proměnné P je statisticky průkazný a koresponduje s již zmíněnou situací, kdy ve 4. čtvrtletí je dokončeno o 5590 bytových staveb více oproti průměru zbytku roku. koeficient determinace 0.8090 2 s 2104072.3919 Durbin-Watsonův koeficient 1.4897 proměnná koeficient t-statistika významnost konstanta -2521.355121 -0.892655 0.382657 Bz 0.259840 0.812673 0.425974 Br 0.043539 1.540122 0.139204 Q 5589.986978 7.927329 0.000000 Tabulka 3.21: odhadnuté koeficienty regresní rovnice (3.3.6)
59
3.3. Uplatnění umělých proměnných v analýze sezónnosti
4
1.8
OLS Actual vs. Predicted
x 10
Actual Predicted
1.6 1.4 1.2 1 0.8 0.6 0.4
0
5
10
15
20
25
15
20
25
Residuals 6000 4000 2000 0 −2000 −4000
0
5
10
Obrázek 3.22: Graf pro regresní rovnici (3.3.6)
60
3.4. Shrnutí
3.4
Shrnutí
Tabulky 3.22 až 3.25 obsahují základní údaje o výběrových datech použitých v jednotlivých regresních modelech s umělými proměnnými a hodnoty koeficientů vypočtených metodou OLS, udávající celkovou vhodnost použitého modelu. Regresní model počet pozorování počet proměnných12 z toho umělé proměnné Koeficient determinace Durbin-Watsonův koeficient
(2.1.1)10 (2.1.1)10 (2.1.1)10 Lodní nehody11 20 12 25 20 2 3 4 8 1 2 2 7 0.4452 0.2646 0.6624 0.8482 1.1352 2.2072 1.0979 2.6163
Tabulka 3.22: shrnutí charakteristik regresních rovnic s umělými proměnnými Regresní model počet pozorování počet proměnných11 z toho umělé proměnné Koeficient determinace Durbin-Watsonův koeficient
(3.2.1) (3.2.2) (3.2.3) (3.2.4) (3.2.5) 753 326 326 100 72 19 18 16 7 6 2 1 1 3 2 0.8224 0.8034 0.6774 0.2975 0.2173 2.0288 1.9643 2.0179 1.7038 1.6692
Tabulka 3.23: shrnutí charakteristik regresních rovnic s umělými proměnnými Regresní model počet pozorování počet proměnných11 z toho umělé proměnné Koeficient determinace Durbin-Watsonův koeficient
(3.2.6) (3.2.7)13 100 575 7 11 3 8 0.2022 0.4608 1.8743 1.8873
Tabulka 3.24: shrnutí charakteristik regresních rovnic s umělými proměnnými 10
Modelováno na hypotetických datech. Příklad uveden na str. 25. 12 Včetně konstanty. 13 Pozorováno za 7leté období, hodnoty jsou zprůměrované. 11
61
3.4. Shrnutí
Regresní model počet pozorování počet proměnných14 z toho sezónní (umělé) proměnné Koeficient determinace Durbin-Watsonův koeficient
(2.3.1) (3.3.2) (3.3.4) (3.3.6) 12 20 40 24 4 4 3 4 1 1 1 1 0.5925 0.7205 0.9368 0.8090 2.0778 1.3160 1.4317 1.4897
Tabulka 3.25: shrnutí regresních rovnic s sezónními (umělými) proměnnými V případě regresních modelů s umělými proměnnými není zřejmá závislost mezi počtem pozorování a počtem zahrnutých kvalitativních či kvantitativních proměnných. Vzájemná relace v jednotlivých případech byla však přirozeně závislá na rozsahu získaných dat, resp. na počtu kvantifikovatelných ukazatelů použitých jako vysvětlující proměnné. Hodnoty koeficientu determinace jsou různé a pohybují se od nízkých hodnot po relativně vysoké. Pro konkrétní určení důvodu kolísavosti koeficientu determinace (zda by to bylo vůbec možné) bychom museli testovat data např. na jiných modelech (zobecněný lineární model, vícestupňové metody OLS aj.) nebo provést další testy ekonometrických modelů. Durbin-Watsonův koeficient v žádném případě nevykazoval známky autokorelace, ale ve dvou případech se blížil hodnotě 1. Tato situace nastala u příkladů s hypotetickými daty, kde byla data předem uspořádána. V regresních modelech, ve kterých byla eliminována sezónnost zanesením umělé proměnné do modelu, se vypovídací hodnota modelů na základě jejich spočteného koeficientu determinace i Durbin-Watsonova koeficientu vždy zřetelně zvýšila.
14
Včetně konstanty.
Závěr Získání kvalitního datového souboru, který by obsahoval přesný popis jednotlivých vysvětlujících kvantitativních i kvalitativních proměnných, není jednoduchou záležitostí. Mají-li být umělé proměnné zahrnuté v ekonometrickém modelu, je zapotřebí sbírat data s již předem určeným způsobem, jakým budou v konkrétní regresní analýze použita. Pak je možné, aby byl i model v kontextu ekonomické teorie správně sestaven. Jestliže je užito datových vzorků, které nebyly přímo určeny k analýze vlivu umělých proměnných na vysvětlovanou proměnnou, je vypovídací hodnota použitého standardního lineárního modelu kolísavá. To je způsobeno již původním charakterem výběrových dat, která většinou neobsahují časový chronologický sled nebo jejichž vzorek dat je příliš krátký. Důvodem může být až pozdější sběr některých pozorovaných veličin nebo změna metodiky ve sběru dat. Jak jsem se sama navíc mohla přesvědčit, např. statistické výkazy pořizované Českým statistickým úřadem nejsou veřejně přístupné a k dispozici pro veřejnost jsou až následné výstupy v časových řadách. I ty jsou v mnoha případech neucelené a pro ekonometrickou analýzu užití umělých proměnných v regresních rovnicích jsou téměř nepoužitelné. Výjimku tvoří časové řady s frekventovanější periodicitou vykazování než roční, u nichž můžeme zkoumat sezónní vlivy. Přesto také narazíme na problém délky datového souboru. Budeme-li chtít zahrnout do modelu více vysvětlujících proměnných, zjistíme, že některé jsou sledovány ročně, jiné čtvrtletně, příp. měsíčně a v nejhorším případě navíc v jiném období. Pro zachycení vlivu umělých vysvětlujících proměnných na vysvětlovanou proměnnou jsem použila vlastní hypotetická i reálná data (ve 2. kapitole), data z publikace Econometric analysis od profesora Williama Greena a dat Českého statistického úřadu (3. kapitola). Z uvedených modelových situací vyplynulo, že v příp. krátké délky vzorku dat a jeho seřazení podle některé z umělých proměnných v něm obsažené ještě před zahrnutím do regrese se snižovala hodnota Durbin-Watsonova koeficientu. Koeficient determinace také nebyl vždy dostatečně vysoký. Avšak při zamyšlení nad otázkou, proč zahrnovat do ekonometrického modelu umělé proměnné, dospějeme k závěru, že vlastně neměříme přímo jejich vliv na vysvětlovanou proměnnou, ale především vztahy v rámci skupin nebo mezi konkrétními 62
3.4. Shrnutí
63
faktory, které umělé proměnné vyjadřují. Potvrzuje se tak obecná zkušenost, že ženy pobírají nižší příjmy než jejich mužské protějšky. Že „investice do vzdělání nám v budoucnu přinese vyšší příjmy než těm, kteří sotva ukončí základní školu. Dalším ekonomickým předpokladem může být vyšší mzdový příjem lidí žijících ve větších městech než na venkově. Na základě těchto a dalších předpokladů ověříme, zda v dané skupině existuje např. nějaký rys diskriminace nebo jiná rozdílná charakteristika. Je tedy užitečné před vlastní ekonometrickou analýzou povahu možných vlivných faktorů a jejich směr působení očekávat a podle toho je zahrnout do ekonometrického modelu. Kvantifikace provedená vhodnou odhadovou metodou očekávání buď potvrdí, nebo vyvrátí, a zároveň sdělí, jak velký rozdíl mezi nimi existuje. Na dotaz, zda zahrnout umělou proměnnou do regrese nebo eliminovat sezónnost, odpovídám (na základě získaných zkušeností) „ano . Minimálně mikroekonomické modely jsou bez nich podle mého názoru neúplné. V případě sezónních vlivů je odpověď zřejmá nejen na základě ekonomické teorie, ale i z uvedených praktických příkladů. S eliminací sezónnosti se vždy zvýšila míra shody modelu s použitými daty.
Literatura [1] Goldberger, A.S.: Teorie ekonometrie (studijní mat. č. 61 - překlad, část II: kap. 4-5, 1974) [2] Gujarati, D: Basic Econometrics (2nd ed., McGraw-Hill, N. York 1988) [3] Green, W: Econometric Analysis (6th ed., www.stern.nyu.edu/∼wgreene/Text/econometricanalysis.htm) [4] Hušek, R: Ekonometrická analýza, (EKOPRESS, Praha 1999) [5] Maddala, G.S.: Econometrics, (Mc.Graw-Hill, N. York 1977) [6] Meloun, M; Militký, J: Statistická analýza experimentálních dat, (Academia, Praha 2004) [7] www.czso.cz, Český statistický úřad
64
Příloha Použité funkce v programu MATLAB Metoda nejmenších čtverců function results=ols(y,x) % PURPOSE: least-squares regression %--------------------------------------------------% USAGE: results = ols(y,x) % where: y = dependent variable vector (nobs x 1) % x = independent variables matrix (nobs x nvar) %--------------------------------------------------% RETURNS: a structure % results.meth = ’ols’ % results.beta = bhat (nvar x 1) % results.tstat = t-stats (nvar x 1) % results.bstd = std deviations for bhat (nvar x 1) % results.yhat = yhat (nobs x 1) % results.resid = residuals (nobs x 1) % results.sige = e’*e/(n-k) scalar % results.rsqr = rsquared scalar % results.rbar = rbar-squared scalar % results.dw = Durbin-Watson Statistic % results.nobs = nobs % results.nvar = nvars % results.y = y data vector (nobs x 1) % results.bint = (nvar x2 ) vector with 95% confidence % intervals on beta %--------------------------------------------------% SEE ALSO: prt(results), plt(results) %--------------------------------------------------% written by: 65
LITERATURA
% % % % % % % %
66
James P. LeSage, Dept of Economics University of Toledo 2801 W. Bancroft St, Toledo, OH 43606
[email protected] Barry Dillon (CICG Equity) added the 95% confidence intervals on bhat
if (nargin ~= 2); error(’Wrong # of arguments to ols’); else [nobs nvar] = size(x); [nobs2 junk] = size(y); if (nobs ~= nobs2); error(’x and y must have same # obs in ols’); end; end; results.meth = ’ols’; results.y = y; results.nobs = nobs; results.nvar = nvar; if nobs < 10000 [q r] = qr(x,0); xpxi = (r’*r)\eye(nvar); else % use Cholesky for very large problems xpxi = (x’*x)\eye(nvar); end; results.beta = xpxi*(x’*y); results.yhat = x*results.beta; results.resid = y - results.yhat; sigu = results.resid’*results.resid; results.sige = sigu/(nobs-nvar); tmp = (results.sige)*(diag(xpxi)); sigb=sqrt(tmp); results.bstd = sigb; tcrit=-tdis_inv(.025,nobs); results.bint=[results.beta-tcrit.*sigb, results.beta+tcrit.*sigb]; results.tstat = results.beta./(sqrt(tmp)); ym = y - mean(y); rsqr1 = sigu;
LITERATURA
rsqr2 = ym’*ym; results.rsqr = 1.0 - rsqr1/rsqr2; % r-squared rsqr1 = rsqr1/(nobs-nvar); rsqr2 = rsqr2/(nobs-1.0); if rsqr2 ~= 0 results.rbar = 1 - (rsqr1/rsqr2); % rbar-squared else results.rbar = results.rsqr; end; ediff = results.resid(2:nobs) - results.resid(1:nobs-1); results.dw = (ediff’*ediff)/sigu; % durbin-watson
67
LITERATURA
68
Vykreslení grafů pozorovaných vs. vyrovnaných hodnot a reziduí function plt_reg(results,vnames); % PURPOSE: plots regression actual vs predicted and residuals %--------------------------------------------------% USAGE: plt_reg(results); % where: results is a structure returned by a regression function %--------------------------------------------------% RETURNS: nothing, just plots regression results % -------------------------------------------------% NOTE: user must supply pause commands, none are in plt_reg function % e.g. plt_reg(results); % pause; % plt_reg(results2); % -------------------------------------------------% SEE ALSO: prt_reg(results), prt, plt %--------------------------------------------------% % % % % %
written by: James P. LeSage, Dept of Economics University of Toledo 2801 W. Bancroft St, Toledo, OH 43606
[email protected]
if ~isstruct(results); error(’plt_reg requires a regression results structure’); end; nobs = results(1).nobs; method = results(1).meth; switch method case {’arma’,’boxcox’,’boxcox2’,’mlogit’,’logit’,’ols’,’olsar1’, ’olsc’,’probit’,’ridge’, ... ’theil’,’tobit’,’hwhite’,’tsls’,’nwest’,’olsrs’} tt=1:nobs; clf; subplot(2,1,1), plot(tt,results.y,’-’,tt,results.yhat,’--’); legend(’Actual’,’Predicted’); title([upper(results.meth), ’ Actual vs. Predicted’]);
LITERATURA
subplot(2,1,2), plot(tt,results.resid) title(’Residuals’);
69
LITERATURA
70
Výpis hodnot odhadnutých parametrů function prt_reg(results,vnames,fid) % PURPOSE: Prints output using regression results structures %--------------------------------------------------% USAGE: prt_reg(results,vnames,fid) % Where: results = a structure returned by a regression % vnames = an optional vector of variable names % fid = optional file-id for printing results to a file % (defaults to the MATLAB command window) %--------------------------------------------------% NOTES: e.g. vnames = strvcat(’y’,’const’,’x1’,’x2’); % e.g. fid = fopen(’ols.out’,’wr’); % use prt_reg(results,[],fid) to print to a file with no vnames % -------------------------------------------------% RETURNS: nothing, just prints the regression results % -------------------------------------------------% SEE ALSO: prt, plt %--------------------------------------------------% % % % % %
written by: James P. LeSage, Dept of Economics University of Toledo 2801 W. Bancroft St, Toledo, OH 43606
[email protected]
if ~isstruct(results) error(’prt_reg requires structure argument’); elseif nargin == 1 nflag = 0; fid = 1; elseif nargin == 2 fid = 1; nflag = 1; elseif nargin == 3 nflag = 0; [vsize junk] = size(vnames); % user may supply a blank argument if vsize > 0 nflag = 1; end; else error(’Wrong # of arguments to prt_reg’);
LITERATURA
71
end; nobs = results.nobs; nvar = results.nvar; % make up some generic variable names Vname = ’Variable’; for i=1:nvar tmp = [’variable ’,num2str(i)]; Vname = strvcat(Vname,tmp); end; if (nflag == 1) % the user supplied variable names [tst_n nsize] = size(vnames); if tst_n ~= nvar+1 fprintf(fid,’Wrong # of variable names in prt_reg -- check vnames argument \n’); fprintf(fid,’will use generic variable names \n’); nflag = 0; else, Vname = ’Variable’; for i=1:nvar Vname = strvcat(Vname,vnames(i+1,:)); end; end; % end of if-else end; % end of nflag issue switch results.meth
case {’ols’,’hwhite’,’nwest’,’olsrs’} % <=================== ols,white,nwest,olsrs regressions fprintf(fid,’\n’); if strcmp(results.meth,’ols’) fprintf(fid,’Ordinary Least-squares Estimates \n’); elseif strcmp(results.meth,’hwhite’) fprintf(fid,’White Heteroscedastic Consistent Estimates \n’); elseif strcmp(results.meth,’nwest’) fprintf(fid,’Newey-West hetero/serial Consistent Estimates \n’); elseif strcmp(results.meth,’olsrs’) fprintf(fid,’Restricted Least-squares Estimates \n’); end;
LITERATURA
72
if (nflag == 1) fprintf(fid,’Dependent Variable = %16s \n’,vnames(1,:)); end; fprintf(fid,’R-squared = %9.4f \n’,results.rsqr); fprintf(fid,’Rbar-squared = %9.4f \n’,results.rbar); fprintf(fid,’sigma^2 = %9.4f \n’,results.sige); fprintf(fid,’Durbin-Watson = %9.4f \n’,results.dw); fprintf(fid,’Nobs, Nvars = %6d,%6d \n’,results.nobs,results.nvar); fprintf(fid,’***************************************************\n’);
Příloha CD Seznam datových souborů v adresáři DATA PR321_Rodinne_prijmy.dat PR322_Rodinne_prijmy.dat PR324_Platby_kreditni_kartou.dat PR325_Platby_kreditni_kartou.dat PR327_Faktory_ovlivnujici_mzdu.dat PR331_Investice_firem.dat PR333_Stavebnictvi.dat PR335_BytyCR.dat
73
MASARYKOVA UNIVERZITA Přírodovědecká fakulta
DIPLOMOVÁ PRÁCE UMĚLÉ PROMĚNNÉ A JEJICH VÝZNAM V EKONOMETRICKÝCH MODELECH
Vypracoval: Lenka Hájková Vedoucí diplomové práce: RNDr. Dalibor Moravanský, CSc.
BRNO 2008
.
Prohlašuji, že jsem diplomovou práci ”Umělé proměnné a jejich význam v ekonometrických modelech” vypracovala samostatně s využitím pramenů uvedených v seznamu literatury.
.
Ráda bych poděkovala vedoucímu diplomové práce RNDr. Daliboru Moravanskému, CSc. za odborné vedení, cenné rady a připomínky, které mi poskytl při jejím vypracování. Lenka Hájková