Přednáška I Lukáš Frýd
Sylabus 1. Lineární regresní model - opakování 2. Lineární regresní model II- odhady a Gauss-Markovovy předpoklady 3. Zobecněný lineární regresní model 4. Úvod do časových řad 5. ARMA 6. ARIMA 7. Modely volatility I 8. Modely volatility II 9. Zobecněná metoda nejmenších čtverců 10. Vektorová autoregrese 11.Kointegrace 12.VECM
Hodnocení Průběžný test –0 až 40 bodů Hlavně praktická aplikace, ASI open book. Seminární práce ve dvojicích 60 bodů. Aktivita na hodinách! Máte nějaké vlastní návrhy? Upravit BP? Co máte jako DP?
Zdroje Knihy: Introductory Econometrics: A Modern Approach – Wooldridge Introductory Econometrics for Finance – Chris Brooks, user friendly https://www.kevinsheppard.com/Category:MFE i s Matlab kody Analysis of Financial Time Series - Ruey S. Tsay Time Series Analysis - James Douglas Hamilton, pěkná knížka, ale špatně se shání
Konzultační hodiny ? místnost 429 NB Pondělí 14:30-15:30 Pravděpodobně po domluvě Kontakt
[email protected] 777 995 850
Postup při modelování ekonomických procesů 1) Sestavit ekonomický model 2) Sestavit ekonometrický model na základě ekonomického modelu 3) Získat data (pozor) 4) Odhadnout ekonometický model na datovém vzorku 5) Otestovat model a odhadnuté parametry možná chyba v bodě 1,2,3,4 6) Interpretovat výsledky
Základní soubor (populace) vs. Výběr (sample) log(𝑤𝑎𝑔𝑒) = β0 + β1 𝑒𝑑𝑢𝑐 + ε
Výběrový soubor
Nemůžeme zkoumat každého jedince v populaci • Nákladné • Často nemožné
provedeme výběr, se kterým pak pracujeme
log(𝑤𝑎𝑔𝑒) = 0,2535 + 0,0359𝑒𝑑𝑢𝑐 + ε
Kdybychom mohli opakovat výběr Odhad vztahu z výběrového souboru log(𝑤𝑎𝑔𝑒) = 0,3491 + 0,0279𝑒𝑑𝑢𝑐 + 𝑒 0,0359𝑒𝑑𝑢𝑐 ≠ 0,0279𝑒𝑑𝑢𝑐 Proč? Odhad je náhodná veličina – má své rozdělení!!! β1
Musíme rozlišovat log 𝑤𝑎𝑔𝑒 = β0 + β. 𝑒𝑑𝑢𝑐 + ε
log 𝑤𝑎𝑔𝑒 = 𝑏0 + 𝑏1 . 𝑒𝑑𝑢𝑐 + 𝑒
Populační regresní funkce
výběrová regresní funkce (sample)
𝑏0 𝑗𝑒 𝑜𝑑ℎ𝑎𝑑𝑒𝑚 β0
Naším úkolem v ekonometrii bude PRÁVĚ ODHADNOUT hodnoty parametrů
𝑏1 𝑗𝑒 𝑜𝑑ℎ𝑎𝑑𝑒𝑚 β1 β0 , β1 𝑗𝑠𝑜𝑢 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑦 − 𝑁𝐸𝑀Ě𝑁Í 𝑆𝐸
𝑏0 , 𝑏1 𝑗𝑠𝑜𝑢 𝑒𝑠𝑡𝑖𝑚á𝑡𝑜𝑟𝑦 𝑜𝑑ℎ𝑎𝑑 𝑛áℎ𝑜𝑑𝑛é 𝑣𝑒𝑙𝑖č𝑖𝑛𝑦 𝑚ě𝑛í 𝑠𝑒, 𝑠𝑒 𝑧𝑚ě𝑛𝑜𝑢 𝑣ý𝑏ě𝑟𝑜𝑣éℎ𝑜 𝑠𝑜𝑢𝑏𝑜𝑟𝑢‼!
NEZNÁME • Hodnoty populační regresní funkce • Ani zda-li má skutečný vztah tvar:
log(𝑤𝑎𝑔𝑒) = β0 + β1 𝑒𝑑𝑢𝑐 + ε
Velikost mzdy může záviset na: • Vzdělání • Délce praxe • Dobu u nynějšího zaměstnavatele • Pohlaví • ....
Proto je nutné nejprve vytvořit ekonomický model!!! Ekonomická teorie nám pomáhá k jeho vytvoření
Výběrový soubor
log(𝑤𝑎𝑔𝑒) = 0,2535 + 0,0359𝑒𝑑𝑢𝑐 + ε Odhad základního souboru log(𝑤𝑎𝑔𝑒) = 0,3491 + 0,0279𝑒𝑑𝑢𝑐 + 𝑒
Pracujeme s výběrovým souborem!!!
Skutečný vztah (neznáme)
Vytváříme odhad
"""""𝑄 = 72 − 1,8. 𝐶 + ε""""""
𝑄 = β0 + β1 . 𝐶 + ε
Reziduum 𝑞 = 𝑏0 + 𝑏1 . 𝐶 + 𝑒 Musíme odhadnout parametry (β) modelu • metoda nejmenších čtverců • maximum likelihood – maximální věrohodnost • GLZ • GMM
𝑞 = 71,74 − 1,77. 𝐶 + 𝑒 Všechny body neleží na přímce
Závislost výstupu na průměrných nákladech
𝑄 60 50
40 30 20 10 0 0
50
100
150
200
250
300
350
𝐶
𝑄 = β0 + β1 . 𝐶 + ε
𝑞 = 𝑏0 + 𝑏1 . 𝐶 + 𝑒
𝑄 = 72 − 0,18. 𝐶 + ε
𝑞 = 71,74 − 0,177. 𝐶
Odhadnutý vztah
Skutečný vztah Nepozorovatelný Naměřené hodnoty NELEŽÍ na teoretické (populační) regresní přímce Naměřené hodnoty NELEŽÍ ani na empirické (odhadnuté) regresní přímce Náhodná složka (chyba)
60
50
40
30
20
10
0 0
50
100
150
200
250
300
350
Vyrovnané hodnoty a rezidua Každé napozorované yi nahradíme (nafitujeme) vyrovnanou hodnotou 𝑦ො i Ideální by bylo kdyby yi=𝑦ො i Všechny body by ležely na přímce – deterministický model „bohužel“ existují další proměnné (náhodné)
Rozlišovat !!! 𝑦 = β0 + β1 . 𝑥 + ε
𝑦ො = 𝑏0 + 𝑏1 . 𝑥
Úkol Určit odhady parametrů b0,1 tak, aby hodnota reziduí byla co nejmenší 𝑦5
𝑦
𝑦 = β0 + β1 . 𝑥 + ε 𝑦ො = 𝑏0 + 𝑏1 . 𝑥 𝑦ො5
𝑦ො2
𝑦2
𝑥
𝑦 = 𝑏0 + 𝑏1 . 𝑥 + 𝑒
𝑦 = β0 + β1 . 𝑥 + ε
Provedeme náhodný výběr
𝑦ො = 𝑏0 + 𝑏1 . 𝑥
Skutečný vztah
Vytvoříme odhad Skutečného vztahu
Vyrovnáme (nafitujeme) hodnoty Napozorované hodnoty nahradíme vyrovnanými hodnotami Otázkou je: • podle jakého pravidla nahrazovat napozorované hodnoty • jak zjistit, zda-li bylo nahrazení „OK“ 𝑦5
𝑦
𝑦ො = 𝑏0 + 𝑏1 . 𝑥
𝑒5
𝑦ො5
𝑦𝑖 = 𝑦ො𝑖 + 𝑒𝑖
𝑦5 = 𝑦ො5 + 𝑒5 𝑦2
𝑥5
𝑥
Existence náhodné chyby
𝑤𝑎𝑔𝑒 = β0 + β1 𝑒𝑑𝑢𝑐 + ε
1) Zahrnuje v sobě další minoritní vlivy praxe, schopnosti 2) Chyba v měření, sběru dat 3) Možnost špatné specifikace modelu praxe, schopnosti 4) Stochastický (náhodný) charakter lidského chování (nepředvídatelný)
𝐶
𝐶 = β0 + β1 𝑌 + ε 𝐶 = β0 + β1 𝑌 Analýza residuí
𝑌
Teoretická a empirická regresní funkce Při neexistenci chyby (ε) Model deterministický (pevná závislost) y=3+2.x
Pro každé pozorování (i) i=1,2… 𝑦𝑖 = β0 + β1 . 𝑥𝑖 + ε𝑖
yi- i-tá empirická hodnota vysvětlované proměnné (výnos pole i) Mzda Míry, Kirilla, Lenky… e𝒊 -reziduum – rozdíl mezi empirickou regresní funkcí εi- náhodná chyba a empirickou hodnotou ε𝑖 - náhodná složka (chyba) –rozdíl mezi teoretickou regresní funkcí Náhodná chyba a empirickou hodnotou Na (y) působí další náhodné proměnné než pouze (x) Na pozorování působí náhodné chyby (nepřesné váhy) y
Empirická regresní funkce
𝑦𝑖
Teoretická regresní funkce
ε𝑖 e𝑖
x
ε𝑖 ≠ e𝒊 Reziduum je odhadem náhodné chyby (dopustili jsme se dalších chyb)
Neznáme skutečný vztah PRF Musíme udělat odhady β0,1 - 𝑏0,1 Proč? Pro odhad parametrů využíváme různé techniky OLS (MNČ), GLS(MZNČ), MLM(MMV) Požadavky na odhad • Nezkreslený (nestranný, nevychýlený) • Konzistentní • Vydatný
𝑣ý𝑛𝑜𝑠 = 𝛽0 + 𝛽1 ℎ𝑛𝑜𝑗𝑖𝑣𝑜 + 𝜖
𝑦 = β0 + β1 𝑥 + ε
Chceme znát „ceteris paribus“ efekt
𝑦 = 𝑏0 + 𝑏1 𝑥 + 𝑒
Vlastnosti odhadů
Pokud budou splněny „určité“ předpoklady Metoda nejmenších čtverců nám poskytne požadované vlastnosti odhadu Pamatovat: β0,1…𝑛 − 𝑗𝑠𝑜𝑢 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑦 (𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑦) 𝑛𝑒𝑧𝑛á𝑚𝑒 𝑏0,1…𝑛 − 𝑗𝑠𝑜𝑢 𝑛áℎ𝑜𝑑𝑛é 𝑣𝑒𝑙𝑖č𝑖𝑛𝑦 𝑚𝑎𝑗í 𝑠𝑣𝑜𝑗𝑒 𝑟𝑜𝑧𝑑ě𝑙𝑒𝑛í
Požadavky na odhad • Nezkreslený (nestranný, nevychýlený) Proč? • Konzistentní • Vydatný
𝑣ý𝑛𝑜𝑠 = 𝛽0 + 𝛽1 ℎ𝑛𝑜𝑗𝑖𝑣𝑜 + 𝜖
𝑦 = β0 + β1 𝑥 + ε 𝑦 = 𝑏0 + 𝑏1 𝑥 + 𝑒
Pokud budou splněny „určité“ předpoklady Metoda nejmenších čtverců nám poskytne požadované vlastnosti odhadu Pamatovat: β0,1…𝑛 − 𝑗𝑠𝑜𝑢 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑦 (𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑦) 𝑛𝑒𝑧𝑛á𝑚𝑒 𝑏0,1…𝑛 − 𝑗𝑠𝑜𝑢 𝑛áℎ𝑜𝑑𝑛é 𝑣𝑒𝑙𝑖č𝑖𝑛𝑦 𝑚𝑎𝑗í 𝑠𝑣𝑜𝑗𝑒 𝑟𝑜𝑧𝑑ě𝑙𝑒𝑛í Provádíme pouze 1 náhodný výběr – proto spíše mluvíme o postupu při získání odhadu „pokud budou splněny předpoklady“ a provedli bychom n-náhodných výběrů Odhad parametrů by byl nezkreslený, konzistentní, vydatný Pro 1 náhodný výběr musíme doufat, že získaný vzorek, se blíží základnímu souboru Jelikož základní soubor neznáme, nemůžeme si být zcela jisti o podobnosti se ZS Důležité uvědomit si pro případné využité ekonometrických modelů Pokud budou splněny dané předpoklady Daná metoda vede k nezkreslenému, konzistentnímu případně i vydatnému odhadu
Závislá a nezávislá proměnná 1) 𝑦 = β0 + β1 . 𝑥 + ε Skutečný nepozorovaný vztah
Zajímá nás – jak se mění y se změnou x Na y kromě x působí další proměnné - ε Jinak by body byly na přímce Předpoklad správnosti modelu!!! My se pouze domníváme že 1) představuje skutečný vztah ∆𝑦 = 𝛽1 ∆𝑥 ∆𝑦/∆𝑥 = 𝛽1
y
x
zavislá
nezávislá
vysvětlovaná
Vysvětlující
response
CONTROL
regresand
Regresor
predicted
predictor
𝑦
𝑦ො = 𝑏0 + 𝑏1 𝑥
𝑤𝑎𝑔𝑒
𝑦 = β0 + β1 . 𝑥
∆𝑦 = β1
β1 − 𝑠𝑘𝑙𝑜𝑛
∆𝑥 = 1 β0
β0 − ú𝑟𝑜𝑣ň𝑜𝑣á 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑎
𝑥
𝑒𝑑𝑢
∆𝑦 = 𝛽1 ∆𝑥 𝑤𝑎𝑔𝑒 = 0,5 + 0,3𝑒𝑑𝑢 + 𝜖 𝑁𝐸𝑍𝑁Á𝑀𝐸 ∆𝑤𝑎𝑔𝑒 = 0,3∆𝑥 Nás PRÁVĚ zajímá jak stupěn vzdělání ovlivní velikost mzdy Změna (růst) vzdělání o 1 rok navíc Znamená růst mzdy o 0,3 Jedná se o ceteris paribus (když ostatní se nemění) Zůstává fixní
𝑤𝑎𝑔𝑒 𝑦 = β0 + β1 . 𝑥
Proto musíme zavést restrikci pro chování náhodné složky Chceme aby se změnou (x) se měnil POUZE y A ne ostatní faktory – i ty v ε
∆𝑦 = β1 ∆𝑥 = 1
∆𝜖 = 0 𝑝𝑎𝑘 ∆𝑦 = 𝛽1 ∆𝑥
β0
β1 − 𝑠𝑘𝑙𝑜𝑛 β0 − ú𝑟𝑜𝑣ň𝑜𝑣á 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑎
„intercept“ 𝑒𝑑𝑢
𝑦 = β0 + β1 . 𝑥 + ε
Pod náhodnou složkou si zle představit:
∆𝜖 = 0 𝑝𝑎𝑘 ∆𝑦 = 𝛽1 ∆𝑥
• • • •
𝑤𝑎𝑔𝑒 = β0 + β1 𝑒𝑑𝑢 + ε Znovu: a) Zajímá nás – jak se mění y se změnou x b) Na y kromě x působí další proměnné - ε
Další minoritní vlivy Chyby v měření Stochastický charakter lidského chování Možnost chybného modelu – špatný model
Pro (ε) je náhodná proměnná – předpokládáme, že:
𝑬 𝜺ȁ𝒙 = 𝑬 𝜺
Spojení s úrovnovou konstantou
Proto restrikce na vztah x a ε Bez této restrikce bychom nezjistili ceteris paribus efekt 𝜷𝒌
𝐸 ε =0 „náhodné vlivy“ se v průměru vyruší Faktory obsaženy v náhodné složce jsou v průměru nulové
Je nutné, aby (x) a (ε) byly nezávislé 𝜖 Setkáte se s nekorelované (slabší předpoklad) Pro nás 𝐸 𝜀 ȁ𝑥 = 𝐸 𝜀 = 0
Proč? Korelace řeší lineární vztah (jak se změní ε když se změní x) Může nastat korelace (ε) a (x) je nula, ale korelace (𝜀) 𝑎 (𝑥 2 ) 𝑛𝑎𝑝ř. 0,6
𝑥 𝑬 𝜺ȁ𝒙 = 𝟎 „postihuje“ i tyto nelineární případy Nedodržení obecně povede ke zkreslenému odhadu
Regresní funkce 𝐸(𝜖 ȁ𝑥) = 0 𝑦 = β0 + β1 . 𝑥 + ε 𝐸 𝑦ȁ𝑥 = β0 + β1 . 𝑥
𝑬 𝜺ȁ𝒙 = 𝟎
Jak „různá“ x ovlivní očekávané (průměrné) 𝜖 Proměnná x je exogenní při neplatnosti – endogenní Zero-conditional mean assumption
𝐸(𝑤𝑎𝑔𝑒ȁ𝑒𝑑𝑢)
Podmíněná střední hodnota „jak ovlivňuje hodnota (x) střední hodnotu (y)“ „jak se mění (y), když se mění (x)“ „v průměru“ – „zbavit se“ dalších vlivů
𝑤𝑎𝑔𝑒 = 0,5 + 0,3𝑒𝑑𝑢 + ε
Cílem je popsat co „nejlépe“ vztah Aby v „průměru“ bylo (y) vysvětleno pomocí (x) Aby v „průměru“ další vlivy (nezkreslovali) model V průměru znamená – osoba A má vzdělání 10 a mzdu 4 𝑤𝑎𝑔𝑒 = 0,5 + 0,3 ∗ 10 = 3,5 Regresní analýza nám neřekne, že osoba Veronika, Míra má přesně danou mzdu Zjistíme však jak vzdělání ovlivňuje její velikost!!! To platí jak pro PRF i SRF!!!
𝑚𝑧𝑑𝑎 = β0 + β1 . 𝑣𝑧𝑑ě𝑙á𝑛í + ε
𝑬 𝜺ȁ𝒙 = 𝟎
Cíl – zjistit jak vzdělání ovlivňuje velikost mzdy
𝐸 𝑚𝑧𝑑𝑎ȁ𝑣𝑧𝑑ě𝑙á𝑛í = β0 + β1 . 𝑣𝑧𝑑ě𝑙á𝑛í Na výši mzdy působí i další vlivy Předpoklad ε=schopnosti
Předpokládáme 𝐸 𝑠𝑐ℎ𝑜𝑝𝑛𝑜𝑠𝑡𝑖 ȁ5 = 0
𝐸 𝑠𝑐ℎ𝑜𝑝𝑛𝑜𝑠𝑡𝑖 ȁ𝑣𝑧𝑑ě𝑙á𝑛í = 0
𝐸 𝑠𝑐ℎ𝑜𝑝𝑛𝑜𝑠𝑡𝑖 ȁ15 = 0
Zjistíme jak růst/pokles vzdělání ovlivní velikost mzdy -β1 Kdy míra schopností se nemění
𝐸 𝑠𝑐ℎ𝑜𝑝𝑛𝑜𝑠𝑡𝑖 ȁ𝑣𝑧𝑑ě𝑙á𝑛í ≠ 0 Vzdělání ovlivní schopnosti i mzdu Odhad β1 bude zkreslený a nekonzistentní
𝑚𝑧𝑑𝑎 = β0 + β1 . 𝑣𝑧𝑑ě𝑙á𝑛í + ε Cíl – zjistit jak vzdělání ovlivňuje velikost mzdy 𝐸 𝑚𝑧𝑑𝑎ȁ𝑣𝑧𝑑ě𝑙á𝑛í = β0 + β1 . 𝑣𝑧𝑑ě𝑙á𝑛í 𝑚𝑧𝑑𝑎 = 𝑏0 + 𝑏1 . 𝑣𝑧𝑑ě𝑙á𝑛í + 𝑒
𝑏0 = 146,852 𝑏1 = 60,2143 𝑚𝑧𝑑𝑎 = 146,852 + 60,2143. 𝑣𝑧𝑑ě𝑙á𝑛í + 𝑒
= 146,852 + 60,2143. 𝑣𝑧𝑑ě𝑙á𝑛í 𝑚𝑧𝑑𝑎
𝑚𝑧𝑑𝑎 = 146,852 + 60,2143. 𝑣𝑧𝑑ě𝑙á𝑛í + 𝑒
= 146,852 + 60,2143. 𝑣𝑧𝑑ě𝑙á𝑛í 𝑚𝑧𝑑𝑎
𝐸 𝑦ȁ𝑥 = β0 + β1 . 𝑥
𝐸(ε) = 0
𝑚𝑧𝑑𝑎 = β0 + β1 . 𝑣𝑧𝑑𝑙á𝑛í + ε
𝐸 εȁ𝑥 = 0
𝐸 𝑠𝑐ℎ𝑜𝑝𝑛𝑜𝑠𝑡𝑖 ȁ𝑣𝑧𝑑ě𝑙á𝑛í = 0 Vliv xi na vývoj střední hodnoty yi měří změnu střední hodnoty (y) - tedy 𝐸 𝑦ȁ𝑥 v závislosti na změně x Pro daný stupeň vzdělání, budeme měnit pozorování Získáme rozdílné hodnoty (y) mzdy Vlivem náhodné složky 𝑦
𝐸 𝑚𝑧𝑑𝑎ȁ𝑣𝑧𝑑ě𝑙á𝑛í = β0 + β1 . 𝑣𝑧𝑑ě𝑙á𝑛í Míra má plat 30 000 a studoval 5 let Jeho plat by měl být 20 000 Jakto? Náhodná složky – Míra má MFF 𝐸 𝑦ȁ𝑥 = β0 + β1 . 𝑥
ε~𝑖𝑖𝑑(0, 𝜎 2 ) Myšlenka „v průměru“
Markéta má plat 18 000 a studoval 5 let Jeho plat by měl být 20 000 Rozdělení (hustota) náhodné složky Jakto? Náhodná složky – NF Nepozorovatelná
2
5
10
𝑥
Zatím žádný předpoklad o konkrétním rozdělení náhodné složky
Hledání konkrétního tvaru regresní funkce 𝑦𝑖 = β0 + β1 . 𝑥𝑖 + ε𝑖
Červené body značí empirické (napozorované) hodnoty Musíme najít „vhodnou“ přímku, která nejlépe proloží napozorovaná data Nebo-li určit odhady parametrů b0,1 tak, aby hodnota reziduí byla co nejmenší
𝑦ො𝑖 = 𝑏0 + 𝑏1 . 𝑥𝑖
Každou empirickou hodnotu yi nahradíme určitou „vyrovnanou“ hodnotou 𝑦ො𝑖 Která bude ležet na zvolené empirické (výběrové) regresní přímce
Problém je, že takových přímek může existovat nekonečně mnoho Musíme najít kritérium – nejlépe „vystihne“ daný vztah
y 𝑦ො6 y5
y y5
y6
y3
y4
y3
𝑦ො5
y4=𝑦ො4
y1 𝑦ො2
y4
y7 y6
y1 𝑦ො3
𝑦ො1 y2
y2
x x
Metoda nejmenších čtverců (MNČ,OLS) 𝑦 = β0 + β1 𝑥 + ε
Jedna z metod jak odhadnout parametry β0 a β1 další metoda momentů(MoM) a maximální věrohodnost (ML)
𝑦ො = 𝑏0 + 𝑏1 𝑥
𝑦 = 𝑏0 + 𝑏1 𝑥 + 𝑒
Pro OLS si uvedeme 3 „způsoby“ odhadu (každý at si vybere) • Pomocí sum (přehledné, nepraktické) • Maticově (pro sudenty neřehledné, praktické) Problém je, že takových přímek může existovat nekonečně mnoho • Pomocí tzv. Monentů Musíme najít kritérium – nejlépe „vystihne“ daný vztah y y5 y3
y4
y7 y6
y1
y2
x
Zelené šipky představují odchylku skutečné hodnoty od „vyrovnané“ hodnoty 𝑒𝑖 = 𝑦𝑖 − 𝑦ො Otázka: Když už musí existovat odchylky – ideální by bylo jejich vzájemné vykompenzování ? 𝑛
y
𝑛
𝑦ො7 y5
𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 = 0 𝑖=1
𝑖=1
y3
Kladné a záporné odchylky se „požerou“ 𝑛
𝑛
y1
𝑖=1
y4 y4=𝑦ො4
𝑦ො5
y7 y6
𝑦ො3
𝑒𝑖 = 𝑦𝑖 − 𝑏0 − 𝑏1 𝑥1 = 0 𝑖=1
𝑦ො6
𝑦ො1 y2
x e𝒊 -reziduum Rozdíl mezi empirickou regresní funkcí a empirickou hodnotou
Součet čtverců odchylek empirických hodnot y i od hodnot teoretických ηi byl minimální Metoda nejmenších čtverců (MNČ, OLS)
𝑛
𝑦ො𝑖 = 𝑏0 + 𝑏1 . 𝑥𝑖
𝑦 = 𝑏0 + 𝑏1 𝑥 + 𝑒
𝑦 = β0 + β1 𝑥 + ε
𝑛
𝑒𝑖2 = (𝑦𝑖 − 𝑦ො𝑖 )2 … 𝑚𝑖𝑛 𝑖=1
𝑖=1
𝑛
𝑛
y 𝑦ො 7 y5
𝑒𝑖2 = (𝑦𝑖 − 𝑏0 − 𝑏1 𝑥1 )2 … 𝑚𝑖𝑛 𝑖=1
𝑖=1
y3
y4
𝑛
𝑦ො 2
𝑒𝑖 = 0 𝑖=1 𝑛
𝑒𝑖2 𝑚𝑖𝑛
Rozlišovat
𝑦ො 5
y7
y6
y4=𝑦ො 4
y1
𝑖=1
𝑦ො 6
𝑦ො 3
𝑦ො 1 y2
x
Přímková regrese 𝑛
𝑒𝑖2 = (𝑦𝑖 − 𝑦ො𝑖 )2 … 𝑚𝑖𝑛
𝑦 = β0 + β1 . 𝑥 + 𝜖 𝑦ො = 𝑏0 + 𝑏1 . 𝑥
𝑛
𝑖=1
𝑖=1
𝑏0 𝑗𝑒 𝑜𝑑ℎ𝑎𝑑 β0 𝑏1 𝑗𝑒 𝑜𝑑ℎ𝑎𝑑 β1
𝑄 𝑚𝑖𝑛 − ℎ𝑙𝑒𝑑á𝑚𝑒 𝑒𝑥𝑡𝑟é𝑚 − 𝑚𝑖𝑛𝑖𝑚𝑢𝑚 Tedy takové 𝑏0,1 , které budou minimalizovat funkci Q Index i představuje i-té pozorování Mzdu, vzdělání Natáliye
𝑛
2
𝑄 = (𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 )2 𝑖=1
𝑄 = (𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 )2 = (𝑦1 − 𝑏0 − 𝑏1 . 𝑥1 )2 +(𝑦2 − 𝑏0 − 𝑏1 . 𝑥2 )2 𝑖=1
𝑛
𝜕𝑄 = 2 𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 . −1 = 0 𝜕𝑏0 𝑖=1
𝜕𝑄 = 2. 𝑦1 − 𝑏0 − 𝑏1 . 𝑥1 . −1 + 2. 𝑦2 − 𝑏0 − 𝑏1 . 𝑥2 . −1 = 0 𝜕𝑏0
𝑛
𝜕𝑄 = 2 𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 . −𝑥𝑖 = 0 𝜕𝑏1 𝑖=1
𝜕𝑄 = 2. 𝑦1 − 𝑏0 − 𝑏1 . 𝑥1 . −𝑥1 + 2. 𝑦2 − 𝑏0 − 𝑏1 . 𝑥2 . −𝑥2 = 0 𝜕𝑏1
𝑛
𝑛
𝜕𝑄 = 2 𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 . −𝑥𝑖 = 0 𝜕𝑏1
𝜕𝑄 = 2 𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 . −1 = 0 𝜕𝑏0
𝑖=1
𝑖=1
𝑛
𝑛
𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 = 0
𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖 . 𝑥𝑖 = 0
𝑖=1
𝑖=1
𝑛 𝑛
𝑛𝑦ത = 𝑛. 𝑏0 +𝑏1 𝑛𝑥ҧ 𝑦ത = 𝑏0 + 𝑏1 𝑥ҧ 𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
𝑛
𝑦𝑖 . 𝑥𝑖 = 𝑏0 𝑥𝑖 + 𝑏1 𝑥𝑖2
𝑛
𝑖=1
𝑦𝑖 = 𝑛. 𝑏0 +𝑏1 𝑥𝑖 𝑖=1
𝑛
𝑛
𝑖=1
𝑖=1
𝑖=1 𝑛
𝑦𝑖 . 𝑥𝑖 = 𝑏0 𝑛𝑥ҧ + 𝑏1 𝑥𝑖2 𝑖=1 𝑛
𝑖=1 𝑛
𝑦𝑖 . 𝑥𝑖 = (𝑦ത − 𝑏1 𝑥)𝑛 ҧ 𝑥ҧ + 𝑏1 𝑥𝑖2 𝑖=1 𝑛
𝑖=1 𝑛
𝑦𝑖 . 𝑥𝑖 = 𝑦𝑛 ത 𝑥ҧ − 𝑏1 𝑛𝑥ҧ 2 + 𝑏1 𝑥𝑖2 𝑖=1
𝑝𝑜𝑧𝑜𝑟 𝑠𝑢𝑚𝑎
𝑖=1
𝑥ҧ =
∑𝑥𝑖 𝑛
𝑛
𝑛
𝑦𝑖 . 𝑥𝑖 = 𝑦𝑛 ത 𝑥ҧ − 𝑏1 𝑛𝑥ҧ 2 + 𝑏1 𝑥𝑖2 𝑖=1
𝑛
𝑖=1
∑ 𝑥𝑖 2 𝑛𝑥ҧ = 𝑛 𝑛
Pozor na indexy!!!
𝑛
𝑦𝑖 . 𝑥𝑖 − 𝑦𝑛 ത 𝑥ҧ = 𝑏1 𝑥𝑖2 − 𝑛𝑥ҧ 2 𝑖=1
1 = 𝑥𝑖 𝑥𝑖 𝑛
𝑖=1
∑𝑥𝑖 = 𝑛. 𝑥ҧ
∑𝑛𝑖=1 𝑦𝑖 . 𝑥𝑖 − 𝑦𝑛 ത 𝑥ҧ = 𝑏1 ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛𝑥ҧ 2
𝑛
𝑛
𝑛
ത 𝑥𝑖 − 𝑥ҧ . 𝑦𝑖 − 𝑦ത = 𝑦𝑖 𝑥𝑖 − 𝑥ҧ = 𝑥𝑖 (𝑦𝑖 − 𝑦) 𝑖=1
𝑖=1
∑𝑛𝑖=1(𝑦𝑖 . 𝑥𝑖 − 𝑦𝑖 𝑥)ҧ = 𝑏1 ∑𝑛𝑖=1(𝑥𝑖2 − 𝑥𝑖 𝑥)ҧ ∑𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ . 𝑦𝑖 − 𝑦ത = 𝑏1 ∑𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2
𝑏1 = 𝑛
𝐶𝑜𝑣(𝑥, 𝑦) 𝑉𝑎𝑟(𝑥)
𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
𝑛
(𝑥𝑖2 − 𝑥𝑖 𝑥)ҧ = 𝑥𝑖 − 𝑥ҧ 𝑖=1
2
𝑖=1
2
𝑖=1
∑𝑥𝑖 𝑥ҧ = 𝑛
𝑛
𝑛
𝑛
𝑥𝑖 − 𝑥ҧ . 𝑦𝑖 − 𝑦ത = 𝑦𝑖 𝑥𝑖 − 𝑥ҧ = 𝑥𝑖 (𝑦𝑖 − 𝑦) ത
∑𝑥𝑖 = 𝑛. 𝑥ҧ
𝑖=1 𝑛
𝑖=1
𝑖=1
𝑛
𝑥𝑖 − 𝑥ҧ . 𝑦𝑖 − 𝑦ത = (𝑥𝑖 𝑦𝑖 − 𝑥𝑖 𝑦ത − 𝑥𝑦 ҧ 𝑖 + 𝑥ҧ 𝑦) ത 𝑖=1 𝑛
𝑛
𝑛
𝑖=1
𝑛
𝑛
= 𝑥𝑖 𝑦𝑖 − 𝑦ത 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 + 𝑛𝑥ҧ 𝑦ത = 𝑖=1
𝑖=1
𝑖=1
𝑥𝑖 𝑦𝑖 − 𝑛𝑦ത 𝑥ҧ − 𝑛𝑥ҧ 𝑦ത + 𝑛𝑥ҧ 𝑦ത = 𝑥𝑖 𝑦𝑖 − 𝑛𝑦ത 𝑥ҧ = 𝑖=1
𝑖=1 𝑛
𝑛
𝑛
= 𝑥𝑖 𝑦𝑖 − 𝑦ത 𝑥𝑖 = 𝑥𝑖 (𝑦𝑖 − 𝑦) ത 𝑛
(𝑥𝑖2 − 𝑥𝑖 𝑥)ҧ = 𝑥𝑖 − 𝑥ҧ 𝑖=1
𝑖=1
𝑖=1
𝑖=1
2
𝑛
𝑖=1
𝑛
𝑥𝑖 − 𝑥ҧ
𝑖=1
𝑛
𝑛 2
𝑛𝑦ത𝑥ҧ = 𝑦ത 𝑥𝑖 = 𝑥ҧ 𝑦𝑖 𝑛
𝑖=1
𝑛
= 𝑥𝑖2 − 2𝑥ҧ 𝑥𝑖 + 𝑛𝑥ҧ 2 = 𝑥𝑖2 − 2𝑥𝑛 ҧ 𝑥ҧ + 𝑛𝑥ҧ 2 = 𝑖=1
𝑛
𝑖=1
𝑖=1 𝑛
𝑛
= 𝑥𝑖2 − 𝑛𝑥ҧ 2 = (𝑥𝑖2 − 𝑥𝑖 𝑥)ҧ 𝑖=1
𝑖=1
𝑖=1
Regresní koeficient (výběrový regresní koeficient) Směrnice (sklon) regresní přímky Může nabýt libovolných hodnot!!!
𝑦ො𝑖 = 𝑏0 + 𝑏1 . 𝑥 𝑏𝑥𝑦 =
𝑠𝑥𝑦 𝑠𝑥2
Přímková regrese je lineární regresní funkce (lineární v parametrech) Obráceně nemusí platit!!!
∑𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ . (𝑦𝑖 − 𝑦) ത 𝒃𝟏 = ∑𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2
Znaménko kovariance udává znaménko odhadu parametru!! Proč?
𝐶𝑜𝑣(𝒙, 𝒚) 𝒃𝟏 = 𝒗𝒂𝒓(𝒙)
PŘÍMKOVÁ REGRESE!!! JEDNODUCHÝ RM!!!
𝑐𝑜𝑣(𝑥, 𝑦) > 0 𝑐𝑜𝑣(𝑥, 𝑦) < 0 𝑐𝑜𝑣 𝑥, 𝑦 = 0 Lineární nezávislost
Vícenásobná regrese V praxi jednoduchý regresní model málo užitečný Dobrý pro pochopení a ilustraci Poptávka po penězích MD=f(Y,i), poptávka po statku (x) QX=f(PX,Py,I) atd. Pro lepší popis reality musíme (většinou) pracovat s více nezávislými proměnnými Více podstatných faktorů přispívá k vyšší míře vysvětlení variability y Vyšší flexibilita vztahů z hlediska funkční formy
𝑤𝑎𝑔𝑒 = β0 + β1 𝑒𝑑𝑢 + ε
𝑤𝑎𝑔𝑒 = β0 + β1 . 𝑒𝑑𝑢𝑐 + β2 . 𝑒𝑥𝑝𝑒𝑟 + ε V náhodné složce (ε) obsaženy další faktory: • Délka praxe • Schopnosti (nějaká aproximace) • Doba u stávajícího zaměstnavatele Faktory, které nejsou vyjádřeny v modelu – i chybná funkční forma – více „jiné funkční formy“ Pokud bude nějaká proměnná v (ε) korelovaná s (edu) zkreslený a nekonzistetní odhad
𝐸(εȁ𝑥)≠ 0
„vytáhli“ jsme délku praxe (exper) z náhodné složky Nyní můžeme měřit např. vliv změny v praxi v případě, kdy se vzdělání nemění Ceteris paribus efekt
𝐸 𝑦ȁ𝑥 ≠ β0 + β1 . 𝑥
Δ𝑤𝑎𝑔𝑒 Δ𝑒𝑥𝑝𝑒𝑟
= β2
𝑦 = β0 + β1 . 𝑥1 + β2 . 𝑥2 + ⋯ + β𝑘 . 𝑥𝑘 + ε β0 − ú𝑟𝑜𝑣ň𝑜𝑣á 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑎 − 𝑣𝑒𝑙𝑖𝑘𝑜𝑠𝑡 𝑥1,…,𝑘 = 0 β1 − "sklon" − 𝑗𝑎𝑘 𝑠𝑒 𝑧𝑚ě𝑛í 𝑦 𝑘𝑑𝑦ž 𝑠𝑒 𝑧𝑚ě𝑛í 𝑥1 𝑎 𝑥2,…,𝑘 𝑠𝑒 𝑛𝑒𝑚ě𝑛í β2 − "sklon" − 𝑗𝑎𝑘 𝑠𝑒 𝑧𝑚ě𝑛í 𝑦 𝑘𝑑𝑦ž 𝑠𝑒 𝑧𝑚ě𝑛í 𝑥2 𝑎 𝑥1,−,3…,𝑘 𝑠𝑒 𝑛𝑒𝑚ě𝑛í β1,2…𝑘 − 𝑠𝑘𝑙𝑜𝑛 − 𝑣ž𝑑𝑦 𝑗𝑎𝑘 𝑠𝑒 𝑧𝑚ě𝑛íβ1,2…𝑘 𝑘𝑑𝑦ž 𝒐𝒔𝒕𝒂𝒕𝒏í 𝒇𝒂𝒌𝒕𝒐𝒓𝒚 𝒓ů𝒔𝒕𝒂𝒏𝒐𝒖 𝒇𝒊𝒙𝒏í Vliv xi na vývoj střední hodnoty y za předpokladu, že ostatní vysvětlující proměnné se nezmění
𝐸 𝑦ȁ𝑋 = ⋯
𝑤𝑎𝑔𝑒 = β0 + β1 . 𝑒𝑑𝑢𝑐 + β2 . 𝑒𝑥𝑝𝑒𝑟 + ε
β0 − ú𝑟𝑜𝑣ň𝑜𝑣á 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑎 − 𝑣𝑒𝑙𝑖𝑘𝑜𝑠𝑡 𝑚𝑧𝑑𝑦 𝑝𝑜𝑘𝑢𝑑 𝑒𝑑𝑢𝑐 = 0 𝑎 𝑒𝑥𝑝𝑒𝑟 = 0 β1 − "sklon" − 𝑗𝑎𝑘 𝑠𝑒 𝑧𝑚ě𝑛í 𝑤𝑎𝑔𝑒, 𝑘𝑑𝑦ž 𝑠𝑒 𝑧𝑚ě𝑛í 𝑒𝑑𝑢 𝑎 𝑒𝑥𝑝𝑒𝑟 𝑠𝑒 𝑛𝑒𝑚ě𝑛í β2 − "sklon" − 𝑗𝑎𝑘 𝑠𝑒 𝑧𝑚ě𝑛í 𝑤𝑎𝑔𝑒 𝑘𝑑𝑦ž 𝑠𝑒 𝑧𝑚ě𝑛í 𝑒𝑥𝑝𝑒𝑟 𝑎 𝑒𝑥𝑝𝑒𝑟 𝑠𝑒 𝑛𝑒𝑚ě𝑛í
𝑝𝑎𝑟𝑐𝑖á𝑙𝑛í 𝑟𝑒𝑔𝑟𝑒𝑠𝑛í 𝑘𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑦 "𝑝𝑎𝑟𝑡𝑖𝑎𝑙𝑙 𝑒𝑓𝑒𝑐𝑡“
𝑦 = β0 + β1 . 𝑥1 + β2 . 𝑥2 + β3 . 𝑥3 + ε
β0 − ú𝑟𝑜𝑣ň𝑜𝑣á 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑎 − 𝑣𝑒𝑙𝑖𝑘𝑜𝑠𝑡 𝑥1,2,3 = 0 β1 − "sklon" − 𝑗𝑎𝑘 𝑠𝑒 𝑧𝑚ě𝑛í 𝑦 𝑘𝑑𝑦ž 𝑠𝑒 𝑧𝑚ě𝑛í 𝑥1 𝑎 𝑥2,3 𝑠𝑒 𝑛𝑒𝑚ě𝑛í β2 − "sklon" − 𝑗𝑎𝑘 𝑠𝑒 𝑧𝑚ě𝑛í 𝑦 𝑘𝑑𝑦ž 𝑠𝑒 𝑧𝑚ě𝑛í 𝑥2 𝑎 𝑥1,3 𝑠𝑒 𝑛𝑒𝑚ě𝑛í β3 − "sklon" − 𝑗𝑎𝑘 𝑠𝑒 𝑧𝑚ě𝑛í 𝑦 𝑘𝑑𝑦ž 𝑠𝑒 𝑧𝑚ě𝑛í 𝑥3 𝑎 𝑥1,2 𝑠𝑒 𝑛𝑒𝑚ě𝑛í
Δ𝑦ො = 𝑏1 . Δ𝑥1
𝑐𝑒𝑡𝑒𝑟𝑖𝑠 𝑝𝑎𝑟𝑖𝑏𝑢𝑠 𝑒𝑓𝑒𝑘𝑡
Δ𝑦ො = 𝑏1 . Δ𝑥1 + 𝑏2 Δ𝑥2 Δ𝑦ො = 𝑏1 . Δ𝑥1 + 𝑏2 Δ𝑥2 + 𝑏3 Δ𝑥3
celková 𝑧𝑚ě𝑛𝑎
Dopad na změnu „nafitované“ hodnoty Ne pozorované! Řešíme podmíněnou STŘEDNÍ hodnotu
𝑦 = β0 + β1 . 𝑥1 + β2 . 𝑥2 + ε log(𝑤𝑎𝑔𝑒) = β0 + β1 . 𝑒𝑑𝑢𝑐 + β2 . 𝑒𝑥𝑝𝑒𝑟 + ε Odhad log(𝑤𝑎𝑔𝑒) = 𝑏0 + 𝑏1 . 𝑒𝑑𝑢𝑐 + 𝑏2 . 𝑒𝑥𝑝𝑒𝑟 + 𝑒 𝑒𝑑𝑢𝑐 − 𝑣𝑧𝑑ě𝑙á𝑛í 𝑣 𝑙𝑒𝑡𝑒𝑐ℎ 𝑒𝑥𝑝𝑒𝑟 − 𝑝𝑟𝑎𝑥𝑒 𝑣 𝑙𝑒𝑡𝑒𝑐ℎ
log(𝑤𝑎𝑔𝑒) = 5,50271 + 0,077782. 𝑒𝑑𝑢𝑐 + 0,0197768. 𝑒𝑥𝑝𝑒𝑟 + 𝑒
𝑦 = β0 + β1 . 𝑥1 + β2 . 𝑥2 + ⋯ + β𝑛 . 𝑥𝑛 + ε 𝑤𝑎𝑔𝑒 = β0 + β1 . 𝑒𝑑𝑢𝑐 + β2 . 𝑒𝑥𝑝𝑒𝑟 + β3 . 𝑡𝑒𝑛𝑢𝑟𝑒 + ε educ-vzdělání v letech exper-počet let na trhu práce tenure- doba zaměstnání u současného zaměstnavatele
𝑤𝑎𝑔𝑒 = 0,284 + 0,092. 𝑒𝑑𝑢𝑐 + 0,0041. 𝑒𝑥𝑝𝑒𝑟 + 0,022𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑒 Jak ovlivní velikost mzdy například: • Vzroste doba vzdělání o další 1 rok • Vzroste doba „praxe“ o 2 roky • Dodělám si nástavbu (1 rok) a budu o rok déle u zaměstnavatele
Velikost mzdy vzroste o 0,092 jednotek Velikost mzdy vzroste o 0,0041*2=0,008 jednotek
∆𝑦ො = 𝑏1 . ∆𝑥1 + 𝑏2 . ∆𝑥2 = 0,092.1 + 0,022.1 = 0,114 Ceteris paribus Chceme vědět jak se změní mzda, pokud vzroste (změní) vzdělání o 1 rok a ostatní proměnné se nezmění – zůstanou fixní
Simultánní změna nezávislých proměnných ∆𝑦ො = 𝑏1 . ∆𝑥1 + 𝑏2 . ∆𝑥2 + ⋯ + 𝑏𝑛 . ∆𝑥𝑛
Pro jednoduchý regresní model
𝐸 εȁ𝑥 = 0
𝐸 𝑦ȁ𝑥 = β0 + β1 . 𝑥
Pro vícenásobný (pro jednoduchost budeme pracovat se 2 nezávislými proměnnými-analogie)
𝑦 = β0 + β1 . 𝑥1 + β2 . 𝑥2 + ε Opět požadujeme předpoklad
𝐸 εȁ𝑥1 , 𝑥2 = 𝐸 𝜖 = 0
𝑤𝑎𝑔𝑒 = β0 + β1 . 𝑒𝑑𝑢𝑐 + β2 . 𝑒𝑥𝑝𝑒𝑟 + ε
𝐸 εȁ𝑒𝑑𝑢𝑐, 𝑒𝑥𝑝𝑒𝑟 = 0
Žádná nezávislá proměnná v průměru neovlivní náhodnou složku Všechny vysvětlující proměnné jsou exogenní 𝐸 𝑦ȁ𝑥1 , 𝑥2 = β0 + β1 . 𝑥1 + β2 . 𝑥2 𝐸 𝑦ȁ𝑋 = β0 + β1 . 𝑥1 + β2 . 𝑥2
β𝑖 −měří změnu střední hodnoty (y), tedy 𝐸 𝑦ȁ𝑥1 , 𝑥2 v závislosti na jednotkovém zvýšení 𝑥𝑖 za předpokladu že ostatní vysvětlující proměnné jsou fixní tj. ceteris paribus. Vliv xi na vývoj střední hodnoty y za předpokladu, že ostatní vysvětlující proměnné se nezmění
𝑦 = β0 + β1 . 𝑥1 + β2 . 𝑥2 + ε 𝐸 εȁ𝑥1 , 𝑥2 = 0
𝐸 𝑦ȁ𝑥1 , 𝑥2 = β0 + β1 . 𝑥1 + β2 . 𝑥2
Důležité upozornění – nikdy neobsáhnu všechny proměnné, které působí na (y) Častý nešvar – „naflákat“ co nejvíce vysvětlujících proměnných do modelu Řiďte se logikou, teorií, to co už někdo (kvalitní) vymyslel Zahrnutí „více“ proměnných má své plus i mínus (vynechaná proměnná, Omitted variable“)
𝐸 𝑦ȁ𝑥 = β0 + β1 . 𝑥
𝐸(ε) = 0
𝑚𝑧𝑑𝑎 = β0 + β1 . 𝑣𝑧𝑑𝑙á𝑛í + ε
𝐸 εȁ𝑥 = 0
𝐸 𝑚𝑧𝑑𝑎ȁ𝑣𝑧𝑑ě𝑙á𝑛í = β0 + β1 . 𝑣𝑧𝑑ě𝑙á𝑛í Vliv xi na vývoj střední hodnoty yi
𝐸 𝑠𝑐ℎ𝑜𝑝𝑛𝑜𝑠𝑡𝑖 ȁ𝑣𝑧𝑑ě𝑙á𝑛í = 0
měří změnu střední hodnoty y - tedy 𝐸 𝑦ȁ𝑥 v závislosti na jednotkovém zvýšení x Myšlenka „v průměru“
𝑦 𝐸 𝑦ȁ𝑥 = β0 + β1 . 𝑥
Populační distribuční funkce Nepozorovatelná Zatím žádný předpoklad o konkrétním rozdělení náhodné složky
5
10
30
𝑥
Odhad získáme jako výsledek „nějaké“ funkce (estimator) - OLS Odhad je výstup z estimátoru 𝑏0,…,𝑘
Výběrový soubor – „proženeme nějakou funkcí“ (estimator) – získáme odhad (bodový, intervalový)
Výška studentů VŠE
Estimátor 𝑋ത =
1 ∑𝑋𝑖 𝑛
Odhadneme populační průměr výšky dospělých lidí
𝑛
1 𝑉𝑎𝑟(𝑋) = 𝑋𝑖 − 𝑋ത 𝑛−1
2
Odhadneme populační rozptyl výšky dospělých lidí
𝑖=1
𝑏 = 𝑋′𝑋
−1 𝑋 ′ 𝑦
Odhadneme populační parametry „vlivu“𝛽 populační proces
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜖 𝑦1 = 𝛽0 + 𝛽1 𝑥11 + 𝛽2 𝑥12 + ⋯ + 𝛽𝑘 𝑥1𝑘 + 𝜖1 𝑦2 = 𝛽0 + 𝛽1 𝑥21 + 𝛽2 𝑥22 + ⋯ + 𝛽𝑘 𝑥2𝑘 + 𝜖2 𝑦1 𝑦2 ⋮ 𝑦𝑛
𝑦1 𝑦2 ⋮ 𝑦𝑛
Data pro konrétní subjekt jednotlivec, firma atd.
𝑥11 𝑥12 𝑥1𝑘 𝜖1 1 𝑥2𝑘 𝑥21 𝑥22 𝜖2 = 1 . 𝛽0 + 𝛽 + 𝛽 + ⋯ + 𝛽 + 1 2 𝑘 ⋮ ⋮ ⋮ ⋮ ⋮ 𝑥𝑛1 𝑥𝑛2 𝑥𝑛𝑘 𝜖𝑛 1
=
1 𝑥11 1 𝑥21 ⋮ ⋮ 1 𝑥𝑛1
𝑥12 𝑥22 ⋮ 𝑥𝑛2
𝛽0 … 𝑥1𝑘 𝛽1 … 𝑥2𝑘 . 𝛽2 … ⋮ ⋮ … 𝑥𝑛𝑘 𝛽𝑘
𝑃𝑅𝐹: 𝑦 = 𝑋𝛽 + 𝜖
𝜖1 𝜖2 + 𝜖3 ⋮ 𝜖𝑛
𝑦 = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑘 𝑥𝑘 + 𝑒
𝑦1 𝑦2 ⋮ 𝑦𝑛
=
1 𝑥11 1 𝑥21 ⋮ ⋮ 1 𝑥𝑛1
𝑥12 𝑥22 ⋮ 𝑥𝑛2
𝑆𝑅𝐹: 𝑦 = 𝑋𝑏 + 𝑒
𝑏0 … 𝑥1𝑘 𝑏1 … 𝑥2𝑘 . 𝑏2 … ⋮ ⋮ … 𝑥𝑛𝑘 𝑏𝑘
𝑒1 𝑒2 + ⋮ 𝑒𝑛
𝜖𝜖 ′ = ⋯
𝜖1 𝜖2 . 𝜖1 𝜖3
𝜖2
𝜖3 =
𝜖1 𝜖1 𝜖2 𝜖1 𝜖3 𝜖1
𝜖1 𝜖2 𝜖2 𝜖2 𝜖3 𝜖2
𝜖1 𝜖3 𝜎2 𝜖2 𝜖3 = 0 𝜖3 𝜖3 0
0 𝜎2 0
1 0 0 0 = 𝜎2 0 1 0 0 𝜎2
0 0 = 𝜎 2𝐼 1
𝑘𝑜𝑣𝑎𝑟𝑖𝑎𝑛č𝑛í 𝑚𝑎𝑡𝑖𝑐𝑒 Σ
Co jsou prvky mimo diagonálu? 𝐶𝑜𝑣 𝑥, 𝑦 = 𝑥 − 𝐸 𝑥 . (𝑦 − 𝐸(𝑦)) 𝜖~(0, 𝜎 2 𝐼) 𝐸 𝜖 =0 𝑉𝑎𝑟 𝜖 = 𝜎 2 𝐼 𝑉𝑎𝑟 𝜖 = 𝐸 𝜖 2 = 𝜎 2 𝐼
𝐶𝑜𝑣 𝜖2 , 𝜖1 = 𝜖2 − 𝐸(𝜖2 ). (𝜖1 − 𝐸(𝜖1 )) 𝐶𝑜𝑣 𝜖2 , 𝜖1 = 𝜖2 . 𝜖1 = 0
𝜖1 𝜖1 𝜖2 𝜖1 𝜖3 𝜖1
𝜖1 𝜖2 𝜖2 𝜖2 𝜖3 𝜖2
𝜖1 𝜖3 𝑉𝑎𝑟(𝜖1 ) 𝐶𝑜𝑣(𝜖1 , 𝜖2 ) 𝐶𝑜𝑣(𝜖1 , 𝜖3 ) 𝜖2 𝜖3 = 𝐶𝑜𝑣(𝜖2 , 𝜖1 ) 𝑉𝑎𝑟(𝜖2 ) 𝐶𝑜𝑣(𝜖2 , 𝜖3 ) 𝜖3 𝜖3 𝐶𝑜𝑣(𝜖3 , 𝜖1 ) 𝐶𝑜𝑣(𝜖3 , 𝜖2 ) 𝑉𝑎𝑟(𝜖3 )
Maticově 𝑒´𝑒 = min 𝑦 − 𝑋𝑏 ′ . (𝑦 − 𝑋𝑏) 𝑏
′
′
′
𝑒´𝑒 = min(𝑦 − 𝑏 𝑋 ). (𝑦 − 𝑋𝑏)
𝑛
min 𝑒𝑖2 = 𝑦𝑖 − 𝑦ො 𝑖=1
𝑏
min(𝑦 ′ 𝑦 𝑏 𝑦 ′ 𝑋𝑏
− 𝑦′𝑋𝑏 −
𝑏′ 𝑋 ′ 𝑦
𝑦 ′ 𝑋𝑏 ′
𝑏′ 𝑋 ′𝑦
+
𝑛
𝜕 𝜕𝑥 𝜕 𝜕𝑥 𝜕 𝜕𝑥 𝜕 𝜕𝑥 𝜕 𝜕𝑥
𝑏 ′ 𝑋 ′ 𝑋𝑏)
= = 𝑡𝑟𝑎𝑛𝑠𝑝𝑜𝑛𝑜𝑣𝑎𝑛ý 𝑠𝑘𝑎𝑙á𝑟 𝑗𝑒 𝑠𝑘𝑎𝑙á𝑟
min(𝑦 ′ 𝑦 − 2𝑏′ 𝑋 ′ 𝑦 + 𝑏 ′ 𝑋 ′ 𝑋𝑏) 𝑏
𝜕 = −2𝑋 ′ 𝑦 + 2𝑋´𝑋𝑏 = 0 𝜕𝑏
𝒃 = 𝑿´𝑿
2
𝑖=1
𝐴𝑥 = 𝐴′
𝑚𝑖𝑛 𝑦𝑖 − 𝑏0 − 𝑏1 . 𝑥𝑖1 + 𝑏2 . 𝑥𝑖2 𝑖=1
𝐴𝐵
′
= 𝐵′ 𝐴′
𝑥 ′𝐴 = 𝐴 𝑥′𝐴𝑥 = 𝐴 + 𝐴′ 𝑥 − 𝐴 𝑛𝑒𝑛𝑖 𝑠𝑦𝑚𝑒𝑡𝑟𝑖𝑐𝑘𝑎 𝑚𝑎𝑡𝑖𝑐𝑒 𝑥′𝐴𝑥 = 2𝐴𝑥 − 𝐴 𝑗𝑒 𝑠𝑦𝑚𝑒𝑡𝑟𝑖𝑐𝑘𝑎 𝑚𝑎𝑡𝑖𝑐𝑒 𝑥 ′ 𝐴′ 𝐴𝑥 = 2𝐴′ 𝐴𝑥
−2𝑋 ′ 𝑦 + 2𝑋´𝑋𝑏 = 0 𝑋´𝑦 = 𝑋´𝑋𝑏
𝑛
−𝟏 𝑿´𝒚
2
𝒃 = 𝑿´𝑿
−𝟏 𝑿´𝒚
b = X´X
−1
b = X´X
−1 X´Xβ +
X´(Xβ + ϵ)
b = β + X´X
−1
X´ϵ
X´X
−1 X´ϵ
𝑏 = 𝑋´𝑋
−1
𝑋´𝑦
Pozorování
wage
educ
exper
1
20
4
10
2
15
6
1
3
35
10
5
4
18
5
4
𝑋´𝑋 1 4 10
𝑋´𝑋
𝑋´𝑦 1 1 1 1
1 1 1 6 10 5 1 5 4
𝑋´𝑦
4 10 4 6 1 = 25 10 5 20 5 4
−1
𝑋´𝑦
25 177 116
20 116 142
1 4 10
1 1 1 6 10 5 1 5 4
20 15 35 18
88 = 610 462
𝑏
𝑤𝑎𝑔𝑒 = −5,7925 + 3,4383. 𝑒𝑑𝑢𝑐 + 1,2606𝑒𝑥𝑝𝑒𝑟 3,6932 −0,3890 −0,2024
−0,3890 0,0531 0,0114
−0,2024 0,0114 0,0262
88 610 462
−5,7925 = 3,4383 1,2606
1𝑥1 𝑧1 𝑋 = 1𝑥2 𝑧2 1𝑥3 𝑧3
1 1 1 𝑋′ = 𝑥1 𝑥2 𝑥3 𝑧1 𝑧2 𝑧3
𝑦1 𝑦 = 𝑦2 𝑦3
𝑏0 𝑏 = 𝑏1 𝑏2
𝒃 = 𝑿´𝑿
−𝟏 𝑿´𝒚
1 𝑥𝑖 𝑧𝑖 1 1 1 𝑋 ′ 𝑋 = 𝑥1 𝑥2 𝑥3 𝑧1 𝑧2 𝑧3
1𝑥1 𝑧1 1𝑥2 𝑧2 1𝑥3 𝑧3
=
𝑥𝑖 𝑥𝑖2 𝑥𝑖 𝑧𝑖 𝑧𝑖 𝑧𝑖 𝑥𝑖 𝑧𝑖2
𝑦𝑖 𝑦1 1 1 1 𝑋 ′ 𝑦 = 𝑥11𝑥21 𝑥31 . 𝑦2 = 𝑥 𝑦 𝑖 𝑖 𝑦3 𝑥12𝑥22 𝑥32 𝑧𝑖 𝑦𝑖
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝛽2 𝑧 + 𝜖
𝒃 = 𝑿´𝑿
−𝟏
𝑿´𝒚
−1
𝑏0 𝑏1 𝑏2
=
1 𝑥𝑖 𝑧𝑖
𝑦𝑖
𝑥𝑖 𝑥𝑖2 𝑥𝑖 𝑧𝑖
𝑥𝑖 𝑦𝑖
𝑧𝑖 𝑧𝑖 𝑥𝑖 𝑧𝑖2
𝑧𝑖 𝑦𝑖
∗
1 𝑏0 𝑏1 𝑏2
∗
𝑦𝑖 + 𝑥𝑖 ∗
=
𝑥𝑖
Podrobněji v části A “Partialling Out” Interpretation Frische..
∗
𝑥𝑖 𝑦𝑖 + 𝑧𝑖 ∗
𝑦𝑖 +
𝑥𝑖2
−1
𝑧𝑖
Pro nás důležité, že např. odhad 𝑏1 představující dopad změny x na y je spojen i s daty z !!!
∗
𝑥𝑖 𝑦𝑖 + 𝑥𝑖 𝑧𝑖 ∗
𝑦𝑖 + 𝑧𝑖 𝑥𝑖
𝑧𝑖 𝑦𝑖 𝑧𝑖 𝑦𝑖 ∗
𝑥𝑖 𝑦𝑖 + 𝑧𝑖2
𝑧𝑖 𝑦𝑖
∗ −𝑃𝑅𝑂𝐷𝑈𝐾𝑇 𝑍 𝐼𝑁𝑉𝐸𝑅𝑍𝑁Í 𝑀𝐴𝑇𝐼𝐶𝐸
Nafitované hodnoty OLS a residua
𝑦 = β0 + β1 . 𝑥1 + β2 . 𝑥2 + ε 𝑦ො = 𝑏0 + 𝑏1 . 𝑥1 + 𝑏2 . 𝑥2
Residua jsou pozorovatelná Náhodné chyby ne!!! Residua jsou odhadem náhodných chyb Residua nejsou to samé jako náhodné chyby
𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
𝑦 = 𝑏0 + 𝑏1 . 𝑥1 + 𝑏2 . 𝑥2 + 𝑒
V residuální analýze budeme zkoumat vlastnosti residuí Chceme, aby měla určité vlastnosti – proč? Gauss-Markovy předpoklady Využíváme testy pro hodnocení modelu založena na vlastnostech residuí OLS je pouze jedna z metod odhadu Jiné metody – jiné nafitované hodnoty-jiné hodnoty residuí Průměr nebo suma?
Pro OLS platí: • 𝑣ý𝑏ě𝑟𝑜𝑣ý 𝑝𝑟ů𝑚ě𝑟 𝑟𝑒𝑠𝑖𝑑𝑢í = 0 − 𝐸 𝑒 = 0 𝑎 𝑡𝑎𝑘 𝑦ത = 𝑦ො - víme z odvození OLS • 𝑣ý𝑏ě𝑟𝑜𝑣á 𝑘𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑚𝑒𝑧𝑖 𝑋 𝑎 𝑒 = 0 𝐸 𝑋, 𝑒 = 0 𝑦ത = 𝑏0 + 𝑏1 . 𝑥1 + 𝑏2 . 𝑥2 + ⋯ + 𝑏𝑛 𝑥𝑛 • Výběrová kovariance 𝑦ො 𝑎 𝑒 = 0 𝐸 𝑦, ො 𝑒 =0 • 𝑦, ത 𝑥1 , 𝑥2 , … , 𝑥𝑛 − 𝑣ž𝑑𝑦 𝑙𝑒ží 𝑛𝑎 𝑂𝐿𝑆 𝑟𝑒𝑔𝑟𝑒𝑠𝑛í "přímce"
Když uděláme odhad parametrů pomocí OLS Lze rozdělit napozorované hodnoty 𝑦i na dvě části Vyrovnané hodnoty a rezidua 𝑛
𝑛
𝑆𝑆𝑇 = 𝑦𝑖 − 𝑦ത
2
𝑆𝑆𝐸 = 𝑦ො𝑖 − 𝑦ത
𝑦ො𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
𝑛 2
𝑆𝑆𝑅 = 𝑒
𝑖=1
𝑖=1
Total sum of squares
𝑦𝑖 = 𝑦ො𝑖 + 𝑒𝑖
2
𝑖=1
Explained sum of squares
Residual sum of squares
𝑺𝑺𝑻 = 𝑺𝑺𝑬 + 𝑺𝑺𝑹 𝑦
𝑦5 𝑒5
čím více jsou fialové a červené čtverce podobné tím lépe
𝑦ො5 𝑦ത
𝑥
čím více jsou fialové a červené čtverce podobné tím lépe Jak OLS regresní přímka „nafituje“ data
Není to tak jasné, ale jsou to čtverce
𝑦
𝑦5
𝑦 𝑒5
𝑦5 𝑒5
𝑦ො5
𝑦ො5
𝑦ത
𝑦ത
𝑥
𝑥
Jak hodnotit kvalitu OLS metody Užitečné mít hodnotu, jedno číslo, které shrne jak regrese pomocí OLS „fituje“ hodnoty
𝑛
𝑖=1 𝑛
𝑆𝑆𝐸 = 𝑦ො𝑖 − 𝑦ത
Vytvoření SRF zároveň získáme jednotlivá rezidua Čím větší bude hodnota reziduí – tím méně bude SRF „fitovat“ naměřné hodnoty 𝑦𝑖 𝑆𝑆𝑇 = 𝑆𝑆𝐸 + 𝑆𝑆𝑅
1=
2
𝑅 =< 0,1 >
𝑆𝑆𝐸 𝑆𝑆𝑅 2 =𝑅 =1− 𝑆𝑆𝑇 𝑆𝑆𝑇
𝑅2 =
2
𝑖=1 𝑛
𝑆𝑆𝑅 = 𝑒𝑖2 𝑖=1
/𝑆𝑆𝑇
𝑆𝑆𝐸 𝑆𝑆𝑅 + 𝑆𝑆𝑇 𝑆𝑆𝑇
2
𝑆𝑆𝑇 = 𝑦𝑖 − 𝑦ത
𝑅2 = 1 − 𝑝𝑒𝑟𝑓𝑒𝑘𝑡𝑛í 𝑝𝑟𝑜𝑙𝑜ž𝑒𝑛í 𝑆𝑆𝐸 = 𝑆𝑆𝑇, 𝑡𝑒𝑑𝑦 𝑆𝑆𝑅 = 0 𝑅2 = 0
𝑣𝑦𝑠𝑣ě𝑡𝑙𝑒𝑛ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 (𝑑í𝑘𝑦 𝑥) 𝑐𝑒𝑙𝑘𝑜𝑣ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 (𝑦) Vyjadřuje stupeň vysvětlení celkové změny závislé endogenní proměnné y regresí při působení všech nezávislých exogenních proměnných x zahrnutých v regresním modelu Využití pro ověření shody odhadnutého modelu s napozorovanými daty
Část(zlomek, „procento“) Rozptylu v (y), který se podařil vysvětlit působením (x) (100. R2) v % Koeficient determinace
𝑅2 =
𝑣𝑦𝑠𝑣ě𝑡𝑙𝑒𝑛ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 (𝑑í𝑘𝑦 𝑥) 𝑐𝑒𝑙𝑘𝑜𝑣ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 (𝑦)
𝑅2 =< 0,1 >
Problémem je, že 𝑹𝟐 nikdy neklesne přidáním další proměnné Buď se nezmění, spíše vzroste 𝑹𝟐 není dobrý způsob pro porovnání modelů s rozdílným množství vysvětlujícíh proměnných (X)
Problém hodnocení modelu s různým počtem vysvětlujících proměnných (X) vyřešíme pomocí Korigovaného (upraveného, adjusted) koeficientu determinace 𝑆𝑆𝑅 Zároveň vhodné pro použití modelů pro rozdílná množství pozorování (n) 𝑅2 = 1 − Penalizuje rostoucí (k) 𝑆𝑆𝑇 ഥ𝟐 𝒂𝒅𝒋𝑹𝟐 , 𝑹
𝑛−1 − "trestá" 𝑑𝑎𝑙ší 𝑘 𝑛−𝑘−1
𝑛−1 𝑉𝑎𝑟(𝑒) 2 ത (1 − 𝑅2 ) 𝑅 = 1− =1− 𝑛−𝑘−1 𝑉𝑎𝑟(𝑦)
Nezkreslený výběrový rozptyl!!! 𝑆𝑆𝑅 𝑛−1 𝑛 − 𝑘 − 1 2 1 − (1 − 𝑅2 ) ത 𝑅 =1− = 𝑛−𝑘−1 𝑆𝑆𝑇 𝑛−1
Pozor na k – v některé literatuře v sobě obsahuje intercept!!! Pozor 𝑅ത 2 nelze použít pro rozdílné funkční tvary závisle proměnné
𝑦 = β0 + β1 . 𝑥1 + β2 . 𝑥2 + ε 𝑣𝑠. ln(𝑦) = β0 + β1 . 𝑥1 + β2 . 𝑥2 + ε
𝑦
𝑦ത
𝑥