REGRESE
K čemu slouží regrese? 𝐶 = 𝐶𝑎 + 𝑐. 𝑌 𝐶 = 200 + 0,6. 𝑌 + 𝑒 Budeme zjišťovat jak jedna proměnná (nezávislá) Ovlivňuje jinou proměnnou (závislou)
C 950 910 1130 1150 1475 1550 1800
Y 1000 1250 1500 1750 2000 2250 2500
𝐶 Pozor na aplikaci regrese!!! Striktní podmínky Různé metody
2000 1800 1600 1400
1200
Např. problém kauzality vztahů
1000 800
𝑌 = 𝐶 + 𝐼 + 𝐺 + 𝑁𝑋
600
400 200 0 0
500
1000
1500
2000
2500
3000
𝑌
Úvod Pokoušíme se zjistit příčinné/kauzalní souvislosti Spotřebu ovlivňuje velikost důchodu 𝐶 = 𝐶𝑎 + 𝑐. 𝑌 Investice ovlivňuje velikost úrokové míry 𝐼 = 𝐼𝑎 − 𝑏𝑖 Export ovlivňuje reálný měnový kurz a zahraniční HDP Nejsou vztahy „vycucané“ z prstů Chceme zjistit zda-li mezi proměnnými existují konkrétní vztahy Například jak proměnná/proměnné (i, Y, R..) Ovlivňuje jinou proměnnou (C,I,EX) Detailně pochopit vztahy mezi nezávislou/mi a závislou proměnnou A pokud možno vše popsat matematickou funkcí Qx=20-0,54Px+0,12Py+0,2Y Jsme schopni „dobře“ určit některé proměnné (příjem, hodnota majetku atd.) Jak ale určit zda-li půjčit/nepůjčit peníze? A které proměnné nejvíce ovlivní bankrot klienta?
Deterministický model Jednoznačně existující vztah Pravděpodobnost =1 Spoření (fixní sazba, poplatky)
Kč
𝑦 = β0 + β1 . 𝑥1 y- závislá proměnná (vysvětlovaná proměnná) x- nezávislá proměnná (vysvětlující proměnná) β- parametry (β0 absolutní člen, β1 sklon)
čas
Stochastický model Do modelu vstupuje nejistota (další neuvažované vlivy) Například i chyby v měření 𝑦 = β0 + β1 . 𝑥1 + ε ε- náhodná chyba (náhodná veličina proto má pravděpodobnostní rozdělení) Jednostranná závislost – regresní analýzy Vzájemná závislost (lineární) – korelační analýza
𝐶 = 𝐶𝑎 + 𝑐. 𝑌
Cíl – snaha poznat a popsat příčinné vztahy mezi proměnnými Výnos pole a množství hnojiva Uvažujeme existenci lineárního vztahu (úvaha zemědělců) – více hnojiva větší výnos 𝑦 = β0 + β1 . 𝑥1 Jak ověřit tento vztah? Dotážeme se všech zemědělců v ČR? Získáme statistický soubor • Pozorováním (n) statistických jednotek (sledujeme 100 zemědělců) snaha aby daty byla prostorově, časově a věcně vymezena • Pozorováním určité statistické jednotky (HDP) v (n) časových intervalech
Snaha se co nejvíce přiblížit(aproximovat) empirickou regresní funkci A hypotetickou regresní funkci Co nejlépe by měla vyjadřovat charakter závislosti (lineární, logaritmická atd.) Hledáme průběh závislosti (lineární, nelineární) Intenzitu závislosti (silná/těsná)
Snaha se co nejvíce přiblížit(aproximovat) empirickou regresní funkci A hypotetickou regresní funkci Co nejlépe by měla vyjadřovat charakter závislosti (lineární, logaritmická atd.) Hledáme průběh závislosti (lineární, nelineární) Intenzitu závislosti (silná/těsná)
Závislost a její intenzita
Nelineární
Nelineární závislost – silná y
y
x
x
Lineární závislost – slabá y
Lineární závislost – silná y
x
x
Příklad
𝑦 = β0 + β1 . 𝑥1 + ε
Máme pole a chceme zjistit co ovlivňuje výnos z pole Myšlenka množství hnojiva 𝑣ý𝑛𝑜𝑠 = β0 + β1 .hnojivo +ε
𝑦 = β0 + β1 . 𝑥1
výnos- závislá proměnná hnojivo – množství hnojiva nezávislá proměnná ε- ostatní faktory Provedeme (n) náhodných výběrů – oslovíme n zemědělců A zjistíme kolik hnojili a jaký měli výnos Sklon 1,5
𝑣ý𝑛𝑜𝑠 = 5 + 1,5.hnojivo + e Když nebudeme hnojit výnos=5 Když se změní množství hnojiva o 1 Zvýší se výnos o 1,5.1=1,5 Změna hnojiva o 2 – výnos=2.1,5=3 e- body neleží na čárkované přímce Existují další faktory kromě hnojiva Ovlivňující výnos
výnos
5 hnojivo
Jednoduchý lineární regresní model Máme pouze jednu nezávisle proměnnou Vztah mezi závisle proměnnou (y) a nezávisle proměnnou (x) je lineární My získáme „nějaká“ data y a x (empirické/výběrové hodnoty) – co se naměřilo Cílem je najít případný vztah mezi y a x a popsat jej Výnos pole a množství hnojiva My víme, že zde existuje lineární vztah – čím více hnojiva – tím větší výnos Ale nevíme, jak přesně má daný vztah vypadat Teoretická (hypotetická) regresní funkce – nepozorovatelná (η) „ideální“ regresní funkce Teoretický vztah – většinou neznáme výnos
𝑦 = β0 + β1 . 𝑥1 Empirická regresní funkce je Odhad teoretické regresní funkce
hnojivo
Teoretická a empirická regresní funkce Pro každé pozorování (i) i=1,2… 𝑦𝑖 = η𝑖 + ε𝑖
η𝑖 = β0 + β1 . 𝑥𝑖
𝑦𝑖 = β0 + β1 . 𝑥𝑖 + ε𝑖
Při neexistenci chyby (ε) Model deterministický (pevná závislost) η- předpis kdy x je přiřazeno y „přesně“ y=2.x
yi- i-tá empirická hodnota vysvětlované proměnné (výnos pole) ηi- i-tá hodnota teoretické regresní funkce (neznám) εi- odchylka (náhodná chyba) yi od ηi e𝒊 -reziduum – rozdíl mezi empirickou regresní funkcí a empirickou hodnotou
Odchylka
Na y působí další náhodné proměnné než pouze (x) Na pozorování působí náhodné chyby (nepřesné váhy) y
Empirická regresní funkce
𝑦𝑖
ε𝑖 ≠ e𝒊 Reziduum je odhadem náhodné chyby (dopustili jsme se dalších chyb)
Teoretická regresní funkce
ε𝑖 e𝑖
x
Hledání konkrétního tvaru regresní funkce
𝑦𝑖 = η𝑖 + ε𝑖
Červené body značí empirické (napozorované) hodnoty Musíme najít „vhodnou“ přímku
𝑦𝑖 = β0 + β1 . 𝑥𝑖 + ε𝑖
𝑌𝑖 = 𝑏0 + 𝑏1 . 𝑥𝑖 Každou empirickou hodnotu yi nahradíme určitou „vyrovnanou“ hodnotou Yi Která bude ležet na zvolené empirické (výběrové) regresní přímce
y Y6 y5 y3
y4
y1
Y5
y4=Y4 Y2
Y1
y6
Y3
y2
x
Problém je, že takových přímek může existovat nekonečně mnoho Musíme najít kritérium – nejlépe vystihne danou závislost
Zelené šipky představují odchylku skutečné hodnoty od „vyrovnané“ hodnoty Když už musí existovat odchylky – ideální by bylo jejich vzájemné vykompenzování 𝑛
𝑛
𝑦𝑖 − 𝑌𝑖 = 𝑖=1
𝑒𝑖 = 0 𝑖=1
y
Y7
Kladné a záporné odchylky Se „požerou“
y5 y3
e𝒊 -reziduum Rozdíl mezi empirickou regresní funkcí a empirickou hodnotou
y4
y1
Y5
y4=Y4 Y2
Y1
Y6
y7 y6
Y3
y2
x
Součet čtverců odchylek empirických hodnot y i od hodnot teoretických ηi byl minimální Metoda nejmenších čtverců (MNČ, OLS)
𝑛
𝑦𝑖 = η𝑖 + ε𝑖 𝑛
=
𝑖=1
(𝑦𝑖 − η𝑖
y5
Y6
𝑖=1
𝑛
𝑛
𝑒𝑖2 𝑖=1
Y7
)2 … 𝑚𝑖𝑛
Reziduum e je odhadem ε A Y je odhadem η Musí platit, že: 𝑄=
𝑖=1
y
𝑛
ε2𝑖
𝑄=
𝑒𝑖 = 0
=
(𝑦𝑖 − 𝑖=1
y3
y4
y1
Y1
y7
y6
y4=Y4 Y2
𝑌𝑖 )2 … 𝑚𝑖𝑛
Y5
Y3
y2
x
𝑦𝑖 = η𝑖 + ε𝑖
Přímková regrese 𝑛
ε2𝑖 =
𝑄=
η = β0 + β1 . 𝑥
𝑛
𝑖=1
𝑌 = 𝑏0 + 𝑏1 . 𝑥
𝑖=1
𝑏0 𝑗𝑒 𝑜𝑑ℎ𝑎𝑑 β0
𝑛 2
𝑄=
(𝑦𝑖 − η𝑖 )2 … 𝑚𝑖𝑛
(𝑦𝑖 − β0 − β1 𝑥𝑖 )
𝑄 𝑚𝑖𝑛
𝑏1 𝑗𝑒 𝑜𝑑ℎ𝑎𝑑 β1
𝑖=1
𝜕𝑄 =0 𝜕β0
𝜕𝑄 =0 𝜕β1
2
(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2 = (𝑦1 − 𝑏0 − 𝑏1 𝑥1 )2 +(𝑦2 − 𝑏0 − 𝑏1 𝑥2 )2
𝑄= 𝑖=1
𝜕𝑄 = 2. 𝑦1 − 𝑏0 − 𝑏1 𝑥1 . −1 + 2. 𝑦2 − 𝑏0 − 𝑏1 𝑥2 . −1 = 0 𝜕𝑏0 𝜕𝑄 = 2. 𝜕𝑏0
2
𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 . (−1) = 0 𝑖=1
𝜕𝑄 = 2. 𝑦1 − 𝑏0 − 𝑏1 𝑥1 . −𝑥1 𝜕𝑏1 𝜕𝑄 = 2. 𝜕𝑏1
+ 2. 𝑦2 − 𝑏0 − 𝑏1 𝑥2 . −𝑥2
2
𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 . (−𝑥𝑖 ) = 0 𝑖=1
=0
𝑛
𝑛
ε2𝑖 =
𝑄=
𝑛
(𝑦𝑖 − η𝑖 )2 … 𝑚𝑖𝑛
𝑖=1
(𝑦𝑖 − β0 − β1 𝑥𝑖 )2
𝑄=
𝑖=1
𝑖=1
𝑛
𝜕𝑄 = 2. 𝜕𝑏0
𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 . (−1) = 0 𝑖=1
𝜕𝑄 = 2. 𝜕𝑏1
𝑛
𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 . (−𝑥𝑖 ) = 0 𝑖=1
𝜕𝑄 = 2. 𝑦1 − 𝑏0 − 𝑏1 𝑥1 . −1 + 2. 𝑦2 − 𝑏0 − 𝑏1 𝑥2 . −1 = 0 𝜕𝑏0 𝜕𝑄 = 2. 𝑦1 − 𝑏0 − 𝑏1 𝑥1 . −𝑥1 𝜕𝑏1
Normální rovnice 𝑛
𝑛
𝑦𝑖 = 𝑛. 𝑏0 +𝑏1 𝑖=1
𝑏0 =
𝑥𝑖 𝑖=1
𝑛
𝑛
𝑦𝑖 . 𝑥𝑖 = 𝑏0 𝑖=1
𝑥𝑖
𝑥𝑖 𝑥𝑖2 𝑥𝑖 𝑥𝑖2
𝑛
𝑥𝑖2
𝑥𝑖 + 𝑏1 𝑖=1
𝑛
𝑦𝑖 𝑦𝑖 𝑥𝑖 𝑛 𝑥𝑖
𝑖=1
𝑥𝑖
𝑦𝑖
𝑥𝑖2
𝑦𝑖 𝑥𝑖
𝑏1 =
𝑛 𝑥𝑖 𝑛 𝑥𝑖
𝑦𝑖 𝑦𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖2
+ 2. 𝑦2 − 𝑏0 − 𝑏1 𝑥2 . −𝑥2
=0
𝐸 𝑌 𝑋 =𝑦+. 𝑏𝑥𝑦 (𝑥 − 𝑥)
𝑌 = 𝑦 + 𝑏𝑥𝑦 . (𝑥 − 𝑥)
Regresní koeficient (výběrový regresní koeficient)
𝑌 = 𝑏0 + 𝑏1 . 𝑥 𝑏𝑥𝑦 =
Směrnice (sklon) regresní přímky Průměrná změna závisle proměnné y Při jednotkové změně nezávisle proměnné x
𝑏𝑥𝑦 =
𝑠𝑥𝑦 𝑠𝑥2
𝑐𝑜𝑣(𝑥, 𝑦) 𝑉𝑎𝑟(𝑥)
Může nabýt libovolných hodnot!!! Jednodušší postup pro přímkovou regresi!!!! 𝑏0 = 𝑦 − 𝑏1 𝑥 Přímková regrese je lineární regresní funkce (lineární v parametrech) Obráceně nemusí platit!!!
𝑐𝑜𝑣(𝑥, 𝑦) > 0 𝑐𝑜𝑣(𝑥, 𝑦) < 0
𝑐𝑜𝑣 𝑥, 𝑦 = 0 Lineární nezávislost
Linearizace modelu Linearita v parametrech
𝑙𝑛𝑦 = 𝑙𝑛𝑏0 + 𝑏1 𝑙𝑛𝑥 𝑦 = 𝑏0 𝑥 𝑏1
𝑂𝐾 𝑁𝑒𝑛í 𝑂𝐾 ∶)
Vzpomeňte na matice Lineární algebra – pro praktičnost je výhodnější mít lineární model
Některé nelineární modely se dají linearizovat Linearizující transformace 𝑦 = 𝑏0 𝑥 𝑏1 𝑏0 𝑦= 𝑏 𝑥 1
𝑙𝑛𝑦 = 𝑙𝑛𝑏0 + 𝑏1 𝑙𝑛𝑥 𝑙𝑛𝑦 = 𝑙𝑛𝑏0 − 𝑏1 𝑙𝑛𝑥
𝑄 = 5 − 2𝑙𝑛𝑃 𝑙𝑛𝑄 = 100 − 0,04𝑃 𝑙𝑛𝑄 = 7 − 0,01𝑙𝑛𝑃
Další typy regresních funkcí Parabolická regrese
Není vícenásobná regrese!!!
η = β0 + β1 . 𝑥 + β2 . 𝑥 2 Aplikujeme MNČ Interpretace výsledků ei = yi b0 b1xi
Polynomická regrese η = β0 + β1 . 𝑥 + β2 . 𝑥 2 + ⋯ + β𝑝 . 𝑥 𝑝 Lineární v parametrech Nelineární v
Hyperbolická regrese
β1 η = β0 + 𝑥 Logaritmická regrese Lineární v parametrech Nelineární v Interpretace výsledků
η = β0 + β1 𝑙𝑜𝑔𝑥
Exponenciální regrese Nelineární v parametrech Nelze použít MNČ
η = β0 . β1𝑥
Logaritmická transformace – zlogaritmujeme (linearizujeme) log η = log β0 + 𝑥. log β1 Interpretace výsledků
Zdánlivá regrese (spurious regression) Někdy nastane situace, že regresní model vykazuje vysoké R2 Přesto se jedná o nesmyslný vztah Váha dětí a znalost gramatiky Čím jsou děti těžší, tím mají lepší gramatiku Zapomínáme na stáří dětí!!!
Vzájemný vztah přes třetí proměnnou Možnost existence krátkodobého vztahu např. stochastický trend atd. Dávat si na zdánlivou regresi VELKÝ pozor Zájemci si mohou vyhledat termín kointegrace časových řad
Interpolační a extrapolační odhady Vzniklý model musíme testovat Interpolační odhad Do vzniklého modelu dosazujeme vysvětlující proměnné z oblasti měření 𝑣ý𝑛𝑜𝑠 = 5 + 1,5.hnojivo + u Extrapolační odhad Do vzniklého modelu dosazujeme hodnoty mimo interval měření
Máme hodnoty z intervalu (0;1000) A chceme predikovat chování pro hodnoty z intervalu (1000;1500)
Kvalita regresní funkce a intenzita závislosti Zjistíme případný vztah lineární/nelineární Přímková regrese, parabolická atd. Je však daný model „kvalitní“? Regresní model bude tím lepší čím více budou empirické hodnoty vysvětlované proměnné soustředěny (nalepany) kolem odhadnuté regresní funkce Cílem kapitoly je objasnit si nástroje na měření kvality regresního modelu
y
y
x
x
Index korelace Empirický rozptyl (ER)
Teoretický rozptyl (TR)
1 2 𝑠𝑦 = . 𝑛 𝑠𝑌2
Residuální rozptyl (RR)
1 = . 𝑛
2 𝑠(𝑦−𝑌) =
Při použití MNČ platí mezi rozptyly vztah:
1 . 𝑛
𝑛
(𝑦𝑖 − 𝑦)2 𝑖=1 𝑛
(𝑌𝑖 − 𝑦)2 𝑖=1 𝑛
(𝑦𝑖 − 𝑌𝑖 )2 𝑖=1
y Y6 y6
2 𝑠𝑦2 = 𝑠𝑌2 + 𝑠(𝑦−𝑌)
𝑦
x
Empirický rozptyl (ER) Teoretický rozptyl (TR) Residuální rozptyl (RR)
𝑠𝑦2
1 = . 𝑛
𝑛
(𝑦𝑖 − 𝑦)
2
𝑖=1
1 𝑠𝑌2 = . 𝑛
𝑛
(𝑌𝑖 − 𝑦)2 𝑖=1
2 𝑠(𝑦−𝑌)
1 = . 𝑛
𝑛
(𝑦𝑖 − 𝑌𝑖 )2 𝑖=1
2 𝑠𝑦2 = 𝑠𝑌2 + 𝑠(𝑦−𝑌)
Funkční závislost
𝑠𝑦2 = 𝑠𝑌2
Všechny empirické hodnoty (yi) jsou zároveň vyrovnanými hodnotami (Yi) „čím lepší závislosti, tím více se ER a TR blíží“
y Y6
2 2 Úplná nezávislost 𝑠𝑦 = 𝑠(𝑦−𝑌)
y6
Empirický rozptyl shodný s reziduálním „čím horší závislost, tím se ER a RR blíží“ Hodnocení stochastického modelu Zvolený model bude tím kvalitnější Čím bude podíl teoretického rozptylu Na celkovém rozptylu větší!!! Tím silnější bude závislost y na x
𝒔𝟐𝒀
𝑦
𝒔𝟐𝒚 x
1 𝑠𝑦2 = . 𝑛 1 𝑠𝑌2 = . 𝑛
𝑛
(𝑦𝑖 − 𝑦)2
Index determinace R2
𝑖=1 𝑛
(𝑌𝑖 − 𝑦)2
𝑰𝟐𝒚𝒙
=
𝒔𝟐𝒀
2 𝑠𝑦2 = 𝑠𝑌2 + 𝑠(𝑦−𝑌)
𝒔𝟐𝒚
𝑖=1
𝑅2
Index nabývá hodnot 0-1 R2=1 představuje funkční závislost R2=0 představuje nezávislost
x 0 1 2 3 4 5
Vynásobeno 100 udává v % tu část rozptylu kterou se podařilo vysvětlit regresní funkcí 𝑠𝑌2 =1− 𝑠𝑦2
𝐼𝑦𝑥 =
𝑠𝑌2 𝑠𝑦2
2 𝑠(𝑦−𝑌) 𝑠𝑦2
"𝑣𝑦𝑠𝑣ě𝑡𝑙𝑒𝑛ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙" = 𝑐𝑒𝑙𝑘𝑜𝑣ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 y 2 2,2 2,4 2,6 2,8 3
𝑌𝑖 = 2 + 0,3. 𝑥𝑖 𝑥
𝑦
2,5
2,75
Relativní část, která se nepodařila vysvětlit modelem
Index korelace
y
𝑦
x
𝑰𝟐𝒚𝒙
Index determinace <0,1>
𝒔𝟐𝒀 = 𝟐 𝒔𝒚
Funkční závislost – R2=1 Nezávislost –R2=0
Převedením na % - vyjadřuje tu část rozptylu vysvětlované proměnné (y) kterou se podařilo vysvětlit pomocí regresní funkce R2=0,8 – 100.0,8=80% 80% hodnot se nám podařilo vysvětlit pomocí konkrétního typu reg. fce Index korelace
𝐼𝑦𝑥 =
𝑠𝑌2 𝑠𝑦2
Koeficient korelace Zvláštní případ indexu korelace Měří těsnost závislosti dané LINEÁRNÍ regresní funkce
𝐼𝑦𝑥 =
𝑠𝑌2 𝑠𝑦2
𝑠𝑥𝑦
𝑟𝑦𝑥 = 𝑟𝑥𝑦 =
𝑠𝑥2 . 𝑠𝑦2
rxy- koeficient korelace sxy- kovariance s2(x,y)- rozptyly
180 160 140 120 100
Koeficient korelace <-1,1>
80
y
60 40
rxy=-1 Nepřímá lineární závislost –
20 0 -20 -40 -60 -2
rxy=1 Přímá lineární závislost – rxy=0 lineární nezávislost
0
2
4
6
8
10
12
14
16
18
20
22
24
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
y 50 51,9 57,2 65,3 75,6 87,5 100,4 113,7 126,8 139,1 150 158,9 165,2 168,3 167,6 162,5 152,4 136,7 114,8 86,1 50 5,9 -46,8
x
−0,1𝑥 3 + 2𝑥 2 + 50
𝑟𝑦𝑥 = −0,02
rxy=0 Nemusí znamenat nezávislost Může se jednat o silnou závislost Ale NELINEÁRNÍ!!!
6
5
5 𝑦= 2 𝑥
4
3
Prom2
𝑙𝑛𝑦 = 𝑙𝑛5 − 2𝑙𝑛𝑥
2
1
0
-1 -20
0
20
40
60
80
100
120
140
Prom1
2
𝑟𝑦𝑥 = −1
0
-2
-4
x
y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
5 1,25 0,555555556 0,3125 0,2 0,138888889 0,102040816 0,078125 0,061728395 0,05 0,041322314 0,034722222 0,029585799 0,025510204 0,022222222 0,01953125 0,017301038 0,015432099 0,013850416 0,0125
lny -6
𝑟𝑦𝑥 = −0,23
-8
-10 -1
0
1
2
3
lnx
4
5
6