Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
[GVMGS11MNC] Gazdas´agstatisztika 10. el˝oad´as: 9. Regresszi´ osz´am´ıt´as II.
´ L´aszl´ K´ oczy A. o
[email protected]
Keleti K´ aroly Gazdas´ agi Kar – V´ allalkoz´ asmenedzsment Int´ ezet
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
A standard line´aris modell
A line´aris sztochasztikus kapcsolat: M(Y |X = Xi ) = β0 + β1 · Xi . Y¯i = β0 + β1 · Xi , azaz ha Yi = β0 + β1 · Xi + Ei , akkor M(E ) = 0. minta alapj´an ηi = β0 + β1 Xi + εi , εi val´osz´ın˝ us´egi v´altoz´ o. B´armi lehet! Standard line´aris modell 1 ε (illetve η ) norm´ alis eloszl´as´ uak i i 2
cov (εi , εj ) = 0 ha i 6= j
3
M(εi ) = 0
4
D(εi ) = σ (f¨ uggetlen Xi -t˝ ol)
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Becsl´es sor´an elk¨ovetett hib´ak K´etf´ele hiba: 1
Mint´ab´ol becs¨ ult param´eterek; becsl´es teh´at nem pontos.
2
Az ism´ervek k¨oz¨ott csak sztochasztikus kapcsolat van, nem f¨ uggv´enyszer˝ u, csak azt a r´eszt kapjuk meg Y -b´ol, ami X -b˝ol k¨ovetkezik.
Ha Xi r¨ogz´ıtett, a becsl˝ of¨ uggv´enyek P P P P 2 ( η ) Xi − ( Xi ) ( Xi ηi ) i ˆ β0 = P P n Xi2 − ( Xi )2 P P P P ¯ )2 ηi (X − X n X η − ( X ) ( η ) i i i i i βˆ1 = = P P P ¯ )2 (Xi − X n Xi2 − ( Xi )2 Mindkett˝o az ηi val´osz´ın˝ us´egi v´altoz´ ok line´aris kombin´aci´oja.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
A becsl˝of¨uggv´enyek tulajdons´agai
1 2
M(βˆ0 ) = β0 , M(βˆ1 ) = β1 – torz´ıtatlanok Sz´or´asuk, azaz a becsl´es standard hib´aja megadhat´o: s P X2 P i2 D(βˆ0 ) = σβˆ0 = σ n dX s D(βˆ1 ) = σβˆ1 = σ
3
n
1 P
dX2
A becsl´es konzisztens.
Itt σ az ε (nem ismert) sz´ or´asa – k¨ ul¨ on becs¨ ulni kell a mint´ab´ol.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Minta sz´or´as´anak becsl´ese
Az elm´eleti sz´or´as: D(ε) = σε q P 1 (ηi − yˆi )2 n qP 2 ei Konkr´et mint´ab´ol becs¨ ult sz´ or´as: se = n−2 P 2 Itt ei a minimaliz´alni k´ıv´ant n´egyzet¨ osszeg, n − 2 pedig a szabads´agfokok sz´ama ⇒ torz´ıtatlan becsl´es. A mint´ab´ol becs¨ ult sz´ or´as: σ ˆε =
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
A regresszi´os becsl´es abszol´ut ´es relat´ıv hib´aja Abszol´ ut hiba Kifejezi, hogy a regresszi´ os becsl´esek (ˆ yi ) ´atlagosan mennyivel t´ernek el az eredm´enyv´altoz´ o (yi ) megfigyelt ´ert´ekeit˝ol. √ Itt se , ld. fent, vagy se = sy 1 − r 2 Relat´ıv hiba Kifejezi, hogy a regresszi´ os becsl´esek ´atlagosan h´any %-kal t´ernek el az eredm´enyv´altoz´o megfigyelt ´ert´ekeit˝ ol. Itt: Ve = sy¯e . A gyakorlatban 10% alatti relat´ıv hiba eset´en j´ o a regresszi´os becsl´es.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
A param´eterek intervallumbecsl´ese
Bel´athat´o, hogy β1 − βˆ1 σβˆ1 n − 2 szabads´agfok´ u Student t-eloszl´ast k¨ ovet. 1 − α val´osz´ın˝ us´egi szint eset´en β1 ∈ b1 − t(1− α ) sb1 ; b1 + t(1− α ) sb1 2 2 β0 ∈ b0 − t(1− α ) sb0 ; b0 + t(1− α ) sb0 2
2
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
V´ ege
Regresszi´os becsl´esek ´es progn´ozisok A regresszi´os f¨ uggv´eny minden x0 ´ert´ekre kidob egy yˆ0 -t. Ez mit jelent? ¯0 = M(Y |X = X0 ) becsl´ese. 1 Az Y 2 Annak becsl´ ese, hogy (X0 , Y0 ) minta eset´en y0 mekkora lehet. 1. Az x0 ´ert´ekhez tartoz´ o felt´eteles v´arhat´ o ´ert´ek intervallumbecsl´ese. A yˆ0 sz´ or´asa meghat´arozhat´ o (itt: konkr´et mint´ara): s 1 (x0 − x¯)2 +P syˆ0 = se n (x − x¯)2 (Ez x¯ k¨ ozel´eben a legjobb, t´avolodva romlik a becsl´es.) A konfidenciaintervallum pedig: s yˆ0 − t(1− α ) se 2
1 (x0 − x¯)2 +P ; yˆ0 + t(1− α ) se 2 n (x − x¯)2
s
1 (x0 − x¯)2 +P n (x − x¯)2
!
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
V´ ege
Regresszi´os becsl´esek ´es progn´ozisok 2. Az egyedi y0 becsl´esek konfidenciaintervalluma ... ha egy hi´anyz´o Y0 adatot k´ıv´anunk becs¨ ulni adott X0 helyen. Y0 = βˆ0 + βˆ1 X1 + ε0 = yˆ0 + ε0 σY2 0
= σyˆ20 + σe2
A Y0 sz´or´asa meghat´arozhat´ o (itt: konkr´et mint´ara): s 1 (x0 − x¯)2 +P +1 syˆ0 = se n (x − x¯)2 A pedig: q q konfidenciaintervallum (x0 −¯ x )2 1 1 P yˆ0 − t(1− α ) se n + (x−¯ + 1; y ˆ + t α se 0 2 n + x) (1− ) 2
2
(x0 −¯ x )2 P (x−¯ x )2
+1
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
A regresszi´of¨uggv´eny hipot´ezis-ellen˝orz´ese
A regresszi´of¨ uggv´eny mint´ab´ ol sz´armazik, k´erd´es ´erv´enyes-e a sokas´agra is. 1
Szignifik´ans-e β1 ?
2
Szignifik´ans-e maga a regresszi´ of¨ uggv´eny?
(k´et ism´erv eset´en a kett˝ o ugyanaz)
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
A regresszi´os egy¨utthat´o (β1 ) tesztel´ese Felt´etelezz¨ uk, hogy nincs korrel´aci´ o, a tapasztalati param´eter b1 0-t´ol val´o elt´er´es´et a v´eletlen okozza. H1 : β1 6= 0.
H0 : β1 = 0,
n elem˝ u minta eset´en
β1 − βˆ1 σ ˆβˆ1
n − 2 szabads´agfok´ u t-eloszl´ast k¨ ovet. α szignifikanciaszinten elfogadjuk, ha |t| =
|b1 | (n−2) < t1− α 2 sb1
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Varianciaanal´ızis a regresszi´osz´am´ıt´asban
yi = yˆi + ei
1
yi : az Y megfigyelt ´ert´eke (X = xi )
2
yˆi = b0 + b1 xi : az xi -hez tartoz´ o regresszi´ os becsl´es
3
ei : marad´ektag v. reziduum.
Pn
i=1 (yi
P P − y¯ )2 = ni=1 (ˆ yi − y¯ )2 + ni=1 (yi − yˆ )2
SST
=
SSR
+
SSE rezidu´alis n´egyzet¨ osszeg SSE = 0 ⇒ f¨ uggv´enyszer˝ u kapcsolat. SSE 6= 0 ⇒ sztochasztikus kapcsolat.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
V´ ege
Varianciaanal´ızis 2
A sz´or´asn´egyzet forr´asa
Elt´er´esSzabads´agfok n´egyzet¨ osszeg P Regresszi´o SSR = (ˆ yi − y¯ )2 1 P 2 Hibat´enyez˝o SSE = (yi − yˆ ) n−2 P Teljes SST = (yi − y¯ )2 n−1 Hipot´ezisvizsg´alat: tagadjuk a regresszi´ o l´etez´es´et. H0 : β1 = 0
H1 : β1 6= 0
´es
“SSR = k¨ uls˝o; SSE = bels˝ o sz´ or´as” ⇒ F -pr´ oba. Konkr´et minta eset´en: F0 =
SSR 1 SSE n−2
(1)
∼ F(n−2)
´ Atlagos n´egyzet¨ osszeg P (ˆ yi −¯ y )2 P 1 (yi −ˆ y )2 n−2
−
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Szoross´ag m´er´ese varianciaanal´ızis-t´abla alapj´an
Determin´aci´os egy¨ utthat´ o (r 2 ) A regresszi´o ´altal megmagyar´azott elt´er´es-n´egyzet¨ osszegnek az y teljes elt´er´es-n´egyzet¨osszeg´ehez val´ o ar´anya. r2 =
SST − SSE SSE SSR = =1− SST SST SST
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Diagnosztikai tesztek
Diagnosztikai teszt ´ ekeli a modellt; levont k¨ Ert´ ovetkeztet´esek val´ odis´ag´at t´amasztja al´a. A rezidu´alis v´altoz´ o tapasztalati ´ert´ekeit (ei ) vizsg´aljuk. Megfelel az elm´eleti εi -nek – hasonl´ o tulajdons´agokkal kell, hogy rendelkezzen. P´eld´aul: a hibat´enyez˝ o sz´ or´asa ´alland´ o ⇒ nem j´o, ha n˝o a sz´or´as!
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Robusztus becsl´esi m´odszerek
M´er´esi hib´ak: pontatlan adatok, el´ır´as, stb. ⇒ robusztus becsl´esi m´ odszerek: kev´esb´e ´erz´ekenyek. Nyesett ´atlag: elhagyunk nα megfigyel´est a rangsor k´et sz´el´en, majd u ´jra becsl´es.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Nemline´aris regresszi´o
Ha az X v´altoz´o hat´asa Y -ra f¨ ugg X nagys´ag´at´ ol ⇒ nemline´aris regresszi´o. Fontosabb t´ıpusai: hatv´anykitev˝os exponenci´alis parabolikus hiperbolikus
A param´eterek meghat´aroz´as´ara – legkisebb n´egyzetek m´odszere.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Parabolikus regresszi´of¨uggv´eny yˆ = b0 + b1 x + b2 x 2 Az elt´er´es-n´egyzet¨osszeg: X X f (b0 , b1 , b2 ) = (yi − yˆi )2 = (yi − b0 − b1 xi − b2 xi2 )2 A 0-val egyenl˝ov´e tett b0 , b1 , b2 szerinti parci´alis deriv´altakb´ol kapjuk a norm´alegyenleteket: P P P 2 y =b n +b x +b 0 1 2 i i P xi3 P P P 2 P x2i y1 =b0 P xi2 +bi P xi 3 +b2 P xi4 xi yi =b0 xi +b1 xi +b2 xi Mikor haszn´aljuk? Ha a k´et v´altoz´ o k¨ oz¨ otti ¨ osszef¨ ugg´es ir´anya megv´altozik Gyakori, hogy azt vizsg´aljuk, hol maxim´alis.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Hatv´anykitev˝os regresszi´of¨uggv´eny
yˆ = b0 x b1 log yˆ = log b0 + b1 log x ⇒ line´aris kapcsolat log x ´es log y k¨ oz¨ ott.
Megold´as, mint a line´aris regresszi´ on´al A hatv´anykitev˝o a rugalmass´agi egy¨ utthat´ oval azonos. 1%-kal nagyobb x ´ert´ekhez h´any %-kal nagyobb y tartozik.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Exponenci´alis regresszi´of¨uggv´eny
yˆ = b0 b1 x log yˆ = log b0 + log b1 · x ⇒ line´aris kapcsolat x ´es log y k¨ oz¨ ott.
A b1 arra ad v´alaszt, hogy a t´enyez˝ ov´altoz´ o egys´egnyi n¨oveked´ese h´anyszoros´ara v´altoztatja az eredm´enyv´altoz´ o ´ert´ek´et.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
9.8. Feladat
19 orsz´ag adatai alapj´an vizsg´alt´ak az 1 lakosra jut´o GDP, X ´es az 1000 lakosra jut´o szem´elyg´epkocsik sz´ama, Y k¨ oz¨ otti ¨osszef¨ ugg´est.
Sz´am´ıt´asi eredm´enyek: Line´aris regresszi´of¨ uggv´eny: yˆ = −83, 4 + 0, 0935x. A megfigyelt v´altoz´ok sz´ or´asai: σ(x) = 1149; σ(y ) = 120, 5. P P P 2 = 107, 5812, lg y = 44, 7463, P lg x = 67, 57, (lg y ) P (lg x lg y ) = 160, 0585, (lg x)2 = 240, 8056.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
9.8. Feladat
Feladat: a) Milyen szoros a kapcsolat a k´et ism´erv k¨oz¨ott? b) H´any %-ban j´atszik szerepet az X ism´erv az Y sz´or´as´aban? ´ c) Irjuk fel a hatv´anykitev˝ os regresszi´ o norm´alegyenleteit ´es sz´am´ıtsuk ki a param´etereket! ´ d) Ertelmezz¨ uk mindk´et regresszi´ of¨ uggv´eny b1 param´eter´et! e) Adjunk becsl´est egy olyan orsz´agra, amelynek az 1 lakosra jut´ o GDP-mutat´ oja 7200 doll´ar!
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
9.8. Feladat – Megold´as a) Milyen szoros a kapcsolat a k´et ism´erv k¨oz¨ott? A kapcsolat szoross´ag´at a kovarianci´aval, vagy line´aris korrel´aci´os egy¨ utthat´oval m´erhetj¨ uk. Tudjuk, hogy β1 =
cov(ξ, η) D 2 (ξ)
cov(ξ, η) = β1 D 2 (ξ) cov(ξ, η) = 0, 0935 × 11492 = 123439 cov(ξ, η) R(ξ, η) = D(ξ)D(η) 123439 R(ξ, η) = = 89, 1% 1149 × 120, 5
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
9.8. Feladat – Megold´as
b) H´any %-ban j´atszik szerepet az X ism´erv az Y sz´or´as´aban? A determin´aci´os egy¨ utthat´ o (r 2 ) hat´arozza meg. r 2 = R 2 (ξ, η) = 0, 8912 = 79, 5%. Az X ism´erv az Y sz´or´as´at 79,5%-ban hat´arozza meg.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
9.8. Feladat – Megold´as c) ´Irjuk fel a hatv´anykitev˝ os regresszi´ o norm´alegyenleteit ´es sz´am´ıtsuk ki a param´etereket! Hatv´anykitev˝os regresszi´ of¨ uggv´eny:ˆ y = b0 x b1 azaz lg yˆ = lg b0 + b1 lg x. Norm´alegyenletek: X X lg yi = n lg b0 + b1 lg xi X X X lg xi lg yi = lg b0 lg xi + b1 lg xi2 44, 75 = 19 lg b0 + 67, 57b1 160, 06 = 67, 57 lg b0 + 240, 81b1 b1 = 1, 83, lg b0 = −4, 165, azaz b0 = 0, 000068, ´ıgy yˆ = 0, 000068x 1,83 .
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
9.8. Feladat – Megold´as
´ d) Ertelmezz¨ uk mindk´et regresszi´ of¨ uggv´eny b1 param´eter´et! Line´aris regresszi´o: Ha a GDP 1000 doll´arral n˝o, akkor 1000 lakosonk´ent 93,5 aut´ oval t¨ obb lesz. Hatv´anykitev˝os regresszi´ o: Ha a GDP 1%-kal n˝o, (kb.) h´any %-kal n˝o az 1000 lakosra jut´ o g´epkocsik sz´ama.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
9.8. Feladat – Megold´as
e) Adjunk becsl´est egy olyan orsz´agra, amelynek az 1 lakosra jut´ o GDP-mutat´ oja 7200 doll´ar! Line´aris regresszi´o: yˆ = −83, 4 + 0, 0935x = −83, 4 + 0, 0935 × 7200 = 589, 8. Hatv´anykitev˝os regresszi´ o: 1,83 yˆ = 0, 000068x = 0, 000068 × 72001,83 = 807, 2.
V´ ege
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
V´ ege