Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai k¨ ovetkeztet´ esek

Nemline´ aris regresszi´ o

Feladatok

V´ ege



Feladatok

[GVMGS11MNC] Gazdaságstatisztika 10. el˝oadás: 9. Regresszi´ oszám´ıtás II.

´ Lászl´ K´ oczy A. o [email protected]

Keleti K´ aroly Gazdas´ agi Kar – V´ allalkoz´ asmenedzsment Int´ ezet

V´ ege



Feladatok

A standard lineáris modell

A lineáris sztochasztikus kapcsolat: M(Y |X = Xi ) = β0 + β1 · Xi . Y¯i = β0 + β1 · Xi , azaz ha Yi = β0 + β1 · Xi + Ei , akkor M(E ) = 0. minta alapján ηi = β0 + β1 Xi + εi , εi valósz´ın˝ uségi változ´ o. Bármi lehet! Standard lineáris modell 1 ε (illetve η ) norm´ alis eloszlás´ uak i i 2

cov (εi , εj ) = 0 ha i 6= j

3

M(εi ) = 0

4

D(εi ) = σ (f¨ uggetlen Xi -t˝ ol)

V´ ege



Feladatok

Becslés során elkövetett hibák Kétféle hiba: 1

Mintából becs¨ ult paraméterek; becslés tehát nem pontos.

2

Az ismérvek között csak sztochasztikus kapcsolat van, nem f¨ uggvényszer˝ u, csak azt a részt kapjuk meg Y -ból, ami X -b˝ol következik.

Ha Xi rögz´ıtett, a becsl˝ of¨ uggvények P P P P 2 ( η ) Xi − ( Xi ) ( Xi ηi ) i ˆ β0 = P P n Xi2 − ( Xi )2 P P P P ¯ )2 ηi (X − X n X η − ( X ) ( η ) i i i i i βˆ1 = = P P P ¯ )2 (Xi − X n Xi2 − ( Xi )2 Mindkett˝o az ηi valósz´ın˝ uségi változ´ ok lineáris kombinációja.

V´ ege



Feladatok

A becsl˝ofüggvények tulajdonságai

1 2

M(βˆ0 ) = β0 , M(βˆ1 ) = β1 – torz´ıtatlanok Szórásuk, azaz a becslés standard hibája megadható: s P X2 P i2 D(βˆ0 ) = σβˆ0 = σ n dX s D(βˆ1 ) = σβˆ1 = σ

3

n

1 P

dX2

A becslés konzisztens.

Itt σ az ε (nem ismert) sz´ orása – k¨ ul¨ on becs¨ ulni kell a mintából.

V´ ege



Feladatok

Minta szórásának becslése

Az elméleti szórás: D(ε) = σε q P 1 (ηi − yî )2 n qP 2 ei Konkrét mintából becs¨ ult sz´ orás: se = n−2 P 2 Itt ei a minimalizálni k´ıvánt négyzet¨ osszeg, n − 2 pedig a szabadságfokok száma ⇒ torz´ıtatlan becslés. A mintából becs¨ ult sz´ orás: σ ˆε =

V´ ege



Feladatok

A regressziós becslés abszolút és relat´ıv hibája Abszol´ ut hiba Kifejezi, hogy a regresszi´ os becslések (ˆ yi ) átlagosan mennyivel térnek el az eredményváltoz´ o (yi ) megfigyelt értékeit˝ol. √ Itt se , ld. fent, vagy se = sy 1 − r 2 Relat´ıv hiba Kifejezi, hogy a regresszi´ os becslések átlagosan hány %-kal térnek el az eredményváltozó megfigyelt értékeit˝ ol. Itt: Ve = sy¯e . A gyakorlatban 10% alatti relat´ıv hiba esetén j´ o a regressziós becslés.

V´ ege



Feladatok

A paraméterek intervallumbecslése

Belátható, hogy β1 − βˆ1 σβˆ1 n − 2 szabadságfok´ u Student t-eloszlást k¨ ovet. 1 − α valósz´ın˝ uségi szint esetén β1 ∈ b1 − t(1− α ) sb1 ; b1 + t(1− α ) sb1 2 2 β0 ∈ b0 − t(1− α ) sb0 ; b0 + t(1− α ) sb0 2

2

V´ ege



Feladatok

V´ ege

Regressziós becslések és prognózisok A regressziós f¨ uggvény minden x0 értékre kidob egy yˆ0 -t. Ez mit jelent? ¯0 = M(Y |X = X0 ) becslése. 1 Az Y 2 Annak becsl´ ese, hogy (X0 , Y0 ) minta esetén y0 mekkora lehet. 1. Az x0 értékhez tartoz´ o feltételes várhat´ o érték intervallumbecslése. A yˆ0 sz´ orása meghatározhat´ o (itt: konkrét mintára): s 1 (x0 − x¯)2 +P syˆ0 = se n (x − x¯)2 (Ez x¯ k¨ ozelében a legjobb, távolodva romlik a becslés.) A konfidenciaintervallum pedig: s yˆ0 − t(1− α ) se 2

1 (x0 − x¯)2 +P ; yˆ0 + t(1− α ) se 2 n (x − x¯)2

s

1 (x0 − x¯)2 +P n (x − x¯)2

!



Feladatok

V´ ege

Regressziós becslések és prognózisok 2. Az egyedi y0 becslések konfidenciaintervalluma ... ha egy hiányzó Y0 adatot k´ıvánunk becs¨ ulni adott X0 helyen. Y0 = βˆ0 + βˆ1 X1 + ε0 = yˆ0 + ε0 σY2 0

= σyˆ20 + σe2

A Y0 szórása meghatározhat´ o (itt: konkrét mintára): s 1 (x0 − x¯)2 +P +1 syˆ0 = se n (x − x¯)2 A pedig: q q konfidenciaintervallum (x0 −¯ x )2 1 1 P yˆ0 − t(1− α ) se n + (x−¯ + 1; y ˆ + t α se 0 2 n + x) (1− ) 2

2

(x0 −¯ x )2 P (x−¯ x )2

+1



Feladatok

A regressziófüggvény hipotézis-ellen˝orzése

A regresszióf¨ uggvény mintáb´ ol származik, kérdés érvényes-e a sokaságra is. 1

Szignifikáns-e β1 ?

2

Szignifikáns-e maga a regresszi´ of¨ uggvény?

(két ismérv esetén a kett˝ o ugyanaz)

V´ ege



Feladatok

A regressziós együttható (β1 ) tesztelése Feltételezz¨ uk, hogy nincs korreláci´ o, a tapasztalati paraméter b1 0-tól való eltérését a véletlen okozza. H1 : β1 6= 0.

H0 : β1 = 0,

n elem˝ u minta esetén

β1 − βˆ1 σ ˆβˆ1

n − 2 szabadságfok´ u t-eloszlást k¨ ovet. α szignifikanciaszinten elfogadjuk, ha |t| =

|b1 | (n−2) < t1− α 2 sb1

V´ ege



Feladatok

Varianciaanal´ızis a regressziószám´ıtásban

yi = yî + ei

1

yi : az Y megfigyelt értéke (X = xi )

2

yî = b0 + b1 xi : az xi -hez tartoz´ o regresszi´ os becslés

3

ei : maradéktag v. reziduum.

Pn

i=1 (yi

P P − y¯ )2 = ni=1 (ˆ yi − y¯ )2 + ni=1 (yi − yˆ )2

SST

=

SSR

+

SSE reziduális négyzet¨ osszeg SSE = 0 ⇒ f¨ uggvényszer˝ u kapcsolat. SSE 6= 0 ⇒ sztochasztikus kapcsolat.

V´ ege



Feladatok

V´ ege

Varianciaanal´ızis 2

A szórásnégyzet forrása

EltérésSzabadságfok négyzet¨ osszeg P Regresszió SSR = (ˆ yi − y¯ )2 1 P 2 Hibatényez˝o SSE = (yi − yˆ ) n−2 P Teljes SST = (yi − y¯ )2 n−1 Hipotézisvizsgálat: tagadjuk a regresszi´ o létezését. H0 : β1 = 0

H1 : β1 6= 0

és

“SSR = k¨ uls˝o; SSE = bels˝ o sz´ orás” ⇒ F -pr´ oba. Konkrét minta esetén: F0 =

SSR 1 SSE n−2

(1)

∼ F(n−2)

´ Atlagos négyzet¨ osszeg P (ˆ yi −¯ y )2 P 1 (yi −ˆ y )2 n−2

−



Feladatok

Szorosság mérése varianciaanal´ızis-tábla alapján

Determinációs egy¨ utthat´ o (r 2 ) A regresszió által megmagyarázott eltérés-négyzet¨ osszegnek az y teljes eltérés-négyzetösszegéhez val´ o aránya. r2 =

SST − SSE SSE SSR = =1− SST SST SST

V´ ege



Feladatok

Diagnosztikai tesztek

Diagnosztikai teszt ´ ekeli a modellt; levont k¨ Ert´ ovetkeztetések val´ odiságát támasztja alá. A reziduális változ´ o tapasztalati értékeit (ei ) vizsgáljuk. Megfelel az elméleti εi -nek – hasonl´ o tulajdonságokkal kell, hogy rendelkezzen. Például: a hibatényez˝ o sz´ orása álland´ o ⇒ nem jó, ha n˝o a szórás!

V´ ege



Feladatok

Robusztus becslési módszerek

Mérési hibák: pontatlan adatok, el´ırás, stb. ⇒ robusztus becslési m´ odszerek: kevésbé érzékenyek. Nyesett átlag: elhagyunk nα megfigyelést a rangsor két szélén, majd u ´jra becslés.

V´ ege



Feladatok

Nemlineáris regresszió

Ha az X változó hatása Y -ra f¨ ugg X nagyságát´ ol ⇒ nemlineáris regresszió. Fontosabb t´ıpusai: hatványkitev˝os exponenciális parabolikus hiperbolikus

A paraméterek meghatározására – legkisebb négyzetek módszere.

V´ ege



Feladatok

Parabolikus regressziófüggvény yˆ = b0 + b1 x + b2 x 2 Az eltérés-négyzetösszeg: X X f (b0 , b1 , b2 ) = (yi − yî )2 = (yi − b0 − b1 xi − b2 xi2 )2 A 0-val egyenl˝ové tett b0 , b1 , b2 szerinti parciális deriváltakból kapjuk a normálegyenleteket: P P P 2 y =b n +b x +b 0 1 2 i i P xi3 P P P 2 P x2i y1 =b0 P xi2 +bi P xi 3 +b2 P xi4 xi yi =b0 xi +b1 xi +b2 xi Mikor használjuk? Ha a két változ´ o k¨ oz¨ otti ¨ osszef¨ uggés iránya megváltozik Gyakori, hogy azt vizsgáljuk, hol maximális.

V´ ege



Feladatok

Hatványkitev˝os regressziófüggvény

yˆ = b0 x b1 log yˆ = log b0 + b1 log x ⇒ lineáris kapcsolat log x és log y k¨ oz¨ ott.

Megoldás, mint a lineáris regresszi´ onál A hatványkitev˝o a rugalmassági egy¨ utthat´ oval azonos. 1%-kal nagyobb x értékhez hány %-kal nagyobb y tartozik.

V´ ege



Feladatok

Exponenciális regressziófüggvény

yˆ = b0 b1 x log yˆ = log b0 + log b1 · x ⇒ lineáris kapcsolat x és log y k¨ oz¨ ott.

A b1 arra ad választ, hogy a tényez˝ ováltoz´ o egységnyi növekedése hányszorosára változtatja az eredményváltoz´ o értékét.

V´ ege



Feladatok

9.8. Feladat

19 ország adatai alapján vizsgálták az 1 lakosra jutó GDP, X és az 1000 lakosra jutó személygépkocsik száma, Y k¨ oz¨ otti összef¨ uggést.

Szám´ıtási eredmények: Lineáris regresszióf¨ uggvény: yˆ = −83, 4 + 0, 0935x. A megfigyelt változók sz´ orásai: σ(x) = 1149; σ(y ) = 120, 5. P P P 2 = 107, 5812, lg y = 44, 7463, P lg x = 67, 57, (lg y ) P (lg x lg y ) = 160, 0585, (lg x)2 = 240, 8056.

V´ ege



Feladatok

9.8. Feladat

Feladat: a) Milyen szoros a kapcsolat a két ismérv között? b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? ´ c) Irjuk fel a hatványkitev˝ os regresszi´ o normálegyenleteit és szám´ıtsuk ki a paramétereket! ´ d) Ertelmezz¨ uk mindkét regresszi´ of¨ uggvény b1 paraméterét! e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jut´ o GDP-mutat´ oja 7200 dollár!

V´ ege



Feladatok

9.8. Feladat – Megoldás a) Milyen szoros a kapcsolat a két ismérv között? A kapcsolat szorosságát a kovarianciával, vagy lineáris korrelációs egy¨ utthatóval mérhetj¨ uk. Tudjuk, hogy β1 =

cov(ξ, η) D 2 (ξ)

cov(ξ, η) = β1 D 2 (ξ) cov(ξ, η) = 0, 0935 × 11492 = 123439 cov(ξ, η) R(ξ, η) = D(ξ)D(η) 123439 R(ξ, η) = = 89, 1% 1149 × 120, 5

V´ ege



Feladatok

9.8. Feladat – Megoldás

b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? A determinációs egy¨ utthat´ o (r 2 ) határozza meg. r 2 = R 2 (ξ, η) = 0, 8912 = 79, 5%. Az X ismérv az Y szórását 79,5%-ban határozza meg.

V´ ege



Feladatok

9.8. Feladat – Megoldás c) Írjuk fel a hatványkitev˝ os regresszi´ o normálegyenleteit és szám´ıtsuk ki a paramétereket! Hatványkitev˝os regresszi´ of¨ uggvény:ˆ y = b0 x b1 azaz lg yˆ = lg b0 + b1 lg x. Normálegyenletek: X X lg yi = n lg b0 + b1 lg xi X X X lg xi lg yi = lg b0 lg xi + b1 lg xi2 44, 75 = 19 lg b0 + 67, 57b1 160, 06 = 67, 57 lg b0 + 240, 81b1 b1 = 1, 83, lg b0 = −4, 165, azaz b0 = 0, 000068, ´ıgy yˆ = 0, 000068x 1,83 .

V´ ege



Feladatok


´ d) Ertelmezz¨ uk mindkét regresszi´ of¨ uggvény b1 paraméterét! Lineáris regresszió: Ha a GDP 1000 dollárral n˝o, akkor 1000 lakosonként 93,5 aut´ oval t¨ obb lesz. Hatványkitev˝os regresszi´ o: Ha a GDP 1%-kal n˝o, (kb.) hány %-kal n˝o az 1000 lakosra jut´ o gépkocsik száma.

V´ ege



Feladatok


e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jut´ o GDP-mutat´ oja 7200 dollár! Lineáris regresszió: yˆ = −83, 4 + 0, 0935x = −83, 4 + 0, 0935 × 7200 = 589, 8. Hatványkitev˝os regresszi´ o: 1,83 yˆ = 0, 000068x = 0, 000068 × 72001,83 = 807, 2.

V´ ege



Feladatok

V´ ege

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Recommend Documents