Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
GVMST22GNC Statisztika II. 4. el˝oad´as: 9. K´etv´altoz´ os korrel´aci´ o- ´es regresszi´osz´am´ıt´as
´ L´aszl´ K´ oczy A. o
[email protected]
Keleti K´ aroly Gazdas´ agi Kar – V´ allalkoz´ asmenedzsment Int´ ezet
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Korrel´aci´osz´am´ıt´as
Mennyis´egi ism´ervek k¨ oz¨ otti ¨ osszef¨ ugg´es vizsg´alata. Korrel´aci´osz´am´ıt´as Fenn´all-e kapcsolat az ism´ervek k¨ oz¨ ott, milyen er˝ oss´eg˝ u. Regresszi´osz´am´ıt´as ¨ Osszef¨ ugg´esekben rejl˝o tendenci´ak matematikai f¨ uggv´enyekkel val´o le´ır´asa.
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
K´etv´altoz´os korrel´aci´osz´am´ıt´as
Korrel´aci´osz´am´ıt´as Kapcsolat intenzit´as´anak ´es ir´any´anak m´er´ese. A kapcsolat m´er˝osz´amain´al elv´art tulajdons´agok: Ha nincs ¨osszef¨ ugg´es: az ´ert´ek 0. Ha (line´aris) f¨ uggv´enyszer˝ u kapcsolat: az ´ert´ek 1, vagy -1. A kapcsolat szoross´ag´anak m´er˝ osz´amai: 1
Kovariancia
2
Line´aris korrel´aci´os egy¨ utthat´ o
3
Rangkorrel´aci´os egy¨ utthat´ o
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Kovariancia
Kovariancia K´et val´osz´ın˝ us´egi v´altoz´ o, ξ ´es η kovarianci´aja cov (ξ, η) = M([ξ − M(ξ)] · [η − M(η)]) Az ´atlagt´ol val´o elt´er´esek szorzat´anak ´atlaga. Tulajdons´agok 1
cov (ξ, η) = M(ξη) − M(ξ)M(η).
2
Ha ξ, η f¨ uggetlenek cov (ξ, η) = 0. Ford´ıtva NEM igaz!
3
HA ξ, η eloszl´asa k´etv´altoz´ os norm´alis, akkor cov (ξ, η) = 0 ⇔ f¨ uggetlenek.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Kovariancia – sz´am´ıt´as Adott sokas´ag, 2 ism´erv, lehets´eges ´ert´ekei X1 , . . . , Xs ; Y1 , . . . , Yt . Az egy¨ uttes val´osz´ın˝ us´eg pij = P(X = Xi , Y = Yj ); a peremval´osz´ın˝ us´egek pi· = P(X = Xi ), p·j = P(Y = Yj ).
Ekkor cov (X , Y ) =
t X s X
pij Xi Xj − M(X ) − M(Y )
j=1 i=1
ahol M(X ) =
Ps
i=1 pi· Xi ,
M(Y ) =
Pt
j=1 p·j Yj
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Kovariancia – v´eges sokas´ag Adott sokas´ag, 2 ism´erv, lehets´eges ´ert´ekei X1 , . . . , Xs ; Y1 , . . . , Yt . Az egy¨ uttes gyakoris´ag a peremgyakoris´agok f fij pi· = fNi· = gi· , p·j = N·j = g·j . pij = N = gij ;
CXY
=
t s 1 XX 1 fij Xi Xj − 2 N N j=1 i=1
=
t X s X j=1 i=1
=
t X s X j=1 i=1
gij Xi Xj −
s X i=1
¯ Y¯ gij Xi Xj − X
s X
! fi· Xi
i=1
f·j Yj =
j=1
! gi· Xi
t X
t X
j=1
g·j Yj
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Egyedi adatok
Ha minden ´ert´ekp´ar csak egyszer fordul el˝ o Ekkor CXY =
PN N 1 X ¯ )(Yi − Y¯ ) = i=1 dXi dYi (Xi − X N N i=1
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Tulajdons´agok
P
1
El˝ojel´et a
dXi dYi szorzat¨ osszeg el˝ ojele adja meg
2
Elemsz´amt´ol f¨ uggetlen
3
Szorosabb korrel´aci´ o ⇒ nagyobb ´ert´ek
4
Korrel´atlans´ag eset´en CXY = 0
5
Ism´ervek f¨ uggetlens´ege eset´en CXY = 0.
6
Ha CXY 6= 0 ´ert´eke f¨ ugg a m´ert´ekegys´egt˝ ol ⇒ norm´alt (0 ´es 1 k¨ oz¨ otti) m´er˝ osz´amot keres¨ unk.
7
Mennyi a maxim´alis ´ert´ek??
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Line´aris kapcsolat
Tegy¨ uk fel, hogy line´aris a kapcsolat X ´es Y k¨ oz¨ ott: Yi = a + b · Xi ¯ dYi = Yi − Y¯ = (a + b · Xi ) − (a + b · Xi ) = b · dXi 1 PN Ebb˝ol: |CXY | = N i=1 dXi dYi = σX · σY .
Ford´ıtva is igaz! Ha |CXY | = σX · σY , a kapcsolat line´aris.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Line´aris korrel´aci´os egy¨utthat´o Korrel´aci´os egy¨ utthat´o Sztochasztikus kapcsolatok szoross´ag´at m´er˝ o dimenzi´o n´elk¨ uli m´er˝osz´am.
Line´aris (Pearson-f´ele) korrel´aci´ os egy¨ utthat´ o R(ξ, η) =
cov (ξ, η) D(ξ)D(η)
0 ≤ |R(ξ, η)| ≤ 1 Szoros kapcsolat eset´en |R(ξ, η)| k¨ ozel az 1-hez. Ha R(ξ, η) = 0 akkor f¨ uggetlenek. V´eges sokas´ag eset´en CXY RXY = σX σY
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Line´aris korrel´aci´o becsl´ese ˆ XY = R
1 n
Pn
i=1 ξi ηi
−µ ˆX µ ˆY
σ ˆX σ ˆY
ahol µ ˆX , µ ˆY lehets´eges minta´atlagok σ ˆX , σ ˆY sz´or´asbecsl´esek n a minta elemsz´ama x¯, y¯ a minta´atlagok sx , sy tapasztalati sz´ or´asok Konkr´et minta eset´en: P P 1P xi yi − x¯y¯ dxi dyi xi yi − n¯ x y¯ n qP = qP = qP rxy = P sx sy d2 · d2 x 2 − n¯ x2 y 2 − n¯ y2 xi
yi
i
i
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Rangkorrel´aci´os egy¨utthat´o
line´aris korrel´aci´o ar´anysk´al´an m´erhet˝ o ism´ervek eset´en rangkorrel´aci´o sorrendi (ordin´alis) sk´al´an m´erhet˝o ism´ervek eset´en
ρ becsl˝of¨ uggv´enye: ρˆ
= =
1− 1−
6
PN
6
PN
i=1 (Xi − Yi ) N(N 2 − 1) i=1 (ξi − ηi ) n(n2 − 1)
2
2
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Az elm´eleti regresszi´o “az egyik ism´erv (v´altoz´ o) hogyan hat a m´asikra” Felt´eteles v´arhat´o ´ert´ek Ha ξ ∈ {x1 , . . . , xs } , η ∈ {y1 , . . . , yt } diszkr´et val´ osz.-i v´altoz´ok, hη (xi ) = M (η|ξ = x1 ) = M (η|x1 ) =
t X
yj P(η = yj |ξ = xi ) =
j=1
az η v´arhat´o ´ert´eke a ξ = xi felt´etel eset´en. A hη az η val´osz´ın˝ us´egi v´altoz´ o ξ-re vonatkoz´ o regresszi´os f¨ uggv´enye. Grafikonja diszkr´et pontokb´ ol ´all. Ha ξ, η folytonos val´osz´ın˝ us´egi v´altoz´ ok, Z ∞ hη = M(η|ξ = x) = yf (y |x)dy −∞
t X pij pi· j=1
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Az elm´eleti regresszi´o – tulajdons´agok
Ha ξ ´es η f¨ uggetlenek, akkor hη (x) = M(η|ξ = x) = M(η) f¨ uggetlen x-t˝ol. Az egy¨ uttes eloszl´as ismeret´eben a regresszi´ of¨ uggv´eny egy´ertelm˝ uen megadhat´ o Ha ξ, η egy¨ uttes eloszl´asa norm´alis, egym´asra vonatkoz´o regresszi´of¨ uggv´enyeik line´arisak: hη (x) = β0 + β1 x, ahol cov (ξ, η) M(ξ) D 2 (ξ) M(ξη) − M(ξ)M(η) cov (ξ, η) = . 2 2 M(ξ ) − M (ξ) D 2 (ξ)
β0 = M(η) − β1 =
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A tapasztalati regresszi´o
Diszkr´et ´ert´ekek eset´en pij
= P(X = Xi |Y = Yj ) =
pi· = P(X = Xi ) = ´ıgy hY (Xi ) =
t X j=1
fij Yj = Y i fi·
ahol Y i , X j r´esz´atlagok.
hX (Yi ) =
s X i=1
fij N
fi· N Xi
fij = Xj f·j
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Brutt´o a´tlagkereset (e Ft)
Brutt´o a´tlagkereset (e Ft)
Tapasztalati regresszi´o – Grafikus ´abr´azol´as
Szolg´alati id˝o
Szolg´alati id˝o
Tapasztalati regresszi´of¨ uggv´eny. A k¨ ul¨onb¨oz˝o ism´erv´ert´ekekre (v. oszt´alyk¨ oz¨ okre) sz´amolt r´esz´atlagok (hX (Yi )) alkotta f¨ uggv´eny.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Brutt´o a´tlagkereset (e Ft)
A tapasztalati regresszi´of¨uggv´eny tulajdons´agai
Szolg´alati id˝o
Korrel´aci´os kapcsolat eset´en a pontok a regresszi´of¨ uggv´eny k¨or¨ ul sz´or´odnak. Kisebb sz´or´od´as ⇒ szorosabb kapcsolat. F¨ uggv´enyszer˝ u kapcsolat eset´en a pontok a f¨ uggv´enyre esnek F¨ uggetlens´eg eset´en a f¨ uggv´eny konstans.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A regresszi´of¨uggv´eny param´etereinek meghat´aroz´asa A f¨ uggv´enykapcsolatot v. k¨ ozel´ıt´es´et nem mindig egy egyenes ´ırja le a legjobban. 1
A regresszi´of¨ uggv´eny “szab´alytalan”
2
A regresszi´of¨ uggv´eny ismeretlen.
⇓ Analitikus f¨ uggv´ e nyt v´ a lasztunk melyre M [ξ − hξ (η)]2 ´es M [η − hη (ξ)]2 minim´alis. Ez az analitikus regresszi´of¨ uggv´eny. line´aris regresszi´o hatv´anykitev˝os (v. multiplikat´ıv) regresszi´ o exponenci´alis regresszi´ o parabolikus regresszi´ o hiperbolikus regresszi´ o
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A legkisebb n´egyzetek m´odszere A legkisebb n´egyzetek m´ odszere Line´aris regresszi´o; a f¨ uggv´eny hY (x) = y = β0 + β1 x ahol β0 , β1 minimaliz´alja E (β0 , β1 )-t.
E (β0 , β1 ) =
N X
Ei2 =
N X (Yi −β0 −β1 Xi )2
i=1
β0 = β1 =
i=1
Brutt´o a´tlagkereset (e Ft)
A f¨ uggv´enyt´ıpus ut´an meg kell hat´arozni param´etereit is.
Szolg´alati id˝o
P P Xi2 − ( Xi ) ( ) Xi Yi ¯ CXY = Y¯ − X P 2 P 2 σX2 N Xi − ( Xi ) P P P N Xi Yi − ( Xi ) ( Yi ) CXY = 2 P 2 P 2 σX N Xi − ( Xi )
(
P
Yi )
P
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A regresszi´of¨uggv´eny ´ertelmez´ese
A regresszi´os egyenes egyenlete y − Y¯ = “l´enyeg´eben” y = CXY x
CXY σX2
¯ ), (x − X
X a f¨ uggetlen-, v. magyar´az´ ov´altoz´ o, Y a f¨ ugg˝o- v. eredm´enyv´altoz´o β1 az egyenes meredeks´ege; X egys´egnyi v´altoz´asa mekkora v´altoz´ast okoz Y -ban β0 a f¨ uggv´eny ´ert´eke az X = 0 helyen (pl p´alyakezd˝ok fizet´ese).
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A line´aris regresszi´o egy¨utthat´oinak becsl´ese A (torz´ıtatlan!) becsl˝of¨ uggv´enyek P 2 P P P ξi − ( ξi ) ( ξi ηi ) ( ηi ) ˆ β0 = P P n ξi2 − ( ξi )2 P P P n ξi ηi − ( ξi ) ( ηi ) ˆ β1 = P P n ξi2 − ( ξi )2 Konkr´et mint´aban b0 = b1 =
P P 2 P P ( yi ) xi − ( xi ) ( ) xi yi P P n xi2 − ( xi )2 P P P n xi yi − ( xi ) ( yi ) P P n xi2 − ( xi )2
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A norm´alegyenletek megold´asa
Explicit k´eplettel (ld. fent) Transzform´alt norm´alegyenletekkel M´atrixalgebrai m˝ uveletekkel (ez f˝ oleg k´es˝ obb lesz seg´ıts´eg).
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A v´altoz´ok felcser´elhet˝os´ege K¨olcs¨onhat´as eset´en tetsz˝ oleges a v´altoz´ ok szerepe. yˆ = b0 (y |x)P+ b1 (y |x)x d d b1 (y |x) = P dx 2 y x
xˆ = b0 (x|y P ) + b1 (x|y )y d d b1 (x|y ) = P dx 2 y y
2 = b (x|y )b (y |x) A k´et egyenes nem esik egybe. Legyen rxy 1 1
Ha nincs korrel´aci´ o: rxy = b1 = 0, az egyenesek a tengellyel p´arhuzamosak, egym´asra mer˝ olegesek. Line´aris kapcsolat eset´en rxy = 1, ´ıgy b1 (x|y ) = egyenes egybeesik.
1 b1 (y |x) ,
Sztochasztikus kapcsolat eset´en a k¨ ozels´eg a kapcsolat szoross´ag´at´ol f¨ ugg.
a k´et
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A rugalmass´agi egy¨utthat´o (elaszticit´as)
Elaszticit´as Az egyik v´altoz´o relat´ıv v´altoz´asa a m´asik v´altoz´ o milyen m´ert´ek˝ u relat´ıv v´altoz´as´at eredm´enyezi. M´er´es´ere a rugalmass´agi (elaszticit´asi) egy¨ utthat´ o (E ) szolg´al. x E(y |x) = dy · . dx y y -t becs¨ ulj¨ uk, ´ıgy eset¨ unkben Eˆ(y |x) = ddxyˆ · yxˆ . |E | < 1 Y rugalmatlan X v´altoz´asaival szemben |E | = 1 Y ar´anyosan v´altozik X v´altoz´asaival szemben Itt |E | > 1 Y rugalmas X v´altoz´asaival szemben x ˆ E(y |x) = b1 · b0 +b 1x x¯ x¯ Szok´asosan ´atlagpontban vizsg´alva: Eˆ(y |x=¯x ) = b1 · b0 +b ¯ = b1 y¯ 1x
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
A standard line´aris modell
A line´aris sztochasztikus kapcsolat: M(Y |X = Xi ) = β0 + β1 · Xi . Y¯i = β0 + β1 · Xi , azaz ha Yi = β0 + β1 · Xi + Ei , akkor M(E ) = 0. minta alapj´an ηi = β0 + β1 Xi + εi , εi val´osz´ın˝ us´egi v´altoz´ o. B´armi lehet! Standard line´aris modell 1 ε (illetve η ) norm´ alis eloszl´as´ uak i i 2
cov (εi , εj ) = 0 ha i 6= j
3
M(εi ) = 0
4
D(εi ) = σ (f¨ uggetlen Xi -t˝ ol)
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Becsl´es sor´an elk¨ovetett hib´ak K´etf´ele hiba: 1
Mint´ab´ol becs¨ ult param´eterek; becsl´es teh´at nem pontos.
2
Az ism´ervek k¨oz¨ott csak sztochasztikus kapcsolat van, nem f¨ uggv´enyszer˝ u, csak azt a r´eszt kapjuk meg Y -b´ol, ami X -b˝ol k¨ovetkezik.
Ha Xi r¨ogz´ıtett, a becsl˝ of¨ uggv´enyek P P P P 2 ( η ) Xi − ( Xi ) ( Xi ηi ) i ˆ β0 = P P n Xi2 − ( Xi )2 P P P P ¯ )2 ηi (X − X n X η − ( X ) ( η ) i i i i i βˆ1 = = P P P ¯ )2 (Xi − X n Xi2 − ( Xi )2 Mindkett˝o az ηi val´osz´ın˝ us´egi v´altoz´ ok line´aris kombin´aci´oja.
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A becsl˝of¨uggv´enyek tulajdons´agai
1 2
M(βˆ0 ) = β0 , M(βˆ1 ) = β1 – torz´ıtatlanok Sz´or´asuk, azaz a becsl´es standard hib´aja megadhat´o: s P X2 P i2 D(βˆ0 ) = σβˆ0 = σ n dX s D(βˆ1 ) = σβˆ1 = σ
3
n
1 P
dX2
A becsl´es konzisztens.
Itt σ az ε (nem ismert) sz´ or´asa – k¨ ul¨ on becs¨ ulni kell a mint´ab´ol.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Minta sz´or´as´anak becsl´ese
Az elm´eleti sz´or´as: D(ε) = σε q P 1 (ηi − yˆi )2 n qP 2 ei Konkr´et mint´ab´ol becs¨ ult sz´ or´as: se = n−2 P 2 Itt ei a minimaliz´alni k´ıv´ant n´egyzet¨ osszeg, n − 2 pedig a szabads´agfokok sz´ama ⇒ torz´ıtatlan becsl´es. A mint´ab´ol becs¨ ult sz´ or´as: σ ˆε =
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A regresszi´os becsl´es abszol´ut ´es relat´ıv hib´aja Abszol´ ut hiba Kifejezi, hogy a regresszi´ os becsl´esek (ˆ yi ) ´atlagosan mennyivel t´ernek el az eredm´enyv´altoz´ o (yi ) megfigyelt ´ert´ekeit˝ol. √ Itt se , ld. fent, vagy se = sy 1 − r 2 Relat´ıv hiba Kifejezi, hogy a regresszi´ os becsl´esek ´atlagosan h´any %-kal t´ernek el az eredm´enyv´altoz´o megfigyelt ´ert´ekeit˝ ol. Itt: Ve = sy¯e . A gyakorlatban 10% alatti relat´ıv hiba eset´en j´ o a regresszi´os becsl´es.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
A param´eterek intervallumbecsl´ese
Bel´athat´o, hogy β1 − βˆ1 σβˆ1 n − 2 szabads´agfok´ u Student t-eloszl´ast k¨ ovet. 1 − α val´osz´ın˝ us´egi szint eset´en β1 ∈ b1 − t(1− α ) sb1 ; b1 + t(1− α ) sb1 2 2 β0 ∈ b0 − t(1− α ) sb0 ; b0 + t(1− α ) sb0 2
2
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Regresszi´os becsl´esek ´es progn´ozisok A regresszi´os f¨ uggv´eny minden x0 ´ert´ekre kidob egy yˆ0 -t. Ez mit jelent? ¯0 = M(Y |X = X0 ) becsl´ese. 1 Az Y 2 Annak becsl´ ese, hogy (X0 , Y0 ) minta eset´en y0 mekkora lehet. 1. Az x0 ´ert´ekhez tartoz´ o felt´eteles v´arhat´ o ´ert´ek intervallumbecsl´ese. A yˆ0 sz´or´asa meghat´arozhat´ o (itt: konkr´et mint´ara): s 1 (x0 − x¯)2 +P syˆ0 = se n (x − x¯)2 (Ez x¯ k¨ozel´eben a legjobb, t´avolodva romlik a becsl´es.) A konfidenciaintervallum pedig: s yˆ0 − t(1− α ) se 2
1 (x0 − x¯)2 +P ; yˆ0 + t(1− α ) se 2 n (x − x¯)2
s
1 (x0 − x¯)2 +P n (x − x¯)2
!
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Regresszi´os becsl´esek ´es progn´ozisok 2. Az egyedi y0 becsl´esek konfidenciaintervalluma ... ha egy hi´anyz´o Y0 adatot k´ıv´anunk becs¨ ulni adott X0 helyen. Y0 = βˆ0 + βˆ1 X1 + ε0 = yˆ0 + ε0 σY2 0
= σyˆ20 + σe2
A Y0 sz´or´asa meghat´arozhat´ o (itt: konkr´et mint´ara): s 1 (x0 − x¯)2 +P +1 syˆ0 = se n (x − x¯)2 A pedig: q q konfidenciaintervallum (x0 −¯ x )2 1 1 P yˆ0 − t(1− α ) se n + (x−¯ + 1; y ˆ + t α se 0 2 n + x) (1− ) 2
2
(x0 −¯ x )2 P (x−¯ x )2
+1
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A regresszi´of¨uggv´eny hipot´ezis-ellen˝orz´ese
A regresszi´of¨ uggv´eny mint´ab´ ol sz´armazik, k´erd´es ´erv´enyes-e a sokas´agra is. 1
Szignifik´ans-e β1 ?
2
Szignifik´ans-e maga a regresszi´ of¨ uggv´eny?
(k´et ism´erv eset´en a kett˝ o ugyanaz)
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
A regresszi´os egy¨utthat´o (β1 ) tesztel´ese Felt´etelezz¨ uk, hogy nincs korrel´aci´ o, a tapasztalati param´eter b1 0-t´ol val´o elt´er´es´et a v´eletlen okozza. H1 : β1 6= 0.
H0 : β1 = 0,
n elem˝ u minta eset´en
β1 − βˆ1 σ ˆβˆ1
n − 2 szabads´agfok´ u t-eloszl´ast k¨ ovet. α szignifikanciaszinten elfogadjuk, ha |t| =
|b1 | (n−2) < t1− α 2 sb1
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Varianciaanal´ızis a regresszi´osz´am´ıt´asban
yi = yˆi + ei
1
yi : az Y megfigyelt ´ert´eke (X = xi )
2
yˆi = b0 + b1 xi : az xi -hez tartoz´ o regresszi´ os becsl´es
3
ei : marad´ektag v. reziduum.
Pn
i=1 (yi
P P − y¯ )2 = ni=1 (ˆ yi − y¯ )2 + ni=1 (yi − yˆ )2
SST
=
SSR
+
SSE rezidu´alis n´egyzet¨ osszeg SSE = 0 ⇒ f¨ uggv´enyszer˝ u kapcsolat. SSE 6= 0 ⇒ sztochasztikus kapcsolat.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
Varianciaanal´ızis 2
A sz´or´asn´egyzet forr´asa
Elt´er´esSzabads´agfok n´egyzet¨ osszeg P Regresszi´o SSR = (ˆ yi − y¯ )2 1 P 2 Hibat´enyez˝o SSE = (yi − yˆ ) n−2 P Teljes SST = (yi − y¯ )2 n−1 Hipot´ezisvizsg´alat: tagadjuk a regresszi´ o l´etez´es´et. H0 : β1 = 0
H1 : β1 6= 0
´es
“SSR = k¨ uls˝o; SSE = bels˝ o sz´ or´as” ⇒ F -pr´ oba. Konkr´et minta eset´en: F0 =
SSR 1 SSE n−2
(1)
∼ F(n−2)
´ Atlagos n´egyzet¨ osszeg P (ˆ yi −¯ y )2 P 1 (yi −ˆ y )2 n−2
−
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Szoross´ag m´er´ese varianciaanal´ızis-t´abla alapj´an
Determin´aci´os egy¨ utthat´ o (r 2 ) A regresszi´o ´altal megmagyar´azott elt´er´es-n´egyzet¨ osszegnek az y teljes elt´er´es-n´egyzet¨osszeg´ehez val´ o ar´anya. r2 =
SST − SSE SSE SSR = =1− SST SST SST
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Diagnosztikai tesztek
Diagnosztikai teszt ´ ekeli a modellt; levont k¨ Ert´ ovetkeztet´esek val´ odis´ag´at t´amasztja al´a. A rezidu´alis v´altoz´ o tapasztalati ´ert´ekeit (ei ) vizsg´aljuk. Megfelel az elm´eleti εi -nek – hasonl´ o tulajdons´agokkal kell, hogy rendelkezzen. P´eld´aul: a hibat´enyez˝ o sz´ or´asa ´alland´ o ⇒ nem j´o, ha n˝o a sz´or´as!
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Robusztus becsl´esi m´odszerek
M´er´esi hib´ak: pontatlan adatok, el´ır´as, stb. ⇒ robusztus becsl´esi m´ odszerek: kev´esb´e ´erz´ekenyek. Nyesett ´atlag: elhagyunk nα megfigyel´est a rangsor k´et sz´el´en, majd u ´jra becsl´es.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Nemline´aris regresszi´o
Ha az X v´altoz´o hat´asa Y -ra f¨ ugg X nagys´ag´at´ ol ⇒ nemline´aris regresszi´o. Fontosabb t´ıpusai: hatv´anykitev˝os exponenci´alis parabolikus hiperbolikus
A param´eterek meghat´aroz´as´ara – legkisebb n´egyzetek m´odszere.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Parabolikus regresszi´of¨uggv´eny yˆ = b0 + b1 x + b2 x 2 Az elt´er´es-n´egyzet¨osszeg: X X f (b0 , b1 , b2 ) = (yi − yˆi )2 = (yi − b0 − b1 xi − b2 xi2 )2 A 0-val egyenl˝ov´e tett b0 , b1 , b2 szerinti parci´alis deriv´altakb´ol kapjuk a norm´alegyenleteket: P P P 2 y =b n +b x +b 0 1 2 i i P xi3 P P P 2 P xi2y1 =b0 P xi2 +bi P xi 3 +b2 P xi4 xi yi =b0 xi +b1 xi +b2 xi Mikor haszn´aljuk? Ha a k´et v´altoz´ o k¨ oz¨ otti ¨ osszef¨ ugg´es ir´anya megv´altozik Gyakori, hogy azt vizsg´aljuk, hol maxim´alis.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Hatv´anykitev˝os regresszi´of¨uggv´eny
yˆ = b0 x b1 log yˆ = log b0 + b1 log x ⇒ line´aris kapcsolat log x ´es log y k¨ oz¨ ott.
Megold´as, mint a line´aris regresszi´ on´al A hatv´anykitev˝o a rugalmass´agi egy¨ utthat´ oval azonos. 1%-kal nagyobb x ´ert´ekhez h´any %-kal nagyobb y tartozik.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Exponenci´alis regresszi´of¨uggv´eny
yˆ = b0 b1 x log yˆ = log b0 + log b1 · x ⇒ line´aris kapcsolat x ´es log y k¨ oz¨ ott.
A b1 arra ad v´alaszt, hogy a t´enyez˝ ov´altoz´ o egys´egnyi n¨oveked´ese h´anyszoros´ara v´altoztatja az eredm´enyv´altoz´ o ´ert´ek´et.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok
9.8. Feladat
19 orsz´ag adatai alapj´an vizsg´alt´ak az 1 lakosra jut´o GDP, X ´es az 1000 lakosra jut´o szem´elyg´epkocsik sz´ama, Y k¨ oz¨ otti ¨osszef¨ ugg´est.
Sz´am´ıt´asi eredm´enyek: Line´aris regresszi´of¨ uggv´eny: yˆ = −83, 4 + 0, 0935x. A megfigyelt v´altoz´ok sz´ or´asai: σ(x) = 1149; σ(y ) = 120, 5. P P P 2 = 107, 5812, lg y = 44, 7463, P lg x = 67, 57, (lg y ) P (lg x lg y ) = 160, 0585, (lg x)2 = 240, 8056.
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
9.8. Feladat
Feladat: a) Milyen szoros a kapcsolat a k´et ism´erv k¨oz¨ott? b) H´any %-ban j´atszik szerepet az X ism´erv az Y sz´or´as´aban? ´ c) Irjuk fel a hatv´anykitev˝ os regresszi´ o norm´alegyenleteit ´es sz´am´ıtsuk ki a param´etereket! ´ d) Ertelmezz¨ uk mindk´et regresszi´ of¨ uggv´eny b1 param´eter´et! e) Adjunk becsl´est egy olyan orsz´agra, amelynek az 1 lakosra jut´ o GDP-mutat´ oja 7200 doll´ar!
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
9.8. Feladat – Megold´as a) Milyen szoros a kapcsolat a k´et ism´erv k¨oz¨ott? A kapcsolat szoross´ag´at a kovarianci´aval, vagy line´aris korrel´aci´os egy¨ utthat´oval m´erhetj¨ uk. Tudjuk, hogy β1 =
cov(ξ, η) D 2 (ξ)
cov(ξ, η) = β1 D 2 (ξ) cov(ξ, η) = 0, 0935 × 11492 = 123439 cov(ξ, η) R(ξ, η) = D(ξ)D(η) 123439 R(ξ, η) = = 89, 1% 1149 × 120, 5
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
9.8. Feladat – Megold´as
b) H´any %-ban j´atszik szerepet az X ism´erv az Y sz´or´as´aban? A determin´aci´os egy¨ utthat´ o (r 2 ) hat´arozza meg. r 2 = R 2 (ξ, η) = 0, 8912 = 79, 5%. Az X ism´erv az Y sz´or´as´at 79,5%-ban hat´arozza meg.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
9.8. Feladat – Megold´as c) ´Irjuk fel a hatv´anykitev˝ os regresszi´ o norm´alegyenleteit ´es sz´am´ıtsuk ki a param´etereket! Hatv´anykitev˝os regresszi´ of¨ uggv´eny:ˆ y = b0 x b1 azaz lg yˆ = lg b0 + b1 lg x. Norm´alegyenletek: X X lg yi = n lg b0 + b1 lg xi X X X lg xi lg yi = lg b0 lg xi + b1 lg xi2 44, 75 = 19 lg b0 + 67, 57b1 160, 06 = 67, 57 lg b0 + 240, 81b1 b1 = 1, 83, lg b0 = −4, 165, azaz b0 = 0, 000068, ´ıgy yˆ = 0, 000068x 1,83 .
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
9.8. Feladat – Megold´as
´ d) Ertelmezz¨ uk mindk´et regresszi´ of¨ uggv´eny b1 param´eter´et! Line´aris regresszi´o: Ha a GDP 1000 doll´arral n˝o, akkor 1000 lakosonk´ent 93,5 aut´ oval t¨ obb lesz. Hatv´anykitev˝os regresszi´ o: Ha a GDP 1%-kal n˝o, (kb.) h´any %-kal n˝o az 1000 lakosra jut´ o g´epkocsik sz´ama.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
9.8. Feladat – Megold´as
e) Adjunk becsl´est egy olyan orsz´agra, amelynek az 1 lakosra jut´ o GDP-mutat´ oja 7200 doll´ar! Line´aris regresszi´o: yˆ = −83, 4 + 0, 0935x = −83, 4 + 0, 0935 × 7200 = 589, 8. Hatv´anykitev˝os regresszi´ o: 1,83 yˆ = 0, 000068x = 0, 000068 × 72001,83 = 807, 2.
Feladatok
Bevezet´ es
Korrel´ aci´ osz´ am´ıt´ as
K´ etv´ altoz´ os regresszi´ osz´ am´ıt´ as
Statisztikai k¨ ovetkeztet´ esek
Nemline´ aris regresszi´ o
Feladatok