Kétértékű függő változók, maximum likelihood becslés Mikroökonometria, 7. hét Bíró Anikó
Kétértékű magyarázó változók • • • •
Lásd: Bevezetés az ökonometriába Kvalitatív információk OLS becslés használható Értelmezés más: • Eltérő csoportátlagok • Eltérő tengelymetszet • Eltérő meredekség (interakció) • Hatásvizsgálatok
Kétértékű függő változó • •
Példák: munkanélküliség (egyéni), csőd (vállalati), exportálás (vállalati) modellezése Lineáris regressziós modell: y = β0 + β1 x1 +…+ βk xk + u E(y|x) = β0 + β1 x1 +…+ βk xk Pr(y=1|x) = β0 + β1 x1 +…+ βk xk → Lineáris valószínűségi modell (LPM)
Lineáris valószínűségi modell • •
Együtthatók értelmezése: xj egységnyi változásának hatása y bekövetkeztének valószínűségére, ceteris paribus ∆Pr(y=1|x) = βj ∆xj OLS becslés használható, de: • Becsült érték 0-1 intervallumon kívül eshet! • Linearitás egyszerűsítő feltevés! • Heteroszkedaszticitás
LPM – heteroszkedaszticitás • • •
Bináris változó: Var(y|x) = Pr(y=1|x) (1 – Pr(y=1|x)) Gauss-Markov feltevések sérülnek OLS becslés torzítatlan, de standard hiba szokásos becslése torzított • Standard hibát korrigálni kell: pl. White SE
Alkalmazás: hatásvizsgálatok • Ideális elemzési keret: • „Kezelés” véletlenszerű • „Kezelés” hatása becsülhető OLS regresszióval • Probléma: önkijelölés, diszkrimináció stb.
Ez vizsgálható, pl.: hitelprogram, etnikai diszkrimináció tesztelése (lineáris valószínűségi modell): approved = β0 + β1 nonwhite + β1 inc + … + u H0: β1 = 0 H1: β1 < 0
Maximum likelihood becslés Emlékeztető: y1, …, yn véletlen minta fθ(y) eloszlásból – együttes eloszlás: szorzat ML módszer: adott mintaelemek (yi) alapján keressük azt a θ paramétert, aminél a minta „előfordulási valószínűsége” a lehető legnagyobb: n
L(θ ) = ∏ fθ ( yi ) → max i =1
n
l (θ ) = log L(θ ) = ∑ log fθ ( yi ) → max i =1
∂l =0 ∂θ
ML becslés: lineáris regresszió, normális eloszlású hibatagok n
L(α , β , σ ) = ∏ i =1
− ( yi − α − βxi )2 1 ⋅ exp 2σ 2 2π σ n
l (α , β , σ ) = log L(α , β , σ ) = C − n log σ − n
∂l = ∂α
∑ 2 ⋅ (y i =1
i
2σ 2
n
∂l = ∂β
∑ 2 ⋅ (y i =1
− α − βxi )
i
=0
− α − β xi ) ⋅ xi 2σ 2
=0
∑ (y i =1
− α − β xi )
2
i
2σ 2
Kétértékű függő változók • • •
LPM fő probléma: becsült érték kívül eshet 0-1 intervallumon Alternatíva: logit és probit modellek Valószínűség modellezése: Pr(y=1|x) = G(β0 + xβ), ahol 0
Logit modell • •
G(z) választása: logisztikus függvény G(z) = exp(z)/[1 + exp(z)] = Λ(z) → Logit modell vagy logisztikus modell • z-ben növekvő, • z=0-nál legmeredekebb, • G(z)→0 ha z →-∞, G(z)→1 ha z →+∞
Logisztikus függvény
Probit modell • G: standard normális kumulatív eloszlásfüggvény • G(z) = Φ(z) ≡ ∫φ(v)dv, ahol φ(z) a standard normális eloszlás: φ(z) = (2π)-1/2exp(-z2/2) → Probit modell • z-ben növekvő, • z=0-nál legmeredekebb, • G(z)→0 ha z →-∞, G(z)→1 ha z →+∞
Látens változók modellje • •
Feltevés: létezik meg nem figyelt y* változó, a 0-1 döntés ennek értékétől függ y* = β0 +xβ β + e, megfigyelt értékek: • y = 1, ha y* > 0, • y = 0, ha y* ≤ 0 Indexfüggvény: y = 1[y* > 0]
Látens változók modellje, folyt. Feltevés: e eloszlása logisztikus vagy standard normális • Mindkettő eloszlás szimmetrikus 0-ra β)) = Pr(y=1|x) = Pr(y*>0|x) = Pr(e>-(β0 +xβ = 1-G[-(β 0 +xβ β)] = G(β0 +xβ β)
Együtthatók értelmezése • Látens változóra hatás, de: • Mi a látens változó mértékegysége? • Hogyan értelmezzük a látens változót? • Parciális hatás a fontos: ∂P ( y = 1 | x) = g ( β 0 + xβ ) β j , ∂x j ahol g ( z ) = G ' ( z ) • Együttható előjele = parciális hatás előjele • Parciális hatás függ x-től • Lineáris modell: parciális hatás = együttható (konstans)
Becslés • Nem lineáris modellek – maximum likelihood becslés • OLS nem alkalmazható nemlinearitás miatt • Logisztikus sűrűségfüggvény formulája egyszerűbb • De: ökonometriai szoftverekkel nincs különbség becslési nehézségben • Nincs általános preferencia egyik vagy másik modell mellett
ML becslés • • •
y megfigyelésének valószínűsége: f(yi|xi,β)=[G(xiβ)] yi [1 - G(xiβ)]1- yi, y = 0 vagy 1 i-dik megfigyeléshez tartozó log likelihood: li(β)=yi log G(xiβ) + (1- yi)log[1 - G(xiβ)] Log likelihood függvény: L(β) = Σi li(β) L(β) → max.
ML becslés tulajdonságai
Bizonyítás nélkül: Általános feltételek teljesülése esetén: • Konzisztens, aszimptotikusan normális és aszimptotikusan hatásos becslés • Standard hibákat felhasználva szokásos t-teszt és konfidenciaintervallum érvényes
Több változó együttes tesztelése • Wald teszt (lásd: Bev. az ökonometriába) • Maradéktagok négyzetösszegének összehasonlítása korlátozással és anélkül • Likelihood hányados (LR) tesztje: • Log-likelihood függvények összehasonlítása korlátozással és anélkül 2 • LR = 2(Lur – Lr) ~ χ q aszimptotikus χ2 eloszlás q: korlátozások száma LR>0 – miért?
Illeszkedés jósága 1.: Helyes előrejelzések aránya (percent correctly predicted) Becsült érték = 1, ha ˆ ˆ
G ( β 0 + xi β ) > 0.5
egyébként a becsült érték nulla. • Indikátor: %-os aránya a helyes becsléseknek. • Probléma: jó illeszkedést mutathat akkor is, ha pl. minden becsült érték = 0.
Illeszkedés jósága, folyt. 2.: Pszeudo R-négyzet: 2 • Lineáris modelleknél R számítható: 1-SSRUR/SSR0 2 • Pszeudo R egyik lehetséges felírása (McFadden): log likelihood értékek alapján számítjuk: 1 – Lur/Lr • 1 – Lur/Lr>0 – miért? Becsült együtthatók szignifikanciája is mutatja a modell használhatóságát.