Ökonometria Logisztikus regresszió
Ferenci Tamás1 –
[email protected] 1 Statisztika Tanszék Budapesti Corvinus Egyetem
Nyolcadik fejezet
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Tartalom 1
V. esettanulmány Csődelőrejelzés
2
Bináris eredményváltozó előrejelzés Általános gondolatok
3
Logisztikus regresszió Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Csődelőrejelzés
Csődmodellezési adatbázis Mérlegadataikkal adott cégek alkotják a mintánkat → feladat megmondani, hogy melyik fog – valamilyen vizsgált időhorizonton belül – csődbe menni A demonstráció kedvéért egyszerűsítünk: a mérlegadat csak két (fiktív) változót jelent: „nyereség” és „adósság” Mindkettő kis egész szám, jelzi a megfelelő (nyilván fiktív) jellemzőt Eredményváltozó: csődbe ment-e a cég ténylegesen (ugye a mintában lévő megfigyelési egységekre ismerjük az eredményváltozó tényleges értékét → ez itt múltbeli) Súlyozott adatbázis, n = 50 összesen (A gyakorlaton valós mérlegadatokkal fogunk dolgozni, ez most szemléltető) Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Csődelőrejelzés
Az adatbázis madártávlatból
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Általános gondolatok Az osztályozási feladat
Kvalitatív változó eredményváltozó pozíciójában
Itt a feladat tehát egy „csődbe megy-e vagy sem” jellegű változó modellezése Ez bináris változó → mint az eddig tárgyalt dummy változók, csak ezúttal eredményváltozóként Jelent ez módosulást? (Hiszen például magyarázó változóként mindegy volt, hogy egy változó bináris, az OLS-t nem zavarta, hogy történetesen csak 0 és 1 értékeket vesz csak fel) Most drasztikusan más a helyzet: Y nem modellezhető OLS-sel
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Általános gondolatok Az osztályozási feladat
OLS és a bináris eredményváltozó
Matematikai részletekbe nem megyünk bele Intuitíve: gondoljatok arra, hogy az OLS – elvileg – bármilyen értéket becsülhet −∞ és ∞ között → egy ilyen hogyan lenne értelmezhető egy „csődbe megy-e vagy sem” kérdés válaszaként?! De: mégis lineáris struktúrában fogjuk megoldani a problémát. . . csak trükkösebben alkalmazzuk: bináris Y helyett egy transzformált változóra
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Általános gondolatok Az osztályozási feladat
A mostani feladat általánosabban Tegyük fel, hogy elkészült a bináris Y -ra adott modellünk, és azt előrejelzésre használjuk Vegyük észre, hogy az Y szerinti érték egyfajta csoporttagságot jelent: becsődölő, működő Az előrejelzés ebben a kontextusban lényegében besorolás egy csoportba! Tehát mégegyszer: a megfigyelési egység két csoport valamelyikébe tartozik, mi a csoporttagságával összefüggő adatok alapján tippeljük meg a csoporttagságot Ezt a feladatot általában osztályozásnak (klasszifikáció) nevezik
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Általános gondolatok Az osztályozási feladat
Az osztályozási feladat
A klasszifikáció hatalmas gyakorlati jelentőségű feladat: melyik cég megy csődbe (a mérlegadatai alapján), melyik beteg fog meghalni (a laboreredmények alapján), melyik család vállal 2-nél több gyereket (demográfiai adatok alapján), kit vesznek fel adott munkahelyre (egyéni jellemzők alapján) stb. stb. Ennek legelemibb eszközét fogjuk most tárgyalni Ezen kívül könyvtárnyi további módszer van, melyek a gépi tanulás, még általánosabban a mesterséges intelligencia területéhez tartoznak (az adatbányászat is gyakran vizsgál ilyen problémákat)
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
A feladat átalakítása Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra Az egységes terminológia kedvéért az Y = 1 kimenetetet „siker”-nek, az Y = 0-t „kudarc”-nak nevezzük Először is: nem a siker Y tényét, hanem annak PX feltételes valószínűségét fogjuk modellezni Az alsó index értelme: a siker valószínűsége, feltéve, hogy a magyarázó változók X értékűek (Most – inkább csak jelölési egyszerűsítésként – egy magyarázó változót feltételezünk, többre teljesen hasonlóan → minta X vektor lenne) Azaz precízen: PX = P (Y = 1|X ) Ezzel a {0, 1} változó helyett egy [0, 1]-on lévőt kell modellezni Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
A feladat további átalakítása Ez persze még mindig kevés, ezért újabb transzformációt alkalmazunk Odds (esélyhányados): a siker valószínűsége a kudarc valószínűségéhez viszonyítva A kudarc feltételes valószínűségét jelöljük QX = 1 − PX -szel Ekkor PX PX = oddsX = QX 1 − PX És fordítva (megoldva ezt PX -re): PX PX PX = = = 1 QX + PX (1 − PX ) + PX PX /QX oddsX = = 1 + PX /QX 1 + oddsX
PX =
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
És még egy átalakítás Az odds már a [0, ∞) intervallumon van Majdnem jó, egy utolsó trükk: bevezetjük a logit fogalmát, mint log-odds: logitX = ln oddsX És ez már a (−∞, ∞)-n van (és szimmetrikusabbá is tettük a siker és kudarc eloszlását rajta)! Na, ezt fogjuk lineáris struktúrával modellezni! logitX = α + βX A módszer neve: logit regresszió, vagy logisztikus regresszió
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
A logisztikus regresszió visszafejtése Játszuk el mindezt visszafelé, feltéve, hogy α és β már ismert: logitX = α + βX oddsX = e α+βX PX =
e α+βX 1 + e α+βX
. . . tehát α és β ismeretében egyszerű algebrai műveletekkel kapjuk a siker valószínűségeit És az utolsó lépés: hogy becsüljük α-t és β-t (ill. általában β-kat)? Sajnos az OLS – ahogy már mondtuk – nem jó, új módszer kell: maximum likelihood (ML) becslés Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Pár szó általában az ML-becslésről Legegyszerűbb eset: egyetlen sokasági paraméter becslése mintából (pl. sokasági várhatóérték) Alapötlet: ha tudnánk, hogy mennyi a sokasági paraméter értéke, meg tudnánk mondani minden egyes mintára, hogy mekkora valószínűséggel kapjuk épp azt a mintát véletlen mintavétel eredményeképp Mit jelent az, hogy „mekkora valószínűséggel kapjuk a mintát”? → legegyszerűbb függetlenség feltételezésével: ekkor a konkrét (kezünkben lévő) minta megkapásának valószínűsége az egyes mintaelemek megkapásának valószínűségeinek szorzata Például, ha 3 elemű x mintát veszünk, melyek elemei 0,5, 2, −0,2, akkor P (X = x) = P (X1 = 0,5) · P (X2 = 2) · P (X3 = −0,2) Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Pár szó általában az ML-becslésről Ennyi pontosítás után rendben vagyunk, gondolhatnánk, hiszen ha ismernénk a sokasági paraméter értékét (az egyetlen dolgot, ami ismeretlen volt!), akkor azt valóban meg tudnánk mondani, hogy mekkora valószínűséggel kapunk egy adott elemet De valójában a kérdés így pontatlan: folytonos sokaság esetén minden mintaelem valószínűsége nulla (P (X = x ) = 0, pl. P (X1 = 0,5) = 0 a pdf folytonossági pontjában!) Ötlet: ne is törődjünk ezzel az apró bökkenővel, használjuk akkor is a sűrűségfüggvény helyettesítési értékét a „valószínűség” gyanánt (intuitív indoklás: a pont, pl. itt a 0,5 kis környezetébe esés valószínűsége arányos ezzel az értékkel) Itt már a valószínűséget idézőjelbe kellett tennünk (a pdf helyettesítési értéke nem valószínűség, pl. simán lehet 1-nél nagyobb is!), ezért inkább új szót használunk rá: likelihood Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
A likelihoodról Nézzünk erre egy példát: 3 elemű minta standard normális eloszlásból; mekkora a valószínűsége, hogy a 3 elem 0,5, 2, −0,2? Nulla! (Ugyebár. . . ) És a likelihoodja? L (x) = fX (0,5) · fX (2) · fX (−0,2) , ahol X ∼ N (0, 1) és ezért fX (x ) = φ0,1 (x ), ahol φ a normális eloszlás pdf-e Q Figyelem, ez a szorzat felírás (általában: L (x) = ni=1 fX (xi )) csak fae esetre működik, nyilván Világos, hogy a 3, 2,8, 3,5 mintának sokkal kisebb a likelihood-ja N (3, 1) sokasági eloszlást feltételezve (tehát ha fX (x ) = φ3,1 (x )) akkor persze épp fordítva Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Az ML-becslés
És most fordítsuk meg a logikát: csak a mintát ismerjük, de a sokasági paramétert nem Minden sokasági paraméterhez meg tudjuk mondani, hogy fennállása esetén mekkora likelihood-ú, hogy épp azt az adott mintát kapjuk Ha tippelnünk kellene, akkor tippeljük azt, hogy az a sokasági paraméter áll fenn, ami mellett ez a likelihood a maximális! (Totálisan egybevág a józan paraszti ésszel.) Ennyi, ez a maximum likelihood (ML) becslés!
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
LR modell becslése Minden α, β-hoz meghatározható a minta (itt: adatbázisunk) likelihood-ja (precízen: adott α, β mellett mekkora likelihood-dal jött volna ki a mintánk) Ezt fogjuk α, β-ban maximalizálni Kérdés: hogyan kapjuk a minta likelihood-ját? Annyira nem nehéz, hiszen egy mintaelemre a kijövetelének valószínűsége PX (ha az eredményváltozója 1), QX (ha eredményváltozója 0), mely PX és QX értékek kiszámíthatóak α, β-hoz (már láttuk) Már csak az egész mintára (nem egyes mintaelemekre) kell kiszámítani, itt függetlenség feltételezésével élünk
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Az egész minta likelihoodja
Ferenci Tamás –
[email protected]
Ökonometria
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
A becslési feladat Az egész minta likelihood-ja tehát: Y
L (α, β) =
Yi =1
Y
PX ,i
QX ,i
Yi =0
Ezzel a megoldandó feladat: max L (α, β) α,β
E helyett a gyakorlatban inkább a vele ekvivalens min −2 ln L (α, β) α,β
feladatot oldjuk meg (nem csak numerikus okokból) Ennek megoldása szolgáltatja a LR modell paramétereinek becslését Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Elemzés
Értelmezzük az együtthatókat: e α+β(X +1) e α+βX +β e α+βX e β oddsX +1 = = = = eβ oddsX e α+βX e α+βX e α+βX Ezért az e β -kat is meg szokták adni a programok („exp. coeff”) Marginális hatás: dPX = βPX QX dXj
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Előrejelzés
Még egy megfontolást kell tenni: csak csődvalószínűséget kaptunk. . . de az előrejelzésben konkrét kimenet kell! Mikor soroljuk becsődölőbe? Ha ez a valószínűség 0,5-nél nagyobb? 0,1-nél? 0,99-nél. . . ? Jelölje ezt a határt C (cut-off point, cut value): b =1:P >C Y X
Ekkor különböző C -khez különböző konkrét klasszifikációk
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
C hatása a klasszifikációra
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
A klasszifikáció jóságának mérése Legalapvetőbb eszköz a klasszifikációs mátrix: Pred Y 1 0 Obs. Y 1 6 1 0 5 38 Főátlóban a helyes osztályozások, ezek aránya a helyes 6+38 = 0,88) osztályozási ráta (itt 6+1+5+38 Mellékátlóban: első- és másodfajú hibák (specificitás, szenzitivitás) Gondoljuk végig, hogyan változik ezek aránya C növelésére, ill. csökkentésére
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
C megválasztása a klasszifikációs mátrix alapján Ha tudjuk, hogy az egyes hibák milyen „költséget” jelentenek, akkor analitikusan választhatunk optimális C -t Veszteség-mátrix: 0 1 1 0 1 0 0,2 -0,2 Ezzel az előző klasszifikációs mátrix költsége: 6 · 0 + 1 · 1 + 5 · 0,2 + 38 · (−0,2) = −5,6 Azt a C -t választjuk, aminél ez minimális! (Ez nem becslési feladat) Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Modelljellemzés pszeudo-R 2 mutatóval Az OLS-nél látott R 2 -hez hasonló elvű („hol járunk az úton?”) mutató szeretnénk LR-re is Az ESS helyett itt a −2 ln L jellemzi a modellt Mi a tökéletes modell? → PX = 1 ha Y = 1 és QX = 1 ha Y = 0 → mennyi ennek a likelihoodja? Épp 1, −2 ln L = 0 Az üres – semmilyen magyarázó változót nem tartalmazó modell – −2 ln L-je analitikusan meghatározható (analóg a helyzet az OLS-sel) Az alapján a McFadden-féle pszeudo-R 2 : R2 =
(−2 ln Lnull ) − (−2 ln Ltargy ) −2 ln Lnull
Ferenci Tamás –
[email protected]
Ökonometria
V. esettanulmány Bináris eredményváltozó előrejelzés Logisztikus regresszió
Alapfogalmak bevezetése ML-becslés Logisztikus regresszió becslése és jellemzése Az LR-modell jellemzése és tesztelése
Modellszelekció Nested modellszelekció, H0 : βq+1 = βq+2 = . . . = βq+m = 0 Ha nagy mintánk van, akkor rendkívül kényelmesen vizsgálható egy új próbakészítési elvvel, az ún. likelihood-hányados (LR) elven konstruált teszttel:
2 b b −2 ln L H0 − −2 ln LH1 ∼ χm
Üres modelltől való szignifikáns különbözés tesztelése: függetlenségvizsgálat (szeretjük a H1 -et) Szaturált modelltől van szignifikáns különbözés tesztelése: illeszkedésvizsgálat (szeretjük a H0 -t) Ferenci Tamás –
[email protected]
Ökonometria