LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
11. LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI as ke studiu: 90 minut Cíl:
V této kapitole se seznámíte s metodikou logistické regrese a s jejím užitím pro diskrimina ní analýzu.
VÝKLAD 11.1. Úvod V praxi jsme asto postaveni p ed problém za adit jisté objekty do p edem vymezených skupin. K tomuto ú elu máme k dispozici nam ené ur ité znaky na t chto objektech a naším úkolem je na základ znalosti hodnot t chto znak za adit p edložený objekt do n které skupiny. K ešení tohoto problému lze p istupovat n kolika zp soby. Budeme p edpokládat, že každý objekt pat í do jedné ze dvou skupin (ozna me je 0 a 1). Problém diskriminace budeme ešit pomocí model logistické regrese (LR). K sestavení rozhodovacího pravidla máme k dispozici obvykle n testovacích objekt , na kterých máme nam eny p íslušné znaky a o kterých bu víme anebo nevíme, do které skupiny pat í (v závislosti na zvoleném modelu). Nam ené znaky nech jsou reprezentovány p-rozm rnými náhodnými vektory X1, …, Xn a p íslušnost i-tého objektu k dané skupin nech je vyjád ena hodnotou náhodné veli iny Yi, která nabývá hodnot 0 nebo 1, podle toho, do které skupiny daný objekt náleží. U nového objektu, který chceme za adit na základ vytvo eného rozhodovacího pravidla, nech jsou nam ené znaky reprezentovány prozm rným náhodným vektorem X a rozhodnutí hodnotou náhodné veli iny Y. Statistické rozhodovací funkce Jednotlivé diskrimina ní procedury budou odvozeny na základ rozhodovacích funkcí, kterou na tomto míst stru n p ipomeneme.
teorie statistických
K nalezení optimálního rozhodovacího pravidla bude využito bayesovského p ístupu. Roli neznámého parametru, o jehož hodnot chceme rozhodnout, bude hrát náhodná veli ina Y ∈ {0;1} , která má pravd podobnostní funkci q(y). Rozhodnutí bude provád no na základ hodnoty náhodného vektoru X ∈ R p , jenž má hustotu r(x). Podmín nou hustotu X za podmínky Y=y ozna íme r (x y ) . Nech δ : R p → {0;1} je rozhodovací funkce a Η je množina všech funkcí δ : R p → {0;1}. Ztrátovou funkci zavedeme jako
143
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
L(Y , δ ( X )) =
0, 1,
pokud Y = δ ( X ) v opa pa p ípad
Riziková funkce je definována jako R(Y , δ ) = E [L(Y , δ ( X ))Y ] =
L(Y , δ ( x )) ⋅ r (x y )d x Rp
Bayesovské riziko se ur í jako
ρ (δ ) = ER (Y , δ ) =
1 y =0
R( y, δ ) ⋅ q ( y )
Optimální rozhodovací funkci δ * potom dostaneme jako
δ * = arg min ρ (δ ) δ ∈H
Ozna me podmín nou pravd podobnostní funkci Y za podmínky X=x jako p ( y x ) . Nech
p (1 x ) = P(Y = 1 X = x ) = π ( x ) a p (0 x ) = P(Y = 0 X = x ) = 1 − π ( x ) . Existuje-li pro všechna
x∈ R p
δˆ( x ) = arg min E [L(Y , δ ( X )) X = x ] = δ ∈H
1 y =0
L(Y , δ ( x )) ⋅ p ( y x ) ,
lze snadno s pomocí Bayesovy v ty ukázat, že δˆ = δ * . P ímým výpo tem lze dále nalézt vyjád ení rizikové funkce a bayesovského rizika: R(0, δ ) = P(δ ( X ) = 1Y = 0 ), R(1, δ ) = P(δ ( X ) = 0 Y = 1),
ρ (δ ) = P(δ ( X ) = 1, Y = 0) + P(δ ( X ) = 0, Y = 1) . Vidíme tedy, že bayesovské riziko lze v této situaci interpretovat jako pravd podobnost špatného rozhodnutí o hodnot Y, tj. o za azení daného objektu do skupiny. Dále budeme bayesovské riziko nazývat jako pravd podobnost chyby.
Logistická regrese U lineárního modelu, kterým jsme se doposud zabývali, byla vysv tlovaná prom nná spojitá. Nyní se pokusíme vysv tlit chování 0-1 veli iny, která modeluje nevýskyt i výskyt sledovaného jevu. Stejn jako u lineárního modelu budeme vyjad ovat st ední hodnotu vysv tlované prom nné jako funkci nezávisle prom nných. Tentokrát bude tato st ední hodnota rovna pravd podobnosti jedni ky, tedy pravd podobnosti výskytu sledovaného jevu.
144
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
11.2. Tvar závislosti Uvažujme nezávislé náhodné veli iny Y1, …, Yn s alternativními rozd leními s parametry µ i . St ení hodnoty jsou totožné s pravd podobnostmi µ i , ty mohou záviset na n jakých
nenáhodných doprovodných veli inách x i • . Je z ejmé, že platí DYi = µ i ⋅ (1 − µ i ) . To je první podstatný rozdíl v porovnání s normálním lineárním modelem, kde byl rozptyl konstantní. Pokud bychom p edpokládali, jako v lineárním modelu, závislost tvaru
µ i = EYi = β ′ xi• , bude problém s interpretací, protože nelze zaru it, že pro libovolné x i • bude µ i ležet v intervalu (0;1) . Hledejme tedy jiný interpretovatelný tvar závislosti a motivaci hledejme v odhadech maximální v rohodnosti. Pravd podobnosti dvou možných hodnot Yi=1 a Yi=0 lze souhrnn psát jako
P(Yi = j ) = µ i j ⋅ (1 − µ i ) , 1− j
j = 0,1 .
Logaritmickou v rohodnostní funkci lze tedy zapsat
(µ ) = ln ∏ µ (1 − µ ) n
i =1
=
n i =1
=
n i =1
i
Yi
i
1−Yi
(Yi ⋅ ln µ i + (1 − Yi ) ⋅ ln(1 − µ i )) Yi ⋅ ln
µi + 1 − µi
n i =1
ln (1 − µ i )
Jak je vid t, pozorované náhodné veli iny se v logaritmické v rohodnostní funkci projevují pouze v sou inech s výrazy log (µ i (1 − µ i )) . Podíl
( )
ω xi • =
Px (Yi = 1) µi = 1 − µ i Px (Yi = 0) i•
i•
má bezprost ední interpretaci. Porovnává pravd podobnost jedni ky (výskyt sledovaného jevu) a nuly (nevýskyt jevu). Pro tento podíl se v angli tin používá výraz odds. Tomu odpovídá eský termín šance. Samotné funkci η = ln (µ (1 − µ )) se íká logit. P edpokládejme speciáln , že logit pravd podobnosti je lineární funkcí neznámých parametr
145
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
η i (β ) = β ′ ⋅ x i • . N kdy se i v tomto obecném zápisu systematicky uvádí absolutní len, protože, jak uvidíme, ne vždy jej budeme schopni odhadnout. Pak se místo regresní matice X uvádí matice (1, X). St ední hodnotu pak v našem modelu m žeme vyjád it ve tvaru
µ i (β ) =
eη i ( β ) e i• 1 = = , ηi ( β ) β ′⋅ xi • − β ′⋅ x 1+ e 1+ e 1 + e i• β ′⋅ x
což zaru í, že platí 0 < µ i < 1 a odstraní tak jeden z nazna ených problém .
11.3. Odhad parametr Nazna me ješt odhad parametr metodou maximální v rohodnosti. Protože platí ∂ eη i ∂ = −µi ln (1 − µ i ) = − ln 1 + eηi = − ∂η i ∂η i 1 + eη i
(
)
a logaritmickou v rohodnostní funkci jsme upravili na tvar
(β 0 , β ) =
n i =1
Yiη i (β 0 , β ) +
n i =1
ln (1 − µ i (β 0 , β )),
jsou parciální derivace logaritmické v rohodnostní funkce rovny ∂ = ∂β
n i =1
∂ ∂η i = ∂η i ∂β
n i =1
(Yi − µ i (β 9 , β )) ⋅ xi• .(1)
Po malé úprav zjistíme, že soustava normálních rovnic (nelineární v β ) lze psát
X ′(Y − µ (β )) = 0 ,(2) Snadno zjistíme, že platí
∂µ eη = ∂η 1 + eη odkud dostaneme
(
)
2
= µ (1 − µ )
∂µ i = µ i (1 − µ i )xi• ∂β
Když zavedeme diagonální matici rozptyl jednotlivých pozorování D(β ) = diag {µ1 (1 − µ1 ),
, µ n (1 − µ n )} ,
m žeme Fisherovu informa ní matici (vzhledem k (1)) zapsat jako 146
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
I (β ) = X ′D(β )X =
n i =1
µ i (β )(1 − µ i (β ))xi• ⋅ xi′•
Vzhledem k tomu, že matice D je pozitivn definitní, je Fisherova informa ní matice p inejmenším pozitivn semidefinitní a v p ípad úplné sloupcové hodnosti matice X dokonce pozitivn definitní. Tato skute nost usnad uje itera ní ešení soustavy normálních rovnic. Ozna me ešení normální rovnice ((2)) jako b. Asymptotickou varia ní maticí je inverzní matice k Fisherov informa ní matici. V praxi p i jejím výpo tu za neznámé parametry do J (β ) dosadíme odhady metodou maximální v rohodnosti, které jsou konzistentní, takže také
J (b ) je konzistentním odhadem J (β ) . Všimn me si, že na rozdíl od lineárního modelu
v asymptotické matici nevystupuje parametr m ítka (rozptyl σ 2 ). Na druhé stran , jak jsme upozornili, závisí rozptyl odhad na odhadovaných parametrech β .
11.4. Intepretace parametr V nujme se interpretaci parametr β 0 , β1 v modelu η i = β 0 + β1 xi .
Binární nezávisle prom nná P edpokládejme, že jednorozm rná veli ina x nabývá práv dvou hodnot. Bez újmy na obecnosti to jsou hodnoty 0 a 1, takže x je um lá prom nná k dvouhodnotovému faktoru a vyjad uje nep ítomnost i p ítomnost n jakého jevu. Pro x=0 jsou šance rovny:
e β0 P(Y = 1) 1 + e β 0 ω (0 ) = = = e β0 1 P(Y = 0 ) 1 + e β0 Parametr β 0 je tedy roven logitu pravd podobnosti výskytu sledovaného jevu pro x=0:
β 0 = ln
P(Y = 1) . P(Y = 0 )
Pro x=1 je odpovídající šance rovna
e β 0 + β1
ω (1) = 1 + e
β 0 + β1
1+ e
β 0 + β1
1
147
=e
β 0 + β1
.
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
Pom r šancí (odds ratio) pro dv hodnoty x je pak roven
ω (1) e = ω (0 ) e β
β 0 + β1
= e β1 ,
0
takže parametr β1 je roven logaritmu pom r šancí. Pokud pravd podobnost sledovaného jevu na hodnot x nezávisí, je pom r šancí roven jedné, tedy β1 = 0 . Když známe odhad b1 parametru β1 i jeho asymptotický rozptyl σ 112 (ozna me
V = (J (b0 , b1 )) s ádky a sloupci íslovanými od nuly), m žeme testovat nulovou hypotézu H 0 : β 1 = 0 pomocí statistiky −1
Z=
b1
σ 11
,
která má za platnosti nulové hypotézy asymptoticky normované normální rozd lení N (0;1) . N které statistické pakety zde p edpokládají studentovo rozd lení s (n − k − 1) stupni volnosti - t n − k −1 . V p ípad binárního x nalezneme odhady b0, b1 snadno, p ímo z odhad šancí ω (0 ) , ω (1) . Pro x=i a Y=j ozna me zjišt nou etnost jako Nij. Celkem tedy máme ni• = N i 0 + N i1 pozorování s hodnotou x=i. Hledané odhady jsou
N 01 N 00 N ωˆ (1) = 11 N 10
ωˆ (0) =
n0• N 01 = , n0• N 00 n0• N 11 = . n0• N 10
Odtud snadno dostaneme
b0 = ln
N 01 , N 00
b1 = ln
N 00 ⋅ N 11 N 01 ⋅ N 10
Pokusme se explicitn vyjád it rozptyl σ 112 . Diagonální matice D(b0 , b1 ) má pouze dvojí diagonální prvky, n0• prvk s odhadem rozptylu pro x=0 a n1• prvk s odhadem rozptylu pro x=1. Zmín né odhady rozptylu závisle prom nné jsou rovny N x 0 ⋅ N x1 n x2• . Odhad Fisherovy informa ní matice má tedy tvar
N 00 N 01 N 10 N11 + n 0• n1• J (b0 , b1 ) = N 00 N 01 n 0•
148
N 00 N 01 n 0• . N 00 N 01 n 0•
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
Protože determinant této matice je roven N 00 N 01 N 10 N 11 (n0• n1• ) , dostaneme p íslušný prvek
(vpravo dole) matice V = ( J (b0 , b1 ))
−1
σ 112 =
jako 1 1 1 1 . + + + N 00 N 01 N10 N 11
ešený p íklad
Následující data podávají informaci o tom, zda matka kojila své dít ješt ve 24. týdnu. Zabývejme se otázkou, zda tato skute nost závisí na tom, zda bylo t hotenství plánováno. Koj24 0 1 0 35 6 Plan 1 36 22 Z tabulky dostaneme snadno p íslušné etnosti. Je z ejmé, že u plánovaných t hotenství kojilo ve 24. týdnu života dít te relativn více matek, než u t hotenství neplánovaných. Prove me explicitní výpo ty: N 00 = 35
N 01 = 6
N10 = 36
N 11 = 22
N 01 6 = ln = −1,764 35 N 00 N ⋅N 35 ⋅ 22 b1 = ln 00 11 = ln = 1,271 N 01 ⋅ N 10 6 ⋅ 36 b0 = ln
σ 112 =
1 1 1 1 1 1 1 1 + + + = + + + = 0,268 N 00 N 01 N 10 N 11 35 6 36 22
H 0 : β1 = 0 H A : β1 ≠ 0 Z=
b1
σ 11
=
1,271 0,268
= 2,453
p − value = 0,014 Zamítáme hypotézu o tom, že kojení ve 24. týdnu nezávisí na plánování t hotenství.
149
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
11.5. Testování podmodelu pomocí rozdíl deviancí K testování podmodelu lze použít test daný rozdílem deviancí, založený na odhadech b ~ v modelu a b v podmodelu. Test se provádí prost ednictvím tzv. deviancí, které nyní zavedeme. Uvažujme nejprve nejhorší možný model, který má práv tolik parametr , kolik je pozorování, tedy n. P iléhav jší model (s v tší hodnotou v rohodnostní funkce) neexistuje. Tento nejbohatší model se nazývá saturovaný. Ozna me maximální hodnotu v rohodnostní funkce v saturovaném modelu symbolem max . Každý jiný p edstavitelný model je podmodelem saturovaného modelu. P iléhavost b žného modelu m žeme posoudit pomocí deviance D(b ) = 2( max − (b )) . ím je náš model mén p iléhavý, tím je hodnota deviance D v tší, podobn , jako je v tší reziduální sou et tverc v lineárním modelu pro mén výstižný model. Pojem deviance jsme zde zavedli zejména proto, že se používá i v souvislosti s logistickou regresí, by je zde hodnota max triviální. Saturovaný model má n parametr µ1 , , µ n . Odhadem st ední hodnoty µ i je v p ípad logistické regrese p ímo Yi, takže je
max
=
n i =1
(Yi ⋅ ln Yi + (1 − Yi ) ln (1 − Yi )) = 0 .
Ozna íme-li odhady pravd podobnosti jedni ky v b žném modelu jako µ i = µ ( xi• ) , devianci v modelu logistické regrese vyjád íme jako
D(b ) = 2
n i =1
= −2
n i =1
Yi ⋅ ln
Yi 1 − Yi + (1 − Yi ) ln ˆ µi 1 − µˆ i
=
(Yi ⋅ ln µˆ i + (1 − Yi ) ln (1 − µˆ i ))
Vra me se k obecné situaci. V našem b žném modelu te uvažujeme n jaký podmodel nap íklad po vylou ení ásti regresor . Testovou statistiku danou rozdílem deviancí modelu a ~ ~ podmodelu (s odhady parametr b0 , b ) vyjád íme následn :
()
~ D b − D(b ) Tato testová statistika (rozdíl deviancí) má (za platnosti testovaného podmodelu) asymptotické rozd lení χ 2 ( f ) , kde f je rovno rozdílu po tu nezávislých parametr v porovnávaných modelech. Hypotézu H 0 : β1 = 0 a podobné hypotézy o nulovosti jedné složky vektoru β lze testovat práv tímto testem rozdílu deviancí.
150
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
Podobnost deviance k reziduálnímu sou tu tverc vedla ke snaze rozší it pojem koeficientu determinace také na logistickou regresi. K tomuto ú elu nejprve zavedeme pojem nulového modelu. Jde o model, kde jsou všechny st ední hodnoty µ i = EYi shodné. Hodnotu v rohodnostní funkce i deviance ozna íme resp. D0. Hodnotu logaritmické 0, v rohodnostní funkce normálního lineárního modelu lze vyjád it jako
(b ) = − n (1 + ln (2π ) − ln n ) − n ln RSS , 2
2
kde
(
)
2 1 n RSS ⋅ Yi − Y = n i =1 n Koeficient determinace v lineárním modelu lze vyjád it jako
σˆ 2 =
R2 = 1−
RSS RSS 0
= 1− e
= 1− e
( )
−
2 l ( b ) − l0 n
−
2 D (b ) − D0 n
(
)
V uvedeném vztahu je uveden návod k výpo tu i pro p ípad logistické regrese. P iléhav jší model, než je saturovaný, nalézt nelze. Deviance saturovaného modelu je, jak víme, rovna nule, takže koeficient R2 nem že p ekro it hodnotu 2 Rmax = 1− e
1 − D0 n
Po dosazení do vztahu pro D0 dostaneme:
D0 = −2
n i =1
Yi ln
n i =1
Yi + n −
n i =1
Yi ln n −
n i =1
Yi − n ln n ,
nebo pro všechna i je odhadem st ední hodnoty relativní etnost jedni ek, totiž
n i =1
(Yi n ) .
Nagelkerke (1991) proto navrhl upravit definici zobecn ného koeficientu determinace na R N2 =
R2 2 Rmax
151
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
=
1− e
−
(
)
2 D (b ) − D0 n
1− e
1 − D0 n
11.6. Modifikovaná logistická regrese – nástroj pro diskriminaci Logistická regrese nebyla p vodn vytvo ena pro ú ely diskriminace, ale jak si ukážeme, lze ji pro ni s úsp chem použít. Model logistické regrese, který je upravený pro ú ely diskriminace, je definován následovn . Nech Y1 , , Yn je posloupnost nezávislých náhodných veli in s alternativním rozd lením, jehož parametr spl uje
[
P(Yi = 1 X i = xi ) = 1 + e( −β0 − β ′xi )
[
]
P(Yi = 0 X i = x i ) = 1 + e ( β 0 + β ′xi )
−1
]
,
−1
,
′ kde (β 0 , β ′) je neznámý (p+1) rozm rný parametr a X 1 , , X n je posloupnost nezávislých náhodných veli in. Tento model má tzv. u ící fázi, ve které známe u každého objektu jak hodnoty Xi, tak hodnoty Yi (tj. víme, do které skupiny ten který objekt pat í). Na základ této znalosti odhadneme parametry β 0 , β a poté dostaneme odhad π~ ( x ) funkce π ( x ) , kde
[
π ( x ) = P (Y = 1 X = x ) = 1 + e (− β
0 −β ′ x
)
]
−1
.
Další objekt, u kterého neznáme jeho za azení a u n hož jsme nam ili hodnotu X pomocných znak , p i adíme do jedné ze skupin podle hodnoty rozhodovací funkce. Zde sice neznáme apriorní hustotu veli iny Y ani podmín nou hustotu náhodné veli iny X za podmínky Y=y, ale pro výpo et optimální rozhodovací funkce nám posta í znalost podmín né hustoty Y za podmínky X=x, která je ur ena hodnotou funkce π ( x ) . Pokud δ ( x ) = j , je totiž E [L(Y , δ ( X )) X = x ] =
1 y =0
L( y, δ ( x )) p ( y x ) =
= L(1 − j , j ) p(1 − j x ) = Tedy
1 y =0
L( y , j ) p ( y x ) =
π (x ), j = 0, 1 − π ( x ), j = 1.
min E [L(Y , δ ( X )) X = x ] = min {π ( x ),1 − π ( x )}. δ ∈D
Toto minimum existuje ∀x ∈ R P a tudíž m žeme psát
152
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
δ * ( x ) = arg min L(1 − j, j ) p(1 − j x ) . j = 0 ,1
Tedy objekt, na n mž jsme nam ili hodnotu X pomocných znak , za adíme do první skupiny, pokud
π ( X ) ≥ 1 − π ( X ), tj. β0 + β ′X ≥ 0 Tudíž objekt za adíme do první skupiny, pokud S ( X ) ≥ 0 a do nulté skupiny, pokud 1 S ( X ) < 0 . P itom S ( x ) = β 0 + β ′ x . Dodejme, že pokud S ( X ) = 0 , tj. π ( X ) = , m žeme 2 objekt za adit do libovolné skupiny, aniž bychom zvýšili hodnotu pravd podobnosti chyby. ~ K vlastní diskriminaci však musíme použít odhad S (x ) funkce S ( x ) , ve kterém jsou neznámé ~ ~ parametry β 0 , β nahrazeny odhady β 0 , β . Pomocí metodiky kapitoly 11.3, tedy
~ ~ ~ S (x ) = β 0 + β ′ x . Hlavní výhodou tohoto modelu je fakt, že neklade žádné podmínky na rozd lení náhodných vektor X 1 , , X n .
Poznámky: 1. V regresních modelech bývají obvykle veli iny X 1 , , X n , jež jsou nam eny na objektech u ící skupiny, nenáhodné, resp. jejich hodnoty jsou nastaveny experimentátorem. M že se také stát, že i v p ípad spojitého rozd lení veli in X 1 , , X n se n které z nam ených hodnot X 1 , , X n opakují. Nic z práv uvedeného však není na závadu. Stále m žeme na veli iny X 1 , , X n pohlížet jako na náhodné. Pro ur ení teoretické diskrimina ní funkce nepot ebujeme znát hustotu veli in X 1 , , X n , posta uje nám znalost podmín né hustoty veli in Yi za podmínky Xi=xi, i=1, …, n.
2. Prospektivní studie Jak je uvedeno, mohou se nam ené hodnoty X 1 , , X n opakovat a být nastaveny experimentátorem, tj. mohou být nenáhodné (tzv. prospektivní studie). Nech I je po et r zných hodnot veli in X 1 , , X n v u ící skupin a x1 , , x n jsou tyto hodnoty. Nech nyní Yi,j, i=1, …, I, j=1, …, mi, vyjad ují za azení objekt do skupin. P itom mi je po et objekt s hodnotou vysv tlujících znak xi, celkový po et objekt je tedy nyní roven n=
I i =1
mi . Nech Yi• =
mi j =1
Yi , j . Jestliže jsou hodnoty vysv tlujících veli in nenáhodné a
nenáhodná jsou i ísla m1, …, mI, m li bychom p i hledání maximáln v rohodných odhad parametr β 0 a β maximalizovat sdruženou hustotu veli in Y1• , , YI • za podmínky X 1 = x1 , , X I = x I . Rozd lení veli in Yi• za podmínky X i = x i je binomické s parametry mi a π ( x i ) . Uvedená podmín ná sdružená hustota je potom rovna
153
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
f β*0 ,β ( y1• ,
I
mi
i =1
yi•
, xn ) = ∏
, y n• x 1 ,
π ( xi ) y (1 − π ( xi ))1− y . i•
i•
Logaritmická v rohodnostní funkce je tedy rovna I * (β 0 , β ) =
=
I
ln
i =1
I
ln
i =1
mi Yi•
+
mi + Yi•
I i =1
[Y
i•
mi
I
i =1 j =1
(β 0 + β ′ X i ) − mi ln (1 + e β + β ′ X 0
[Y
i, j
(β 0 + β ′ X i ) − ln (1 + e β + β ′ X 0
)] =
i
i
)]
Vztah pro logaritmickou v rohodnost se tedy od vztahu uvedeného v kapitole 12.3 liší I m pouze o len ln i , který nezávisí na β 0 ani na β . Tudíž ob tyto funkce nabývají Yi• i =1 svého maxima ve stejném bod .
11.7. Ov ování p edpoklad logistické regrese Pro testovat p edpoklady model ? Logistický model sice neklade žádné zvláštní požadavky na rozd lení náhodných veli in X 1 , , X n , ale zato p edpokládá specifický tvar pravd podobnosti
[
P(Y = 1 X = x ) = 1 + e (− β 0 − β ′ x ) testu.
P(Y = 1 X = x ).
]
−1
Skute nost,
že
opravdu
platí
, bychom m li ov it nejlépe pomocí n jakého statistického
Dále uvedeme n které testy dobré shody pro model logistické regrese.
Základní testy dobré shody pro model logistické regrese Pro popis test dobré shody použijeme zna ení zavedené v rámci poznámky 2. Tj. nech u ící skupina obsahuje n objekt . Nech I je po et r zných hodnot veli in X 1 , , X n v u ící skupin a x1 , , x I jsou tyto hodnoty. Jak již bylo d íve e eno, veli iny X 1 , , X n nemusejí být nutn náhodné (obvyklý jev regresních model ). Mohou se tedy n které z hodnot X 1 , , X n opakovat, i když jsou veli iny X 1 , , X n spojit rozd lené. Celý model logistické regrese pracuje totiž s podmín ným rozd lením veli in Y1 , , Yn za podmínky X 1 = x1 ,
, X n = x n . Hodnoty Y1 ,
skupin p ezna me na Yi , j , i = 1, vysv tlujících znak
Xi a Yi,j,
, Yn vyjad ující za azení i-tého objektu do jedné ze dvou , I , j = 1, j = 1,
, mi , kde mi je po et objekt
s hodnotou
, mi ozna uje za azení objekt , u nichž mají
vysv tlující znaky hodnotu X i = x i . Dále ozna me n1 =
154
I
mi
i =1 j =1
Yi , j , n0 =
I
mi
i =1 j =1
(1 − Y ). i, j
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
~ ~ Metodou maximální v rohodnosti získáme odhady β 0 , β parametr β 0 , β . Pomocí t chto (− β~ − β~′ x ) −1 odhad spo ítáme odhady logistických pravd podobností π~ ( x i ) = π~i = 1 + e 0 i . P ímo z v rohodnostních rovnic plynou vztahy
[
n1 =
mi
I
i =1 j =1
Yi , j =
I i =1
mi π~i ,
n0 =
I
mi
i =1 j =1
(1 − Y ) = i, j
I i =1
]
mi (1 − π~i )
Popíšeme test dobré shody založený na Pearsonov χ 2 statistice. Celou situaci lze popsat kontingen ní tabulkou typu 2xI s danými marginálními sloupcovými etnostmi. P itom i-tý sloupec tabulky reprezentuje binomické rozd lení s parametry mi ,
π (x i ) = π i .
Tabulka odhadnutých etností má tvar:
x1 Y 1 m1π~1 0 m1 (1 − π~1 ) m1
X … xI … n1 m I π~I ~ … m I (1 − π I ) n0 … mI n
Tabulka empirických (pozorovaných) etností je tvaru:
x1 Y 1 Y1• 0 m1 − Y1• m1
X … xI … n1 YI • … m I − Y I • n0 … mI n
Protože máme dány marginální sloupcové etnosti, jsou hodnoty v naší tabulce vázány I podmínkami (m1π 1 + m1 (1 − π 1 ) = m1 , , m I π I + m I (1 − π I ) = m I ) . Tento údaj budeme pot ebovat pro výpo et stup volnosti v Pearsonov testové statistice, která má tvar Z2 =
I i =1
(Yi• − mi π~i )2 mi π~i
+
(mi − Yi• − mi (1 − π~i ))2 mi (1 − π~i ) i =1 I
=
(Yi• − mi π~i )2 ~ ~ . i =1 mi π i (1 − π i ) I
Pomocí této statistiky lze testovat shodu dat v pozorované tabulce s tabulkou teoretickou, která je v našem p ípad založena na modelu logistické regrese. P i hypotéze H0: platí logistický model, má statistika Z2 asymptoticky rozd lení χ 2 s následujícím po tem stup volnosti: velikost kontingen ní tabulky – po et vazeb v teoretické tabulce – po et odhadnutých parametr = 2I – I – (p+1) = I – (p+1). Tedy p i platnosti H0 je Z 2 → χ 2 (I − ( p + 1)) . Samoz ejm musí být spln na podmínka I > ( p + 1) .
155
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
P ipome me však jeden problém, který je spojen s použitím výše uvedeného testu dobré shody. Rozd lení testové statistiky je získáno asymptoticky pro n → ∞ a v praktických situacích (obzvlášt v p ípadech, kdy alespo jedna složka vysv tlujících náhodných vektor X 1 , , X n má spojitý charakter) je I ≈ n . Tedy s rozsahem výb ru roste též po et stup volnosti testových statistik. McCullagh a Nelder (1989) uvedli, že pro I ≈ n je p i platnosti H0 EZ 2 < I − ( p + 1) . V roce 1989 však Hosmer a Lemeshow provedením rozsáhlých simulací potvrdili, že aproximace st ední hodnoty statistiky Z2 výrazem I − ( p + 1) je prakticky použitelná. Dalším problémem, který je spojen s použitím Pearsonovy Z2 statistiky, je požadavek na dostate n velké teoretické etnosti, nap . mi π~i ≥ 5, mi (1 − π~i ) ≥ 5, i = 1, , I , který též nebude obvykle spln n, pokud I ≈ n . Oba výše uvedené problémy lze vy ešit, pokud bude I < n pevné. Popíšeme si testovou statistiku, navrženou již zmín nými Hosmerem a Lemeshowem, která je založena práv na této myšlence.
Hosmerovy-Lemeshowovy testy Statistiky vhodné pro testy dobré shody navržené Hosmerem a Lemeshowem jsou založeny na seskupení n kterých sloupc kontingen ní tabulky uvedené v kapitole 11.6.1. Nejprve zvolíme g < n po et požadovaných sloupc kontingen ní tabulky. Pozorování p ezna íme tak, aby platilo π~1 ≤ π~2 ≤ ≤ π~I . Výsledkem seskupení jsou sloupce obsahující p ibližn stejný po et pozorování. Do prvního sloupce za adíme p ibližn n g pozorování Y1,1 , , Y1, m1 , , Yn1′ ,1 , , Yn1′ , mn′ , kterým náleží 1
nejmenší odhadnuté pravd podobnosti π~i , i = 1,
, n1′ . Naší snahou je, aby m1* =
n1′ i =1
mi bylo
co možná nejblíže hodnot n g . Postupn vytvá íme další sloupce, až kone n v g-tém sloupci je p ibližn n g pozorování Yt ,1 , , Y1, mt , , YI ,1 , , YI1 , mI , kterým náleží nejv tší odhadnuté pravd podobnosti π~i , i = t ,
, I, t =
k =1
r zných hodnot vysv tlujících veli in X 1 , g k =1
nk′ = I ). Nech t 0 = 0 , t k =
k j =1
g −1
n′j , k = 1,
nk′ + 1 , p itom n1′ ,
, n ′g ozna ují po ty
, X I v jednotlivých sloupcích (tedy platí , g a nech m1* ,
v jednotlivých sloupcích, tedy spl ují vztahy m k* =
tk
mi , k = 1,
i =t k −1 +1
, m *g jsou po ty pozorování , g . Snažíme se, aby mk*
bylo co nejblíže hodnot n g ∀k = 1, , g . Je-li g=10, nazývají se hodnoty odhadnutých pravd podobností, jež odd lují jednotlivé sloupce, jako decily rizika. Samotné sloupce kontingen ní tabulky budeme v naší práci nazývat decilovými skupinami1. Pro novou kontingen ní tabulku typu 2xg nyní spo ítáme odhadnuté teoretické a empirické etnosti. Odhadnutá teoretická etnost pro ádek Y = 1 a k-tý sloupec je 1
O decilech se mluví i v situacích, kdy není v každém sloupci p esn desetina všech pozorování.
156
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
ck =
tk
mi π~i , k = 1,
mk* − c k = ok =
,g,
pro
ádek
Y
=
0
a
k-tý
sloupec
je
i = t k −1 +1
tk
tk
, g . Empirická etnost pro ádek Y = 1 a k-tý sloupec je
i = t k −1 +1 mi
i = t k −1 +1 j =1
mk* − ok =
mi (1 − π~i ), k = 1,
tk
Yi , j , k = 1, mi
i = t k −1 +1 j =1
,g,
(1 − Y ),
pro
k = 1,
i, j
ádek
Y
, g . Dále nech
(
=
0
πk =
1 mk*
})
{
je odhad pravd podobnosti P Y = 1 X ∈ x tk −1 +1 ,
a
k-tý
sloupec
je
c mi π~i = k* , k = 1, mk i = t k −1 +1
,g
tk
, x tk .
Tabulka odhadnutých teoretických etností má tedy tvar:
X 1. sloupec … g-tý sloupec … n1 Y 1 m*g π g m1* π 1
(
0 m* 1 − π 1 1
)
m1*
(
…
m*g 1 − π g
…
m *g
)
n0 n
Tabulka empirických (pozorovaných) etností je tvaru:
X 1. sloupec … g-tý sloupec o1 … og n1 Y 1 * n 0 m1* − o1 … 0 mg − og …
m1*
m *g
n
Testová statistika Hosmerova-Lemeshowova testu pro ov ování shody s modelem logistické regrese má tvar b žné Pearsonovy χ 2 statistiky pro ov ování shody teoretické a empirické tabulky, tedy Cˆ =
g
(o
k
k =1
(o
− mk*π k mk*π k
)
2
+
g
(m
k =1
* k
)
− o k − mk* (1 − π k ) m k* (1 − π k )
2
=
)
2
− mk*π k = k =1 m π k (1 − π k ) g
k * k
Užitím rozsáhlých simulací bylo ukázáno, že pro I = n má p i platnosti hypotézy H0 statistika Cˆ p ibližn rozd lení χ 2 o (g-2) stupních volnosti. Podle Hosmera a Lemeshowa lze p i platnosti H0 dob e aproximovat rozd lení statistiky Cˆ rozd lením χ 2 o (g-2) stupních volnosti též v situaci, kdy I ≈ n .
157
LOGISTICKÁ REGRESE A JEJÍ UŽITÍ PRO DISKRIMINACI
Aby bylo možné použít výše uvedenou statistiku, m li bychom ješt ov it mk π~k ≥ 5, mk (1 − π~k ) ≥ 5, k = 1, , g . Není-li tato podmínka spln na, m li bychom slou it n které sloupce tabulky, a tedy snížit hodnotu ísla g. Auto i však tvrdí, že porušení této podmínky není p íliš na závadu. Hosmer a Lemeshow dále doporu ují volit g ≥ 6 , nebo pro g > 6 je již statistika Cˆ málo citlivá na rozdíly mezi teoretickými a empirickými etnostmi a tém
vždy indikuje shodu s modelem.
Otázky 11. 1.
emu se ve statistice íká diskriminace?
2. Srovnejte logistický a normální lineární regresní model. 3. Vysv tlete pojmy šance a logit. 4. Vysv tlete, jak se testují podmodely pomocí deviancí. 5. Jak se využívá logistická regrese pro diskriminaci? 6. Jaké p edpoklady je t eba testovat u logistické regrese? 7. Princip Hosmer-Lemeshowových test .
158