Jana Vránová, 3. lékařská fakulta, UK Praha
Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární
Byla především používaná v medicíně a epidemiologii
Vysvětlovaná proměnná představuje › Přítomnost nebo nepřítomnost nemoci › Pacient zemřel nebo žije › Příklad: x Riziko vzniku srdeční choroby:
x Závisle proměnná: srdeční onemocnění vzniklo (1), nevzniklo (0), x Nezávislé proměnné (ovlivňující faktory) : věk, váha, krevní tlak, hladina cholesterolu, kouření, RA
Úzce souvisí s diskriminační analýzou
Je alternativní metodou klasifikace, když nejsou splněny podmínky vícerozměrného normálního modelu (proměnné vstupní i výstupní nesplňují podmínky normality) › Libovolná kombinace diskrétních a spojitých proměnných › Libovolné kategorické proměnné › Vyžaduje znalost obou – závisle proměnné i nezávisle
proměnných
Logistický model odhaluje, zda nezávisle proměnné – ovlivňující faktory, prediktory – rozlišují dostatečně dobře mezi jednotlivými třídami, které tvoří závislá proměnná
Slouží pro predikci vzniku určitého jevu
Dokáže říct, která z daných vstupních proměnných je nejvíce ovlivňující
ZÁVISLE PROMĚNNÁ
Binární logistická regrese:
› Binární závislá proměnná, nabývající pouze dvou možných hodnot –
přítomnost, absence; muž, žena
Ordinální logistická regrese:
› Ordinální závislá proměnná, nebývající vícero možných stavů
stoupajícího charakteru – silný nesouhlas, nesouhlas, souhlas, silný souhlas
Nominální logistická proměnná:
› Nominální závislé proměnná nabývající tří a vícero stavů –
radioterapie, chemoterapie, imunoterapie, hypertermie
NEZÁVISLE PROMĚNNÉ:
Spojité – prediktory Kategorické ‐ faktory
Předpokládejme, že binární závislá proměnná Y nabývá hodnot 0 a 1 › 1: jev J nastal › 0: jev J nenastal
Zajímá nás, zda lze klasifikovat případy do těchto dvou tříd (0, 1) na základě skupiny nezávislých proměnných › Místo toho abychom se snažili predikovat libovolně zvolené
hodnoty nezávisle proměnných, sloužící k označení dvou kategorií binární závislé proměnné, zaměříme se na problém predikce pravděpodobnosti, že případ patří do jedné z kategorií. › Známe‐li totiž P(Y=1), známe i P(Y=0), protože platí: P(Y=0) = 1 – P(Y=1)
… pokračování …
Předpokládejme, že
P (Y = 1) = α + β1 X 1 + ... + β K X K
Narážíme na numerické problémy: › Pravděpodobnost je číslo, které leží mezi 0 a 1 › Daná rovnice nemusí tuto podmínku splňovat
… pokračování …
Řešení: Změna pravděpodobnosti na šanci
1. x
Šance, že nastal jev J se rovná podílu pravděpodobnosti, že Y=1 a pravděpodobnosti, že Y≠1
šance (Y = 1) = P (Y = 1) ⎡⎣1 − P (Y = 1) ⎤⎦ x
Šance nemá žádnou pevnou maximální hodnotu, ale její minimální hodnota je rovna 0
Provedeme ještě další transformaci – přirozený logaritmus šance, tato proměnná se nazývá logit a je definovaná vztahem
2.
{
}
logit (Y ) = ln P (Y = 1) ⎡⎣1 − P (Y = 1) ⎤⎦ x
Hodnoty logitu se pohybují od mínus do plus nekonečna, použijeme‐li tedy logit(Y) jako závislou proměnnou, zbavíme se problémů, které jsme měli v případě pravděpodobnosti a šance
… pokračování …
Regresní rovnice bude mít tvar:
logit (Y ) = α + β1 X 1 + ... + β K X K
Logit můžeme převést zpět na šanci:
šance (Y = 1) = exp ⎡⎣logit (Y ) ⎤⎦ = exp (α + β1 X 1 + ... + β K X K ) = exp (α ) × exp ( β1 X 1 ) × ... × exp ( β K X K )
Od šance se dostaneme zpět k pravděpodobnosti:
P (Y = 1) = šance (Y = 1) ⎡⎣1 + šance (Y = 1) ⎤⎦ = exp (α + β1 X 1 + ... + β K X K ) ⎡⎣1 + exp (α + β1 X 1 + ... + β K X K ) ⎤⎦
… pokračování …
Pravděpodobnost, šance a logit jsou tři druhy vyjádření téhož, v tom smyslu, že jsou navzájem mezi sebou převoditelné
Pro interpretaci jsou snadněji pochopitelné, a proto vhodnější pravděpodobnosti a šance než logity
RIZIKO !!! › Velmi často ve skutečnosti interpretujeme šance ale mluvíme o
pravděpodobnostech › Šance a pravděpodobnost není totéž !
Pokud je nezávisle proměnná nominální, tj. mezi kategoriemi neexistují žádné relace (přičemž počet kategorií je M), nahradíme tuto proměnnou M – 1 novými kontrastními proměnnými › Vytvoříme M – 1 indikátorových proměnných › Vynechaná kategorie se nazývá referenční › Označíme‐li M – 1 nových proměnných DN1, DN2, … , DN,M‐1 pro rovnici
modelu dostáváme vztah:
M −1
logit (Y ) = α + β1 X 1 + ... + β K −1 X K −1 + ∑ β Ki X Ki i =1
Pokud má ordinální proměnná dostatečný počet kategorií – alespoň 7, můžeme s ní pracovat jako s proměnnou spojitou Vždy ovšem můžeme použít výše popsaný způsob vytvoření nových proměnných
Pokud je proměnná dichotomická opět si můžeme vybrat, zda budeme s touto proměnnou zacházet jako se spojitou nebo zda pro ni vytvoříme novou proměnnou Hosmer a Lemeshow doporučují, aby kategorie všech dichotomických proměnných byly kódovány 0 a 1 a aby se s těmito proměnnými pracovalo jako se spojitými.
– 2LL (– 2 log likelihood) – test rozdílu mezi nalezeným logistickým regresním modelem a modelem, který obsahuje pouze absolutní člen › má χ2 – rozdělení › Nulová hypotéza H0: „Všechny regresní koeficienty jsou nulové.“ › Alternativní HA: „Všechny regresní koeficienty nejsou nulové. Při
2 stupních volnosti.“
› Pokud vypočtená hladina významnosti je menší než 0,05,
nulovou hypotézu zamítáme a přijímáme alternativní hypotézu, že aspoň jeden z regresních koeficientů βi je různý od nuly.
Test významnosti jednotlivých koeficientů › Statistická významnost nulové hypotézy pro jednotlivé
odhady regresních koeficientů › Waldova statistika má χ2 – rozdělení s 1 stupněm volnosti. › Pro kategorické proměnné má o 1 stupeň volnosti méně,
než je počet kategorií › Pokud je hladina významnosti p menší α = 0,05, je
uvedený regresní koeficient statisticky významný
Test dobré shody – má opět χ2 – rozdělení › Testuje těsnost proložení logistickým modelem › Nulová hypotéza H0: „Naměřené hodnoty a hodnoty
predikované modelem jsou stejné.“
› Zde tedy potřebujeme naopak, aby hodnota χ2 byla malá a p
větší než 0,05, abychom nulovou hypotézu neodmítli › Naopak velká hodnota χ2 a malá hodnota spočtené
hladiny významnosti indikují, že proložení není dobré
Porovnává pozorované a modelem predikované zařazení do tříd výstupní proměnné a stanovuje celkové procento správně klasifikovaných případů
Stanovení predikčních a klasifikačních vlastností modelu se liší od statistické významnosti, protože je možné získat výsledky statisticky významné, které ale nemusí přiřazovat jednotlivé objekty do jedné ze dvou tříd správně a mít tím pádem praktický smysl pro klasifikaci
Testuje predikční schopnosti logistického modelu › Maximální plocha pod křivkou je 1 nebo 100% › Numerická hodnota velikosti této plochy bude blízká 1, když predikce
modelu je výtečná
› Pokud se rovná 0,5 = kvalita jako „při házení mincí“ › Z klasifikační tabulky jsme dále určili: x Sensitivitu x Specificitu x PPV a NPV x Přesnost logistického modelu
Příklad: › Mějme 55 pacientů různé rasy. Naším cílem bude
vyhodnotit jaké je riziko vzniku hypertenze s hodnotou systolického tlaku TK > 180 mmHg při následujících ovlivňujících proměnných: › Výstupní proměnná: hodnota systolického tlaku: x 1 … systolický tlak > 180 mmHg x 0 … systolický tlak ≤ 180 mmHg
› Nezávislé proměnné (ovlivňující): x Věk (spojitá proměnná) x Rasa (kategorická proměnná) x Kouření (kategorická proměnná)
Pro kategorické proměnné musíme nadefinovat referenční kategorii: › Rasa: x Referenční: 1 = Číňané vs. (2 = Indiáni, 3 = Malajci, 4 = ostatní) › Kouření: x Referenční: 0 = nekuřák vs. (1 = kuřák)
Vstupní rozložení případů vidíme v následující tabulce
VSTUPNÍ NAMĚŘENÁ DATA: > 180 mmHg
Počet
%
Platné %
Kumulativní %
Platná
Ne
40
72,7
72,7
72,7
data
Ano
15
27,3
27,3
100,0
Celkem
55
100,0
100,0
… pokračování … Nagelkerke R2: Krok
‐2 log likelihood 1
Cox and Snell R2
40,819
Nagelkerke R2
0,349
0,506
Nagelkerkeovo R2 nám říká, že 50% variability modelu je vysvětleno našim modelem Hosmer – Lemeshowův test dobré shody: χ2
Krok 1
Hladina významnosti p
df 5,869
7
0,555
… pokračování …
Proměnné v modelu: proměnná
β
S.E.
Wald
df
p
Exp(β)
+95%
‐95%
Krok
Věk
0,209
0,063
11,007
1
0,001
1,233
1,089
1,395
1
Kuřák (1)
2,292
0,986
5,401
1
0,020
9,896
1,432
68,386
1,627
3
0,653
Rasa Rasa(2)
0,640
1,009
0,402
1
0,526
1,896
0,263
13,696
Rasa (3)
1,303
1,136
1,316
1
0,251
3,681
0,397
34,101
Rasa (4)
‐0,097
1,230
0,006
1
0,937
0,908
0,081
10,113
Intercept
‐14,462
4,005
13,041
1
0,000
0,000
Waldova statistika definuje statistickou významnost proměnných – věk a kouření Sloupeček Exp(β) nám dává hodnoty Odds Ratio (poměr šancí): Věk (spojitá proměnná) 1,233 – při zestárnutí o 1 rok, se zvýší šance, že budeme mít systolický tlak >180 mmHg o 23,3% Kouření (kategorická proměnná) – pokud kouříme zvýši se šance, že budeme mít systolický tlak >180 mmHg 9,9‐krát
… pokračování …
Klasifikační tabulka: Predikované hodnoty ≤ 180 Krok 1
Pozorované hodnoty
Správně klasifikováno
>180
≤ 180
38
2
95,0%
>180
6
9
60,0%
Celkem
85,5%
Sensitivita, specificita, přesnost modelu, PPV a NPV:
Sensitivita = 9 15 = 60% Specificita = 38 40 = 95% Accuracy = 47 55 = 85,5%
PPV = 9 11 = 81,8% NPV = 38 44 = 86, 4%
… pokračování …
Pokud máme nového pacienta, můžeme použít náš logistický model pro predikci, zda jeho systolický tlak dosáhne hodnoty vyšší než 180 mmHg
z = −14, 462 + 0, 209* Age + 2, 292*Smoker(1) + 0, 640* Race(1) + 1,303* Race(2) − 0, 097 * Race(3) 1 P ( ≥ 180 ) = 1 + ez
Příklad: Pacient1: 45letý nekuřák, Číňan Smoker(1) = 0, Race(1) = Race(2) = Race(3) = 0 z = ‐14,462 + 0,209*45 = – 5,057 ez = 157,1 a P( > 180) = 0,006
Pacient2: 65letý kuřák, Indián Smoker(1) = 1, Race(1) = 1, Race(2) = Race(3) = 0 z = ‐14,462 + 0,209*65 + 2,292*1 + 0,64*1 = 2,055 ez = 0,128 a P( > 180) = 0,89
… pokračování …
Plocha pod křivkou: AUC = 0,878
predikční schopnost modelu je 88%
… děkuji za pozornost …