Logistický regresní model a jiné zobecněné lineární modely (VJ REGMOD-5) Základní informace Při studiu předchozích výukových jednotek vás již jistě napadlo, že výsledek (závisle proměnná) nemusí být vždy spojitý. Proměnné, které nás zajímají jak v běžném životě (stihnu vlak? udělám úspěšně zkoušku?) tak v přírodních vědách (je organismus napadený parazitem? uzdraví se pacient?) mohou často nabývat jen jedné ze dvou hodnot: ano nebo ne. Nástroj, který by byl schopen předpovědět ze známých prediktorů binární výsledek, by tak byl velice užitečný. Tímto nástrojem může být logistická regrese. V této výukové jednotce si vysvětlíme, co je logistická regrese a jak principy, které znáte z předchozích výukových jednotek, uplatníme při práci s ní. Logistická regrese je příkladem zobecněného lineárního modelu. Na úvod této výukové jednotky si tedy připomeneme předpoklady obyčejných lineárních modelů a vysvětlíme, v čem přesně mohou zobecněné lineární modely pomoci. V závěru této výukové jednotky si pak ukážeme ještě jeden příklad zobecněného lineárního modelu: Poissonovu regresi. Ta nám umožní modelovat výsledek, který nabývá nezáporných celých hodnot – typicky se tak modelují počty (pacientů, buněk apod.). U studentů se předpokládá znalost předchozích výukových jednotek, tedy zejména znalost definice a praktické práce s vícenásobným lineárním regresním modelem.
Výstupy z výuky konkrétní výukové jednotky Po prostudování učebního textu této výukové jednotky studenti • • • • • • • • • • • • • •
definují veličiny pro měření vztahu/účinku: poměr rizik a poměr šancí popíší základní princip metody maximální věrohodnosti vysvětlí přínos zobecněných lineárních modelů ve srovnání s obecnými lineárními modely definují logistický regresní model využijí logistický model v regresní analýze interpretují výsledky logistického regresního modelu posoudí splnění předpokladů logistického regresního modelu využijí analýzu deviance pro analýzu výsledků regresního modelu definují Poissonův regresní model využíjí Poissonův model v regresní analýze interpretují výsledky Poissonova regresního modelu posoudí splnění předpokladů Poissonova regresního modelu vysvětlí pojem nadměrný rozptyl (overdispersion) zohlední nadměrný rozptyl v regresní analýze
1. Vztah dvou binárních proměnných – měření účinku Jak bylo řečeno v úvodu, klíčovým cílem této výukové jednotky je seznámit čtenáře s modelováním binárních výsledků (mohou nabývat hodnoty ano/ne). Klíčovou veličinou, která nám pomůže kvantifikovat vliv konkrétních prediktorů na takový výsledek je tzv. poměr šancí (odds ratio). S definicí poměru šancí se seznámíte v této výukové jednotce: Biostatistika pro matematickou biologii > Asociace ve čtyřpolní tabulce
2. Proč používáme zobecněné lineární modely? Připomeňme si součásti klasického lineárního modelu, které znáte z předchozích výukových jednotek. Předpokládáme, že hodnoty závisle proměnné (Yi) lze při modelování rozdělit na systematickou a náhodnou část (rezidua): Yi = β 0 +
p
∑β
j X ij
+ ε i , i = 1,..., n
ε i ~ N (0, σ 2 )
(5.1)
j =1
Rezidua jsou tedy v obyčejném regresním modelu normálně rozdělená. Zobecněné lineární modely nám umožní modelovat výsledek rozdělený binomicky (to je případ proměnné ano/ne), poissonovsky (to je případ počtů) nebo jinak, pokud bude rozdělení z tzv. třídy exponenciálních rozdělení (dalším příkladem je normální rozdělení – mohu prozradit, že lineární regrese, o které jsme mluvili doposud, je tedy také speciálním případem zobecněného lineárního modelu). Pro systematickou část ve vztahu 5.1 zavedeme pojem lineární prediktor (obvykle značíme řeckým písmenem η – čti éta). p
ηi = β 0 + ∑ β j X ij j =1
S lineárním prediktorem jsme samozřejmě pracovali i doposud – předpokládali jsme, že mezi lineárním prediktorem a modelovanou střední hodnotou (EYi = µi) je rovnost.
µi = ηi V rámci zobecněných lineárních modelů již tento předpoklad není nutný. Můžeme předpokládat, že lineární prediktor představuje transformovanou střední hodnotu (tzv. linkovací funkcí f) f (µ i ) = η i
U příkladů zobecněných lineárních modelů ukázaných v této výukové jednotce si ukážeme typicky používané linkovací funkce, teoreticky ale můžeme použít jinou ryze monotónní diferencovatelnou funkci. Zájemce o podrobnou definici zobecněného lineárního modelu odkazuji na výukovou jednotku Statistické modelování - Zobecněné lineární modely. U obyčejných lineárních modelů bylo možné odhady získat jednoduše analyticky metodou nejmenších čtverců. Daní za flexibilitu zobecněných lineárních modelů je složitější výpočet odhadů regresních koeficientů. Ty se nyní získávají metodou maximální věrohodnosti (maximum likelihood method). Bližší vysvětlení této metody naleznete ve výukové jednotce:
Biostatistika pro matematickou biologii > Bodové a intervalové odhady > Metoda maximální věrohodnosti
3. Logistický regresní model 3.1. Definice logistického regresního modelu Cílem logistického regresního modelu je modelování náhodného výběru proměnných s binárním výsledkem. Rozdělení takového výsledku je možné popsat binomickým rozdělením. Binomické rozdělení je diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události π. Binomické rozdělení má následující pravděpodobnostní funkci: n P(Y = k ) = π k (1 − π ) n−k k
Známe-li parametr π, pak podle počtu experimentů známe střední hodnotu a rozptyl E (Y ) = nπ D(Y ) = nπ (1 − π )
Abychom logistický regresní model nadefinovali, uvažujme jeden z nezávislých experimentů (jedno pozorování). Výsledek tohoto experimentu je rozdělený alternativně (nabývající hodnoty 1 s pravděpodobností π, jinak nabývá hodnoty 0):
Yi ~ A(π i ) i = 1,..., n Srovnejme lineární regresi (vlevo) s logistickou regresí (vpravo) µ i = β 0 + β1 xi1 + ... + β p xip
logit (π i ) = β 0 + β 1 xi1 + ... + β p xip
i = 1,..., n
i = 1,..., n
modelujeme spojitý výsledek hodnota parametru (střední hodnoty) je rovna lineárnímu prediktoru
modelujeme nastání náhodného jevu hodnota parametru (střední hodnoty) je rovna transformovanému prediktoru hodnota lineárního prediktoru odpovídá střední hodnotě transformované linkovací funkcí logit
Proč ale vůbec tuto linkovací funkci používáme? Pokud bychom linkovací funkci nepoužili (tedy použili jako linkovací funkci identitu, tak jako v lineární regresi), pak bychom jako hodnotu pravděpodobnosti dostávali různá reálná čísla. Nepochybně ale nechceme jako modelovanou pravděpodobnost čísla menší než 0 nebo větší než 1. Uvažujme tedy zmíněnou funkci logit:
logit( p) = ln
p 1− p
a její inverzi (někteří autoři ji označují jako „expit“):
logit −1 (η ) = expit(η ) =
exp(η ) 1 + exp(η )
0.6 0.4
expit(η) exp(x)/(1 + exp(x))
0
0.2
-2
0.0
-4
logit(p) log(x/(1 - x))
2
0.8
4
1.0
Za komplikovanými vztahy se skrývají velmi užitečné vlastnosti této funkce. Ukažme si je na následujících grafech (obr. 5.1). Podíváme-li se na pravý obrázek, vidíme, že zatímco lineární prediktor může nabývat libovolných hodnot na reálné ose, transformace expit nám zajistí, že výsledek bude v oboru hodnot od nuly do jedné (asymptoty jsou opravdu v 0 a 1).
0.0
0.2
0.4
0.6
px
0.8
1.0
-4
-2
0
2
ηx
Obr. 5.1 Linkovací funkce a její inverze (expit) v logistickém regresním modelu
4
3.2. Interpretace koeficientů logistického regresního modelu Použití funkce logit vede k další příjemné vlastnosti lineární regrese: regresní koeficienty lze po transformaci přirozeným logaritmem interpretovat jako poměry šancí. Představme si dvě pozorování, např. pacienty, kteří mohou trpět pokročilými adenomovými polypy, přednádorovým ale snadno léčitelným onemocněním tlustého střeva. Pomocí logistického modelu bychom chtěli předpovědět pravděpodobnost výskytu této choroby, a tak třeba doporučit preventivní vyšetření pacientům s vysokou pravděpodobností adenomového polypu. V tomto jednoduchém případě modelujme pravděpodobnost pro muže (proměnná x = 0) a ženy (proměnná x = 1): Subjekt 1 (muž, x = 0)
logit ( p1 ) = β 0 + x ⋅ β1 logit ( p1 ) = β 0 ln
p1 = β0 1 − p1
p1 = exp( β 0 ) 1 − p1
Subjekt 2 (žena, x = 1)
logit ( p1 ) = β 0 + x ⋅ β1 logit ( p 2 ) = β 0 + β1 ln
p2 = β 0 + β1 1 − p2
p2 = exp(β 0 + β1 ) 1 − p2
Poměr šancí (odds ratio) na výskyt adenomového polypu pro ženu ve srovnání s mužem je tedy:
p2 1 − p2 exp( β 0 + β1 ) exp( β 0 ) exp( β1 ) OR (2,1) = = = = exp( β1 ) p1 exp( β 0 ) exp( β 0 ) 1 − p1 exp(odhad regresního koeficientu) tedy představuje poměr šancí na danou událost v souvislosti s daným prediktorem. Binární prediktor jsme si právě ukázali. V případě spojitého prediktoru platí, že s každou jednotkou roste šance na danou událost násobkem exp(odhad regresního koeficientu). Tedy např. s rostoucím věkem roste šance (a obdobně i pravděpodobnost, riziko) na výskyt adenomového polypu. 3.3. Ověření správnosti logistického regresního modelu Pro ověření správnosti logistického regresního modelu je vhodné ověřit celkovou shodu modelu s pozorováními (overall goodness of fit) a také provést analýzu reziduí stejně jako u lineárních modelů. Zatímco u lineárního modelu lze graficky znázornit celkovou shodu modelu s pozorováními poměrně jednoduše, situace je u logistické regrese komplikována tím, že výsledek je binární. Problém a nastíněný princip řešení je ukázán na obrázku 5.2. Celkovou shodu modelu s pozorováními lze i formálně testovat (např. s využitím Hosmer-Lemeshow testu [1] nebo testu založeného na neparametrických jádrových odhadech [2]).
1.0 0.8 0.6 0.4 0.2 0.0
Prob(CHD) Pravděpodobnost výskytu ischemické choroby
0
10
20
30
40
Spotřeba tabáku [kg] Tobacco
Obr. 5.2 Znázornění shody modelu (spojitá čára) s pozorovanými výsledky (kolečka). Informativnější obrázek dostáváme při rozdělení sledovaného souboru na 8 částí (podle červených čárkovaných čar) a spočítání podílu (odhadu pravděpodobnosti) nastání jevu v rámci těchto podskupin (symboly diamantu). Rovněž u analýzy reziduí můžeme vyjít z principů ukázaných v předchozích výukových jednotkách. Konkrétní veličiny – rezidua – se ale od lineárního modelu liší. V následující tabulce naleznete definici běžně používaných reziduí pro logistický model: Pearsonova rezidua
yi − πˆ i ri = πˆ i (1 − πˆ i )
Devianční rezidua
d i = − 2 ln(1 − πˆ j )
pro yj = 0
di = 2 ln(πˆ j )
pro yj = 1
Vedle analýzy reziduí, která nám umožňuje najít odlehlé hodnoty, je vhodné prozkoumat u pozorování Cookovu vzdálenost, která nás upozorní na vlivná pozorování.
3.4. Řešený praktický příklad: Rizikové faktory srdeční choroby V této studii využívající datový soubor [heartdisease] se snažíme určit rizikové faktory ischemické choroby srdeční. Naměřená data jsou ze studie případů a kontrol z Jihoafrické republiky, u pacientů a zdravých kontrolních subjektů byla zjišťována spotřeba tabáku (kumulativní v kg), hladina cholesterolu, rodinná anamnéza a další faktory. V tomto jednoduchém příkladu určíme poměr šancí spojený s vyšší spotřebou tabáku. Nejprve načteme datový soubor. heartdisease <- read.table("heartdisease.txt", header=TRUE,sep=",")
Syntaxe příkazu pro odhad parametrů logistického modelu je velice podobná jako u obyčejného lineárního modelu. Místo funkce lm()použijeme funkci glm(), která odhaduje parametry zobecněných lineárních modelů. Této funkci musíme specifikovat rozdělení výsledku (argument family) a také případně linkovací funkci. Výsledek uložíme do proměnné model1 a zobrazíme funkcí summary(). model1 <- glm(chd ~ tobacco, family = binomial(link=“logit“), data = heartdisease) summary(model1)
Tato funkce nám mimo jiné zobrazuje hodnoty odhadů regresních koeficientů. Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.18943 0.13900 -8.557 < 2e-16 *** tobacco 0.14527 0.02476 5.866 4.46e-09 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1)
Nesmíme zapomenout, že abychom mohli regresní koeficienty interpretovat jako poměry šancí, musíme použít exponenciální transformaci. exp(coef(model1)[2]) tobacco 1.156351
Náš jednoduchý příklad potvrzuje, že přírůstek 1 kg ve spotřebě tabáku statisticky významně zvyšuje „šanci“ na ischemickou chorobu srdeční o 15%.
4. Analýza deviance Ve výukové jednotce 2 jsme se seznámili s analýzou rozptylu a jejím významem pro porovnávání různých lineárních regresních modelů. O tento nástroj u zobecněných lineárních modelů nepřicházíme. Je však potřeba definovat novou statistiku, která bere v úvahu odhad parametrů modelu metodou maximální věrohodnosti. Touto statistikou je tzv. deviance, která je dvojnásobkem rozdílu mezi logaritmem věrohodnosti maximálního modelu (značíme l (y; y ) , tedy takový hypotetický model, u kterého modelové parametry a vstupní data splývají, jeho věrohodnost je největší možná) a logaritmem věrohodnosti zkoumaného modelu (značíme l (µˆ ; y ) ,s omezeným počtem parametrů, jež jsou odhadovány metodou maximální věrohodnosti).
D = 2[l (y; y ) − l (µˆ ; y )] Uvažujme modelovací příklad s n pozorováními. Výsledky se snažíme modelovat pomocí prediktorů s využitím určitého počtu parametrů. Samozřejmě platí, že čím více parametrů použijeme, tím blíže se s predikcemi dostaneme ke skutečným pozorováním. Zavedeme si tedy následující pojmy: •
Model s n parametry MAXIMÁLNÍ MODEL → veškerá variabilita do systematické složky
•
Model s k parametry ZKOUMANÝ MODEL
•
když vyloučíme některý prediktor (m < k parametrů) SUBMODEL
•
Model s 1 parametrem (konstantou – průměrem) NULOVÝ MODEL → veškerá variabilita do náhodné složky
Nyní můžeme podobně jako v analýze rozptylu formálně testovat, zda se od sebe modely ve svých predikčních schopnostech statisticky významně liší. Statistika rozdíl deviancí představuje testové kritérium pro rozdíl mezi zkoumaným modelem a jeho submodelem:
∆D = 2[l (µˆ ; y ) − l (µˆ SUB ; y )] Je-li ∆D > χ21-α(k-m), kde χ21-α představuje kvantil chí-kvadrát rozdělení, m je počet odhadovaných parametrů submodelu a k je počet parametrů zkoumaného modelu, pak je submodel nevhodný – přehnaně zjednodušující. Pro orientační test, zda ve zkoumaném modelu nechybí významný prediktor modelu, můžeme testovat, zda se od sebe liší zkoumaný a maximální model. V tom případě jako testové kritérium použijeme tzv. reziduální devianci a počet stupňů volnosti pro kvantil chí-kvadrát rozdělení je dán rozdílem mezi počtem pozorování (tedy počtem parametrů maximálního modelu) a počtem parametrů zkoumaného modelu. Pro orientační test, zda náš zkoumaný model vůbec vysvětluje nějakou variabilitu ve srovnání s prostou konstantou, můžeme testovat, zda se od sebe liší zkoumaný a nulový model. V tom případě jako testové kritérium použijeme rozdíl reziduální a nulové deviance (obě tyto statistiky uvádí software R ve standardním výstupu) a počet stupňů volnosti pro kvantil chí-kvadrát rozdělení je dán počtem parametrů zkoumaného modelu zmenšeným o 1. Uvedené vztahy jsou graficky znázorněny na obrázku 5.3.
TESTY
Submodel
m
SUBMODEL
k
n-k
k-m
NULOVÁ minus REZIDUÁLNÍ
n
Zkoumaný model
Nulový model
DEVIANCE
REZIDUÁLNÍ
Maximální model
POČET PARAMETRŮ
VĚROHODNOST
1
k-1
Obr. 5.3 Znázornění využití deviance k testování významnosti rozdílů mezi vnořenými zobecněnými lineárními modely
Akaikeovo informační kritérium Pokud se snažíme zvolit nejlepší statistický model vysvětlující daná data, deviance (resp. věrohodnost) nemůže být jediným kritériem. Je jasné, že pokud bychom modely seřadili podle deviance, nejlepší bude právě maximální model, který je ale z praktického hlediska nepoužitelný. Ani vložení všech vysvětlujících proměnných, které máme v našem datovém souboru k dispozici, nemusí být nejlepším řešením – v minulé výukové jednotce jsme zmiňovali problém přeučení modelu. Jako nástroj pro jednoduchý předvýběr zobecněných lineárních modelů se často využívá Akaikeovo informační kritérium (AIC). Součástí tohoto kritéria je vedle logaritmu věrohodnosti (l) i počet parametrů zkoumaného modelu (k).
AIC = −2l (µˆ ; y ) + 2k Čím je hodnota AIC menší, tím považujeme model za lepší. Zahrnutím k (počtu parametrů) AIC penalizuje modely s vysokým počtem použitých parametrů a tak zamezuje přeučení statistického modelu.
5. Poissonův regresní model 5.1. Definice Poissonova regresního modelu Cílem Poissonova regresního modelu je modelování proměnných s poissonovsky rozděleným výsledkem. Poissonovo rozdělení je diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (jediný parametr λ). Poissonovo rozdělení má tuto pravděpodobnostní funkci: P(Y = y ) =
λ y e −λ y!
,y≥0
Střední hodnota a rozptyl jsou dány jediným parametrem λ. EY = λ , DY = λ
Abychom Poissonův regresní model nadefinovali, uvažujme jedno pozorování (např. jedna Petriho miska, na které počítáme buňky, jeden rok, kdy zaznamenáváme pacienty nově diagnostikované s nádorovým onemocněním). Toto pozorování je rozděleno poissonovsky:
Yi ~ Po(λi ) i = 1,..., n Srovnejme lineární regresi (vlevo) s Poissonovou regresí (vpravo) µ i = β 0 + β1 xi1 + ... + β p xip
ln(λi ) = β 0 + β1 xi1 + ... + β p xip
i = 1,..., n
i = 1,..., n
modelujeme spojitý výsledek hodnota parametru (střední hodnoty) je rovna lineárním prediktoru
modelujeme poissonovský výsledek hodnota parametru (střední hodnoty) je rovna transformovanému prediktoru: hodnota lineárního prediktoru odpovídá střední hodnotě transformované přirozeným logaritmem
Stejně jako u logistické regrese používáme linkovací funkci, která nám pomáhá modelovat pomocí lineárního prediktoru (který nabývá různých hodnot na reálné ose) výsledek, který by měl být určitě pozitivní. Takovou funkcí je přirozený logaritmus (obr. 5.4).
6
2
0
-2
2
4
exp(x) exp(η)
1 0 -1
log(x) ln(m)
0
2
4
6
8
10
-2
-1
xm
0
1
2
xη
Obr. 5.4 Linkovací funkce v Poissonově regresním modelu
5.2. Interpretace koeficientů logistického regresního modelu Použití přirozeného logaritmu vede k užitečné interpretaci regresních koeficientů Poissonova modelu. Představme si dvě populace, z nichž jedna žije ve znečištěné oblasti. Pomocí Poissonova regresního modelu bychom chtěli odhadnout vliv tohoto znečištění na nemocnost. Uvažujme tedy populaci 1 žijící v oblasti bez znečištění (proměnná x = 0) a populaci 2 žijící ve znečištěné oblasti (proměnná x = 1): Populace 1 (bez znečištění, x = 0) ln(m1 ) = β 0 + x ⋅ β1 ln(m1 ) = β 0 m1 = exp(β 0 )
Populace 2 (znečištění, x = 1) ln (m 2 ) = β 0 + x ⋅ β1 ln (m 2 ) = β 0 + β1 m2 = exp( β 0 + β1 )
Poměr rizik (risk ratio) pro populaci 2 ve srovnání s populací 1 je tedy:
RR (2,1) =
m2 exp( β 0 + β1 ) exp( β 0 ) exp( β1 ) = = = exp( β1 ) m1 exp( β 0 ) exp( β 0 )
exp(odhad regresního koeficientu) tedy představuje poměr rizik dané choroby v souvislosti s daným prediktorem. Binární prediktor jsme si právě ukázali. V případě spojitého prediktoru platí, že s každou jednotkou roste riziko na danou událost násobkem exp(odhad regresního koeficientu). Tedy např. s rostoucí koncentrací nějakého měřeného karcinogenu v pitné vodě roste riziko sledovaného onemocnění.
5.3. Ověření správnosti Poissonova regresního modelu Pro ověření správnosti Poissonova regresního modelu platí principy zmíněné u lineární regrese a nástroje zmíněné u logistické regrese – i u Poissonovy regrese využíváme např. Pearsonových nebo deviančních reziduí, konkrétní definice je ale odlišná.
6. Nadměrný rozptyl – overdispersion V této výukové jednotce jsme se věnovali Poissonově a logistické regresi. U obou těchto rozdělení platí, že střední hodnota a rozptyl spolu pevně souvisejí: •
•
v Poissonově rozdělení platí je li střední hodnota 1,5, je rozptyl rovněž 1,5 (návštěv na urgentním příjmu, moučných červů v objemu mouky,...) v Binomickém rozdělení platí je li střední hodnota 1,5, je rozptyl 0,75 (za předpokladu, že pracujeme se třemi „experimenty“, tedy v situaci, kdy např. odhadujeme počet chlapců mezi třemi potomky)
Problém je, že se v praxi dostáváme často do situace, kdy rozdělení výsledku zcela neodpovídá těm modelovým. Důvodem je jistá korelace mezi výsledky, která je v rozporu s předpoklady obou zmíněných rozdělení. Může se to například stát v situaci, kdy jsou v datech nějaké zřejmé shluky (například různé nemocnice, lékaři, laboratoře, přístroje) v rámci kterých spolu výsledky korelují více než napříč shluky. Na nadměrný rozptyl nás může upozornit vysoká reziduální deviance, a tedy značná významnost příslušného statistického testu. Řešením může být přidání dalšího prediktoru (pokud jej máme naměřen). V rámci definice modelu pro odhad parametrů je to možné řešit uvolněním předpokladů o vztahu mezi střední hodnotou a rozptylem. V tomto případě odhadujeme zvlášť tzv. disperzní parametr (je to vlastně analogie odhadu rozptylu z lineárního statistického modelu). Například v software R je možné uvolnit předpoklady prostřednictvím nastavení argumentu family=quasibinomial nebo family=quasipoisson.
Problémy k řešení 1. Logistický model poskytnul odhad poměru šancí (odds ratio) 6 pro danou nemoc pro osoby s rizikovým faktorem ve srovnání s běžnou populací. Jaká je pravděpodobnost výskytu onemocnění mezi osobami s rizikovým faktorem, víme-li, že v běžné populaci touto chorobu trpí každý pátý jedinec? [60%] 2. Vyzkoušejte si samostatně řešený praktický příklad z kapitoly 3.4. Jaký může být problém se zjištěným poměrem šancí pro spojitou proměnnou tobacco? [není zaručeno, že nárůst šance (rizika) ischemické choroby srdeční roste lineárně, ověřte předpoklad pomocí analýzy reziduí, vyzkoušejte funkci scatter.smooth()] 3. Převeďte proměnnou tobacco na kategoriální (kuřák/nekuřák). Jaký je poměr šancí (na výskyt ischemické choroby srdeční) pro kuřáky ve srovnání s nekuřáky? [poměr šancí je 4,2] 4. V minulé výukové jednotce jsme hovořili o zavádějících faktorech. Potenciální zavádějícím faktorem by v naší úloze mohl být například věk. Přidejte tedy věk mezi vysvětlující proměnné a odhadněte znovu poměr šancí (nyní adjustovaný na věk) pro kuřáky ve srovnání s nekuřáky. [poměr šancí je 2,5, věk je v modelu významným prediktorem výsledku] 5. Sestavte vztah, který by predikoval pravděpodobnost výskytu ischemické choroby srdeční dle věku a kategorie spotřeby tabáku (kuřák/nekuřák) [ expit(-4,032 + 0,059·věk + 0,917(pokud je subjekt kuřák) )]
Literatura Použitá literatura [1] Hosmer, D.W. , Lemeshow, S.: Applied Logistic Regression. Wiley, Hoboken (2004). [2] Le Cessie, S., Van Houwelingen, J. C.: A goodness-of-fit test for binary regression models, based on smoothing methods. Biometrics 47: 1267-1282 (1991). Použité datové soubory • [heartdisease] dostupný z http://statweb.stanford.edu/~tibs/ElemStatLearn/