7 Regresní modely v analýze přežití
Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce 3. Student zná výhody a nevýhody neparametrických a parametrických modelů přežití 4. Student umí formulovat model proporcionálních rizik 5. Student umí formulovat model zrychleného času
Regresní modelování obecně využívá statistickou metodiku pro hodnocení vztahu mezi vysvětlovanou proměnnou a vysvětlujícími proměnnými. V případě analýzy přežití je vysvětlovanou proměnnou čas do výskytu sledované události, který je ovšem z důvodu cenzorování problematický, protože v pozorovaných hodnotách se míchají kompletní a nekompletní údaje. Stejně jako pro popisnou analýzu a testování jednoduchých hypotéz o datech přežití tak musíme i pro regresní modelování časů přežití využít nestandardních postupů, které se liší od modelů používaných pro modelování dat bez cenzorovaných hodnot. Tato kapitola představuje úvod do problematiky regresních modelů v analýze přežití, další kapitoly se pak podrobněji věnují Coxovu modelu a nástrojům regresní diagnostiky.
7.1 Úvod Metodika analýzy přežití zahrnuje i vlastní modelovací postupy, které se umí vypořádat s cenzorovanými hodnotami, na něž standardní regresní modely nejsou použitelné. Nemámeli však v hodnoceném souboru cenzorované hodnoty, můžeme pro hodnocení dat přežití teoreticky použít i standardní modely. Prakticky je však standardní metodika statistických modelů nevhodná i z dalších důvodů, kterými jsou zejména tyto tři: •
Čas přežití může nabývat pouze kladných hodnot a má kladně sešikmené rozdělení pravděpodobnosti. V analýze přežití se používají specifická rozdělení pravděpodobnosti, která vykazují vlastnosti nevhodné pro standardní statistické modely (např. zobecněné lineární modely).
•
Vzhledem k časové složce, kterou data přežití obsahují, nás často místo odhadu střední hodnoty zajímá odhad pravděpodobnosti přežití v daném časovém bodě.
•
V analýze přežití často nemodelujeme přímo pozorované hodnoty, ale odpovídající rizikovou funkci. Regresní modely v analýze přežití jsou tak založeny na rizikové funkci, která lépe popisuje chování přežití sledované skupiny subjektů než hustota pravděpodobnosti.
Předpokládejme tedy, že jsme v situaci, kdy chceme analyzovat a hlavně nějakým způsobem kvantifikovat vliv vysvětlující proměnné na přežití pacientů (obecně na dobu do sledované události). Jak to můžeme udělat? V zásadě bychom měli udělat tři kroky:
1. V první řadě bychom měli sestrojit Kaplanovy-Meierovy odhady pro jednotlivé skupiny, které nám poskytnou náhled na rozdílný nebo stejný průběh přežití srovnávaných skupin subjektů. Tento postup však umožňuje pouze vizualizaci a optické zhodnocení rozdílu mezi skupinami danými jednou proměnnou. Nic nekvantifikuje a navíc nebere v úvahu vliv dalších proměnných. 2. Dalším v pořadí je Mantelův-Haenszelův log-rank test, který umožňuje statistické zhodnocení rozdílu v přežití pomocí testové statistiky a s ní související p-hodnoty. Test ovšem také neposkytuje kvantifikaci pozorovaného rozdílu v přežití (např. efektu léčby) a nebere v úvahu více než jednu proměnnou. 3. Až použití regresního modelu nám umožňuje současně uvažovat vliv více proměnných a vzájemně tak adjustovat jejich vlivy. Zároveň nám umožňuje kvantifikaci statistické významnosti i velikosti rozdílu v přežití jednotlivých skupin (kvantifikace pozorovaného efektu). V analýze přežití existují dva hlavní modelovací přístupy umožňující vyjádřit vztah vysvětlujících proměnných a času do sledované události jako závisle proměnné a těmi jsou modely proporcionálních rizik (proportional hazards models), kde jsou vysvětlující proměnné vztaženy k rizikové funkci náhodné veličiny T, a tzv. modely zrychleného času (accelerated failure time models, AFT modely), kde jsou vysvětlující proměnné vztaženy k funkci (pravděpodobnosti) přežití.
7.2 Modely proporcionálních rizik Modely proporcionálních rizik jsou v současnosti nejpoužívanějšími modely v analýze přežití, což plyne zejména z jejich intuitivní interpretace a jednoduchosti použití. Regresní model proporcionálních rizik je vyjádřen pomocí rizikové funkce vztahem , exp ⋯ exp ,
(7.1)
kde index i označuje pacienty, je vektor vysvětlujících proměnných i-tého subjektu, je vektor regresních koeficientů příslušných jednotlivým proměnným a h0(t) je tzv. základní riziková funkce (baseline hazard function), která je společná všem pozorovaným subjektům. Výraz exp( ) vyjadřuje tzv. poměr rizik (hazard ratio, HR) daného subjektu vzhledem k subjektu se základním rizikem, který je definován pomocí vektoru vysvětlujících proměnných xi = 0. Vektorem xi = 0 tak většinou označujeme subjekty odpovídající referenční skupině pacientů. Obecně lze poměr rizik pro subjekty s vektory vysvětlujících proměnných x1 a x2 vyjádřit pomocí vztahu , exp exp ′. , exp
(7.2)
Ze vztahu (7.2) je vidět, že poměr rizik dvou subjektů je v modelu proporcionálních rizik nezávislý na čase, což představuje základní předpoklad této rodiny modelů. A ten je samozřejmě třeba v rámci analýzy vždy ověřit, aby reprezentace dat přežití pomocí modelu proporcionálních rizik byla validní. Ověřením tzv. proporcionality rizik (proportional hazards) se zabývá kapitola o metodách regresní diagnostiky.
Vztah (7.1) můžeme zjednodušit s použitím logaritmické transformace, někdy také říkáme, že rovnici linearizujeme. Aplikací přirozeného logaritmu na rovnici (7.1) získáme vztah ln , ln ⋯ .
(7.3)
Předchozí vztahy (7.2) a (7.3) lze shrnout do tří předpokladů modelů proporcionálních rizik: 1. Vztah mezi vysvětlujícími proměnnými a přirozeným logaritmem rizikové funkce (ln , ) je lineární;
2. Nebereme-li v úvahu interakce jednotlivých proměnných, mají vysvětlující proměnné na škále ln , aditivní vliv; 3. Vliv vysvětlujících proměnných na rizikovou funkci je stejný v každém čase t.
Podle charakteru základní rizikové funkce h0(t) rozdělujeme modely proporcionálních rizik na dvě skupiny: parametrické, kde h0(t) je specifikována s použitím konkrétního rozdělení pravděpodobnosti (a jeho parametrů), a semiparametrické, kde h0(t) není specifikována. Analyticky je možnost vynechat konkrétní specifikaci základní rizikové funkce výhodná, neboť ve většině reálných aplikací nemáme apriorní znalost o rozdělení pravděpodobnosti časů přežití. Nejznámějším semiparametrickým modelem proporcionálních rizik je Coxův model, kterému je věnována následující kapitola. 7.2.1 Parametrické modely proporcionálních rizik Pro parametrické modely proporcionálních rizik platí, že h0(t) má konkrétní vyjádření dané vybraným rozdělením pravděpodobnosti. Předpoklad konkrétního rozdělení je zároveň výhodou i nevýhodou těchto modelů. Znalost rozdělení, z něhož pocházejí pozorované hodnoty, nám umožňuje přesné odhady regresních koeficientů, špatný předpoklad však může vést k nevhodné reprezentaci dat modelem. Pro jednoduchost zde zmíníme pouze dva základní parametrické modely: exponenciální regresní model daný rovnicí , exp ⋯ exp
(7.4)
a Weibullův regresní model definovaný vztahem , exp ! "# exp .
(7.5)
Odhad regresních koeficientů parametrického modelu, $ , % ∈ 1, … , ), je založen na věrohodnostní funkci pro cenzorovaná data, která byla definována v kapitole Parametrické odhady. S použitím výše uvedeného značení se jedná o vztah ,
* , , + , , + , … , , , +, -ln , ./ ln 0 , . 1
(7.6)
Ze vztahů (7.4) a (7.5) jsou patrná omezení exponenciálního a Weibullova modelu. Prvním z nich je předpoklad konstantního základního rizika v čase u exponenciálního modelu, který je v případě klinických dat vzácný a každopádně je třeba ho ověřit. V případě Weibullova modelu pak rovnice připouští pouze monotónní základní rizikovou funkci (a z toho plynoucí monotónní rizikové funkce ve všech podskupinách definovaných vysvětlujícími proměnnými), což je někdy z hlediska flexibility popisu dat přežití nedostatečné. 7.2.2 Semiparametrické modely proporcionálních rizik Semiparametrický model proporcionálních rizik, jak už název napovídá, má jak parametrickou, tak i neparametrickou složku. Model je neparametrický v tom ohledu, že není nutné pomocí konkrétního rozdělení pravděpodobnosti specifikovat základní rizikovou funkci h0(t). Na druhé straně je však i parametrický, neboť uvažujeme parametry popisující vliv vysvětlujících proměnných na rizikovou funkci. Nejznámějším a nejpoužívanějším semiparametrickým modelem v analýze přežití je Coxův model, kterému jsou věnovány kapitoly 8 a 9.
7.3 Modely zrychleného času (Accelerated Failure Time, AFT) Regresní AFT model je vhodnou alternativou pro model proporcionálního rizika tehdy, když je předpoklad proporcionality rizik porušen. Jeho princip je založen na tom, že čas přežití i-tého subjektu, Ti, je nezáporný, z čehož plyne, že můžeme modelovat jeho logaritmus. AFT model je tedy definován pomocí rovnice ln 2 3 ,
(7.7)
kde 3 je reziduální člen s daným rozdělením pravděpodobnosti. Zvolíme-li si referenční skupinu pacientů, pro které je hodnota vektoru vysvětlujících proměnných xi = 0, dostaneme vyjádření jejích časů přežití jako 2 exp3 . Funkci přežití S0(t), která odpovídá referenční skupině pacientů, nazýváme základní funkce přežití (baseline survival function). Nyní uvažujme vliv vektoru vysvětlujících proměnných x. Pokud ze vztahu (7.7) vyjádříme T s využitím referenčních dob přežití, T0i, vidíme, že vysvětlující proměnná má vzhledem k času přežití multiplikativní efekt: 2 exp exp 3 2 exp .
(7.8)
Z toho plyne, že pravděpodobnost přežití i-tého subjektu s vektorem vysvětlujících proměnných x déle než do času t můžeme vyjádřit pomocí vztahu 0, 42 exp 5 4 62 5
7 0 6 7. exp exp
(7.9)
Tento vztah lze interpretovat tak, že pravděpodobnost přežití pacienta s vektorem vysvětlujících proměnných x v čase t je rovna pravděpodobnosti přežití pacienta z referenční skupiny v čase /exp . V případě pacientů, kteří neodpovídají referenční skupině, tak
můžeme říci, že čas běží rychleji či pomaleji dle faktoru exp . Odhad regresních koeficientů v AFT modelu je opět založen na metodě maximální věrohodnosti.
Problémy k řešení: 1. Vyjádřete derivaci logaritmu funkce věrohodnosti exponenciálního regresního modelu s jednou vysvětlující proměnnou (nabývající hodnot 0 a 1). Využijte parametrizaci h0 = exp(β0). (V řešení jsme označili d1 a d2 počty pozorovaných událostí a n1 a n − n1 počty subjektů ve sledovaných skupinách) [Řešení: parciální derivace podle β0: ,< 9* ⁄9 + + exp ∑1 exp ∑,1,< = ; parciální derivace podle β1: 9* ⁄9 + exp ∑,1,< = ] Doporučená literatura: 1. Marubini E, Valsecchi MG. Analysing Survival Data from Clinical Trials and Observational Studies. 1995, John Wiley & Sons, Chichester, United Kingdom. 2. Collet D. Modelling Survival Data in Medical Research. 2003, Chapman & Hall/CRC, London.