Eötvös Loránd Tudományegyetem Természettudományi Kar
Házastársak élettartamának vizsgálata Szakdolgozat
Töttösi Nikolett Matematika BSc Alkalmazott matematikus szakirány
Témavezet®:
Csiszár Vill®
adjunktus Valószín¶ségelméleti és Statisztika Tanszék
Budapest, 2012
.
Tartalomjegyzék
Bevezet®
5
1. Túlélés-analízis 1.1. 1.2. 1.3. 1.4.
Alapdeníciók . . . . . . . A függés típusai . . . . . . Egyéni túlélések vizsgálata Együttes túlélés vizsgálata
7 . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
2. A kopula modell
12
2.1. 2.2. 2.3. 2.4.
A kopula modell általában . . . . . . . . . . . . Gauss- és t-kopula . . . . . . . . . . . . . . . . Arkhimédészi kopulák . . . . . . . . . . . . . . Egyéni túlélések vizsgálata kopulák segítségével 2.4.1. Speciális esetek . . . . . . . . . . . . . . 2.4.2. Arkhimédészi kopulák alkalmazásával . . 2.5. Közös túlélés vizsgálata kopulák segítségével . . 2.5.1. Speciális esetek . . . . . . . . . . . . . . 2.5.2. Arkhimédészi kopulák alkalmazásával . . 2.6. A paraméterek becslése . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
3. Rövid idej¶ függ®ség vizsgálata 3.1. 3.2. 3.3. 3.4.
Markov modell . . . . . . . Kiterjesztett Markov modell A paraméterek becslése . . . A modell tesztelése . . . . .
7 8 9 10
. . . .
12 15 15 18 20 21 22 22 24 27
31 . . . .
. . . .
. . . .
Irodalomjegyzék
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
31 32 34 35
36 III
Köszönetnyilvánítás Ezúton szeretném megköszönni témavezet® tanáromnak, Csiszár Vill®nek, hogy elvállalta a konzulensi teend®ket. Köszönöm, hogy a félév során gyelemmel kísérte munkámat, ötleteivel és szakmai tanácsaival nagyban segítette szakdolgozatom elkészülését. Külön köszönettel tartozom családomnak, akik az évek során mellettem álltak és támogatták tanulmányaimat.
IV
Bevezet® A túlélés-analízis egyik népszer¶ ága a házastársak élettartamával foglalkozik. Számos statisztika bizonyítja ugyanis, hogy azoknak az embereknek az élettartama, akik kapcsolatban állnak egy másik személlyel lényegesen hosszabb, mint azoké, akik egyedülállók. A kapcsolatban állók között is vannak különbségek. Megkülönböztetünk rövid- és hosszú idej¶ függést. Rövid idej¶ függés van két élet között amikor a túlél® házastárs halálának az esélye növekszik az együtt eltöltött id® függvényében. Hosszú idej¶ függésnél pedig pont fordítva, azaz minél kés®bb hal meg a párja, annál kisebb lesz az ® halálának valószín¶sége, vagy egyáltalán nem is változik. Szakdolgozatomban mindkét esetre ismertetek egy-egy példát. Az els® fejezet egy kisebb elméleti bevezet®. Bemutatom a túlélési függvényt, a hazárdfüggvényt és a cenzorálás fogalmát is, amik nélkül a házastársak túlélésvizsgálata lehetetlen lenne. Kitérek két külön esetre is. Az egyik, amikor külön-külön nézem a két félt és az élettartamukról szeretnék mondani valamit, míg a másik esetben együtt vizsgálom ®ket és meghatározom, hogy az adott pillanatban hány év után várható az els® halála és hány év után a másodiké. A második fejezetben a hosszú idej¶ függés egy modelljét, pontosabban a kopula modellt vizsgálom. A kopula modell napjaink egyik legnépszer¶bb eszköze a házastársak élettartamának vizsgálatában. Ez a fogalom nem tekint vissza hosszú múltra, ám mára már számos területen felhasználták. Népszer¶ségre könnyen kezelhet®sége és követhet® lépései miatt tett szert. Ebben a szakaszban ismertetem a fogalmakat, összefüggéseket és kitérek néhány speciális eset bemutatására. Ilyen például, amikor két élet független egymástól, vagy rendelkeznek egy adott tulajdonsággal. Ebben a fejezetben az ötleteket f®ként a [3]. forrásból merítettem. A harmadik és egyben az utolsó fejezet a rövid idej¶ függés egy modelljét taglalja. Deniálom a Markov-modellt, amit kiterjesztek úgy, hogy kell®képp hiteles képet adjon nekünk err®l a függésr®l. A fejezetben megmutatom, hogyan becsüljük a paramétereket, 5
TARTALOMJEGYZÉK
TARTALOMJEGYZÉK
valamint adok egy olyan módszert, amivel meg lehet vizsgálni, hogy a férj és a feleség élettartamára ugyanannyira van-e hatással a másik halála. Ebben a részben a [4] forrásra támaszkodtam.
6
1. fejezet Túlélés-analízis A házastársak túlélésének vizsgálatához szükségünk van pár denícióra és azok tulajdonságaira, amiket a kés®bbiekben alkalmazni tudunk.
1.1. Alapdeníciók 1.1.1. Deníció (túlélési függvény). Legyen adott egy T valószín¶ségi változó (az egyén hátralév® ideje) és egy t ∈ R szám (id®tartam). Legyen S(t) = P (T > t), azaz annak valószín¶sége, hogy a halál kés®bb, mint t id® múlva következik be. Ekkor S(t)-t túlélési függvénynek, vagy más néven túlélhet®ség függvénynek nevezzük. Általában feltesszük, hogy S(0) = 1, habár ez a valószín¶ség igazából kisebb 1-nél, ha az azonnali halált is számba vesszük. Ez a függvény a 0-hoz tart, ugyanis még nem találták meg az örök élet titkát.
1.1.2. Deníció (hazárdfüggvény). A hazárdfüggvény (lényegében a pillanatnyi kockázat) t id®ben a halálozás esélye feltéve, hogy a túlélés t-ig, vagy tovább tart, azaz µ(t) = P (t ≤ T < t+ε | T > t). Vagyis annak a feltételes valószín¶sége, hogy a meggyelt személy ε < id®n belül meghal, feltéve, hogy a t id®pontban még élt. Ezt a függvényt más módszerrel is meg tudjuk határozni. µ(t) = P (t ≤ T < t + ε | T > t) = ∂ S(t) P (t ≤ T < t + ε, T > t) P (t ≤ T < t + ε) f (t) ∂t = = = =− , P (T > t) P (T > t) S(t) S(t)
ahol f (t) a túlélési függvény s¶r¶ségfüggvénye. 7
A függés típusai
Túlélés-analízis
Cenzorálás
El®fordulhat egy adott vizsgálat során, hogy van néhány adat, amely nagyban kilóg a meggyelés adott id®tartamából. Ilyenkor csak annyit tudunk feljegyezni magunknak, hogy a várt jelenség korábban, vagy kés®bb következett be, mint ahogy mi vártuk. Ezt nevezzük cenzorálásnak. Bizonyos esetekben el®fordulhat, hogy a cenzorált adatok nem hagyhatóak gyelmen kívül, mert akkor torzulna a kép. A cenzorálásnak a következ® típusait különböztethetjük meg: •
felülr®l való levágás: amikor egy várt esemény egy adott id®pontnál kés®bb következik be. Jelen esetben a meggyelt személy a meggyelés id®tartama alatt élve marad. Ilyenkor ezeket az adatokat szokás kihagyni a vizsgálatból.
•
alulról való levágás: amikor nem tudjuk mióta állnak kapcsolatban az egyének, vagy mi történt a vizsgálat el®tt. A meggyelés kezdetén csak a koruk számít nekünk.
1.2. A függés típusai A továbbiakban tekintsünk két életet (férj és feleség). Legyen a férj x és a feleség y korú a vizsgálat kezdetén. Jelölje Tx és Ty a hátralév® élettartamukat. Feltesszük, hogy ezek a valószín¶ségi változók abszolút folytonos eloszlásúak ωx −x és ωy −y fels® határokkal, ahol ωx és ωy a házastársak maximum életkorát jelölik. Legyen t ∈ [0, ωx − x) és s ∈ [0, ωy − y) esetén µ1 (x + t) és µ2 (y + s) a házastársak hazárdfüggvénye külön-külön. Legyen µ1 (x + t | Ty = ty ) a férj feltételes hazárdfüggvényét t id®re (azaz x + t korig), ha a feleség ty év után meghalt, ahol ty ∈ [0, s) (vagyis ty id®t töltöttek el közösen). Hasonlóan jelölje µ2 (y + s | Tx = tx ) a feleség feltételes hazárdfüggvényét s év után, ha a férj tx év után hunyt el, ahol tx ∈ [0, t) . Ezek után deniálhatjuk a függés két típusát:
1.2.1. Deníció. Tx és Ty hátralév® élettartamok rövid idej¶ függést mutatnak, ha µ1 (x + t | Ty = ty ) egy monoton növeked® függvény ty -ra nézve (másképpen, ha µ2 (y + s | Tx = tx ) egy monoton növeked® függvény tx -re nézve). Tx és Ty hátralév® élettartamok hosszú idej¶ függést mutatnak, ha µ1 (x + t | Ty = ty ) konstans (állandó), vagy monoton csökken® függvénye ty -nak (ekvivalensen, ha µ2 (y + s | Tx = tx ) konstans, vagy monoton csökken® függvénye tx -nek). 8
Egyéni túlélések vizsgálata
Túlélés-analízis
Ez a deníció tehát a következ®t mondja ki: rövid idej¶ függés van két élet között amikor a túlél® házastárs halálának az esélye növekszik az együtt eltöltött id® függvényében. Hosszú idej¶ függésnél pedig pont fordítva, azaz minél kés®bb hal meg a párja, annál kisebb lesz az ® halálának valószín¶sége, vagy egyáltalán nem is változik. A továbbiakban 3 darab túlélési függvényre lesz szükségünk: • S1 (tx ) = P (Tx > tx ) a férj túlélési függvénye; • S2 (ty ) = P (Ty > ty ) a feleség túlélési függvénye; • S(tx , ty ) = P (Tx > tx , Ty > ty ) a közös túlélési függvényük.
A házastársak túlélésének vizsgálatánál a következ® eseteket vizsgálhatjuk meg: 1. A feleség elhunyt és a férj még életben van. Ilyenkor a férj hátralév® élettartamát vizsgáljuk. 2. A feleség még életben van, de a férj elhunyt, amikor is a feleség fennmaradó idejére koncentrálunk. 3. Mindketten életben vannak. Ekkor további három dolgora lehetünk kíváncsiak: • A házasság alatt várhatóan kit ér el®bb a halál és kit utóbb. • A házasság alatt a férj várhatóan meddig él, ha tudjuk, hogy a feleség megél
egy adott id®tartamot. • A házasság alatt a feleség várhatóan meddig él feltéve, hogy a férj túlél egy
adott id®t.
1.3. Egyéni túlélések vizsgálata Ebben az alfejezetben egyének túléléseit vizsgáljuk. Nézzük el®ször a legels® esetet, vagyis tegyük fel, hogy a feleség elhunyt ty és ty + dt id®tartam között (vagyis ez jelöli a halál pillanatát), ahol ty ∈ [0, t] (t a vizsgálat id®tartama). Ekkor a férj túlélési függvényére vagyunk kíváncsiak, vagyis arra, hogy mennyi a
9
Együttes túlélés vizsgálata
Túlélés-analízis
valószín¶sége annak, hogy még s id®t élni fog. P (Tx > s + t, Tx > t, Ty = ty ) P (Tx > t, Ty = ty ) ∂ ∂ S(t + s, ty ) − ∂ty P (Tx > t + s, Ty > ty ) P (Tx > s + t, Ty = ty ) ∂ty = = = . ∂ P (Tx > t, Ty = ty ) − ∂t∂y P (Tx > t + s, Ty > ty ) S(t, ty ) ∂ty
S1;t (s | Ty = ty ) = P (Tx > s + t | Tx > t, Ty = ty ) =
Következ®leg vizsgáljuk meg a férj élettartamát akkor, amikor a feleség is még az él®k sorában tartózkodik, és a vizsgálat tartson t ≥ 0 ideig. Ekkor, ha tudjuk, hogy a feleség t id®t él még, akkor a férj feltételes túlélési függvénye el®áll az alábbi alakban: S1;t (s | Ty > t) = P (Tx > t + s | Tx > t, Ty > t) =
P (Tx > t + s, Ty > t) S(t + s, t) P (Tx > t + s, Tx > t, Ty > t) = = . P (Tx > t, Ty > t) P (Tx > t, Ty > t) S(t, t)
Hasonló meggondolással kaphatjuk az S2;t (s | Tx = tx ) feltételes túlélési függvényt, ami a feleség várható élettartamát jelöli, ha a férj elhunyt tx közös id®tartam után és S2;t (s | Tx > t) túlélési függvényt, ami a feleség várható élettartamát mutatja az esküv® pillanatától, ha tudjuk, hogy a férj a házasság alatt él még t id®t. Ezek után lehet®ségünk van a közös túlélési függvény meghatározására. Egy adott t id®tartamra tehát St (s1 , s2 ) felírható: St (s1 , s2 ) = P (Tx > t + s1 , Ty > t + s2 | Tx > t, Ty > t) P (Tx > t + s1 , Ty P (Tx P (Tx > t + s1 , Ty = P (Tx > t, Ty =
> t + s2 , Tx > t, Ty > t) > t, Ty > t) S(t + s1 , t + s2 ) > t + s2 ) = . > t) S(t, t)
1.4. Együttes túlélés vizsgálata Egy speciális problémája a túlélés-analízisnek a két különböz® élet kapcsolatának tanulmányozása. A következ® struktúra gyakran el®fordul az egészségügyben (két vese élettartamának vizsgálata) és más demográai vizsgálatokban (ikerpárok élettartamának vizsgálata) is. A jelölések ebben a fejezetben is legyenek ugyanazok, vagyis Tx és Ty olyan valószín¶ségi változók, amik a férj és a feleség hátralév® élettartamát mutatják. Tegyük fel, hogy a meggyelés t ideig tart. Ennek a kezdetén legyen a fér x, míg a n® y korú. Az egyének életének meggyelése véget ér, ha a halál el®bb következik be, mint a koruk és t összege, vagy ha lejár a t id®. Az utóbbi esetben csak azt tudjuk, hogy a halál mi után következett be, ami a felülr®l való levágást jelenti. 10
Együttes túlélés vizsgálata
Túlélés-analízis
Legyen v = (v1 , v2 , ..., vn ) olyan vektor, aminek az i-edik koordinátája jelöli az i-edik házaspár meggyelését. Ezeket a koordinátákat egy vektor állítja el®, mégpedig: vi = (xi , yi , tix , tiy , cix , ciy ),
ahol xi , yi a férj és a feleség kora a meggyelés kezdetén, tix , tiy a hátralév® életüket jelöli és cij (j ∈ {x, y}) a cenzoráló indikátor: ( cij =
0, ha tij = t (cenzorálás) 1, ha tij < t (nincs cenzorálás)
Az egyik legfontosabb kérdés a sok lehetséges közül az, hogy vajon meddig fognak a házastársak élni. A következ®kben becslést adok a jöv®beli élettartamok eloszlására a belépési korokat gyelembe véve. Az együttes els® élet túlélési függvény (joint rst-life survival function ): pF L (t; x, y) = P (min {X − x, Y − y} > t | min {X − x, Y − y} > 0)
Ez adja annak a valószín¶ségét, hogy együtt megélnek t id®t, vagy máshogy fogalmazva a házasságban az els® halál t id® után következik be. Az együttes utolsó túlél® függvény (joint last-survivor function ): pLS (t; x, y) = P (max {X − x, Y − y} > t | min {X − x, Y − y} > 0)
Annak a valószín¶sége, hogy a tovább él® fél mikor hal meg. Egy egzakt formulával is megadható ez a két függvény a kétváltozós közös túlélési függvénnyel, vagyis S(tx , ty )-nal: pF L (t; x, y) =
és pLS (t; x, y) =
S(x + t, y + t) S(x, y)
S(x, y + t) + S(x + t, y) − S(x + t, y + t) S(x, y)
11
2. fejezet A kopula modell A kopula modell napjaink egyik legnépszer¶bb módszere a valószín¶ségi változók közötti összefüggések vizsgálatában, f®ként a biostatisztika, a biztosításmatematika és a pénzügy területén. A kopulák alapötlete, hogy többdimenziós eloszlás esetén szeretnénk az egydimenziós valószín¶ségi változók közötti függ®séget modellezni úgy, hogy a peremeloszlások és az együttes eloszlás között keresünk olyan kapcsolatot, melyet egy többdimenziós függvénnyel kifejezhetünk. Ebben a fejezetben ismertetem a kopula modellt, majd az el®z® fejezetben tárgyaltakkal összhangba hozom.
2.1. A kopula modell általában A kopula függvény (copula - egyesülés, összekötés) összeköti az együttes eloszlásfüggvényt a peremeloszlás függvényekkel. A copula szó el®ször Abe Sklar dolgozatában jelent meg 1956-ban.
2.1.1. Deníció (kopula függvény). A C : [0, 1]n → [0, 1] n változós függvény kopula függvény, ha igazak a következ® tulajdonságok: 1. C(u1 , u2 , . . . , uk−1 , 0, uk+1 , . . . , un ) = 0, ∀u1 , u2 , . . . , un ∈ [0, 1] 2. C(1, 1, . . . , 1, uk , 1, . . . , 1) = uk , ∀uk ∈ [0, 1], ahol k = 1, . . . , n 3. n-növ®, azaz:
∆ba C(u) = ∆ba11 . . . ∆bann C(u) ≥ 0, ∀a < b ∈ [0, 1]n .
12
A kopula modell általában
A kopula modell
Itt ∆abkk C(u) = C(u1 , . . . , uk−1 , bk , uk+1 , . . . , un ) − C(u1 , . . . , uk−1 , ak , uk+1 , . . . , un ) dierencia. A következ® állítás lényege, hogy egy többváltozós eloszlásfüggvény megadható a marginálisai függvényében egy kopula segítségével. Ezt az összefüggést Sklar vette észre (amit a [6] forrásban tanulmányoznak):
2.1.1. Tétel (Sklar tétele). Legyen F ∈ F(F1 , . . . , Fn ) egy n dimenziós eloszlásfüggvény F1 , . . . , Fn peremeloszlásokkal. Ekkor ∃C kopula függvény, amire igaz a következ®: F (x1 , . . . , xn ) = C(F1 (x1 ), . . . , Fn (xn ))
. A bizonyításhoz szükségünk lesz egy másik tételre is, ami azt mondja ki, hogy ha adott egy valószín¶ségi változónk és azt a saját eloszlásfüggvényébe beírjuk, akkor egy [0, 1]-en egyenletes eloszlású változót kapunk.
2.1.2. Tétel (Eloszlás-transzformáció). Legyen U egy eloszlás-transzformáltja az X valószín¶ségi változónak, azaz U := F (X, Y ), ahol Y egy (0, 1)-en egyenletes eloszlású valószín¶ségi változó és F (x, λ) := P (X < x) + λP (X = x)
. Ekkor U egyenletes eloszlású valószín¶ségi változó a (0, 1) intervallumon és X = F −1 (U ) m.m.
2.1.1. Megjegyzés. Speciálisan, ha λ = 1, akkor az X valószín¶ségi változó eloszlásfüggvényét kapjuk. Bizonyítás: Legyen 0 < α < 1 esetén qα− (X) := sup{x : P (X ≤ x) < α} egy α-kvantilis. Ekkor F (X, V ) ≤ α akkor és csak akkor, ha (X, V ) ∈ {(x, λ) : P (X < x) + λP (X = x) ≤ α}.
Ha β := P (X = qα− (X)) > 0 és q := P (X < qα− (X)), akkor a fenti halmaz ekvivalens a következ®vel: {X < qα− (X)} ∪ {X = qα− (X), q + V β ≤ α} és 13
A kopula modell általában
A kopula modell
P (U ≤ α) = P (F (X, V ) ≤ α) = q + βP (V ≤
α−q α−q )=q+β = α. β β
Ha β = 0, akkor P (F (X, V ) ≤ α) = P (X < qα− (X)) = P (X ≤ qα− (X)) = α.
A másik állítás bizonyításához vegyük észre, hogy U deníciója miatt fennáll, hogy F (X−) ≤ U ≤ F (X). Mivel bármilyen u ∈ (F (x−), F (x)]-re igaz, hogy F −1 (u) = x, a fenti egyenl®tlenségb®l következik, hogy F −1 (U ) = X m.m. Akkor most nézzük Sklar tételének bizonyítását. Bizonyítás: Legyen X = (X1 , ..., Xn ) egy tetsz®leges vektor az (Ω, A, P ) valószín¶ségi mez®n. Legyen F az együttes eloszlásfüggvény, és V X -t®l független a (0, 1) intervallumon egyenletes eloszlású valószín¶ségi változó (azaz V ∼ U (0, 1)). Tekintsük az Ui := Fi (Xi , V ) eloszlástranszformációt. Ekkor az 2.1.2.Tétel miatt Ui ∼ U (0, 1) és Xi = Fi−1 (Ui ) m.m., ∀1 ≤ i ≤ n. Így az U = (U1 , . . . , Un ) eloszlásfüggvényeként deniált C segítségével írható fel F : F (x) = P (X ≤ x) = P (Fi−1 (Ui ) ≤ xi , 1 ≤ i ≤ n) = P (Ui ≤ Fi (xi ), 1 ≤ i ≤ n) = C(F1 (x1 ), . . . , Fn (xn )),
vagyis F -nek C kopula függvénye. Tekintsük Sklar tételét két változóban. Ekkor a tétel a következ®:
2.1.3. Tétel. Bármely kétváltozós H(x, y) eloszlásfüggvény, melynek folytonosak az F1 , F2 peremeloszlásai, egyértelm¶en reprezentál egy kopula függvényt, mégpedig a C(u, v) = H(F1−1 (u), F2−1 (v)) függvényt. Szükségünk lesz még a következ®kre a kopulák alkalmazásához:
2.1.2. Deníció (Pozitívan kvadratikus összefüggés (PQD)). Legyenek X és Y valószín¶ségi változók. Azt mondjuk, hogy X és Y pozitívan kvadratikusan összefüggnek, ha ∀x, y -ra fennáll, hogy P (X ≤ x, Y ≤ y) ≥ P (X ≤ x)P (Y ≤ y). . 14
Gauss- és t-kopula
A kopula modell
2.1.1. Állítás (Fréchet-Hoeng-határok). Tetsz®leges C(u) n dimenziós kopulára fennáll az alábbi egyenl®tlenség: max
( n X
) ui + 1 − d, 0
≤ C(u) ≤ min {u1 , . . . , un }
i=1
Az egyenl®tlenség bal oldalát szokás Fréchet alsó határnak, a jobb oldalát, pedig Fréchet fels® határnak nevezni.
2.2. Gauss- és t-kopula Az egyik módja a kopula függvények deniálásának a kétváltozós eloszlásfüggvények invertálása. Az együttes viselkedések tanulmányozásánál rendkívül népszer¶ módszereket alakítottak ki. Ilyen például a 2-dimenziós Gauss kopula, ami a C G (u, v; ρ) = Φ2ρ (Φ−1 (u), Φ−1 (v)) −1 (u) Φ−1 (v) ΦZ Z
= −∞
−∞
1 2π
p
1 − ρ2
e
2 −ρxy+y 2 2(1−ρ2 )
−x
dxdy
függvény. Itt Φ(x) az egyváltozós standard normális eloszlásfüggvényt, és Φ2ρ (x, y) a kétváltozós normális eloszlás együttes eloszlásfüggvényét jelöli, melynek marginálisai standard normálisak, ρ korrelációval a peremeloszlások között. A Student t-kopula hasonló alapokra épül, itt a −1 C t (u, v; ρ, ν) = t2ρ,ν (t−1 ν (u), tν (v)) −1 t−1 ν Z (u) tνZ (v)
= −∞
−∞
1 p 2π 1 − ρ2 (1 +
1 x2 −ρxy+y 2 1+ ν2 ) ν(1−ρ2 )
dxdy
kopula a reprezentáló függvény, ahol tν (x) a t-eloszlás ν szabadságfokkal, és t2ρ,ν (x, y) a kétváltozós t-eloszlás eloszlásfüggvénye ρ korrelációval.
2.3. Arkhimédészi kopulák A kopula felépítésének módszere nem korlátozódik a Gauss és a t-eloszlásra, ugyanis ezek az eloszlások nem mindig írják le megfelel®en a valóságot, így vannak sokkal alkalmasabbak is. Használhatjuk a peremeloszlás-függvények helyett a túlélési függvényeket is. 15
Arkhimédészi kopulák
A kopula modell
Tehát lehetnek a kopula függvény argumentumai egyváltozós túlélési függvények, vagyis S1 (tx ) = P (X > tx ) és S2 (ty ) = P (Y > ty ). Ekkor S(tx , ty ) = C(S1 (tx ), S2 (ty )) alakba írható, ahol a C kopula az (S1 (tx ), S2 (ty )) együttes eloszlásfüggvénye. Ezt az elgondolást használják fel az úgynevezett Arkhimédészi kopulák, amik már jól ismertek és széles körben elfogadottak a matematikai kezelhet®ségük, valamint rugalmasságuk miatt. Ezek egy adott generáló függvény segítségével állíthatóak el®. Deniálunk egy Φ : [0, 1] → R+ szigorúan monoton csökken® függvényt, aminek létezik és folytonos 0 00 az els®, illetve a második deriváltja. Ezeket jelölje Φ (τ ) és Φ (τ ). A generáló függvényre a következ®ek legyenek jellemz®ek: • Φ(1) = 0; • Φ (τ ) < 0, ahol 0 ≤ τ ≤ 1; 0
• Φ (τ ) > 0, ahol 0 ≤ τ ≤ 1. 00
Ekkor az Arkhimédészi kopulák a következ® módon állnak el®: C(u, v; α) = Φ(Φ[−1] (u) + Φ[−1] (v)), u, v ∈ [0, 1],
ahol α a kapcsolati paraméter (Φ(·) képletében található) és Φ[−1] (·) pszeudoinverze Φ(·)nek, vagyis ( Φ−1 (τ ), ha 0 ≤ τ ≤ Φ(0) Φ[−1] (τ ) = 0, ha Φ(0) ≤ τ ≤ ∞ Jelen esetben csak olyan függvényeket vizsgálunk, ahol a függvény pszeudonverze egybeesik az inverzével. Az Arkimédészi kopulákra továbbá meghatározható a Kendall-féle korrelációs együttható (τ ).
2.3.1. Deníció (Kendall-féle korrelációs együttható). A Kendall-féle τ a következ®: τ = P ((X2 − X1 )(Y2 − Y1 ) > 0) − P ((X2 − X1 )(Y2 − Y1 ) < 0),
ahol (X1 , Y1 ), (X2 , Y2 ) két független példány az együttes eloszlásból. Ennek van egy tapasztalati verziója is, amikor ez az együttható két szám különbségéb®l kapható. Az egyik a p+ , ami a konkordáns (egyirányú) párok aránya a populációban, a másik pedig a p− , ami a diszkordáns (ellentétes irányú) párok aránya, így kapjuk, hogy τ = p+ − p− . Minél nagyobb ennek a mennyiségnek az abszolút értéke, annál er®sebb a kapcsolat a valószín¶ségi változók között. A Kendall-féle τ jellemz®i: 16
Arkhimédészi kopulák
A kopula modell
• −1 ≤ τ ≤ 1; • ha X , Y független, akkor τ = 0; • τ = −1: determinisztikusan fogyó kapcsolat; • τ = 1: determinisztikusan növ® kapcsolat.
Ezek után tekintsünk néhágy jól ismert Arkhimédészi kopulát.
Clayton kopulája Ezt a kopulát a Φ−1 (t) = t−α − 1
függvény generálja. Ekkor a kopula a következ®képp néz ki: 1
CC (u, v; α) = (u−α + v −α − 1)− α ,
ahol α a kapcsolati paraméter. A kopula f®bb jellemz®i: • PQD : ha α > 0 • függetlenség : ha α ↓ 0 • Kendall τ maximuma : 1(α → ∞)
Gumbel-Hougaard kopula Itt a generáló függvény a következ® alakú: Φ−1 (t) = (− log t)α .
Ekkor kapjuk, hogy a kopula a 1 α +(− log v)α ] α
CGH (u, v; α) = e−[(− log u)
függvény, ahol α szintén a kapcsolati paraméter. A kopula f®bb jellemz®i: • PQD : ha α ≥ 1 • függetlenség : ha α = 1 • Kendall τ maximuma : 1(α → ∞)
17
Egyéni túlélések vizsgálata kopulák segítségével
A kopula modell
Frank kopulája Ezt a kopulát a Φ(t) = −log
eαt − 1 eα − 1
függvény generálja. Ebb®l kapjuk a kopulát, ami a 1 (e−αu − 1)(e−αv − 1) CF (u, v; α) = − log 1 + α e−α − 1
alakban írható. A Frank kopula jellemz®i: • PQD : ha α < 0 • függetlenség : ha α ↑ 0 • Kendall τ maximuma : 1(α → −∞)
Az Arkhimédészi kopuláknak még számos fajtája van, de a legnépszer¶bb az imént tárgyalt 3, így többet nem sorolok fel.
2.4. Egyéni túlélések vizsgálata kopulák segítségével A kopulákat alkalmazzák az aktuáriusi vizsgálatok során, amikor életbiztosításokhoz számolnak várható élettartamokat. A közös túlélési függvény tekinthet® egy kétváltozós kopula függvénynek, ahol a változók helyére az egyéni túlélési függvényeket írjuk: S(s1 , s2 ) = C[S1 (s1 ), S2 (s2 )]
Ebben az alfejezetben a korábban deniált túlélés-analízis-beli függvényeket adjuk meg kopula függvények segítségével El®ször is nézzük mennyi a valószín¶sége annak, hogy a férj él még s id®t, ha a feleség meghal ty id® után. Ekkor a túlélési függvény a következ® lesz: S1;t (s | Ty = ty ) = P (Tx > t + s | Tx > t, Ty = ty ) =
∂ S(t + s, ty ) ∂ty ∂ S(t, ty ) ∂ty
=
C2 [S1 (t + s), S2 (ty )] , C2 [S1 (t), S2 (ty )]
ahol C2 [·, ·] jelöli a második változó szerinti parciális deriváltját C[·, ·]-nak. Természetesen ez a meghatározás csak akkor értelmes, ha a nevez® nem nulla, vagyis C2 [S1 (t), S2 (ty )] 6= 0. 18
Egyéni túlélések vizsgálata kopulák segítségével
A kopula modell
Jobban szeretjük a halálozást a hazárdfüggvényekkel szemléltetni, ha lehet®ség van rá. Tegyük fel, hogy C2 [S1 (t + s), S2 (ty )] 6= 0. Ekkor a hazárdfüggvény: ∂ log C2 [S1 (t + s), S2 (ty )] ∂s S1 (t + s)C21 [S1 (t + s), S2 (ty )] , = µ1 (x + t + s) C2 [S1 (t + s), S2 (ty )]
µ1 (x + t + s | Ty = ty ) = −
ahol µ1 (x + t + s) jelöli a férj hazárdfüggvényét jelöli x + t + s korra Tx eloszlásának megfelel®en, továbbá C21 [·, ·] a kopula függvény második parciális deriváltját, ahol el®ször a második, majd az els® változó szerint deriválunk.
2.4.1. Állítás. Tegyük fel, hogy a hazárdfüggvény állandó, azaz konstans. Ekkor a két házastárs élettartama független. Bizonyítás: Tegyük fel, hogy a férj hazárdfüggvénye konstans. Legyen u = S1 (t + s) és v = S2 (ty ). Ekkor µ1 (x + t + s | Ty = ty ) képletében lev® kopula függvényekre igaz, hogy: C21 [u, v] ∂ log C2 [u, v] = ; u, v ∈ [0, 1], C2 [u, v] ∂u
itt a logaritmusfüggvényt, mint összetett függvényt deriváljuk és kapjuk ezt az összefüggést. A kezdetiérték feltétel itt simán csak a kopula deníciójából kapható, vagyis, hogy C(0, v) = C(u, 0) = 0 és C(u, 1) = u, C(1, v) = v . A fenti kifejezés független v -t®l, ezért log C2 [u, v] felírható K1 (u) + K2 alakban. Itt K1 (u) jelöl egy olyan valós érték¶ dierenciálható függvényt, ami csak u-tól és a függés paraméterét®l függ, de v -t®l nem, valamint K2 ∈ R . Ezt visszaintegrálva megkapjuk a kopula függvényt, vagyis ekkor: C2 [u, v] = eK1 (u)+K2 C[u, v] = veK1 (u)+K2 + K3 ,
ahol K3 ∈ R. Abból a feltételb®l, hogy C[u, 0] = 0 (ahol u ∈ [0, 1]) kapjuk, hogy K3 = 0. A másodikból (C[u, 1] = u, u ∈ [0, 1] pedig, hogy u = eK1 (u)+K2 log u = K1 (u) + K2 K1 (u) = log u − K2 .
19
Egyéni túlélések vizsgálata kopulák segítségével
A kopula modell
Így kapjuk végül, hogy a kopula függvényünk a következ®: C[u, v] = uv,
ami egy független kopula. Más szavakkal, ha két élet függ egymástól és egy kopula modellel felírható ez a függés, akkor az egyéni hazárdfüggvény mindig függ a másik ember halálának idejét®l. A függésnek ezt a típusát vizsgáljuk a továbbiakban néhány kopulacsalád esetén. 2.4.1.
Speciális esetek
Függetlenség Tudjuk, hogy ekkor a kopula alakja C[u, v] = uv . Ebben az esetben a túlélési függvény és a feltételes hazárdfüggvényt könnyen kiszámíthatjuk: C2 [S1 (t + s), S2 (ty )] = S1;t (s | Ty = ty ) = C2 [S1 (t), S2 (ty )] µ1 (x + t + s | Ty = ty ) = µ1 (x + t + s)
∂ [S (t + s)S2 (ty )] ∂S2 (ty ) 1 ∂ [S (t)S2 (ty )] ∂S2 (ty ) 1
=
S1 (t + s) . S1 (t)
S1 (t + s)C21 [S1 (t + s), S2 (ty )] × C2 [S1 (t + s), S2 (ty )] 2
= µ1 (x + t + s) = µ1 (x + t + s)
∂ S1 (t + s) ∂S1 (t+s)∂S [S1 (t + s)S2 (ty )] 2 (ty ) ∂ [S (t ∂S2 (ty ) 1
+ s), S2 (ty )]
S1 (t + s) S1 (t + s)
= µ1 (x + t + s)
Erre számítottunk, vagyis arra, hogy a feltételes hazárdfüggvénye az egyénnek nem változik, ha a két élet független egymástól. Hasonlóan ki tudjuk számolni a feleség túlélési függvényét és hazárdfüggvényét.
Fréchet fels® határ Ebben az esetben a kopula függvényünk C[u, v] = min{u, v} alakú, és így a második változó szerinti parciális deriváltja a C2 [u, v] = Iu>v . Tehát S1;t (s | Ty = ty ) akkor és csak akkor létezik, ha S2 (ty ) < S1 (t). Most is meg tudjuk adni a férj és a feleség túlélési függvényét: ( [−1] 1, ha s < S1 (S2 (ty )) − t S1;t (s|Ty = ty ) = , [−1] 0, ha s > S1 (S2 (ty )) − t 20
Egyéni túlélések vizsgálata kopulák segítségével
ahol
( [−1]
S1
(κ) =
A kopula modell
S1−1 (κ), ha 0 < κ ≤ 1
ha κ = 0
ωx ,
.
Azaz, ha a feleség ty id® után meghal, akkor a férj x + S1[−1] (S2 (ty )) korban fog.
Fréchet alsó határ Fréchet alsó határ esetén a kopula C[u, v] = max{u + v − 1, 0} alakban adható meg és ekkor a második változó szerinti parciális derivált C2 [u, v] = Iv>u−1 , ami miatt S1;t (s|Ty = ty ) akkor és csak akkor létezik, ha S2 (ty ) > 1−S1 (t). Ekkor a feltételes túlélési függvény: ( [−1] 1, ha s < S1 (1 − S2 (ty )) − t S1;t (s|Ty = ty ) = . [−1] 0, ha s > S1 (1 − S2 (ty )) − t Vagyis szavakkal megfogalmazva, ha a feleség ty id® után hal meg, akkor a férj x + S1−1 (1 − S2 (ty )) korban fog. 2.4.2.
Arkhimédészi kopulák alkalmazásával
Tudjuk, hogy az Arkhimédészi kopulák C[u, v] = Φ−1 (Φ(u) + Φ(v)) alakban állnak el®. Most ezt helyettesítsük be a feltételes hazárdfüggvénybe: µ1 (x + t + s | Ty = ty ) =µ1 (x + t + s)S1 (t + s)(−Φ0 (S1 (t + s)))× (Φ−1 )00 (Φ(S(t + s, ty ))) − −1 0 . (Φ ) (Φ(S(t + s, ty ))) −1 00
) (Φ(S(t+s,ty ))) Ez függ ty -tól. Ha − (Φ monoton csökken® (növeked®) ty -ban, akkor (Φ−1 )0 (Φ(S(t+s,ty ))) hosszú idej¶ (rövid idej¶) függésr®l beszélünk. Most tegyük fel, hogy hosszú idej¶ a függés a házastársak között, ugyanis a legtöbb kopula ezen a függésen alapszik. Egy alap példája a hosszú idej¶ függésnek a törékenység, amit a következ®ekben tárgyalunk. Ha a generátor inverze egy Laplace transzformált, akkor el®áll a következ® alakban: −1
Z
Φ (v) =
e−zv dF (z),
ahol F (z) a törékenység eloszlásfüggvénye. Ekkor a fenti függvény monoton növeked® (amit a [?]-ban bizonyítanak is). Ebb®l látható, hogy a törékenység tényleg a hosszú idej¶ függés egy speciális esete. 21
Közös túlélés vizsgálata kopulák segítségével
A kopula modell
2.4.1. Példa (Clayton kopula esetén). A generátor inverze, Φ−1 (τ ) = (τ + 1)− α a Laplace transzformáltja a Gamma(a, b) eloszlásnak, ahol a = α−1 és b = 1. Általában a 1 Gamma(a, b) eloszlás Laplace transzformáltja Φ−1 (τ ) = ( τb + 1)− α , ahonnan a generátor Φ(τ ) = b(t−α − 1). Jelen esetben b = 1, így ez nem befolyásolja az eredményt, vagyis a hazárdfüggvénye a férjnek: 1
(S1 (t + s))−α µ1 (x + t + s | Ty = ty ) = µ1 (x + t + s)(α + 1) , (S1 (t + s))−α + (S2 (ty ))−α − 1
ami csökken® ty -ban. Ha ty = 0 (vagyis a házasságkötés után azonnal meghal), abban az esetben elt¶nik a törtes kifejezés és ekkor µ1 (x+t+s | Ty = 0) = µ1 (x+t+s)(α+1). Vagyis szavakkal, ha a feleség a házasságot követ®en azonnal meghal, akkor a férj hazárdfüggvénye a perem hazárdfüggvénye (α + 1)-szer.
2.4.2. Példa (Gumbel-Hougaard kopula esetén). A generátor inverze, Φ−1 (τ ) = 1 e−τ α a Laplace transzformáltja a pozitív stabilis eloszlásnak. Ekkor a feltételes hazárdfüggvényre a következ®t kapjuk:
(− log S1 (t + s))α (− log S1 (t + s))α + (− log S2 (ty ))α
1− α1
× µ1 (x + t + s | Ty = ty ) =µ1 (x + t + s) 1 α α −α 1 + (α − 1)((− log S1 (t + s) + (− log S2 (ty )) ) ,
ami szintén monoton csökken®, mint ty függvénye.
2.4.3. Példa (Frank kopulája esetén). A generátor inverze, Φ−1 (τ ) = { Laplace transzformáltja a lognormális eloszlásnak. Ekkor a feltételes hazárdfüggvény:
log 1+(eα −1)e−τ
eαS1 (t+s) µ1 (x + t + s | Ty = ty ) =µ1 (x + t + s)S1 (t + s)(−α) × 1 − eαS1 (t+s) 1 − eα , 1 − eα − (1 − eαS1 (t+s) )(1 − eαS2 (ty ) ) ami szintén monoton csökken® a ty -ban.
2.5. Közös túlélés vizsgálata kopulák segítségével 2.5.1.
Speciális esetek
Függetlenség Ekkor a kopula függvényünk C[u, v] = uv alakú, amib®l a hazárdfüggvény: µ1 (x + t + s | Ty > t) = µ1 (x + t + s)
S1 (t + s)C1 [S1 (t + s), S2 (t)] = µ1 (x + t + s), C[S1 (t + s), S2 (t)]
22
}α
Közös túlélés vizsgálata kopulák segítségével
A kopula modell
amire számítottunk is, ugyanis függetlenség esetében a hazárdfüggvény nem függ a másik élet történetét®l. Ekkor kapjuk, hogy a közös túlélési függvény St (s1 , s2 ) =
S1 (t + s1 )S2 (t + s2 ) = S1;t (s1 | Ty > t)S2;t (s2 | Tx > t). S(t, t)
Fréchet fels® határ Tegyük fel, hogy a kopula függvényünk C[u, v] = min{u, v} alakú. Ekkor igaz a következ®: S1;t (s | Ty > t) =
C[S1 (t + s), S2 (t)] min{S1 (t + s), S2 (t)} = . C[S1 (t), S2 (t)] min{S1 (t), S2 (t)}
Hasonlóan kapható S2;t (s | Ty > t)-ra. Ebben az esetben a közös túlélés kopula függvénye: Ct [S1;t (s1 | Ty > t), S2;t (s2 | Tx > t)] =
C[S1 (t + s1 ), S2 (t + s2 )] min(S1 (t + s1 ), S2 (t + s2 )) = S(t, t) S(t, t)
= min(S1;t (s1 | Ty > t), S2;t (s2 | Tx > t)).
Vagyis ha a közös túlélési függvény kezdetben eléri a Fréchet fels® határt, mint kopula, akkor a jöv®ben is el fogja érni a Fréchet fels® határt.
Fréchet alsó határ Tegyük fel, hogy a kopula rendelkezik Fréchet alsó határ tulajdonságával, vagyis C[u, v] = max{u + v − 1, 0} alakú. Ekkor S1;t (s | Ty > t) =
max{S1 (t + s) + S2 (t) − 1, 0} S(t, t)
és S2;t (s | Tx > t) hasonlóan néz ki. Ebben az esetben a közös túlélési függvény, mint kopula függvény a következ® alakban írható fel: Ct [S1;t (s1 | Ty > t), S2;t (s2 | Ty > t)] =
max{S1 (t + s) + S2 (t + s) − 1, 0} S(t, t)
= max(S1;t (s1 | Ty > t) + S2;t (s2 | Tx > t) − 1, 0),
azaz ha a közös túlélési függvény eléri a Fréchet alsó határt a kezdetekkor, akkor a továbbiakban is el fogja érni.
23
Közös túlélés vizsgálata kopulák segítségével
2.5.2.
A kopula modell
Arkhimédészi kopulák alkalmazásával
Alkalmazzuk az együttes eloszlás meghatározásához az Arkhimédészi kopulákat. Nézzük el®ször, hogy számítható ki a férj hátralév® idejének feltételes túlélési függvénye ezen kopulák segítségével, ami megadja, hogy mennyi a valószín¶sége annak, hogy a férj él még s + t ideig, ha tudjuk, hogy a feleség él t id®t: S1;t (s | Ty > t) =
Φ−1 (Φ(S1 (t + s)) + Φ(S2 (t))) . S(t, t)
Hasonló egyenl®séget kapunk a feleség feltételes túlélési függvényére, vagyis S2;t (s | Tx > t)-re. A hazárdfüggvény annyiban fog változni az korábbi esethez képest, hogy most nem azt nézzük, hogy a feleség megélt ty id®t, hanem, hogy tovább él, mint t id®, vagyis: (Φ−1 )0 (Φ(S(t + s, t)) µ1 (x + t + s | Ty > t) = µ1 (x + t + s)S1 (t + s)(−Φ (S1 (t + s))) − −1 . Φ (Φ(S(t + s, t))) 0
2.5.1. Tétel. Tegyük fel, hogy az együttes túlélési függvény kopulája Arkhimédészi kopula a kezdetekkor (t = 0). Ekkor a feltételes együttes túlélési függvény kopulája (azzal a feltétellel, hogy Tx és Ty is nagyobb, mint t) szintén Arkhimédészi. Precízebben: Legyen Φ(·) az Arkhimédészi kopula generátorfüggvénye t = 0 id®pontban. Ekkor Φt (·) (generálófüggvény t id®pontban) a következ® alakban áll el®: Φt (τ ) = Φ(τ S(t, t)) − Φ(S(t, t)),
ahol τ ∈ [0, 1] . Bizonyítás: Megmutatjuk, hogy az a kopula, amit Φt (·) generál mindkét élet túlélését adja t id® után. El®ször vizsgáljuk meg, hogy Φt (·) rendelkezik-e az Arkhimédészi kopulák generátorfüggvényének tulajdonságaival (Φt (1) = 0, Φ0t (τ ) < 0 és Φ00t (τ ) > 0): Φt (1) = Φ(1S(t, t)) − Φ(S(t, t)) = 0 Φ0t (τ ) = Φ0 (τ S(t, t))S(t, t) < 0,
mert Φ0 (τ S(t, t)) < 0, hiszen Φ(·) generáló függvény és S(t, t) ∈ [0, 1], mivel valószín¶ség. Φ00t (τ ) = Φ00 (τ S(t, t))(S(t, t))2 > 0,
24
Közös túlélés vizsgálata kopulák segítségével
A kopula modell
mert Φ00 (τ S(t, t)) > 0, hiszen Φ(·) generáló függvény és (S(t, t))2 ≥ 0, mivel négyzetszám nem lehet negatív. A következ® lépésben meghatározzuk a kopulát, amit Φt (·) generál. Legyen Φt (·) inverze Φ−1 t (·). Ekkor: Φ−1 (τ + Φ(S(t, t))) . S(t, t)
Φ−1 t (τ ) =
Innen már meg tudjuk adni az új kopulát, amit értelemszer¶en Ct [·, ·]-tal jelölünk: Φ−1 (Φ(uS(t, t)) + Φ(vS(t, t)) − Φ(S(t, t))) . S(t, t)
Ct [u, v] = Φ−1 t (Φt (u) + Φt (v)) =
Most helyettesítsünk u és v helyére S1;t (s | Ty > t) és S2;t (s | Tx > t) feltételes túlélési függvényeket. Ekkor kapjuk, hogy Ct [S1;t (s | Ty > t), S2;t (s|Tx > t)] =
Φ−1 (Φ(S1 (t + s)) + Φ(S2 (t + s))) S(t, t)
= P (Tx > t + s, Ty > t + s | Tx > t, Ty > t).
Azaz Φt [·] tényleg mindkét élet túlélését adja t id® után. A továbbiakban a kapcsolat többféle id®t®l függ® mértékér®l tárgyalunk, amik közül az egyik a Kendall-féle korrelációs együttható, másik pedig a kereszt-arány (cross-ratio ) függvény. El®ször tekintsük a Kendall-féle τ -t kopulák esetén, ami népszer¶ azon tulajdonsága miatt, hogy független a marginálisok eloszlásától.
2.5.1. Deníció. Két valószín¶ségi változó (U, V ) Kendall-féle korrelációs együtthatója kopulák segítségével (azaz H(u, v) = C(F (u), G(v))) az alábbi alakban adható meg: Z1 Z1 C[u, v]dC[u, v] − 1
τ (X1 , X2 ) = 4 0
0
Ez az együttható Arkhimédészi kopulák esetén megadható a generátorfüggvény segítségével is: Z1
τet (U, V ) = 4 0
Φt (v) dv + 1 Φ0t (v)
Alkalmazzuk ezt most a házastársak hátralév® idejét tartalmazó valószín¶ségi változókra, azaz határozzuk meg τ (Tx , Ty )-t: Z1 τet (Tx , Ty ) = 4 0
Φt (v) 4 dv + 1 = 0 Φt (v) S(t, t)
25
Z1 u=0
Φ(uS(t, t)) − Φ(S(t, t)) dv + 1. Φ0t (uS(t, t))
Közös túlélés vizsgálata kopulák segítségével
A kopula modell
Ezt az összefüggést nevezik csonka τ -nak. Most nézzük a másik id®t®l függ® kapcsolati mértéket, azaz a kereszt-arány függvényt (CR(·)).
2.5.2. Deníció. A közös túlélésfüggvény (S(t, t)) kereszt-arány függvénye (CR(S(t, t))) megadható a következ® alakban: 2
CR(S(tx , ty )) =
S(tx , ty ) ∂tx∂∂ty S(tx , ty ) ∂ S(tx , ty ) ∂t∂y S(tx , ty ) ∂tx
.
Ezek után látható, hogy egy egyszer¶ összefüggést fel tudunk írni a csonka tau és a kereszt-arány függvény között: τet (Tx , Ty ) =
CR(S(tx , ty )) − 1 . CR(S(tx , ty )) + 1
Két okból szeretjük jobban használni a kereszt-arány függvényt a csonka tau-nál. Egyik szempont, hogy meghatározza az egyének halálozási erejének relatív növekedési ütemét a partner haláláig, vagyis: CR(S(tx , ty )) =
µ1 (x + tx | Ty = ty ) . µ1 (x + tx | Ty > ty )
A másik szempont pedig az, hogy ezt a függvényt könnyebb becsülni, mint a csonka taut, mivel nincs benne integrálás. Tegyük fel ugyanis, hogy tx = ty = t, ekkor adódik a kereszt-arány függvényre, hogy CR(S(t, t)) =
Φ−1 (Φ(S(t, t)))(Φ−1 )00 (Φ(S(t, t))) . ((Φ−1 )0 (Φ(S(t, t))))2
Azaz ez a függvény csak a generáló függvényt®l függ. A következ®ekben meghatározzuk pár kopula családnál ezt a kereszt-arány függvényt.
2.5.1. Példa (Clayton kopulája esetén). Legyen a generáló függvény a következ®: Φ(τ ) = δ(τ −α − 1), ahol α > 0 és δ > 0. Ekkor a feltételes hazárdfüggvény µ1 (x + t + s | Ty > t) = µ1 (x + t + s)
(S1 (t + s))−α S1 (t + s))−α + S2 (t))−α − 1
alakú. Így ha t id®re nézzük a túlélést Φt (·) a következ® alakú: Φt (τ ) = δ(S(t, t))−α (τ −α − 1) = δ(S(t, t))−α Φ(τ ),
vagyis a kopula lényegében nem változik az id® múlásával. Ilyenkor a kereszt-arány függvény konstans az adott id®ben és egyenl® α + 1-gyel. 26
A paraméterek becslése
A kopula modell
2.5.2. Példa (Gumbel-Hougaard kopula esetén). Ebben az esetben a generáló függvény Φ(τ ) = (− log τ )α alakú, ahol α ≥ 1. Ilyenkor a feltételes hazárdfüggvényre igaz, hogy µ1 (x + t + s | Ty > t) = µ1 (x + t + s)
(− log S1 (t + s))α (− log S1 (t + s))α + (− log S2 (t))α
1− α1 .
Ebb®l pedig következik, hogy Φt (τ ) = (− log τ S(t, t))α − (− log S(t, t))α , vagyis a két élet közötti kapcsolat 0-hoz tart. Más szavakkal a két élet egyre kevésbé függ egymástól az évek múlásával. Így a kereszt-arány függvény a következ® lesz: CR(S(t, t)) = 1 +
α−1 . − log S(t, t)
2.5.3. Példa (Frank kopulája esetén). Frank kopulájánál a generáló függvény: Φ(τ ) = ατ −1) , ahonnan − log (eeα −1 µ1 (x + t + s | Ty > t) =µ1 (x + t + s)× (1 − eαS2 (t) )eαS1 (t+s) (−α)S1 (t + s) ((eα − 1) + (eαS1 (t+s) − 1)(eαS2 (t) − 1)) log 1 +
(eαS1 (t+s) −1)(eαS2 (t) −1) eα −1
Innen kapjuk a generáló függvényre t id®ben, hogy Φt (τ ) = − log
eαS(t,t)τ − 1 eαS(t,t) − 1
. Ahogy az id® változik, az α paraméter 0-hoz tart, utalva a függetlenségre. Így a keresztarány függvény CR(S(t, t)) = −
αS(t, t) . 1 − eαS(t,t)
2.6. A paraméterek becslése A közös túlélési függvény becslése két lépésben történik. El®ször becsüljük a perem túlélési függvényeket (S1 (tx ), S2 (ty )), majd a becsült túlélési függvényeket beillesztjük az adott kopulákba, valamint becsüljük a kapcsolati paramétert. A túlélési függvényt becsülhetjük nem paraméteres és paraméteres módon is. Egy nem paraméteres becslése a túlélési függvénynek a Kaplan-Meier becslés (aminek módszerét [5] forrásból merítettem). A vizsgálat során legyen n darab egyedünk, melyeket sorbarendezve t∗1 , t∗2 , ..., t∗n id®pontokban ért a halál. Jelölje di a halálozások számát t∗i -kor (vagyis 27
.
A paraméterek becslése
P
A kopula modell
di = n) és legyen rj az él®k száma kicsivel t∗j el®tt (azaz rj+1 = rj − dj ). Ekkor a
becsült eloszlásfüggvényünk
s
1X dj , Fb(t) = n j=1
ahol t∗s ≤ t ≤ t∗s+1 . Így kapjuk, hogy a becsült túlélési függvény n−
s X j=1
b = 1 − Fb(t) = S(t)
n
dj ,
ahol szintén fennáll, hogy t∗s ≤ t ≤ t∗s+1 . A kapott túlélési függvény "szebb" alakra hozható, vagyis a következ® alakban adható meg: s Y d j b = S(t) 1− . r j j=1
Adatok cenzorálása esetén változik az él®k száma, mégpedig: r1 = n − l1 , rj+1 = rj − dj − lj+1 , ahol l1 a t∗1 -ig cenzorált adatok száma, li pedig a t∗i−1 és t∗i közöttiek száma. Egy másik becslése a túlélési függvénynek egy paraméteres modell segítségével történik. Ezek lehetnek a Gompertz- vagy a Weibull-eloszlások.
2.6.1. Deníció (Gompertz-eloszlás). Az X valószín¶ségi változó Gompertz-eloszlású, ha eloszlásfüggvénye ( F (x; β, γ) =
1 − e−γ (e
) , ha x ≥ 0
βx −1
ha x < 0
0,
,
ahol γ > 0az alakparaméter és β > 0 a skálaparaméter.
2.6.2. Deníció (Weibull-eloszlás). Az X valószín¶ségi változó Weibull-eloszlású, ha eloszlásfüggvénye ( x γ 1 − e−( β ) , ha x ≥ 0 F (x; β, γ) = , 0, ha x < 0 ahol γ > 0az alakparaméter és β > 0 a skálaparaméter. Ezek után tekintsük a következ® kétváltozós túlélési függvényt, mint kopulát: S(tx , ty ; θx , θy , α) = C(S1 (tx ; θx ), S2 (ty ; θy ); α),
ahol θx és θy a marginálisok paraméterei és α a kapcsolati paraméter. 28
A paraméterek becslése
A kopula modell
Jobbra cenzorált esetben a likelihood függvény θ = (θx , θy , α) esetén a következ® lesz: l(θ) =
n Y
f (xi , yi ; θx , θy )cxi cyi f1 (xi , yi ; θx , θy )cxi (1−cyi )
i=1
× f2 (xi , yi ; θx , θy )(1−cxi )cyi S(xi , yi ; θx , θy )(1−cxi )(1−cyi ) ,
ahol
∂2 S(x, y; θx , θy ); ∂x∂y ∂ f1 (x, y; θx , θy ) = S(x, y; θx , θy ); ∂x ∂ S(x, y; θx , θy ); f2 (x, y; θx , θy ) = ∂y és xi =belépési kor +txi , yi =belépési kor +tyi . f (x, y; θx , θy ) =
Tegyük fel, hogy a túlélési függvényt a Weibull-eloszlással határoztuk meg, vagyis γ −
t βj
j
kapjuk, hogy S(tj ) = P (Tj > tj ) = e , ha t ≥ 0, ahol βj a skála- és γj az alakparaméter j = x, y -ra. Ezután helyettesítsük be a perem túlélési függvényeket egy adott kopulába. Nézzük mondjuk a Gumbel-Hougaard kopulát. Kapjuk, hogy: − − log e
tx βx
( )
−
γx
α 1 !α α ty γy − βy +− log e
S(tx , ty ) = CGH (S(tx ; βx , γx ), S(ty ; βy , γy ); α) = e =e
γy α i 1 h γx α t α + βy − ( βtx ) x
y
.
Ennek a függvénynek a maximum likelihood becslése elég bonyolult, így nem vezetem le, de megtalálható [?]-ben. Ez az el®állítás rendkívül elegáns és hatásos, azonban néha kevésnek bizonyul a kapcsolatok típusától függ®en. Ez azért lehet, mert egy kétváltozós túlélési függvényt használunk ahhoz, hogy egy 3-változós függvényt vizsgáljunk (rst-life, last-survivor ). Tekintsük a következ® s¶r¶ségfüggvényt: f (x, y) =
∂2 S(x, y), ∂x∂y
ami mutatja a változás mértékét S(x, y)-ban, amikor a halálok x és y korban bekövetkeznek. Bontsuk fel S(x, y)-t a következ®képp: S(x, y) = S(x0 + tx , y0 + ty ), ahol x0 és y0 a házasságba belépéskor az életkor.
1.eset: tx = ty f (x, y) mutatja a változás mértékét S(x, y)-ban, amikor a halálok x és y korban
bekövetkeznek. Ekkor a halál egyszerre, vagy szinte egymás után azonnal történik. 29
A paraméterek becslése
A kopula modell
2.eset: tx 6= ty Legyen ekkor például ty = tx + t, ahol t 6= 0. Itt szintén f (x, y) mutatja a változás mértékét S(x, y)-ban, amikor a halálok x és y korban bekövetkeznek, de most a két halál között t id® telik el. Egyik esetben sincs probléma akkor, ha a házasságba belépéskor mindkét fél egyforma id®s, azaz x0 = y0 (ez áll fent mondjuk akkor, ha páros szerveink élettartamát vizsgáljuk). Akkor sincs baj, ha a két élet közötti kapcsolat csak a kortól függ és nincs külön befolyásoló tényez®. Azonban házastársak életének vizsgálatánál egyik sem áll fent feltétlenül, ugyanis nem csak azonos korú emberek kötk össze életüket és házasságukra több küls® hatás is befolyással lehet (például egy végzetes karambol, ahol mindkét fél elhunyt). Befolyásoló tényez® lehet még az összetört szív szindróma, vagyis amikor az egyik fél meghal a másik nem sokkal utána követi ®t a halálba. Ebb®l kifolyólag úgy t¶nik, hogy nincs tökéletes becslés kopulákkal az együttes túlélési függvényre, valamint az els®-élet és utolsó-túlél® függvények becslésére. (Ezt a problémát b®vebben [?] tárgyalja és próbálja megoldani)
30
3. fejezet Rövid idej¶ függ®ség vizsgálata Két élettartam között rövid idej¶ függ®ségr®l beszélünk, ha a tovább él® ember hazárdfüggvénye magasabb lesz miután a partnere meghal. Ezt a függést egy összetett modellel lehet vizsgálni, amit ebben a fejezetben fogok bemutatni.
3.1. Markov modell A rövid idej¶ függ®ség ezen modelljét Norberg és Wolthuis alakították ki, ami a Markov lánc elméletén alapszik.
3.1.1. Deníció (Markov-lánc). Legyenek X1 , X2 , ... valószín¶ségi változók, I állapottér, ami véges vagy megszámlálhatóan végtelen. Tegyük fel, hogy Xn (n = 0, 1, 2, ...) értékei I -be esnek. Azt mondjuk, hogy ezen valószín¶ségi változók Markov-láncot alkotnak, ha rendelkeznek a Markov-tulajdonsággal, azaz P (Xn+1 = xn+1 |X0 = x0 , ..., Xn = xn ) = P (Xn+1 = xn+1 |Xn = xn ) (vagyis a jöv® nem függ a múlttól, csak a jelent®l). Jelen esetben a Markov-lánc 4 lépcs®b®l áll (amit a 3.1. ábra mutat). Kezdetben mind a ketten életben vannak, amit 0. állapotnak nevezünk. A második és a harmadik lépcs®re akkor kerülünk, ha valamelyik fél meghalt, vagyis ha a férj hal meg az els®, míg ha a feleség, akkor a második állapotba jutunk. Ezután már csak egy eset lehetséges, ha az életben maradt fél is távozik az él®k sorából. Ekkor érünk a lánc aljára. Legyen Tx a férj, Ty a feleség hátralev® élettartama a házasságkötést®l, valamint x és y a házasságba lépési koruk. Ekkor tehát az átmenetvalószín¶ségek: µ01 (t) = µ1 (x + t|Ty > t) , vagyis a fér hazárdfüggvénye x + t id®re, ha tudjuk, hogy a n® tovább él, mint t év. 31
Kiterjesztett Markov modell
Rövid idej¶ függ®ség vizsgálata
µ02 (t) = µ2 (y + t|Tx > t) , vagyis a n® hazárdfüggvénye y + t id®re, ha tudjuk, hogy
a fér tovább él, mint t év. µ13 (t) = µ2 (y + t|Tx ≤ t) , vagyis a n® hazárdfüggvénye y + t id®re, ha tudjuk, hogy
a fér t éven belül elhunyt. µ23 (t) = µ1 (x + t|Ty ≤ t) , vagyis a fér hazárdfüggvénye x + t id®re, ha tudjuk, hogy
a n® t éven belül elhunyt. Tegyük fel, hogy ezek a hazárdfüggvények el®állnak a fér és a n® hazárdfüggvényeib®l a következ® alakban: ∗ )µ1 (x + t); µ01 (t) = (1 − α01 ∗ µ02 (t) = (1 − α02 )µ2 (y + t); ∗ µ13 (t) = (1 + α13 )µ2 (y + t); ∗ µ23 (t) = (1 + α23 )µ1 (x + t); ∗ ∗ ∗ ∗ ≥ 0 paraméterek. , α23 , α13 , α02 ahol α01
3.1. ábra. Így kaptunk egy 4 lépéses modellt. Azonban ez a modell még nem adja vissza kell®képpen a valóságot, szükség van némi változtatásra, amit a következ® fejezetben mutatunk be.
3.2. Kiterjesztett Markov modell A kiterjesztett Markov modell azon alapszik, hogy a fennmaradó élet hazárdfüggvénye függ a házastárs halála óta eltelt id®t®l. Így további 2 állomást teszünk be az alapmodellbe 32
Kiterjesztett Markov modell
Rövid idej¶ függ®ség vizsgálata
és így kapunk egy 6 lépcs®s kiterjesztett Markov modellt. Ezt a további két állomást úgy kapjuk, hogy felbontjuk azt az id®intervallumot, amikor már az egyik fél elhunyt és a másik életben van. El®ször nézzük azt, amikor els®ként a férj távozik az él®k sorából. Ekkor a feleség belép az 1 jelzés¶ állapotba és ott marad mindaddig, amíg a haláltól eltelt id® 0-tól nagyobb, de kisebb, mint egy adott ty id®tartam. Miután letelt a ty id® és még mindig életben van a n®, akkor átkerül a 2-es jelzés¶ állapotba, ahol egészen addig marad, amíg meg nem hal. Másodszor tekintsük azt az esetet, amikor a feleséget éri utol el®bb a halál. Ilyenkor a férj kerül a 3-as jelzés¶ állapotba és egészen addig ott marad, amíg a feleség halála óta eltelt id® 0 és tx között van. Amikor az id® átlépi tx -et a fér átkerül a 4 jelzés¶ állapotba és mindaddig ottmarad, amíg véget nem ér az élete. Értelemszer¶en az 1 és 3 jelzés¶ állapotból kerülhetünk a végállapotba, amikor a férj és a feleség sem él tovább, mint a halál után eltelt adott id®tartam. Valamint nem tehet® fel, hogy tx = ty , ugyanis ez a törött szív két külön tulajdonsága a féraknál és a n®knél.
3.2. ábra.
33
A paraméterek becslése
Rövid idej¶ függ®ség vizsgálata
A kiterjesztett modell így a következ® hazárdfüggvényekkel rendelkezik: µ01 (t) = µ1 (x + t|Ty > t) = (1 − α01 )µ1 (x + t); µ03 (t) = µ2 (y + t|Tx > t) = (1 − α03 )µ2 (y + t); µ15 (t) = µ2 (y + t|0 ≤ t − Tx < ty ) = (1 + α15 )µ2 (y + t); µ25 (t) = µ2 (y + t|t − Tx > ty ) = (1 + α25 )µ2 (y + t); µ35 (t) = µ1 (x + t|0 ≤ t − Ty < tx ) = (1 + α35 )µ1 (x + t); µ45 (t) = µ1 (x + t|t − Ty > tx ) = (1 + α45 )µ1 (x + t);
ahol α01 , α03 , α15 , α25 , α35 , α45 ≥ 0 adott paraméterek. ∗ és Ennek a kiterjesztett modellnek az eredeti speciális esete, ha α15 = α25 = α13 ∗ α35 = α45 = α23 .
3.3. A paraméterek becslése Tegyük fel, hogy a perem hazárdfüggvényeket a Gompertz-eloszlásból kaptuk, amit már korábban deniáltunk. Ekkor ezek a következ® alakúak: µx =
f n 1 x−m 1 y−m e σf ; µ y = e σn , σf σn
ahol mf és mn a férj és a feleség életkorának várható értékét,valamint σf és σn a férj és a feleség élettartamának szórását jelöli. Ezeket a paramétereket könnyen megadhatjuk a maximum likelihood becsléssel. Az α paramlétereket szintén maximum likelihood módszerrel becsülhetjük. Legyen a vizsgálatban résztvev® n®k száma n, míg a féraké m. Jelölje az egyes állapotokba belépés korát b, míg az onnan kilépését k. Ez alapján kapjuk, hogy ha a 0. állapotban vagyunk, akkor az 1.-be és a 3.-ba jutáshoz az α-k a következ®ek: α b01 = 1 −
d01 d03 ; α b , 03 = 1 − k(i) k(i) Z Z m n X X µxi dxi µyi dyi i=1
i=1
b(i)
b(i)
ahol d01 (d03 ) jelöli a 0. lépcs®n a meggyelt férak (n®k) halálának számát. A meggyelés azonnal véget ér, ha bekövetkezik az egyik fél halála, vagy cenzorálják az adatokat. A 1−b α keletkezett hibát a következ® formulával kaphatjuk meg: o(b α0j ) = √ 0j , j = 1, 3. d 0j
34
A modell tesztelése
Rövid idej¶ függ®ség vizsgálata
Nézzük azokat az eseteket, amikor az 1, 2, 3, 4 állapotban vagyunk. Itt jelölje a j. állapotban éppen tartozkodó n®k számát nj , a férakét pedig mj , ahol j = 1, 2, 3, 4. Ekkor a paraméterekre a következ® becsléseket mondhatjuk: α bl5 =
dl5 nj X i=1
− 1; α bk5 =
Zk(i) µyi dyi
dk5 mj X i=1
b(i)
Zk(i)
− 1,
µxi dxi
b(i)
ahol l = 1, 2 és k = 3, 4, valamnt dl5 (dk5 ) jelöli az l. (k.) lépcs®ben a meggyelt n®k (férak) halálának száma. A keletkezett hibát itt is könnyedén meg tudjuk adni: o(b αj5 ) = 1−b αj5 √ , j = 1, 2, 3, 4. dj5 A becslésnél látszik, hogy nagyon érzékeny a kor megválasztásától, hiszen az integrálás a belépési kortól a kilépési korig tart. A becslésben általában a belépési korokat a következ® intervallumokból vesszük: férak esetén [65, 85], míg n®knél [60, 80], ugyanis ezek a leggyakoribb korok, amikor valaki megözvegyül. A meghatározásunk még alapszik a korok közötti függésr®l, vagyis az eredmények nagyban függnek a kapcsolattól.
3.4. A modell tesztelése A következ®kben teszteljük, hogy a túlél® házastárs hazárdfüggvénye szignikánsan függ-e a párja halála óta eltelt id®t®l. Ezáltal megfogalmazhatunk egy nullhipotézist és egy alternatív (ellen) hipotézist: H0 : α15 = α25 H1 : α15 6= α25
Ha elfogadjuk H0 -t, akkor a hazárdfüggvény az 1. és a 2. szinten megegyezik, vagyis a túlélési függvényük ugyanazok, vagy kevés az adatunk ezt cáfolni. Amennyiben elvetjük H0 -t, akkor arra kapunk statisztikai bizonyítékot, hogy a hazárdfüggvény az 1. és a 2. szinten különbözik, vagyis a túlélési függvényük is eltér. Ezáltal át tudjuk fogalmazni a null- és az ellen hipotézisünket a következ®képpen: H0 : S(y)15 (t) = S(y)25 (t) H1 : S(y)15 (t) 6= S(y)25 (t),
ahol S(y)i5 (t) a túlél® házastárs túlélési függvénye y korban az i. állapotban (i ∈ {1, 2}). Ugyanígy fogalmazható meg, a másik oldalra, vagyis amikor a feleség hunyt el korábban. 35
A modell tesztelése
Rövid idej¶ függ®ség vizsgálata
Ezek után alkalmazzuk a kétoldali, kétmintás Kolmogorov-Smirnov próbát, ami a következ® alakú: Dmn = sup |S(y)m (t) − S(y)n (t)|, t
ahol S(y)m (t) a megfelel® Kaplan-Meier függvénye S(y)15 (t)-nek és m a halálok száma, hasonlóan S(y)n (t). Így látszik, hogy a Kolmogorov-Smirnov teszt csak folytonos valószín¶ségi változóknál használható és az eloszlások közötti eltérésre kérdez rá. A nullhipotézist elvetjük, ha
mn m+n
12 Dmn ≥ c
, ahol c a kritikus értéket a Kolmogorov eloszlásból nyertük az el®re meghatározott terjedelem mellett.
36
Irodalomjegyzék [1] Móri Tamás: Élettartamadatok elemzése, Typotex Kft, Budapest (2011) [2] Shemyakin A. and Youn, H.: Copula Models of joint survivor analysis, Applied Stohastic Models in Business and Industry, (2006) [3] Spreeuw, J.: Types of dependence and time-dependent association between two lifetimes in single parameter copula models, Scandinavian Actuarial Journal, 286-309. (2006) [4] Jaap Spreeuw and Xu Wang: Modelling the short-term dependence between two remaining lifetimes (March 27, 2008) [5] Rob Allis, Amgen Ltd., Uxbridge, UK: Comparing Kaplan-Meier curves - what are the (SAS) options? PhUSE 2009, Paper SP02 [6] Ludger Rüschendorf: On the distributional transform, Sklar's Theorem, and the empirical copula process, Journal of Statistical Planning and Inference, 39213927. (November 1, 2009)
37