KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
MAXIMUM LIKELIHOOD ESTIMATION (MLE) PADA MODEL LOGISTIK EXPONENSIAL DESI RAHMATINA Universitas Maritim Raja Ali Haji.Jln Politeknik. Senggarang. Tanjungpinang email :
[email protected]
Abstrak Model logistik eksponensial yang digunakan dalam paper ini pada kajian kesehatan untuk menguji hubungan diantara variabel dependen (Y) dan variabel independen (X) dimana Y merupakan variabel dikotomi,contoh kejadian dari beberapa hasil yang sukses (Y=1) dan gagal (Y=0). Paper ini bertujuan untuk menguji pengaruh kovariat pada model logistik exponensial model. Klasifikasi dalam model logistik eksponensial dilakukan dengan menggunakan estimasi parameter menggunakan Maximum Likelihood Estimation (MLE) menggunakan iterasi Newton Raphson untuk menguji signifikansi pada kovariat. Data yang digunakan dalam penelitian ini adalah Stanford Heart Transplant data. Hasil estimasi kovariat pada model logistik exponensial adalah pada Age signifikan dengan p-value of 0.0184, sedangkan Surgery dan Transplant tidak signifikan denganp-value 0.8793 and 0.0655. Kata kunci: model logistik exponensial, mixture model, maximum likelihood. 1.
Pendahuluan
Pengembangan analisis survival dilakukan dengan menggabungkan konsep mixture, mixture model dikenal juga sebagai split population model. Beberapa penelitian mixture model ini telah dilakukan antara lain oleh Ando et. al. [2004] yang meneliti tentang model kernel mixture model pada beberapa jenis penyakit kanker, Abu Bakar, M. R. [1998] telah melakukan penelitian tentang pola kekerasan dalam rumah tangga dan Zhang [2008] yang melakukan penelitian tentang analisis mixture model menggunakan algoritma EM (Expectation and Maximization). Ketika distribusi pada survival time telah ditarik adalah parametrik, fungsi likelihood biasa dihitung dalam bentuk percobaan survival. Sebuah subjek diamati gagal pada saat berkontribusi dengan istilah f S (t ) pada likelihood, merupakan fungsi pada peluang pada t. 2.
Formulasi Dasar
Asumsikan bahwa distribusi sensor independen pada fungsi distribusi dari model populasi terpisah diwakili oleh distribusi dua parameter berikut:, scale > 0, and 0 < < 1.
S S (t ) (1 ) S R (t ) (1 ) exp( t i ) ,
ISBN : 978-602-19590-2-2
829
Rahmatina D.
Maximum Likelihood Estimation …
Dan fungsi padat peluang
f S (t ) exp ( t i ) . Adapun fungsi likelihood dapat ditulis sebagai berikut: n
L( , ) [ f S (t i )] i [ S S (t i )]1 i i 1
n
[ exp(t i )] i [(1 ) exp(t i )]1 i i 1
Model tersebut lebih umum ditulis dalam bentuk split model dimana kemungkinan kebal/immune yang dikenal juga dengan model logitik,dengan merupakan variabel penjelas pada model eksponensial. Misal z i adalah vektor karakteristik dari individu, dan adalah vektor parameter yang sesuai, kemudian diasumsikan model logistik sebagai berikut:
i
exp( T z i ) [1 exp( T z i ) ]
(1)
Pertama, diasumsikan adalah konstan sehingga bentuk fungsi log likelihood pada model logistik adalah n
l ( i , ) i ln i ln t i (1 i ) ln (1 i ) i exp( t i )
( 2)
i 1
Dengan mensubsitusikan (1) ke (2) diperoleh
exp( T zi ) 1 exp( T zi ) exp(ti ) . l(i , ) i ln ln ti (1 i ) ln T T 1 exp ( z ) 1 exp ( z ) i 1 i i n
(3)
Turunan pertama dari persamaan (3) di atas adalah sebagai berikut:
ln L j
n i (1 i ) exp ( T z i ) 1 exp (t i ) z ij , T T T i 1 1 exp ( z i ) 1 exp( z i ) 1 exp ( z i ) exp (t i )
ln L
n
i 1
T 1 ( 1 i ) t i exp( z i ) exp( t i ) i ti 1 exp ( T z i ) exp ( t i )
Turunan kedua dari persamaan (3) diperoleh
T (1 i ) exp( T zi ) 1 exp(ti ) 2l(, ) n 2 i exp( zi ) ( z ) ij 2 j2 i1 1 exp( T zi ) 1 exp( T zi ) 1 exp( T zi ) exp(ti )
1 exp (
T
zi )
2
exp ( t i )
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
2
830
KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
n (1 ) t exp ( T z ) exp (t ) 2 l ( , ) i i i i z ij 2 T i 1 1 exp ( z i ) exp (t i )
2 T n 2 l ( , ) i (1 i ) t i exp ( z i ) exp (t i ) 2 2 2 i 1 1 exp ( T z i ) exp (t i )
Jika diasumsikan adalah kovariat dengan i exp( T zi ) , maka diperoleh fungsi log likelihood sebagai berikut: n
ln L(i , i ) i lni ln i i ti (1 i ) ln(1 i ) i exp(i ti ) i 1
exp ( T z i ) T T z t exp ( z ) i ln i i i l ( , ) 1 exp ( T z i ) i 1 n
1 exp ( T z i ) exp (t i exp ( T z i )) (1 i ) ln T 1 exp ( z ) i
(4)
Turunan pertama dari persamaan (4) diatas adalah sebagai berikut:
(1 i ) exp( T z i ) t i exp ( T z i ) l ( , ) n z ij i 1 t i exp( T z i ) j 1 exp ( T z i ) exp (t i exp ( T z i )) i 1
exp(t i exp ( z i )) T
l( , ) n i (1 i ) exp(T zi ) 1 exp(ti exp( T zi )) zij T T T T j i 1 1 exp( zi ) 1 exp( zi ) 1 exp( zi ) exp(ti exp( zi ))
Adapun turunan kedua persamaan (4) adalah
(1 i ) 2 l ( , ) n z ij z ij i t i exp( T z i ) 2 j i 1 1 exp( T z i ) exp(t i exp( T z i ))
2
exp( T z i ) t i exp( T z i ) exp( ti exp( T zi ))
1 t
i
z ) t exp( z ) exp(t exp(
exp( T z i ) exp ( T z i ) exp (t i exp ( T z i ))
T (1 ) exp( T 2l ( , ) n i i i i i zij zij T T j j i 1 1 exp( zi ) exp(ti exp( zi ))
ISBN : 978-602-19590-2-2
2
T
zi ))
831
Rahmatina D.
Maximum Likelihood Estimation …
exp ( T z ) (1 i ) 1 exp(t i exp( T z i )) 2 l ( , ) n i i z z ij ij 2 2j i 1 1 exp( T z i ) 1 exp( T z i ) 1 exp( T z i ) exp(t i exp( T z i ))
exp( z ) 1 exp( z ) exp(t exp( z )) exp ( z ) exp (t exp( z ))1 exp( z ) T
T
i
T
3.
i
T
i
i
2
T
i
2
i
T
i
i
Hasil
Setelah membuat model, turunan pertama dan kedua dari fungsi log likelihood, maka langkah selanjutnya adalah membuat estimasi parameter dan kovariat pada model logistik eksponential menggunakan Maximum Likelihood Estimation (MLE) memakai iterasi Newton Raphson dengan bantuan program C dan software S-Plus untuk membuat grafik. Data dalam paper ini adalah data sekunder yaitu data Stanford Heart Transplant,Crowley dan Hu [1977] memberikan waktu tahan hidup yang berpotensi penerima pencakokan jantung sejak tanggal dari penerimaan mereka dalam program pencakokan jantung, waktu tahan hidup dalam hari, tidak tersensor dan tersensor pada 103 pasien dan 3 kovariate yaitu, Age dalam tahun, Surgery dan Transplant. Gambar 1 dan gambar 2 menunjukkan estimasi Kaplan-Meier pada data Stanford Heart Transplant pada 2 kovariate, Surgery and Transplant.
0.4
0.6
Yes Surgery No Surgery
0.0
0.2
Survival Distribution Function
0.8
1.0
K-M Plot
0
500
1000
1500
Time (days)
Gambar1 : Kurva Kaplan-Meier pada Surgery.
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
832
KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
0.4
0.6
Transplanted Not transplanted
0.0
0.2
Survival Distribution Function
0.8
1.0
K-M Plot
0
500
1000
1500
Time (days)
Gambar2 : Kurva Kaplan-Meier pada Transplant 3.1 Maximum Likelihood Estimation (MLE) Menggunakan Metode NewtonRaphson Untuk membuat estimasi maksimum likelihood pada model logistik eksponensial, dalam paper ini menggunakan metode newton raphson yang ditulis dalam bahasa pemrograman visual C++. Metode Newton–Raphson dihitung dengan mencari turunan pertama dan turunan kedua dari l n ( ) dan mencari nilai S n ( ) dan Fn ( ) , sehingga diperoleh matriks Fn1 ( ) yaitu negative dari invers turunan kedua dari matriks l n ( ) , kemudian dibuat estimasi MLE sebagai berikut:
2 1 F 1 ( 1 ) S n ( 1 ). Dengan S n ( 1 ) adalah vektor pada turunan pertama pada l n ( )
l n ( ) 2 l n ( ) . Fn ( ) 2
S n ( ) dan
ISBN : 978-602-19590-2-2
833
Rahmatina D.
Maximum Likelihood Estimation …
3.2 Analisis Pada Model Eksponensial Nilai estimasi pada model eksponensial sederhana , adalah 0.002346, dimana _
nilai fungsi maksimum log likelihood adalah –529.125 dan –2 log L = 1058.25. Adapun untuk nilai kovariate pada model eksponensial dapat dilihat pada table 1 di bawah ini. Table 1: Estimasi parameter pada model eksponensial dengan kovariates. Variabel Coefficient Standard p - value 2 statistic Error -8.1041221 2.7868635 155.926025 0.0000 0 (intercept) 0.0895382 0.9093114 37.6092103 0.0000 1 (Age)
2 ( Surgery) 3 (Transplant)
-0.9376451
0.5352304
4.5531122
0.0329
-2.3196814
0.3803186
80.1594870
0.0000
Berdasarkan table 1 di atas, diperoleh semua kovariate adalah signifikan dengan berturut-turut p -values 0.0000, 0.0329 dan 0.0000. 3.3 Analysis Pada Immune Pada Populasi Untuk menguji apakah ada individu yang kebal/immune dengan hipotesis sebagai berikut:
H0 : 1
H1 : 1 Estimasi pada model split exponensial sederhana pada data Stanford heart transplant dapat dilihat pada table 2 di bawah ini. Table 2:Estimasi Parameter pada model split eksponensial sederhana Variabel Coefficient Standard Error p -value 2 statistic
0.0050668 0.8053063
0.0006626 0.0442740
58.4726917 330.8448046
0.0014 0.0000
Nilai log likelihood pada model split eksponensial sederhana adalah 511,21 dan –2log L = 1022.42, adapun perbedaan nilai model split eksponensial dengan nilai model eksponensial sederhana adalah
d n 1058.25-1022.42 = 35.83. 1 1 P ( X c 0.95 ) = P 12 c 0.95 0.95 . 2 2 c0.95 = 2.71.
d n 35.83 lebih besar dari nilai kritis 2.71 menggunakan tingkat signifikan 5%, sehingga disimpulkan H0 ditolak, jadi populasi pada data adalah immune. Selanjutnya, model split eksponensial ini didasarkan pada karakteritik dari individu sebagai kovariate, sebagaimana ditampilkan pada table 3 di bawah ini.
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
834
KNM XVI
3-6 Juli 2012
UNPAD, Jatinangor
Table 3: Estimasi Parameter model split eksponensial dengan kovariate. Variabel
Coefficient
0 (intercept)
1 (Age) 2 (Surgery) 3 (Transplant) (Population
p -value
-5.8538567
Standard Error 0.7960379
54.0775055
0.0000
0.0472512
0.0169796
7.7441434
0.0054
-1.1356590
0.4746254
5.7252423
0.0167
-2.2812744
0.2993184
58.0882351
0.0000
0.9155647
0.0490618
348.2494354
0.0000
2
statistic
split) Berdasarkan table 3 di atas,semua kovariate yaitu Age, Surgery dan Transplant signifikan dengan berturut turut p -value 0.0054, 0.0167 dan 0.0000 . 3.4 Analysis Pada Model Logistik Eksponensial Untuk memungkinkan adanya pengaruh kovariat pada probabilitas bahwa seorang individu yang kebal, juga menguji kemungkinan kekebalan bervariasi dari individu ke individu. Akibatnya, dengan menghubungkan probabilitas setiap individu yang berbeda menjadi kebal/immune, yang bergantung pada informasi kovariat pada individu tersebut. Pertama dianalisis model logistik eksponensial dengan scale eksponensial adalah konstan yang disebut juga dengan logistik eksponensial sederhana. Table 4. Estimasi Parameter pada Logistik Eksponensial Sederhana Variabel
Coefficient
0 (intercept)
1 (Age) 2 ( Surgery) 3 (Transplant)
p - value
-0.2959629216
Standard Error 1.40981401
0.044070803
0.8337
0.0929554976
0.03373976
7.590423552
0.0059
-1.0174345511
0.74780697
1.851117295
0.1737
-2.7492072100
1.19240013
5.315827931
0.0211
0.0052216383
0.00067632
59.60797637
0.0000
2
statistic
Log- likelihood : -502.14809961 Berdasarkan tabel di atas, dapat disimpulkan bahwa Age dan Transplant adalah signifikan dengan nilai p - value berturut-turut 0.0059 dan 0.0211, sedangkan Surgery tidak signifikan dengan nilai p - value 0.1737. Selanjutnya di analisis model logistik eksponensial dengan scale eksponensial didasarkan pada karakteritik dari individu sebagai kovariate disebut juga sebagai model logistik eksponensial sebagaimana ditampilkan pada table 5 di bawah ini
ISBN : 978-602-19590-2-2
835
Rahmatina D.
Maximum Likelihood Estimation …
Table 5 : Estimasi Parameter pada model logistik eksponensial Variabel
Coefficient
0 (intercept)
p - value
-5.1423817
Standard Error 0.6654312
59.7203282
0.0000
1 (Age) 2 (Surgery) 3 (Transplant)
0.0311276
0.0148373
4.4013286
0.0359
-1.3649098
0.7429733
3.3748869
0.0662
-1.9813518
0.3013371
43.2332677
0.0000
0 (intercept)
-0.5364496
1.3905355
0.1488311
0.6997
1 (Age) 2 (Surgery) 3 (Transplant)
0.0875403
0.0371367
5.5565935
0.0184
0.6228595
4.1006762
0.0230707
0.8793
-1.9281219
1.0468279
3.3924884
0.0655
2
statistic
Log- likelihood = -473.3356875 Pada tabel 5 di atas didapat bahwa Age dan Transplant adalah signifikan pada distribusi kegagalan bertahan hidup dengan nilai p -value berturut turut 0.0359 dan 0.0000, sedangkan Surgery tidak signifikan dengan p -value of 0.0662. Selanjutna untuk kemungkinan immune/kebal dari individu ke individu lain diperoleh Surgery dan Transplant tidak signifikan dengan p -value berturut turut 0.8793 dan 0.0655, sedangkan Age adalah signifikan dengan p -value 0.0184. DAFTAR PUSTAKA [1].
[2].
[3]. [4].
Abu Bakar, M. R. Multivariate Survival Analysis for Split population with application to patterns of domestic violence: construction and application of customized computer software for the analysis of data generated from studies of recidivism with covariates to accommodate the detection of demotivation and right-censoring mechanism. Ph. D. Thesis, University of Bradford, 2009. Ando, T., Imoto, S., dan Miyano, S. , Kernel Mixture Survival Models for Identifying Cancer Subtypes, Predicting Patient’s Cancer Types and Survival Probabilities, Genome Informatics, 15(2), 201-210, 2004 J. Crowley and M.Hu.Covariance analysis of heart transplant survival data. Journal of the American Statistical Association 72, 27-36, 1997 Zhang, Y. Parametric Mixture Models in Survival Analysis with Applications, Disertation, Temple University, Philadelphia, 2008.
KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor
836