Paradigma, Vol. 13 No. 2 Agustus 2009 hlm. 189–194
MODEL REGRESI SEMIPARAMETRIK SPLINE UNTUK DATA LONGITUDINAL PADA KASUS KADAR CD4 PENDERITA HIV Lilis Laome1) 1) Jurusan Matematika FMIPA Universitas Haluoleo Kendari 93232
ABSTRAK Pemodelan data longitudinal telah dilakukan dengan regresi semiparametrik spline. Selanjutnya diaplikasikan untuk menduga pola hubungan CD4 awal (X) dengan kadar CD4 pasien HIV (Y) dan waktu pemeriksaan (t) dengan kadar CD4 pasien HIV (Y), sehingga diperoleh model terbaik dengan melihat MSE terkecil dan R2 terbesar. Kata kunci: data longitudinal, regresi semiparametrik, spline ABSTRACT The modeling of longitudinal data have been done with spline semiparametric regression. Then application for estimating CD4 number and pre-CD4 for a subject with linear parametric pattern, and checking time with nonparametric pattern, so that it is obtained the best model with the lowest MSE and the biggest R2. Keywords: longitudinal data, semiparametric regression, spline Diterima: 20 Maret 2009 Disetujui untuk dipublikasikan: 21 Agustus 2009
1. Pendahuluan Regresi semiparametrik adalah gabungan antara regresi parametrik dan regresi nonparametrik. Penelitian tentang regresi semiparametrik telah banyak dilakukan. Srinadi telah meneliti estimator spline pada model semiparametrik [1]. Mulianah meneliti pendekatan kernel dalam regresi semiparametrik dan pemilihan bandwidth optimal [2]. Ampa meneliti model linier parsial pada hilangnya data komponen parametrik [3]. Namun penelitian-penelitian tersebut hanya pada data cross section atau data yang diamati pada suatu waktu tertentu. Untuk kasus khusus, regresi semiparametrik dapat digunakan pada data longitudinal. Analisis tentang pemodelan data longitudinal sudah banyak dikaji oleh peneliti. Brumback dan Rice menggunakan smoothing spline dalam mengestimasi fungsi nonparametrik pada data progesteron [4]. Namun penelitian tersebut hanya terbatas pada regresi nonparametrik. Kuswanto menggunakan model Gamma-Frailty untuk memodelkan data longitudinal [5]. Kemudian Zeger dan Diggle meneliti model campuran
Model Regresi Semiparametrik Spline untuk Data Longitudinal pada Kasus Kadar CD4 Penderita HIV
102
semiparametrik untuk data longitudinal menggunakan smoothing kernel, dalam risetnya membahas tentang HIV berdasarkan kadar CD4 dalam darah [6]. Penggunaan estimator kernel dalam model semiparametrik pada data longitudinal, tidak sesuai untuk data yang mempunyai pola data yang rumit. Sehingga sulit untuk memperoleh estimasi komponen nonparametrik yang sesuai. Zhang et al. menggunakan estimator spline untuk mengestimasi model semiparametrik [7]. Dalam paper ini, dibahas penggunaan regresi semiparametrik spline untuk data longitudinal pada kasus kadar CD4. 2. Data Longitudinal Data longitudinal adalah data pengamatan berulang pada unit eksperimen, berbeda dengan data cross section yaitu data dari masing-masing individu diamati dalam sekali waktu [5]. Ada beberapa keuntungan dari studi mengenai data longitudinal dibandingkan dengan data cross section. Pertama, studi longitudinal lebih powerful dari studi cross section untuk sejumlah subjek yang tetap. Dengan kata lain, untuk memperoleh kekuatan uji statistik yang sama, studi longitudinal membutuhkan subjek yang lebih sedikit. Kedua, dengan jumlah subjek yang sama, hasil pengukuran error menghasilkan penaksir efek perlakuan yang lebih efisien dari data cross section. Ketiga, data longitudinal mampu menyediakan informasi tentang perubahan individu, sedangkan data cross section tidak [5]. 3. Model Regresi Semiparametrik untuk Data Longitudinal Regresi semiparametrik untuk data longitudinal dapat ditulis dengan : yij XTij β f (tij ) ij , i 1, 2, ..., n ; j 1, 2,..., ni
(1)
dimana terdapat n subjek dengan subjek ke-i mempunyai ni observasi.menurut waktu. yij , i = 1,...,n,
j = 1,...,ni
merupakan respon untuk subjek ke-i pada waktu tij.
β = ( 1 , 2 , ..., p )T adalah vektor p 1 pada koefisien regresi kovariat X ij , dengan X ijT β diasumsikan tidak mempunyai intersep, f (tij ) adalah fungsi yang terdeferensiabel dua kali dengan panjang periode sama dengan T dan ij adalah random error yang saling bebas dengan mean 0 dan variansi 2 R .
Paradigma, Vol. 13 No. 2 Agustus 2009 hlm. 101–106
103
a. Estimasi parametrik Secara umum bentuk regresi parametrik linear digambarkan sebagai berikut [8] : yi 0 1 X i i , i 1, 2,..., n
(2)
atau dalam bentuk matrik dapat ditulis dengan :
Y = Xβ + ε , dimana ε ~ N (0, 2 ) Estimasi koefisien regresi β dapat menggunakan metode kuadrat terkecil. Metode estimasi
ini
dilakukan
dengan
meminimumkan
εT ε
terhadap
β.
Untuk
ε T ε ( Y Xβ)T ( Y Xβ ) , dengan menurunkan ε T ε tehadap β dan menyamakan
dengan nol sehingga diperoleh estimator : βˆ = (XT X)-1 X T Y
(3)
b. Estimasi nonparametrik Untuk n pengamatan yang independen, (ti , yi ), i 1, 2,..., n , maka model regresi secara umum dapat ditulis dengan : yi f (ti ) i , i 1, 2,..., n
(4)
dimana yi adalah variabel respon ke -i , f (ti ) adalah fungsi regresi dan i adalah error random yang diasumsikan independen dan identik dengan mean 0 dan variansi 2 . Menurut Eubank fungsi regresi f (ti ) dapat diestimasi menggunakan regresi nonparametrik [8]. Pendekatan nonparametrik digunakan untuk mengestimasi kurva regresi karena model tidak ditentukan terlebih dahulu seperti pada regresi parametrik. Salah satu pendekatan nonparametrik yang bisa dilakukan adalah dengan fungsi spline. Secara umum, fungsi spline berorde k adalah sembarang fungsi yang dapat ditulis dalam bentuk : k
h
S (t ) i t i j (t j ) k i 1
dengan
j 1
(5)
Model Regresi Semiparametrik Spline untuk Data Longitudinal pada Kasus Kadar CD4 Penderita HIV
(t j ) k (t j ) 0
104
,t j
k
,t j
dan adalah konstanta real dan 1 , 2 ,..., h adalah titik-titik knot. 4. Aplikasi Pada penelitian ini, difokuskan untuk melihat hubungan antara CD4 awal (X) dan waktu pemeriksaan kadar CD4 setelah terapi (t) terhadap persentase kadar CD4 setelah terifeksi HIV (Y), dimana CD4 awal merupakan variabel penjelas komponen parametrik dan waktu pemeriksaan merupakan variabel penjelas komponen nonparametrik. Langkah yang dilakukan adalah memilih titik-titik knot optimum pada pemodelan data secara parsial, sehingga diperoleh model parsial awal. Kemudian dari titik-titik knots optimum tersebut dibuat model simultan, sehingga diperoleh model semiparametrik berikut : yˆij 0, 6 x1 j x2 j x3 j ... 0,1x55 j 39, 8 t1 j 1
1
52, 3( t1 j 0, 5) 13, 2( t1 j 2, 4) 1
1
(6)
15, 8 (t1 j 4, 96) 22,1 t 2 j 17, 3( t 2 j 1, 5) 1
... 29, 9 t 55 j 99, 9 (t 55 j 1, 5) 1
1
119, 5( t55 j 2) 48, 4(t55 j 2, 33)
dengan nilai MSE dan R2 masing-masing sebesar 7,096 dan 94,97 %. Pada data ini terdapat korelasi didalam pengamatan berulang pada setiap subjek. Indikasi adanya korelasi dapat terlihat pada variabel respon yang berpengaruh terhadap waktu. Adanya kasus korelasi menunjukkan bahwa model semiparametrik simultan (6) selayaknya disempurnakan dengan mengikutkan suatu bobot. Langkah yang dilakukan adalah menentukan bobot. Misal bobot yang diberikan adalah W dan W*, sehingga dari kedua bobot tersebut diperoleh model masing-masing sebagai berikut : yˆij 0,43 x1 j 0,91 x2 j 1,17 x3 j ... 10,53 x55 j 275,17 t1 j + 2
2
2
(7)
292,25 t1 j 295,23 ( t1 j 0, 5) 12,37 ( t1 j 4, 22) 1
1
22,1 t 2 j 17, 3( t 2 j 2, 4) ... 263,11 t55 j + 269,06 (t 55 j 1, 4)
Paradigma, Vol. 13 No. 2 Agustus 2009 hlm. 101–106
105
yˆ ij 0,77 x1 j 0,93 x2 j 1,08 x3 j ... 0, 92 x55 j 2
3
23,94 t1 j 24,23 t1 j 5,04 t1 j 3
1
(8)
7,13 ( t1 j 2, 2) 19, 39 t 2 j 14, 59( t 2 j 1, 6) 1
... 2,39 t 55 j + 7, 29( t55 j 4,1)
Berdasarkan model (7), nilai MSE dan R2 sebesar 1,72 dan 99,15%, sedangkan pada model (8) nilai MSE dan R2 adalah sebesar 23,72 dan 94,92%. Berdasarkan ketiga model simultan (6), (7), dan (8) terlihat bahwa model (7) mempunyai nilai MSE terkecil dan nilai R2 yang lebih baik. Akhirnya diperoleh model parsial, misalkan tiga model parsial yaitu untuk pasien 1, pasien 6, dan pasien 43 masing-masing adalah : 2 2 yˆ1 j = 0,43 x1 j 275,17 t1 j 292,25 t1 j 295,23 ( t1 j 0, 5) 2
(9)
12,37 ( t1 j 4, 22) , j 1, 2, ...,12 2 2 yˆ 6 j = 0,48 x6 j +31,4 t6 j +25,13 t 6 j 9, 39 ( t 6 j 2, 3) ,
(10)
j 1, 2,...,11 1 yˆ 43 j 0,59 x43 j 4, 97 t 43 j +6,04 ( t 43 j 3, 7) ,
(11)
j 1, 2,...,12
Berdasarkan ketiga model parsial (9), (10), dan (11), dapat dilihat bahwa untuk ketiga pasien tersebut mempunyai pola data yang berbeda. Khususnya pada pola perubahan kadar CD4, untuk pasien 1 pada model (9) terlihat pada waktu 0,5 tahun dan 4,22 tahun mengalami perubahan pola. Sedangkan untuk pasien 6 pada model (10) terlihat pada waktu 2,3 tahun. Dan untuk pasien 43 pada model (11) terlihat pada waktu 3,7 tahun. 5. Kesimpulan Pemodelan data longitudinal dengan regresi semiparametrik spline telah dilakukan pada kasus menduga pola hubungan antara CD4 awal (X) dengan kadar CD4 pasien HIV (Y) dan waktu pemeriksaan (t) dengan kadar CD4 pasien HIV (Y). Model yang diperoleh mempunyai nilai MSE terkecil dan R2 yang terbesar. Berdasarkan model yang diperoleh menunjukkan pola perubahan kadar CD4 setiap pasien berbeda-beda. Pasien 1 mengalami perubahan kadar CD4 pada waktu 0,5 tahun dan 4,22 tahun; pasien 6 mengalami
Model Regresi Semiparametrik Spline untuk Data Longitudinal pada Kasus Kadar CD4 Penderita HIV
106
perubahan kadar CD4 pada waktu 2,3 tahun; dan pasien 43 mengalami perubahan kadar CD4 pada waktu 3,7 tahun.
DAFTAR PUSTAKA [1]
Srinadi, I.A.M. 2002. Estimator Spline pada Model Semiparametrik, Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.
[2]
Mulianah. 2006. Pendekatan Kernel dalam Regresi Semiparametrik dan Pemilihan Bandwith Optimal, Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.
[3]
Ampa, A.T. 2006. Model Linier Parsial pada Hilangnya Data Komponen Parametrik, Tesis. Surabaya : Institut Teknologi Nopember.
[4]
Brumback, B. dan Rice, J.A. 1998. Smoothing Spline Models for the Analysis of Nested and Crossed Sampels of Curves. Journal of American Statistical Association, 93 (443), 961994.
[5]
Kuswanto, H. 2005. Model Gamma-Frailty untuk Data Longitudinal dan Penggunaan Korelasi Serial dengan Metode Composite Likelihood, Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.
[6]
Zeger dan Diggle. 1994. Semiparametric Models for Longitudinal Data with Application to CD4 Cell Numbers in HIV Seroconverters. Journal of the American Statistical Association, 50 (3), 689-699.
[7]
Zhang, D., Lin, X., Raz, J. Dan Sower, M.F. 1998. Semiparametric Stochastic Mixed Models for Longitudinal Data. Journal of the American Statistical Association, 93 (442), 710719.
[8]
Eubank, R.L. 1998. Spline Smoothing and Nonparametric Regression. New York : Marcel Dekker.