PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
(R.6) REGRESI MULTILEVEL ZERO INFLATED POISSON UNTUK PEMODELAN DATA RESPON COUNT (Studi Kasus: Kejadian Kematian Bayi) 1 Parwoto, 2 Septiadi
Padmadisastra, 3 Anna Chadidjah 1 Mahasiswa Magister Statistika Terapan Universitas Padjadjaran 2,3 Dosen Jurusan Statistika Universitas Padjadjaran Email : 1
[email protected], 2
[email protected], 3
[email protected] Abstrak Kematian bayi merupakan salah satu indikator pembangunan yang tertuang dalam Millennium Development Goals (MDGs). Pengamatan terhadap kejadian kematian bayi dalam rumah tangga akan menghasilkan data yang berbentuk diskrit, non-negative dan bukan biner (count data) serta mengandung banyak nilai nol (excess zeros). Untuk meneliti faktor-faktor atau penyebab kematian bayi, model regresi Poisson dapat diterapkan dengan menjadikan kejadian kematian bayi sebagai variabel respon. Salah satu masalah pada regresi Poisson adalah jika data respon mengandung nilai nol dengan proporsi yang relatif besar, sehingga parameter yang dihasilkan menjadi tidak tepat. Dalam keadaan tersebut penggunaan regresi Zero Inflated Poisson (ZIP) lebih disarankan. Namun demikian, pada data yang berhirarki (multilevel), model regresi ZIP menjadi kurang cocok karena tidak memperhatikan variasi antar level. Untuk mengatasi masalah tersebut dapat digunakan model regresi Multilevel ZIP. Penaksiran parameter pada regresi Multilevel ZIP menggunakan expectation-maximization (EM) algorithm dan estimasi komponen varians menggunakan residual maximum likelihood. Aplikasi analisis ini menggunakan data Survei Demografi dan Kesehatan Indonesia (SDKI) 2007. Kata Kunci: multilevel, count data, zero inflated poisson, excess zeros, EM algorithm
I.
PENDAHULUAN Salah satu tujuan dalam Tujuan Pembangunan Milenium/Millennium Development
Goals (MDGs) adalah menurunkan angka kematian anak dengan salah satu indikator di dalamnya yaitu menurunkan angka kematian bayi (BAPENAS, 2007). Angka kematian bayi (AKB) didefinisikan sebagai jumlah kematian bayi per seribu kelahiran hidup. Pada tahun 2007, berdasarkan hasil Survei Demografi dan Kesehatan Indonesia, AKB di Indonesia tercatat 34 per 1000 kelahiran untuk periode 5 (lima) tahun sebelum survei (BPS & Macro International, 2007). Jika dibandingkan dengan negara lain, AKB di Indonesia masih relatif tinggi. Untuk lingkup Asia Tenggara, AKB di Indonesia masih lebih tinggi dari negara-negara lain seperti: Singapura (2,30), Brunei Darussalam (13,12), Malaysia (16,62), Thailand (18,85), Philipina (22,12), dan Vietnam (24,37).
Jurusan Statistika-FMIPA-Unpad 2011
137
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Pengamatan tehadap fenomena kejadian kematian bayi dalam suatu rumah tangga akan menghasilkan data yang berbentuk frekuensi/cacahan (count) dan mengandung banyak nilai nol (excess zeros), karena kejadian kematian bayi merupakan kejadian yang jarang terjadi. Untuk meneliti faktor-faktor atau penyebab kematian bayi, model regresi dapat diterapkan dengan menjadikan kejadian kematian bayi sebagai variabel respon. Model regresi yang dapat diterapkan dimana variabel respon berupa data count adalah model regresi Poisson (Agresti, 2002). Namun demikian, model regresi Poisson seringkali menjadi tidak sesuai jika terdapat banyak data bernilai nol (excess zeros) yang mengakibatkan overdispersi (Ridout dkk., 1998). Terjadinya overdispersi mengakibatkan model yang dihasilkan menjadi tidak sesuai dan penaksiran parameter menjadi bias. Menurut Lambert (1992), jika data yang bernilai nol (zero inflation) dijumpai pada data jenis count dan proporsinya relatif besar, maka model regresi Zero Inflated Poisson (ZIP) lebih disarankan untuk digunakan. Namun demikian model regresi ZIP mempunyai kelemahan jika bekerja pada data berhirarki (multilevel) karena tidak memperhitungkan variasi dan korelasi antar level. 2. MODEL-MODEL REGRESI DENGAN DATA RESPON COUNT 2.1 Regresi Poisson Model regresi Poisson merupakan model regresi standar untuk data cacahan (count) yang merupakan model regresi nonlinear (Cameron & Trivedi, 1998). Model ini diturunkan dari distribusi Poisson dimana parameter intensitas (µ) bergantung pada kovariat (regressor). Model regresi Poisson dari sejumlah k variabel prediktor dapat dituliskan dalam bentuk: ( )=
=
(1)
sehingga: = exp ( dengan xi merupakan vektor kovariat dan
)
(2)
adalah vektor ( + 1) × 1 sebagai parameter
regresi yang akan ditaksir yang menunjukkan besarnya pengaruh variabel prediktor terhadap variabel respon yang diteliti. 2.2 Regresi Zero Inflated Poisson Menurut Lambert (1992) dalam Kristiono (2010), model Zero Inflated Poisson mengasumsikan bahwa populasi atau pengamatan terdiri dari dua kelompok laten (tidak teramati/unobserved). Suatu individu (unit observasi) akan masuk pada kelompok A yang nilainya selalu nol (zero state) dengan peluang
atau akan masuk kelompok A (non-zero
state), dimana nilai nol dan nilai positif dihasilkan oleh suatu fungsi distribusi Poisson, Jurusan Statistika-FMIPA-Unpad 2011
138
PROSIDING Seminar Nasional Statistika | 12 November 2011 dengan peluang 1 −
ISSN : 2087-5290. Vol 2, November 2011
, sehingga fungsi peluang untuk nilai nol dan nilai positif dapat
dituliskan dalam persamaan sebagai berikut:
i (1 i )e , untuk yi 0 Pr(Y yi ) e y 1 ) , untuk yi 1, 2,.. i yi ! Model regresi ZIP dengan parameter
(3)
=( ,
,…,
) dan
=(
,
,…,
)
dibentuk oleh persamaan: ( )=
dan
( )=
=
(4)
dengan X dan Z adalah matriks kovariat yang terdiri dari variabel-variabel prediktor,
dan
merupakan parameter koefisien regresi. Karena fleksibilitasnya, model regresi ZIP banyak digunakan dalam berbagai disiplin ilmu. Namun demikian, pada data yang berhirarki (multilevel), data yang berklaster dan data yang diperoleh dari sampling multi stages, model ZIP kurang cocok karena tidak memperhatikan variasi dan korelasi antar level (Lee dkk., 2006; Moghimbeigi dkk., 2009). 2.3
Regresi Multilevel Zero Inflated Poisson
2.3.1 Model Regresi Multilevel Zero Inflated Poisson Model Multilevel ZIP merupakan salah satu model yang dapat mengatasi masalah pada data respon count yang mengandung banyak nilai nol (excess zeros) dan mempunyai struktur berhirarki (Lee dkk., 2006). Pada penelitian ini dengan menggunakan data Survei Demografi dan Kesehatan Indonesia (SDKI) 2007 Provinsi Jawa Barat, digunakan model 3-level dengan level-1 yaitu rumah tangga sebagai unit observasi, blok sensus sebagai level-2 dan kabupaten/kota sebagai level-3. Misalkan
merupakan data count yang merepresentasikan jumlah kejadian
kematian bayi di kabupaten/kota ke-i, blok sensus ke-j, rumah tangga ke-k 1,2, … , yaitu
;
= 1,2, … ,
=∑
= 1,2, … ,
;
=
) menjadi variabel respon, dimana n merupakan jumlah blok sensus
dan jumlah rumah tangga keseluruhan adalah
=∑
∑
.
Pemodelan regresi Multilevel ZIP dengan random effects pada prediktor linier sebagai berikut (Lee dkk., 2006): log log dimana
=
1−
dan
regresi ditunjukkan oleh
=
= =
+ +
+ (5)
+
merupakan kovariat pada logistic part dan poisson part. Koefisien dan . Random effects pada level kabupaten/kota dinotasikan
Jurusan Statistika-FMIPA-Unpad 2011
139
PROSIDING Seminar Nasional Statistika | 12 November 2011 dan
serta random variations pada level blok sensus dinotasikan
ISSN : 2087-5290. Vol 2, November 2011
dan
. Model pada
Persamaan (5) dapat dituliskan dalam bentuk vektor sebagai berikut: log
=
1− log[ ] = dimana , ,
,
,
=
+
+ (6)
=
+
+
dan
merupakan matriks desain. Random effects w, s, u dan v
diasumsikan independen dan berdistribusi normal dengan mean nol dan varians masingmasing 2.3.2
,
,
dan
.
Penaksiran Parameter Penaksiran parameter model regresi Multilevel ZIP memerlukan prosedur numerik EM
Algorithm yang terbagi 2 (dua) langkah: E-step: menghitung nilai ekspektasi dari log-likelihood yang dievaluasi menggunakan current estimates dari parameter-parameter; M-step: menghitung parameter-parameter dengan memaksimalkan log-likelihood yang dihasilkan pada E-step. Penaksiran dilakukan dengan pendekatan penalized log-likelihood yang dirumuskan dengan =
+
, dimana
conditionally fixed dan =
log
adalah fungsi log-likelihood ketika random effects-nya
adalah log-likelihood dari random effects (Lee dkk., 2006):
exp( ) + exp(−exp( 1 + exp( )
+
− exp(
1 = − [ log(2 2 1 − [ log(2 2
))
) − log(
!) − log(1 + exp( )) (7)
)+
+
log(2
)+
]
)+
+
log(2
)+
]
Proses estimasi dilakukan dengan memaksimalkan
dengan komponen varians fixed
pada nilai sekarang (current values). Selanjutnya pada proses iterasi, updating nilai dari komponen varians menggunakan estimasi residual maximum likelihood (REML) yang diperoleh dengan mempertimbangkan
. Untuk data lengkap dirumuskan
=
+
dengan: =
− log(1 + exp( 1 − [ 2
log(2
)+
Jurusan Statistika-FMIPA-Unpad 2011
)) +
log(2
)+
]
140
PROSIDING Seminar Nasional Statistika | 12 November 2011
=
(1 −
) (
1 − [ log(2 2 dimana
− exp(
) − log(
1 ]− [ 2
)+
log(2
ISSN : 2087-5290. Vol 2, November 2011
(8)
!) ]
)+
adalah variabel biner yang tidak teramati yang menunjukkan
dari kelompok laten zero (
= 1) atau non-zero (
= 0).
Penaksiran parameter dilakukan dengan memaksimalkan kedua fungsi terpisah. Pada langkah ekspektasi (E-step),
dan
secara
diganti dengan conditional expectation ( ( )
(g menunjukkan iterasi) di bawah kondisi current estimates ( )
berasal
,
( )
,
( )
,
( )
,
( )
( )
)
dan
:
( )
(9) 1 ( )
= 1 + exp −
( )
−
− ̂
( )
( )
− exp(
−
( )
( )
−
)
,
0, Selanjutnya dengan (
terpisah untuk =
+
)
fixed pada (
,
)
,
(
)
( )
, kemudian (
dan
)
,
(
dan )
,
(
jika
=0
jika
≥1
dimaksimalkan secara )
pada partisi ortogonal
.
Estimasi parameter dihasilkan dari M-step dalam EM Algorithm dengan parameterparameter varians (
,
) dan (
,
) fixed. Estimasi dilakukan dengan dua set persamaan
rekursif sebagai berikut:
=
+
, ,
⎡ ⎢ ⎢ ⎢ ⎣
⎤ ⎥ ⎥ ⎥ ⎦
dan
=
+
, ,
⎡ ⎢ ⎢ ⎢ ⎣
⎤ ⎥ ⎥ ⎥ ⎦
(10)
dengan , ,
=
[
−
]+
(11)
dan , ,
=
dimana (
− ,
,
) dan (
[ ,
]+ ,
(12)
) adalah initial values dari parameter-parameter yang
di-update dengan proses iterasi hingga konvergen.
Jurusan Statistika-FMIPA-Unpad 2011
141
PROSIDING Seminar Nasional Statistika | 12 November 2011 2.3.3
ISSN : 2087-5290. Vol 2, November 2011
Estimasi Komponen Varians Estimasi varians dari random effects pada model regresi Multilevel ZIP memerlukan
penghitungan matriks informasi sebagai berikut (Lee dkk., 2006):
, , , , ,
⎡ ⎢ +⎢ ⎢ ⎢ ⎣
=
⎤ ⎥ ⎥ ⎥ ⎥ ⎦
(13)
dimana H merupakan matriks Hessian yang diperoleh dari persamaan:
⎡ ⎢ ⎢ =⎢ ⎢ ⎢ ⎣
⎤ ⎥ ⎥⎛ ⎥⎜ ⎥ ⎥⎝ ⎦
(14) −
−
−
− ⎠
Apabila invers dari j = 1,…,6, maka
⎞ ⎟
,
,
, , , , ,
dinotasikankan dengan
dan
=(
), dengan i = 1,…,6 dan
merupakan matriks persegi yang menghubungkan
masing-masing random effects w, s, u dan v. Komponen varians diperoleh dari: = =
( (
) )
;
;
Adapun akar kuadrat dari elemen masing koefisien regresi 2.3.4
= =
dan
( (
)
;
(15)
)
merupakan standard error dari masing-
dan .
Uji Parameter Model Pengujian parameter regresi pada logistic part ( ) dan poisson part ( ) dilakukan
dengan menggunakan Wald test. Pada pengujian parameter , hipotesis yang digunakan adalah: H0 :
=0
H1 :
≠ 0 untuk = 1,2, … , (k : banyaknya variabel prediktor)
Pengujian menggunakan statistik uji Wald yang dirumuskan (Agresti, 2002): =
Jurusan Statistika-FMIPA-Unpad 2011
SE( )
(16)
142
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Statistik Wald mengikuti distribusi normal standar sehingga kriteria pengujiannya adalah tolak H0 jika
>
/
atau p-value <
, dimana
adalah tingkat signifikansi dalam
pengujian, SE adalah standard error. Hipotesis untuk pengujian parameter koefisien regresi pada poisson part ( ) sebagai berikut: H0 :
=0
H1 :
≠ 0 untuk = 1,2, … , (k : banyaknya variabel prediktor).
Statistik uji yang digunakan adalah statistik Wald (Agresti, 2002): =
(17)
SE( )
Kriteria pengujiannya yaitu tolak H0 jika
>
/
atau p-value <
, dimana
merupakan tingkat signifikansi, SE adalah standard error.
3.
HASIL DAN PEMBAHASAN Variabel respon dan variabel-variabel prediktor yang digunakan dalam penelitian ini
sebagai berikut: Tabel 1. Variabel-variabel dalam Penelitian Variabel Respon Y X1 X2 X3 Prediktor
X4 X5 X6
Deskripsi Kategori Jumlah kejadian kematian bayi dalam rumah tangga 1 Perkotaan Status tempat tinggal 0 Pedesaan Pendidikan kepala rumah 1 SLTP ke bawah tangga 0 SLTA ke atas Umur kepala rumah tangga 1 Air bersih Sumber air minum 0 Bukan air bersih 1 Bukan tanah Jenis lantai 0 Tanah Jumlah anggota rumah tangga
Ukuran sampel yang digunakan sebanyak 1411 rumah tangga sampel SDKI 2007 Provinsi Jawa Barat yang terdapat dalam 86 blok sensus (BS) pada 26 kabupaten/kota. Frekuensi kejadian kematian bayi dalam rumah tangga ditunjukkan pada tabel dan gambar berikut:
Jurusan Statistika-FMIPA-Unpad 2011
143
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Tabel 2. Distribusi Persentase Kejadian Kematian Bayi dalam Rumah Tangga Jumlah Kejadian Kematian Bayi 0 1 2 3 4 5 Jumlah
Freku ensi
Persen tase
1243 129 27 8 0 4 1411
88.1 9.1 1.9 0.6 0.0 0.3 100. 0
Gambar 1. Grafik Persentase Kejadian Kematian Bayi dalam Rumah Tangga
Hasil estimasi parameter regresi untuk model regresi Poisson, ZIP dan Multilevel ZIP sebagai berikut: Tabel 2. Hasil Estimasi Parameter Regresi Logistic part
ZIP Poisson part
-2.551(0.000)
0.294(0.878)
-1.228(0.126)
0.527(0.734)
-1.130(0.129)
-0.062(0.662)
-0.243(0.529)
-0.179(0.473)
-0.287(0.476)
-0.218(0.400)
-0.570(0.001)
0.236(0.627)
-0.347(0.351)
0.155(0.745)
-0.331(0.370)
0.030(0.000)
-0.087(0.001)
-0.015(0.203)
-0.090(0.000)
-0.016(0.148)
0.092(0.547)
1.608(0.004)
0.913(0.001)
1.290(0.007)
0.670(0.009)
-0.608(0.018)
2.903(0.030)
0.611(0.108)
3.175(0.006)
0.817(0.038)
0.014(0.688)
0.081(0.412)
0.051(0.411)
0.125(0.185)
0.063(0.299)
(kab/kota)
0.772
0.214
(BS)
0.004
0.001
Variabel Intercep t X1 X2 X3 X4 X5 X6 2 2
Poisson
Multilevel ZIP Logistic part Poisson part
Keterangan: - Hasil Olahan Data SDKI 2007 Provinsi Jawa Barat - Angka dalam kurung menunjukkan p-value Dari tabel di atas, pada taraf α=5%, dapat dilihat bahwa pada regresi Poisson, variabel pendidikan kepala rumah tangga berpengaruh signifikans pada terhadap frekuensi kejadian kematian bayi namun pengaruh ini tidak ditemukan pada model regresi ZIP dan Multilevel ZIP. Hal ini berkebalikan dengan sumber air minum yang tidak signifikans pada model regresi Poisson namun justru berpengaruh signifikans pada model regresi ZIP dan Multilevel ZIP baik pada logistic part maupun poisson part. Variabel prediktor umur kepala rumah tangga, berpengaruh signifikans terhadap kejadian kematian bayi pada regresi Poisson dan pada model regresi ZIP dan Multilevel ZIP pengaruh tersebut signifikans pada logistic part namun
Jurusan Statistika-FMIPA-Unpad 2011
144
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
tidak signifikans pada poisson part, adapun untuk variabel jenis lantai, pengaruh yang signifikans pada regresi Poisson juga sejalan dengan hasil regresi Multilevel ZIP baik pada logistic part maupun poisson part. 4. KESIMPULAN Variabel prediktor yang pengaruhnya signifikans pada model regresi Poisson ternyata belum tentu signifikans pada model regresi ZIP dan Multilevel ZIP. Sebaliknya variabel prediktor yang pengaruhnya tidak signifikans pada model regresi Poisson ternyata dapat menjadi signifikans pada model regresi ZIP dan Multilevel ZIP. Jika membandingkan model single level (ZIP) dengan model multilevel (Multilevel ZIP) berdasarkan hasil di atas, variabel prediktor yang tidak signifikans pada model single level dapat menjadi signifikans pada model multilevel. Perbedaan tersebut dikarenakan pada model multilevel penaksiran parameter dilakukan dengan mempertimbangkan variasi dan korelasi antar level.
5.
DAFTAR PUSTAKA
Agresti, A. (2002). Categorical Data Analysis, Second Edition. New York: John Wiley & Sons. Badan Perencanaan Pembangunan Nasional (BAPPENAS). (2007). Laporan Perkembangan Pencapaian Milennium Development Goals Indonesia 2007. Jakarta: Kementrian PPN/BAPPENAS. Badan Pusat Statistik (BPS) & Macro International. (2007). Survei Demografi dan Kesehatan Indonesia 2007. Calvertorn, Maryland, USA: BPS dan Macro International. Cameron, A.C. & Trivedi, P.K. (1998), Regression Analysis of Count Data. Cambridge: Cambridge University Press. Kristiono, C. (2010). Regresi ZINB untuk Pemodelan Data Respon Count dengan Excess Zeros (Studi Kasus: Konsumsi Miras pada Remaja). Thesis, Universitas Padjadjaran, Bandung. Lambert, D. (1992). Zero-Inflated Poisson Regression, With an Aplication to Defect in Manufacturing. Technometrics, 34: 1-14. Lee, A.H, Wang, K., Scott, J.A., Yau, K.K.W. & McLachlan, G.J. (2006). Multilevel Zero-Inflated Poisson Regression Modeling of Correlated Count Data with Excess Zeros. Statist. Methods Med. Res. 15: 47–61. Moghimbeigi, A., Eshraghian, M.R., Mohammad, K., Nourijelyani, K. & Husseini, M. (2009). Determinants Number of Cigarette Smoked with Iranian Adolescents: A Multilevel Zero Inflated Poisson Regression Model. Iranian Journal Public Health. 38: 91-96. Ridout, M., Demétrio, C.G.B. & Hinde, J. (1998). Models for Count Data with Many Zeros. International Biometric Conference, Cape Town.
Jurusan Statistika-FMIPA-Unpad 2011
145