ESTIMASI PARAMETER MODEL REGRESI ZERO-INFLATED POISSON (ZIP) MENGGUNAKAN METODE BAYESIAN Karima Puspita Sari, Respatiwulan, dan Bowo Winarno Program Studi Matematika FMIPA UNS
Abstrak. Model regresi zero-inflated Poisson(ZIP ) adalah suatu model regresi dimana variabel dependen berdistribusi Poisson dan memiliki banyak nilai nol. Regresi ini terbangun oleh regresi Poisson dan regresi logistik. Estimasi parameter model regresi ZIP dapat menggunakan metode Bayesian. Dalam metode Bayesian terdapat dua distribusi yaitu distribusi prior dan distribusi posterior. Jika distribusi posterior parameter sangat rumit dan tidak dapat dikerjakan secara langsung, maka dilakukan pembangkitan sampel yang mendekati distribusi posterior parameter dengan metode Markov chain Monte Carlo (MCMC ). Tujuan penelitian ini adalah untuk mengestimasi parameter model regresi ZIP menggunakan metode Bayesian dan menerapkannya pada data jumlah kematian difteri di Indonesia tahun 2014 yang dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah sakit, dan jumlah kasus difteri. Estimasi parameter dilakukan dengan menentukan distribusi prior dan posterior, kemudian melakukan simulasi dengan menetapkan nilai awal parameter. Hasil estimasi parameternya adalah α ˆ = 0.06335 dan βˆ = 0.1372. Pada contoh penerapan, estimasi parameternya diperoleh α b = (0.3003, 0.01, 0.0056, 0.0064) dan βb = (−0.1386, 0.101). Hasil estimasi parameter α menjelaskan bahwa besarnya peluang penderita difteri yang tidak meninggal dipengaruhi oleh vaksin, jumlah rumah sakit, dan jumlah penderita difteri berturut-turut sebesar 1%, 0.56%, dan 0.64%. Hasil estimasi parameter β menjelaskan bahwa banyaknya kasus difteri yang meninggal dipengaruhi oleh vaksin dan jumlah penderita difteri sebesar 13.86% dan 10.1%. Kata kunci: overdispersi, zero-inflated Poisson (ZIP), metode Bayesian, Gibbs sampling.
1. PENDAHULUAN Model regresi digunakan untuk menduga pola hubungan antara dua variabel. Variabel dibedakan menjadi dua, yaitu variabel dependen atau disebut juga variabel respon dan variabel independen atau disebut juga variabel prediktor (Nawari [8]). Variabel dependen dapat bernilai kontinu atau diskrit. Model regresi Poisson merupakan model regresi yang digunakan untuk menduga pola hubungan variabel dependen berdistribusi Poisson dan benilai diskrit dengan variabel independen bernilai diskrit atau kontinu. Tidak semua variabel dependen bernilai diskrit cocok menggunakan model Poisson karena model Poisson mensyaratkan nilai rata-rata (mean) sama dengan nilai variansi. Jika nilai mean sama dengan nilai variansi, maka hal ini disebut equidispersi (Kusuma dkk. [6]). Dalam aplikasinya seringkali equidispersi tidak dapat dipenuhi. Ismail dan Jemain [4] menyatakan bahwa variansi data lebih kecil dari rata-ratanya disebut dengan underdispersi dan variansi data lebih besar dari rata-ratanya disebut dengan overdispersi. Salah satu penyebab terjadinya overdispersi adalah banyak nilai nol (excess zero) yang ada pada variabel dependen. Munculnya banyak 1
Estimasi Parameter . . .
K. P. Sari, Respatiwulan, B. Winarno
nilai nol pada variabel dependen dapat diatasi menggunakan model regresi zeroinflated Poisson (ZIP ). Menurut Famoye dan Singh [2] proporsi data yang bernilai nol sekitar 63.7%. Estimasi parameter model regresi ZIP dapat menggunakan metode maximum likelihood estimation (MLE ) atau metode Bayesian. Liu dan Powers [7] dalam penelitiannya membandingkan metode MLE dan Bayesian untuk estimasi parameter model regresi ZIP dan diperoleh hasil yaitu metode Bayesian lebih baik daripada MLE yang ditandai dengan nilai eror dari metode Bayesian lebih kecil dibandingkan dengan nilai eror pada metode MLE. Pada metode Bayesian terdapat dua distribusi yaitu distribusi prior dan distribusi posterior. Jika distribusi posterior parameter sangat rumit dan tidak dapat dikerjakan secara langsung, maka dilakukan pembangkitan sampel yang mendekati distribusi posterior parameter dengan metode Markov chain Monte Carlo (MCMC ). Liu dan Powers [7] menggunakan metode MCMC untuk menentukan distribusi posterior dengan algoritme Gibbs sampling. Tujuan penelitian ini adalah untuk mengestimasi parameter model regresi ZIP menggunakan metode Bayesian dan menerapkannya pada data jumlah kematian difteri di Indonesia tahun 2014 yang dipengaruhi oleh vaksin, jumlah rumah sakit, dan jumlah kasus difteri. 2. MODEL REGRESI ZIP
Model regresi ini terbangun oleh regresi Poisson dan regresi logistik. Jika variabel dependen Y mengikuti model ZIP, maka fungsi kepadatan probabilitasnya dituliskan sebagai
( ) X 2j β eX 1j α eX 1j α + 1− P (Yi = 0) = e−e X α X α 1j 1j 1+e 1+e ( ) ( eX 1j α e−e X 2j β) (eX 2j β )yj P (Yi = y) = 1− , y = 1, 2, 3, . . . . (2.1) 1 + eX 1j α yj !
Hubungan antara variabel dependen Y dan variabel independen X dapat dimodelkan menggunakan model linier tergeneralisasi sehingga dapat dibentuk model regresi ZIP yang terbangun oleh model regresi Poisson dan transformasi regresi logistik, yaitu p logit[ (1−p) ] = X1 α = α0 + α1 X11 + α2 X12 + . . . + αm X1m
log(λ) = X2 β = β0 + β1 X21 + β2 X22 + . . . + βl X2l ,
(2.2)
dengan X1 = (1, X11 , X12 , . . . , X1m ) adalah matriks variabel independen dari regresi logistik dan X2 = (1, X21 , X22 , . . . , X2l ) adalah matriks variabel independen dari regresi Poisson, α = (α0 , α1 , . . . , αm )T dan β = (β0 , β1 , . . . , βl )T merupakan vektor dari koefisien regresi logistik dan regresi Poisson (Liu dan Powers [7]). 2
2016
Estimasi Parameter . . .
K. P. Sari, Respatiwulan, B. Winarno
3. METODE BAYESIAN Metode Bayesian merupakan metode estimasi yang berbasis pada aturan Bayes yang menggabungkan informasi dari data observasi baru dan informasi yang telah diperoleh sebelumnya. Pada estimasi parameter menggunakan metode Bayesian terdapat dua distribusi yaitu distribusi prior dan distribusi posterior. Menurut Soejoeti dan Soebanar [10], distribusi prior merupakan distribusi awal parameter sebelum dilakukan analisis data. Distribusi prior dinotasikan sebagai f (θ). Soejoeti dan Soebanar [10] juga mendefinisikan distribusi posterior sebagai fungsi densitas bersyarat θ jika nilai observasi x diketahui dan dituliskan sebagai f (θ|x) =
f (θ, x) . f (x)
Fungsi kepadatan bersama dan marginal yang diperlukan dapat ditulis dalam bentuk distribusi fungsi likelihood dan prior f (θ, x) = f (x|θ)f (θ) dengan f (x|θ) merupakan fungsi likelihood dan f (θ) merupakan distribusi prior. Metode Bayesian didasarkan pada distribusi posterior, yang dituliskan sebagai f (θ|x) =
f (x|θ)f (θ) . f (x)
Menurut Ntzoufras [9], teorema Bayes lebih dikenal dengan f (θ|x) ∝ f (x|θ)f (θ).
4. MARKOV CHAIN MONTE CARLO (MCMC ) MCMC merupakan metode pendekatan untuk inferensi Bayesian. Menurut Walsh [11], MCMC digunakan untuk mendapatkan nilai estimasi parameter dengan mensimulasikan pengambilan sampel secara langsung dari distribusi posterior. Konsep utama dalam MCMC adalah membuat sampel pendekatan dari distribusi posterior parameter dengan membangkitkan sebuah rantai Markov yang memiliki distribusi limit mendekati distribusi posterior parameter. Pada MCMC terdapat algoritme Gibbs sampling. Algoritme ini digunakan apabila terdapat lebih dari satu parameter yang tidak diketahui. Menurut Casella dan George [1], Gibbs sampling merupakan teknik pembangkitan variabel random dari distribusi marginal tanpa memerlukan distribusi densitas. Algoritme ini menggunakan sampel sebelumnya untuk membangkitkan nilai sampel berikutnya secara random sehingga didapatkan suatu rantai Markov.
3
2016
Estimasi Parameter . . .
K. P. Sari, Respatiwulan, B. Winarno
5. HASIL DAN PEMBAHASAN 5.1. Estimasi Parameter Model. Model regresi ZIP memiliki parameter yang belum diketahui nilainya dan perlu diestimasi, yaitu α dan β. Berdasarkan fungsi kepadatan ZIP pada persamaan (2.1) dapat dibentuk fungsi likelihood yang merupakan distribusi bersama untuk n observasi, yaitu ) ] ( k [ ∏ eX 1j α eX 1j α −eX 2j β f (Y |α, β) = e + 1− X 1j α X 1j α 1 + e 1 + e j=1 [( ) −eX 2j β X 2j β yj ] n ∏ eX 1j α e (e ) × 1− , X α 1j 1 + e y j! j=k+1
(5.1)
dengan k adalah banyaknya observasi yang menghasilkan nilai variabel dependen y = 0 dan yk+1 , . . . , yn adalah observasi yang tidak bernilai nol. Fungsi likelihood pada persamaan (5.1) digunakan untuk menentukan distribusi posterior parameter. Estimasi parameter model menggunakan metode Bayes terdapat dua distribusi yaitu prior dan posterior. Berikut adalah penjelasan dari masing-masing distribusi prior dan posterior model ZIP. 5.1.1. Distribusi Prior Model ZIP.
Pemilihan distribusi prior dalam metode Bayesian sangat penting untuk menentukan distribusi posterior karena pemilihan distribusi prior yang tepat akan mempermudah estimasi. Penambahan variabel independen dalam regresi ZIP tanpa informasi prior dapat menggunakan prior non informatif. Untuk model zero-inflated, distribusi prior normal dapat digunakan untuk parameter β dan distribusi prior beta dapat digunakan untuk parameter α. Jika tidak ada informasi yang tersedia, maka distribusi prior uniform yang didefinisikan pada interval (0, 1) dapat digunakan (Ntzoufras [9]). Distribusi prior untuk model ZIP dapat dituliskan sebagai f (α, β|a, b, µ, σ 2 ) =
l ∏
1 √ 1 e b − a j=0 2πσβj
−(βj −µβ )2 j 2σ 2 βj
,
(5.2)
dengan (a, b) adalah parameter distribusi uniform dan (µ, σ 2 ) parameter distribusi normal.
4
2016
Estimasi Parameter . . .
K. P. Sari, Respatiwulan, B. Winarno
5.1.2. Distribusi Posterior Model ZIP.
Distribusi posterior parameter dapat diperoleh dengan mengalikan persamaan (5.1) dengan persamaan (5.2). Berikut merupakan distribusi posterior parameter model ZIP. f (α, β|Y ) ∝ f (Y |α, β)f (α, β) ] ) ( k [ ∏ eX 1j α eX 1j α −eX 2j β e ∝ + 1− 1 + eX 1j α 1 + eX 1j α j=1 [( ) −eX 2j β X 2j β yj ] n ∏ eX 1j α e (e ) × 1− 1 + eX 1j α yj ! j=k+1 −(βj −µβ )2 j l ∏ 2 1 √ 1 e 2σβj . × b − a j=0 2πσβj
(5.3)
Distribusi posterior pada persamaan (5.3) digunakan untuk menentukan nilai estimasi parameter. 5.2. Algoritme Gibbs sampling . Menurut Casella dan George [1] Gibbs sampling merupakan teknik pembangkitan variabel random yang menggunakan sampel sebelumnya untuk membangkitkan nilai sampel berikutnya secara random sehingga akan didapatkan suatu rantai Markov. Berikut diberikan langkah-langkah algoritme Gibbs sampling. (1) Menentukan parameter dan distribusi bersyaratnya. (2) Melakukan simulasi dengan pembangkitan data menggunakan algoritme Gibbs sampling dengan langkah berikut. (a) Menetapkan nilai awal masing-masing parameter. (b) Menentukan ukuran iterasi N . (c) Melakukan simulasi untuk i = 1, 2, 3, . . . , N . (d) Memperbarui nilai-nilai parameter dari nilai-nilai hasil simulasi. (3) Melakukan estimasi parameter model regresi ZIP. Berdasarkan langkah-langkah tersebut, dilakukan pembangkitan data berdistribusi Poisson dengan n = 100. Nilai awal parameter α dan β yang dipergunakan dapat dilihat pada Tabel 1. Berdasarkan Tabel 1 dapat ditunjukkan nilai-nilai estimasi untuk beberapa nilai awal α dan β.
5
2016
Estimasi Parameter . . .
K. P. Sari, Respatiwulan, B. Winarno
Tabel 1. Nilai estimasi parameter model regresi ZIP dengan simulasi berdasarkan algoritme Gibbs sampling
Nilai awal parameter α=0 β = 0.2 α=0 β = 0.8 α = 0.2 β = 0.2 α = 0.2 β = 0.8 α = 0.8 β = 0.2 α = 0.8 β = 0.8
Nilai estimasi 0.0632 0.1372 0.0632 0.1372 0.06335 0.1372 0.06337 0.1372 0.06389 0.1372 0.06398 0.1372
Std dev 0.05755 0.01936 0.05755 0.01936 0.05667 0.1938 0.05756 0.01935 0.05919 0.01937 0.05987 0.01937
5.3. Contoh Penerapan. Data diambil dari Profil Kesehatan Indonesia Tahun 2014 [5] tentang jumlah kematian difteri tahun 2014. Penyakit difteri disebabkan oleh bakteri Corynebacterium diphtheriae yang menyerang sistem pernapasan bagian atas. Jumlah kasus meninggal sebanyak 16 kasus. Pada contoh penerapan ini ditentukan hubungan antara jumlah kematian difteri (Y ) yang dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah sakit, dan jumlah kasus difteri. Data jumlah kematian difteri menunjukkan banyak nilai nol yaitu 69.7%. Estimasi parameter model dilakukan dengan bantuan software WinBUGS. Nilai awal parameter α untuk distribusi uniform (0, 1) yaitu 0.02 dan parameter β untuk distribusi normal (0, 1000) yaitu 0.001. Estimasi dilakukan dengan membangkitkan suatu rantai Markov dan dilakukan percobaan beberapa iterasi sampai mencapai konvergen. Hasil estimasi parameter model menggunakan software WinBUGS dapat dilihat dalam Tabel 2. Hasil estimasi parameter pada Tabel 2 merupakan hasil dari pembangkitan rantai Markov dengan 4170 iterasi. Model regresi ZIP dapat dituliskan sebagai logit(
p ) = 0.2779 + 0.0051X11 + 0.0049X12 + 0.0031X13 1−p log(λ) = −0.078 − 0.133X21 − 0.01773X22 + 0.1X23 ,
dengan X11 , X21 adalah banyaknya pemberian vaksin, X12 , X22 adalah jumlah rumah sakit, dan X13 , X23 adalah jumlah penderita difteri. 6
2016
Estimasi Parameter . . .
K. P. Sari, Respatiwulan, B. Winarno
Tabel 2. Nilai estimasi parameter menggunakan metode Bayesian untuk α dan β
Estimasi αˆ1 αˆ2 αˆ3 αˆ4 βˆ1 βˆ2 βˆ3 βˆ4
Nilai 0.2779 0.0051 0.0049 0.0031 −0.0780 −0.1330 −0.0177 0.1000
2.5 Persentil 0.0076 0.0182 0.0180 0.0125 −1.5460 −0.1556 −0.0569 0.1080
97.5 Persentil Hasil uji parameter 0.9121 Signifikan 0.0560 Signifikan 0.0371 Signifikan 0.0369 Signifikan 1.1170 Tidak signifikan −0.1123 Signifikan 0.0179 Tidak signifikan 0.0896 Signifikan
Setelah mendapatkan model regresi, selanjutnya dilakukan pengujian parameter untuk mengetahui pengaruh variabel independen terhadap variabel dependen. Pengujian hipotesis terhadap parameter dilakukan dengan pendekatan credible interval. Parameter model yang telah dihasilkan diuji menggunakan credible interval pada tingkat kepercayaan 95% yang ditandai dengan persentil 2, 5% dan 97, 5%. Parameter dikatakan signifikan jika selang interval pada tingkat kepercayaan 95% parameter tidak memuat nilai nol. Parameter yang signifikan menunjukkan variabel independen berpengaruh terhadap variabel dependen (Hestiana [3]). Berdasarkan Tabel 2 parameter yang signifikan yaitu αˆ1 , αˆ2 , αˆ3 , αˆ4 , βˆ2 , βˆ4 sehingga dilakukan estimasi ulang dan diperoleh hasil sebagai berikut.
logit(
p ) = 0.3003 + 0.01X11 + 0.0056X12 + 0.0064X13 1−p log(λ) = −0.1386X21 + 0.101X23 .
(5.4) (5.5)
Persamaan (5.4) menjelaskan bahwa peluang terjadinya penderita difteri yang tidak meninggal dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah sakit, dan jumlah penderita difteri. Setiap bertambahnya pemberian vaksin meningkatkan peluang penderita difteri yang tidak meninggal sebesar 1%, setiap pertambahan 1 unit rumah sakit meningkatkan peluang penderita difteri yang tidak meninggal sebesar 0.56%, dan setiap pertambahan jumlah kasus difteri meningkatkan peluang penderita difteri yang tidak meninggal sebesar 0.64%. Persamaan (5.5) menjelaskan bahwa banyaknya kasus difteri yang meninggal dipengaruhi oleh banyaknya pemberian vaksin dan jumlah penderita difteri. Setiap bertambahnya pemberian vaksin maka terjadinya kasus difteri yang meninggal menurun sebesar 13.86% dan setiap kenaikan jumlah kasus difteri maka terjadinya kasus difteri yang meninggal meningkat sebesar 10.1%. 7
2016
Estimasi Parameter . . .
K. P. Sari, Respatiwulan, B. Winarno
6. KESIMPULAN Berdasarkan hasil dan pembahasan, hasil estimasi parameter model regresi ZIP diperoleh setelah dilakukan simulasi dan diterapkan pada contoh kasus. Distribusi prior untuk parameter α yaitu distribusi uniform (a, b) dan untuk parameter β yaitu distribusi normal (µ, σ 2 ), sehingga distribusi prior model regresi ZIP dapat dilihat pada persamaan (5.2). Distribusi posterior model regresi ZIP dapat dilihat pada persamaan (5.3). Untuk mendekati distribusi posterior parameter model regresi ZIP digunakan algoritme Gibbs sampling dengan ditentukan nilai awal parameter α yaitu 0, 02 dan β yaitu 0, 001. Hasil estimasi parameter model regresi ZIP adalah α b = (0.3003, 0.01, 0.0056, 0.0064) dan βb = (−0.1386, 0.101). DAFTAR PUSTAKA [1] Casella, G. and E. I. George, Explaining the Gibbs Sampler, The American Statistisian 46 (1992), no. 3, pp 167-174. [2] Famoye, F. and K. P. Singh, Zero-Inflated Generalized Poisson Regression Model with an Application to Domestic Violence Data, Journal of Data Science 4 (2006), pp 117-130. [3] Hestiana, F., Mixture Count Regression dengan Pendekatan Bayesian, Jurnal Aplikasi Statistik & Komputasi Statistik 1 (2004), pp 56-73. [4] Ismail, N. dan A. A. Jemain, Generalized Poisson Regression :An Alternative for Risk Classification, Jurnal Teknologi Universiti Teknologi Malaysia 43 (2005), pp 39-54. [5] Kementerian Kesehatan Republik Indonesia, Profil Kesehatan Indonesia Tahun 2014, Kementerian Kesehatan RI, Jakarta, 2015. [6] Kusuma, W, D. Komalasari, dan M. Hadijati, Model Regresi Zero Inflated Poisson, Jurnal Matematika 3 (2013), no. 2, pp 71-85. [7] Liu, H. and D. A. Powers, Bayesian Inference for Zero-Inflated Poisson Regression Models, Journal of Statistics: Advances in Theory and Applications 7 (2012), no. 2, pp 155-188. [8] Nawari, Analisis Regresi dengan MS Excel 2007 dan SPSS 17, PT Elex Media Komputindo, Jakarta, 2010. [9] Ntzoufras, I., Bayesian Modeling Using WinBUGS, John Wiley, Greece, 2009. [10] Soejoeti, Z. dan Soebanar, Inferensi Bayesian, Karunika Universitas Terbuka, Jakarta, 1988. [11] Walsh, B., Markov Chain Monte Carlo and Gibbs Sampling, Lecture Notes for EEB 581, 2004.
8
2016