MODEL REGRESI POISSON YANG DIPERUMUM UNTUK MENGATASI OVERDISPERSI PADA MODEL REGRESI POISSON Ade Susanti, Dewi Retno Sari Saputro, dan Nughthoh Arfawi Kurdhi Program Studi Matematika FMIPA UNS
Abstrak. Model regresi Poisson digunakan untuk memodelkan hubungan antara variabel respon yang diasumsikan berdistribusi Poisson dengan variabel prediktor. Pada distribusi Poisson asumsi equidispersi (nilai variansi sama dengan rata-rata) harus dipenuhi. Namun seringkali terjadi overdispersi (nilai variansi lebih besar dari ratarata). Untuk mengatasinya dapat digunakan model regresi Poisson yang diperumum. Tujuan penelitian ini untuk mengkaji ulang model regresi Poisson yang diperumum untuk mengatasi overdispersi pada model regresi Poisson dan menerapkannya pada data banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014. Model regresi b0 + βb1 X1i + βb2 X2i +. . .+ βbp Xpi ) Poisson yang diperumum dituliskan sebagai Ybi =(exp (β) ( ) yi
yi −1
(1+kyi ) µ i) dengan fungsi densitas peluang f (yi ; µ; k) = 1+kµ exp − µ(1+ky . yi ! 1+kµ Model pada penerapan adalah Ybi = exp (−25, 549+0, 3348X1 +0, 0199X2 −0, 0171X3 − 0, 0867X4 −0, 0155X5 +0, 0107X6 −0, 00226X7 +0, 0178X8 +0, 00000599X9 −0, 00898X10 ).
Kata kunci : model regresi Poisson, overdispersi, model regresi Poisson yang diperumum
1. Pendahuluan Model regresi digunakan untuk memodelkan hubungan antara variabel respon dengan variabel prediktor (Gujarati [3]). Menurut Long [6] pada model regresi variabel respon diasumsikan berdistribusi normal. Generalized linear models (GLM) telah dikembangkan oleh McCullagh dan Nelder [7] untuk menganalisis hubungan antara variabel respon dan variabel prediktor dengan variabel respon tidak harus berdistribusi normal, tetapi termasuk keluarga eksponensial. Model regresi Poisson dapat digunakan untuk memodelkan hubungan antara variabel respon yang diasumsikan berdistribusi Poisson terhadap variabel prediktor (Casella dan Berger [2]). Pada distribusi Poisson asumsi equidispersi (nilai variansi sama dengan rata-rata) harus dipenuhi. Namun seringkali asumsi tersebut tidak dipenuhi, yaitu nilai variansi lebih besar dari rata-rata atau disebut overdispersi (Wang dan Famoye [8]). Overdispersi dapat dideteksi dengan statistik uji skor. Menurut Hinde dan Demetrio [4] overdispersi dapat terjadi karena adanya sumber keragaman yang tidak teramati, adanya pengaruh variabel lain yang mengakibatkan peluang suatu kejadian tergantung pada kejadian sebelumnya, adanya pencilan, dan peluang nilai nol yang berlebih pada variabeel respon. Menurut McCullagh dan Nelder 1
Model Regresi Poisson yang Diperumum . . .
A. Susanti, D.R.S. Saputro, N.A. Kurdhi
[7] jika tetap digunakan model regresi Poisson pada data yang mengalami overdispersi, maka diperoleh kesimpulan yang kurang valid. Untuk mengatasi overdispersi dapat digunakan model regresi Poisson yang diperumum dengan variabel respon diasumsikan berdistribusi Poisson yang diperumum (Listiyani dan Purhadi [5]). Pada penelitian ini dikaji ulang model regresi Poisson yang diperumum untuk mengatasi overdispersi dan diterapkan pada data banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014. 2. Model Regresi Poisson Regresi Poisson dapat digunakan untuk menunjukkan hubungan antara variabel prediktor terhadap variabel respon yang berdistribusi Poisson. Diketahui suatu variabel respon Y dan p variabel prediktor X1 , X2 , . . . , Xp dengan pengamatan ke−i dari variabel Y dan X1 , X2 , . . . , Xp adalah yi dan x1 , x2 , . . . , xp . Jika yi merupakan variabel random yang berdistribusi Poisson dengan i = 1, 2, . . . , n dan n menyatakan banyaknya data, maka fungsi densitas peluang distribusi Poisson adalah f (yi ; µ) =
µyi e−µ yi !
dengan µ > 0 dan µ merupakan rata-rata dari variabel respon Y . Model regresi Poisson dapat digunakan untuk memodelkan hubungan antara variabel prediktor terhadap variabel respon yang diasumsikan berdistribusi Poisson (Casella dan Berger [2]). Model regresi Poisson dituliskan sebagai Yi = exp(β0 + β1 X1i + β2 X2i + ... + βp Xpi ) + εi , i = 1, 2, . . . , n. Estimasi model regresi Poisson adalah Ybi = exp(βb0 + βb1 X1i + βb2 X2i + . . . + βbp Xpi ), i = 1, 2, . . . , n 3. Overdispersi Menurut Cameron dan Trivedi [1] dalam model regresi Poisson terdapat asumsi yang harus dipenuhi, yaitu variabel respon harus berdistribusi Poisson. Karakteristik distribusi Poisson adalah equidispersi (nilai variansi sama dengan rata-rata). Namun asumsi tersebut seringkali tidak dipenuhi, yaitu nilai variansi lebih besar dari nilai rata-rata yang disebut overdispersi. 2
2016
Model Regresi Poisson yang Diperumum . . .
A. Susanti, D.R.S. Saputro, N.A. Kurdhi
Menurut McCullagh dan Nelder [7] kondisi overdispersi dapat dideteksi dengan statistik uji skor. Jika nilai statistik uji skor kurang dari Zα/2 , maka terjadi overdispersi. Jika terjadi overdispersi pada data, maka model regresi Poisson kurang akurat digunakan untuk memodelkan karena berdampak pada nilai standard error dari taksiran parameter yang dihasilkan cenderung menjadi underestimate, sehingga kesimpulan yang diperoleh menjadi kurang valid (McCullagh dan Nelder [7]). Ada beberapa hal yang menyebabkan terjadinya overdispersi dalam suatu pengamatan diantaranya karena adanya sumber keragaman yang tidak teramati, adanya pengaruh variabel lain yang mengakibatkan peluang suatu kejadian tergantung pada kejadian sebelumnya, adanya pencilan, dan peluang nilai nol yang berlebih pada variabeel respon (Hinde dan Demetrio [4]). 4. Model Regresi Poisson yang Diperumum Menurut Listiyani dan Purhadi [5] salah satu model regresi yang dapat digunakan untuk mengatasi masalah overdispersi adalah model regresi Poisson yang diperumum dengan variabel respon diasumsikan berdistribusi Poisson yang diperumum. Fungsi densitas peluang distribusi Poisson yang diperumum adalah ( )yi ( ) µ (1 + kyi )yi −1 µ(1 + kyi ) f (yi ; µ; k) = exp − , i = 0, 1, 2, ... 1 + kµ yi ! 1 + kyi dengan k merupakan parameter dispersi. Nilai rata-rata dan nilai variansi distribusi Poisson yang diperumum adalah E(Y |x) = µ dan V (Y |x) = µ(1 + kµ)2 . Model regresi Poisson yang diperumum dituliskan sebagai Yi = exp(β0 + β1 X1i + β2 X2i + ... + βp Xpi ) + εi . 5. Metode Penelitian Penelitian ini merupakan penelitian kajian teori dan penerapannya mempelajari model regresi Poisson yang diperumum yang diterapkan pada data banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014. Berikut ini uraian langkah-langkahnya. Untuk teori dilakukan kajian ulang model regresi Poisson yang diperumum dengan melakukan estimasi parameter β0 , β1 , . . . , βp . Digunakan metode maximum likelihood estimation (MLE) untuk mengestimasi dengan membentuk fungsi likelihood, membentuk fungsi ln-likelihood, menurunkan terhadap β dan k serta 3
2016
Model Regresi Poisson yang Diperumum . . .
A. Susanti, D.R.S. Saputro, N.A. Kurdhi
mengoptimasi parameter β dan k. Karena sulit ditentukan penyelesaiannya digunakan metode Newton-Raphson dengan menentukan nilai awal dari parameter βb dan b k, dan mengiterasi parameter β dan k hingga konvergen. Untuk penerapan digunakan data banyaknya kematian ibu bersalin di Jawa Tengah untuk 33 provinsi pada tahun 2014 yang dilakukan dengan langkah memilih variabel respon, memilih variabel prediktor, menghitung statistik deskriptif, meguji distribusi Poisson pada variabel respon, menguji overdispersi, membentuk model regresi Poisson yang diperumum, dan mengestimasi model regresi Poisson yang diperumum. 6. Hasil dan Pembahasan 6.1. Estimasi Model Regresi Poisson yang Diperumum. Pada model regresi Poisson yang diperumum harus dilakukan estimasi pada parameter β0 , β1 , . . . , βp . Metode yang digunakan untuk mengestimasi adalah metode MLE. Fungsi likelihood untuk model regresi Poisson yang diperumum adalah [( )yi ] ∑ n ∏ exp(β0 + pj=1 βj xji ) (1 + kyi )yi −1 ∑p L(β, k) = 1 + kexp(β + yi ! 0 j=1 βj xji ) i=1 [ ( )] ∑ n ∏ (1 + kyi )exp(β0 + pj=1 βj xji ) ∑ exp − . 1 + k exp(β0 + pj=1 βj xji ) i=1
(6.1)
(6.2)
Selanjutnya fungsi likelihood pada persamaan (6.1) diambil nilai logaritma naturalisnya sehingga diperoleh fungsi ln-likelihood berikut. ( ) [ ( )] p p n n ∑ ∑ ∑ ∑ ln L(β, k) = y i β0 + βj xji − yi ln 1 + k exp β0 + βj xji + i=1 n ∑
j=1
(yi − 1) ln(1 + kyi ) −
i=1
i=1 n ∑ i=1
j=1
] ∑ n ∑ (1 + kyi )exp(β0 + pj=1 βj xji ) ∑p ln(yi !) − , 1 + k exp(β + 0 j=1 βj xji ) i=1 [
Fungsi ln-likelihood merupakan fungsi maksimum apabila dipenuhi turunan parsial pertama terhadap masing-masing parameter bernilai nol. Karena sistem persamaan yang diperoleh dari turunan parsial pertama tersebut merupakan sistem persamaan nonlinier yang sulit ditentukan penyelesaiannya sehingga digunakan pendekatan numerik, yaitu metode Newton Raphson. Berikut adalah langkah-langkah untuk mengestimasi parameter β0 , β1 , β2 , . . . , βp , dan k menggunakan metode Newton Raphson. 4
2016
Model Regresi Poisson yang Diperumum . . .
A. Susanti, D.R.S. Saputro, N.A. Kurdhi
(1) Menentukan nilai awal dari parameter b dan k. (2) Melakukan proses iterasi dengan prosedur k (t+1) = k (t) − H−1 (t) G(t) , b (t+1) = b (t) − H−1 (t) G(t) , dengan G merupakan vektor gradien, H merupakan matriks hessian, dan b, k, G, dan H dituliskan sebagai ln L(β; k) ln L(β; k) ln L(β; k) , dan .. . ln L(β; k) ∂ ln L(β; k) ∂k
t merupakan banyaknya iterasi. ∂ ∂β0 β0 ∂ ∂β1 β 1 ∂ b = β2 , k = [k], G = ∂β2 . .. ∂ ∂βp β p
H=
∂2 ln L(β; k) ∂β02 2 ∂ ln L(β; k) ∂β1 β0
∂2 ∂β0 ∂β1
ln L(β; k)
∂2 ∂β0 ∂k
...
∂2 ∂β1 ∂βp
ln L(β; k)
∂2 ∂β1 ∂k
ln L(β; k) .. .
∂2 ∂βp β0
ln L(β; k)
∂2 ∂βp ∂β1
ln L(β; k)
∂2 ∂βk ∂β1
ln L(β; k) . . .
∂2 ∂βk ∂βp
ln L(β; k)
∂2 ∂k2
ln L(β; k)
ln L(β; k) ∂2 ∂2 . . . ∂β2 ∂βp ln L(β; k) ∂β0 ∂k ln L(β; k) . .. .. .. .. . . . . 2 2 ∂ ∂ ln L(β; k) . . . ln L(β; k) ln L(β; k) 2 ∂β ∂βp ∂k
∂2 ln L(β; k) ∂β12 2 ∂ ln L(β; k) ∂β2 ∂β1
∂2 ∂β2 β0
∂2 ∂βk β0
∂2 ∂β0 ∂βp
ln L(β; k) . . .
p
ln L(β; k)
7. Penerapan Pada penelitian ini model regresi Poisson dengan overdispersi diterapkan pada data banyaknya kematian ibu bersalin di Jawa Tengah untuk 33 provinsi pada tahun 2014. Data banyaknya kematian ibu bersalin di Jawa Tengah tersebut diperoleh dari dinas kesehatan. Variabel respon pada penerapan ini adalah banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014, sedangkan variabel prediktornya adalah persentase mendapatkan pelayanan K1 (X1 ), persentase mendapatkan pelayanan K4 (X2 ), persentase persalinan dibantu tenaga kesehatan (X3 ), persentase mendapatkan tablet Fe1 (X4 , persentase mendapatkan tablet Fe3 (X5 ), persentase penanganan komplikasi kebidanan (X6 ), persentase 5
2016
Model Regresi Poisson yang Diperumum . . .
A. Susanti, D.R.S. Saputro, N.A. Kurdhi
rumah tangga berprilaku hidup bersih dan sehat (X7 ), persentase banyaknya rumah sakit (X8 ), persentase banyaknya puskesmas (X9 ), dan persentase banyaknya penduduk miskin (X10 ). Berdasarkan hasil perhitungan diketahui bahwa banyaknya kematian ibu bersalin terendah adalah 0 jiwa yang terjadi di kabupaten Banjarnegara, Kebumen, Wonosobo, Boyolali, Karanganyar, dan Grobogan, serta Kota Magelang, Surakarta, dan Salatiga, banyaknya kematian ibu bersalin tertinggi adalah 14 jiwa yang terjadi di Kabupaten Brebes, rata-rata kematian ibu bersalin di Jawa Tengah adalah 3 jiwa, dan variansi kematian ibu bersalin di Jawa Tengah adalah 9. Sebelum menentukan model regresi Poisson, terlebih dahulu dilakukan pengujian distribusi Poisson pada variabel respon untuk mengetahui apakah variabel respon berdistribusi Poisson atau tidak. Pengujian ini dilakukan dengan uji Kolmogorov Smirnov. Berdasarkan hasil perhitungan diperoleh kesimpulan variabel respon berdistribusi Poisson. Setelah diuji variabel respon berdistribusi Poisson selanjutnya ditentukan model regresi Poisson. Model regresi Poisson yang diperoleh adalah Ybi = exp(−29, 093 + 0, 335X1 + 0, 022X2 + 0, 005X3 − 0, 094x4 − 0, 007X5 + 0, 01X6 + 0, 003X7 + 0, 022X8 + 0, 005X9 + 0, 013X10 )
Overdispersi pada data banyaknya kematian ibu bersalin di Jawa Tengah terlihat dari hasil statistik deskriptif yang telah diuji sebelumnya, yaitu nilai variansi Y lebih besar dari nilai rata-rata Y . Selain itu, overdispersi juga dapat dilihat dari nilai statistik uji skor. Hasil nilai statistik uji skor adalah 49,24078. Karena lebih besar dari Zα/2 = −1, 96 dapat disimpulkan terjadi overdispersi pada data banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014. Oleh karena itu, digunakan model regresi Poisson yang diperumum untuk mengatasi overdispersi. Model yang diperoleh adalah 6
2016
Model Regresi Poisson yang Diperumum . . .
A. Susanti, D.R.S. Saputro, N.A. Kurdhi
Ybi = exp(−25, 549 + 0, 3348X1 + 0, 0199X2 − 0, 0171X3 − 0, 0867X4 − 0, 0155X5 + 0, 0107X6 − 0, 00226X7 + 0, 0178X8 + 0, 00000599X9 − 0, 00898X10 ). Berikut merupakan langkah-langkah untuk mengestimasi parameter β0 , β1 , β2 , . . . , βp dan k pada model regresi model regresi Poisson yang diperumum. (a) Menentukan nilai awal dari parameter b dan k . Nilai awal dari parameter β −29, 093 0 β1 0, 335 β 0, 022 2 β3 0, 005 β4 −0, 094 b = β5 = −0, 007 β6 0, 01 β 0, 003 7 β8 0, 022 β9 0, 005 β10 0, 013
dan k = 1.
(b) Melakukan iterasi parameter β dan k hingga konvergen. Parameter b dan k konvergen setelah 8 iterasi. Diperoleh β0 = −25, 549, β1 = 0, 2248, β2 = 0, 0199, β3 = −0, 0171, β4 = −0, 0867, β5 = −0, 015, β6 = 0, 0107, β7 = −0, 0022, β8 = 0, 0178, β9 = 0, 0000599, β10 = −0.00898 dan k = 0, 6028. 8. Kesimpulan Berikut ini adalah kesimpulan yang diperoleh. (a) Model regresi Poisson yang diperumum untuk mengatasi overdispersi pada model regresi Poisson adalah Ybi = exp(βb0 + βb1 X1i + βb2 X2i + ... + βbp Xpi ) 7
2016
Model Regresi Poisson yang Diperumum . . .
A. Susanti, D.R.S. Saputro, N.A. Kurdhi
dengan fungsi densitas dituliskan sebagai ( )yi ( ) µ (1 + kyi )yi −1 µ(1 + kyi ) f (yi ; µ; k) = exp − , 1 + kµ yi ! 1 + kµ dan i = 0, 1, 2, . . . , n. (b) Berdasarkan penerapan diperoleh model regresi Poisson yang diperumum Ybi = exp(−25, 549 + 0, 3348X1 + 0, 0199X2 − 0, 0171X3 − 0, 0867X4 − 0, 0155X5 + 0, 0107X6 − 0, 00226X7 + 0, 0178X8 + 0, 00000599X9 − 0, 00898X10 ).
Kenaikan banyaknya kematian ibu bersalin dipengaruhi oleh kenaikan persentase mendapatkan pelayanan k1, persentase mendapatkan pelayanan k4, persentase penanganan komplikasi kebidanan, persentase banyaknya rumah sakit, dan persentase banyaknya puskesmas. Banyaknya kematian ibu bersalin turun dipengaruhi oleh persentase persalinan dibantu tenaga kesehatan, persentase mendapatkan tablet Fe1, persentase mendapatkan tablet Fe3, serta persentase rumah tangga berprilaku hidup bersih dan sehat.
DAFTAR PUSTAKA [1] Cameron, A.C. and P.K. Trivedi, Regression Analysis of Count Data, Cambridge University Press, Cambridge, 1998. [2] Casella, G. and R. L. Berger, Statistical Inference, Wadsworth Inc., California, 1990. [3] Gujarati, D., Ekonometrika Dasar, Erlangga, Jakarta, 1978. [4] Hinde, J. and C.G.B. Demetrio, Overdispersion: Models and Estimation, Brazilian Symposium of Probability and Statistics (13o SINAPE), Caxambu, Minas Gerais, Brazil, April 2007. [5] Listiyani, Y., dan Purhadi, Pemodelan Generalized Regresi Poisson pada Faktor -Faktor yang Mempengaruhi Angka Kematian Bayi di Provinsi Jawa Timur Tahun 2007, Jurnal Statistika ITS 2 (2007), 1-7. [6] Long, J. S., Regression Models for Categorical and Limited Dependent Variables, Sage Publications, California, 1997. [7] McCullagh, P. and J.A. Nelder, Generalized Linier Models, 2nd edition, Chapman and Hall, London, 1989. [8] Wang, W. and F. Famoye, Modeling Household Fertility Decision With Generalized Poisson Regression, Journal of Population Economics 10 (1997), no. 3, 273-283.
8
2016