Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
BINOMIAL NEGATIF VS GENERALIZED POISSON REGRESSION DALAM MENGATASI OVERDISPERSION PADA REGRESI POISSON Oleh : A’yunin Sofro Jurusan Matematika FMIPA Universitas Negeri Surabaya
[email protected] Abstrak. Kasus overdispersion pada regresi poisson mengakibatkan estimasi parameter yang dihasilkan menjadi kurang tepat. Beberapa pendekatan yang telah dilakukan antara lain dengan binomial negatif dan generalized Poisson regression (GPR). Hasil penelitian menunjukkan bahwa dengan pendekatan binomial negatif pada data klaim resiko sendiri memberikan hasil lebih baik daripada GPR. Hal ini ditandai dengan nilai dari kriteria AIC yang diperoleh sebagai goodness of fit dari model GPR lebih kecil daripada dengan Binomial Negatif. Kata kunci: AIC, Binomial Negatif, Generalized Poisson Regression, Overdispersion, Regresi Poisson
1.
Pendahuluan Pada dasarnya, model regresi Poisson diasumsikan mean dan varian dari variable respon adalah sama.
Pada kejadiaan riilnya, data sangat dimungkinkan mempunyai penyebaran yang luas (overdispersion), misalnya situasi dimana variasi melebihi mean. Apabila tetap menggunakan regresi Poisson akan mengakibatkan estimasi parameter yang dihasilkan kurang tepat karena kemungkinan adanya overdispersion. Menurut Ismail dan Jemain (2007)
perlu dilakukan pendekatan yang lain, salah satunya dengan
menggunakan pendekatan binomial negatif dan Generalized Poisson Regression (GPR). Beberapa peneliti yang mengembangkan kasus ini adalah Gardner dan Ester (1995) di bidang psikologi dan kriminilitas, Lee, dkk (2003) di bidang biomedical untuk mengetahui peluang penyakit yang belum diketahui berdasarkan karakter indek stroke pada pasien. Famoye, Wulu dan Singh (2004) meneliti data kecelakaan, Ismail dan Jemain (2005) di bidang asuransi untuk mengetahui peluang nasabah dalam mengajukan klaim asuransi kendaraan bermotor di Malaysia dan Lu dan Zeger (2007) di bidang epidemiologi lingkungan yang mengetahui peluang dari polusi udara yang terjadi setiap hari dan Ismail dan Jemain (2007) dibidang asuransi untuk mengetahui peluang nasabah dalam mengajukan klaim asuransi kendaraan bermotor di Malaysia. Pada penelitian Sofro (2008) dinyatakan bahwa GPR mampu menurunkan nilai deviasi dari regresi Poisson sehingga dapat disimpulkan bahwa GPR memberikan hasil yang lebih baik dari regresi Poisson. Sedangkan pendekatan binomial negatif juga memberikan hasil yang lebih baik dari regresi Poisson dengan menurunnya nilai deviasi dan AIC yang diperoleh (Sofro, 2009). Dari uraian diatas, maka tujuan penelitian adalah mengkaji model binomial negatif dan GPR untuk mengatasi adanya overdispersion pada Regresi Poisson.
1
2.
Tinjauan Pustaka
2.1 Model Binomial Negatif Misal Yi adalah variabel random untuk distribusi binomial negatif. Fungsi kepadatan peluang adalah
P(Yi yi )
( yi vi ) vi ( yi 1)(vi ) vi i
vi
dimana meannya adalah
vi dan
Jika
i
i vi i
(1)
EYi xi i dan variannya adalah VarYi xi i2 ivi1.
parameter penyebaran
sama dengan nol, maka fungsi kepadatan peluang
ditunjukkan pada (3) akan menurun menjadi model regresi Poisson sehingga mean sama dengan varian
EYi xi VarYi xi . Jika > 0, maka EYi xi < VarYi xi , menunjukkan model data diskret yang
overdispersion. Fungsi likelihoodnya dari GPR adalah sebagai berikut.
L(β,)
P(y ;β,) n
i
i1
dan persamaan log likelihood adalah
LnLβ,
y 1
log(1r) y log() log(y !) y log() (y i
i
i
r 1
i
i
i
i
Taksiran MLE untuk parameter model binomial negatif dinyatakan dengan
)log(1i )
1
(2)
βˆ dan diperoleh dari solusi
dari turunan pertama fungsi log likelihoodnya, yaitu :
k(β;)
ln Lβ, , j
j 1,2,, k
Untuk mendapatkan taksiran
βˆ selain menggunakan metode maksimum likelihood dapat menggunakan
prosedur Itertatively Rewighted Least Square (IRLS). Dan taksiran parameter dispersion
diperoleh dengan turunan pertama dan kedua dari fungsi log
likelihood, diperoleh :
h(β;)
ln Lβ,
(3)
2 ln Lβ, 2
(4)
m(β;)
Untuk mendapatkan taksiran parameter
, maka persamaan (3) dan (4) diatas diselesaikan secara simultan
secara iteratif dengan prosedur Itertatively Rewighted Least Square (IRLS).
2.2 Ukuran Goodness of Fit Model Binomial Negatif Akaike Information Criterion (AIC) Akaike memperkenalkan kriteria informasi yang mempertimbangkan banyaknya parameter. Untuk menghitung nilai AIC digunakan definisi sebagai berikut :
2
AIC = - p dimana
adalah hasil dari log likelihood dari p adalah banyaknya parameter
semakin kecil nilai AIC nya maka model semakin baik.
2.3 Model GPR Misal Yi adalah variabel random. Fungsi kepadatan peluang adalah
1 yi y 1 i 1 yi , Pr(Yi yi ) i exp yi ! 1 i 1 i yi
dimana meannya adalah
i
EYi xi i
Ketika parameter penyebaran
dan variannya adalah
yi 0,1,
VarYi xi i 1i 2 .
sama dengan nol, maka fungsi kepadatan peluang ditunjukkan
pada (2.4) akan menjadi model regresi Poisson sehingga mean sama dengan varian Jika
> 0, maka
(6)
EYi xi VarYi xi .
EYi xi < VarYi xi , menunjukkan model data diskrit yang overdispersion. Jika
EYi xi > VarYi xi
< 0,
menunjukkan model data diskrit yang underdispersion. Kategori yang digunakan
untuk mendeteksi keberadaan overdispersion atau underdispersion adalah nilai devians dan pearson chi square yang dibagi dengan derajad bebas. Nilai atau hasil bagi yang lebih besar dari satu mengindikasikan adanya overdispersion, sedangkan nilai atau hasil bagi yang lebih kecil dari satu mengindikasikan adanya underdispersion (Cameron dan Trivedi, 1998). Fungsi likelihoodnya dari GPR adalah sebagai berikut.
L(β,)
P(y ;β,) n
i
i1
dan persamaan log likelihood adalah
LnLβ,
y Ln1 y 1Ln1y 11y Ln(y !) i
i
i
i
i
i
i
i
i
(7)
i
Taksiran MLE untuk parameter model GPR dinyatakan dengan
βˆ dan diperoleh dari solusi dari
turunan pertama fungsi log likelihoodnya, yaitu :
k(β;)
ln Lβ, , j
Untuk mendapatkan taksiran
βˆ
j 1,2,, k selain menggunakan metode maksimum likelihood dapat menggunakan
prosedur Itertatively Rewighted Least Square (IRLS).
3
Dan taksiran parameter dispersion likelihood, diperoleh :
h(β; )
diperoleh dengan turunan pertama dan kedua dari fungsi log
ln Lβ,
Untuk mendapatkan taksiran parameter
(8)
, maka persamaan (8) diatas diselesaikan secara simultan
secara iteratif dengan prosedur Itertatively Rewighted Least Square (IRLS).
2.3 Goodness-of-fit Dari GPR Ada beberapa ukuran goodness of fit pada model GPR, salah satunya yang biasa digunakan adalah Akaike information criterion (AIC) yang didefinisikan sebagai berikut. AIC = - p dengan
adalah hasil dari log likelihood dari model yang diestimasi p adalah banyaknya parameter yang diestimasi
semakin kecil nilai AIC nya maka model semakin baik.
3.
Metodologi Penelitian Data yang digunakan adalah data sekunder yang berasal dari PT Asuransi Tripakarta khusus untuk jenis asuransi kendaraan bermotor. Data yang akan diambil adalah data tentang klaim tipe resiko sendiri periode 2007. Berdasarkan form yang ada pada PT Asuransi Tripakarta maka variabel penelitian yang diteliti terdiri dari variabel prediktor (X) dan variabel responnya (Y), yang didefinisikan sebagai berikut : Y = Banyaknya pengajuan klaim pertahun X1 = Negara pembuat kendaraan, didefinisikan sebagai asal negara pembuat kendaraan dengan kategori:
1 = Jepang, 3= Jerman, 5= Prancis 2 = Korea, 4= Italia, 6= Amerika
X2 = Gender Use, didefinisikan sebagai pengguna dari kendaraan bermotor yang diasuransikan dengan kategori: 1 = pengguna pribadi 2 = pengguna bisnis X3 = Umur kendaraan, didefinisikan sebagai tahun mulai pembuatan kendaraan sampai dengan tahun pengajuan asuransi kendaraan Langkah-langkah penelitiannya adalah terlebih dahulu memodelkan dengan model binomial negatif dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel kemudian dimodelkan dengan menggunakan GPR. Nilai deviasi yang dihasilkan oleh Binomial negatif akan dibandingkan dengan nilai deviasi dan AIC yang dihasilkan oleh GPR.
4.
Analisis Data Dan Pembahasan
4.1 Pemodelkan Data Dengan Model Binomial Negatif Berdasarkan pada penelitian Sofro (2009) yang menyatakan bahwa data klaim resiko sendiri mengalami kasus overdispersion jika menggunakan regresi Poisson. Sehingga langkah pertama untuk mengatasinya data klaim resiko sendiri dimodelkan dengan menggunakan model binomial negatif
4
dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variable. Dengan menggunakan software SAS diperoleh hasil taksiran parameter dari model binomial negatif sebagai berikut.
Tabel 1. Hasil Taksiran Parameter Dengan Binomial Negatif Parameter
Estimasi
SE
P value
X0
-0,9639
0,3082
0,0018
X1
0,3481
0,2584
0,1779
X2
1,2543
0,2708
<,0001
X3
0,3613
0,1004
0,0003
Pada Tabel 1 dapat dilihat bahwa tidak semua parameter yang signifikan. Hal ini ditunjukkan oleh nilai p-value masing-masing parameter secara berurutan untuk 0,0003 yang lebih kecil dari = 0,05. Sedangkan untuk
X0, X2, X3
adalah 0,0018; 0,0001 dan
X1 tidak signifikan dengan nilai p_value bernilai
sebesar 0,1779 yang lebih besar dari = 0,05.
4.2 Pemodelan Data Dengan Model GPR Langkah berikutnya adalah data klaim resiko sendiri dimodelkan dengan menggunakan model GPR dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel. Dengan menggunakan software SAS diperoleh hasil taksiran parameter dari model GPR sebagai berikut.
Tabel 3. Hasil Taksiran Parameter dengan GPR Parameter
Estimasi
SE
P value
X0
-1,1932
0,3670
X1
0,3143
0,2584
0,2602
X2
1,5058
0,4401
0,0007
X3
0,4609
0,1502
0,0023
1,6876
0,1630
<,0001
0,0012
Pada Tabel 3 dapat dilihat bahwa tidak semua parameter yang signifikan. Hal ini ditunjukkan oleh nilai p-value masing-masing parameter secara berurutan untuk 0,0023 yang lebih kecil dari = 0,05. Sedangkan untuk
X0, X2, X3
adalah 0,0012; 0,0007 dan
X1 tidak signifikan dengan nilai p_value bernilai
sebesar 0,2602 yang lebih besar dari = 0,05. Berdasarkan Tabel 1 dan Tabel 2 dapat diketahui bahwa parameter yang signifikan yang diperoleh sama dan hasil estimasinya tidak jauh berbeda. Begitu juga dengan parameter yang tidak signifikan
X1 , hasil yang diperoleh baik dengan binomil negatif maupun dengan GPR
memberikan hasil yang sama.
5
4.3 Perbandingan Model Binomial Negatif terhadap Regresi Poisson Langkah terakhir adalah membandingkan model Binomial Negatif dengan GPR. Dengan menggunakan program SAS 9.1 prosedur GENMOD akan diperoleh kriteria goodness of fit dari model binomial negatif dan regresi Poisson. Hasil dapat dilihat pada Tabel 3
Tabel 3. Kriteria Kebaikan Model dari Binomial Negatif dan GPR Kriteria AIC
Binomial Negatif 3402,8
GPR 1497,5
Pada penelitian ini kriteria pembanding yang digunakan adalah kriteria AIC, dimana semakin kecil nilai AIC maka semakin baik model tersebut. Dari Tabel 3, pemodelan dengan menghasilkan nilai AIC lebih kecil dari pada nilai AIC pada binomial negatif , yaitu secara berurutan 3402,8 dan 1497,5. Model yang baik memiliki nilai AIC yang lebih kecil. Berdasarkan kriteria tersebut
dapat disimpulkan bahwa pemodelan
dengan model GPR pada data Resiko Sendiri di PT Asuransi Tripakarta kantor cabang Surabaya Diponegoro memberikan hasil yang lebih baik daripada dengan menggunakan pemodelan regresi Poisson. 5.
Kesimpulan Pendekatan model GPR maupun model binomial negatif memberikan hasil taksiran parameter signifikan
yang sama dan nilai yang diperoleh tidak jauh berbeda. Tetapi dengan menggunakan model GPR pada data klaim resiko sendiri memberikan hasil lebih baik daripada binomial negatif dengan menurunnya nilai AIC yang diperoleh. 6.
Daftar Pustaka
Brockman, M. J., and Wright, T. S. (1992), Statistical Motor Rating: Making Effective Use of Your Data, Journal of the Institute of Actuaries, 119: 3, p. 457-543. Cameron, A.C., and Trivedi, P.K. (1998), Regression Analysis Of Count Data, Cambridge University Press, Cambridge. Famoye, F., Wulu, T., Singh K.P. (2004), On The Generalized Poisson Regression Model With An Application To Accident Data, Journal Of Data Science, 2, p. 287 – 295. Gardner and Ester (1995), Regression Analyses Of Count And Rates : Poisson, Overdispersed Poisson and Negative Binomial Models, Psychological Bulletin, 118: No 3, p. 392-404. Ismail, N., and Jemain, A. A. (2005), Generalized Poisson Regression : An Alternative For Risk Classification, Jurnal Teknologi Malaysia, Universiti Teknologi Malaysia, Kuala Lumpur, p. 39-54. ________________________. (2007), Handling Overdispersionwith Negative Binomial and
Generalized Poisson Regression Model, Casualty Actuarial Society Forum, Malaysia. Lee, A.H, Wang, K., Yau, K.K.W., Somerford, P.J. (2003), Truncated Negative Binomial Mixed Regression Modelling Of Ischaemic Stroke Hospitalizations, Statistics in Medicine, 22:7, p. 1129-1139. McCullagh, P., and Nelder, J. A. (1989), Generalized Linear Models. 2nd Edition. Chapman and Hall, London. Renshaw, A. E. (1994), Modeling the Claims Process in the Presence of Covariates, ASTIN Bulletin. 24: 2, p.265-285.
Gardner and Ester (1995), Regression Analyses Of Count And Rates : Poisson, Overdispersed Poisson and Negative Binomial Models, Psychological Bulletin, 118: No 3, p. 392-404. Lee, A.H, Wang, K., Yau, K.K.W., Somerford, P.J. (2003), Truncated Negative Binomial Mixed Regression Modelling Of Ischaemic Stroke Hospitalizations, Statistics in Medicine, 22:7, p. 1129-1139.
6
Lu, Y., Zeger S.L. (2007), On The Equivalence Of Case-Crossover And Time Series MethResiko Sendiris In Environmental Epidemiology, Biostatistics, 8:2, p.337-344. Wang, W., and Famoye, F.( 1997), Modeling Household Fertility Decisions with Generalized
7