JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013
ISSN : 2086 – 4981
PENANGANAN OVERDISPERSI DENGAN MODEL REGRESI BINOMIAL NEGATIF I PADA STUDI KASUS PENGGOLONGAN RESIKO JUMLAH KLAIM ASURANSI KENDARAAN DI MALAYSIA
Devni Prima Sari1
ABSTRACT Poisson regression model is one of the regression models which are often used to analyze discrete data. Poisson regression has the assumption of equidispersion, a condition in which the value of the mean and variance of the response variable the same value. In fact, often found in data the variance of response variable greater than of the mean value (overdispersion). So used Negative Binomial I to handling overdispersion. In this paper, the Negative Binomial I regression models will be applied to the data by type of vehicle insurance claims Malaysia's; Third Party Property Damage (TPPD). Keywords: Poisson regression model, Negative Binomial, overdispersion INTISARI Model regresi Poisson adalah salah satu model regresi yang sering digunakan untuk menganalisis data diskrit. Metode regresi Poisson mempunyai asumsi equi-dispersion, yaitu kondisi dimana nilai rataan dan variansi dari variabel respon bernilai sama. Pada kenyataannya, pada data sering dijumpai variansi dari variabel respon lebih besar nilai rataannya (overdispersi). Untuk mengatasi permasalahan tersebut digunakan model regresi binomial negatif I. Dalam tulisan ini, model regresi binomial negatif I akan diterapkan pada data asuransi kendaraan Malaysia dengan jenis klaim Third Party Property Damage (TPPD). Kata kunci: model regresi Poisson, Binomial Negatif, overdispersi
1 Staf Pengajar Jurusan Matematika FMIPA UNP
125
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013
ISSN : 2086 – 4981
PENDAHULUAN Pengelompokan resiko adalah proses dari pemodelan statistik dengan mengelompokan resiko menurut rating factors dengan karakteristik-karakteristik yang dibentuk ke dalam rating classes. Sebagai contoh, di dalam asuransi motor yang bisa diberlakukan sebagai faktor-faktor penilaian dapat dilihat pada coverage type, vehicle make, vehicle use and driver’s gender, vehicle year, dan location. Model regresi Poisson telah banyak digunakan untuk memodelkan penggolongan resiko. Sebagai contoh, McCullagh dan Nelder [1] dalam buku Generalized Linear Models menggunakan model regresi Poisson untuk untuk memodelkan jumlah klaim pada peristiwa kerusakan muatan yang dibawa kapal-kapal di dalam asuransi laut. Di dalam asuransi motor, Brockman dan Wright [2] menerapkan model itu pada klaim kerusakan kepemilikan motor di UK, dan Renshaw [3] memakai model tersebut untuk klaim-klaim motor yang disediakan oleh suatu perusahaan asuransi yang terkemuka di dalam UK. Selanjutnya, model regresi Poisson diterapkan oleh Ismail dan Jemain [4] pada himpunan dari klaim
kerusakan kendaraan pribadi yang disediakan oleh satu perusahaan asuransi di Malaysia. Bagaimanapun, model regresi Poisson adalah suatu metode statistika yang digunakan untuk menganalisis hubungan antara variabel dependen yang dapat dihitung (data cacah/count) dengan satu atau lebih variabel independen, dimana rataan dan variansinya sama. Pada prakteknya seringkali data cacah memperlihatkan variansi yang sangat besar, dimana variansi sampel lebih besar dari rataan sampel (overdispersion). Ketika model Poisson diaplikasikan untuk data overdispersi, efisiensi dari estimasi parameter masih tinggi tetapi estimasi dari standar error-nya akan tidak tepat. Sehingga probabilitas dari interval konfidensi dan tingkat signifikansinya tidak valid dan menghasilkan suatu hasil yang tidak tepat. Oleh karena itu, sasaran dari penelitian ini untuk menggunakan model regresi binomial negatif I sebagai alternatif jika terjadi kasus overdispersi. Selanjutnya, model-model regresi Poisson dan binomial negatif I dicoba, diuji dan dibandingkan pada jenis data jumlah klaim Asuransi motor di Malaysia; Third Party Property Damage (TPPD)
PENDEKATAN PEMECAHAN MASALAH Model Regresi Poisson Pada regresi Poisson diasumsikan bahwa variabel dependen yang menyatakan jumlah (cacah) kejadian berdistribusi Poisson, diberikan sejumlah variabel independen . Yi mengikuti distribusi Poisson, fungsi kepadatan peluang adalah, (1 ) atau .
Selanjutnya, dalam regresi Poisson hubungan tersebut dapat dituliskan dalam bentuk: atau dalam bentuk vektor ditulis sebagai (0) Karena nilai , maka digunakan fungsi link atau untuk menghubungkan dengan fungsi linear , sehingga hubungan antara dan
126
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013 menjadi tepat. Dengan demikian, model regresi dapat ditulis dalam bentuk: (2 ) Untuk memasukkan covariates dan untuk menjamin non-negatif, mean atau fitted value diasumsikan sebagai perkalian, yaitu, , (3) di mana ei menunjukkan ukuran paparan (exposure), xi merupakan vektor p x 1 dari variabel penjelas, dan β merupakan vektor p x 1 dari parameter regresi. Untuk mengestimasi parameter-parameter dalam regresi Poisson dapat digunakan metode estimasi maksimum likelihood (MLE). Langkah pertama yang dilakukan adalah menentukan fungsi likelihood dari model regresi Poisson. Selanjutnya dari fungsi likelihood diambil nilai lognya sehingga diperoleh fungsi loglikelihood dari persamaan di atas sebagai berikut:
ISSN : 2086 – 4981
bahwa distribusi marjinal mengikuti distribusi binomial negatif dengan fungsi kepadatan peluang, ( 6 ) di mana mean , dan variansi adalah . Parameter berbeda dapat menghasilkan berbagai jenis distribusi Binomial Negatif. Misalnya, -1 dengan mengambil vi = , mengikuti sebuah distribusi Binomial Negatif dengan mean E ( ) = dan variansi Var ( ) = (1 + ), di mana menunjukkan parameter dispersi (Lawless, 1987); (Cameron & Trivedi, 1986). Sehingga persamaan (6) menjadi, ( 7 ) Jika sama dengan nol, mean dan variansi akan sama, E( ) = Var( ), akan menjadi distribusi Poisson. Jika > 0, variansi akan melebihi mean, Var( ) > E( ), dan distribusi memungkinkan overdispersi. Dalam tulisan ini, distribusi akan disebut sebagai Binomial Negatif I. Untuk mengestimasi parameter dan dalam regresi binomial negatif I dapat digunakan metode Maximum Likelihood Estimation (MLE). Jika diasumsikan bahwa mean atau fitted value adalah multiplikatif, yaitu, , diperoleh fungsi log-likelihood untuk regresi Binomial Negatif I sebagai berikut:
(4 ) Kemudian persamaan (4) diturunkan terhadap dan disamakan dengan nol, yaitu: (5 ) Sehingga persamaan (5) sama dengan weighted least square (WLS), estimasi likelihood maksimum, , dapat diestimasi dengan menggunakan Iterative Weighted Least Squares (IWLS). Binomial Negatif I (NB I) Diasumsi untuk berdisribusi gamma dengan mean dan varians , dan menjadi berdisribusi Poisson dengan rataan bersyarat dapat ditunjukkan
127
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013
ISSN : 2086 – 4981
(12) (8) Deviance Deviance yaitu logaritma dari uji rasio likelihood-nya (McCullagh & Nelder, 1989). Uji rasio likelihoodnya membandingkan current model-nya dengan saturated model-nya. Deviance dituliskan sebagai berikut: (13) di mana dan adalah model log likelihood yang dievaluasi masing-masing di bawah dan . Untuk model yang memadai, D juga memiliki asimtotik distribusi chisqure dengan n - p derajat (10) kebebasan. Oleh karena itu, jika nilai-nilai untuk kedua Pearson ChiSquare dan D adalah dekat dengan derajat kebebasan, model dapat dianggap memadai.
Oleh karena itu, estimasi kemungkinan maksimum, , dapat diperoleh dengan memaksimalkan terhadap dan . Persamaan terkait adalah, (9 ) dan,
Pendekatan yang lebih mudah untuk mengestimasi adalah dengan menggunakan perkiraan yang disarankan oleh (Breslow, 1984), yaitu dengan menyamakan Pearson Chi-Square Statistic dengan derajat bebas,
AIC dan BIC Ketika beberapa model cocok, dapat membandingkan performa model-model alternatif berdasarkan beberapa kemungkinan langkahlangkah yang telah diusulkan dalam literatur statistik. Dua yang paling sering digunakan adalah ukuran Akaike Information Criteria (AIC) dan Bayesian Schwartz Information Criteria (BIC). AIC didefinisikan sebagai (14) dimana menunjukkan log-likelihood dievaluasi di bawah dan jumlah parameter. Untuk ukuran ini, semakin kecil AIC, semakin baik model. BIC didefinisikan sebagai (Schwarz, 1978), (15) mana menunjukkan log-likelihood dievaluasi di bawah , p jumlah parameter dan n jumlah rating classes. Untuk ukuran ini, semakin kecil BIC, semakin baik model.
(11) di mana n menunjukkan jumlah rating classes dan p jumlah parameter regresi. Prosedur iterasi seperti yang disebutkan di atas juga dapat digunakan, kali ini menghasilkan MLE dari dan estimasi moment dari , . Dalam tulisan ini, ketika diestimasi dengan MLE, model akan disebut sebagai Binomial Negatif I (MLE). Demikian juga, ketika diestimasi dengan metode moment, model akan disebut sebagai Binomial Negatif I (moment). Evaluasi Model Pearson Chi-Square Ukuran lain yang bisa digunakan untuk uji goodness of fit yaitu statistik Pearson Chi- Square (McCullagh & Nelder, 1989) yang didefinisikan sebagai
128
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013 HASIL DAN PEMBAHASAN Data Asuransi kendaraan pada umumnya menangani tiga jenis klaim, yaitu kerusakan kendaraan karena kecelakaan/kesalahan sendiri (Own Damage/OD), terjadinya luka-luka pihak ketiga (Third Party Bodily Injury/TPBI), dan kerusakan properti pihak ketiga (Third Party Property Damage/TPPD). Dalam penelitian ini, akan disajikan aplikasi numerik dari model regresi Poisson pada data TPPD klaim asuransi untuk mobil pribadi dari perusahaan asuransi di Malaysia. Secara khusus, klaim TPPD mencakup kewajiban hukum untuk penggunaan kendaraan bermotor yang
ISSN : 2086 – 4981
diasuransikan. Data, yang didasarkan pada kebijakan 170.000 mobil pribadi selama tiga tahun, periode 1998-2000, telah disediakan oleh Asosiasi Asuransi Umum Malaysia (PIAM). Pemaparan ini dinyatakan dalam unit mobil per tahun dan terjadi klaim terdiri dari klaim yang sudah dibayar maupun yang outstanding. Tabel 3.1 menunjukkan rating factors dan rating classes untuk exposure dan klaim yang dikeluarkan. Dalam hal ini, terdapat 2 × 2 × 3 x 4 x 5 = 240 perkalian rating classes yang diklasifikasikan menurut frekuensi klaim. Data lengkap, yang berisi exposure, claim counts, rating factors dan rating classes ditampilkan pada lampiran.
Tabel 1 Rating factors dan rating classes untuk data Malaysia Rating Factors Rating Classes Coverage type Comprehensive Non-Comprehensive Vehicle make Vehicle use and driver’s gender
Vehicle year
Location
Local Foreign Private-male Privat-female Business 0-1 year 2-3 year 4-5 year 6+ year Central North East South East Malaysia
Pencocokan hanya melibatkan data sejumlah 108 poin karena terdapat tujuh kelas yang memiliki nilai exposure sama dengan nol dan 125 poin yang memiliki jumlah klaim sama dengan nol. Variabel dalam
penelitian ini terdiri dari variabel respon dan prediktor. Hasil Analisis Data Data jumlah klaim dimodelkan dengan menggunakan model regresi Poisson untuk mengetahui
129
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013 hubungan antar variabel respon dengan rating factors. Selanjutnya, untuk mengetahui pengaruh yang diberikan setiap rating factors tersebut, dilakukan analisis
ISSN : 2086 – 4981
Deviance dengan menggunakan program R. Tabel 2 memberikan hasil analisis deviance model regresi Poisson yang memuat rating factors.
Tabel 2. Analisis deviance model regresi Poisson untuk masing-masing rating factors
Berdasarkan analisis deviance, model terbaik adalah model yang semua rating factors signifikan. Selanjutnya untuk mengetahui pengaruh yang diberikan setiap
variabel penjelas dilakukan pengujian parameter. Hasil estimasi parameter untuk masing-masing rating factors, dapat dilihat pada tabel 3.
Tabel 3. Estimasi Parameter untuk model regresi Poisson
Nilai p-value untuk parameter business, non-comprehensive dan non-comprehensive, 2-3year sama dengan 0.30089, 0.54663 dan 0,35649, nilai ini mengidentifikasikan bahwa estimasi parameter tidak
signifikan. Dengan demikian nilainilai parameter yang tidak signifikan tersebut dikombinasikan dengan intercept. Kemudian dilakukan estimasi ulang sampai semua nilai signifikan.
130
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013
ISSN : 2086 – 4981
Tabel 4. Poisson vs Binomial Negatif I Parameter
Poisson est
std.error
Binomial Negatif I (MLE) p-value
a
est
std.error
p-value
0,002
Binomial Negatif I (moment) est
std.error
p-value
0,048
Intercept
-2,495
0,032
0,000
-2,512
0,037
0,000
-2,597
0,079
0,000
Foreign
-0,093
0,028
0,001
-0,091
0,031
0,004
-0,077
0,061
0,203
Private-female
-0,505
0,033
0,000
-0,507
0,035
0,000
-0,514
0,062
0,000
North
-0,218
0,031
0,000
-0,204
0,035
0,000
-0,161
0,073
0,027
East
-0,424
0,059
0,000
-0,418
0,061
0,000
-0,396
0,094
0,000
East-Malaysia
-0,510
0,062
0,000
-0,508
0,064
0,000
-0,498
0,093
0,000
Comprehensive, 2-3 year
-0,386
0,037
0,000
-0,380
0,043
0,000
-0,330
0,088
0,000
Comprehensive, 4-5 year
-0,633
0,041
0,000
-0,618
0,046
0,000
-0,546
0,091
0,000
Comprehensive, 6+ year
-0,788
0,039
0,000
-0,765
0,044
0,000
-0,666
0,088
0,000
Non-comprehensive, 4-5 year
-0,903
0,269
0,001
-0,895
0,270
0,001
-0,835
0,294
0,005
Non-comprehensive, 6+ year
-1,293
0,069
0,000
-1,283
0,073
0,000
-1,235
0,117
0,000
df
97
96
96
Pearson's X^2
297,78
262,32
97,00
Deviance
149,31
261,75
97,21
Deviance
149,31
261,75
97,21
-409,99
-41280,26
-24475,29
log L
Tabel. 4 memperlihatkan perbandingan antara model regresi Poisson dengan model regresi binomial negatif I. Parameter regresi untuk semua model memberikan nilai-nilai yang mendekati. Nilai standar error untuk model regresi binomial negatif I (MLE) dan binomial negatif I (moment) besar dari Poisson. Walaupun nilai standar error untuk binomial negatif I (moment) paling besar, tetapi parameter regresi tidak signifikan. Dalam kasus ini, model terbaik adalah model regresi binomial negatif I (MLE).
bebasnya atau Pearson Chi-Square yang dibagi dengan derajat bebasnya. Model regresi Binomial Negatif I dapat digunakan untuk mengatasi permasalahan overdispersi yang terjadi pada model regresi poison. Kedua, cara menguji model regresi Binomial Negatif I terbaik untuk penggolongan resiko pada jumlah klaim yaitu pengujian signifikansi parameter regresi menggunakan uji normalitas dengan melihat p-value nya. Ketiga, hasil dari beberapa contoh analisis data pada jenis data jumlah klaim Asuransi motor di Malaysia; Third Party Property Damage (TPPD) menunjukkan bahwa model regresi Binomial Negatif I (MLE) merupakan model yang paling tepat digunakan untuk data yang bersifat overdispersi dibandingkan dengan model regresi Poisson.
KESIMPULAN Pertama, analisis regresi Poisson adalah analisis regresi dimana variabel dependennya diasumsikan berdistribusi Poisson dan nilai dari variabel dependennya adalah count (cacah) dan non negatif. Sedangkan nilai untuk variabel independennya dapat saja bernilai real, cacah atau kategorik. Asumsi pada regresi Poisson , pada kenyataannya sering ditemukan kasus dimana maka dikatakan terjadi overdispersi, untuk mengetahui adanya overdispersi adalah dengan melihat nilai deviance yang dibagi dengan derajat
DAFTAR PUSTAKA [1] McCullagh, P., & Nelder, J. 1989. Generalized Linear Models (2nd Edition ed.). London: Chapman and Hall. [2] Cameron, A. C., & Trivedi, P. K. 1986. Econometric Models Based on Count Data: Comparisons and Applications of Some Estimators and Tests.
131
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013 Journal of Econometrics, 29-53.
Applied
[3] Breslow, N. E. 1984. ExtraPoisson Variation in Log-Linear Models. Journal of the Royal Statistical Society , Blackwell Publishing for the Royal Statistical Society.
[4] Ismail N & AA. Jemain. 2007. Handling Overdispersion with Negative Binomial and Generalized Poisson Regression Models. Casualty Actuarial Society Forum, Winter, 103-158.
132
ISSN : 2086 – 4981
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 6 NO. 1 Maret 2013 LAMPIRAN
cat("===================== ======================== ==","\n") frame=data.frame(beta=c("interc ept","Foreign","Private_female"," North","East","East_Malaysia","c omp_2_3year","comp_4_5year", "comp_6year","noncomp_4_5ye ar","noncomp_6year"),nilai_beta =new.beta,standar.error=std.err or,varians=round(varians,3),pval =round(pval,5)) cat("nilai estimasi beta tiap dummy","\n") print(frame,digits=2) cat("===================== ======================== ==","\n")
Program R a.
ISSN : 2086 – 4981
Model Regresi Poisson Poisson<- function(data7) { x=as.matrix(data7[,-(11:12)]) X=cbind(1,x) count=as.vector(data7[,12]) x=0 exposure=as.vector(data7[,11]) new.beta
cat("df =",df,"\n") cat("Pearson's X^2=",pearson,"\n") cat("Deviance =",Deviance,"\n") cat("log L =",loglikelihood,"\n") cat("AIC =",AIC,"\n") cat("BIC =",BIC,"\n") } Poisson(data7)
loglikelihood=sum((count*log (new.miul))-new.miullfactorial(count)) Deviance=sum(count*log(cou nt/miul)-(count-miul)) pearson=sum((countmiul)^2/new.miul) } varians=as.vector (diag(I.inverse)) std.error=sqrt(varians) df=dim(X)[1]-dim(X)[2] n=dim(X)[1] p=dim(X)[2] AIC=-2*loglikelihood+2*p BIC=-2*loglikelihood+p*log(n) coef<-c(beta) SE<-c(std.error) tstat<-coef/SE pval=2*pnorm(-abs(tstat))
133