SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2016 S - 22
Model Based Clustering Dalam Analisis Regresi Poisson Untuk Pemetaan Penyakit Menular I Gede Nyoman Mindra Jaya1, Zulhanif2, Bertho Tanular3 1,2,3
Departemen Statistika FMIPA Universitas Padjadjaran Email:
[email protected]
Abstrak—Karakteristik geograpis, kondisi lingkungan, fenomena sosial, perekomonomian, serta kondisi-kondisi lain yang berbeda pada setiap wilayah menjadi tantangan berat dalam mendapatkan model yang valid dan reliabel untuk dapat digunakan pada upaya memetakan angka resiko di setiap wilayah. Perbedaan yang terjadi harus dapat diakomodasi dalam pemodelan angka resiko penyakit menular. Salah satu upaya untuk mendapatkan model yang valid dan reliabel adalah membangun model pada kelompok data yang memiliki tingkat homogenitas yang tinggi. Upaya tersebut dapat dijembatani melalui penggabungan metode clustering/pengelompokkan dengan pemodelan pemetaan penyakit. Model based clustering adalah teknik analisis pengelompokkan yang memperhatikan distribusi probabilitas dari data yang memungkinkan melakukan pengelompokkan data dengan distribusi arah dan bentuk yang berbeda. Tidak seperti teknik clusteirng standar seperti K-means clustering. Teknik analisis regresi poisson adalah analisis regresi yang umumnya digunakan dalam upaya pemetaan penyakit. Melalui tenik ini dapat diprediksikan angka resiko penyakit untuk setiap lokasi. Penggabungan teknik ini diharapkan mampu memberikan model regresi yang lebih baik karena dibangun didasarkan pada data yang lebih homogen. Metode ini merupakan metode baru yang belum pernah ditulis sebelumnya. Metode ini akan diterapkan pada kasus penyakit Demam Berdarah di Kota Bandung. Kata kunci: Model Based Clustering, Poisson Regression, Mixture Model
I.
PENDAHULUAN
Pemetaan penyakit menular menjadi satu studi dalam epidemiologi yang sangat penting dan senantiasa dinanti pengembangan metodologinya untuk dapat memberikan taksiran resiko relative terbaik [1]. Permasalahan umum yang dihadapi dalam pemodelan dan penaksiran resiko relative pada penyakit menular adalah adanya ketergantungan spatial dan heteroskedastistias spatial [2][3]. Munculnya kedua struktur ini dalam data akan menyulitkan untuk mendapatkan model yang sederhana. Karakteristik geograpis, kondisi lingkungan, fenomena sosial, perekomonomian, serta kondisi-kondisi lain yang berbeda pada setiap wilayah menjadi tantangan berat dalam mendapatkan model yang valid dan reliabel untuk dapat digunakan pada upaya memetakan angka resiko di setiap wilayah. Perbedaan yang terjadi harus dapat diakomodasi dalam pemodelan angka resiko penyakit menular. Pemaksaan penggunaan model sederhana akan menimbulkan masalah overdispersi yaitu kasus dimana varians data cacah lebi besar dibandingkan dengan rata-rata yang mana dalam distribusi Poisson kedua parameter ini seharusnya memiliki nilai yang sama. Model yang paling sederhana yang umumnya digunakan untuk melakukan penaksiran resiko relativeadalah Standardized Morbidity/Mortality Ratio (SMR) [4]. Metode ini memiliki banyak kelemaan diantaranya sangat sensitive terhadap overdispersi dan tidak memungkinkan memasukkan variable kovariate dalam model dimana adanya variabel kovaraite atau penjelas akan dapat memimumkan mean square error estimasi (MSE) [5]. Salah satu upaya untuk mendapatkan model yang valid dan reliabel adalah membangun model pada kelompok data yang memiliki tingkat homogenitas yang tinggi. Upaya tersebut dapat dijembatani melalui penggabungan metode clustering/pengelompokkan dengan pemodelan pemetaan penyakit. Model based clustering adalah teknik analisis pengelompokkan yang memperhatikan distribusi probabilitas dari data yang memungkinkan melakukan pengelompokkan data dengan distribusi arah dan bentuk yang berbeda. Tidak seperti teknik clusteirng standar seperti K-means clustering [6]. Teknik analisis regresi poisson adalah analisis regresi yang umumnya digunakan dalam upaya pemetaan penyakit. Melalui tenik ini dapat diprediksikan angka resiko penyakit untuk setiap lokasi [7]. Penggabungan teknik ini diharapkan mampu
MS 139
ISBN 978-602-73403-1-2
memberikan model regresi yang lebih baik karena dibangun didasarkan pada data yang lebih homogen. Metode ini merupakan metode baru yang belum pernah ditulis sebelumnya. Metode ini akan diterapkan pada kasus penyakit DBD di Kota Bandung. II.
METODEPENELITIAN
A. Data Penelitian Data yang digunakan dalam penelitian ini adalah data Demam Berdarah di Kota Bandung Tahun 2015. Data ini meliputi angka kasus DBD dan angka bebas jentik (AJB). Data ini diperoleh dari dinas kesehatan kota Bandung. B. Model Poisson untuk data cacah Model regresi Poisson merupakan pilihan yang tepat untuk analisis model hubungan dengan variabel dependen, , merupakan variabel cacah atau counting [7]. Pada studi pemetaan penyakit, analisis regresi Poisson digunakan untuk menaksir resiko relative penyakit untuk masing-masing lokasi. Nilai taksiran resiko relative, , ini yang kemudian dipetakan untuk memberikan visualisasi yang lebi jelas mengenai peta sebarang penyakit, khususya penyakit menular. Model regresi Paling sederhana dengan asumsi bahwa tidak ada struktur ketergantungan spatial tanpa melibatkan variabel exogenous, dapat dimodelkan dengan Standardized Morbidity/Mortality Ration (SMR) [8]. SMR secara sederhana dapat dinyatakan sebagai rasio antara angka kasus, , terhadap harapan angka kasus, , pada lokasi yang diamati. Distribusi peluang dari variabel acak , pada lokasi ke-idengan resiko relative dapat dinyatakan sebagai berikut:
Dengan menggunakan metode maximum likelihood (ML) dapat diperoleh taksiran resiko relative yang dinyatakan dalam SMR sebagai berikut (Mindrab et al. 2016):
Pemodelan resiko relative memberikan taksiran yang lebih presisi jika memasukkan factor-faktor yang mempengaruhi tinggi rendah angka kasus . Sehingga model SMR dapat dikembangkan dengan memasukkan informasi yang relevan ke dalam model melalui pemodelan regresi poisson dengan covariate [5]. Model umum regresi Poisson dengan p-covariate adalah sebagai berikut : Model (3) juga dapat dituliskan dalam bentuk eksponensial sebagai berikut : Estimasi parameter model menggunakan metode maximum likelihood dengan solusinya diperoleh melalui metode numeric dengan mengambil asumsi dan bentuk fungsi likelihoodnya adalah :
Selanjutnya untuk mendapatkan solusi dari digunakan Kernel log Likelihood.
Karena
tidak mengandung parameter maka tidak dilibatkan dalam Kernel Log Likelihood
MS 140
SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2016
Untuk mendapatkan solusi dari persamaan ini digunakan metode numerikNewton Rapson. C. Model Based Clustering Permasalahan klasik yang umumnya dihadapi dalam analisis regresi Poisson adalah adanya overdispersi yaitu rata-rata lebih besar dibandingkan dengan varians dari datanya. Kondisi ini disebabkan oleh adanya ketergantungan spatial dan adanya spatial heteroskedastisitas (spatial clustering) Beberapa solusi dapat digunakan untuk menanggulangi terjadinya overdispersi diantaranya adalah menggunakan pendekatan model regresi binomial negative, metode Bayesian dan model regresi spatial Geographical Weighted Regression [4]. Pada prinsipnya, dua metode pertama digunakan untuk memuluskan taksiran resiko relative yang bersifat kasar jika terjadi overdisversi. Pada penelitian ini, dikembangkan metode alternative yaitu penggabungan metode clustering dengan metode regresi Poisson. Ide dasar dari metode ini adalah mendapatkan lokasi-lokasi yang memiliki tingkat homogenitas yang tinggi dalam suatu kluster kemudian melakukan pemodelan regresi Poisson dari kelompok yang terbentuk. Melalui metode ini akan diperoleh taksiran resiko relative yang lebih smooth dibandingkan tanpa melakukan pengelompokkan terlebih dahulu. Metode pengklusteran yang digunakan dalam penelitian ini adalah model based clustering. Metode ini dinilai sebagai metode yang paling baik dikarenakan penentuan ukuran kluster dilakukan secara objektif [9] Model-based clustering mengasumsikan bahwa data dibangkitkan oleh model dari distribusi peluang campuran dengan setiap komponen menunjukkan sebuah kluster. Misalkan diberikan observasi y= (y1,…,yn), kemudian fk(yi|k) merupakan fungsi densitas observasi yi dari komponen (kluster) ke-k dengan parameter k dan G menyatakan banyaknya komponen dalam model distribusi peluang campuran tersebut. dari suatu model peluang dan berusaha mendapatkan model yang fit dengan data. Model yang ditemukan dari data merupakan refresentasi dari suatu klaster [10]. Model-based clustering umumnya menggunakan asumsi bahwa data mengikuti sebaran normal multivariate dengan k =(k,k) dan fungsi densitasnya adalah [11]: exp{ 12 ( yi k ) k 1 (y i k )} (9) f k ( yi | k , k ) (2 ) | k | Berbeda dengan k-Mean, model based clustering memungkinkan menghasilkan kluster dengan bentuk p 2
1 2
yang berbeda beda begantung pada rataannya k dan matrik kovariasny
k . Pendekatan mixture
kemungkinan maksimum yang umumnya digunakan dalam model based clustering dalam kerangka mendapatkan parameter clusternya. Mixture kemungkinan maksimum dapat dituliskan sebagai berikut: n
G
LM (1 ,.., G ; 1 ,..., G | y ) k f k ( yi | k ),
(10)
i 1 k 1
dengan
G
k
adalah peluang bahwa sebuah observasi masuk ke dalam komponen ke-k (0≤ k ≤0;
1 ). Metode Expectation Maximization (EM) algorithm umumnya digunaian untuk mendapatkan
k 1 k
taksiran parmeter model k. III.
HASIL DAN PEMBAHASAN
Pada Tahun 2015 total kasus Demam Berdarah (DB) yang tercatat sebanyak 3.640 kasus dengan ratarata 121 kasus di setiap kecamatan di Kota Bandung. Angka terendah sebesar 32 kasus di Kecamatan Cinambo dan angka tertinggi sebesar 283 di Kecamatan Coblong. Angka bebas jentik (ABJ) tercatat di kota bandung sebesar 92.58%, dengan angka terendah sebesar 82.26% (Kecamatan Gede Bage) dan angka tertinggi sebesar 98.41% (Coblong). Walaupun Coblong dengan angka bebas jentik paling tinggi namun angka kasus di Kecamatan Coblong juga paling tinggi. Seharusnya kondisinya terbalik. Ini menunjukkan bahwa seorang yang terkena DB belum tentu terinfeksi di kecamatan asal namun bisa terinfeksi di kecamatan tengga karena adanya mobilitas penduduk.
MS 141
ISBN 978-602-73403-1-2
Tahap awal sebelum dilakukan penaksiran resiko relave DB yaitu melakukan pegelompokkan kecamatan di Kota Bandung yang terdiri dari 30 kecamatan menggunakan metode Model Based Clustering dengan dua variabel kluster yaitu angka kasus dan angka bebas jentik
2
3
4
5
6
7
8
90
95
1
EVE VEE VVE EEV VEV EVV VVV
85
-620
-600
EII VII EEI VEI EVI VVI EEE
DATA.ABJ
-560 -580
BIC
-540
-520
Classification
9 50
100
150
200
250
Number of components DATA.Kasus
(a) BIC
(b) Klasifikasi
log Density Contour Plot
-8
Cidadap
95
Sukasari
Sukajadi
-12
90
DATA.ABJ
-10
Cicendo
-10
-14
Coblong Cibeunying Kaler
Cibeunying Kidul
Ujungberung
Andir Sumurbandung
Antapani
-16
-10
Mandalajati
Bandung Wetan
Cibiru Arcamanik
Kiaracondong Batununggal BojongloaAstanaanyar Kaler
Cinambo Panyileukan
Lengkong
Regol
-2 0
85
-1
8
Bandung Kulon
Babakan Ciparay -22
-8
Buahbatu
Bojongloa Kidul
-10
Bandung Kidul
50
100
150
200
Gedebage Rancasari
250
DATA.Kasus
(c) Kontur
(d) Kelompok Lokasi
GAMBAR 1. KARAKTERISTIK PENKLUSTERAN DENGAN MODEL BASED CLUSTERING
Ukuran kluster yang paling tepat berdasarkan data DB Tahun 2015 dalah Tiga Kluster menurut nilai BIC terbesar (-509,1505) seperti yang bisa diperhatikan pada GAMBAR 1a dan TABEL 1. GAMBAR 1b-1c menunjukkan secara lebih jelas tiga kluster yang terbentuk sedangkan GAMBAR 1d meunjukkan kluster kecamatan di Kota Bandung yang terbagi menjadi tiga kluster. Karakteristik kluster secara jelas dapat dilihat pada Tabel berikut: TABEL 1. KARAKTERIK KLUSTER ndf BIC 30 11 -509,1505 1 2 21 6
log,likelihood -235,8687 Clustering Table
ICL -509,4094 3 3
Kecamtan kota Bandung berdasarkan angka kasus dan angka bebas jentik terbagi menjadi tiga kluster dengan anggota kluster masing-masing yaitu 21, 6 dan 3. TABEL 2.DESKRIPSI KLUSTER Parameter Rata-Rata Kasus Rata-Rata ABJ
Kluster 1 (n=21) 112,10 93,91
Kluster 2 (n=6) 87,33 85,83
MS 142
Kluster 3 (n=3) 254,0 96,79
Global (n=30) 121,3 92,58
SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2016
Berdasarkan TABEL 2 di atas diperoleh informasi bahwa kluster 3 adalah kluster dengan angka kasus paling tinggi dan juga angka bebas jentik paling tinggi. Sedangkan kluster dua adalah sebaliknya, merupakan kluster dengan angka kasus paling rendah begitu juga dengan angka bebas jentik. Jika dilihat secara sepintas, maka angka bebas jentik tidak berhubungan negative dengan angka kasus, dimana secara teori seharusnya semakin tinggi angka bebas jentik maka angka kasus semakin rendah. Namun demikian, model secara umum tidak dapat dilihat dari hanya nilai rata-rata semata. Pola hubungan ini harus dicermati dari model regresi Poisson yang disajikan pada TABEL 3. Parameter Intersep Slop
TABEL 3.PARAMETER REGRESI POISSON UNTUK SETIAP KLUSTER DAN SECARA GLOBAL Kluster 1 Kluster 2 Kluster 3 Global (n=21) (n=6) (n=3) (n=30) 3,09975** 11,09084** 5,02198** -0,631858 -0,03307** -0,12972** -0,05186** 0,006791
**) Siginifikan pada level alpha 5%
0.5
1.0
1.5
2.0
Berdasarkan TABEL 3 di atas, diperoleh informasi bahwa secara local (kluster) setiap kluster (1-3) menginformasikan bahwa ada hubugan negative antara angka bebas jentik dengan angka kasus. Jika angka bebas jentik semakin tinggi maka angka kasus juga semakin rendah. Hubungan kedua variabel ini juga signifikan pada level signifikansi 5%. Berbeda halnya untuk model regresi global. Hasil yang diperoleh berbanding terbaik dimana angka bebas jentik yang semakin tinggi menyebabkan angka kasus semakin tinggi. Hal ini dikarenakan adanya akibat dari overdispersi dalam data. Tahap selanjutnya adalah melakukan estimasi dari resiko relative berdasaran model yang telah diperoleh. Estimasi didasarkan pada tiga metode yaitu metode SMR, Model Regresi Poisson dengan kovariate ABJ melalui pengklusteran (RRGroup) dan tanpa pengklusteran (RRGlobal).
SMR
RRGroup
RRGlobal
(a) Boxplot Resiko Relative SMR
RRGroup
RRGlobal 1.8 1.6 1.4 1.2 1.0 0.8 0.6
(b) Pemetaan Resiko Relative GAMBAR2.POLA PENYEBARAN PENYAKIT DB BERDASARKAN SMR, RRGroupdanRRGLobal
Hasil yang jelas tampak sangat berbeda untuk Resiko Relatif dari ketiga metode. SMR memberikan taksiran resiko relative dengan variansi yang sangat besar sedangkan Model Regresi Poisson dengan kovariate ABJ tanpa pengklusteran (RRGlobal) memberikan taksiran resiko relative yang sangat rendah. Rendahnya variansi dari resiko relative untuk setiap kecamatan di Kota Bandung melalui metode regresi Poisson dikarenakan adanya kovaraite angka bebas jentik yang dimasukkan ke dalam model sehingga memperkecil variasi resiko relative antar lokasi. Namun kondisi ini secara fenomena tidaklah wajar melihat
MS 143
ISBN 978-602-73403-1-2
nilai angka kasus yang sangat bervariasi dari satu lokasi dengan lokasi yang lain ( 32 – 283). Selain alas an tersebut, model yang diguakan untuk menaksir resiko relative juga keliru seperti yag disampaikan bahwa seharusnya koefisien hubungan antara angka bebas jentik dan angka kasus DB bertanda negative. Namun pada model Global bertanda positif. Model yang paling logis dari hasil penelitian ini adala model Regresi Poisson dengan kovariate ABJ melalui pengklusteran (RRGroup). Model ini menujukkan adanya pemulusan dari taksiran resiko relative yang diperoleh dari SMR dengan nilai variansi antara lokasi tidak terlalu besar dan juga tidak terlalu rendah seperti pada model Global. IV.
SIMPULAN DAN SARAN
Peneting memperhatikan adanya heterogenitas spatial dalam data ketika menaksir resiko relative penyakit menular. Sehingga dalam pemodelan dan penaksiran resiko relative diperlukan suatu metode alternative untuk menanggulangi kasus overdispersi. Salah satu metode yang dapat digunakan adalah menggabungkan teknik pengklusteran dengan model Poisson. Penelitian ini masih memerlukan serangkaian tahapan penyempuranaan yaitu melakukan kajian simulasi unutk membuktikan seara empiris model ini memberikan hasil taksiran yang memilki tingkat presisi yang lebih tinggi dibandingkan model alternative lain seperti metode Bayeisan taupun GWR. DAFTAR PUSTAKA [1] Lawson AB. “Statistical methods methods in spatial epidemiology”. John Wiley & Sons, England Chris F and Adrian E. 2006 [2] Lawson AB. “Bayesian disease mapping, hierarchical modeling in spatial epidemiology 2 nd ed.” CRC Press Taylor & Francis Group, USA. 2013 [3] Anselin L, Lozano N, Koschinsky, J “Rate transformations and smoothing”. University of Illinois, Urbana. 2006 [4] Mindra Jaya, I. G. et al. “Bayesian Spatial Modeling and Mapping of Dengue Fever: A Case Study of Dengue Fever in The City of Bandung, Indonesia”. International Journal of Applied Mathematics and Statistics, 2016, 54 (3), 94-103 [5] Wakefiled, J. “Disease mapping and spatial regression with count data”. Biostatistics. 2007.pp 158–183 [6] Mindra J, et. al. “Model Based Clustering Versus Traditional Clustering Methods: A Comparison Based On Internal and External Validation Measure”. Proceeding International Conference of Mathematic‟s Statistics Application. Bali 19-21 November. 2012 [7] Shaddick, G., &Zidek, J. V. “Spatio-Temporal Methods in Environmental Epidemiology”. New York: CRC Press Taylor & Francis Group. 2016 [8] Mindrab Jaya, I. G., Nurani R, B. et.a “Modeling and mapping of infectious diseases: a core research topic for the next hundred years”. Submit to Regional Risearch Science. Springer. 2016 [9] Mindra J, et. al. “Analysis of The Spatial Distribution of Dengue Hemorrhagic Fever by Means of Model Based Clustering: The Case of Bogor”, Indonesia.The 11th Indonesian Regional Science Association (IRSA) International Conference was held in Banjarmasin, Kalimantan on 9-11 July 2012 [10] Raftery, “MCLUST Version 3 for R: Normal Mixture Modeling and Model-Based Clustering”. Technical Report. 2006. No. 504. Department of Statistics University of Washington [11] Guojun G, Chaoqun M, and Jianghong W. “Data Clustering” Siam. 2007
MS 144