PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
(M.4) KLUSTERING DATA SPASIAL MULTIVARIAT DENGAN MODEL BASED CLUSTERING I GedeNyomanMindra Jaya1) Bertho Tantular1) SiskaAriani Efendi2) 1)Dosen
Program Studi StatistikaFMIPA UNPAD Program Studi Statistika FMIPA UNPAD
2)Alumnus
Email:
[email protected]
Abstrak Analisis data spasial berkaitan erat dengan autokorelasi spasial. Pengklusteran data spasial tanpa memperhatikan autokorelasi spasial besar kemungkinan memberikan hasil pengelompokkan yang tidak tepat. Melalui standarisasi Getis Ord Statistics dapat dilakukan standarisasi data spatial multivariat, yang memungkinkan dilakukan pengelompokkan data spatial dengan hasil yang lebih akurat. Model based clustering adalah teknik analisis kluster yang berbasiskan distribusi peluang campuran yang melakukan pengelompokkan objek berdasarkan fungsi kemungkinan campuran. Melalui penggabungan Getis-Ord Statistics dengan model based clustering diperoleh pengelompokkan kelurahan/desa di kabupaten Bogor yang lebih akurat. Kata kunci : Spatial Klustering, Model Based Clustering, Getis –Ord Statistics
1.
PENDAHULUAN Analisis kluster memiliki peran penting dalam analisis data spatial. Pengelompokkan data
spatial atau lebih dikenal dengan spatial clustering adalah
suatu proses mengelompokkan
set area (spatial) kedalam kelompok sehingga area di dalam kelompok memiliki tingkat kesamaan karakteristik yang tinggi, dan memiliki perbedaan yang tinggi dengan kelompok lain. Salah satu efek dari data spasial adalah autokorelasi. Autokorelasi terjadi karena adanya dependensi dalam data cross-section, yaitu munculnya hubungan fungsional antara peristiwa yang terjadi dalam suatu area dengan peristiwa yang terjadi di wilayah lainnya. Pengukuran autokorelasi spasial dapat membantu dalam mengidentifikasi pola dari dependensi spasial pada daerah penelitian. Umumnya pengukuran autokorelasi ini masih bersifat univariat, pada kenyataannya sering ditemukan data dalam struktur multidimensi. Penelitian ini mengkaji tentang bagaimana cara mengidentifikasi kelompok-kelompok pada data spasial multivariat, dengan menerapkan metode model based clusering. Model based clustering adalah suatu teknik pengklusteran dengan memandang setiap unit observasi berasal dari populasi dengan
Jurusan Statistika-FMIPA-Unpad 2011
335
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
beberapa sub populasi. Terdapat dua metode pengklusteran dalam model based clustering pengklasifikasian dengan metode kemungkinan maksimum (classification likelihood) dan pendekatan fungsi likelihood campuran (mixture likelihood approach) (Giojun W.et all, 2007). Data awal proses pengklasteran diperoleh dari pengukuran autokorelasi spasial dengan menggunakan statistic lokal Getis-Ord untuk tiap variabel. Metode ini diaplikasikan pada kasus demam berdarah di Kota Bogor padaTahun 2009. 2.
AUTOKORELASI SPASIAL LOKAL GETIS-ORD Dalam penelitian ini, statistik autokorelasi spasial lokal Getis-Ord digunakan sebagai
alat untuk standarisasi data spasial yang akan diklasterkan. Persamaannya dirumuskan sebagai berikut: ( )=
∑ ̅
( (∑
)
(1) )
(Getis-Ord dalam Scrucca, 1992&1995) Nilai ( ) yang positif dan signifikan menunjukkan kelompok nilai tinggi di sekitar lokasi ke-i, sedangkan nilai negatif yang signifikan menunjukkan kelompok nilai rendah di sekitar lokasi ke-i.
3.
MODEL BASED CLUSTERING Algoritma clustering dapat dikembangkan melalui model probabilitik seperti
algoritma model based clustering. Dalam algoritma model based clustering, data dipandang berasal dari distribusi peluang campuran. Setiap distribusi dinyatakan sebagai kluster. Algoritma model based clustering mencoba mengoptimalkan kecocokan data dengan model. Biasanya terdapat dua pendekatan yang seringdigunakan untuk memformulasikan model dalam algoritma model based clustering yaitu kemungkinan klasifikasi dan kemungkinan campuran(Fraley and Raftery, 1998). MisalkanD = {x1, x2, . . . ,xn}adalah setiap observasi dan fj(xi|j )adalah fungsi densitas untuk observasi xi dari j komponen dengan j menyatakan matrik parameter dari distribusi xi serta k menyatakan banyak komponen dalam distribusi peluang campuran. Sebagai contoh, misalkan diasumsikan data berasal dari distirbusi Gaussian campuran, dan matrik parameter j terdiri dari vector j dan matrix kovarians j, dengan fungsi densitas sebagai berikut :
f j (xi | μ j , Σ j )
exp{ 12 ( x i μ j )T Σ j 1 ( x i μ j )} d
1
(2 ) 2 | Σ j | 2
Dengan d adalah dimensi dari data.
Jurusan Statistika-FMIPA-Unpad 2011
336
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Pendekatan fungsi kemungkinan klasifikasi (classification likelihood) bertujuan untuk memaksimumkan fungsi berikut : n
C (1 , 2 ,..., k ; 1 , 2 ,..., n | D) f i ( xi | i )
(2)
i 1
Pendekatan fungsi kemungkinan campuran (mixture likelihood). Pendekatan ini mengasumsikan bahwa fungsi peluang merupakan penjumlahan dari komponen densitas terbobot. Jika menggunakan kemungkinan campuran dalam clustering, permasalahannya terletak pada penaksiran parameter model yang diasumsikan campuran. Fungsi matematis yang akan dimaksimumkan adalah : n
k
M (1 , 2 ,..., k ;1 , 2 ,..., k | D) j f j ( xi | j )
(3)
i 1 j 1
Dengan ≥ 0 adalah peluang dari setiap observasi akan menjadi anggota komponen ke j, k
dengan ketentuan j 1 (BianS et all, 2011) j 1
4.
HASIL ANALISIS
Untuk contoh kasus dalam penelitian ini digunakan data skunder dari Dinas Kesehatan Kota Bogor (Fatmawati, 2011). Data yang digunakan adalah data penderita DBD di kelurahan-kelurahan kota Bogor. Unit analisis penelitian ini adalah seluruh kelurahan di wilayah kota Bogor sebayak 68 desa/kelurasahan dengan variabel penelitian yaitu X1 : Angka bebas jentik (%), X2: Kepadatan penduduk ( jiwa/km2), X3: Persentase penderita demam berdarah (%). Tabel 1. Deskriptif Data Variabel
Mean
St.
Minimum
Maksimum
Deviasi Angka Bebas Jentik (X1)
92,24632
2,2776
86
97,5
Kepadatan Penduduk (X2)
110,25
67,9012
15
277
Persentase Penderita DBD (X3)
0,00173
0,001323
0,0001093
0,0069141
Jurusan Statistika-FMIPA-Unpad 2011
337
PROSIDING Seminar Nasional Statistika | 12 November 2011
(a) AngkaBebasJentik
(b) KepadanPenduduk
ISSN : 2087-5290. Vol 2, November 2011
(c) Pesentase DBD
Gambar 1.Peta nilai standarisasi autokorelasi spasial lokal Getis-Ord Gi
Angka bebas jentik dengan nilai rendah terkonsentrasi pada bagian tengah dari wilayah kota Bogor. Kepadatan penduduk dengan nilai rendah menyebar terpisah dari wilayah kota Bogor. Sedangkan, nilai persentase penderita DBD yang tinggi terlihat menyebar memusat dari wilayah kota Bogor Pengelompokkan objek dalam metode Model Based Clustering diawali dengan menentukan banyak komponen yang paling tepat yaitu menggunakan pendekatan BIC (Bayesian Information Criterion) (Chris., et all. 2006) . Tanpa Memperhatikan Efek Spasial Menggunakan package Mclust dalam R dibawah ini disajikan beberapa plot untuk identifikasi model kluster yang terbaik. 150
250
94
-5 00
50
90
X2 0.006
50
VVI EEE EEV VEV VVV
X3 2
4
6
number of components
(a). Plot BIC Jurusan Statistika-FMIPA-Unpad 2011
8 86
90
94
0.000 0.003
-2 0 00
EII VII EEI VEI EVI
150
250
86
-10 0 0 -1 50 0
B IC
X1
0.000 0.003 0.006
(b). Plot Multivariat
338
PROSIDING Seminar Nasional Statistika | 12 November 2011
1,2 Coordinate Projection showing Classification
X2
50
50
100
150
150
200
200
250
250
1,2 Coordinate Projection showing Uncertainty
100
X2
ISSN : 2087-5290. Vol 2, November 2011
86
88
90
92
94
96
86
88
90
92
94
96
X1
X1
(c)Plot Klasifikasi
(d) Plot Error Klasifikasi
Gambar 2.Identifikasi Model Kluster Tanpa Memperhatikan Efek Spasial
Tanpa memperhatikan efek spasial maka dengan menggunakan Package Mclust pada R diperoleh model terbaik adalah model dengan empat komponen, dengan bentuk dan volume bervariasi.
Memperhatikan Efek Spasial Berdasarkan nilai BIC terbesar diperoleh model terbaik adalalah menggunakan 4 komponen. Model yang terbaik yaitu model: spherical dan equal. -1
0
1
2
3
0
2
-660
-2
-2
-2
0
KP
1 2
-780
VVI EEE EEV VEV VVV
1
2
3
-4
-700
EII VII EEI VEI EVI
-740
BIC
ABJ
6
8
number of components
(a). Plot BIC
Jurusan Statistika-FMIPA-Unpad 2011
-2
4
0
PDBD 2
-4
-2
0 1 2
-2
-1
0
1
2
(b). Plot Multivariat
339
PROSIDING Seminar Nasional Statistika | 12 November 2011
1,2 Coordinate Projection showing Uncertainty
-2
-2
-1
-1
0
0
KP
KP
1
1
2
2
3
3
1,2 Coordinate Projection showing Classification
ISSN : 2087-5290. Vol 2, November 2011
-4
-3
-2
-1
0
1
2
-4
-3
-2
-1
0
1
2
ABJ
ABJ
(c) Plot Klasifikasi
(d) Plot Error Klasifikasi
Gambar3.Identifikasi Model Kluster Memperhatikan Efek Spasial
Berdasarkan visualisasi di atas maka model terbaik adalah model dengan memperhatikan efek spasial yaitu model terdiri dari empat komponen dan berbentuk elips dengan ukuran yang sama.
Tabel.2 KarakteristikKlusterdengan Error Based ClusteringMemperhatikanAutokorelasiSpasial Kepadan Penduduk (Jiwa/km2)
Kelom pok
Angka Bebas Jentik (%)
1
91.86
111.77
0.0021
2
93.56
65.42
0.0007
3
92.31
174.89
0.0020
4
90.84
132.70
0.0024
Jurusan Statistika-FMIPA-Unpad 2011
Persentase Penderita DBD (%)
340
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Kelompok Kelompok 1 (14) Kelompok 2 (13) Kelompok 3 (32) Kelompok 4 (9)
(a) Model Based Clustering (TanpaMemperhatikanEfekSpasial)
(b) Model Based Clustering (MemperhatikanEfekSpasial)
Gambar 4.Peta Klustering
Jurusan Statistika-FMIPA-Unpad 2011
341
PROSIDING Seminar Nasional Statistika | 12 November 2011
Kelompok 1 No. 10 13 15 16 19 21 25 26 27 29 30 37 38 41 42 43 44 45 47 48 49 50 56 57 58 60 62 63 64 65
Kelurahan/Desa Pakuan Batu Tulis Empang Cikaret Tajur Baranangsiang Tanah Baru Cimahpar Ciluar Kedunghalang Ciparigi Pabaton Cibogor Ciwaringin Pasir Mulya Pasir Kuda Pasir Jaya Gunung Batu Menteng Cilendek Timur Cilendek Barat Sindang Barang Curug Mekar Curug Kedungwaringin Kebon Pedes Kedung Badak Sukaresmi Sukadamai Cibadak
Jumlah :
Kelompok 2 No. 1 2 3 4 5 6 7 8 9 11 17 18 51 52 53 54 55 66 67
Kelurahan/Desa Mulyaharja Pamoyanan Ranggamekar Genteng Kertamaya Rancamaya Bojongkerta Harjasari Muarasari Cipaku Sindang Sari Sindang Rasa Margajaya Balungbang Jaya Situ Gede Bubulak Semplak Kayu Manis Mekarwangi
30
19
ISSN : 2087-5290. Vol 2, November 2011
Kelompok 3 No. 12 14 20 22 31 32 33 39 61
Kelurahan/Desa Lawang Gintung Bondongan Katulampa Sukasari Paledang Gudang Babakan Pasar Panaragan Tanah Sareal
Kelompok 4 No. 23 24 28 34 35 36 40 46 59 68
Kelurahan/Desa Bantarjati Tegal Gundil Cibuluh Tegal Lega Babakan Sempur Kebon Kalapa Loji Kedung Jaya Kencana
9
10
Tabel 3.Kelurahan/DesaDengan Model Based Clustering MemperhatikanEfekSpasial
5. KESIMPULAN Terdapat perbedaan yang nyata antara pengklusteran data spatial multivariate dengan menggunakan metode Model Based Clustering dengan mempehatikan efek spasial melalui standarisasi Lokal Getis-Ord dibandingkan tanpa memperhatikan efek spasial. Menggunakan contoh kasus data DBD Kota Bogor tahun 2009 menunjukkan melalui transformasi Lokal Getis-Ord diperoleh hasil pengelompokkan yang lebih akurat.
Jurusan Statistika-FMIPA-Unpad 2011
342
PROSIDING Seminar Nasional Statistika | 12 November 2011
6.
ISSN : 2087-5290. Vol 2, November 2011
DAFTAR PUSTAKA
Brian S. E. and Torsten H. .(201 0).A Handbook of Statistical Analysis Using R Second Editon. CRC Press _______ Sabine L. Morven L. and Daniel S.(2011). Cluster Analysis, 5th Edition. John Wiley and Sons. Chris F and Adrian E. Raftery, (2006). MCLUST Version 3 for R: Normal Mixture Modeling and Model-Based Clustering. Technical Report No. 504. Department of Statistics University of Washington Fatmawati, Nurul. (2011). “Aplikasi Model Autoregresif Spatial-Regresif Campuran dalam Menaksir Kontribusi Angka Bebas Jenis (ABJ) dan Kepadatan Penduduk dengan Kasus DBD di Kota”.Skripsi. Universitas Padjadjaran, Bandung. Guojun G, Chaoqun M, and Jianghong W. (2007).Data Clustering Siam. Hair, J. F, Anderson R. E, Tantham, R. L, and Black, W. C. 1998. Multivariate Data Analysis. Fifth Edition. Prentice Hall International, Inc. Upper Saddle River, New Jersey. R Development Core Team (2005) R: A language and environment for statisticalcomputing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org. Scrucca, Luca. 2005. “Clustering Multivariate Spatial Data Based on Local Measure of Spatial Autocorrelation”, Italy, Universita degli Studi di Perugia
Jurusan Statistika-FMIPA-Unpad 2011
343