KAJIAN METODE PENGGEROMBOLAN DUA TAHAP UNTUK DATA YANG MENGANDUNG PENCILAN
ARNI NURWIDA
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Kajian Metode Penggerombolan Dua Tahap untuk Data yang Mengandung Pencilan adalah benar karya saya dengan arahan dari komisi pembimbing dan belum pernah diajukan dalam bentuk apa pun kepada perguruan tinggi atau lembaga mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Maret 2014 Arni Nurwida NIM G14080022
ABSTRAK ARNI NURWIDA. Kajian Metode Penggerombolan Dua Tahap untuk Data yang Mengandung Pencilan. Dibimbing oleh KUSMAN SADIK dan INDAHWATI. Analisis gerombol seringkali ditemui dalam berbagai penelitian. Analisis gerombol klasik, seperti metode penggerombolan berhierarki dan k-rataan tidak dapat menangani peubah penggerombolan yang bertipe kategorik maupun campuran dari numerik dan kategorik. Selain itu, penentuan banyaknya gerombol optimal masih tergantung dari subjektivitas peneliti serta tidak dapat menangani data yang berukuran sangat besar, yaitu lebih besar dari 500. Salah satu pendekatan untuk menangani masalah ini adalah dengan menggunakan metode penggerombolan dua tahap. Keakuratan metode penggerombolan dua tahap dalam menduga banyaknya gerombol yang dihasilkan serta dalam pengklasifikasian keanggotaan gerombol khususnya pada data yang mengandung pencilan merupakan hal yang penting untuk dikaji. Pada data yang mengandung pencilan kecil (1%), metode ini memberikan hasil yang lebih akurat dibandingkan dengan data yang mengandung pencilan besar (5% atau 15%). Penggunaan besaran penanganan pencilan pada data yang mengandung pencilan harus lebih besar daripada besaran pencilannya itu sendiri. Metode penggerombolan dua tahap sangat akurat dalam menghasilkan banyaknya gerombol yang sesuai dengan banyaknya gerombol populasi sebenarnya pada data yang tidak mengandung pencilan, khususnya pada peubah yang sebagian besar bertipe numerik dan sisanya kategorik. Penggerombolan Desa/Kelurahan di Indonesia berdasarkan faktor kemajuan dan ketertinggalan desa dengan menggunakan metode penggerombolan dua tahap menghasilkan 7 gerombol optimal. Kata kunci: analisis gerombol, data pencilan, metode penggerombolan dua tahap
ABSTRACT ARNI NURWIDA. Assessment Method for Two-Step Clustering Data Containing Outliers. Supervised by KUSMAN SADIK and INDAHWATI. Cluster analysis is often encountered in various studies. Analysis of classical clusters, such as hierarchical clustering method and k-means clustering cannot handle categorical variables or a mixture of numerical and categorical. In addition, the determination of the optimal number of clusters are still dependent on the subjectivity of the researcher and cannot handle very large datasets, which is larger than 500. One approach to addressing this problem is to use a two-step clustering method. The accuracy of the two-step clustering method of predicting the number of clusters generated as well as the classification of cluster membership, especially in the data containing outliers is important to be studied. Outliers in the data containing a small (1%), this method provides more accurate compared with the results of data containing a large outliers (5% or 15%). Scale use of outliers handling in the data containing outliers must be greater than the amount of outliers itself. Two-step clustering method is very accurate in producing a number of clusters associated with the actual number of population clusters that do not contain data outliers, especially in the most variable of type numeric and categorical rest. Clustering villages in Indonesia by a factor of progress and backwardness villages using a two-step clustering method generates optimal cluster 7. Key words: cluster analysis, data outliers, two-step clustering method
KAJIAN METODE PENGGEROMBOLAN DUA TAHAP UNTUK DATA YANG MENGANDUNG PENCILAN
ARNI NURWIDA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
Judul Skripsi: Kajian Metode Penggerombolan Dua Tahap untuk Data yang Mengandung Pencilan Nama : Arni Nurwida NIM : G14080022
Disetujui oleh
Dr. Ir. Kusman Sadik, M.Si Pembimbing I
Dr. Ir. Indahwati, M.Si Pembimbing II
Diketahui oleh
Dr. Anang Kurnia, M.Si. Ketua Departemen
Tanggal Lulus:
Judul Skripsi: Kajian Metode Penggerombolan Dna Tahap untuk Data yang a Mengandung Pencil an
Nam
: Ami Nurwida
NlM
: G 14080022
Disetujui oleh
Dr. Ir. Kusman Sadik, M.Si Pembimbing I
Dr. Jr. Indahwati, M.Si Pembimbing II
Diketahui o]eh ,_":-::""
,
.. . 2
Dr. Anang K 'a, M.Si. pKetua Departemen
Tanggal Lulus:
0 3 HAR 2U14
.l
PRAKATA Alhamdulillah, segala puji penulis panjatkan kehadirat Allah SWT atas rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Shalawat serta salam penulis haturkan kepada nabi besar Muhammad SAW serta kepada para keluarga, sahabat dan umatnya yang senantiasa istiqomah hingga akhir zaman. Karya ilmiah yang disusun sejak bulan Desember 2012 sampai dengan Maret 2013 ini berjudul Metode Penggerombolan Dua Tahap untuk Peubah Bertipe Campuran. Penulis menyampaikan terima kasih kepada semua pihak yang telah membantu, antara lain kepada Bapak Dr. Ir. Kusman Sadik, M.Si dan Ibu Dr. Ir. Indahwati, M.Si selaku komisi pembimbing yang telah memberikan bimbingan, arahan, serta masukan selama proses penulisan karya ilmiah ini. Bapak, Ibu, Mbak Ayis, Rathi dan Mas Hasnan atas doa, semangat, bantuan, dan kasih sayang yang diberikan kepada penulis. Bapak Dr. Ir. Hari Wijayanto, M.Si. beserta seluruh staf pengajar Departemen Statistika Institut Pertanian Bogor yang telah memberikan berbagai bekal ilmu selama penulis melaksanakan studi di Departemen Statistika. Seluruh staf administrasi dan karyawan Departemen Statistika yang selalu siap membantu penulis dalam menyelesaikan berbagai keperluan terkait penyelesaian karya ilmiah ini. Aci, Ami, Dania, Ai, Nurul dan Didin atas segala masukan, diskusi dan motivasinya. Mba Dwi, Ika, Pujul, Sumi, Muti, Risa, Kak Ery, Kak Kindy, Kak Arjun, Kak Miftah, Mbak Endang, Abas, Titi, Iril, Adit, Yekti, Hepi, Tika, Nopi, Eka, Fathia, Ida, Yuyun, Arbi, Endah, Herlin, Ririn, Dina, Rida, Eka, Chanifah, Neng, Rey, Riza, Nyama, Fika, Gita, Yusti, Suci, Zaiful, Ita, Sonia, Nahdhi, Aini, Nurul, Dian, Banu, Fatul, Andi, Aziz, Hendi, Ridho, Agit, Winda, Anggun, Ririn, Euis, Salsa, Indah, Yasin, Okta, Hamdan, Faiz, Aldi, Wulan, Nada, Carissa, Sarah, Sunny, Sarah, Andri, Nova, Gita, Hesti, Indri, dan Nita atas segala motivasi dan dukungannya. Kakak-kakak STK 44 serta adik-adik STK 46 dan STK 47. Serta seluruh pihak yang telah memberikan dukungan, doβa dan motivasi dalam penyelesaian karya ilmiah ini. Semoga segala kebaikannya dibalas oleh Allah SWT dan semoga karya ilmiah ini bermanfaat bagi semua orang yang membacanya.
Bogor, Maret 2014 Arni Nurwida
DAFTAR ISI
DAFTAR TABEL DAFTAR GAMBAR DAFTAR LAMPIRAN PENDAHULUAN Latar Belakang Tujuan TINJAUAN PUSTAKA Desa/Kelurahan Tertinggal Analisis Gerombol Metode Berhirarki Metode Tak Berhirarki Metode Penggerombolan Dua Tahap Tahap Pertama: Pembentukan Gerombol Awal Penanganan Pencilan Tahap Kedua: Pembentukan Gerombol Optimal METODOLOGI Data Metode Penelitian Metode Pembangkitan Data Penerapan pada Data Riil HASIL DAN PEMBAHASAN Kajian pada Kasus Data Khusus Penerapan pada Data Riil Deskripsi Data Pereduksian Data Penggerombolan dengan Metode Penggerombolan Dua Tahap Karakteristik Gerombol Desa/Kelurahan KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN
viii viii viii 1 1 2 2 2 2 2 2 3 3 4 5 6 6 7 7 9 9 9 11 11 11 12 13 16 16 16 17 18
DAFTAR TABEL
1 2 3 4 5 6 7 8 9 10 11
Kriteria 2 model peubah campuran Kombinasi data simulasi Pembangkitan ukuran data gerombol dan proporsi pencilan Kriteria nilai transformasi untuk peubah kategorik Ilustrasi salah klasifikasi Persentase salah banyaknya gerombol yang dihasilkan dengan banyaknya gerombol populasi sebenarnya Persentase salah klasifikasi gerombol yang dihasilkan dengan banyaknya gerombol populasi sebenarnya Penggerombolan Dua Tahap dengan kriteria penggerombolan BIC Distribusi hasil penggerombolan Frekuensi dan persentase peubah kategorik pada setiap gerombol Rentang nilai pada setiap peubah numerik
6 7 7 8 9 10 10 12 12 13 15
DAFTAR GAMBAR 1 Grafik tingkat kepentingan peubah kategorik π2 pada setiap gerombol 2 Grafik tingkat kepentingan peubah kategorik π5 pada setiap gerombol
14 14
DAFTAR LAMPIRAN 1 2 3 4 5 6
Daftar peubah penggerombolan sebelum dilakukan pereduksian Diagram alir metode pembangkitan data Diagram alir metode penggerombolan dua tahap pada data riil Grafik tingkat kepentingan peubah numerik pada setiap gerombol Tingkat rataan nilai peubah numerik pada setiap gerombol Karakteristik pada setiap gerombol
18 19 21 22 23 25
PENDAHULUAN
Latar Belakang Analisis gerombol adalah salah satu analisis peubah ganda yang bertujuan untuk menggerombolkan objek (individu atau amatan) menjadi beberapa gerombol berdasarkan pengukuran kemiripan atau ketakmiripan. Permasalahan utama dalam penerapan analisis gerombol adalah peubah penggerombolan bertipe kategorik maupun campuran dari numerik dan kategorik. Algoritma analisis gerombol klasik seperti metode penggerombolan berhierarki dikembangkan untuk peubah numerik berskala interval atau rasio saja, walaupun telah tersedia pilihan berbagai konsep jarak untuk peubah biner. Sementara itu, metode k-rataan (kmeans) mensyaratkan peubah penggerombolan berskala rasio, interval, atau biner. Permasalahan lainnya adalah banyaknya objek yang ingin digerombolkan relatif sangat besar, yaitu lebih besar dari 500 dan penentuan banyaknya gerombol optimal membutuhkan uji statistik. Penggerombolan berhierarki dikembangkan untuk banyaknya objek yang relatif kecil, yaitu umumnya kurang dari 250 dan penggerombolan k-rataan dikembangkan untuk banyaknya objek yang relatif besar yaitu lebih besar dari 200 (Garson 2012). Di samping itu, pada penggerombolan berhierarki maupun k-rataan, penentuan banyaknya gerombol optimal sangat ditentukan oleh subjektivitas peneliti dan tidak terdapat uji statistik untuk mengetahui ketepatan banyaknya gerombol optimal sehingga hasil penggerombolan sangat bergantung pada pengetahuan, pengalaman, serta subjektivitas peneliti (Hair et al. 2010). Metode Penggerombolan Dua Tahap (Two Step Clustering) dapat mengatasi peubah bertipe kategorik maupun campuran dari numerik dan kategorik (Chiu et al. 2001). Selain itu, dapat mengatasi data yang berukuran sangat besar, yaitu lebih besar dari 500 dan penentuan banyaknya gerombol optimal dilakukan melalui uji statistik (Bacher et al. 2004). Selanjutnya keakuratan metode penggerombolan dua tahap dalam menduga banyaknya gerombol yang dihasilkan maupun dalam pengklasifikasian keanggotaan gerombol khususnya pada data yang mengandung pencilan merupakan hal yang penting untuk dikaji. Hal ini disebabkan karena banyak data yang ditemui di lapang merupakan data yang mengandung pencilan dan pencilan tersebut merupakan data atau amatan berpengaruh yang tidak mungkin dihilangkan sehingga perlu diikutkan dalam proses analisisnya. Kudsiati (2006) telah melakukan penelitian, yaitu mengkaji keakuratan metode penggerombolan dua tahap dalam menentukan banyaknya gerombol namun hanya sebatas pada data yang tidak mengandung pencilan. Oleh sebab itu, penelitian ini ingin mengkaji metode penggerombolan dua tahap pada data yang mengandung pencilan, kemudian melakukan penggerombolan desa/kelurahan di Indonesia berdasarkan faktor kemajuan atau ketertinggalan desa yang terdapat dalam data Podes tahun 2011 dengan menggunakan metode penggerombolan dua tahap.
2
Tujuan Tujuan penelitian ini adalah mengkaji metode penggerombolan dua tahap untuk data yang mengandung pencilan dalam hal (1) menduga banyaknya gerombol yang dihasilkan dibandingkan banyaknya gerombol populasi sebenarnya, dan (2) pengklasifikasian keanggotaan gerombol. TINJAUAN PUSTAKA
Desa/Kelurahan Tertinggal RUU PDT (Rancangan Undang-Undang Pembangunan Daerah Tertinggal) dalam Bab I Pasal 1 Nomor 2 menjelaskan bahwa desa tertinggal adalah desa yang berdasarkan kriteria ditetapkan sebagai desa tertinggal. Beberapa faktor diduga menjadi penyebab kemajuan atau ketertinggalan suatu desa, yaitu (1) faktor alam/lingkungan, (2) faktor kelembagaan, (3) faktor sarana, prasarana dan akses, serta (4) faktor sosial ekonomi penduduk. Analisis Gerombol Analisis gerombol adalah analisis statistik peubah ganda yang digunakan untuk mencari pola dari suatu gugus data dengan mengelompokkan n objek yang mempunyai p peubah ke dalam k gerombol. Tujuannya adalah untuk menemukan penggerombolan optimal dimana objek-objek yang berada dalam satu gerombol adalah mirip sedangkan yang berada dalam gerombol-gerombol yang berbeda adalah tidak mirip (Rencher 2002), dan penggerombolannya dilakukan berdasarkan basis kemiripan atau ketakmiripan (Johnsons dan Wichern 2007). Menurut Hair et al. (2010) terdapat tiga metode dalam analisis gerombol, yaitu (1) metode berhierarki, (2) metode tak berhierarki dan (3) penggabungan kedua metode penggerombolan tersebut. Dengan rumitnya masalah yang dihadapi dalam menggerombolkan gugus data berukuran sangat besar, mendorong berkembangnya teknik-teknik penggerombolan baru yang prosesnya dilakukan secara bertahap, salah satunya adalah metode penggerombolan dua tahap. Metode Berhierarki Metode penggerombolan berhierarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Menurut Garson (2012), metode ini cocok untuk ukuran data yang relatif kecil, yaitu kurang dari 250. Metode berhierarki dibedakan menjadi dua, yaitu metode penggabungan dan metode pemisahan (Hair et al. 2010). Jenis peubah yang dapat digerombolkan dengan metode berhierarki adalah peubah numerik (rasio dan interval) serta fungsi jarak yang umum digunakan adalah jarak Euclidean atau jarak Mahalanobis. Metode Tak Berhierarki Metode peggerombolan tak berhierarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. Contoh dari metode tak
3
berhierarki adalah k-rataan. Garson (2012) mengemukakan bahwa metode krataan cocok digunakan pada data yang berukuran besar, yaitu lebih besar dari 200 serta menggunakan konsep jarak Euclidean sehingga peubah kriteria penggerombolannya haruslah semuanya berskala rasio atau interval. Metode Penggerombolan Dua Tahap Algoritma metode penggerombolan dua tahap dikembangkan oleh Chiu et al. (2001). Metode penggerombolan dua tahap relatif baru, dan seperti yang dikemukakan oleh Hair et al. (2010), metode ini dikembangkan untuk menangani peubah bertipe campuran dari numerik dan kategorik serta untuk data yang berukuran sangat besar, yaitu lebih besar dari 500. Fungsi jarak yang digunakan adalah jarak Euclidean atau jarak loglikelihood (Bacher et al. 2004). Jarak Euclidean hanya dapat digunakan apabila semua peubah yang digunakan bertipe numerik. Dimisalkan ada dua gerombol, yaitu gerombol j dan s, dan dari p peubah maka jarak Euclidean antara kedua gerombol dapat didefinisikan sebagai berikut: d(j,s) = {
π π =1
2
π₯π β π₯π }1
2
Dimana d(j,s) menunjukkan jarak antara gerombol j dengan s, π₯π adalah nilai tengah gerombol ke-j, π₯π adalah nilai tengah gerombol ke-s, dan p adalah banyaknya peubah penggerombolan. Sedangkan jarak log-likelihood digunakan untuk peubah bertipe campuran dari numerik dan kategorik. Jarak antara gerombol j dan s didefinisikan sebagai berikut: d(j,s) = ππ + ππ β π(π ,π ) , dimana: ππ = β ππ
2
2
(ππ +πππ ) πΎ π΄ log β‘ + π=1 2
πΈππ = β
πΏπ π πππ π=1 π π
log
πΎπ΅ π=1 πΈππ
π πππ ππ
Selanjutnya, (j,s) adalah indeks gerombol yang dibentuk dari menggabungkan gerombol j dengan s, ππ adalah jumlah objek di gerombol j, πΎ π΄ adalah jumlah peubah bertipe numerik, πΎ π΅ adalah jumlah peubah bertipe kategorik, ππ2 adalah ragam dari peubah numerik ke-k di dalam keseluruhan gugus data, πππ2 adalah ragam dari peubah numerik ke-k di dalam gerombol j, πΏπ adalah jumlah kategori untuk peubah kategorik ke-k, dan ππππ adalah jumlah objek di dalam gerombol j untuk peubah kategorik ke-k dengan kategori ke-l. Ukuran jarak log-likelihood didasarkan pada tiga asumsi, yaitu peubah penggerombolannya saling bebas, peubah kategorik diasumsikan berdistribusi multinomial, dan peubah numerik diasumsikan berdistribusi normal. Metode penggerombolan dua tahap cukup kekar (robust) terhadap asumsi kebebasan dan asumsi distribusi tersebut (Norusis 2010). Tahap Pertama: Pembentukan Gerombol Awal Tahap pertama dari penggerombolan dua tahap adalah pembentukan gerombol awal (pre-clustering) yang menggunakan pendekatan penggerombolan secara sekuensial (Li dan Sun 2011). Pendekatan ini diimplementasikan dengan membentuk Pohon Ciri Gerombol (Cluster Feature Tree/ CF Tree) (Zhang et al. 1996).
4
Pohon ciri gerombol terdiri dari beberapa tingkatan cabang (nodes) dan masing-masing cabang berisikan objek yang dientrikan (entries). Apabila dimisalkan sebuah pohon maka tingkatan cabang tersebut terdiri dari batang pohon, dahan dan daun. Pada pohon ciri gerombol, tingkatan daun yang terdapat pada cabang dinamakan daun entri (Leaf Entry) atau entrain pada cabang daun yang merepresentasikan hasil akhir anak gerombol atau sub gerombol (subcluster). Algoritma pertama pada pohon ciri gerombol adalah memasukkan objek satu per satu secara acak (SPSS Technical Report 2001). Objek yang masuk dihitung jaraknya pada daun entri yang telah ada dengan menggunakan ukuran jarak yang telah ditentukan. Apabila jarak tersebut kurang dari kriteria ukuran penerimaan (threshold distance) maka objek tersebut masuk ke dalam daun entri yang telah ada, tetapi jika sebaliknya maka objek membentuk daun entri baru. Jika suatu cabang daun tidak lagi memiliki ruang untuk menambah daun entri baru maka cabang daun tersebut akan dipecah menjadi dua. Apabila dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua dahan. Berlaku pula untuk cabang dahan membelah menjadi dua grup (pohon). Proses ini berlanjut sampai semua objek selesai dimasukkan. Jika pohon ciri gerombol berkembang melewati batas ukuran maksimum ruang maka pohon ciri gerombol yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan. Pohon ciri gerombol yang melewati batas ukuran maksimum biasanya dikarenakan pada saat proses algoritma pohon ciri gerombol dijalankan, terbentuk daun entri yang beranggotakan pencilan. Pencilan pada metode penggerombolan dua tahap adalah data yang tidak dapat dimasukkan ke dalam gerombol manapun sehingga dimasukkan ke dalam satu gerombol yang baru. Pada saat pohon ciri gerombol akan dibangun ulang maka akan diperiksa daun entri yang berpotensi sebagai pencilan. Pencilan diasumsikan menyebar mengikuti sebaran seragam. Ketika mendeteksi, suatu objek dinyatakan sebagai pencilan atau tidak, dilakukan perhitungan jarak log-likelihood dari objek yang bersangkutan ke daun entri terdekat yang bukan merupakan pencilan (closest non noise cluster). Objek yang diduga sebagai pencilan dimasukkan ke dalam daun entri terdekat yang bukan merupakan pencilan bilamana jarak log-likelihood lebih kecil dari titik kritis: C = log (V), dimana V = βπ
π βπΏπ Selanjutnya, π
π menunjukkan range dari peubah kontinu ke-k dan πΏπ adalah banyaknya kategori untuk peubah kategori ke-m. Selain itu, Bacher (2000) dalam Kudsiati (2006) menjelaskan bahwa bila terjadi tumpang tindih antara dua gerombol yang saling berdekatan akan memungkinkan terjadinya penduga yang bias bagi profil gerombol. Kelompok data yang dapat mengakibatkan terjadinya bias dalam penetapan keanggotaan gerombol disebut sebagai pencilan atau gangguan (noise). Mengatasi hal ini, Bacher (2004) menyarankan agar pengguna SPSS menentukan nilai opsi penanganan pencilan, misalnya sebesar 5 (=5%). Algoritma pohon ciri gerombol yang digunakan sesuai dengan standar program SPSS, yaitu banyaknya tingkat cabang maksimum (depth) adalah 3 dan
5
banyaknya objek per cabang maksimum adalah 8. Dengan demikian, banyaknya dahan daun maksimum sebanyak 83 = 512 anak gerombol (Bacher et al. 2004). Tahap Kedua: Pembentukan Gerombol Optimal Tahap kedua adalah pembentukan gerombol akhir yang ditandai dengan terbentuknya gerombol optimal. Daun entri dari pohon ciri gerombol hasil tahap pertama dan tanpa mengikutsertakan pencilan digerombolkan menggunakan metode penggerombolan berhierarki penggabungan (Norusis 2010), yaitu dimulai dengan mengasumsikan bahwa setiap objek merupakan satu gerombol, dan selanjutnya secara bertahap dilakukan penggabungan pada objek-objek yang paling dekat (Hair et al. 2010). Pada tahap kedua ini, penentuan jumlah gerombol optimal ditentukan secara otomatis dengan melalui dua langkah (Li dan Sun 2011). Langkah pertama adalah menghitung nilai Kriteria Informasi Bayes/Akaike (Bayesian/Akaike Information Criterion/ BIC/AIC) untuk setiap gerombol. Kriteria informasi BIC dan AIC untuk j buah gerombol dirumuskan sebagai berikut: π΅πΌπΆπ = β2 π΄πΌπΆπ = β2 ππ½ = J 2πΎ π΄ +
πΎπ΅ π=1
π½ π =1 ππ π½ π =1 ππ
πΏπΎ β 1
+ ππ½ log π
+ 2ππ½ , dimana: dan N adalah jumlah total data.
Kontribusi dari masing-masing peubah dalam pembentukan setiap gerombol dilakukan melalui uji t-Student untuk peubah numerik dan uji khi-kuadrat untuk peubah kategorik (Schiopu 2010). π‘=
ππ β πππ / πππ π2 =
π πππ πΏπ π=1 π ππ
ππ
β1
1 2
2
Dimana ππ adalah estimasi rataan dari peubah numerik ke-k di dalam keseluruhan gugus data, dan πππ adalah estimasi rataan dari peubah numerik ke-k di dalam gerombol j. Hipotesis nol (π»0 ) menyatakan bahwa peubah tidak berpengaruh pada pembentukan gerombol. πππ adalah jumlah objek di dalam keseluruhan gugus data untuk peubah kategorik ke-k dengan kategori ke-l. Derajat bebas uji t-Student adalah ππ dan uji khi-kuadrat adalah πΏπ dengan kasus dua arah. Di dalam Bacher et al. (2004), Chiu et al. (2001) mengemukakan π΅πΌπΆπ atau π΄πΌπΆπ menghasilkan penduga awal yang baik bagi banyaknya gerombol maksimum. Banyaknya gerombol maksimum ditentukan sama dengan banyaknya gerombol yang memiliki rasio perubahan BIC (Ratio of BIC Change) π΅πΌπΆπ /π΅πΌπΆπ yang pertama kali lebih kecil dari π1 (SPSS menetapkan π1 = 0.04 yang didasarkan atas studi simulasi) (SPSS Technical Report 2001). Selanjutnya dalam langkah kedua, digunakan nilai rasio ukuran jarak (Ratio of Distance Measure) untuk j buah gerombol, yaitu R(j) = ππ β1 /ππ . Dimana ππ β1 adalah jarak jika j buah gerombol digabungkan menjadi j-1 gerombol. Jarak ππ dapat diperoleh dari hasil perhitungan ππ = ππ β1 β ππ , dimana: ππ£ = (ππ£ πππ π β π΅πΌπΆπ£ ) 2 atau ππ£ = (2ππ£ β π΄πΌπΆπ£ ) 2, untuk v = j, j β 1
6
Banyaknya gerombol diperoleh berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio ukuran jarak untuk dua nilai terbesar dari R(j) (j = 1,2,β¦, ππππ₯ ; ππππ₯ didapatkan dari langkah pertama) dihitung dengan π
(π1 )/π
(π2 ). Jika rasio perubahan lebih besar daripada nilai batas π2 (SPSS menetapkan nilai π2 = 1.15 berdasarkan studi simulasi), banyaknya gerombol ditetapkan sama dengan π1 , selainnya banyak gerombol sama dengan maksimum ο»π1 , π2 ο½. METODOLOGI
Data Data yang digunakan dalam penelitian ini adalah data simulasi dan data riil. Data simulasi didapatkan melalui pembangkitan data dengan menggunakan perangkat lunak statistika, sedangkan data riil didapatkan dari data Podes tahun 2011 khususnya pada peubah-peubah yang menjadi kriteria kemajuan atau ketertinggalan suatu desa. Peubah-peubah tersebut dapat dilihat pada Lampiran 1. Data Podes 2011 terdiri atas 77961 objek desa/kelurahan di Indonesia. Data simulasi yang dibangkitkan merupakan data dengan kasus khusus. Data bangkitan berasal dari data yang menyebar Normal (οi , π 2 = 1) yang kemudian disebut sebagai data populasi dengan i = gerombol 1, 2, dan 3. Data populasi ini beranggotakan 3 gerombol yang saling tumpang tindih satu sama lain (overlap) atau tidak terpisah secara tegas. Peubah yang dibangkitkan merupakan peubah campuran numerik dan kategorik dengan asumsi saling bebas, model komposisi peubahnya disajikan pada Tabel 1.
Peubah V1 V2
Tabel 1 Kriteria 2 model peubah campuran Kriteria Peubah campuran dengan sebagian besar bertipe numerik (10) dan sisanya kategorik (3) Peubah campuran dengan sebagian besar bertipe kategorik (10) dan sisanya numerik (3)
Setiap peubah numerik pada gerombol 1 dibangkitkan dari sebaran yang sama, yaitu menyebar Normal (ο1 ,1), begitu pula untuk setiap peubah numerik pada gerombol 2 dibangkitkan dari sebaran yang sama, yaitu menyebar Normal (ο2 ,1) dan setiap peubah numerik pada gerombol 3 dibangkitkan dari sebaran yang sama pula, yaitu menyebar Normal (ο3 ,1). Data populasi ini diberikan pencilan dengan pencilan ditempatkan secara sistematik dengan pembagian yang sama pada setiap peubah numerik serta pada objek yang sama. Banyaknya pencilan data yang dibangkitkan terdiri atas 0%, 1%, 5%, dan 15% dari keseluruhan data bangkitan. Ukuran data (N) yang dibangkitkan terdiri atas 100, 500, dan 1000 data bangkitan. Kombinasi data simulasi pada penelitian ini dapat dilihat pada Tabel 2. Rancangan faktorial lengkap digunakan untuk mengkombinasikan berbagai kemungkinan dari setiap faktor yang dievaluasi, yaitu terdapat 24 (1x2x3x4)
7
kombinasi data. Setiap kombinasi akan diulang sebanyak 30 kali sehingga diperlukan data bangkitan untuk dianalisis sebanyak 720 gugus data. Tabel 2 Kombinasi data simulasi Model peubah campuran Ukuran data Pencilan data (%) 100 0, 1, 5, 15 V1 500 0, 1, 5, 15 1000 0, 1, 5, 15 100 0, 1, 5, 15 V2 500 0, 1, 5, 15 1000 0, 1, 5, 15 Metode Penelitian Metode Pembangkitan Data Metode pembangitan data yang ditampilkan adalah untuk model peubah campuran V1, ukuran data sebesar 500 dan banyaknya pencilan sebesar 5%. 1. Menetapkan parameter ο1 , ο2 , ο3 , ο1 , ο2 dan ο3 dimana ο1 = β6, ο2 = 0, ο3 = 6, ο1 = β70, ο2 = 70, ο3 = 90 dan ragam π 2 = 1. 2. Membangkitkan ππΓπ 1 ~N(ο1 ,1), ππΓπ 2 ~N(ο2 ,1) dan ππΓπ 3 ~N(ο3 ,1) untuk data peubah numerik gerombol 1, gerombol 2 dan gerombol 3 dengan n1 = 30% Γ N, n2 = 35% Γ N, n3 = 35% Γ N, N = 475 dan p atau jumlah peubah = 10. Setiap peubah (π₯1 ,β¦,π₯10 ) dari gerombol 1 memiliki sebaran yang sama, yaitu N(ΞΌ1,1), begitu pula untuk setiap peubah (π₯1 ,β¦,π₯10 ) dari gerombol 2 Tabel 3 Pembangkitan ukuran data gerombol dan proporsi pencilan N=100 N=500 N=1000 n1 =30, n1 =150, n1 =300, n2 =35, n2 =175, n2 =350, Pencilan Kelompok n3 =35 n3 =175 n3 =350 n n* n n* n n* 1 30 0 150 0 300 0 0% 2 35 0 175 0 350 0 3 35 0 175 0 350 0 1 30 0 148 2 297 3 1% 2 35 0 173 2 346 4 3 35 0 173 2 346 4 1 28 2 142 8 285 15 5% 2 33 2 166 9 332 18 3 33 2 166 9 332 18 1 25 5 127 23 255 45 15% 2 30 5 149 26 297 53 3 30 5 149 26 297 53 n1 = 30% Γ N, n2 = 35% Γ N, n3 = 35% Γ N; n: jumlah amatan, n*: jumlah amatan pencilan.
8
3.
4.
memiliki sebaran yang sama, yaitu N(ΞΌ2,1) dan setiap peubah (π₯1 ,β¦,π₯10 ) dari gerombol 3 memiliki sebaran yang sama pula, yaitu N(ΞΌ3,1). Lalu menggabungkan data peubah yang sama dari setiap gerombol menjadi satu gugus data peubah tersebut. Lebih jelasnya dapat dilihat pada Tabel 3. Membangkitkan ππΓπ 1 ~N(ο1 ,1), ππΓπ 2 ~N(ο2 ,1) dan ππΓπ 3 ~N(ο3 ,1) sebagai sumber data peubah kategorik gerombol 1, gerombol 2 dan gerombol 3 dengan n1 = 30% Γ N, n2 = 35% Γ N, n3 = 35% Γ N, N = 500 dan p = 3 seperti pada Tabel 3. Mentrasformasi data Y yang diperoleh dari langkah 3 menjadi data bertipe kategorik seperti ditunjukkan pada Tabel 4. Cara ini hanyalah salah satu cara metode membuat data peubah kategorik.
Peubah Kategori π11 π12
π13
Tabel 4 Kriteria nilai transformasi untuk peubah kategorik Kriteria nilai transformasi peubah Y keJumlah Nilai Kategori Kategori 1 2 3 1 x > -6 x>0 x>6 2 Kategori 2 x β€ -6 xβ€0 xβ€6 1 x > -4 x>2 x>8 2 -8 < x β€ -4 -2 < x β€ 2 4<xβ€8 3 Kategori 3 x β€ -8 x β€ -2 xβ€4 1 x > -4 x>2 x>8 2 -6 < x β€ -4 0<xβ€2 6<xβ€8 4 Kategori 3 -8 < x β€ -6 -2 < x β€ 0 4<xβ€6 4 x β€ -8 x β€ -2 xβ€4
Membangkitkan ππΓπ 1 ~N(ο1 ,1), ππΓπ 2 ~N(ο2 ,1) dan ππΓπ 3 ~N(ο3 ,1) sebagai data pencilan 5% untuk gerombol 1, gerombol 2 dan gerombol 3 dengan n1 = 30% Γ N, n2 = 35% Γ N, n3 = 35% Γ N, N = 25, dan p = 10 seperti ditunjukkan pada Tabel 3. 6. Menggabungkan data gerombol 1 beserta pencilannya, gerombol 2 beserta pencilannya dan data gerombol 3 beserta pencilannya ke dalam 1 gugus data dengan pencilan ditempatkan secara sistematik dengan pembagian yang sama pada setiap peubah numerik serta pada objek yang sama. 7. Melakukan uji pencilan univariat terhadap data bangkitan peubah numerik beserta pencilannya dengan melihat nilai baku Z data {Z = (x - Β΅) / Ο}. Suatu data dikatakan data pencilan jika memiliki nilai baku Z lebih besar dari 3 atau kurang dari -3 (Hair et al. 2010). 8. Melakukan penggerombolan dengan metode penggerombolan dua tahap dengan membandingkan nilai penanganan pencilan sebesar 1%, 5% dan 15%, serta tanpa melakukan penanganan pencilan atau 0%. 9. Mengulangi langkah 1-8 sebanyak 30 kali ulangan. 10. Mengukur tingkat keakuratan algoritma penggerombolan dua tahap dalam mendeteksi banyaknya gerombol sebenarnya. Tingkat keakuratan (A) didefinisikan sebagai persentase jumlah percobaan yang menghasilkan banyaknya gerombol yang sama dengan gerombol sebenarnya, yaitu A = ππ Γ 100%, dengan ππ bernilai 1 bila banyaknya gerombol yang dihasilkan π 5.
9
sama dengan banyaknya gerombol sebenarnya dan bernilai 0 jika selainnya dan N adalah banyaknya ulangan percobaan, yaitu sebanyak 30 ulangan. 11. Melakukan perhitungan tingkat salah klasifikasi dari anggota gerombol, yaitu total persentase semua objek yang berasal dari suatu gerombol namun teridentifikasi sebagai anggota gerombol lain pada proses penggerombolan. Hal ini diilustrasikan pada Tabel 5. Tabel 5 Ilustrasi salah klasifikasi Keanggotaan pada populasi yang sebenarnya Hasil penggerombolan Populasi 1 Populasi 2 Gerombol-1 π1 π2 Gerombol-2 π3 π4 Salah klasifikasi pada 2 gerombol adalah (π2 + π3 ) / (π1 + π2 + π3 + π4 ) 12. Mengulangi langkah 1-12 untuk setiap kombinasi data simulasi (Tabel 2) dengan jumlah data dan jumlah pencilan disajikan pada Tabel 2. Diagram alir (flowchart) metode pembangkitan data dapat dilihat pada Lampiran 2. Penerapan pada Data Riil Berikut adalah langkah-langkah untuk penerapan pada data riil. 1. Melakukan standarisasi peubah numerik ke bentuk baku Z. 2. Melakukan pemeriksaan hubungan antar peubah. Peubah numerik menggunakan nilai korelasi Pearson, sedangkan untuk peubah kategorik menggunakan uji khi-kuadrat. 3. Melakukan pereduksian peubah, yaitu memilih peubah yang saling bebas dari setiap peubah numerik dan kategorik. 4. Melakukan penggerombolan dua tahap terhadap peubah yang sudah direduksi dengan menggunakan ukuran jarak Log-likelihood, kriteria penggerombolan BIC dan menggunakan penanganan pencilan sebesar 15%. 5. Menjelaskan karakteristik dari setiap gerombol optimal yang terbentuk. Taraf nyata (Ξ±) yang digunakan adalah sebesar 5%. Diagram alir metode penggerombolan dua tahap penerapan pada data riil dapat dilihat pada Lampiran 3.
HASIL DAN PEMBAHASAN
Kajian pada Kasus Data Khusus Data khusus yang dikaji dalam metode penggerombolan dua tahap ini adalah data populasi yang mengandung pencilan dengan pencilan ditempatkan secara sistematik dengan pembagian yang sama pada setiap peubah numerik serta pada objek yang sama, dan setiap peubah numerik pada setiap gerombol dibangkitkan dari sebaran yang sama untuk masing-masing gerombol.
10
Tabel 6 Persentase salah banyaknya gerombol yang dihasilkan dengan banyaknya gerombol populasi sebenarnya Penanganan N = 100 N = 500 N = 1000 Pencilan Pencilan (kecil) (sedang) (besar) (%) V1 (%) V2 (%) V1 (%) V2 (%) V1 (%) V2 (%) (%) 1 0 90 0 87 0 90 5 0 90 0 87 0 90 0 15 0 90 0 93 0 87 0 0 90 0 87 0 90 1 0 90 100 83 100 77 5 0 90 100 83 87 77 1 15 0 90 83 83 60 80 0 0 90 100 83 100 77 1 100 67 100 93 100 93 5 100 67 100 93 100 97 5 15 100 67 90 87 100 83 0 100 67 100 93 100 93 1 3 67 37 93 90 97 5 3 67 37 93 90 97 15 15 3 67 70 77 100 83 0 3 67 37 93 90 97 V1: peubah campuran sebagian besar bertipe numerik (10) dan sisanya kategorik (3), V2: peubah campuran sebagian besar bertipe kategorik (10) dan sisanya numerik (3).
Tabel 7 Persentase salah klasifikasi gerombol yang dihasilkan dengan gerombol populasi sebenarnya Penanganan N = 100 N = 500 N = 1000 Pencilan Pencilan (kecil) (sedang) (besar) (%) V1 (%) V2 (%) V1 (%) V2 (%) V1 (%) V2 (%) (%) 1 0.0 51.0 0.0 54.1 0.0 68.3 5 0.0 51.0 0.0 54.1 0.0 68.3 0 15 0.0 51.0 0.0 55.9 0.0 67.4 0 0.0 51.0 0.0 54.1 0.0 68.3 1 0.0 51.0 65.0 65.7 65.0 65.0 5 0.0 51.0 65.0 65.7 52.3 65.0 1 15 0.0 51.0 51.7 69.3 38.9 76.2 0 0.0 51.0 65.0 65.8 65.0 65.0 1 65.0 62.1 65.0 64.2 62.1 64.7 5 65.0 62.1 65.0 64.2 62.1 64.7 5 15 65.0 62.1 68.1 66.1 62.1 73.1 0 65.0 62.1 65.0 64.9 62.1 64.8 1 55.4 62.8 61.8 64.5 62.8 64.5 5 55.4 62.8 61.8 64.5 62.8 64.5 15 15 55.4 62.8 66.1 67.6 62.8 67.0 0 55.4 62.9 61.8 64.6 62.9 64.6 V1: peubah campuran sebagian besar bertipe numerik (10) dan sisanya kategorik (3), V2: peubah campuran sebagian besar bertipe kategorik (10) dan sisanya numerik (3).
11
Tabel 6 memperlihatkan persentase salah banyaknya gerombol yang dihasilkan dari metode penggerombolan dua tahap dengan banyaknya gerombol populasi sebenarnya. Selanjutnya Tabel 7 memperlihatkan persentase salah klasifikasi gerombol yang dihasilkan dari metode penggerombolan dua tahap dengan gerombol populasi sebenarnya. Tabel 6 dan Tabel 7 membuktikan beberapa kesimpulan dari penggunaan metode penggerombolan dua tahap pada kasus data khusus tersebut. Pertama, pada data yang mengandung pencilan kecil, penggunaan metode penggerombolan dua tahap memberikan hasil yang lebih akurat dibandingkan dengan data yang mengandung pencilan besar. Kedua, pada data yang tidak mengandung pencilan khususnya pada peubah kriteria penggerombolan yang sebagian besar bertipe numerik dan sisanya kategorik, metode ini memberikan hasil yang sangat akurat, sedangkan pada peubah yang sebagian besar bertipe kategorik dan sisanya numerik memberikan hasil yang tidak akurat. Ketiga, disebabkan karena pencilan ditempatkan secara sistematik pada setiap peubah dengan pembagian yang sama serta pada objek yang sama maka metode ini dalam melakukan penggerombolannya akan mendeteksi objek pencilan sebagai suatu gerombol yang terpisah atau sebagai suatu gerombol pencilan atau bahkan keduanya. Keempat, secara umum metode ini kurang akurat ketika menangani peubah penggerombolan yang sebagian besar bertipe kategorik dan sisanya numerik. Kelima, apabila salah banyaknya gerombol yang dihasilkan tinggi maka salah klasifikasi keanggotaan gerombol cenderung tinggi pula. Terakhir, apabila data mengandung pencilan maka besaran penanganan pencilan yang digunakan harus lebih besar daripada pencilannya itu sendiri. Penerapan pada Data Riil Deskripsi Data Desa/kelurahan di Indonesia terdiri atas 77961 desa. Dari data Podes tahun 2011 yang merupakan faktor kemajuan dan ketertinggalan suatu desa, terdapat data pencilan sebesar 1%. Di samping itu, sebagian besar peubah kriteria penggerombolannya bertipe numerik dan sisanya bertipe kategorik. Pereduksian Peubah Pereduksian peubah dilakukan untuk memilih peubah-peubah yang saling bebas. Langkah ini dilakukan dengan cara memeriksa hubungan antar peubah. Peubah numerik menggunakan nilai korelasi Pearson, sedangkan untuk peubah kategorik menggunakan uji khi-kuadrat. Khusus untuk peubah numerik dilakukan standarisasi ke bentuk baku (Z) terlebih dahulu. Dari 52 peubah terpilihlah 23 peubah yang saling bebas yang terdiri dari 21 peubah numerik dan 2 peubah kategorik. Faktor alam dan lingkungan diwakili oleh peubah π2 , faktor kelembagaan diwakili oleh peubah π5 , faktor sarana, prasarana dan akses diwakili oleh peubah π8 , π10 , π12 , π15 , π24 , π25 , π26 , π27 , π28 , π31 , π32 , dan π33 , serta faktor sosial ekonomi penduduk diwakili oleh peubah π35 , π41 , π42 , π43 , π47 , π48 , π50 , π51 , dan π52 .
12
Penggerombolan dengan Metode Penggerombolan Dua Tahap Metode penggerombolan dua tahap dilakukan terhadap 23 peubah terpilih yang saling bebas. Ukuran jarak yang digunakan adalah jarak Log-likelihood karena data yang digunakan bertipe campuran dari numerik dan kategorik. Penentuan banyaknya gerombol menggunakan kriteria penggerombolan BIC karena memiliki sifat koreksi terhadap ukuran data (N). Serta menggunakan penanganan pencilan sebesar 15%. Tabel 8 menunjukkan bahwa nilai rasio perubahan BIC yang pertama kali lebih kecil dari batas nilai konstanta π1 = 0.040 ada pada solusi 12 gerombol, yaitu 0.039. Hal ini dapat disimpulkan bahwa jumlah gerombol maksimum yang dihasilkan pada tahap pertama sebanyak 12 gerombol. Tabel 8 Penggerombolan dua tahap dengan kriteria penggerombolan BIC Gerombol 1 2 3 4 5 6 7 8 9 10 11 12 13 14
BIC 166072.925 135960.748 115855.692 105561.156 97647.348 92507.030 87709.085 85384.926 83227.250 81248.288 79348.576 78171.091 78056.911 78180.522
Perubahan BIC -30112.176 -20105.056 -10294.536 -7913.808 -5140.318 -4797.944 -2324.159 -2157.676 -1978.962 -1899.712 -1177.485 -114.180 123.611
Rasio Perubahan BIC 1.000 .668 .342 .263 .171 .159 .077 .072 .066 .063 .039 .004 -.004
Rasio Ukuran Jarak 1.486 1.911 1.284 1.494 1.065 1.883 1.063 1.073 1.033 1.437 2.798 1.673 1.137
Pada jumlah gerombol yang kurang dari jumlah gerombol maksimum (12), nilai rasio perubahan gerombol untuk dua nilai rasio ukuran jarak (R(j)) yang terbesar, terdapat pada solusi 3 gerombol (R(j) = 1.911) dan 7 gerombol (R(j) = 1.883). Rasio kedua nilai ini sebesar 1.015 dan lebih kecil dari batas nilai konstanta π2 = 1.15. Dengan demikian, 7 gerombol merupakan solusi optimal. Pendistribusian desa/kelurahan di setiap gerombol dapat dilihat pada Tabel 9.
Ket Jumlah Prs (%)
Tabel 9 Distribusi hasil penggerombolan Gerombol 1 2 3 4 5 6 7 Pencilan Total 16024 5349 4729 5981 19959 21395 3434 1090 77961 20.6 6.9 6.1 7.7 25.6 27.4 4.4 1.4 100.0
Ket: keterangan, Prs: persentase
13
Karakteristik Gerombol Desa/Kelurahan Karakteristik setiap gerombol dapat dijelaskan melalui data frekuensi peubah kategorik (Tabel 10), grafik tingkat kepentingan uji khi-kuadrat untuk peubah kategorik (Gambar 1 dan 2), grafik tingkat kepentingan uji-t untuk peubah numerik (Lampiran 4) dan tingkat rataan nilai peubah numerik (Lampiran 5). Gerombol pencilan atau gerombol desa/kelurahan terpencil tidak dapat dikatakan sebagai gerombol optimal. Hal ini disebabkan karena anggota didalamnya merupakan desa/kelurahan yang memencil dan tidak dapat dimasukkan ke dalam gerombol optimal yang terbentuk, yaitu gerombol akhir yang memiliki kemiripan karakteristik antar anggotanya. Tabel 10 menunjukkan bahwa gerombol yang maju dalam faktor alam dan lingkungan adalah gerombol 6, sedangkan yang tertinggal adalah gerombol 7. Kemudian gerombol yang maju dalam faktor kelembagaan adalah gerombol 6, sedangkan yang tertinggal adalah gerombol 4. Tabel 10 Frekuensi dan persentase peubah kategorik pada setiap gerombol π2 π5 Gerombol 1 (Ada) 2 (Tidak Ada) 1 (Ada) 2 (Tidak Ada) Jmlh Prs (%) Jmlh Prs (%) Jmlh Prs (%) Jmlh Prs (%) 1 1 0.0 16023 21.7 16014 22.5 10 0.1 2 261 6.3 5088 6.9 4933 6.9 416 6.2 3 11 0.3 4718 6.4 4706 6.6 23 0.3 4 354 8.6 5627 7.6 16 0.0 5965 88.6 5 0 0.0 19959 27.0 19959 28.0 0 0.0 6 0 0.0 21395 29.0 21395 30.0 0 0.0 7 3434 83.3 0 0.0 3434 4.8 0 0.0 Pencilan (-1) 59 1.4 1031 1.4 774 1.1 316 4.7 Total 4120 100.0 73841 100.0 71231 100.0 6730 100.0 Jmlh: jumlah, Prs: persentase
Peubah mana saja yang berpengaruh terhadap pembentukan setiap gerombol, dapat dilihat melalui grafik tingkat kepentingan masing-masing peubah pada setiap gerombol. Apabila terdapat peubah yang memiliki statistik uji lebih besar dari nilai kritis (garis lurus vertikal) maka peubah tersebut berpengaruh terhadap pembentukan gerombol yang dimaksud. Gambar 1 memperlihatkan bahwa gerombol yang pembentukannya dipengaruhi oleh peubah π2 adalah gerombol 1, 5, 6 dan 7. Kemudian Gambar 2 memperlihatkan bahwa gerombol yang pembentukannya dipengaruhi oleh peubah π5 adalah gerombol 1, 3, 4, 5, 6 dan 7.
14
Gambar 1 Grafik tingkat kepentingan peubah kategorik π2 pada setiap gerombol
Gambar 2 Grafik tingkat kepentingan peubah kategorik π5 pada setiap gerombol Tabel 11 menunjukkan peubah numerik yang berpengaruh terhadap pembentukan setiap gerombol yang ditandai dengan rentang nilai peubahnya, sedangkan yang tidak berpengaruh ditandai dengan keterangan βTBβ. Lampiran 5 memperlihatkan bahwa gerombol pencilan memiliki tingkat rataan peubah numerik yang cenderung tinggi dibandingkan dengan gerombol lainnya. Peubah atau ciri kuat pada gerombol 1 hanya terdapat pada 2 peubah, yaitu peubah π35 dan π48 dan ciri lemahnya terdapat pada peubah π8 dan π10 . Gerombol 2 memiliki tingkat rataan peubah numerik yang cenderung tinggi kecuali pada peubah π8 dan π10 . Faktor sarana, prasarana dan akses maupun faktor sosial ekonomi penduduk adalah cenderung sama untuk gerombol 3, 4 dan
15
Peubah X 8 (108 km) X10 (108 km) X12 (unit) X15 (orang) X 24 (unit) X 25 (unit) X 26 (unit) X 27 (unit) X 28 (unit) X 31 (unit) X 32 (unit) X 33 (unit) X 35 (kel) X 41 (kel) X 42 (kel) X 43 (kel) X 47 (orang) X 48 (orang) X 50 (kel) X 51 (lmbg) X 52 (lokasi)
Tabel 11 Rentang nilai pada setiap peubah numerik Gerombol 1 2 3 4 5 6 0.1β3.0 0.1β9.998
0.1β3.328 0.1β12.07
0β23 0β73 0β32 0β7 0β5 0β2 0β25 0β1187 0β42 0β13 0β5322 TB 0β230 TB 0β71 0β12401 0β3572 0β11 0β3
0β26 0β116 0β42 0β10 0β6 TB 0β38 0β1141 0β67 0β23 0β5896 0β1004 0β300 0β1124 0β123 0β14496 0β5494 0β98 0β3
TB 0.1β9.999 0β12 0β74 0β35 TB TB 0β6 0β30 0β300 0β52 0β10 TB TB 0β225 0β860 0β73 0β6399 0β3416 0β26 TB
0.1β2.5 0.1β9.999 0β17 0β122 0β39 0β13 0β5 0β2 0β26 0β577 0β52 0β17 0β2223 TB TB 0β941 TB TB 0β5585 TB 0β3
0.1β5.53 0.1β13.15 0β7 0β34 0β30 0β6 0β2 TB 0β7 0β224 0β19 0β13 0β1000 0β512 0β118 0β312 0β58 0β2126 0β1070 0β14 0β3
0β1.12 0.1β4.25
0β6 0β32 0β23 0β6 0β2 TB 0β12 0β235 0β35 0β15 0β809 0β614 0β160 0β675 0β42 0β2086 0β3426 0β10 0β3
7 0β1.9 0.1β9.998 0β14 TB 0β36 0β6 0β4 0β1 0β25 0β577 0β53 0β12 0β2282 TB TB TB TB 0β5733 0β3568 0β19 0β3
TB: tidak berpengaruh, kel: keluarga, lmbg: lembaga.
7, yaitu bukan merupakan ciri kuat maupun ciri lemah atau berada dipertengahan. Kecuali pada peubah π27 yang masuk ke dalam ciri kuat dan peubah π47 yang masuk ke dalam ciri lemah untuk gerombol 3, dan peubah π25 dan π50 yang masuk ke dalam ciri kuat dan peubah π35 yang masuk ke dalam ciri lemah untuk gerombol 4. Peubah atau ciri kuat gerombol 5 hanya terdapat pada 2 peubah, yaitu peubah π8 dan π10 , sedangkan peubah lainnya masuk ke dalam ciri lemah. Gerombol 6 tidak memiliki peubah atau ciri kuat karena sebagian besar peubah cenderung masuk ke dalam ciri lemah. Lampiran 6 memperlihatkan hasil akhir dari karakteristik setiap gerombol yang terbentuk. Gerombol satu merupakan gerombol desa/kelurahan yang maju dalam faktor alam dan lingkungan; faktor kelembagaan; serta memiliki jarak kantor desa dengan kantor camat dan dengan kantor bupati/walikota lain terdekat yang tidak jauh. Akan tetapi merupakan gerombol desa/kelurahan yang memiliki jumlah keluarga pertanian dan jumlah warga penerima kartu JAMKESMAS/ JAMKESDA selama tahun 2010 yang tinggi. Gerombol dua merupakan gerombol desa/kelurahan yang maju dalam faktor sarana, prasarana dan akses. Akan tetapi merupakan gerombol desa/kelurahan yang tertinggal dalam faktor sosial ekonomi penduduk. Gerombol tiga merupakan gerombol desa/kelurahan yang tidak maju maupun tidak tertinggal pada semua faktor kemajuan maupun ketertinggalan suatu desa yang mempengaruhinya. Akan tetapi merupakan gerombol desa/kelurahan yang memiliki jumlah Koperasi Unit Desa (KUD) yang masih aktif yang tinggi dan memiliki jumlah penderita gizi buruk selama 3 tahun terakhir yang rendah. Gerombol empat merupakan gerombol desa/kelurahan yang tertinggal dalam faktor kelembagaan dan memiliki jumlah keluarga yang berlangganan telepon kabel yang tinggi. Akan tetapi merupakan gerombol desa/kelurahan yang
16
memiliki jumlah bank umum yang tinggi dan memiliki jumlah keluarga pertanian yang rendah. Gerombol lima merupakan gerombol desa/kelurahan yang maju dalam faktor alam dan lingkungan; faktor kelembagaan; dan faktor sosial ekonomi penduduk. Akan tetapi merupakan gerombol desa/kelurahan yang tertinggal dalam faktor sarana, prasarana dan akses. Gerombol enam merupakan gerombol desa/kelurahan yang maju dalam faktor alam dan lingkungan; faktor kelembagaan; dan faktor sosial ekonomi penduduk. Akan tetapi merupakan gerombol desa/kelurahan yang tertinggal dalam faktor sarana, prasarana dan akses. Di samping itu, kondisi faktor sarana, prasarana dan akses gerombol enam lebih maju dibandingkan gerombol lima dan kondisi faktor sosial ekonomi penduduk gerombol enam lebih rendah dibandingkan gerombol lima. Gerombol tujuh merupakan gerombol desa/kelurahan yang tertinggal dalam faktor alam dan lingkungan.
KESIMPULAN DAN SARAN
Kesimpulan Penggunaan metode penggerombolan dua tahap pada kasus data khusus yaitu pada data yang mengandung pencilan dengan pencilan ditempatkan secara sistematik pada setiap peubah numerik, dan setiap peubah numerik dibangkitkan dari sebaran yang sama untuk masing-masing gerombol memberikan beberapa kesimpulan, diantaranya pada data yang mengandung pencilan kecil (1%) metode ini memberikan hasil yang lebih akurat dibandingkan dengan data yang mengandung pencilan besar (5% atau 15%). Penggunaan besaran penanganan pencilan pada data yang mengandung pencilan harus lebih besar daripada besaran pencilannya itu sendiri. Algoritma metode penggerombolan dua tahap menyediakan perhitungan untuk peubah bertipe kategorik sehingga mempermudah melakukan penggerombolan pada peubah bertipe kategorik maupun campuran dari numerik dan kategorik. Akan tetapi, metode ini kurang akurat apabila menangani peubah campuran yang sebagian besar bertipe kategorik dan sisanya numerik. Metode penggerombolan dua tahap sangat akurat dalam menghasilkan banyaknya gerombol yang sesuai dengan banyaknya gerombol sebenarnya pada data yang tidak mengandung pencilan khususnya pada peubah penggerombolan yang sebagian besar bertipe numerik dan sisanya kategorik. Secara umum apabila salah banyaknya gerombol yang dihasilkan tinggi, maka salah klasifikasi keanggotaan gerombol cenderung tinggi pula. Penggerombolan Desa/Kelurahan di Indonesia berdasarkan faktor kemajuan dan ketertinggalan suatu desa dengan metode penggerombolan dua tahap menghasilkan 7 gerombol akhir/optimal.
Saran Saran untuk penelitian selanjutnya adalah mengkaji metode penggerombolan dua tahap untuk data yang mengandung pencilan dengan
17
pencilan ditempatkan secara random pada keseluruhan data dan tidak secara sistematik pada setiap peubah dan objek, serta setiap peubah numerik pada setiap gerombol dibangkitkan dari sebaran yang berbeda, yaitu dengan sebaran Normal Ganda dengan nilai tengah dan ragam yang berbeda.
DAFTAR PUSTAKA Bacher J, Wenzig K, Vogler M. 2004. SPSS two step cluster β a first evaluation. RC33 Sixth International Conference on Social Science Methodology: Recent Developments and Applications on Social Science Research Methodology [Internet]. [diunduh 18 Mei 2012]; Amsterdam, Netherlands. Tersedia pada http://www.statisticalinnovations.com/products/Two Step. pdf. Chiu T, Fang D, Chen J, Wang Y., and Jeris C. 2001. A robust and scalable clustering algorithm for mixed type attributes in large database environment. Di dalam: Doheon Lee, Mario Schkolnick, Foster J Provost, Ramakrishnan Srikant. Proceedings of the 7th ACM SIGKDD International Confererence on Knowledge Discovery and Data Mining (KDD-2001); 2001 Agus 26-29; San Francisco, United States. New York (US): ACM Press. hlm 263-264. Garson DG. 2012. Cluster Analysis. Blue Book Series. North Carolina (US): North Carolina State University. Hair J.F.Jr, R.E. Anderson, B.J. Babin, & W.C. Black. 2010. Multivariate Data Analysis. Volume ke-7. New Jersey (US): Prentice-Hall. Johnson RA, Wichern DW. 2002. Applied Multivariate Statistical Analysis. Volume ke-6. New Jersey (US): Prentice-Hall. Kudsiati. 2006. Pengkajian keakuratan TwoStep Cluster dalam menentukan banyaknya gerombol populasi [tesis]. Bogor (ID): Institut Pertanian Bogor. Li H, Sun J. 2011. Mining business failure predictive knowledge using two-step clustering. AJBM. 5(11):4107-4120. Norusis MJ. 2004. SPSS 19.0 Statistical Procedures Companion. Upper Saddle River, NJ (US): Prentice-Hall. hlm 375-404. Rencher CA. 2002. Methods of Multivariate Analysis. Volume ke-2. New York (US): John Wiley & Sons Inc. Schiopu, D. 2010. Applying two step cluster analysis for identifying bank customersβ profile. EI-TC. 62(3):66-75. SPSS Inc. 2001. The SPSS twostep cluster component. A scalable component to segment your customers more effectively. White paper β technical report [Internet]. [diunduh 18 Mei 2012]; Chicago. Tersedia pada http://www.spss. ch/upload/1122644952_The%20SPSS%20TwoStep%20Cluster%20Compo nent.pdf Zhang T, Ramakrishnan R, Livny M. 1996. BIRCH: An efficient data clustering method for very large databases. Di dalam: HV Jagadish, Inderpal Singh Mumick, editor. Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data; 1996 Jun 4-6; Montreal, Canada. New York (US): ACM Press. hlm 103-114.
18
Lampiran 1 Daftar peubah penggerombolan sebelum dilakukan pereduksian Kategori Faktor alam dan lingkungan Faktor kelembagaan
Faktor sarana, prasarana dan akses
Kode X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 X26 X27 X28 X29 X30 X31 X32 X33 X34 X35 X36 X37 X38 X39 X40 X41 X42
Faktor sosial ekonomi penduduk
X43 X44 X45 X46 X47 X48 X49 X50 X51 X52
Peubah Jumlah penduduk pada Januari 2011 Keberadaan bencana gempa bumi selama 3 tahun terakhir Lokasi desa/kelurahan terhadap kawasan hutan Status pemerintahan Keberadaan Badan Perwakilan Desa/Dewan Kelurahan Keberadaan Satuan Lingkungan Setempat (SLS) terkecil di bawah desa/kelurahan Keberadaan dan lokasi kantor kepala desa (lurah) Jarak kantor desa dengan kantor camat Jarak kantor desa dengan kantor bupati/walikota Jarak kantor desa dengan kantor bupati/walikota lain terdekat Ketersediaan penerangan di jalan utama desa/kelurahan Jumlah sarana pendidikan negeri Jumlah sarana pendidikan swasta Jumlah sarana kesehatan Jumlah tenaga kesehatan yang menetap di desa/kelurahan Ketersediaan telepon umum koin/ kartu yang masih aktif Ketersediaan Base Transcelver Station (BTS)/ menara telepon Kondisi sinyal telepon seluler/hand phone Ketersediaan Wartel/ kiospon/ warpostel/ warparpostel Ketersediaan Warung internet (Warnet) Ketersediaan Kantor Pos/ Pos Pembantu/ rumah pos Ketersediaan Kelompok Pertokoan Ketersediaan Pasar dengan bangunan permanen/ semi permanen Jumlah Minimarket Jumlah Bank Umum Jumlah Bank Perkreditan Rakyat (BPR) Jumlah Koperasi Unit Desa (KUD) yang masih aktif Jumlah Koperasi Non KUD yang masih aktif Ketersediaan perlengkapan keselamatan bencana alam Jumlah tempat beribadah Jumlah industri kecil dan mikro Jumlah restoran/rumah makan Jumlah hotel Keberadaan pos polisi Jumlah keluarga pertanian Sumber penghasilan utama sebagian besar penduduk Jumlah keluarga pengguna listrik PLN Bahan bakar memasak yang digunakan sebagian besar keluarga Tempat buang sampah sebagian besar keluarga Tempat buang air besar sebagian besar keluarga Jumlah keluarga yang tinggal di bantaran sungai Jumlah keluarga yang tinggal di bawah Saluran Udara Tegangan Ekstra Tinggi (SUTET) Jumlah keluarga yang tinggal di pemukiman kumuh Adanya pencemaran air selama setahun terakhir Adanya pencemaran tanah selama setahun terakhir Adanya pencemaran udara selama setahun terakhir Jumlah penderita gizi buruk selama 3 tahun terakhir Jumlah warga penerima kartu JAMKESMAS/JAMKESDA selama tahun 2010 Sumber air untuk minum/memasak sebagian besar keluarga Jumlah keluarga yang berlangganan telepon kabel Jumlah lembaga non-profit Jumlah lokasi berkumpul anak jalanan
Keterangan Numerik 2 Kategori 3 Kategori 2 Kategori 2 Kategori 10 Kategori 3 Kategori Numerik Numerik Numerik 2 Kategori Numerik Numerik Numerik Numerik 2 Kategori 2 Kategori 3 Kategori 2 Kategori 2 Kategori 2 Kategori 2 Kategori 2 Kategori Numerik Numerik Numerik Numerik Numerik 2 Kategori Numerik Numerik Numerik Numerik 2 Kategori Numerik 7 Kategori Numerik 5 Kategori 5 Kategori 5 Kategori Numerik Numerik Numerik 2 Kategori 2 Kategori 2 Kategori Numerik Numerik 8 Kategori Numerik Numerik Numerik
19
Lampiran 2 Diagram alir metode pembangkitan data Mulai Menetapkan parameter ο1 , ο2 , ο3 , ο1 , ο2 dan ο3 Membangkitkan ππΓπ 1 ~N(ο1 ,1), ππΓπ 2 ~N(ο2 ,1) dan ππΓπ 3 ~N(ο3 ,1) Menggabungkan data peubah yang sama dari setiap gerombol menjadi gugus data peubah tsb Membangkitkan ππΓπ 1 ~N(ο1 ,1), ππΓπ 2 ~N(ο2 ,1) dan ππΓπ 3 ~N(ο3 ,1) Mentrasformasi data Y menjadi data bertipe kategorik Membangkitkan ππΓπ 1 ~N(ο1 ,1), ππΓπ 2 ~N(ο2 ,1) dan ππΓπ 3 ~N(ο3 ,1) Menggabungkan data gerombol 1 beserta pencilannya, data gerombol 2 beserta pencilannya dan data gerombol 3 beserta pencilannya kedalam satu gugus data
Melakukan uji pencilan univariat terhadap data peubah numerik beserta pencilannya
Data memiliki nilai baku Z > 3 atau < -3
Diulang 30 kali
Tidak
Data bukan merupakan pencilan
Selesai
Ya Data merupakan pencilan
Melakukan Penggerombolan Dua Tahap dengan membandingkan nilai penanganan pencilan sebesar 1%, 5% dan 15%, serta tanpa melakukan penanganan pencilan atau 0%
Mengukur tingkat keakuratan algoritma Penggerombolan Dua Tahap dalam mendeteksi banyaknya gerombol sebenarnya
Banyaknya gerombol yang dihasilkan sama dengan banyaknya gerombol sebenarnya
Ya ππ bernilai 1
NB: Bersambung ke halaman selanjutnya
Tidak ππ bernilai 0
20
Bersambung ke halaman ini Melakukan perhitungan tingkat salah klasifikasi dari anggota gerombol
Objek berasal dan teridentifikasi pada gerombol yang sama
Ya Tidak salah klasifikasi Selesai
Tidak Salah Klasifikasi
21
Lampiran 3 Diagram alir metode penggerombolan dua tahap pada data riil Mulai Melakukan standarisasi peubah numerik ke bentuk baku Z
Melakukan pemeriksaan hubungan antar peubah.
Peubah saling bebas
Tidak
Ya
Direduksi
Selesai
Melakukan Penggerombolan Dua Tahap
Menjelaskan karakteristik dari setiap gerombol optimal yang terbentuk
Selesai
22
Lampiran 4 Grafik tingkat kepentingan peubah numerik pada setiap gerombol
Peubah
X51
X50
X48
X47
X43
X42
X33
X32
X31
X28
X27
X24
X15
X12
X10
Tingkat X8 X10 X12 X15 X24 X25 X26 X28 X31 X32 X33 X35 X41 X42 X43 X47 X48 X50 X51 X52
Tingkat
X52
X51
X50
X48
X47
X42
X35
X33
X32
X31
X28
X27
X26
X25
X24
X15
X12
X10
X8
Tingkat
X8 X10 X12 X15 X24 X25 X26 X27 X28 X31 X32 X33 X41 X42 X43 X47 X48 X50 X51 X52
Tingkat
23
Lampiran 5 Tingkat rataan nilai peubah numerik pada setiap gerombol Gerombol Pencilan
8 7 6 5 4 3 2 1
Peubah
Gerombol 1
8
6
4
2
0
Peubah
Gerombol 2
8
6
4
2
0
Peubah
Gerombol 3
8
6
4
2
0
Peubah
X52
X51
X50
X48
X35
X33
X32
X31
X28
X27
X26
X25
X24
X12
X10
X8
Tingkat X8 X10 X12 X15 X24 X25 X26 X27 X28 X31 X32 X33 X35 X41 X42 X43 X47 X48 X50 X51 X52
Tingkat
X8 X10 X12 X15 X24 X25 X26 X28 X31 X32 X33 X35 X41 X42 X43 X47 X48 X50 X51 X52
TTingkat
X52
X50
X43
X35
X33
X32
X31
X28
X27
X26
X25
X24
X15
X12
X10
X8
Tingkat
24
Gerombol 4
8
6
4
2
0
Peubah
Gerombol 5
8
6
4
2
0
Peubah
Gerombol 6
8
6
4
2
0
Peubah
Gerombol 7
8
6
4
2
0
25
Lampiran 6 Karakteristik pada setiap gerombol Gerombol 1
Faktor Alam dan Lingkungan Maju
Faktor Kelembagaan
Faktor Sarana, Prasarana dan Akses
Maju
2 3
Lain-lain Jarak kantor desa dengan kantor camat dan bupati/walikota tidak jauh dan jumlah keluarga pertanian & warga penerima kartu JAMKESMAS/ JAMKESDA selama tahun 2010 tinggi.
Maju
4
Faktor Sosial Ekonomi Penduduk
Tertinggal Jumlah KUD yang masih aktif tinggi dan jumlah penderita gizi buruk selama 3 tahun terakhir rendah. Jumlah keluarga berlangganan telepon kabel dan jumlah bank umum tinggi dan jumlah keluarga pertanian rendah.
Tertinggal
5
Maju
Maju
Tertinggal
6
Maju
Maju
Tertinggal (lebih baik dari gerombol 5)
7
Tertinggal
Maju (lebih baik dari gerombol 6) Maju
26
RIWAYAT HIDUP Penulis bernama Arni Nurwida dan dilahirkan di Jakarta pada tanggal 31 Januari 1990, anak dari pasangan Ir. Herwin Nur dan Ir. Dwi Budi Utami, M.Si. Penulis merupakan putri ketiga dari tiga bersaudara. Tahun 2002 penulis menamatkan pendidikan sekolah dasar di MI Darunnajah Ulujami Jakarta Selatan. Kemudian penulis melanjutkan studinya di Pondok Pesantren MTs Darunnajah Ulujami Jakarta Selatan dan lulus pada tahun 2005. Tahun 2008 penulis lulus dari SMAN 47 Jakarta dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis mengambil mayor Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam dengan minor Ekonomi dan Studi Pembangunan dari Fakultas Ekonomi Manajemen. Selama kuliah, penulis pernah aktif di beberapa Lembaga Kemahasiswaan IPB, yaitu Dewan Perwakilan Mahasiswa Keluarga Mahasiswa (DPM KM) IPB, Majelis Permusyawaratan Mahasiswa Keluarga Mahasiswa (MPM KM) IPB, Lembaga Dakwah Kampus (LDK) Al-Hurriyyah IPB dan Lembaga Dakwah Fakultas (LDF) FMIPA β SERUM-G, serta menjadi asisten praktikum mata kuliah Metode Statistika dan beberapa kali menjadi asisten mata kuliah Pendidikan Agama Islam. Penulis melaksanakan kegiatan praktik lapang di Dinas Kesehatan Kota Bogor pada bulan Februari-April 2012.