ANALISIS PENGELOMPOKAN DENGAN METODE K-RATAAN 511
Analisis Pengelompokan dengan Metode K-Rataan Titin Agustin Nengsih Fakultas Syariah IAIN Sulthan Thaha Saifuddin Jambi
Abstrak Analisis pengelompokkan adalah salah satu metode eksplorasi data untuk menentukan kelompok dari sekumpulan data. Awal mulanya metode ini dikembangkan dengan menemukan struktur pengelompokkan di antara objek yang akan dikelompokkan. Paradigma pengelompokan mulai banyak diminati berbagai kalangan dan digunakan dalam berbagai aspek diantaranya dalam formulasi hipotesis untuk pengelompokkan data mining, analisis pasar ataupun dalam informasi prilaku atau karekteristik wilayah tertentu. Kata-kata Kunci: Analisis pengelompokan, gerombol, Krataan
Pendahuluan Analisis gerombol adalah salah satu metode eksplorasi data untuk menentukan kelompok dari sekumpulan data. Awal mulanya metode ini dikembangkan dengan menemukan struktur penggerombolan di antara objek yang akan digerombolkan. Pada umumnya analisis gerombol mengelompokkan objek sehingga objek yang memiliki karakteristik yang sama digerombolkan ke dalam satu gerombol dan objek yang mempunyai karakteristik yang berbeda digerombolkan ke dalam gerombol yang lain sehingga keragaman dalam satu Media Akademika, Vol. 27, No. 4, Oktober 2012
512 TITIN AGUSTIN NENGSIH
gerombol lebih kecil dari pada keragaman antar gerombol (Johnson & Wichern 2002). Adapun tujuan dari penggerombolan ini adalah untuk minimisasi fungsi tujuan yang digunakan dalam proses penggerombolannya. Penggerombolan data terbagi menjadi dua yaitu metode hirarki dan metode tak hirarki. Metode hirarki adalah metode yang belum diketahui berapa banyak gerombol yang terbentuk. Sedangkan metode tak hirarki adalah metode yang banyaknya gerombol telah diketahui atau telah ditetapkan. Penggerombolan yang dilakukan pada penelitian ini adalah metode tak hirarki. Metode ini digunakan karena banyaknya gerombol yang dibentuk telah ditetapkan yaitu sebanyak 4 gerombol seperti yang ditetapkan oleh KNPDT. Salah satu metode tak hirarki yaitu analisis metode K-Rataan. Dasar pengalokasian yaitu menyatakan secara tegas bahwa objek tersebut sebagai anggota gerombol yang satu dan tidak menjadi anggota gerombol lainnya. Tujuan Penelitian ini menerapkan metode K-Rataan dengan menggunakan data daerah tertinggal di Indonesia.
Tinjauan Pustaka Metode Penggerombolan K-Rataan Pengalokasian kembali data ke dalam masing-masing gerombol dalam metode K-Rataan didasarkan pada perbandingan jarak antara data dengan pusat setiap gerombol yang ada. Data dialokasikan ulang secara tegas ke gerombol yang mempunyai pusat terdekat dengan data tersebut (Miyamoto et al. 2008; Ross 2004). Pengalokasian ini dirumuskan sebagai berikut:
di mana uik adalah keanggotaan data ke-k ke gerombol ke-i, pi adalah nilai pusat gerombol ke-i, dan d(Xk’ Pi) adalah jarak antara data ke-k terhadap nilai pusat gerombol ke-i. Fungsi tujuan yang digunakan untuk metode K-Rataan adalah sebagai berikut: Media Akademika, Vol. 27, No. 4, Oktober 2012
ANALISIS PENGELOMPOKAN DENGAN METODE K-RATAAN 513
dengan n adalah jumlah data, c adalah banyaknya gerombol, dan . Sedangkan uik bernilai 0 atau 1. Apabila suatu data merupakan anggota suatu gerombol maka nilai uik = 1. Sebaliknya apabila suatu data bukan merupakan anggota suatu gerombol maka nilai uik = 0. Algoritma penentuan suatu objek ke dalam gerombol tertentu untuk metode K-Rataan didasarkan pada rataan terdekat. Algoritma ini terdiri dari beberapa tahapan (Ross 2004) yaitu: 1. Tentukan besarnya c, yaitu banyaknya kelompok (2 d” c < n). 2. Inisialisasi awal matriks U(0) yang ditetapkan secara bebas. 3. Hitung pusat gerombol (pij) dengan persamaan dibawah ini:
4. Perbaharui matriks U dengan
5.
dimana r = proses iterasi 1, 2, … Bandingkan nilai keanggotaan dalam matriks U. Jika U(r-1) = U(r), maka iterasi dihentikan. Jika tidak maka kembali ke langkah 3.
Fungsi Keanggotaan Metode K-Rataan Sebuah objek akan menjadi salah satu anggota gerombol berdasarkan fungsi keanggotaan. Sebagai contoh, diberikan segerombol data berdimensi tunggal (Gambar 1) Media Akademika, Vol. 27, No. 4, Oktober 2012
514 TITIN AGUSTIN NENGSIH
Gambar 1: Sebaran objek pada dimensi tunggal Misalkan teridentifikasi dua gerombol yaitu A dan B. Pada algoritma K-Rataan, fungsi keanggotaan dinyatakan secara tegas untuk masuk kedalam kelompok tertentu (Gambar 2).
Gambar 2: Fungsi keanggotaan metode K-Rataan.
Bahan dan Metode Bahan Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari data KNPDT tahun 2005. Peubah yang digunakan dalam penggerombolan sebanyak 33 peubah yang dibedakan ke dalam 6 indikator yaitu perekonomian masyarakat, sumberdaya manusia, prasarana (infrastruktur), kemampuan keuangan lokal (celah fiskal), aksesibilitas dan karakteristik daerah. Peubah yang digunakan memiliki dua tipe arah yaitu positif dan negatif. Arah positif menunjukkan bahwa semakin besar nilai peubah tersebut, maka semakin besar ketertinggalan suatu daerah. Arah negatif menunjukkan sebaliknya, yaitu semakin besar nilai peubah tersebut, maka semakin mendekati maju suatu daerah. Kabupaten / kota (daerah) tertinggal di Indonesia sebanyak 208 daerah. Dari 208 daerah tersebut, akan digerombolkan menjadi empat gerombol. Penentuan empat gerombol telah diketahui didasarkan pada penggerombolan oleh KNPDT. Jumlah keseluruhan nilai pusat gerombol menunjukkan karakteristik ketertinggalan suatu Media Akademika, Vol. 27, No. 4, Oktober 2012
ANALISIS PENGELOMPOKAN DENGAN METODE K-RATAAN 515
daerah. Pengurutan berdasarkan jumlah nilai pusat gerombol yang telah dibakukan menghasilkan nilai di mana semakin besar nilai tersebut maka semakin mendekati sangat parah ketertinggalan suatu daerah. Sedangkan jumlah nilai pusat gerombol yang paling kecil menyatakan karakteristik daerah yang agak tertinggal (mendekati daerah maju). Analisis Data Metode penelitian ini adalah sebagai berikut: 1. Melakukan eksplorasi data. Eksplorasi data terdiri dari dua tahapan yaitu deskripsi data dan pemeriksaan korelasi antar peubah. Tahapan deskripsi data dilakukan dengan diagram kotak garis. Diagram kotak garis setiap peubah menggambarkan penyebaran data. Tahapan pemeriksaan korelasi antar peubah dilakukan karena dalam analisis penggerombolan menggunakan jarak euclid dalam perhitungannya. Syarat jarak euclid dapat digunakan jika antar peubah saling orthogonal (bebas). Pemeriksaan kebebasan antar peubah dilakukan dengan menghitung nilai korelasi. Pada penelitian ini, korelasi antar peubah dikatakan tidak kuat (antar peubah saling bebas) jika nilai korelasi berada diantara -0.75 dan 0.75, dan sebaliknya dikatakan ada indikasi antara peubah berkorelasi kuat. Peubah yang berkorelasi kuat diatasi dengan Analisis Komponen Utama (AKU). Namun, pada penelitian ini transformasi AKU tidak digunakan karena jarak euclid antar pengamatan dengan atau tanpa transformasi AKU akan sama bila semua komponen utama digunakan (Jollife 2002). 2. Melakukan analisis K-Rataan. Analisis metode K-Rataan terdiri dari dua tahapan yaitu analisis penggerombolan dan analisis kebaikan metode. Tahapan penilaian kebaikan metode K-Rataan menggunakan kriteria keragaman gerombol yaitu diharapkan keragaman didalam gerombol lebih kecil dari pada keragaman antar gerombol. Hal
Media Akademika, Vol. 27, No. 4, Oktober 2012
516 TITIN AGUSTIN NENGSIH
ini dapat dihitung dari rasio keragaman di luar gerombol dengan keragaman dalam gerombol dengan uji MANOVA.
Hasil dan Pembahasan Deskripsi Data Penyebaran data untuk setiap peubah menunjukkan setiap indikator yaitu 6 indikator: perekonomian masyarakat, sumberdaya manusia, prasarana (infrastruktur), kemampuan keuangan lokal (celah fiskal), aksesibilitas dan karakteristik daerah memiliki data pencilan. Misalnya indikator kemiskinan yaitu persentase penduduk miskin (x1) dan indeks kemiskinan (x2). Terdapat pencilan pada indikator kemiskinan. Pencilan tersebut merupakan pencilan atas. Pencilan tersebut menunjukkan bahwa kemiskinan dibeberapa daerah Irian Jaya masih besar antara lain Tolikara, Yahukimo, Jayawijaya, Paniai dan Puncak Jaya. Terdapat 7 peubah indikator karakteristik daerah yaitu persentase jumlah desa yang rawan gempa bumi (x27), persentase jumlah desa yang longsor (x28), persentase jumlah desa yang rawan banjir (x29), persentase jumlah desa yang rawan bencana lainnya (x30), persentase jumlah desa yang berada di kawasan lindung (x 31), persentase jumlah desa yang berlahan kritis (x32), dan persentase jumlah desa yang terjadi konflik 1 tahun terakhir (x33). Ketujuh peubah tersebut memiliki data pencilan berupa pencilan atas. Pencilan tersebut menunjukkan bahwa indikator karakteristik daerah di beberapa daerah masih besar (Gambar 4). Aceh Selatan, Bengkulu Selatan, Buol, dan Morowali adalah daerah yang termasuk pencilan atas untuk peubah X27. Pada indikator karakteristik daerah, keragaman setiap peubah relatif sama, kecuali di peubah X27 dan X32 yang sedikit lebih lebar dibandingkan peubah lainnya. Pemeriksaan Korelasi antar Peubah Nilai korelasi menunjukkan adanya hubungan antara peubah. Nilai
Media Akademika, Vol. 27, No. 4, Oktober 2012
ANALISIS PENGELOMPOKAN DENGAN METODE K-RATAAN 517
korelasi antar peubah sebagian besar bernilai antara -0.75 dan 0.75. Ada 8 peubah yang berkorelasi erat yaitu X4 (persentase desa dengan balita kurang gizi) dengan X5 (persentase desa dengan non balita kurang gizi) sebesar 0.849, X6 (tingkat kematian bayi) dengan X7 (angka harapan hidup) sebesar -0.887, X10 (rata-rata jarak pelayanan prasarana kesehatan) dengan X 11 (persentase kemudahan untuk mencapai prasarana kesehatan) sebesar 0.845, dan X22 (jumlah bank umum) dengan X23 (jumlah bank perkreditan umum) sebesar -0.76. Korelasi yang kuat antar peubah dapat diatasi dengan menghilangkan salah satu peubah yang berkorelasi tersebut. Hal ini dilakukan dengan menganggap bahwa peubah yang terpilih telah mewakili. Alasan lain untuk menghilangkan salah satu peubah yang berkorelasi kuat adalah jumlah peubah yang berkorelasi kuat sedikit. Jadi, pada penelitian ini korelasi yang kuat antar peubah dilakukan dengan menghilangkan salah satu peubah yang berkorelasi yaitu peubah X5, X6, X11, dan X23 tidak digunakan dalam analisis selanjutnya. Penggerombolan Kabupaten/Kota dengan Metode KRataan Pada metode K-Rataan nilai pusat gerombol digunakan dalam penentuan karakteristik gerombol yaitu agak tertinggal, tertinggal, sangat tertinggal dan sangat parah ketertinggalannya. Pengurutan berdasarkan jumlah keseluruhan nilai pusat gerombol yang telah dibakukan menghasilkan nilai di mana semakin besar nilai tersebut maka semakin sangat parah ketertinggalan gerombol tersebut. Daerah yang masuk kedalam empat gerombol tersebut terdapat pada gambar 5. Kesesuaian urutan setiap peubah dengan urutan penggerombolan dilakukan dengan menghitung nilai korelasi antara nilai pusat setiap peubah dengan jumlah keseluruhan nilai pusat dari data yang dibakukan. Jika nilai korelasi lebih dari 0.7 maka urutan setiap peubah terhadap urutan penggerombolan dikatakan telah sesuai. Kesesuaian urutan setiap peubah terhadap urutan penggerombolan cukup besar Media Akademika, Vol. 27, No. 4, Oktober 2012
518 TITIN AGUSTIN NENGSIH
yaitu 62.07% untuk Fuzzy K-Rataan. Hal ini menyatakan bahwa urutan setiap peubah terhadap urutan penggerombolan telah sesuai. Sebagian besar daerah yang terdapat pada pulau Irian mencirikan daerah yang sangat tertinggal dan sangat parah ketertinggalannya. Keseluruhan daerah di pulau Kalimantan tergolong daerah sangat tertinggal, sedangkan daerah di pulau Sumatera, Jawa, Bali, Nusa Tenggara, Sulawesi dan Maluku bervariasi ketertinggalannya yaitu dari agak tertinggal hingga sangat parah tertinggal.
Terdapat 46 daerah agak tertinggal yang menghasilkan sebagian besar daerahnya di Sumatera (Indonesia bagian barat) antara lain Lampung Selatan, Tanggamus, Tulang Bawang, Bengkulu Utara dan Garut. Sedangkan daerah terkategori tertinggal yang dihasilkan pada Metode K-Rataan menghasilkan 50 daerah yang tersebar di seluruh wilayah Indonesia terutama di pulau Sumatera. Rejang Lebong, Trenggalek, Gowa, Sinjai dan Gorontalo adalah daerah yang terkategori daerah tertinggal pada metode K-Rataan. Terdapat 76 kabupaten daerah sangat tertinggal dengan wilayah tersebar di seluruh wilayah Indonesia baik di pulau Sumatera, Bali, Nusa Tenggara dan Sulawesi kecuali daerah di pulau Jawa. Seluruh daerah di pulau Kalimantan dan sebagian besar daerah di Sulawesi termasuk ke dalam kategori daerah sangat tertinggal seperti Bengkayang, Media Akademika, Vol. 27, No. 4, Oktober 2012
ANALISIS PENGELOMPOKAN DENGAN METODE K-RATAAN 519
Kapuas Hulu, Melawi, Berau, Toli-toli, Buol dan Morowali. Namun kategori sangat parah tertinggal sebanyak 36 daerah yang sebagian besar ada di daerah bagian timur Indonesia yaitu di pulau Irian antara lain Keroom, Sorong dan Monokwari. Daerah lainnya antara lain Sumba Barat, Mamasa dan Maluku Tenggara Barat. Penilaian Kebaikan Metode K-Rataan Objek yang yang termasuk ke dalam anggota gerombol 1 mempunyai nilai rata-rata jarak sebesar 62 872.32 untuk masuk kedalam gerombolnya sendiri. Nilai tersebut merupakan nilai terkecil dibandingkan jika objek tersebut masuk kedalam gerombol lainnya. Akan tetapi gerombol 3 menghasilkan rata-rata jarak objek gerombol 3 untuk masuk ke dalam kelompoknya sendiri lebih besar dibandingkan jika objek tersebut untuk masuk ke dalam gerombol pertama. Hal ini terlihat pada nilai rasio jarak dalam gerombol dengan jarak antara gerombol terdekat yang nilainya mendekati satu. Hal tersebut menunjukkan bahwa metode K-Rataan belum cukup baik dalam pemisahan anggota gerombol Tabel 1: Jarak Rata-Rata Objek ke pusat gerombol Metode KRataan Objek
Gerombol 1
Gerombol 1 Gerombol 2 Gerombol 3 Gerombol 4
2
62 872.32 63 175.98 70 726.46 54 544.90
76 930.25 30 341.78 100 644.70 56 105.44
3 69 630.10 92 127.77 74 495.05 71 768.95
4 63 873.11 53 400.89 75 140.21 50 701.87
Rasio 0 984 0.568 1.053 0.929
Keterangan : Rasio = rasio jarak dalam gerombol dengan jarak antara gerombol terdekat Penilaian kebaikan metode penggerombolan K-Rataan dan Fuzzy K-Rataan dilihat dari nilai rasio rata-rata jarak objek dan rasio keragaman (Tabel 2). Dari tabel tersebut terlihat bahwa rata-rata jarak dalam gerombol lebih kecil dari pada rata-rata jarak di luar
Media Akademika, Vol. 27, No. 4, Oktober 2012
520 TITIN AGUSTIN NENGSIH
Tabel 2: Nilai kebaikan model metode Fuzzy K-Rataan
Metode
K-Rataan
Rata-Rata Jarak Objek dalam Gerombol
Rata-Rata Jara k Objek a ntar Gerombol
Nilai Hotelling
54 602.76
70 672.40
11.21*
Keterangan : * = Nyata dengan α = 5% gerombol. Rasio nilai keragaman pada pengujian MANOVA dapat dilihat dari nilai Hotelling. Pengujian MANOVA dengan tingkat kesalahan 5% menyatakan nyata. Hal ini berarti bahwa penggerombolan yang dilakukan telah baik.
Simpulan Hasil penggerombolan metode K-Rataan menunjukkan bahwa 46 daerah yang masuk ke dalam gerombol daerah agak tertinggal, 50 daerah terkategori daerah tertinggal, 76 daerah yang termasuk ke dalam gerombol daerah sangat tertinggal, dan 36 daerah tergolong daerah sangat parah ketertinggalannya. Sebagian besar daerah yang terdapat pada pulau Irian mencirikan daerah yang sangat tertinggal dan sangat parah ketertinggalannya. Keseluruhan daerah di pulau Kalimantan tergolong daerah sangat tertinggal, sedangkan daerah di pulau Sumatera, Jawa, Bali, Nusa Tenggara, Sulawesi dan Maluku bervariasi ketertinggalannya yaitu dari agak tertinggal hingga sangat parah tertinggal.
Media Akademika, Vol. 27, No. 4, Oktober 2012
ANALISIS PENGELOMPOKAN DENGAN METODE K-RATAAN 521
DAFTAR PUSTAKA Johnson RA dan Winchern DW. 1998. Applied Multivariate Statistical Analysis. London: Prentice-Hall, Inc. Jollife IT. 2002. Principal Component Analysis. New York: SpringerVerlag [KNPDT] Kementerian Pembangunan Daerah Tertinggal. 2005. Keputusan Menteri Negara Pembangunan Daerah Tertinggal Republik Indonesia Nomor 001/KEP/M-PDT/I/2005 tentang Strategi Nasional Pembangunan Daerah Tertinggal. Jakarta: KNPDT. Kusumadewi S, Hartati S. 2006. Neuro-Fuzzy (Integrasi Sistem Fuzzy dan Jaringan Syaraf). Yogyakarta: Graha Ilmu. 278-290. Miyamoto S, Ichihashi H, Honda K. 2008. Algorithms for Fuzzy Clustering (Methods in C-Means Clustering with Applications). Berlin Heidelberg: Springer-Verlag. Panchal VK, Kundra H, Kaur J. 2009. Comparative study of particle swarm optimization based unsupervised clustering techniques. International Journal of Computer Science and Network Security 9: 10. http://paper.ijcsns.org/07_book/200910/ 20091017.pdf [ 14 Mei 2010]. Ross T J. 2004. Fuzzy Logic with Engineering Applications. Second Edition. New York: John Wiley and Sons, Inc.
Media Akademika, Vol. 27, No. 4, Oktober 2012