IndoMS Journal on Statistics Vol. 2, No. 2 (2014), Page 11-26
ANALISIS KELOMPOK DENGAN ALGORITMA FUZZY C-MEANS DAN GATH-GEVA CLUSTERING 1
Rudy Ramadani Syoer1, Muhammad Mashuri2 Mahasiswa Pascasarjana Jurusan Statistika, FMIPA-ITS, Surabaya 2 Jurusan Statistika, FMIPA-ITS, Surabaya 1
[email protected],
[email protected]
Abstract Cluster analysis that intends to classify objects into groups based on certain characteristics have been growing very rapidly. Grouping methods emerging today is fuzzy clustering analysis, capable of grouping by using a certain degree of membership. Fuzzy clustering algorithm commonly used is the Fuzzy C-Means (FCM) and the algorithms developed further by Gath and Geva (GG), which is capable of detecting a group with a different shape than the FCM. The determination method can best be done by comparing the results of clustering and large groups can be done through the calculation of several indices of validity utilizing a GUI-based application programs through MATLAB software. The results showed that in some respects, FCM was superior to GG, especially in generating the objective function,the computational time and the ratio of the minimum standard deviation for the group. Keywords: grouping regions, Fuzzy C-Means clustering, Gath-Geva clustering, cluster validity index Abstrak Analisis kelompok bermaksud untuk mengelompokkan objek ke dalam kelompok berdasarkan karakteristik tertentu telah berkembang dengan sangat pesat. Metode pengelompokan yang sedang berkembang saat ini adalah fuzzy clustering analysis, yang mampu melakukan pengelompokan dengan menggunakan derajat keanggotaan tertentu. Algoritma fuzzy clustering yang umum digunakan adalah Fuzzy C-Means (FCM) dan algoritma yang dikembangkan lebih lanjut oleh Gath dan Geva (GG), mampu mendeteksi kelompok dengan bentuk yang berbeda dibanding FCM. Penentuan metode terbaik dapat dilakukan dengan membandingkan hasil pengelompokan dan banyaknya kelompok dapat dilakukan melalui perhitungan beberapa indeks validitas memanfaatkan program aplikasi berbasis GUI melalui perangkat lunak MATLAB. Hasil penelitian menunjukkan bahwa dalam beberapa hal, FCM masih lebih unggul dibanding GG, utamanya dalam menghasilkan fungsi objektif, waktu komputasi dan rasio simpangan baku kelompok yang minimum. Kata kunci: pengelompokan wilayah, Fuzzy C-Means clustering, Gath-Geva clustering, indeks validitas kelompok 2010 Mathematics Subject Classification: 62H30, 62H86. 11
12
Rudy Ramadani Syoer, Muhammad Mashuri
1. Pendahuluan Analisis pengelompokan adalah salah satu analisis data untuk menentukan kelompok berdasarkan kesamaan karakteristiknya yang digunakan untuk menyelesaikan permasalahan dan penelitian dalam beberapa disiplin ilmu. Maxwell, Pryor dan Smith [14] menerapkan analisis clustering dalam penelitian bidang sosial untuk mengelompokkan status sosial masyarakat berdasarkan persamaan dan perbedaan data lintas budaya dan juga Wang [20] untuk meneliti tentang penemuan metode baru dalam dunia kedokteran untuk meningkatkan akurasi diagnosa. Perkembangan analisis kelompok dimulai dari metode hierarki yang secara garis besar membentuk sebuah tree diagram untuk menentukan kelompok. Kemudian berlanjut ke metode nonhierarki lebih dikenal dengan cara partisi, contohnya K-means, yang menentukan terlebih dahulu jumlah kelompok yang akan dibentuk yang disesuaikan dengan tujuan penelitian. Perkembangan lebih lanjut adalah dengan mempertimbangkan tingkat keanggotaan himpunan fuzzy sebagai dasar pembobotan yang memungkinkan objek untuk bisa bergabung ke setiap kelompok yang ada yang disebut fuzzy clustering [6]. Teknik paling umum digunakan secara luas adalah algoritma Fuzzy C-means [7]. Dengan teknik ini, objek akan cenderung menjadi anggota suatu kelompok di mana objek tersebut memiliki derajat keanggotaan yang tertinggi terhadap kelompoknya. Perluasan untuk model Fuzzy C-means adalah yang diusulkan oleh Gustafson dan Kessel [10], dimana jarak antar objek dengan pusat kelompok dihitung dengan menggunakan rumus jarak Mahalanobis. Varian fuzzy lainnya yang telah dikembangkan adalah model Gath-Geva clustering. Algoritma ini menggunakan formula jarak Mahalanobis tetapi dengan adanya tambahan pada fuzzy covariance matriksnya. Penelitian menggunakan fuzzy clustering pernah dilakukan sebelumnya oleh Shihab [19] dalam desertasinya serta Pravitasari [17]. Munaf [15] meneliti masalah pengelompokan kabupaten/kota di Jawa Timur sebagai dasar perencanaan pembiayaan kegiatan pendataan lapangan menggunakan algoritma Fuzzy C-means dengan modifikasi formula jarak. Penelitian ini mengelompokkan wilayah menggunakan algoritma Fuzzy C-means dan Gath-Geva clustering di wilayah Kabupaten Kutai Kartanegara Provinsi Kalimantan Timur, salah satu kabupaten penerima APBD terbesar tetapi memiliki penduduk miskin terbesar pula [5]. Analisis pengelompokan memerlukan suatu indeks untuk mengetahui banyaknya kelompok optimum yang terbentuk, sedangkan struktur data dan algoritma Fuzzy C-means akan diolah dengan perangkat lunak MATLAB dengan sebuah aplikasi berbasis GUI. Penelitian ini mengkaji perbandingan hasil pengelompokan menggunakan algoritma Fuzzy Cmeans dan Gath-Geva clustering dalam mengelompokkan wilayah desa/kelurahan berdasarkan karakteristik dan kondisi sarana prasarana sosial ekonomi serta merekomendasikan jumlah kelompok yang tepat berdasarkan beberapa indeks validitas kelompok.
Analisis Kelompok Dengan Algoritma Fuzzy C-Means ...
13
2. Metode Analisis kelompok merupakan suatu teknik statistik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan kesamaan karakteristik yang dimilikinya. Dua metode paling umum dalam algoritma kelompok adalah metode hierarki dan metode nonhierarki. Analisis pengelompokan yang terdapat dalam perangkat lunak MATLAB, menggunakan jarak Euclidean sebagai default ukuran jaraknya, dimana ukuran jarak ini hanya bisa mendeteksi kelompok dengan susunan spherical, yang didefinisikan: c
Dik D xk , vi xk vi i 1
2
c
x i 1
vi . 2
k
(1)
Untuk mendeteksi kelompok dengan susunan selain bentuk spherical, dikembangkan beberapa formula jarak, antara lain formula jarak Mahalanobis yang diusulkan oleh Gustafson Kessel [10] untuk bentuk hyperellipsoidal. Gath-Geva [9] juga menggunakan formula jarak Mahalanobis dengan menambahkan batasan pada fuzzy covariance matriksnya. Tujuan clustering adalah untuk mempartisi himpunan data X ke dalam c buah kelompok. Asumsi c yang diketahui, didasarkan pada pengetahuan sebelumnya yang sifatsifatnya sebagai berikut: c
N
i 1
k 1
uik 0,1, uik 1, 1 k N , 0 uik N 1, 1 i c, 2 c N .
(2)
Nilai derajat keanggotaan, uik, adalah 0 atau 1, data secara tegas dinyatakan sebagai anggota kelompok yang satu dan tidak menjadi anggota kelompok lainnya (contohnya Kmeans). Tetapi adakalanya objek mungkin berada dalam dua atau lebih partisi, sehingga perlu dilakukan pembobotan berdasarkan tingkat keanggotaan himpunan fuzzy-nya [1]. Dengan cara ini, maka algoritma pembentukan kelompok menjadi lebih fleksibel. Konsep ini disebut fuzzy clustering [16]. Berbeda dengan cara tegas, dengan cara fuzzy ini masing-masing data item diberikan nilai kemungkinan untuk bisa bergabung ke setiap kelompok yang ada, yang memungkinkan uik mencapai nilai riil [0,1]. N c matriks U uik merepresentasikan partisi fuzzy, yang diberikan oleh kondisi: uik 0,1 , 1 i c, 1 k N . 2.1 Algoritma Fuzzy C-means (FCM) Pada tahun 1965, Prof. Lotfi A. Zadeh dari Universitas California di Barkeley memperkenalkan konsep tentang himpunan fuzzy [22]. Metode FCM mengalokasikan kembali data ke dalam kelompok memanfaatkan teori fuzzy, mempergunakan variabel membership function. FCM yang diusulkan oleh Bezdek [6], memperkenalkan suatu variabel m yang merupakan weighting exponent dari membership function. Variabel ini dapat mengubah besaran pengaruh dari membership function, uik. Sedangkan m mempunyai wilayah nilai lebih besar dari 1 (m>1). Tidak ada ketentuan yang jelas berapa besar nilai m yang optimal dalam melakukan proses optimasi suatu permasalahan clustering, nilai m yang umum digunakan adalah 2 [7]. Sedangkan uik, mempunyai wilayah nilai 0≤ uik ≤1, dengan syarat 1< m < , , . Membership function dan objective function formula jarak FCM dirumuskan sebagai berikut:
14
Rudy Ramadani Syoer, Muhammad Mashuri
D x , v k i uik j 1 D x k , v j
2/ ( m 1)
c
c
N
(3)
J X : U, V uik D x k , v i . m
2
(4)
i 1 k 1
Algoritma FCM clustering untuk pengelompokan data secara umum dirumuskan dengan [2] : 1. Menentukan jumlah kelompok (c). Pada tahap awal c=2. 2. Menentukan inisiasi awal matriks partisi U secara random dan menghitung centroid atau vi dari masing-masing kelompok. 3. Menghitung distance measure atau formula jarak, yang merupakan square euclidean distance atau jarak euclidean kuadrat sesuai persamaan (1). 4. Menghitung nilai fungsi keanggotaan data di masing-masing kelompok atau meng-update matriks partisi U dengan persamaan (3) serta mengalokasikan datanya ke centroid terdekat dan menghitung centroid baru. 5. Kembali ke langkah 2, apabila perubahan nilai fungsi keanggotaan data masih di atas nilai threshold ( ) yang ditentukan oleh Ul Ul 1 , atau apabila perubahan nilai fungsi objektif yang dihitung berdasarkan persamaan (4) masih di atas nilai threshold yang ditentukan. Nilai threshold adalah suatu nilai yang sangat kecil mendekati 0, (misal 0,000001). 2.2 Algoritma Gath-Geva (GG) Algoritma Gath-Geva (GG) adalah pengembangan dari algoritma Gustafson-Kessel (GK) yang menafsirkan data sebagai realisasi dimensi p sebagai variabel acak yang terdistribusi normal. Algoritma fuzzy maximum likelihood estimates clustering menggunakan norma jarak berdasarkan fuzzy maximum likelihood estimates, diusulkan oleh Bezdek dan Dunn [7] sebagai berikut: Dik
(2 )( / 2) det Fwi
i
exp 1 / 2 x k v i Fwi1 x k v i . T
(5)
Berbeda dengan algoritma Gustafson-Kessel (GK), norma jarak ini melibatkan istilah eksponensial dan dengan demikian menurunkan lebih cepat daripada norma dalam produk. menunjukkan matriks fuzzy covariance kelompok ke-i, diberikan oleh Fwi , dimana w = 1 dalam algoritma FMLE asli, dengan bobot w=2, partisi menjadi lebih fuzzy. Perbedaan antara matriks dalam algoritma GK dan adalah pada w = 1. Hal ini karena dua matriks kovarians tertimbang timbul sebagai generalisasi dari kovarian klasik dari dua konsep yang berbeda. αi sebagai probabilitas prior sebelum memilih kelompok i, diberikan oleh i . Keanggotaan derajat diinterpretasikan sebagai probabilitas posterior memilih kelompok ke-i yang diberikan oleh titik data xk. Gath dan Geva [9] melaporkan bahwa algoritma fuzzy maximum likelihood estimates (FMLE) clustering mampu mendeteksi kelompok dari berbagai bentuk, ukuran dan kepadatan. Algoritma GG untuk pengelompokan data mirip dengan FCM, bedanya ada pada langkah ke-3, dimana penghitungan jarak untuk prototipenya, dihitung berdasarkan matriks fuzzy covariance dari kelompok, sesuai persamaan (5).
Analisis Kelompok Dengan Algoritma Fuzzy C-Means ...
15
2.3 Evaluasi Hasil Pengelompokan Untuk melihat kinerja kedua algoritma metode pengelompokan yang digunakan, dapat dilihat melalui kriteria nilai simpangan baku, yaitu nilai simpangan baku dalam kelompok (SW) dan nilai simpangan baku antar kelompok (SB). Simpangan baku dalam kelompok diharapkan memiliki nilai yang minimum, dan simpangan baku antar kelompok memiliki nilai maksimum [8]. Formulanya sebagai berikut: SW
2 1 c 1 c Xc X . Sc , SB c 1 i 1 c i 1
(6)
Semakin kecil nilai SW dan semakin besar nilai SB, maka algoritma metode pengelompokan memiliki kinerja yang semakin baik, sehingga digunakan rasio antara SW dan SB. Rasio SW/SB yang terkecil menunjukkan ketepatan pengelompokan yang paling baik. 2.4 Indeks Validitas Cluster Untuk menentukan jumlah kelompok atau nilai c yang optimal dalam metode pengelompokan nonhierarki, dapat dicoba beberapa nilai c, kemudian digunakan besaran indeks validitas kelompok untuk menilai besaran c yang terbaik (optimal). Dalam papernya, Kim [12] menyajikan beberapa indeks validitas kelompok tradisional, diantaranya seperti yang diusulkan oleh Bezdek dan Xie and Beni [21]. Beberapa skala pengukuran validitas lainnya yang berbeda telah diusulkan dalam beberapa literatur seperti partition index (SC), separation index (S), dan indeks Dunn, walaupun tidak ada satupun yang sempurna [2], antara lain:Partition Coefficient (PC) dan Classification Entropy (CE); Partition Index (PI), Separation Index (SI), Indeks Xie Beni (XB), dan Indeks Dunn. 2.5 Analisis Faktor Analisis faktor merupakan salah satu teknik statistik untuk menyederhanakan deskripsi dari suatu set data (variabel) yang banyak dan saling berkorelasi menjadi set data yang ringkas dan tidak lagi berkorelasi. Analisis ini berguna untuk meneliti keterkaitan peubah-peubah dalam satu set data. Analisis faktor pada dasarnya bertujuan untuk mendapatkan sejumlah kecil faktor yang memiliki sifat berikut [11]: Mampu menerangkan semaksimum mungkin keragaman data, Terdapat kebebasan antar faktor, Tiap faktor dapat diinterpretasikan sejelas-jelasnya. Model analisis faktor dalam notasi matriks adalah sebagai berikut: X L F (7) ( px1)
( pxm ) ( mx1)
( px1)
dengan asumsi : E(F) 0,cov(F) ,E() 0,cov() , Ψ adalah matriks diagonal. 2.6 FCM Toolbox dan Modul GUIDE Perangkat lunak MATLAB dapat digunakan sebagai alat bantu untuk pembuatan program aplikasi berupa toolbox dan semacamnya menggunakan bantuan Mathworks toolbox. Paket program dan fungsi ini sudah terintegrasi dalam MATLAB, menggunakan bantuan mfiles yang berguna dalam pembuatan macro program. Paket pemrograman ini dipilih karena fasilitas yang dimilikinya telah menyediakan suatu fungsi fuzzy toolbox yang sesuai dengan tujuan penelitian ini, yaitu penggunaan metode FCM. Perangkat lunak MATLAB juga mendukung Graphical User Interface (GUI) karena dengan modul yang dimilikinya yaitu GUI
16
Rudy Ramadani Syoer, Muhammad Mashuri
Builer atau GUIDE, dapat dikembangkan aplikasi berbasis pemrograman berorientasi visual yang berguna untuk interaksi pengguna dengan programnya. Berdasarkan Matworks Toolbox yang dapat diunduh secara gratis pada laman MATLAB CENTRAL, situs resmi dari The MathWorks Inc., produsen pembuat software MATLAB, menyediakan toolbox untuk Kmeans, K-medoid, Fuzzy C-means (FCM), Gustafson-Kessel (GK), dan Gath-Geva (GG) termasuk pula cluster validity-nya (Gambar 2.1). Penggunaan algoritma FCM dan GG dalam tulisan ini, didasarkan pada Clustering and Data Analysis Toolbox yang diterbitkan oleh Janos Abonyi dkk. [3]. 2.7 Tahapan Analisis Data Data yang digunakan dalam penelitian ini adalah hasil pendataan Potensi Desa (PODES) Kabupaten Kutai Kartanegara tahun 2008. Perapihan data dilakukan dengan software Statistical Package for Social Science (SPSS) 17 for windows. Sedangkan analisis data dan algoritmanya dibuat menggunakan software MATLAB versi 7.8 (2009b). Variabel diidentifikasi menjadi dua faktor yaitu : faktor keterbatasan sarana prasarana dan akses, dan faktor sosial ekonomi penduduk. Kedua faktor tersebut selanjutnya dijabarkan berdasarkan variabel-variabel yang ada dan dipilih berdasarkan penelitian BPS yang menyatakan secara substantif karakteristik dan determinan ketertinggalan atau kemiskinan suatu wilayah [4]. Setelah diidentifikasi menjadi sebanyak 21 variabel. Tahapan Analisis Data, dimulai dari mengkaji hasil pengelompokan, yaitu dengan: a. Melakukan perapihan data yaitu menilai perlu tidaknya melakukan standarisasi data berdasarkan deskripsi data, kemudian melakukan analisis faktor, untuk mereduksi variabel yang ada sehingga dihasilkan factor score, dan memilih factor score yang sesuai dengan kebutuhan penelitian (kasus). b. Menyajikan data dalam matriks berukuran N n . c. Meng-input data dan parameter, dari skrip MATLAB atau melalui aplikasi GUI. d. Menggunakan metode pengelompokan nonhierarki dengan menerapkan algoritma FCM clustering. Tahapannya secara rinci adalah sebagai berikut: 1. Menentukan jumlah kelompok (c), dimulai dari c=2. 2. Menentukan tingkat ke-fuzzy-an hasil pengelompokan, yaitu m=2 (default). 3. Inisiasi awal matriks U secara random. 4. Menghitung pusat kelompok dan memperbaharui matriks U sesuai persamaan (1) dengan formula jarak sesuai algoritmanya (FCM atau GG). 5. Membandingkan keanggotaan dalam matriks U, jika maka kondisinya dianggap sudah konvergen, sehingga iterasinya dihentikan. Jika tidak, maka kembali ke langkah d.4. Penelitian ini menggunakan nilai sebesar 0,000001. 6. Kembali ke langkah d.1, dengan nilai c=3,4,5 dan seterusnya sampai dengan c=12. Berdasarkan pada langkah d, akan didapatkan ukuran-ukuran hasil pengelompokan seperti jumlah iterasi, nilai fungsi objektif, nilai pusat kelompok, fungsi atau derajat keanggotaan akhir, rasio SW/SB, dan waktu komputasi yang diperlukan beserta indeks validitas kelompok. e. Mengulangi langkah d untuk menerapkan algoritma GG clustering. Kemudian berdasarkan beberapa kriteria yang dilihat dari ukuran-ukuran hasil pengelompokan, seperti tersebut pada langkah e, dapat diputuskan metode terbaik mana yang
Analisis Kelompok Dengan Algoritma Fuzzy C-Means ...
17
akan direkomendasikan untuk analisis selanjutnya. Kemudian dilanjutkan dengan merekomendasikan jumlah cluster optimal, yaitu setelah ditentukan metode yang akan digunakan untuk analisis pengelompokan. Tahap selanjutnya adalah menentukan atau merekomendasikan jumlah kelompok optimal dengan metode terpilih tersebut. Caranya adalah dengan melihat indeks validitas clustering. Jumlah kelompok optimal umumnya diberikan pada saat indeks mencapai kondisi nilai minimum pertama di lembah pertama yang didapatkan, sebagai berikut: f. Menghitung nilai indeks validitas. g. Mengulangi kembali langkah a sampai e sebelumnya untuk jumlah kelompok dari c=3 sampai didapatkan c yang optimal berdasarkan indeks validitas yang paling minimum. h. Merekomendasikan jumlah kelompok optimum berdasarkan hasil dari langkah f dan g.
3. Hasil dan Pembahasan Dari beberapa variabel yang digunakan, terlebih dahulu dilakukan uji terhadap datanya untuk memastikan bahwa metode multivariat dapat digunakan pada data, seperti kemungkinan ada data yang hilang atau missing dan data outlier, memanfaatkan perangkat lunak SPSS. Berdasarkan deskripsi pada data, terlihat datanya tidak perlu untuk distandarisasi atau ditransformasi ke dalam bentuk zscore karena tidak terlalu bervariasi [18]. Algoritma clustering juga menerapkan normalisasi sehingga nilai datanya hanya akan berada dalam range 0 sampai 1, yaitu dengan menambahkan baris program sebagai berikut: data=clust_normalize (data, 'range'). Setelah seluruh data diuji dan layak untuk dianalisis dengan metode statistik multivariat tertentu, maka sebelum dilakukan analisis pengelompokan, terlebih dahulu dilakukan analisis faktor yang bertujuan untuk mereduksi variabel-variabel yang ada dalam penelitian sehingga bisa digunakan dalam analisis clustering. Variabel-variabel tersebut perlu diringkas menjadi kumpulan variabel baru, yang disebut dengan faktor, dimana faktor tersebut tetap mencerminkan variabel-variabel aslinya. Hal ini dilakukan, karena algoritma clustering cukup memerlukan dua variabel untuk keperluan plot yang akan menampilkan grafik hasil pengelompokan, yang diset untuk memunculkan kontur dalam dua dimensi (2-D).
1 2 3 4 5
Tabel 1. Total varians yang dapat dijelaskan Komponen Inisial Eigenvalues Total Persentase Varians Persentase Kumulatif 5,557 30,872 30,872 1,692 9,403 40,275 1,317 7,314 47,589 1,199 6,658 54,247 1,021 5,672 59,919
Berdasarkan matriks Anti-Image, yang menunjukkan nilai Measure of Sampling Adequacy atau MSA, beberapa variabel yang tidak bisa diprediksi lebih lanjut, dan harus dikeluarkan karena nilai MSA-nya masih di atas 0,5, sehingga analisis faktor harus diulang kembali. Berdasarkan nilai KMO sebesar 0,82 dan Barlett’s test sebesar 0,000, dapat disimpulkan bahwa semua variabel layak untuk dianalisa dan dapat diolah lebih lanjut
18
Rudy Ramadani Syoer, Muhammad Mashuri
sebanyak 18 buah variabel. Berdasarkan total keragaman atau varians yang dapat dijelaskan (Tabel 1) dan grafik scree plot dengan kriteria nilai eigen di atas 1, terdapat 5 komponen utama atau 5 factor score yang terbentuk dengan total keragaman mencapai 59,92 persen. Jika dilihat dari komponen matriksnya, maka masih ada variabel yang belum jelas akan dimasukkan ke dalam faktor 1, 2, 3, 4, atau 5, maka perlu dilakukan proses rotasi, agar semakin jelas perbedaan sebuah variabel akan masuk ke dalam faktor yang mana. 3.1 Penentuan Factor Score Setelah mendapatkan 5 factor score, dicoba beberapa kombinasi antara factor score 1 dengan factor score lainnya, hal ini dilakukan agar mendapatkan hasil kombinasi yang terbaik dan cukup mewakili variabel yang ada. Dengan menggunakan algoritma FCM, ternyata semua factor score yang di-input-kan dalam program, ada output hasil pengelompokannya, atau dengan kata lain, tidak ada hasil yang bermasalah, berbeda halnya jika diterapkan pada algoritma GG. Dengan menggunakan algoritma GG, tidak semua kombinasi menghasilkan output bahkan memunculkan error. Berdasar komponen factor score, untuk kombinasi factor score 1 dan 2 menggunakan algoritma GG, dengan jumlah kelompok 3,7,8,9,10, dan 11, algoritma GG tidak dapat menampilkan hasil pengelompokannya atau terjadi error saat running program. Hal ini terjadi, akibat objek dan variabel data tidak mampu diolah lebih lanjut oleh algoritma GG. Hal ini disebabkan, karena adanya illegal function yang terjadi pada saat algoritma tersebut dijalankan, akibat adanya not-a-number atau biasa disingkat NaN, yaitu suatu hasil numerik yang tidak terdefinisi. Hal yang sama terjadi pula pada kombinasi factor score 1 dan 3 serta kombinasi factor score 1 dan 5 menggunakan algoritma GG, terjadi hal yang sama, seperti halnya pada kombinasi factor score 1 dengan 2. Berbeda dengan kombinasi factor score lainnya, kombinasi factor score 1 dan 4 tidak menghasilkan satupun output yang mengalami error, pada saat jumlah kelompok 2 sampai dengan 12. Faktor 1 dan 4 ini, berdasarkan komponennya mewakili sebanyak 7 variabel yaitu 4 variabel di faktor 1 dan 3 variabel di faktor 4 (Lampiran 1). 3.2 Rekomendasi Metode Clustering Terbaik Untuk melakukan analisis pengelompokan terhadap desa/kelurahan di Kabupaten Kutai Kartanegara, dilakukan running program m-files (berupa seperangkat toolbox clustering) atau melalui aplikasi GUI perangkat lunak MATLAB yang telah dibuat sebagai berikut:
Analisis Kelompok Dengan Algoritma Fuzzy C-Means ...
19
Gambar 1. Running program dengan aplikasi GUI untuk FCM dan GG clustering dengan jumlah cluster=2
Dengan menggunakan algoritma FCM dan GG clustering, dilakukan pengelompokan desa/kelurahan di Kabupaten Kutai Kartanegara yaitu mulai dari jumlah kelompok sebanyak 2 sampai dengan 12, dengan inisiasi derajat keanggotaan (fuzzifier) sebesar 2 (secara default) dan batas toleransi yang sama (0,000001) untuk setiap jumlah kelompok serta maksimum iterasi sebanyak 1000 kali. Untuk semua jumlah kelompok atau c, dari c=2 sampai dengan c=12, GG memberikan nilai fungsi objektif yang jauh lebih besar daripada FCM (Lampiran 2 dan 3). Berdasarkan waktu komputasi, GG memerlukan waktu yang lebih lama dalam melakukan proses komputasi dibandingkan dengan FCM. Untuk jumlah cluster=2, waktu komputasi yang dibutuhkan GG mencapai 0,7423 detik, sedangkan FCM memerlukan waktu 0,1760 detik, demikian juga untuk jumlah kelompok=3 sampai 12, GG menunjukkan waktu komputasi yang lebih lama bila dibandingkan dengan FCM. Untuk melihat kesamaan di dalam kelompok dan perbedaan dengan kelompok yang lain, dinyatakan dalam SW yang minimum dan SB yang maksimum, sehingga berdasarkan rasio SW/SB yang kecil akan didapatkan ketepatan hasil pengelompokan yang lebih baik. Berdasarkan kriteria ini, FCM memberikan nilai rasio SW/SB yang lebih kecil dibanding GG pada semua jumlah kelompok. Pada saat c=2, nilai rasio SW/SB berdasarkan algoritma FCM adalah sebesar 0,5695, sedangkan berdasarkan algoritma GG sebesar 0,6658. Begitu juga untuk c=12, nilai rasio SW/SB berdasarkan algoritma FCM sebesar 0,2389, sedangkan berdasarkan algoritma GG sebesar 0,2643. Kesimpulan yang dapat diambil berdasarkan beberapa hasil pengelompokan, menggunakan algoritma FCM dan GG dengan beberapa kriteria di atas, maka penulis merekomendasikan algoritma FCM clustering untuk analisis kelompok lebih lanjut. 3.3 Rekomendasi Jumlah Cluster Optimal Setelah merekomendasikan metode FCM sebagai algoritma pengelompokan, berikutnya adalah bagaimana menentukan jumlah kelompok yang terbaik, dengan cara melakukan perbandingan dari beberapa indeks validitas yang ada untuk mengevaluasi hasil
20
Rudy Ramadani Syoer, Muhammad Mashuri
analisis kelompoknya secara kuantitatif sehingga didapatkan jumlah kelompok yang optimum. Hasil dari beberapa indeks validitas kelompok, disajikan secara lengkap pada Lampiran 4. Jumlah kelompok optimal umumnya ditunjukkan pada saat indeks validitas kelompok mencapai kondisi nilai minimum pertama di lembah pertama yang didapatkan. Nilai CE yang minimal sebesar 0,4365, yaitu pada saat jumlah kelompok sebanyak 2. Untuk PI, nilai minimal pertama di lembah pertama sebesar 1,3526 berada pada jumlah kelompok 5. Sedangkan untuk SI, nilai minimal pertama di lembah pertama adalah sebesar 0,0084 berada pada jumlah kelompok sebanyak 7. Begitu pula untuk indeks Xie Beni (XB), nilai minimal pertama di lembah pertama sebesar 4,3572, berada pada jumlah kelompok 3. Dan terakhir, menurut indeks Dunn (DI), nilai minimal pertama di lembah pertama adalah sebesar 0,0095, yaitu pada jumlah kelompok sebanyak 4. Dari beberapa indeks tersebut, jumlah kelompok yang optimal adalah sebanyak 2, 3, 4, 5, dan 7. Untuk menentukan berapa jumlah kelompok yang dipilih dari beberapa indeks tersebut, dalam beberapa literatur disebutkan: pertama, tidak ada indeks yang terbaik, sehingga referensi dari beberapa indeks validitas bisa dijadikan “acuan” untuk penentuan jumlah kelompok [2]; kedua, sesuai keperluan untuk penelitian, atau sesuai dengan kasus yang akan digunakan untuk tujuan peneliti. Sehingga berdasarkan pada kedua hal tersebut dan hasil pada Lampiran 4, maka kelompok yang dipilih adalah 5 buah. Jumlah kelompok tersebut dirasa sudah cukup untuk menjelaskan keragaman dan karakteristik kelompok data. 3.4 Interpretasi Hasil Pengelompokan Berdasarkan pembahasan sebelumnya, banyak kelompok ideal untuk menggolongkan karakteristik desa di Kabupaten Kutai Kartanegara adalah sebanyak 5. Kelompok atau cluster 1 terdiri dari ada 59 desa, kelompok 2 terdiri dari 61 desa, kelompok 3 terdiri dari 15 desa, kelompok 4 terdiri dari 56 desa dan kelompok 5 terdiri dari 36 buah desa. Karakteristik kelompok dapat digambarkan melalui pusat kelompok dan rata-rata kelompoknya (Tabel 2). Tabel 2. Karakteristik kelompok berdasarkan pusat kelompok Pusat Kelompok Variabel kelompok 1 kelompok 2 kelompok 3 kelompok 4 kelompok 5 factor score 1 0,3016 0,2070 0,2603 0,1454 0,5409 factor score 4 0,7574 0,5376 0,2421 0,7981 0,7415 Rata-rata 0,5295 0,3723 0,2512 0,4718 0,6412
Interpretasi kelompok dinilai berdasarkan ranking kelompoknya, yaitu dari ranking kelompok tertinggi ke ranking terendah, yang dihitung menggunakan fungsi RANK(Number, Ref, Order) dari perangkat lunak Microsof Office Excel. Setelah dilakukan ranking berdasarkan pusat kelompok, maka kelompok 3 merupakan kelompok yang paling rendah ranking-nya, sedangkan kelompok 5 adalah yang paling tinggi. Susunan ranking kelompok berdasarkan pusat kelompok atau centroid sesuai persamaan (1) sebagai berikut:
Analisis Kelompok Dengan Algoritma Fuzzy C-Means ...
21
0.7415 kelompok 5 ranking 1 0.7574 kelompok 1 ranking 2 0.7981 kelompok 4 ranking 3 0.5376 kelompok 2 ranking 4 0.2421 kelompok 3 ranking 5
(8)
0.5409 0.3016 centroid ( v i ) 0.1454 0.2070 0.2603
Berdasarkan ranking kelompok tersebut, maka interpretasi dari tiap-tiap kelompokkelompok yang ada, sebagai berikut: Kelompok 5 : Kelompok ini terdiri dari desa-desa yang paling maju ditinjau dari faktor sarana prasana desa dan faktor sosial ekonomi penduduknya termasuk akses di desa. Umumnya desa-desa yang ada dalam kelompok ini merupakan kategori daerah perkotaan. Kelompok ini memiliki nilai maksimum pada variabel X2, X3, X7, X21, X1, X15, dan X16. Artinya, kelompok ini terdiri dari desa-desa yang paling maju dibanding 4 kelompok desa lainnya. Kelompok 1 : Kelompok ini terdiri dari desa-desa yang cukup maju ditinjau dari faktor sarana prasana serta akses desa, termasuk faktor sosial ekonomi penduduknya. Kemajuan desa-desa yang ada dalam kelompok ini hampir menyamai kelompok 5, tetapi masih lebih rendah jika dibandingkan kelompok tersebut. Kelompok 4 : adalah kelompok desa-desa yang sedang majunya, tetapi secara keseluruhan nilai faktornya masih di atas kelompok 2 dan 3. Kelompok 2 : adalah kelompok desa-desa yang kurang maju, ditinjau dari aspek sarana prasana desa, serta akses di desa tersebut, termasuk keadaan sosial ekonomi penduduknya yang dicerminkan oleh rendahnya keluarga yang berlangganan listrik PLN dan tingginya persentase penduduk yang tinggal di bantaran sungai. Kelompok 3 : Kelompok ini terdiri dari desa-desa yang memiliki ciri-ciri daerah yang paling tertinggal dibanding kelompok lainnya. Desa-desa dalam kelompok ini memiliki nilai minimum pada semua variabel. Artinya, kelompok ini terdiri dari desa-desa yang paling tidak maju dibanding 4 kelompok desa lainnya.
4. Kesimpulan Berdasarkan hasil serta pembahasan, dapat diambil kesimpulan sebagai berikut: 1. Dengan menggunakan kriteria hasil pengelompokan yaitu nilai fungsi objektif, waktu komputasi dan rasio simpangan baku minimum dari dua algoritma metode clustering yang ada, yaitu FCM dan GG, maka lebih direkomendasikan penggunaan algoritma FCM clustering sebagai analisis kelompok. 2. Berdasarkan beberapa indeks validitas kelompok, maka jumlah kelompok yang paling optimal adalah sebesar 5 buah.
22
Rudy Ramadani Syoer, Muhammad Mashuri
3. Pembuatan aplikasi program FCM dan GG berbasis GUI dapat mendukung analisis data clustering, karena program ini telah dilengkapi dengan tampilan yang lebih praktis, efektif, atraktif dan user friendly.
Daftar Pustaka [1] [2] [3]
[4] [5] [6] [7]
[8]
[9] [10] [11] [12] [13]
[14] [15]
[16]
Abonyi, J. dan Szeifert, F., 2003, ”Supervised fuzzy clustering for the identification of fuzzzy classifiers”, Journal Elsevier, Vol. 24, hal. 2195-2207. Abonyi, J. dan Feil, B., 2007, Cluster Analysis for Data Mining and System Identification, Birkhäuser, Berin. Abonyi, J., Feil, B., dan Balasko, B., 2005, “Clustering and Data Analysis Toolbox”, The MathWorks, Inc., availabe at: http://www.mathworks.com/MATLABcentral, diakses Agustus 2011. Badan Pusat Statistik, 2005, Identifikasi dan Penentuan Desa Tertinggal Tahun 2005. Badan Pusat Statistik, Jakarta. Badan Pusat Statistik Provinsi Kalimantan Timur, 2010, Kalimantan Timur Dalam Angka 2010. Badan Pusat Statistik, Kalimantan Timur. Bezdek, J.C., 1981, Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York. Bezdek, J.C. and Dunn, J.C., 1975, “Optimal fuzzy partitions: a heuristic for estimating the parameters in a mixture of normal distrubutions”. IEEE Transactions on Computers, pages 835-838. Bunkers, M.J. and Miller, J.R., 1996, “Definition of climate regions in Northern Plains using an objective cluster modification technique”, Journal of Climate, vol.9, hal.130146. Gath, I. and Geva, A.B., 1989, “Unsupervised optimal fuzzy clustering”. IEEE Transactions on Pattern Analysis and Machine Intelligence, No.7, hal.773-781. Gustafson, D. and Kessel, W., 1979, “Fuzzy clustering with a fuzzy covariance matrix”, in: Proceedings of the IEEE CDC, San Diego, CA, USA, pages 761-766. Johnson, R.A. and Wichern, D.W., 2007, Applied Multivariate Statistical Analysis Sixth Edition. New Jersey : Prentice Hall International Inc. Kim, D.W., Lee, K.H., Lee, D., 2003, “Fuzzy cluster validation index based on intercluster proximity”, Pattern Recognition Lett., No.24, hal. 2561-2574. MacQueen, J., 1967, “Some methods for classification and analysis of multivariate observations”. In LeCam, L. and Neyman, J., editors, Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, Berkeley, volume 1, pages 281-297. Maxwell, B.A., Pryor F.L., dan Smith C., 2002, “Cluster analysis in cross-cultural research”, International Journal of World Cultures, No.13(1), hal. 22-38. Munaf, A.R.M.N.S., 2011, Pengelompokan Kabupaten/Kota di Jawa Timur Sebagai Dasar Perencanaan Pembiayaan Kegiatan Pendataan Lapangan Menggunakan Algoritma Fuzzy c-means dengan Modifikasi Formula Jarak, Tesis, Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya. Pedrycz, W., 2007, Advances in Fuzzy Clustering and its Applications. Edited by J.
Analisis Kelompok Dengan Algoritma Fuzzy C-Means ...
[17]
[18] [19] [20]
[21] [22]
23
Valente de Oliveira and John Wiley & Sons, Ltd. ISBN: 978-0-470-02760-8. University of Alberta, Canada Systems Research Institute of the Polish Academy of Sciences, Poland. Pravitasari, A. A., 2008, Analisis Pengelompokan dengan Fuzzy C-means (Kasus Pengelompokan Kecamatan di Kabupaten Tuban berdasarkan Tingkat Partisipasi Pendidikan), Tesis, Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya. Santosa, S., 2010, Statistik Multivariat: Konsep dan Aplikasi dengan SPSS, PT Elex Media Komputindo, Jakarta. Shihab, A. I., 2000, Fuzzy Clustering Algorithm and Their Applicaion to Medical Image Analysis, Dissertation, University of London, London. Wang, X.Y., Garibaldi, J.M., Bird, B., George, M.W., 2005, Fuzzy Clustering in Biochemical Analysis of Cancer Cells, Departement of Computer Science and IT, The University of Nottingham, United Kingdom. Xie, X.L. and Beni, G., 1991, “A validity measure for fuzzy clustering,” IEEE Trans, Pattern Anal, Mach. Intell. Zadeh, L. A., 1965, “Fuzzy Sets”. Information Control, vol 8, hal.338-353.
24
Rudy Ramadani Syoer, Muhammad Mashuri
Lampiran 1. Komponen Matriks Hasil Rotasi Variabel X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X20 X21
1 -0,046 0,742 0,651 0,357 0,040 0,421 0,645 0,164 0,078 0,470 -0,012 0,300 0,413 0,038 0,081 -0,209 -0,016 0,829
2 -0,060 0,055 0,332 0,555 0,738 0,135 0,361 0,317 0,118 0,340 0,558 0,308 0,676 -0,512 0,173 -0,108 0,046 -0,125
Komponen 3 -0,158 0,287 0,234 0,405 0,216 0,100 -0,138 0,769 0,737 0,508 0,367 -0,267 -0,024 -0,250 0,031 0,018 -0,055 0,101
4 -0,745 0,180 0,367 0,184 0,124 -0,100 0,026 0,054 0,133 0,101 -0,039 0,134 0,153 -0,344 0,704 -0,559 -0,056 0,030
5 -0,015 0,191 0,122 0,133 -0,023 0,414 -0,060 0,031 -0,054 0,311 0,085 0,528 -0,036 -0,317 0,363 0,376 -0,653 -0,002
Lampiran 2. Ukuran Hasil Pengelompokan dengan Algoritma FCM Clustering Jumlah Kelompok 2 3 4 5 6 7 8 9 10 11 12
Jumlah Iterasi 56 49 122 62 104 223 182 561 171 219 98
Fungsi Objektif 5,75 4,92 4,61 4,19 4,07 3,86 3,69 3,61 3,44 3,47 3,23
Waktu Komputasi (detik) 0,1760 0,2233 0,1971 0,2095 0,2506 0,2592 0,2446 0,3900 0,2850 0,3078 0,2678
Rasio SW/SB 0,5695 0,6100 0,4706 0,4015 0,3818 0,3639 0,3518 0,3342 0,3027 0,3068 0,2389
Analisis Kelompok Dengan Algoritma Fuzzy C-Means ...
Lampiran 3. Ukuran Hasil Pengelompokan dengan Algoritma GG Clustering Jumlah Kelompok 2 3 4 5 6 7 8 9 10 11 12
Jumlah Iterasi 75 111 155 356 96 131 129 309 107 131 94
Fungsi Objektif 1928,50 2229,50 2624,00 2402,50 2891,50 3274,80 3328,90 3425,60 3682,10 4100,20 3571,00
Waktu Komputasi (detik) 0,7423 0,8045 0,3845 0,3936 0,3513 0,4457 0,4758 1,0421 0,5484 0,6430 0,5914
Rasio SW/SB 0,6658 0,6279 0,3610 0,4196 0,4188 0,3837 0,4099 0,3154 0,2760 0,3161 0,2643
Lampiran 4. Nilai Indeks Validitas Cluster dengan metode FCM Jumlah Kelompok 2 3 4 5 6 7 8 9 10 11 12
CE 0,4365 0,6285 0,7833 0,8783 0,9697 1,0535 1,1211 1,1933 1,2138 1,3000 1,2657
PI 5,0294 2,3298 1,6448 1,3526 1,3565 1,2337 1,2234 1,1133 1,0167 1,1138 0,8305
SI 0,0222 0,0123 0,0122 0,0093 0,0085 0,0084 0,0098 0,0084 0,0079 0,0084 0,0067
Indeks XB 24,4015 4,3572 6,3373 3,9847 10,2942 3,6102 3,5482 3,5516 3,5698 4,0797 2,7943
Indeks Dunn 0,0128 0,0191 0,0095 0,0129 0,0121 0,0121 0,0042 0,0171 0,0183 0,0138 0,0352
25
26
Rudy Ramadani Syoer, Muhammad Mashuri