ANALISIS KELOMPOK DENGAN ALGORITMA FUZZY C-MEANS DAN GATH-GEVA CLUSTERING Studi Kasus Pengelompokkan Desa/Kelurahan di Kabupaten Kutai Kartanegara
Oleh Rudy Ramadani Syoer NRP: 1310 201 704 Pembimbing : Dr. Muhammad Mashuri, MT
Program Studi Magister - Jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya, 19 Desember 2011
OUTLINE PENDAHULUAN TINJAUAN PUSTAKA DAN DASAR TEORI METODE PENELITIAN
HASIL DAN PEMBAHASAN KESIMPULAN DAN SARAN DAFTAR PUSTAKA
Pendahuluan 3
Analisis pengelompokkan atau cluster analysis adalah salah satu
teknik statistik multivariat untuk mengelompokkan observasi/ objek yang banyak digunakan dalam berbagai disiplin ilmu (Shihab, 2000) dan penelitian (Maxwell, Pryor and Smith, 2002), (Wang et all., 2005). Fuzzy clustering melakukan pembobotan terhadap tingkat
keanggotaan himpunan fuzzy-nya (Bezdek dan Dunn, 1975), termasuk teknik ini: Fuzzy C-means (Bezdek, 1981), Gustafson-Kessel (1979) dan Gath-Geva (1989) mampu mendeteksi cluster dalam bentuk yang berbeda-beda. Penelitian: Kab.Kutai Kartanegara adalah salah satu kabupaten dgn
APBD terbesar dan penghasil migas terbesar tetapi memiliki penduduk miskin tertinggi di Kaltim (Kaltim Dalam Angka 2010). Seminar Tesis
Pendahuluan 4
Rumusan Masalah
Perbandingan algoritma FCM dan GG clustering Penentuan jumlah cluster yang tepat berdasarkan indeks validitas cluster Rancangan aplikasi GUI
Tujuan Penelitian Mengkaji perbandingan hasil pengelompokkkan dengan algoritma FCM dan GG clustering Merekomendasikan jumlah cluster yang tepat berdasarkan indeks validitas cluster sehingga dapat mengelompokkkan wilayah desa/kelurahan di Kab. Kutai Kartanegara Membangun aplikasi GUI untuk FCM dan GG
Seminar Tesis
KAJIAN PUSTAKA 5 Data:
Cluster:
x11 x X = 21 xN 1
x12 x22 xN 2
x1n x2 n X=kumpulan vektor pengamatan dimana: N=Jumlah objek penelitian xNn n=Jumlah variabel penelitian
sekelompok objek yang lebih “mirip” satu sama lain daripada anggota cluster lainnya → kemiripan merupakan fundamen dalam definisi cluster → penetapan “ukuran kemiripan” berupa norma jarak antara dua pola yaitu bentuk vektor data dengan objek cluster → belum diketahui, dicari dengan algoritma cluster c c Dik D xk , vi x k vi
2
x
i 1 i 1 Matlab → defaultnya Euclidean (bentuk spherical), bentuk lain dengan norma jarak : Mahalanobis → non spherical (hyperellipsoidal)
k
vi
2
Partisi Cluster: Hard Partition (Partisi Keras): didefinisikan sebagai keluarga himpunan bagian, yang sifatsifatnya sebagai berikut: Nilai derajat keanggotaan, uik, adalah 0 atau 1, data secara tegas dinyatakan sebagai anggota cluster yang satu dan tidak menjadi anggota cluster lainnya. c
N
i 1
k 1
uik 0,1, uik 1, 1 k N , 0 uik N 1, 1 i c, 2 c N ,
Fuzzy Partition (Partisi Lunak): masing-masing data item diberikan nilai kemungkinan untuk bisa bergabung ke setiap cluster yang ada, yang memungkinkan uik mencapai nilai riil [0,1]. uik 0,1 , 1 i c, 1 k N , Seminar Tesis
KAJIAN PUSTAKA 6
FCM clustering: Didasarkan pada konsep fuzzy (Zadeh, 1965) diusulkan oleh Dunn (1974) dan dikembangkan oleh
Bezdek (1981) mengalokasikan kembali data ke dalam masing-
masing cluster dengan cara fuzzy memperkenalkan suatu variabel m yang merupakan
weighting exponent dari membership function
Seminar Tesis
KAJIAN PUSTAKA : Algoritma FCM clustering 7
Menentukan inisial jumlah cluster, misalkan c. 2. Inisiasi U awal secara random dan menghitung centroid :
1.
3.
Menghitung distance measure
4.
Menghitung nilai fungsi keanggotaan data di masing-masing cluster dan hitung centroid baru:
5.
Kembali ke langkah 2, apabila perubahan nilai fungsi keanggotaan data masih di atas nilai threshold (ε ), atau perubahan nilai fungsi objektif masih di atas nilai threshold yang ditentukan (ε ). Nilai threshold adalah suatu nilai yang sangat kecil mendekati 0 (misal 0,000001). Seminar Tesis
.
KAJIAN PUSTAKA 8
GG clustering : Pertama kali diusulkan oleh Bezdek dan Dunn
(1975), kemudian Gath dan Geva (1989) meneliti lebih lanjut bahwa algoritma ini mampu mendeteksi cluster dari berbagai bentuk, ukuran dan kepadatan Algoritma fuzzy clustering ini menggunakan norma
jarak fuzzy maximum likelihood estimates (FMLE). Berbeda dengan algoritma Gustafson-Kessel (GK), norma jarak ini melibatkan aspek eksponensial menurunkan lebih cepat norma dalam
produk, sehingga partisi menjadi lebih fuzzy Seminar Tesis
KAJIAN PUSTAKA : Algoritma GG clustering 9
Menentukan inisial jumlah cluster, misalkan c. 2. Inisiasi U awal secara random dan menghitung centroid : 1.
3.
Menghitung distance measure D 2 ik
(2 )( /2) det Fwi
i
.
exp 1/ 2 x k vi Fwi1 x k v i T
4.
Menghitung nilai fungsi keanggotaan data di masing-masing cluster dan hitung centroid baru:
5.
Kembali ke langkah 2, apabila perubahan nilai fungsi keanggotaan data masih di atas nilai threshold (ε ), atau perubahan nilai fungsi objektif masih di atas nilai threshold yang ditentukan (ε ). Nilai threshold adalah suatu nilai yang sangat kecil mendekati 0 (misal 0,000001). Seminar Tesis
KAJIAN PUSTAKA 10
Indeks Validitas Cluster : Kriteria untuk menentukan jumlah cluster yang optimal dapat menggunakan indeks validitas cluster (Abonyi dan Feil, 2007) Bezdek (1974) menyarankan dua indeks validitas cluster untuk fuzzy clustering, yaitu partition coefficient (PC) 1 c N 2 PC (c) uik dan classification entropy (CE) yang N i 1 k 1 didefinisikan sebagai berikut: 1 c N CE (c) uik log uik N
i 1 k 1
Partition Index (PI): untuk membandingkan hasil pengelompokkan
di mana setiap kelompok memiliki banyak objek yang sama. Kelompok yang optimum diberikan oleh nilai PI yang minimum, sebagai berikut: u D x , v N
c
PI (c) i 1
k 1
m
ik
c
2 ik
Ni vi , v j
k
i
2
i 1
Seminar Tesis
KAJIAN PUSTAKA 11 Berbeda dengan partition index, separation index (SI) menggunakan minimum
jarak antar pusat cluster. Kriteria yang diberikan adalah sama, yaitu banyaknya c N 2 kelompok yang optimum diberikan oleh nilai uik Dik2 xk , vi SI (c) i 1 k 1 SI yang minimum, sebagai berikut: c 2 N min i ,k v k , v i i 1
Xie and Beni (1991). Indeks ini bertujuan mengukur rasio dari total variasi dalam
cluster dan pemisahan cluster. Jumlah optimal dari cluster dengan meminimalkan nilai indeks. Formulanya mirip dengan separation index, hanya saja nilai m dapat berubah-ubah. Indeks ini direkomendasikan oleh Duo, dkk (2007) karena dianggap memiliki ketepatan dan keandalan yang cukup tinggi u D x , v pada metode hard maupun fuzzy partition. XB(c) c
N
i 1 k 1
m
2 ik
ik
k
N min i ,k v k , v i
i
2
Indeks Dunn (DI). Indeks ini, asalnya diusulkan untuk mengidentifikasi
kekompakan dan pemisahan cluster, sehingga hasil dari cluster dapat dihitung kembali sebagai algoritma partisi keras. min xC , yC d ( x, y ) Formulanya adalah sebagai berikut: DI (c) min min ic
Seminar Tesis
jc ,i j max kc max x , yC d ( x, y) i
j
KAJIAN PUSTAKA 12
Analisis Faktor Analisis faktor merupakan salah satu teknik statistik untuk menyederhanakan deskripsi dari suatu set data (variabel) yang banyak dan saling berkorelasi menjadi set data yang ringkas dan tidak lagi berkorelasi. Analisis ini berguna untuk meneliti keterkaitan peubah-peubah dalam satu set data. Analisis faktor pada dasarnya bertujuan untuk mendapatkan sejumlah kecil faktor (Johnson and Wichern, 2007), notasi dalam matriks ditulis sbb: X L F ( px1)
( pxm ) ( mx1)
( px1)
Menurut Kaiser dalam Morrison (1978), syarat untuk dapat melakukan
analisis faktor adalah data dari peubah-peubah yang dianalisis harus memiliki nilai statistik Kaiser-Meyer-Olkin (KMO) minimal sebesar 0,5. Seringkali variabel memiliki nilai yang hampir sama dan nampak tidak mempunyai korelasi dengan faktor manapun, sehingga dilakukan suatu rotasi sampai struktur yang lebih sederhana diperoleh, dengan cara merotasi matriks loading yaitu antara lain dengan: rotasi orthogonal varimax yaitu rotasi yang menyederhanakan kolom dalam matriks faktor. Seminar Tesis
KAJIAN PUSTAKA 13
Fuzzy Toolbox dan Aplikasi GUI Perangkat lunak Matlab dapat digunakan sebagai alat bantu untuk pembuatan program aplikasi berupa toolbox dan semacamnya menggunakan bantuan Mathworks toolbox. Perangkat lunak Matlab juga mendukung Graphical User Interface (GUI) dengan modul yang dimilikinya yaitu GUI Builer atau GUIDE. Berdasarkan Matworks Toolbox yang dapat diundah secara gratis pada laman Matlab yang lebih dikenal sebagai MATLAB CENTRAL yang merupakan situs resmi dari The MathWorks Inc., produsen pembuat software Matlab, menyediakan berbagai toolbox yang berkaitan dengan metode clustering dan dapat dipergunakan untuk analisis penglompokkan menggunakan bermacam-macam algoritma yang berbeda-beda seperi Kmeans, K-medoid, Fuzzy C-means (FCM), Gustafson-Kessel (GK), dan GathGeva (GG) termasuk pula cluster validity-nya. Penggunaan algoritma FCM dan GG dalam tulisan ini, didasarkan pada Clustering and Data Analysis Toolbox yang diterbitkan oleh Janos Abonyi dkk. pada April 2005 (Abonyi, J., Feil, B., dan Balasko, B., 2005). Seminar Tesis
Metode Penelitian 14
Seminar Tesis
KAJIAN PUSTAKA 15 Skrip Matlab (Pure Script): Menjalankan skrip Matlab secara langsung. Cara ini terdiri dari beberapa kumpulan mfiles sebagai berikut: FCMcall.m, FCMclust.m, Data_normalize.m, Clusteval.m, Validity.m, GGcall.m, GGcl ust.m, dan Grouping.m, untuk mengelompokkan matriks U sehingga dapat digunakan untuk mencari besaran rasio SW/SB. Perintah untuk menjalankan programnya yaitu dengan menginputkan parameter berikut ke dalam syntax program FCMcall (untuk pengolahan menggunakan FCM) atau GGcall (untuk pengolahan menggunkanan GG). Misalnya jika ingin mengelompokkan objek menjadi 5 cluster, maka pada baris program dapat diinputkan data beserta parameter sebagai berikut:
Aplikasi GUI menggunakan GUIDE Matlab: ada perbedaan sedikit dalam pembuatan m-files maupun modifikasinya untuk pogram aplikasi GUI karena menggunakan interface yang berbeda yaitu dengan menggunakan file figure. Seminar Tesis
KAJIAN PUSTAKA 16
Identifikasi Variabel menurut Kriteria BPS Badan Pusat Statistik (BPS) dari tahun 1976 telah melakukan penghitungan jumlah dan persentase penduduk miskin. BPS melakukan penghitungan desa tertinggal sebagai proksi identifikasi daerah kantong-kantong kemiskinan. Untuk itu, pada tahun 2003, BPS melakukan penentuan desa-desa tertinggal. Untuk membangun suatu model desa tertinggal diperlukan data PODES, berdasarkan faktor penentu ketertinggalan. Faktor tersebut selanjutnya dijabarkan berdasarkan variabel-variabel yang ada dalam data PODES, yang diidentifikasi mencakup 45 variabel. Pemilihan dilandasi bahwa secara substantif variabel tersebut merupakan karakteristik dan determinan kemiskinan suatu wilayah (Mubyarto dkk (1999), Irawan, (2003), dan Word Bank Institute (2002)). Tidak semua data bisa diolah, karena jenis datanya bersifat kategorik . Contoh : variabel klasifikasi desa (data kategorik) dan variabel persen keluarga tinggal di lahan kritis (data ini tidak tersedia dalam PODES 2008). Sehingga akhirnya, ditetapkan variabel penelitian sebanyak 21 buah. Seminar Tesis
Metode Penelitian 17
Jenis dan Sumber Data: Data yang digunakan dalam penelitian ini adalah data hasil pendataan Potensi Desa (PODES) di Kabupaten Kutai Kartanegara tahun 2008. Perapihan data dilakukan dengan menggunakan software Statistical Package for Social Science (SPSS) 17 for windows dan algoritma clustering dibuat menggunakan software Matlab versi 7.8 (2009b). Variabel Penelitian: Pengelompokkan desa berdasarkan kondisi desa yang diharapkan mampu menerangkan keragaman antar desa semaksimal mungkin, dapat diidentifikasi menjadi dua faktor yaitu : 1) faktor sarana prasarana dan akses, dan 2) faktor sosial ekonomi penduduk. Kedua faktor tersebut selanjutnya dijabarkan berdasarkan variabel-variabel yang ada dalam PODES 2008 dan dipilih berdasarkan pada penelitian BPS yang menyatakan secara substantif karakteristik dan determinan ketertinggalan atau kemiskinan suatu wilayah (BPS, 2005).
Seminar Tesis
Metode Penelitian 18 Setelah diidentifikasi dan dievaluasi menjadi sebanyak 21 variabel, sebagai berikut: X1 = Jarak dari desa ke ibukota kecamatan yang membawahi. X2 = Ketersediaan sarana pendidikan (Jumlah SD Negeri/sederajat). X3 = Ketersediaan sarana kesehatan (Jumlah Posyandu). X4 = Ketersediaan tenaga kesehatan (Jumlah Bidan). X5 = Persen keluarga berlangganan telepon kabel. X6 = Industri kecil dan kerajinan rumahtangga (Industri kayu). X7 = Pasar tanpa bangunan. X8 = Jumlah Mini market. X9 = Restoran/rumah makan. X10 = Jumlah Toko/warung kelontong. X11 = Penginapan/motel/losmen. X12 = Jumlah Koperasi. X13 = Kualitas bangunan rumah permanen. X14 = Persen keluarga pertanian. X15 = Persen keluarga pengguna listrik (PLN). X16 = Persen keluarga yang bertempat tinggal di bantaran/tepi sungai. X17 = Persen keluarga yang bertempat tinggal di bawah jaringan Listrik tegangan tinggi (>500 KV). X18 = Persen keluarga tinggal di pemukiman kumuh. X19 = Persen penderita gizi buruk dalam 3 tahun terakhir. X20= Persen keluarga yang menerima kartu ASKESKIN dalam setahun Terakhir X21 = Jumlah tempat ibadah.
Seminar Tesis
Metode Penelitian 19 Tahapan Analisis Data: Mengkaji Hasil Pengelompokkan a. Perapihan data (standarisasi dan faktorisasi) b. Menyajikan data dalam matriks ukuran N x n c. Inputing data dan parameter d. Penerapan algoritma FCM clustering e. Ulangi langkah d untuk algoritma GG clustering
Merekomendasikan Jumlah Cluster Optimal a. Menghitung nilai indeks validitas b. Ulangi untuk c=3 sampai cmax c. Rekomendasi jumlah kelompok optimum berdasarkan langkah a dan b
Membangun Aplikasi GUI a. Perancangan antarmuka untuk aplikasi FCM dan GG b. Membuat m-files dan file figure aplikasi GUI c. Inputing data dan parameter dari Aplikasi GUI Seminar Tesis
20
NAMA APLIKASI : FCM DAN GG CLUSTERING GRAFIK PENGELOMPOKKAN FCM DATA YANG DIGUNAKAN
GRAFIK FUNGSI OBJEKTIF FCM
GRAFIK FUNGSI OBJEKTIF GG
MATRIKS DERAJAT KEANGGOTAAN FCM
PANEL INPUT:panggil data, jumlah cluster, Fuzzifier, batas toleransi, maksimum iterasi
HASIL PENGEL OMPOK KAN FCM
PANEL OUTPUT1: Ukuran Hasil Kelompok
Seminar Tesis
PANEL METODE: - FCM -Gath-Geva Tombol Keluar
GRAFIK PENGELOMPOKKAN GG
HASIL PENGEL OMPOK KAN GG
MATRIKS DERAJAT KEANGGOTAAN GG
PANEL OUTPUT2: indeks validitas cluster
21
Seminar Tesis
Hasil dan Pembahasan 22
• melalui bantuan GUI builder (GUIDE) yang ada dalam perangkat
lunak Matlab, dapat dihasilkan program aplikasi sebagai berikut:
Seminar Tesis
Hasil dan Pembahasan 23
Cara kerja Aplikasi: • Setelah masuk ke Matlab, buka m-files “AplikasiFCMdanGG.m” lalu jalankan program aplikasi dengan cara menekan tombol F5 atau tombol dari Editor Toolbar Matlab. • Setelah muncul aplikasi, lalu tekan tombol berikut. Maka program akan meminta memasukkan file untuk data yang berekstensi txt (*.txt). Setelah memasukkan data, maka tabel “data” otomatis akan berisi file txt tersebut.
Seminar Tesis
Hasil dan Pembahasan 24
• Selanjutnya isikan jumlah kelompok, derajat keanggotaan, batas
toleransi dan jumlah iterasi maksimal yang diinginkan, jika tidak diisi, maka secara default akan berisi nilai 2, 2, 0.000001 dan 1000 sebagai berikut: • Kemudian tekan tombol popupmenu Metode Clustering untuk memilih metode apa yang akan digunakan, misalnya dipilih metode Gath-Geva sebagai berikut:
Seminar Tesis
Hasil dan Pembahasan 25
• Lalu terakhir, tekan tombol start berikut
, maka tampilan program aplikasi akan berbentuk sebagai berikut:
Seminar Tesis
Hasil dan Pembahasan 26
• Deskripsi dan reduksi variabel •
Interpretasi dan Reduksi Variabel dengan Analisis Faktor:
Tabel 4.2 Total Varians yang Dapat Dijelaskan Inisial Eigenvalues Komponen
Total
Persentase Varians
Persentase Kumulatif
Tabel 4.3 Komponen Matriks Hasil Rotasi Komponen
Variabel
1
2
3
4
5
X1
-0,046
-0,060
-0,158
-0,745
-0,015
X2
0,742
0,055
0,287
0,180
0,191
X3
0,651
0,332
0,234
0,367
0,122
X4
0,357
0,555
0,405
0,184
0,133
X5
0,040
0,738
0,216
0,124
-0,023
1
5,557
30,872
30,872
2
1,692
9,403
40,275
X6
0,421
0,135
0,100
-0,100
0,414
3
1,317
7,314
47,589
X7
0,645
0,361
-0,138
0,026
-0,060
X8
0,164
0,317
0,769
0,054
0,031
4
1,199
6,658
54,247
X9
0,078
0,118
0,737
0,133
-0,054
5
1,021
5,672
59,919
X10
0,470
0,340
0,508
0,101
0,311
X11
-0,012
0,558
0,367
-0,039
0,085
X12
0,300
0,308
-0,267
0,134
0,528
X13
0,413
0,676
-0,024
0,153
-0,036
X14
0,038
-0,512
-0,250
-0,344
-0,317
X15
0,081
0,173
0,031
0,704
0,363
X16
-0,209
-0,108
0,018
-0,559
0,376
X20
-0,016
0,046
-0,055
-0,056
-0,653
X21
0,829
-0,125
0,101
0,030
-0,002
•
Penentuan Factor Score:
Seminar Tesis
Hasil dan Pembahasan 27
• Rekomendasi Metode Clustering Terbaik
FCM Jumlah Kelompok
Jumlah Iterasi
Fungsi Objektif
GG
Waktu Komputasi (detik)
Rasio
SW/SB
Jumlah Kelompok
Jumlah Iterasi
Fungsi Objektif
Waktu Komputasi (detik)
Rasio
SW/SB
2
56
5,75
0,1760
0,5695
2
75
1928,50
0,7423
0,6658
3
49
4,92
0,2233
0,6100
3
111
2229,50
0,8045
0,6279
4
122
4,61
0,1971
0,4706
4
155
2624,00
0,3845
0,3610
5
62
4,19
0,2095
0,4015
5
356
2402,50
0,3936
0,4196
6
104
4,07
0,2506
0,3818
6
96
2891,50
0,3513
0,4188
7
223
3,86
0,2592
0,3639
7
131
3274,80
0,4457
0,3837
8
182
3,69
0,2446
0,3518
8
129
3328,90
0,4758
0,4099
9
561
3,61
0,3900
0,3342
9
309
3425,60
1,0421
0,3154
10
171
3,44
0,2850
0,3027
10
107
3682,10
0,5484
0,2760
11
219
3,47
0,3078
0,3068
11
131
4100,20
0,6430
0,3161
12
98
3,23
0,2678
0,2389
12
94
3571,00
0,5914
0,2643
Seminar Tesis
Hasil dan Pembahasan 28
• Rekomendasi Jumlah Cluster Optimal: Jumlah kelompok optimal umumnya ditunjukkan oleh indeks validitas cluster saat mencapai kondisi nilai minimum pertama di lembah pertama yang didapatkan (Pravitasari, 2008), (Munaf, 2011)
Tabel 4.6 Nilai Indeks Validitas Cluster dengan metode FCM Jumlah Indeks Indeks CE PI SI Kelompok XB Dunn 2
0,4365
5,0294
0,0222
24,4015
0,0128
3
0,6285
2,3298
0,0123
4,3572
0,0191
4
0,7833
1,6448
0,0122
6,3373
0,0095
5
0,8783
1,3526
0,0093
3,9847
0,0129
6
0,9697
1,3565
0,0085
10,2942
0,0121
7
1,0535
1,2337
0,0084
3,6102
0,0121
8
1,1211
1,2234
0,0098
3,5482
0,0042
9
1,1933
1,1133
0,0084
3,5516
0,0171
10
1,2138
1,0167
0,0079
3,5698
0,0183
11
1,3000
1,1138
0,0084
4,0797
0,0138
12
1,2657
0,8305
0,0067
2,7943
0,0352
• Berdasarkan Tabel 4.6, terlihat bahwa
dengan partition index (PI), nilai minimal pertama di lembah pertama sebesar 1,3526 berada pada jumlah cluster 5 6 Partition Index (PI)
•
5
4 3
2 1
0 2
Seminar Tesis
3
4
5
6 7 8 9 10 Jumlah Kelompok
11
12
Hasil dan Pembahasan 29
• Interpretasi Hasil Pengelompokkan Kelompok atau cluster 1 ditandai dengan warna hijau muda, kelompok 2 ditandai oleh warna coklat muda, kelompok 3 ditandai oleh warna merah, kelompok 4 ditandai oleh warna kuning, dan kelompok 5 ditandai dengan warna biru muda
•
•
Seminar Tesis
Dari peta wilayah desa tersebut terlihat, bahwa kelompok 1 terdiri dari ada 59 desa, kelompok 2 terdiri dari 61 desa, kelompok 3 terdiri dari 15 desa, kelompok 4 terdiri dari 56 desa dan kelompok 5 terdiri dari 36 buah desa
Hasil dan Pembahasan 30
• Interpretasi Hasil Pengelompokkan •
Karakteristik kelompok dapat digambarkan melalui pusat kelompok dan rata-rata kelompoknya Tabel 4.8 Karakteristik Kelompok berdasarkan Pusat Kelompok Pusat Kelompok
Variabel factor
cluster 1
cluster 2
cluster 3
cluster 4
cluster 5
0,3016
0,2070
0,2603
0,1454
0,5409
0,7574
0,5376
0,2421
0,7981
0,7415
score 1 factor
score 4
0.3016 0.2070 centroid ( v i ) 0.2603 0.1454 0.5409
0.7574 ranking 2 0.5376 ranking 4 0.2421 ranking 5 0.7981 ranking 3 0.7415 ranking 1
Seminar Tesis
•
Setelah dilakukan ranking berdasarkan pusat cluster, maka kelompok 3 dengan karakteristik factor score 1 dan 4 merupakan kelompok yang paling rendah ranking-nya, sedangkan kelompok 5 adalah yang paling tinggi. Susunan ranking kelompok berdasarkan pusat kelompok atau centroid-nya sbb:
Hasil dan Pembahasan 31
• Interpretasi Hasil Pengelompokkan Berdasarkan ranking kelompok tersebut, maka dapat diinterpretasikan karakteristik dari tiap-tiap kelompok-kelompok yang ada, yang diurutkan menurut ranking-nya sebagai berikut:
Kelompok 5 : Kelompok ini terdiri dari desa-desa yang paling maju ditinjau dari faktor sarana prasana desa dan faktor sosial ekonomi penduduknya termasuk akses di desa. Umumnya desa-desa yang ada dalam kelompok ini merupakan kategori daerah perkotaan. Kelompok ini memiliki nilai maksimum pada variabel X2, X3, X7, X21, X1, X15, dan X16. Artinya, kelompok ini terdiri dari desa-desa yang paling maju dibanding 4 kelompok desa lainnya. Kelompok 1 : Kelompok ini terdiri dari desa-desa yang cukup maju ditinjau dari faktor sarana prasana serta akses desa, termasuk faktor sosial ekonomi penduduknya. Kemajuan desa-desa yang ada dalam kelompok ini hampir menyamai kelompok 5, tetapi masih lebih rendah jika dibandingkan kelompok tersebut. Kelompok 4 : adalah kelompok desa-desa yang sedang majunya, tetapi secara keseluruhan nilai faktornya masih di atas kelompok 2 dan 3. Kelompok 2 : adalah kelompok desa-desa yang kurang maju, ditinjau dari aspek sarana prasana desa, serta akses di desa tersebut, termasuk keadaan sosial ekonomi penduduknya yang dicerminkan oleh rendahnya keluarga yang berlangganan listrik PLN dan tingginya persentase penduduk yang tinggal di bantaran sungai. Kelompok 3 : Kelompok ini terdiri dari desa-desa yang yang memiliki ciri-ciri daerah yang paling tertinggal dibanding kelompok lainnya. Desa-desa dalam kelompok ini memiliki nilai minimum pada semua variabel. Artinya, kelompok ini terdiri dari desa-desa yang paling tidak maju dibanding 4 kelompok desa lainnya. Seminar Tesis
Hasil dan Pembahasan 32
KESIMPULAN DAN SARAN Kesimpulan: •
Berdasarkan beberapa kriteria hasil pengelompokkan dari dua algoritma metode clustering, yaitu FCM dan GG, merekomendasikan analisis kelompok menggunakan algoritma FCM clustering dalam penelitian ini.
•
Kesimpulan ini diambil, karena FCM memiliki nilai yang lebih baik dibanding GG berdasarkan kriteria fungsi objektif, waktu komputasi dan rasio simpangan baku. Nilai fungsi objektif dari metode FCM jauh lebih kecil dibanding GG, begitu pula waktu komputasi FCM secara umum memerlukan waktu yang lebih singkat dibanding GG. Adapun berdasarkan nilai simpangan baku, walaupun secara rata-rata nilai FCM tidak terlalu jauh bedanya dibanding GG, tetapi FCM masih di bawah GG, hampir di seluruh pengamatan atau di semua jumlah kelompok.
•
Untuk penentuan jumlah kelompok yang optimal, berdasarkan beberapa indeks validitas cluster yang ada, disimpulkan jumlah kelompok atau cluster yang paling optimal adalah sebesar 5 kelompok.
•
Pembuatan aplikasi program FCM dan GG berbasis GUI cukup mendukung pengolahan data clustering, karena program ini telah dilengkapi dengan tampilan yang lebih praktis, efektif, atraktif dan user friendly, sehingga membantu penulis, dalam melakukan analisis cluster menggunakan algoritma FCM dan GG. Aplikasi GUI ini juga dapat membantu pengguna lain dalam melakukan penelitian yang sama dengan kasus berbeda, yang menggunakan data, jumlah kelompok, maupun parameter yang berbeda. Seminar Tesis
Hasil dan Pembahasan 33
KESIMPULAN DAN SARAN Saran: •
Perbandingan metode clustering FCM dengan metode lainnya sudah banyak dilakukan oleh para peneliti, yang menunjukkan keunggulan metode ini dibandingkan dengan metode-metode clustering nonhierarki lainnya yang sudah ada yang juga mengusung penggunaan konsep fuzzy, contohnya algoritma gustafson-kessel, fuzzy c-sell, maupun Gath-Geva clustering. Sehingga penulis menyarankan untuk membandingkan metode ini dengan metode yang lebih baru lainnya, misalnya seperti membandingkan FCM dengan Ruspini’s Method ataupun dengan Relational Clustering (Miyamoto el al., 2008).
•
Menggunakan data dengan lebih dari satu kasus, untuk membandingkan hasil pengelompokkannya. Sehingga baik metode, output maupun indeks validitasnya, dapat dibandingkan dengan kasus lain yang berbeda, untuk menguji apakah memang kriteriakriteria tersebut lebih baik jika ada pembanding dalam kasus lainnya.
•
Penggunakan beberapa indeks validitas cluster baru lainnya seperti Kim index dan indeks yang diusulkan oleh Rezaee (Rezaee, 2010). Sehingga diharapkan akan dapat lebih menangkap tingkat keeefektifan dan realibilitas dalam penentuan jumlah cluster secara optimal.
•
Melibatkan aspek spasial dalam mengelompokkan objek wilayah, sehingga pengaruh spasial tersebut dapat diperhitungkan dalam analisis kelompok.
•
Meng-compile aplikasi GUI ke dalam executable file sehingga dapat dijalankan langsung dari Windows Explorer atau common prompt tanpa bantuan perangkat lunak Matlab.
Seminar Tesis
DAFTAR PUSTAKA 34 Abonyi, J. dan Szeifert, F. (2003). ”Supervised Fuzzy Clustering for the Identification of Fuzzzy Classifiers”, Journal Elsevier, Vol. 24, 2195-2207. Badan Pusat Statistik Provinsi Kalimantan Timur. (2010). Kalimantan Timur Dalam Angka 2010. Badan Pusat Statistik, Kalimantan Timur. Bezdek, J.C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York. Bezdek, J.C. and Dunn, J.C. (1975). Optimal fuzzy partitions: A heuristic for estimating the parameters in a mixture of normal dustrubutions. IEEE Transactions on Computers, pages 835-838. Gath, I. and Geva, A.B. (1989). Unsupervised optimal fuzzy clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 7:773-781.
Gustafson, D. and Kessel, W. (1979). Fuzzy clustering with a fuzzy covariance matrix, in: Proceedings of the IEEE CDC, San Diego, CA, USA, pages 761-766. Johnson, R.A. and Wichern, D.W. (2007). Applied Multivariate Statistical Analysis - Sixth Edition. New Jersey : Prentice Hall International Inc. Seminar Tesis
DAFTAR PUSTAKA 35 Kim, D.W., Lee, K.H., Lee, D. (2003). Fuzzy cluster validation index based on inter-cluster proximity, Pattern Recognition Lett. 24 2561-2574.
Kusumadewi, Sri dan Hartati, Sri. (2010). Neuro Fuzzy, Integrasi Sistem Fuzzy dan Jaringan Syaraf. Yogyakarta : Graha Ilmu. MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. In LeCam, L. and Neyman, J., editors, Proceedings of the Fifth Berkeley Symposium on Mathematical statistics and probability, volume 1, pages 281-297, Berkeley. University of California Press.
Maxwell, B.A., Pryor F.L., dan Smith C.. (2002). Cluster Analysis In Cross-Cultural Research”, International Journal of World Cultures 13(1): 22-38. Pedrycz, W. (2007). Advances in Fuzzy Clustering and its Applications. Edited by J. Valente de Oliveira and John Wiley & Sons, Ltd. ISBN: 978-0-470-02760-8. University of Alberta, Canada Systems Research Institute of the Polish Academy of Sciences, Poland. Pravitasari, A. A., (2008), ANALISIS PENGELOMPOKKAN DENGAN FUZZY C-MEANS CLUSTER (Kasus Pengelompokkan Kecamatan di Kabupaten Tuban berdasarkan Tingkat Partisipasi Pendidikan), Thesis, Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya. Seminar Tesis
DAFTAR PUSTAKA 36 Ravi, V., Srinivas, E.R. dan Kasabov. N.K.(2007). ”On-Line Evolving Fuzzy Clustering”, IEEE, International Conference on Computational Intelegence and Multimedia Application.347-351. Rezaee, B. (2010). A Cluster Validity Index for Fuzzy Clustering. Jurnal Fuzzy Sets and Systems, Elsivier, Departement of Industrial Engineering, Bojnord University, Iran, hal. 3014-3025. Santosa, Budi (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta : Graha Ilmu. Santosa, Singgih (2010). Statistik Multivariat: Konsep dan Aplikasi dengan SPSS. Jakarta : PT Elex Media Komputindo. Shihab, A. I. (2000). Fuzzy Clustering Algorithm and Their Applicaion to Medical Image Analysis, Dissertation, University of London, London. Xie, X.L. and Beni, G. (1991). A validity measure for fuzzy clustering, IEEE Trans. Pattern Anal. Mach. Intell. Zadeh, L. A. (1965), “Fuzzy Sets”. Information Control, vol 8, 338-353.
Seminar Tesis
37
TERIMA KASIH
Seminar Tesis