1
Seminar Nasional Teknologi Informasi 2011
KOMPARASI MODEL CLUSTERING MENGGUNAKAN METODE K-MEANS DAN FCM DALAM MENENTUKAN KUANTIFIKASI KRITERIA Dine Tiarakusuma, Iriansyah BM.Sangadji, Dewi Arianti W Teknik Informatika Sekolah Tinggi Teknik PLN Jl. Lingkar Luar Duri Kosambi, 11750 Indonesia email :
[email protected],
[email protected]
ABSTRACT Data mining is the mining or the discovery of new information by looking for patterns or certain rules of a number of huge amounts of data, which is expected to treat the condition. A large number of data that have not been used optimally. By utilizing data on the number of data source through clustering data mining techniques are expected to be a reference in helping decision makers and those involved in order to take accurate measures for any decision. Clustering data mining techniques used in this study is the method of K-Means and Fuzzy Clustering Means (FCM). Where data in the cluster formed by each of the rules of these two methods. Based on trials of the system that's been made it can be concluded that the use of models for data clustering can generate clusters in 2, 3, and 4 quantify the set of criteria. Key words: Comparison, Data Mining, Clustering, KMeans, FCM
1. Pendahuluan Pengumpulan dan penyimpanan data dalam suatu institusi secara terus menerus dapat menyebabkan penambahan data yang berdampak pada terjadinya penumpukan data dalam skala yang besar. Penumpukan data dalam skala yang besar ini tidak akan memberikan suatu nilai tambah dan tidak akan menghasilkan suatu aplikasi yang berguna jika data tersebut hanya tertumpuk begitu saja. Agar data tersebut dapat menghasilkan suatu yang berguna dan memiliki nilai tambah tersendiri maka
metode analisis dengan tujuan tertentu menjadi sangat dibutuhkan. Metode ini dapat mengelompokan data – data tersebut sesuai dengan kelas maupun kelompok nya masing – masing. STT-PLN memiliki sejumlah besar data yang tidak kecil maka dari itu agar data-data tersebut memiliki nilai tambah tersendiri, maka data itu dikelompokan agar dapat menjadi sebuah sistem aplikasi yang dapat berguna bagi orang-orang yang terkait dalam pegambilan keputusan.
2. Tujuan Tujuan dari penelitian ini adalah membandingkan dan menerapkan model – model klaster dalam menentukan kuantifikasi kriteria berdasarkan jurusan dan asal provinsi
3. Clustering Clustering adalah salah satu teknik unsupervised learning dimana kita tidak perlu melatih metode tersebut atau dengan kata lain, tidak ada fase learning. Tujuan dari metode clustering adalah untuk mengelompokkan sejumlah data atau objek kedalam klaster sehingga setiap klaster akan terisi data yang semirip mungkin[1]
3.1. K-Means Hasil percobaan sebaiknya ditampilkan dalam berupa grafik atau pun tabel. Untuk grafik dapat mengikuti format untuk diagram dan gambar.
3.3. Tabel Kuantifikasi Kriteria Mulai
Jumlah Cluster Masukan K Klaster
2 3
Titik Pusat
4
Jarak Objek ke titik Pusat
Pengelompokan berdasarkan jarak minimum
K-Means
FCM
Banyak Sedikit Banyak Cukup Sedikit Sangat Banyak Banyak Cukup Sedikit
Banyak Sedikit Banyak Cukup Sedikit Sangat Banyak Banyak Cukup Sedikit
Gambar 3 Kuantifikasi Kriteria
Objek mendekati titik minimum ?
Selesai
Gambar 1 Flowchart K-Mean
3.2. Fuzzy Clustering Means Mulai
Input Data Yang Akan di Cluster
Tentukan ukuran data
Tentukan jumlah cluster
Hitung jumlah tiap kolom
Hitung pusat cluster
Hitung Fungsi Objektif
Hitung perubahan matrix partisi
T Telah sampai syarat berhenti ?
Y Selesai
Gambar 2 Flowchart FCM
Cluster dengan kategori sangat banyak merupakan cluster provinsi dengan jumlah mahasiswa nya paling banyak Cluster dengan kategori banyak merupakan cluster provinsi dengan jumlah mahasiswa nya banyak Cluster dengan kategori cukup merupakan cluster provinsi dengan jumlah mahasiswa nya cukup Cluster dengan kategori sedikit merupakan cluster provinsi dengan jumlah mahasiswa nya paling sedikit atau bahkan tidak ada
Range nilai sangat banyak, banyak, cukup, dan sedikit bukan di tentukan dari mulai angka keberapa hingga angka keberapa. Akan tetapi clustering ini di tentukan dari aturan-aturan / langkah-langkah kerja dari kedua metode yang digunakan.
4. Metodologi Mulai
Analisis Masalah
Analisis Kebutuhan Sistem
Pengumpulan Data
Perancangan Sistem
Uji Coba Sistem
T
Gambar 5 Pola Data Diterima ?
6. Pembahasan Rancangan Sistem
Y
Perancangan Antar Muka
T
Diterima ?
Y Penulisan Laporan
Rancangan yang di buat merupakan rancangan system dari kedua metode yang digunakan yaitu metode KMeans dan Fuzzy Clustering Means (FCM) dengan jumlah cluster 2, 3, dan 4. Hasil dari rancangan system ini berupa grafik dan pengelompokan provinsi yang terbentuk sesuai dengan jumlah cluster masing-masing.
T
Disetujui ?
Y Selesai
Gambar 4 Metodologi Penelitian
5. Analisis Sistem Pengolahan kembali informasi dari data mahasiswa STT-PLN ini berdasarkan dari data-data yang ada . Hal ini agar dapat di buat suatu pengambilan keputusan yang di anggap paling mendekati akurat oleh pihak pengambilan keputusan. Sebagai contoh di ambil data mahasiswa untuk tahun 2009/2010 dan 2010/2011. Secara kasat mata data-data tersebut ada yang mengalami kenaikan dan ada juga yang mengalami penurunan jumlah mahasiswa masing-masing provinsi pada tahun 2009/2010 dan 2010/2011. Secara kasat mata data-data tersebut ada yang mengalami kenaikan dan ada juga yang mengalami penurunan jumlah mahasiswa masing-masing provinsi pada tahun 2009/2010 dan 2010/2011. Pola data yang terjadi adalah seperti pada gambar 4 dibawah ini ;
Gambar 6 Contoh Hasil Rancangan Tampilan
Hasil Pembahasan Dari hasil clustering 6 jurusan selama 2 tahun maka diperoleh kuantifikasi dari setiap himpunan yang ada di setiap jumlah cluster yaitu sebagai berikut : Tabel 1 Hasil Cluster S1 Elektro tahun 2009/2010 Jumlah Cluster 2 3
4
2009/2010 S1 ELEKTRO K-Means FCM Kriteria Jumlah Kriteria Jumlah Banyak 9 Banyak 9 Sedikit 25 Sedikit 25 Banyak 3 Banyak 3 Cukup 9 Cukup 10 Sedikit 22 Sedikit 21 Sangat 3 Sangat 3 Banyak Banyak Banyak 6 Banyak 5 Cukup 9 Cukup 10 Sedikit 16 Sedikit 16
Perbedaan K-Mean dan FCM terletak pada kriteria ketiga cukup dan sedikit. Juga terjadi pada banyak dan cukup pada ukuran 4 (empat) kriteria.
Perbedaan K-Mean dan FCM terletak pada kriteria kedua banyak dan sedikit. Juga terjadi pada sedikit pada ukuran 3 (tiga) kriteria. Tabel 4 Hasil Cluster S1 Sipil tahun 2009/2010 Jumlah Cluster 2 3
4
2009/2010 S1 SIPIL K-Means Keriteria Jumlah Banyak 10 Sedikit 24 Banyak 3 Cukup 7 Sedikit 24 Sangat Banyak Banyak 3 Cukup 7 Sedikit 24
FCM Keriteria Jumlah Banyak 10 Sedikit 24 Banyak 3 Cukup 7 Sedikit 24 Sangat Banyak Banyak 3 Cukup 7 Sedikit 24
Tidak ada perbedaan yang terjadi . Hal ini dimungkinkan karena data yang ada berjumlah kecil Tabel 5 Hasil Cluster D3 Elektro tahun 2009/2010
Tabel 2 Hasil Cluster S1 Mesin tahun 2009/2010 Jumlah Cluster 2 3
4
2009/2010 S1 Mesin K-Means Kriteria Jumlah Banyak 8 Sedikit 26 Banyak 6 Cukup 12 Sedikit 16 Sangat Banyak Banyak Cukup Sedikit
6 12 16
FCM Kriteria Jumlah Banyak 8 Sedikit 26 Banyak 6 Cukup 12 Sedikit 16 Sangat Banyak Banyak 6 Cukup 12 Sedikit 16
Tidak ada perbedaan yang terjadi . Hal ini dimungkinkan karena data yang ada berjumlah kecil.
Jumlah Cluster 2 3
4
2009/2010 D3 ELEKTRO K-Means FCM Keriteria Jumlah Keriteria Jumlah Banyak 11 Banyak 11 Sedikit 23 Sedikit 23 Banyak 19 Banyak 6 Cukup 9 Cukup 9 Sedikit 6 Sedikit 19 Sangat 1 Sangat 2 Banyak Banyak Banyak 6 Banyak 6 Cukup 9 Cukup 8 Sedikit 18 Sedikit 18
Perbedaan K-Mean dan FCM terletak pada kriteria keempat sangat banyak dan cukup. Tabel 6 Hasil Cluster D3 Mesin tahun 2009/2010
Tabel 3 Hasil Cluster S1 Informatika tahun 2009/2010 Jumlah Cluster 2 3
4
2009/2010 S1 INFORMATIKA K-Means FCM Keriteria Jumlah Keriteria Jumlah Banyak 8 Banyak 10 Sedikit 26 Sedikit 24 Banyak 5 Banyak 5 Cukup 8 Cukup 8 Sedikit 21 Sedikit 24 Sangat Banyak Sangat Banyak Banyak 5 Banyak 5 Cukup 8 Cukup 8 Sedikit
21
Sedikit
21
Jumlah Cluster 2 3
4
2009/2010 D3 MESIN K-Means Keriteria Jumlah Banyak 9 Sedikit 25 Banyak 4 Cukup 10 Sedikit 20 Sangat Banyak Banyak 3 Cukup 11 Sedikit 20
FCM Keriteria Jumlah Banyak 9 Sedikit 25 Banyak 3 Cukup 11 Sedikit 20 Sangat Banyak Banyak 2 Cukup 12 Sedikit 20
Perbedaan K-Mean dan FCM terletak pada kriteria ketiga banyak dan cukup. Juga terjadi pada banyak dan cukup sedikit pada ukuran 4 (empat) kriteria.
Perbedaan K-Mean dan FCM terletak pada kriteria ketiga banyak, cukup dan sedikit. Juga terjadi pada semua kriteria keempat.
Tabel 7 Hasil Cluster S1 Elektro tahun 2010/2011
Tabel 10 Hasil Cluster S1 Sipil tahun 2010/2011
Jumlah Keriteria 2 3
4
2010/2011 S1 ELEKTRO K-Means FCM Keriteria Jumlah Keriteria Jumlah Banyak 27 Banyak 22 Sedikit 7 Sedikit 12 Banyak 4 Banyak 4 Cukup 12 Cukup 12 Sedikit 18 Sedikit 18 Sangat 4 Sangat 3 Banyak Banyak Banyak 4 Banyak 4 Cukup 10 Cukup 11 Sedikit 16 Sedikit 16
Perbedaan K-Mean dan FCM terletak pada kriteria kedua banyak dan sedikit. Juga terjadi pada sangat banyak dan cukup pada ukuran 4 (empat) kriteria
Jumlah Keriteria 2 3
4
2010/2011 S1 SIPIL K-Means Keriteria Jumlah Banyak 9 Sedikit 24 Banyak 4 Cukup 6 Sedikit 24 Sangat Banyak Banyak 6 Cukup 4 Sedikit 24
FCM Keriteria Jumlah Banyak 10 Sedikit 24 Banyak 5 Cukup 5 Sedikit 24 Sangat Banyak Banyak 5 Cukup 5 Sedikit 24
Perbedaan K-Mean dan FCM terletak pada kriteria kedua banyak. Juga terjadi pada sangat banyak dan cukup pada ukuran 3 (tiga) kriteria. Dan Banyak cukup pada 4 (empat) kriteria.
Tabel 8 Hasil Cluster S1 Mesin tahun 2010/2011 Jumlah Keriteria 2 3
4
2010/2011 S1 MESIN K-Means Keriteria Jumlah Banyak 8 Sedikit 26 Banyak 3 Cukup 11 Sedikit 20 Sangat Banyak Banyak 3 Cukup 11 Sedikit 20
Tabel 11 Hasil Cluster D3 Elektro tahun 2010/2011 FCM Keriteria Jumlah Banyak 8 Sedikit 26 Banyak 3 Cukup 11 Sedikit 20 Sangat Banyak Banyak 3 Cukup 11 Sedikit 20
Tidak ada perbedaan yang terjadi . Hal ini dimungkinkan karena data yang ada berjumlah kecil.
Jumlah Keriteria 2 3
4
2010/2011 D3 ELEKTRO K-Means FCM Keriteria Jumlah Keriteria Jumlah Banyak 8 Banyak 12 Sedikit 26 Sedikit 22 Banyak 3 Banyak 3 Cukup 9 Cukup 9 Sedikit 22 Sedikit 22 Sangat 3 Sangat 3 Banyak Banyak Banyak 8 Banyak 7 Cukup 9 Cukup 9 Sedikit 15 Sedikit 15
Tidak ada perbedaan yang terjadi . Hal ini dimungkinkan karena data yang ada berjumlah kecil.
Tabel 9 Hasil Cluster S1 Informatika tahun 2010/2011 Jumlah Keriteria 2 3
4
2010/2011 S1 INFORMATIKA K-Means FCM Keriteria Jumlah Keriteria Jumlah Banyak 10 Banyak 10 Sedikit 24 Sedikit 24 Banyak 6 Banyak 7 Cukup 7 Cukup 8 Sedikit 21 Sedikit 19 Sangat 6 Sangat 4 Banyak Banyak Banyak 7 Banyak 5 Cukup 7 Cukup 6 Sedikit 14 Sedikit 19
Tabel 12 Hasil Cluster D3 Mesin tahun 2010/2011 Jumlah Keriteria 2 3
4
2010/2011 D3 MESIN K-Means Keriteria Jumlah Banyak 10 Sedikit 24 Banyak 2 Cukup 8 Sedikit 24 Sangat Banyak Banyak 2 Cukup 8 Sedikit 24
FCM Keriteria Jumlah Banyak 10 Sedikit 24 Banyak 2 Cukup 8 Sedikit 24 Sangat Banyak Banyak 2 Cukup 8 Sedikit 24
Tidak ada perbedaan yang terjadi . Hal ini dimungkinkan karena data yang ada berjumlah kecil.
7. Kesimpulan Kesimpulan yang didapat dari hasil penelitian ini adalah sebagai berikut : a. Pengelompokan data dengan model clustering dapat memaksimalkan pengelompokan kesamaan antar anggota dalam sebuah kelas, serta dapat meminimumkan kesamaan antar kelas-kelas / cluster-cluster, sehingga hasil clustering data mining dapat menjadi acuan dalam membantu mengambil keputusan dan mendapatkan gambaran provinsi mana saja yang layak untuk mendapatkan perhatian lebih untuk promosi STT-PLN di tahun selanjutnya. b. Implementasi dalam penggunaan metode K-Means dan FCM dapat menghasilkan kuantifikasi himpunan kriteria yang berbeda berdasarkan metode yang digunakan, sehingga perbedaan hasil model cluster K-Means dan FCM untuk tahun 2009/2010 dapat dilihat di jurusan S1 Elektro, S1 Informatika, D3 Elektro, dan D3 Mesin dan untuk tahun 2010/2011 dapat dilihat di jurusan S1 Elektro, S1 Informatika, dan S1 Sipil. c. Model clustering lebih terlihat perubahan kuantifikasi jika mengolah data yang relatif besar. Bagi Data yang jumlahnya relatif sedikit hampir tidak terlihat adanya perubahan kriteria, baik menggunakan metode K- means maupun FCM.
REFERENSI [1] Santosa, budi, dkk. 2007. Pemeliharaan Variabel dengan linier SVIM untuk Kasus Multikelas. Bidang Data Mining. Dikti. [2] Agusta, Yudi. 2007. “K-Means Penerapan Permasalahan & Metode Terkait”. Jurnal system & Informatika vol.3,46-60. STMIK STIKOM Bali Denpasar Bali. [3] Arhami, Muhammad dan Anita Desiani. 2005. Pemograman Matlab. Yogyakarta : Andi [4] Dewi, Sri Kusuma dan Hari Pramono. 2001. Aplikasi Logika Fuzzy Untuk Pendukung Keputusan . Yogyakarta : Graha Ilmu [5] Dewi, Sri Kusuma, dkk. 2006. Fuzzy Multi – Attribute Decission Making. Yogyakarta : Graha Ilmu [6] Dewi, Sri Kusuma. 2002. Analisis dan Design Sistem Fuzzy Menggunakan Toolbox Matlab. Yogyakarta : Graha Ilmu. [7] Holsape, C.W dan Whinson, A.B. 1996. Decision Support Systems. One Main Street : Cambridge [8] Mcleod, J. 2001. Counselling In The Workspace: the facts. A systematic study of The Research Evidence. Rugby : British Association For Conselling And Psychotherapy
[9] Pohan, Husni Iskandar, dan Kusnassriyanto Saiful Bahri. 1997. Pengantar Perancangan Sistem. Jakarta : Erlangga [10] Saaty, Thomas L. 2001. Decision Making With Dependence And Feed Back: The Analytical Network Process. Pittsburgh: university of Pittsburgh [11] Suryadi, Kadarsah.2002. System pengambilan keputusan. Jakarta : Rosda [12] Therling, K. 2006. An Introduction To Data Mning : Discovering Hiden Value In Your Data Warehouse. http://thearling.com/dminintro/dminintro_2.html accessed time 21 april 2011 [13] Johnson, R. A dan Wichern, D.W. 1998. Applied Multivariate Statistical Analysis, Fourth Edition, Prentice Hall Upper Saddle River: New Jersey