PENERAPAN ALGORITMA K-MEANS DALAM CLUSTERING DATA MINING PADA PENENTUAN KELOMPOK UANG KULIAH TUNGGAL (UKT) DI UNIVERSITAS SILIWANGI
Nita Paramita Rukmana, Acep Irham Gufroni, dan Alam Rahmatulloh Teknik Informatika Universitas Siliwangi Tasikmalaya Email :
[email protected] ABSTRACT Based on form letter of Director General of Higher Education Number 97/E/KU on February 5 th, 2013, instructs all Universities to conduct two things. Those are to repeal entrance fee and to assign Tarif Uang Kuliah (UKT) for University students of S1 and D3. Based on interview result with internal parts in Siliwangi University, in the implementation of UKT is found that there are some mistakes in collecting the data that are not appropriate with family finances in determination of UKT. This case rises the complaint from the parents who think UKT that has been determined is not appropriate. This research aims at grouping UKT data of University students in Siliwangi University by taking advantage of data mining process by using Clustering technique. Algorithm used to form cluster is Algorithm of K-Means. K-Means is one of methods of non-hierarchical clustering data that can group the students’ data into some clusters based on the similarity of those data so that the students’ data that have similar characteristic are grouped in one cluster, and those data that have different characteristic are grouped in another cluster. Therefore the benefit from grouping using K-means can help the parts that concern to know the grouping of UKT, in determination of UKT as well as being reference in creating the rule of UKT grouping. Keywords : UKT, Siliwangi University, Data Mining, Clustering, K-means. ABSTRAK Berdasarkan Surat Edaran Dirjen Dikti Nomor 97/E/KU/2013 tertanggal 5 Febuari 2013, menginstruksikan kepada seluruh Perguruan Tinggi di Indonesia untuk melakukan dua hal yakni menghapus uang pangkal serta menetapkan dan melaksanakan tarif Uang Kuliah Tunggal (UKT) bagi mahasiswa baru S1 dan D3. Berdasarkan hasil wawancara dengan pihak internal Universitas Siliwangi bahwa dalam pelaksanaan UKT ditemukan ada beberapa kesalahan dalam pengumpulan data yang tidak sesuai dengan keuangan keluarga dalam penentuan kelompok UKT. Hal ini menimbulkan komplain dari orang tua wali yang merasa UKT yang ditetapkan tidak tepat. Penelitian ini bertujuan untuk melakukan pengelompokan terhadap data UKT mahasiswa Universitas Siliwangi dengan memanfaatkan proses data mining dengan menggunakan teknik Clustering. Algoritma yang digunakan untuk pembentukan cluster adalah algoritma K-Means. K-Means merupakan salah satu metode data non-hierarchical clustering yang dapat mengelompokkan data mahasiswa ke dalam beberapa cluster berdasarkan kemiripan dari data tersebut, sehingga data mahasiswa yang memiliki karakteristik yang sama dikelompokan dalam satu cluster dan yang memiliki karakteristik yang berbeda dikelompokan dalam cluster yang lain. Sehingga manfaat dari hasil pengelompokan menggunakan K-means dapat membantu pihak-pihak yang berkepentingan untuk mengetahui pengelompokan UKT, dalam penetapan pengelompokan UKT serta menjadi rujukan dalam pembuatan aturan pengelompokan UKT. Kata kunci : UKT, Universitas Siliwangi, Data Mining, Clustering, K-means
I.
Pendahuluan Berdasarkan Surat Edaran Dirjen Dikti Nomor 97/E/KU/2013 tertanggal 5 Febuari 2013, menginstruksikan kepada seluruh Perguruan Tinggi di Indonesia untuk melakukan dua hal yakni menghapus uang pangkal serta menetapkan dan melaksanakan tarif Uang Kuliah Tunggal (UKT) bagi mahasiswa baru S1 dan D3 Reguler mulai tahun akademik 2013/2014. UKT merupakan sistem pembayaran kuliah di Perguruan Tinggi Negeri, dengan cara meringkas seluruh pembayaran kuliah dari awal masuk hingga akhir tanpa ada baiya tambahan apapun selain yang telah ditentukan dengan hanya satu kali pembayaran ditiap semester. Berdasarkan PermenDikBud Nomor 55 tahun 2013 bahwa kriteria kelompok UKT dibagi lima kelompok , I sampai dengan V berdasarkan kemampuan ekonomi mahasiswa, orang tua mahasiswa, atau pihak lain yang membiayainya. Tujuan dari UKT untuk meringankan beban mahasiswa terhadap pembiayaan pendidikan (PermenDikBud RI No 55, 2013), akan tetapi dalam pelaksanaannya tujuan dari UKT sendiri belum tercapai merata dikalangan mahasiswa. Berdasarkan hasil wawancara dengan pihak internal Universitas Siliwangi bahwa dalam pelaksanaan UKT di Universitas Siliwangi ditemukan ada beberapa kesalahan dalam pengumpulan data yang tidak sesuai dengan keuangan keluarga dalam penentuan kelompok UKT. Hal ini
menimbulkan komplain dari orang tua wali yang merasa UKT yang ditetapkan tidak tepat. Pada penelitian ini dilakukan analisis data mining clustering menggunakan algoritma K-means yang nantinya bisa menjadi solusi dalam menjawab permasalahan data pengelompokan UKT yang tidak sesuai, dikarenakan K-means itu sendiri menurut K. Arai dan A. R. Barakbah dalam (Tahta, Budi, Ali, 2012) K-means merupakan algoritma clustering yang paling sederhana, umum, dan mempunyai kemampuan mengelompokan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat serta efisien, yang sesuai dengan data mahasiswa Universitas Siliwangi bervolume cukup besar dan bertipe numeric. Maka masalah yang dihadapi adalah bagaimana menganalisis data mahasiswa periode 2014/2015 di Universitas Siliwangi untuk menentukan pengelompokan UKT dengan menggunakan algoritma K-means clustering data mining. Batasan masalah pada penilitian ini yaitu data yang diolah adalah data mahasiswa UKT di Universitas Siliwangi periode 2014/2015 yang disimpan berupa file excel. Analisis digunakan untuk menentukan pengelompokan dan pola penetapan UKT di Universitas Siliwangi. Algoritma clustering yang digunakan adalah algoritma K-Means, serta data yang dihasilkan berupa pengetahuan dalam bentuk tabel dan grafik pengelompokan UKT.
1
Tujuan pada penelitian ini mengelompokan data UKT Universitas Siliwangi dengan pendekatan data mining menggunakan algoritma K-means dan memberikan informasi dan pengetahuan berupa tabel yang informative. Manfaat pada penelitian ini diharapkan tersedianya informasi mengenai pengelompokan UKT, membantu pihakpihak yang berkepentingan untuk mengetahui pengelompokan UKT, dalam penetapan pengelompokan UKT, dan menjadi rujukan dalam pembuatan aturan pengelompokan UKT. II. Landasan Teori A. Data Mining Data Mining merupakan sebuah proses menggali tumpukan data untuk memperoleh pola data dan pengetahuan. Data mining juga merupakan bagian dari proses Knowledge Discoveries from Data. (Zaki, Meira Jr., 2014). Han, Kamber dan Pei (2012) menyebutkan bahwa KDD atau Knowledge Discovery from Data, merupakan proses terstruktur, yaitu sebagai berikut : 1. Data Cleaning adalah Proses membersihkan data dari data noise dan tidak konsisten. 2. Data Integration adalah Proses untuk menggabungkan data dari beberapa sumber yang berbeda. 3. Data Selection adalah Proses untuk memilih data dari database yang sesuai dengan tujuan analisis. 4. Data Transformation adalah Proses mengubah bentuk data menjadi data yang sesuai untuk proses Mining. 5. Data Mining adalah Proses penting yang menggunakan sebuah metode tertentu untuk memperoleh sebuah pola dari data. 6. Pattern Evaluation adalah Proses mengidentifikasi pola. 7. Knowledge Presentation adalah yang dapat merepresentasikan informasi yang dibutuhkan, proses dimana informasi yang telah didapatkan kemudian digunakan oleh pemilik data. B. Clustering Tujuan utama dari metode clustering adalah pengelompokan sejumlah data atau obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi data yang semirip mungkin. Dalam clustering metode ini berusaha untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu cluster dan membuat jarak antar cluster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam clustercluster yang lain (Santoso, 2007). Dalam data mining ada dua jenis metode clustering yang digunakan dalam pengelompokan data, yaitu hierarchical clustering dan non- hierarchical clustering. metode nonhierarchical (partitioning) clustering dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster, atau lain sebagainya). Setelah jumlah cluster diketahui, baru proses cluster dilakukan. Metode ini biasa disebut dengan K-Means Clustering (Santoso, 2010).
Algoritma K-means adalah algoritma yang terbaik dalam algoritma partitional clustering dan yang paling sering digunakan diantara algoritma clustering lainnya kerena kesederhanaan dan efisiensinya (Agusta, 2007). Kelebihan Algoritma K-means itu sendiri menurut K. Arai and A. R. Barakbah, merupakan algoritma clustering yang paling sederhana dan umum, hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun, K-means mempunyai kelemahan yang diakibatkan oleh penentuan pusat awal cluster (Tahta, Budi, Ali, 2012). Algoritma K-Means dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya cluster yang ingin dibentuk. Kemudian tetapkan nilai-nilai K secara random, untuk sementara nilai tersebut menjadi pusat dari cluster atau biasa disebut dengan centroid secara random, mean atau “means”. Hitung jarak setiap data yang ada terhadap masingmasing centroid menggunakan rumus Euclidean hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya dengan centroid. Lakukan langkah tersebut hingga nilai centroid tidak berubah. (Witten, Ian H. dan Frank, Eibe, 2005). Jarak Euclidean yang dirumuskan sebagai berikut: = Jarak data ke i ke pusat cluster j = Data ke i pada atribut dat ke k = Data ke j pada atribut dat ke k D. UKT Berdsarkan PermenDikBud RI No 55, 2013 UKT merupakan sistem pembayaran kuliah di Perguruan Tinggi Negeri, dengan cara meringkas seluruh pembayaran kuliah dari awal masuk hingga akhir tanpa ada baiya tambahan apapun selain yang telah ditentukan dengan hanya Perguruan Tinggi Negeri (PTN) diharuskan membayar biaya atau uang pangkal yang relatif besar di awal yang membebani mahasiswa, hal ini bertolak belakang dengan tujuan pemerintah untuk meringankan beban mahasiswa terhadap pembiayaan pendidikan maka perlu menetapkan uang kuliah tunggal di perguruan tinggi negeri di lingkungan Kementerian Pendidikan dan Kebudayaan bahwa kriteria kelompok UKT dibagi lima kelompok , I sampai dengan V berdasarkan kemampuan ekonomi mahasiswa, orang tua mahasiswa, atau pihak lain yang membiayainya. III. Metodologi Penelitian ini dibagi menjadi tiga tahapan utama yaitu : 1. Pra penelitian, dimulai dengan melakukan studi pendahuluan untuk mengidentifikasi masalah yang ada, studi pustaka, dan pengumpulan data UKT Universitas Siliwangi 2014 2. Persiapan proses data mining terdiri dari, Data Cleaning, Data Autentication, Data Integration, Data Selection, dan Data Transformation. 3. Proses Data Mining dengan mengelompokan menggunakan algoritma K-means.
C. K-means K-means clustering merupakan salah satu metode data clustering non-hirarki yang mengelompokan data dalam bentuk satu atau lebih cluster. Data-data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster dan data yang memiliki karakteristik yang berbeda dikelompokan dengan cluster yang lain sehingga data yang berada dalam satu cluster memiliki tingkat variasi yang kecil (Agusta, 2007).
2
C. Proses Data Mining K-means Pra Penelitian
Persiapan Data Mining
Mulai
- Studi Pendahuluan - Studi Pustaka - Pengumpulan Data
Menentukan Jumlah Cluster
- Data Cleaning - Data Integration - Data Selection - Data Transformation
Pengelompokan UKT UNSIL - Tidak ada perubahan centroid - Ada Perubahan Centroid - Hitung Jarak terdekat - Tentkan Titik Pusat - Menentuan JumlahCluster
Proses Data Mining (K-means)
Menentukan Titik pusat awal cluster (Centroid)
- Knowledge Presentation
Menghitung Jarak ke masing-masing centroid Hasil
Gambar 3.1. Diagram Penelitian A. Pra Penelitian 1. Studi Pendahuluan ini dimulai dengan melakukan pengamatan secara langsung melalui wawancara terhadap pihak internal Universitas Siliwangi. Wawancara ini bertujuan untuk mengetahui gambaran masalah UKT di Universitas Siliwangi. Setelah hasil wawancara didapat dilakukan identifikasi masalah untuk menetapkan rumusan dan batasan masalah. 2. Setelah rumusan masalah didapatkan, dilakukan studi pustaka mencari referensi dari jurnal, buku, dan e-book untuk mendapatkaan teori –teori tentang permasalahan yang telah didapatkan, sebagai panduan dalam mendapatan solusi untuk permasalahan yang telah ditemukan. 3. Dalam pengumpulan data dilakukan pendekatan kepada tim UKT guna mendapatkan data UKT Universitas Siliwangi periode 2014 yang sebenarnya. B. Persiapan Data Mining 1. Data Cleaning Data Cleaning merupakan proses untuk dapat mengatasi nilai yang hilang, noise dan data yang tidak konsisten. (Han, Kamber dan Pei, 2012). Data set yang didapatkan dari data UKT Universitas Siliwangi 2014 sebanyak 3324 mahasiswa yang telah di kelompokan menjadi 5, yaitu kelompok 1 sebanyak 149 mahasiswa, kelompok 2 sebanyak 299 mahasiswa, kelompok 3 sebanyak 1510 mahasiswa, kelompok 4 sebanyak 603 mahasiswa, dan kelompok 5 sebanyak 727 mahasiswa. Memiliki 8 atribut yaitu, No, Npm, Nama, Prodi, Pendidikan Ayah, Pekerjaan, Penghasilan, dan UKT diperoleh 200 data premature. 2. Data Integration Data Integration merupakan proses menggabungkan data dari banyak database atau data warehouse. Menggabugkan data UKT mahahsiswa dengan data pekerjaan orang tua. 3. Data Selection Data Selection merupakan proses meminimalkan jumlah data yang digunakan untuk proses mining dengan tetap merepresentasikan data aslinya. (Han, Kamber dan Pei, 2012). 4. Data Transformation Data transformation dilakukan untuk mengubah bentuk dan format data. Hal ini tentunya akan sangat membantu memudahkan pengguna dalam proses mining ataupun memahami hasil yang didapat. (Han, Kamber & Pei, 2012). Agar data pada kolom “Pekerjaan” dapat diolah menggunakan metode K-means clustering, maka data yang berjenis data nominal seperti pekerjaan diinisialisasikan terlebih dahulu dalam bentuk numeric (Tahta, Budi, Ali, 2012).
Ya
Kelompokan Objek berdasarkan jarak minimum
Ada Objek yang berpindah
Tidak
Selesai
Gambar 3.2. Flowchart Algoritma K-means D. Knowledge Presentation Setelah dilakukan pengelompokan menggunakan algoritma K-means maka diperoleh Knowledge Presentation adalah yang dapat merepresentasikan informasi yang dibutuhkan proses dimana informasi yang telah didapatkan kemudian digunakan. IV. Hasil Dan Pembahasan A. Data Cleaning Berikut ini adalah kolom dan baris data yang di cleaning pertama beserta alasan kolom tersebut mengalami proses cleaning. a. Kolom ‘Pendidikan Ayah’. Kolom ini dihilangkan karena kolom ini bersifat teks dan tidak diperlukan terhadap atribut pengelompokan UKT, serta memiiki baris data yang tidak lengkap. b. Kolom ‘UKT’ baris data yang terdapat pada kolom ini di hilangkan karena nanti akan menjadi kolom hasil pengelompokan menggunakan proses data mining algoritma K-means. c. Terdapat 200 data premature yaitu data yang tidak lengkap pada kolom “Pekerjaan” . Telah ditemukan data premature sebanyak 200 data yaitu 6 % dari jumlah data yang ada, sehingga data awal 3324 menjadi 3124 data yang digunakan. Untuk memperkuat hasil data cleaning, maka dilakukan tahap data authentication, yaitu dengan memeriksa kembali pada lembar berkas data UKT, akan tetapi berkas tersebut sudah terkomputerisasi, diperoleh hasil ternyata terdapat satu tabel lagi yaitu tabel pekerjaan, maka dilakukan tahapan selanjutnya yaitu data integration. B. Data Integration Dilakukan proses cleaning kedua dengan mengintegrasikan data awal UKT dengan data tabel pekerjaan, diperoleh data premature berkurang menjadi 36 data dari 200 data karena telah ditemukan data yang lengkap pada kolom “Pekerjaan” di tabel pekerjaan. Hasil yang diperoleh dari data integration yaitu data premature 36 data sebanyak 1 % dari data keseluruhan, maka data yang akan digunakan untuk proses data mining sebanyak 3288 data. C. Data Selection Untuk data selection UKT ini, semua data hasil dari cleaning dan integration digunakan, karena jika
3
meminimalkan data yang diolah hasilnya tidak mencakup keseluruhan data . D. Data Transformation Kolom “pekerjaan” yang dilakukan perubahan bentuk format yaitu: a. Pada kolom Pekerjaan terdapat 10 jenis pekerjaan yaitu Wiraswasta, Pegawai Negeri Sipil, Karyawan Swasta, Lain-lain, Buruh, Petani, Pensiunan/Purn, Pedagang, ABRI dan Profesional. b. Kemudian pekerjaan tersebut diurutkan dari terbesar berdasarkan banyak datanya atau frekuensi. c. Setelah itu pekerjaan yang memiliki frekuensi terbesar diberi inisial dengan angka 1, dan pekerjaan yang memiliki frekuensi terbesar kedua diberi inisial dengan angka 2, begitu seterusnya sehingga pekerjaan dengan frekuensi paling sedikit. Table 4.1. Inisialisasi Data Pekerjaan Pekerjaan Frekuensi Inisialisasi Wiraswasta 1278 1 Pegawai Negeri Sipil 848 2 Karyawan Swasta 235 3 Lain-lain 202 4 Buruh 191 5 Petani 159 6 Pensiunan/Purn 152 7 Pedagang 142 8 ABRI 55 9 Profesional 26 10 Jumlah 3288 E. Proses Pengelompokan Algoritma K-means 1. Menentukan Jumlah Cluster Pengelompokan UKT ini dibuat 5 cluster, sesuai dengan jumlah kelompok UKT yang ada di Universitas Siliwangi pada periode tahun 2014, dari kelompok paling rendah yaitu kelompok 1, sampai kelompok paling besar yaitu 5. 2. Menentukan Titik Pusat Awal Cluster (Centroid) Pada penelitian ini terdapat data tunggal yang telah dikelompokan sebelumnya maka mengambil titik pusat mengacu pada nilai rata-rata karena, jika sample data yang diambil dari nilai yang mendekati rata-rata akan lebih kuat mendeskripsikan keadaan populasi secara umum. Hal ini didukung oleh pembangkitan awal titik pusat secara random itu K-means tidak menjamin hasil pengklasteran yang unik (S.S Khan, 2004). Inilah yang menyebabkan metode K-means sulit untuk mencapai global optimum, akan tetapi hanaya local minimum (B. Kovesi 2001), maka besar kemungkinan ini akan menyebabkan hasil pengklasteran yang tidak tepat (Y.M Cheung, 2003). Tabel 4.1. Nilai Rata-Rata Tiap Kelompok UKT Cluster
1
2
3
4
5
Penghasilan Pekerjaan
984.664,4
1.164.885,3
2.487.118,9
4.252.420,6
10.117.953,7
5.12
3.32
2.71
2.54
2.71
Pada penelitian ini diambil nilai titik pusat awal cluster mengacu pada nilai yang mendekati rata-rata maka diperoleh titik pusat awal cluster .
3.
Menghitung Jarak ke Masing-Masing Centroid dan Mengelompokan Berdsarkan Jarak Minimun Setelah didapat titik pusat awal cluster, kemudian dilakukan perhitungan jarak Euclidian, dan mengelompokan berdasarkan jarak terkecil salanjutnya akan di dapat nilai centroid baru untuk acuan perhitungan berikutnya sampai nilai centroid sebelum dan sesudah bernilai sama. Pada penelitian ini telah diperoleh 15 kali iterasi. Perhitungan jarak Euclidean pada iterasi 1 1) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 1 (1.000.000, 5) : 500.000 500.000 400.000 0 100000 0 Lakukan perhitungan yang sama sampai data ke 3288. 2) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 2 (1.200.000, 4): 700.000 700.000 600.000 200.000 300.000 200.000 Lakukan perhitungan yang sama sampai data ke 3288. 3) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 3 (2500000, 3): 2.000.000 2.000.000 1.900.000 1.500.000 1.600.000 1.500.000 Lakukan perhitungan yang sama sampai data ke 3288. 4) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 4 (4.288.700, 2): 3.788.700 3.788.700 3.688.700 3.288.700 3.388.700 3.288.700 Lakukan perhitungan yang sama sampai data ke 3288. 5) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 5 (10.000.000, 3): 9.500.000 9.500.000 9.400.000 9.000.000
Tabel 4.2. Titik Pusat Awal Cluster Cluster
1
2
3
4
5
Penghasilan Pekerjaan
1.000.000 5
1200000 4
2500000 3
4288700 2
10000000 3
9.100.000 9.000.000
Lakukan perhitungan yang sama sampai data ke 3288.
4
Pada iterasi 1 diperoleh nilai centroid baru dengan titik pusat awal tidak sama, maka perlu dilakukan iterasi 2, lakukan perhitungan jarak Euclidean kemudian kelompokan berdasarkan jarak minimum, sampai nilai centroid sebelum dan sesudahnya sama, maka proses iterasi berhenti. Tabel 4.3. Nilai Centroid Iterasi 1 Cluster Centroid Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Titik Pusat Awal Penghasilan Pekerjaan 1.000.000 5 12.000.000 4 2.500.000 3 4.288.700 2 10.000.000 3
Iterasi 1 Penghasilan Pekerjaan 948.329,176 3,730 1.471.010,903 3,177 2.552.847,738 2,772 4.615.256,927 2,578 18.097.533,542 2,886
Tabel 4.4. Nilai Centroid Iterasi 2 Cluster Centroid Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Iterasi 1 Penghasilan Pekerjaan 948.329,17 3,730 1.471.010,90 3,177 2.552.847,73 2,772 4.615.256,92 2,578 18.097.533,5 2,886
Iterasi 2 Penghasilan 972.552,95 1.803.650.37 2.976.969,77 5.296.199,28 26.942.330,30
Pekerjaan 3,757 2.847 2,788 2,629 2,782
Tabel 4.5. Nilai Centroid Iterasi 3 Cluster Centroid Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Iterasi 2 Penghasilan Pekerjaan 972.552,95 3,757 1.803.650.37 2.847 2.976.969,77 2,788 5.296.199,28 2,629 26.942.330,3 2,782
Iterasi 3 Penghasilan Pekerjaan 991259,48 3,738 1.833.829,65 2,884 3.223.053,51 2,725 6.018.282,38 2,635 32.045.691,97 2,596
Tabel 4.6. Nilai Centroid Iterasi 4 Cluster Centroid Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Iterasi 3 Iterasi 4 Penghasilan Pekerjaan Penghasilan Pekerjaan 991259,48 3,738 995.687,177 3,744 1.833.829,65 2,884 19.145.53,68 2,865 3.223.053,51 2,725 3.546.929,86 2,670 6.018.282,38 2,635 6.633.723,68 2,684 32.045.691,97 2,596 32.189.731,67 2,613
Tabel 4.7. Nilai Centroid Iterasi 5 Cluster Iterasi 4 Iterasi 5 Centroid Penghasilan Pekerjaan Penghasilan Pekerjaan Cluster 1 995.687,17 3,744 1.000.499,17 3,73 Cluster 2 19.145.53,68 2,865 1,933,849,25 2,91 Cluster 3 3.546.929,86 2,670 3,844.709,53 2,57 Cluster 4 6.633.723,68 2,684 8.013.005,74 2,94 Cluster 5 32.189.731,67 2,613 32189731,67 2,613 Keterangan warna abu-abu fsets menunjukan nilai centroid yang sama.
Tabel 4.8. Nilai Centroid Iterasi 6 Cluster Centroid Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Iterasi 5 Iterasi 6 Penghasilan Pekerjaan Penghasilan Pekerjaan 1.000.499,17 3,733 1.000.499,17 3,733 1,933,849,25 2,915 1.955.664,03 2.920 3,844.709,53 2,571 4.006.550,13 2.601 8.013.005,74 2,948 98859955,19 2,907 32189731,67 2,613 33.181.919,14 2,651
Tabel 4.9. Nilai Centroid Iterasi 7 Cluster Centroid Cluster 1 Cluster 2 Cluster 3
Iterasi 6 Penghasilan Pekerjaan 1.000.499,17 3,733 1.955.664,03 2.920 4.006.550,13 2.601
Iterasi 7 Penghasilan Pekerjaan 1.000.499,17 3,733 1.969.206,04 2,922 4.086.528,03 2,601
Cluster 4 Cluster 5
98859955,19 33.181.919,14
2,907 2,651
10.853.948,41 33.181.919,14
2,960 2,651
Tabel 4.10. Nilai Centroid Iterasi 8 Cluster Centroid Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Iterasi 7 Penghasilan Pekerjaan 1.000.499,17 3,733 1.969.206,04 2,922 4.086.528,03 2,601 10.853.948,41 2,960 33.181.919,14 2,651
Iterasi 8 Penghasilan Pekerjaan 1.001.788,15 3,726 2.299.552,34 2,799 4.513.059,73 2,627 11.266.421.14 2,984 33.181.919,14 2,651
Tabel 4.11. Nilai Centroid Hasil Iterasi 9 Cluster Centroid Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Iterasi 8 Iterasi 9 Penghasilan Pekerjaan Penghasilan Pekerjaan 1.001.788,15 3,726 1.205.287,61 3,433 2.299.552,34 2,799 2.542.814,85 2,783 4.513.059,73 2,627 4.633.470,65 2,582 11.266.421.14 2,984 11.287.230,10 2,994 33.181.919,14 2,651 33.181.919,14 2,651
Tabel 4.12. Nilai Centroid Iterasi 10 Cluster Centroid Cluster 1 Cluster 2 Cluster 3
Iterasi 9 Penghasilan Pekerjaan 1.205.287,61 3,433 2.542.814,85 2,783 4.633.470,65 2,582
Iterasi 10 Penghasilan Pekerjaan 1.223.585,39 3,436 2.626.123,14 2,756 4.734.770,05 2,583
Cluster 4 Cluster 5
11.287.230,10 33.181.919,14
11.287.230,10 33.181.919,14
2,994 2,651
2,994 2,651
Tabel 4.13. Nilai Centroid l Iterasi 11 Cluster Centroid Cluster 1 Cluster 2 Cluster 3
Iterasi 10 Penghasilan Pekerjaan 1.223.585,39 3,436 2.626.123,14 2,756 4.734.770,05 2,583
Iterasi 11 Penghasilan Pekerjaan 1.226.732,08 3,440 2.643.661,61 2,756 4.790.741,01 2,563
Cluster 4 Cluster 5
11.287.230,10 33.181.919,14
11.499.933,22 33.181.919,14
2,994 2,651
3,08 2,651
Tabel 4.14. Nilai Centroid Iterasi 12 Cluster Centroid Cluster 1 Cluster 2 Cluster 3
Iterasi 11 Penghasilan Pekerjaan 1.226.732,08 3,440 2.643.661,61 2,756 4.790.741,01 2,563
Iterasi 12 Penghasilan Pekerjaan 1.226.732,08 3,440 2.653.152,49 2,762 4.809.411,83 2,555
Cluster 4 Cluster 5
11.499.933,29 33.181.919,10
11.541.331,24 33.181.919,10
3,08 2,651
3,083 2,651
Tabel 4.15. Nilai Centroid Iterasi 13 Cluster Centroid Cluster 1 Cluster 2 Cluster 3
Iterasi 12 Penghasilan Pekerjaan 1.226.732,08 3,440 2.653.152,49 2,762 4.809.411,83 2,555
Iterasi 13 Penghasilan Pekerjaan 1.226.732,08 3,440 2.657.143,06 2,768 4.814.620,24 2,548
Cluster 4 Cluster 5
11.541.331,24 33.181.919,14
11.541.331,24 33.181.919,14
3,083 2,651
3,083 2,651
Tabel 4.16. Nilai Centroid Iterasi 14 Cluster Centroid Cluster 1 Cluster 2 Cluster 3
Iterasi 13 Penghasilan Pekerjaan 1.226.732,08 3,440 2.657.143,06 2,768 4.814.620,24 2,548
Iterasi 14 Penghasilan Pekerjaan 1.228.920,32 3,446 2.658.212,48 2,764 4.814.620,24 2,548
Cluster 4 Cluster 5
11.541.331,24 33.181.919,14
11.541.331,24 33.181.919,14
3,083 2,651
3,083 2,651
5
Pada iterasi 15 nilai centroid dengan nilai centroid pada iterasi 14 sudah sama maka proses berhenti. Tabel 4.17. Nilai Centroid Iterasi 15 Cluster Centroid Cluster 1 Cluster 2 Cluster 3
Iterasi 14 Penghasilan Pekerjaan 1.228.920,32 3,446 2.658.212,48 2,764 4.814.620,24 2,548
Iterasi 15 Penghasilan Pekerjaan 1.228.920,32 3,446 2.658.212,48 2,764 4.814.620,24 2,548
Cluster 4 Cluster 5
11.541.331,24 33.181.919,14
11.541.331,24 33.181.919,14
3,083 2,651
3,083 2,651
4. Knowledge Presentation a. Cluster 1 Berdasarkan hasil perhitungan algoritma K-means pada cluster 1 ini terdapat 652 mahasiswa lebih banyak 77,1 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 149 mahasiswa, serta memliki nilai centroid akhir yaitu (1.228.920,3 ; 3,446). b. Cluster 2 Berdasarkan hasil perhitungan algoritma K-means pada cluster 2 ini terdapat 1341 mahasiswa lebih banyak 77,7 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 299 mahasiswa, serta nilai centroid memiliki akhir yaitu (2.658.212,4 ; 2,764). c. Cluster 3 Berdasarkan hasil perhitungan algoritma K-means pada cluster 3 ini terdapat 1041 mahasiswa lebih sedikit 31 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 1510 mahasiswa, serta memiliki nilai centroid akhir yaitu (4.814.620,2; 2,548). d. Cluster 4 Berdasarkan hasil perhitungan algoritma K-means pada cluster 4 ini terdapat 168 mahasiswa lebih sedikit 31 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 603 mahasiswa, serta memiliki nilai centroid akhir yaitu (11.541.331,2 ; 3,083). e. Cluster 5 Berdasarkan hasil perhitungan algoritma K-means pada cluster 5 ini terdapat 86 mahasiswa lebih sedikit 88,5 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 727 mahasiswa, serta memiliki nilai centroid akhir yaitu (33.181.919,1; 2,651).
melakukan beberapa kali percobaan cluster serta dihitung nilai variance yang paling kecil maka cluster itulah yang dipilih sebagai cluster terbaik dari beberapa percobaan yang telah ada. DAFTAR PUSTAKA Agusta, Y. 2007. K-means - Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika Vol. 3 (Februari 2007): 47-60. Alfiana Tahta, Budi, dan Ali . 2013. Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Custer Data (Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS). Surabaya : Teknik Industri, Institut Teknologi Sepuluh November (ITS). B.Kovesi, J.M. Boucher, 2001 , K-means algorithm for vector quantization Han, Jiawei, & Kamber, Micheline, & Pei, Jian. 2012. Data Mining: Concept and Technique, 3nd Ed. Waltham: Elsevier. J. Zaki, Mohammed, dan Miera Jr., Wagner. 2014. Data Mining and Analysis : Fundamental Concept and Algorithms. New York: Cambridge University Press. Peraturan Menteri Pendidikan dan Kebudayaan Republik Indonesia NO 55 tahun 2013 Tentang Biaya Kuliah Tunggal dan Uang Kuliah Tunggal . Santosa, B. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis.Yogyakarta: Graha Ilmu. Santoso, S. 2010. Statistik Multivariat. Jakarta: Elex Media Komputindo. Surat Edaran Dirjen Dikti Nomor 97/E/KU/2013 5 Febuari, tentang Uang Kuliah Tunggal. 2013. Jakarta : Kementrian Pendidikan dan Kebudayaan Direktorat Jenderal Pendidikan Tinggi S.S. Khan, A. Ahmad , 2004 , Cluster center initialization algorithm for K –means clustering Witten, Ian H. dan Frank, Eibe. 2005. Data Mining Practical Machine Learning Tools and Techniques, Second Edition. Morgan Kaufmann, San Fransisco Y.M. Cheung, 2003 K-Means A new generalized K-means clustering algorithm
V. Kesimpulan dan Saran A. Kesimpulan 1. Didapatkan data pengelompokan UKT menggunakan algoritma K-means clustering, yaitu untuk kelompok 1 berjumlah 652 mahasiswa, kelompok 2 berjumlah 1341 mahasiswa, kelompok 3 berjumlah 1041 mahasiswa , kelompok 4 berjumlah 168 mahasiswa, dan kelompok 5 berjumlah 86 mahasiswa. 2. Diketahui prioritas cluster yang tidak sesuai dengan data yang ada yaitu pada kelompok 5 yang berjumlah 86 mahasiswa lebih sedikit 88,5 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 727 mahasiswa. 3. Kelemahan algoritma K-means dalam menentukan titik pusat secara random ini dilakukan optimasi yaitu dengan menentukan titik pusat awal cluster mengacu pada nilai terdekat dengan rata-rata, karena rata-rata akan lebih kuat mendeskripsikan keadaan populasi secara umum. B. Saran Penelitian ini dapat dikembangkan lebih lanjut dengan melakukan optimasi pada algoritma K-means. Memilih lebih dari satu titik pusat awal cluster kemudian
6