Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 38 DATA MINING DENGAN TEKNIK CLUSTERING UNTUK MENGGALI INFORMASI TENTANG BIMBINGAN KONSELING SISWA (STUDI KASUS : SMA NEGERI 1 X KOTO SINGKARAK) Abdul Kholiq1, Prionggo Hendradi2 Program Studi Teknik Informatika Fakultas Teknik Dosen Fakultas Teknik, Universitas Satya Negara Indonesia Email:
[email protected]
ABSTRAK Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database besar. K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data kedalam cluster/kelompok, sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok lain. Penggunaan data mining dengan algoritma k-means berguna untuk pendukung keputusan guru bimbingan konseling dalam membuat rencana layanan kegiatan bimbingan konseling, karena k-means bisa mempartisi atau menglompokkan data menjadi beberapa kelompok yang memiliki karakteristik pada masing-masing cluster. Kata kunci : Data Mining, Clusering, K-Means, Bimbingan Konseling, RapidMiner.
Abstract Data mining is the process of using statistical techniques, mathematics, artificial intelligence, and machine learning to extract and identify useful information and knowledge assembled from various large databases. K-Means is one method of non- hierarchical clustering of data that seeks to partition the existing data in the form of one or more clusters/groups. This method partition the data into clusters/groups, so that the data which has the same characteristics are grouped into the same cluster and the data that has different characteristics are classified into other groups. The use of data mining with the k-means algorithm is useful for decision support in a counseling teacher to plan activities counseling services, as k-means can be partitioned or clustering data into several groups that have the characteristics of each cluster. Keywords : data mining, clustering, k-means, counseling, rapid miner.
Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 39 I.
Pendahuluan Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database, menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk dalam Kusrini dan Emha Taufiq Luthfi 2009). Bimbingan konseling merupakan salah satu bentuk pelayanan bantuan untuk peserta didik, baik secara perorangan maupun kelompok, agar mampu mandiri dan berkembang secara optimal dalam bidang pengembangan kehidupan pribadi, kehidupan sosial maupun kemampuan belajar (Zainal Aqib, 2012). Data bimbingan konseling siswa SMA Negeri 1 X Koto Singkarak sendiri dikelola oleh guru bimbingan konseling, dimana data tersebut pada dasarnya sudah dikelompokkan berdasarkan layanan bimbingan, layanan konseling, dan kegiatan pendukung. Namun banyaknya data yang masuk dan dikelola oleh guru bimbingan konseling tersebut menyebabkan data tersebut semakin lama semakin menumpuk. Dengan penerapan data mining menggunakan metode k-means ini, diharapkan dapat menggali informasi terpendam dari data-data yang ada, sehingga nantinya bermanfaat untuk guru bimbingan konseling dalam memberikan arahan dan solusi kepada peserta didik untuk segala permasalahan yang dihadapinya. II.
Tujuan Penelitian Tujuan dari penelitian ini adalah untuk melihat karakteristik pengelompokkan siswa berdasarkan layanan bimbingan, layanan konseling dan kegiatan pendukung. III. Dasar Teori 1. Knowledge Discovery in Database Knowledge discovery in database (KDD) adalah sebuah proses dengan beberapa langkah-langkah, interaktif dan iteratif, untuk mengidentifikasi pola yang luas, valid, baru dan potensial digunakan dimulai dari kumpulan data (Silvia Rissino And Germano Lambert Torres, 2009). Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap proses yang diilustrasikan pada gambar berikut ini :
Gambar 1. Tahap-Tahap KDD 2. Data Mining Menurut Turban, dkk (Dalam Kusrini dan Emha Taufiq Luthfi, 2009:3) Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database besar. Data mining berisi pencarian trend atau pola yang diinginkan dalam database besar untuk membantu pengambilan keputusan di waktu yang akan datang. Pola-pola ini dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa data yang berguna dan berwawasan yang kemudian dapat dipelajari dengan lebih teliti, yang mungkin saja menggunakan perangkat pendukung keputusan yang lainnya. 3. Algoritma K-Means Menurut Agusta dalam Johan Oscar Ong, 2013 K-means clustering merupakan salah satu metode data clustering non-hirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster/kelompok. Data-data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster/kelompok dan data yang memiliki
Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 40 karakteristik yang berbeda dikelompokan dengan cluster/kelompok yang lain sehingga data yang berada dalam satu cluster/kelompok memiliki tingkat variasi yang kecil. Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan objective function yang di set dalam proses clustering, yang pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalkan variasi antar cluster. Adapun langkah-langkah yang dilakukan pada tahapan ini adalah, sebagai berikut : a. Menentukan jumlah cluster Dalam menentukan jumlah cluster bias dilakukan dengan berbagai cara, salah satunya adalah dengan cara random. b. Menentukan nilai centroid Dalam menentukan nilai centroid untuk awal iterasi, nilai awal centroid dilakukan secara acak. Sedangkan jika menentukan nilai centroid yang merupakan tahap dari iterasi, maka digunakan rumus sebagai berikut : c. Menghitung jarak antara titik centroid dengan titik tiap objek Dengan titik tiap objek untuk menghitung jarak tersebut dapat menggunakan Euclidean Distance, yaitu : d. Pengelompokan Objek Untuk menentukan anggota cluster adalah dengan memperhitungkan jarak minimum objek. Nilai yang diperoleh dalam keanggotaan data pada distance matriks adalah 0 atau 1, dimana nilai 1 untuk data yang dialokasikan ke cluster dan nilai 0 untuk data yang dialokasikan ke cluster yang lain. e. Kembali ke Tahap 2 lakukan perulangan hingga nilai centroid yang dihasilkan tetap dan anggota cluster tidak berpindah ke cluster lain. 4. Bimbingan Konseling Menurut Samingan (2010:2) bahwa Bimbingan Konseling adalah pelayanan bantuan untuk peserta didik, baik secara perorangan maupun kelompok, agar mampu mandiri dan berkembang secara optimal, dalam bidang pengembangan kehidupan pribadi, kehidupan sosial, kemampuan belajar, dan perencanaan karir, melalui berbagai jenis layanan dan kegiatan pendukung, berdasarkan norma-norma yang berlaku yang dilaksanakan secara terus menerus dan bersifat tidak memaksa peserta didik. Adapun Tujuan Bimbingan Konseling adalah sebagai berikut : a. Merencanakan kegiatan penyelesaian studi, perkembangan karir serta kehidupan-nya di masa yang akan datang. b. Mengembangkan seluruh potensi dan kekuatan yang dimilikinya seoptimal mungkin. c. Menyesuaikan diri dengan lingkungan pendidikan, lingkungan masyarakat serta lingkungan kerjanya. d. Mengatasi hambatan dan kesulitan yang dihadapi dalam studi, penyesuaian dengan lingkungan pendidikan, masyarakat, maupun lingkungan kerja. IV. Metodologi Penelitian
Mengidentifikasi masalah
Mengumpulkan data Menyeleksi Data
Merancang Cluster dengan Algoritma K-Means Melakukan Pengujian Gambar 2. Metodologi Penelitian
Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 41
Agar langkah-langkah dalam penelitian ini dapat lebih mudah dipahami, berikut penjelasan terperinci mengenai sistematika dari kerangka kerja penelitian yang diuraikan sebagai berikut : a. Mengidentifikasi Masalah Pada tahap ini dilakukan pengidentifikasian permasalahan yang akan ada, adapun masalah yang ada saat ini adalah bagaimana menggali informasi terpendam dari banyaknya tumpukan data bimbingan konseling siswa yang berkemungkinan memiliki nilai lebih diantara tumpukan data tersebut. Oleh karena itu penulis ingin menganalisa serta mengelompokan informasi-informasi tersebut dengan menggunakan metode k-means. b. Mengumpulkan Data Untuk mendapatkan informasi yang dibutuhkan dalam penelitian ini, maka penulis melakukan pengumpulan data bimbingan konseling siswa berupa data jenis layanan dan kegiatan pendukung yang diterima peserta didik pada setiap semesternya. Dimana untuk rekapitulasi layanan bimbingan konseling sendiri terdapat beberapa field, yaitu layanan bimbingan, layanan konseling, dan kegiatan pendukung. c. Menyeleksi Data Pada tahap ini dilakukan tahapan cleaning, yaitu dimana data yang telah dikelompokkan kemudian dilakukan pembersihan data. Adapun cara membersihkan data tersebut adalah dengan cara melengkapi, menghapus, dan menghilangkan noise pada data. Setelah dilakukan cleaning, maka dilanjutkan dengan transformasi data yang telah dibersihkan. Adapun cara transformasi data ini adalah dengan cara memformat data, sehingga siap di cluster atau dikelompokan. d. Merancang Cluster dengan Algoritma K-Means Adapun langkah-langkah yang dilakukan pada tahapan ini adalah, sebagai berikut : a. Menentukan jumlah cluster b. Menentukan pusat centroid secara random. Sedangkan untuk menentukan titik centroid ke-i atau selanjutnya adalah dengan menggunakan rumus berikut : c.
Menghitung jarak antara titik centroid dengan titik tiap objek menggunakan rumus Euclidean Distance.
d. Pengelompokan Objek e. Kembali ke Tahap 2 jika titik centroid masih berubah. e. Melakukan Pengujian Tahapan pengujian dilakukan untuk mengetahui cara sistem bekerja dalam mengolah data berdasarkan metode k-means. Serta bisa mendapatkan hasil yang diinginkan. Adapun hasil yang ingin dicapai dalam peroses pengujian ini adalah untuk mendapatkan hasil pengelompokkan data yang yang paling optimal. Dalam melakukan proses pengujian ini, maka diperlukan sebuah software khusus data mining, dimana pada penelitian ini software yang akan digunakan untuk melakukan pengujian tersebut adalah software rapid miner dan untuk menguji keakuratan hasilnya digunakan software matlab untuk mengujinya. V.
Proses Pengujian a. Data Pengujian Berikut ini adalah sampel data yang akan ditampilkan langkah-langkah proses perhitungan dengan algoritma k-means, tetapi untuk hasil akhirnya telah menggunakan jumlah data keseluruhannya.
Tabel 1. Sample Data Rekapitulasi Layanan Bimbingan Konseling Bidang Bimbingan
Bidang Layanan
Kegiatan Pendukung
1 Ade Fauziyah Rizki
6
7
3
2 Annisa Fadillah
6
7
3
3 Aulia Rahmi Fitri
6
7
3
4 Dini Dian Putri
6
7
3
5 Fatimah
6
7
3
6 Aprilia Wulandari
4
4
4
7 Ardianto
4
4
2
No Nama
Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 42 8 Deni Efrinaldi
4
4
2
9 Diah Pita Loka
6
6
3
10 Dina Lorenza
4
4
2
11 Sri Dewi Fitria
6
6
3
12 Sri Rahayu Sepriani
6
7
2
13 Wenti Dwi Marwita
4
4
2
14 Yuila Eka Wati
4
4
5
15 Zulkifli Rahmad
6
6
3
b. Proses Algoritma K-Means 1) Menentukan Jumlah Cluster untuk pengelompokan data pada pengujian yang pertama ini adalah sebanyak 3 cluster, sehingga dapat ditentukan untuk nilai k adalah k=3. Untuk selanjutnya akan ditampilkan hasil dari pengujian dengan 4 dan 5 cluster. 2) Menentukan Titik Pusat Cluster Nilai centroid awal pada penelitian ini dilakukan pemilihan secara acak, dimana jumlah centroid awal ditentukan sebanyak tiga cluster, nilai untuk C1 di ambil dari baris data ke-1, nilai C2 di ambil dari baris data ke-6, serta nilai C3 di ambil dari baris ke-12. Berikut adalah nilai centroid awal pada penelitian ini : C1 = (6,7,3) C2 = (4,4,4) C3 = (6,6,3) 3) Menghitung Jarak Data Dalam penelitian ini penulis menggunakan rumus Euclidean Distance untuk melakukan perhitungan jarak setiap data terhadap titik pusat cluster. Berikut ini adalah contoh perhitungan jarak dengan menggunakan rumus euclidean distance untuk iterasi 1.
4) Alokasikan Data Dalam pengalokasian kembali objek ke dalam masing-masing cluster didasarkan pada perbandingan jarak antara data dengan centroid setiap cluster yang ada, objek dialokasikan secara tegas kedalam cluster yang mempunyai jarak ke centroid terdekat dengan data tersebut. Berikut ini adalah merupakan hasil perbandingan jarak antara data dengan centroid setiap cluster yang ada. Tabel 3. Hasil Perhitungan Jarak dan Pengelompokan Data
Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 43
5) Lakukan Iterasi Tentukan posisi centroid baru dengan cara menghitung rata-rata dari data-data yang berada pada centroid yang sama. Berikut ini adalah beberapa perhitungan untuk mendapatkan hasil cluster baru :
C11 =
= 6
C12 =
= 7
C13 =
= 2,833
C21 =
= 4
C22 =
= 4
C23 =
= 2,833
C31 =
= 6
C32 =
= 6
C33 =
= 3
6) Ulangi dari langkah ketiga hingga nilai centroid tidak lagi berubah 7) Hasil Iterasi Berdasarkan hasil pengelompokan data menggunakan metode k-means clustering, didapatkan hasil clustering hingga iterasi ke-2, dimana titik pusat cluster tidak lagi mengalami perubahan, sehingga proses iterasi dihentikan pada iterasi ke-2. Berikut adalah hasil iterasi yang telah dilakukan.
C1
Tabel 4. Hasil Iterasi Ke-1 6 7 2,833
C2
4
4
2,833
C3
6
6
3
Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 44
C1
Tabel 5. Hasil Iterasi Ke-2 6 7 2,833
C2
4
4
2,833
C3
6
6
3
VI. Hasil Pengujian Proses pengujian ini dilakukan menggunakan software rapid miner dan untuk melihat hasil pengelompokan terbaik digunakan software matlab. Berikut adalah hasil pengujian dengan 3 cluster, 4 cluster, dan 5 cluster. a. Pengujian Dengan 3 Cluster Berikut ini adalah hasil pengujian dengan menggunakan rapid miner. Dimana pada hasil pengujian ini terlihat bahwa jumlah cluster anggota cluster yang terbentuk adalah 67 anggota pada cluster 0, 40 anggota pada cluster 1, dan 27 anggota untuk cluster 2. Berikut adalah output yang dihasilkan oleh rapid miner :
Gambar 3. Pengujian 3 Cluster Setelah dilakukan pengujian dengan software rapid miner, maka selanjutnya lakukan pengujian dengan software matlab, dimana fungsinya adalah untuk melihat karakteristik pengelompokan masingmasing cluster. Berikut adalah hasil pengelompokan dengan 3 cluster :
Gambar 4. Pengujian 3 Cluster Dengan Matlab Dari gambar diatas dapat diambil kesimpulan bahwa titk pusat pada pengujian dengan 3 cluster ini adalah 3.5,1;3.5,2.7;3.5,3.1. Karakteristik pada cluster ini adalah bahwa bidang bimbingan dan bidang konseling lebih dominan daripada kegiatan pendukung. b. Pengujian Dengan 4 Cluster Berikut ini adalah hasil pengujian dengan menggunakan rapid miner. Dimana pada hasil pengujian ini terlihat bahwa jumlah cluster anggota cluster yang terbentuk adalah 67 anggota pada cluster 0, 40 anggota pada cluster 1, dan 27 anggota untuk cluster 2. Berikut adalah output yang dihasilkan oleh rapid miner :
Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 45
Gambar 5. Pengujian 4 Cluster Setelah dilakukan pengujian dengan software rapid miner, maka selanjutnya lakukan pengujian dengan software matlab, dimana fungsinya adalah untuk melihat karakteristik pengelompokan masingmasing cluster. Berikut adalah hasil pengelompokan dengan 4 cluster :
Gambar 6. Pengujian 4 Cluster Dengan Matlab Dari gambar diatas dapat diambil kesimpulan bahwa titk pusat pada pengujian dengan 4 cluster ini adalah 0,0;3,3;3,5.5;4,1;4,2;5,1. Terlihat pada gambar ini menunjukkan bahwa jika menggunakan cluster ini maka akan ada center titik yang tidak memiliki anggota. c. Pengujian Dengan 5 Cluster Berikut ini adalah hasil pengujian dengan menggunakan rapid miner. Dimana pada hasil pengujian ini terlihat bahwa jumlah cluster anggota cluster yang terbentuk adalah 67 anggota pada cluster 0, 40 anggota pada cluster 1, dan 27 anggota untuk cluster 2. Berikut adalah output yang dihasilkan oleh rapid miner :
Gambar 7. Pengujian 5 Cluster Setelah dilakukan pengujian dengan software rapid miner, maka selanjutnya lakukan pengujian dengan software matlab, dimana fungsinya adalah untuk melihat karakteristik pengelompokan masingmasing cluster. Berikut adalah hasil pengelompokan dengan 5 cluster :
Jurnal Ilmiah Fakultas Teknik LIMIT’S Vol.13 No 1 Maret 2017 46
Gambar 8. Pengujian 5 Cluster Dengan Matlab Dari gambar diatas dapat diambil kesimpulan bahwa titk pusat pada pengujian dengan 5 cluster ini adalah 0,0;3,3;3,5.5;4,1;4,2;5,1. Sama halnya dengan empat cluster, pada cluster ini juga terlihat ada beberapa titik centroid yang tidak memiliki anggota.
VII. Kesimpulan a. Berdasarkan hasil pengujian yang telah dilakukan dengan beberapa cluster, maka didapat pengelompokan siswa bimbingan konseling yang terbaik adalah dengan jumlah cluster sebanyak tiga buah. Adapun karakteristik kluster untuk pengelompokan siswa bimbingan konseling berdasarkan titik pusat centroid yang di cari menggunakan software matlab adalah hanya di dominasi pada jenis layanan bidang bimbingan dan bidang konseling saja, sedangkan untuk kegiatan pendukung terlihat sedikit siswa yang mendapatkan layanan untuk kategori ini. b. Jumlah cluster terbaik menggunakan rapidminer adalah sebanyak tiga cluster, dimana cluster 3 dengan 67 anggota, cluster 27 dengan anggota, dan cluster 5 dengan 40 anggota. Sehingga berdasarkan hasil pengujian ini didapatkan kesimpulan bahwa bidang layanan dan bidang konseling lebih sering didapatkan oleh siswa, sedangkan kegiatan pendukung lebih sedikit didapatkan oleh siswa, oleh karena itu perlu perancangan program layanan untuk semester berikutnya. Pustaka [Agusta, Yudi (2007). “K-Means – Penerapan, Permasalahan dan Metode Terkait” Jurnal Sistem dan Informatika Volume 3. Aqib, Zainal. 2012, “Ikhtisar Bimbingan & Konseling Di Sekolah”, Penerbit Yrama Widya, Bandung. Ediyanto, dkk (2013). “Pengklasifikasian Karakteristik Dengan Metode K-Means Cluster Analysis” Buletin Ilmiah Mat. Stat. Dan Terapannya Volume 02 Nomor 02. Erdogan, Zafer, Senol dan Timor, Mehpare (2005). “A Data Mining Application In A Student In Database” Journal Of Aeronautics And Space Technologies Volume 2 Number 2(53-57). Hermawati, Astuti, Fajar. 2013, “Data Mining”, Penerbit Andi, Yogyakarta. Kusrini dan Luthfi, Taufiq, Emha. 2009, “Algoritma Data Mining”, Penerbit Andi, Yogyakarta. Ong, Oscar, Johan (2013). “Implementasi Algoritma K-Means Clustering Untuk Menentukan Startegi Marketing President University” ISSN 1412-6869. Rismawan, Tedy dan Kusumadewi, Sri (2008). “Aplikasi K-Means Untuk Pengelompokan Mahasiswa Berdasrkan Nilai Body Mass Index (BMI) dan Ukuran Kerangka” ISSN 1907-5022. Susanto, Sani dan Suryadi, Dedy. 2010, “Pengantar Data Mining”, Penerbit Andi, Yogyakarta. Wijaya, Airin (2012). “Analisis Algoritma K-Means Untuk Sistem Pendukung Keputusan Penjurusan Siswa Di MAN Binong Subang” Jurnal Universitas Komputer Indonesia. ______. 2008. Buku Pedoman Pelaksanaan Pelayanan Konseling. DITJEN PMPTK DEPDIKNAS.