Konferensi Nasional Ilmu Sosial & Teknologi (KNiST) Maret 2017, pp. 379~383
379
CLUSTERING MOTIVASI BELAJAR SISWA ELEARNING BERBASIS ALGORITMA K-MEANS Sismadi AMIK BSI JAKARTA e-mail:
[email protected]
Abstrak Pengelompokkan motivasi belajar siswa cukup sulit pada proses pembelajaran secara konvensional, apalagi proses pembelajaran dilaksanakan tanpa bertatap muka secara langsung atau non-konvensional yang biasa disebut elearning. Kesulitan pengelompokan terletak pada seberapa besar siswa memiliki semangat belajar untuk dapat lulus pada mata kuliah yang diambil. Algoritma k-means digunakan pada penelitian ini untuk menghitung secara kuantitas dari sejumlah atribut data yang digunakan. Atribut data yang diproses oleh algoritma k-means antara lain jumlah login, akses materi, jumlah membuat thread diforum diskusi, jumlah tanggapan forum komentar diskusi dan jumlah mengerjakan soal latihan. Dari atribut tersebut setelah diolah dapat mengelompokkan siswa masuk dalam cluster semangat belajar rendah dengan nilai aktifitas 4.027, sedang dengan nilai aktifitas 10.3294 dan tinggi dengan nilai aktifitas 17.5938. Matakuliah yang disediakan terdapat 3, antara lain Bahasa Indonesia, Matematika, dan Pengantar Teknologi Informasi dan Komputer. Sebagai penentu berhasil atau tidaknya siswa dalam belajar adalah tingkat kelulusan yang dicapai. Untuk tingkat kelulusan juga terbagi menjadi 3 yaitu cukup, baik dan memuaskan. Untuk mengukur tingkat efektifitas clustering dengan algoritma k-means, pada penelitian ini menggunakan metode Sum of Squared Error. Keywords: clustering k-means, clustering supervised
1. Pendahuluan Pembelajaran merupakan sebuah proses yang panjang untuk dapat menciptakan sumber daya manusia yang handal dan berkarakter, sehingga menjadi individu yang baik untuk membangun bangsanya. Proses pembelajaran dapat menggunakan media elektronik dan dapat dilaksanakan dari jarakjauh yang memanfaatkan paket informasi berbasis teknologi informasi dan komunikasi, yang dapat diakses oleh anak didik kapan saja dan dimana saja (menteri, 2013). Pembelajaran jarak jauh dapat dilaksanakan dengan dua acara yaitu synchronous dan asynchronous. Permasalahan yang dihadapi pada pembelajaran elearning penelitian ini adalah sulitnya dalam mengkategorikan bahwa seoarang siswa mahir pada kuliah tertentu dengan tingkat kemahiran sebaik apa, sebab bisa terjadi bahwa siswa dapat masuk kedalam lebih dari satu cluster. Pada penelitian ini data yang digunakan hasil dari penampungan proses pembelajaran asynchronous. Atribut data yang digunakan ada lima varian antara lain jumlah login, jumlah membuat thread diforum, jumlah
komentar diforum, jumlah mengerjakan soal latihan dan ujian dan jumlah mengakses materi pembelajaran. Untuk materi pembelajaran dapat didownload sekaligus ataupun perpertemuan. Materi kuliah yang disajikan pada penelitian ini terdiri dari Bahasa Indonesia(BI), agama(PA) dan Pendidikan Kewarganegaraan(PKN). Untuk jumlah mahasiswa yang dilakukan clustering sebanyak 257 orang dengan komposisi 113 orang mengambil matakuliah PKN, 94 orang BI dan 48 orang PA. Untuk clustering dengan menggunakan algoritma K-Means. Algoritma ini salah satu yang memiliki tingkat akurasi tinggi dalam mengelompokkan data dengan jumlah besar dibanding dengan Self-Organization Map(SOM) dan algoritma tradisional yang lain (Joao M. Sousa, 2002). Untuk mengukur kualitas cluster menggunakan Sum of Square Error(SSE). Nilai SSE yang dihasilkan semakin kecil maka semakin baik kualitas cluster yang diperoleh. Penelitian menggunakan algoritma k-means untuk prediksi kinerja anak didik dengan pola pembelajaran elearning juga telah dilakukan di Nigeria (O.J, O.O, & I.C, 2010). Penelitian
Diterima 30 Januari 2017; Revisi 20 Februari 2017; Disetujui 15 Maret, 2017
ISBN: 978-602-61242-0-3 lanjutan untuk memilih bahan sebagai pembelajaran elearning menggunakan algoritma k-means juga telah dilaksanakan di Nigeria (I.O, O.A, & E.R, 2016). 2. Metode Penelitian Mengelompokkan manusia berdasarkan individu sulit untuk dilakukan, sebab setiap individu bersifat unik dan memiliki lingkungan yang berbeda-beda, begitu pula pada pembelajaran yang bersifat non-tatap muka yaitu memalui media digital yang biasa dikenal dengan elearning (Chang & Yang, 2009). Kesulitan yang ada pada penelitian ini adalah mengelompokkan siswa kedalam cluster berdasarkan aktifitas selama proses pembelajaran dengan berdasar pada lima atribut aktifitas yang telah dilakukan. Atribut tersebut antara lain jumlah login, jumlah membuat thread diskusi, jumlah komentar dalam forum diskusi, jumlah mengerjakan soal latihan dan jumlah mengakses materi pembelajaran selama satu semester yang dilakukan siswa. Pembagian cluster terdiri dari tiga dengan berdasar pada jumlah matakuliah yang disajikan. Dengan algoritma k-means maka siswa dikelompokkan menjadi tiga kelompok berdasar pada matakuliah yang telah diikuti. Setiap siswa akan masuk tepat satu kedalam cluster matakuliah, sebagai hasil keakuratan clustering maka data siswa yang mengikuti matakuliah akan dibandingkan dengan anggota kelompok cluster matakuliah. Bila anggota cluster dengan data siswa yang mengikuti matakuliah sama maka disebut valid, namun bila tidak sesuai disebut tidak valid. Selain itu tingkat keefektifan clustering hasilnya diukur dengan sum of square error. K-means Algoritma k-means merupakan salah satu algoritma yang sederhana dengan sifat tidak dipandu(unsupervised) untuk memecahkan masalah clustering (coursera.org, 2017). Ide dasar dari algoritma k-means adalah menentukan k centroids merupakan satu dari banyaknya titik-titik clusters. Penempatan titik cluster terbaik adalah dengan meletakkan pada tempat terbanyak penyebaran data atau dengan kata lain, meminimumkan nilai jarak elemen–eleman dengan titik pusat dalam cluster (Kantardzic, 2011). Penentuan nilai k dilakukan secara acak, k adalah banyaknya cluster yang dibentuk dan merupakan titik pusat cluster yang disebut centroids, mean atau means. Kemudian dihitung jarak setiap data dengan
KNiST, 30 Maret 2017
titik centroids pada masing-masing cluster dengan rumus Euclidian hingga ditemukan jarak yang paling dekat dengan titik centroids. Klasifikasikan setiap data dengan titik centroids hingga nilainya tidak berubah (Witten & Frank, 2005). Algoritma k-means Pada dasarnya clustering dengan k-means adalah menghitung nilai jarak data dengan titik pusat(centroids) dalam satu grup atau cluster, peghitungan ini diulang terus hingga nilai k centroids stabil atau tidak berubah. Banyaknya perulangan tergantung pada nilai k. Berikut langkah perhitungan k-means. 1. Tentukan nilai k secara acak dan hitung setiap clusters dengan pusat cluster. ∑ (centroid of each cluster) ∑
∑
2.1 (within-cluster variation) 2.2 (the total square error) 2.3
2. Generate partisi baru dengan penugasan setiap sample data terhadap pusat titik cluster. 3. Hitunglah setiap pusat cluster yang baru. 4. Ulangi langkap 2 dan 3 hingga nilai pusat cluster tidak berubah atau stabil. Karakteristik algoritma k-means antara lain sebagai berikut (Kantardzic, 2011). 1. Kompleksitas algoritma K-Means adalah O(nkl) dengan n adalah jumlah objek data dan k adalah jumlah cluster dan l adalah banyak iterasi. Umumnya k dan l tetap sehingga algoritma ini memiliki kompleksitas linear terhadap ukuran data. 2. Algoritma K-Means merupakan algoritma yang tidak terpengaruh urutan data(order-independent). 3. Algoritma K-Means sangat sensitif terhadap noise dan outlier sebab dapat mempengaruhi nilai means. 4. Karena kompleksitas linear, algoritma KMeans relatif scalable dan efisien untuk untuk pemrosesan data dalam jumlah besar(higher-dimensionality). Algoritma k-means mengukur goodness dari struktur clustering tanpa adanya informasi dari luar, sebagai contoh SSE. Sum of Square Error Untuk mengevaluasi tingkat efektifitas clustering pada penelitian ini digunakan sum of square error(SSE). SSE sangat
380
ISBN: 978-602-61242-0-3 sederhana dan umum digunakan untuk pengukuran keakuratan cluster (Maimon & Rokach, 2005). Berikut ini tahapan dalam menghitung SSE: ∑
SSE=∑
2.5
Dimana adalah anggota dari cluster k; adalah vektor rata-rata dari cluster k. Sehingga komponen dapat ditulis sebagai berikut: =
∑
2.6
Dimana adalah nilai dari anggota yang dimiliki olek cluster k. 3. Pembahasan Pada penelitian ini, data atribut yang digunakan untuk clustering antara lain jumlah login, akses materi, membuat thread diskusi, berkomentar diforum dan mengerjakan soal. Dari setiap atribut tersebut diproses dengan algoritma KMeans. Berikut data masing-masing atribut: Tabel 1. Data atribut aktifitas siswa No ID A1 A2 A3 A4 1 22652 7 2 0 1 2 12473 21 12 2 31 3 13805 20 15 8 35 4 12777 4 8 1 5 . . . . . . . . . . . . 257 7673 12 1 2 11
A5 5 13 13 4 . . 12
Keterangan: A1 : Jumlah login A2 : Jumlah akses materi pembelajaran A3 : Jumlah membuat thread diskusi A4 : Jumlah berkomentar diforum diskusi A5 : Jumlah mengerjakan soal ujian Dari data berjumlah 257 siswa terbagi menjadi tiga cluster berdasarkan kriteria motivasi yaitu rendah, sedang dan tinggi.
3.1. K-means Berikut langkah-langkah pemrosesan data dengan algoritma k-means dan hasilnya setiap tahapan. 1. Menentukan jumlah cluster. Jumlah cluster yang terbentuk ada tiga yang dikelompokkan berdasarkan kriteria motivasi rendah, sedang dan tinggi.
KNiST, 30 Maret 2017
2. Alokasikan data kedalam cluster secara acak. Pengalokasian data kedalam cluster secara acak yang dibuat oleh software rapidMiner v.5.3.000 Cluster Model Cluster 0: 96 items Cluster 1: 96 items Cluster 2: 65 items Total number of items: 257 Dari hasil pengelompokkan oleh rapidMiner tersebut diatas, dapat diuraikan sebagai berikut: Pada cluster 0 terdapat 96 items data dengan anggota data nomer urut ke1,4,5,6,11,12,13,15,16,17,20,21 dan seterusnya hingga berjumlah 96 data. Cluster 1 juga memiliki data sebanyak 96 items dengan nomer urut data ke7,8,9,18,19,22,25,27,28,29 dan seterusnya hingga 96 items data. Untuk cluster ke-2 dengan jumlah data 65 items dengan urutan data ke2,3,10,14,36,39,47,69,72,73 dan seterusnya hingga 65 items. 3. Hitung pusat cluster atau centroids ratarata data pada cluster dengan rumus berikut: ∑ Dimana: k : index cluster X : indeks data Mk : centroid/rata-rata cluster ke-k n : jumlah data i : dimulai dari 1-n Berikut nilai pusat cluster ke-0 dengan iterasi pertama dan anggota cluster data ke-1,4,5,6,11,12,13,15,16,17,20,21 hingga 96 items. Nilai Mk = (7,479;6,719;2,927;2,635;0,375) dengan urutan atribut login, kerjakansoal, aksesmateri,komenforum dan buatthread. Sedangkan untuk pusat cluster ke-1 dengan iterasi ke-0 dengan anggota data cluster nomor urut ke7,8,9,18,19,22,25,27,28,29 hingga berjumlah 96 items data, yang memiliki nilai Mk = (16,438;11,250;8,271;13,240;2,448) dengan urutan atribut sama dengan cluster ke-0 dan nilai pusat cluster ke-2 dengan nomer urut data sebagai
381
ISBN: 978-602-61242-0-3 anggotanya adalah data ke2,3,10,14,36,39,47,69,72,73 hingga 65 items dan nilai Mk = (27,923;13.508;13.415;27.308;5.815).
Kemudian untuk penyajian hasil k-means dalam bentuk grafik sebagai berikut:
4. Langkah berikutnya mengenerate partisi baru dengan memberikan nilai pusat cluster atau centroids yang lebih dekat dengan pusat cluster. 5. Ulangi langkah 4 dan 5 hingga anggota cluster stabil atau tidak berpindah keanggotaannya. Table 2. Nilai pusat cluster
Attribute cluster_0 cluster_1 cluster_2 login 7.479 16.438 27.923 komenforum 2.635 13.24 27.308 kerjakansoal 6.719 11.25 13.508 buatthread 0.375 2.448 5.815 aksesmateri 2.927 8.271 13.415 Keterangan: Cluster_0 mewakili motivasi rendah Cluster_1 mewakili motivasi sedang Cluster_2 mewakili motivasi tinggi Berikut hasil dalam bentuk graph
Gambar 2. Plot grafik k-means Setiap garis mewakili satu cluster dan garis warna merah adalah cluster ke-2 yang memiliki nilai tertinggi dan menggambarkan aktifitas siswa yang tinggi berdasarkan atribut yang diambil. Table 3. Nilai uji validitas No 1 2 3 4 5 6 7 8 . . 257
ID 22652 12473 13805 12777 3955 3956 7673 3958 . . 6499
c-0 1
c-1
c-2 1 1
1 1 1
. .
1 1 . . 1
. .
validitas tidak valid valid tidak valid valid valid tidak . . valid
lulus tidak ya ya ya tidak tidak ya ya . . ya
Keterangan: c-0 : custer 0 mewakili motivasi rendah c-1 : cluster 1 mewakili motivasi sedang c-2 : cluster 2 mewakili motivasi tinggi
Gambar. 1. Graph clustering k-means Gambar diatas menunjukan bahwa cluster yang dibentuk ada 3 yang mewakili matakuliah diambil oleh siswa. Angka 0 hingga 2 adalah cluster yang dibentuk, dimana setiap cluster memiliki anggota tepat satu item, yang berarti suatu data tepat menjadi anggota hanya satu cluster.
KNiST, 30 Maret 2017
validitas : valid anggota cluster sesuai aktifitas tidak anggota cluster tidak sesuai dengan data empiris Nilai uji validitas diperoleh dengan membandingkan data empiris kelulusan dengan hasil algoritma k-means clustering yang mengelompokkan data kedalam cluster rendah, sedang dan tinggi. Kemudian hasil dari anggota cluster dilihat apakah sesuai dengan kelulusan berhasil atau gagal pada data empiris, bila sesuai dan siswa lulus maka dikatakan valid untuk kriteria sedang dan tinggi, namun bila data tidak sesuai cluster dan/atau status tidak lulus maka dikatakan tidak valid bila masuk dalam cluster sedang dan tinggi. Dari perbandingan data tersebut diperoleh tingkat validitas kisaran 67 persen.
382
ISBN: 978-602-61242-0-3 3.2. Sum of Square Error (SSE) Untuk pengukuran efektifitas cluster secara internal pada penelitian ini menggunakan Sum of Square Error(SSE). ∑
SSE=∑ =
1
∑
2
Tabel 4. Tingkat efektifitas SSE cluster 0 1 2
µk,j 2,412174 2,212531 1,882038
(x1..257)-µkj 0,17834 0,117449 0,100369
SSE 0,38511
Keterangan Untuk nilai SSE semakin kecil maka efektifitas cluster semakin baik dan akurat. 4. Simpulan Penelitian ini memproses data aktifitas siswa dengan dasar catatan logfile yang ada pada system database elearning. Untuk penelitian sebelumnya banyak menggunakan atribut siswa atau data profil. Namun ternyata data logfile aktifitas siswa dapat dijadikan parameter untuk mengukur motivasi belajar siswa dengan rekam jejak yang telah dilakukan. Siswa dikatakan memiliki motivasi tinggi apabila validitas dikatakan valid dan lulus, sebab ada beberapa siswa yang valid namun tidak lulus dimatakuliah yang diikutinya dan begitu pula beberapa siswa yang lulus namun secara data tidak valid. Untuk penelitian ini memiliki tingkat akurasi kisaran 67 persen dengan algoritma kmeans sebab algoritma ini menggunakan logika CRISP yang berarti mengelompokkan data kedalam cluster dengan nilai kebenaran absolut (benar atau salah). Untuk penelitian lanjutan dapat menggunakan algoritma fuzzy c-means dengan harapan dapat meningkatkan tingkat akurasi yang lebih baik lagi dan data dapat diperlengkap. Algoritma fuzzy c-means memiliki nilai tingkat kebenaran dari nol hingga satu. Dimana sebuah data dapat menjadi anggota lebih dari satu cluster dengan nilai kebenaran tertentu, bila data empiris menggolongkan ke cluster ke-0, sementara algoritma fuzzy k-means memasukkan menjadi anggota cluster ke-1.
Web based Learning. JOURNAL OF SOFTWARE, 167-174. coursera.org. (2017, 03 09). coursera.org. Retrieved from coursera.org: https://www.coursera.org/learn/mac hine-learning/lecture/93VPG/kmeans-algorithm I.O, A., O.A, A., & E.R, A. (2016). Modeling and Simulation of K-Means Clustering Learning Object Adaptability Model for Selecting Materials in E-Learning. International Journal of Computer Applications, 10-18. Joao M. Sousa, U. K. (2002). A Comparative Study of Fuzzy Target Selection Methods in Direct Marketing. Fuzzy systems. Kantardzic, M. (2011). Data Mining: Concepts, Models, Methods and Algorithms, Second Edition. Hoboken, NJ, USA: John Wiley & Sons, Inc. Maimon, O., & Rokach, L. (2005). Data Maining and Knowledge Discovery Handbook. New York: Springer. menteri, p. (2013, december 31). sindikker. Retrieved from http://sindikker.org/web/: http://sindikker.dikti.go.id/dok/perme ndikbud/permen_tahun2013_nomor 109.pdf O.J, O., O.O, O., & I.C, O. (2010). Application of k-Means Clustering algorithm for prediction of Students’ Academic Performance. (IJCSIS) International Journal of Computer Science and Information Security, 292-295. Witten, I. H., & Frank, I. (2005). Data Mining Practical Machine Learning Tools and Techniques, Second Edition. San Francisco: Morgan Kaufmann Publisher
Referensi Chang, W.-C., & Yang, H.-C. (2009). Applying IRT to Estimate Learning Ability and K-means Clustering in
KNiST, 30 Maret 2017
383