Student Clustering Based Olll Academic Using K ..Means Algoritms HirOlllnm.us Leong1, Shlnta Estn Wab.yun.ingrum2 1,2
Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata
[email protected]
Abstract One goal of clustering data mining is to find a cluster of a particular data modeling. By modeling the data, it can provide more description of the data being analyzed and can be visualized in graphical form. One of the methods used in data mining to search for data modeling is to use KMeans algorithm analysis. K-Means algorithm is used to find groupings of data with specific points, called the centroid. By grouping the data, then large amounts of data, grouped in a simpler visualization. The final results can be used as Decision Support System. Keyword: K·Means Algoritms, Data Mining, Clustering
mining. Bahan analisis adalah nilai akademik mahasiswa secara keseluruhan. Hasil akhir yang ingin dicapai dari 1m adalah penggambaran penelitian mahasiswa secara cluster atau secara pemodelan kelompok nHai baik indeks prestasi komulatif (IPK) mahasiswa maupun nHai mahasiswa pada mata kuliah-mata kuliah tertentu dan dapat divisualisasikan dalam bentuk tabel dan graflk.
1. Pendahuiuan Sistem pembelajaran di perguruan tinggi dibangun berdasarkan perencanaan yang relevan dengan tujuan pendidikan yang ingin dicapai. Sehingga perIu diterapkan berbagai strategi dan teknik yang menunjang pengembangan mahasiswa untuk berpikir kritis, bereksplorasi, berkreasi dalam memanfaatkan berbagai sumber pengetahuan. Salah satu proses dalam pengembangan sistem pembelajaran tersebut adalah pengembangan dan pembaharuan proses dan kegiatan perkuliahan antara dosen dan mahasiswa. Keseluruhan pengembangan dan pembaharuan, tertuang dalam proses kegiatan belajar mengajar yang diatur oleh kurikulum. Kurikulum memberlkan perangkat rencana dan pengaturan tentang isi, bahan kajian maupun bahan pelajaran sampai pada cara penyampaian dan penilaian yang digunakan sebagai pedoman dalam penyelenggaraan kegiatan belajar mengajar. Pedoman penilaian kepada mahasiswa menjadi tolak ukur bagi suatu program studi dalam pengembangan kurlkulum dan kualitas pendidikan yang ingin dicapai. Penelitian tentang 'Student Clustering Based On Academic Using KMeans Algorithms' adalah penelitian yang ingin menggambarkan proses penilaian mahasiswa dalam bentuk analisis data
2. Tiinjauan Pustaka 2.1 Konsep Data Mining Pengertian data mining mengacu pada kata "menyaring" atau "menambang" pengetahuan dari sejumlah data berukuran besar. Berry dan Linoff mendeflnisikan data mining sebagai: "suatu proses eksplorasi dan analisis, dengan cara otomatis atau semi otomatis, dari sejumlah data yang besar supaya menemukan pola dan aturan yang sangat penting" Umumnya data mining mempunyai pengertian yang sama dengan istilah "Knowledge Discovery in Databases" atau menemukan pengetahuan dalam database. Proses menemukan pengetahuan dalam database menggunakan beberapa langkah iteratif secara sekuensial yaitu sebagai berikut: 1. Data cleaning (untuk membersihkan data pencilan dan tidak konsisten) 2. Data integration (menggabungkan data dari beberapa sumber data yang berbeda)
1
3. Data selection (mengambil data yang 3. kelompokkan setiap data berdasarkan relevan dari database yang akan jarak terdekat data tersebut dengan setiap digunakan dalam proses analisis) centroid C. Tentukan posisi centroid C 4. Data transformation (data yang barn dengan cara menghitung nilai ditransformasikan atau digabungkan rata-rata dari data-data yang ada pada dalam bentuk form untuk proses analisis) centroid yang sama 5. Data mining (proses-proses mendasar dengan menggunakan metode kecerdasan C. = (:. l ••••••••••••••• (2) buatan dalam menemukan pola-pola Keterangan: yang khusus dari analisis data) nk adalah jumlah data dalam cluster k dan 6. Pattern Evaluation (mengidentiftkasikan di adalah data ke-i dalam cluster k pola yang menarik berdasarkan 4. Lakukan kembali langkah 3, jika posisi pengukuran tertentu dari pengetahuan) centroid barn tidak sama dengan centroid 7. Knowledge presentation (teknik yang yang lama (proses iterasi sampai kondisi digunakan untuk visualisasi dan centroid ke n sama dengan centroid n-l) representasi pengetahuan) Berdasarkan fungsi dan tujuannya, semua proses eksplorasi dalam data mining 3. Metodologi Peneiitiu Metode yang digunakan dalam dapat digolongkan ke dalam 2 kategori besar penelitian adalah metode CRISP-DM (CRoss yaitu proses data mining yang bersifat deskriptif atau menjelaskan dan proses data Industry Standard Process for Data Mining). mining yang bersifat prediktif atau Metode CRISP-DM adalah standarisasi yang berhubungan dengan proses pemodelan data meramalkan. mining. Standarisasi ini tidak mengacu pada teknologi tertentu, melainkan pada semua 2.2 Algoritma KaMeans Algoritma K-Means adalah metode tingkatan pengguna data mining untuk clustering secara partisi yang membagi data menyelesaikan masalah perusahaan atau ke dalam beberapa kelompok yang berbeda lembaga secara umum. yang disebut sebagai cluster. Dalam proses algoritma K-Means, dilakukan proses secara iteratif dengan penentuan kelompok/cluster dilakukan secara acak. Setiap data akan dibagi berdasarkan jarak minimal rata-rata data tersebut ke cluster terdekat. Berikut adalah langkah-langkah algoritma K-Means: Tentukan jumlah cluster K yang akan dibentuk 1. Tentukan centroid C secara acak 2. Hitunglah jarak setiap data ke masingmasing centroid menggunakan rumus jarak antar data (euclidian distance)
)Ld
n
d(x, y) =
L (Xi - Yi)2 ..••...•••..••(1)
Gambar 3.1 Metode CRISP-DM
i=l
Keterangan: d =distance/jarak titik (X, y) Xi = titik X data ke-i Yi =titik Ydata ke-i
Business Understanding: merupakan fase inisialisasi awal pengembangan data IDlrung yaitu pemahaman tentang obyektivitas dan kebutuhan. Pemahaman tersebut diterjemahkan ke dalam defmisi 2
masalah yang akan diselesaikan dengan data database mahasiswa Fakultas llmu Komputer . berikut: mining sehingga dapat dirancang perencanaan awal untuk mencapai tujuan. Data Understanding: Fase data NAMAMHS KD JUR understanding dimulai dengan eksplorasi ANGKAIAN THNAJAR NIRM KD_MSI.IJI data yang akan digunakan dalam TPLHR FKI NIM TGLHR FI';2 KDMK_PI.IS permasalahan data mining, ver~fikasi dan KELAMIN NILAI MARITAL KELAS menemukan pengertian awal dan data yang ALAMAT NO ARSIP KOTA OPERATOR akan digunakan dalam proses analisis. Dari TELEPON TANGGAL AGAMA KD_JUR proses-proses tersebut, maka dapat di?erol~h DARAH DOSEN KODEPOS hal-hal menarik untuk penyusunan hlpotesls ALAMAT_ASAl. NIRL dari informasi yang tersembunyi. Gambar 4.1 Schema Database Data Preparation: Hampir sebagian besar dari proses pemodelan data mining Tiga tabel utama menyimpan data terfokus pada fase data preparation atau tentang mahasiswa, mata kuliah dan hasil persiapan data. Pengumpulan data, penilaian studi mahasiswa. Dari sejumlah kolom yang terhadap data, konsolidasi dan pembersihan tersedia, maka diambil data yang dijadikan data, seleksi dan transformasi data bahan analisis yaitu data mahasiswa (nim dibutuhkan dalam fase ini. dan nama mahasiswa), data mata kuliah Modeling: Fase modeling adalah fase (kode matakuliah, nama mata kuliah dan pemilihan model analisis yang akan besar sks) dan data hasil studi berupa nilai. diimplementasikan dalam data mining, Berikut adalah contoh penerapan misalnya decision tree, neural network, algoritma clustering untuk analisis data nilai aturan asosiasi, dan lain-lain. Pemilihan mata kuliah dengan nama Relational model analisis disesuaikan dengan Database Management System (RDBMS). pennasalahan yang diselesaikan, bahkan Tabel 4 1 Data WK dan Nilai RDBMS-_.- beberapa model dapat diimplementasikan nim ipk jrdbms dalam penyelesaian masalah. ~1. 0 09.02.0001 3.83 EvaKuatnon: Fase evaluation atau 09.02.0002 3.90 4.0 evaluasi adalah fase analisis terhadap model 09.02.0003 3.14 3.0 yang digunakan, bagaimana kinerja model 09.02.0004 3.88 4.0 terhadap analisis data yang digunakan; 09.02.0005 2.95 3.5 apakah model yang diimplementasikan sudah atau belum memenuhi fase pertama 09.02.0007 2.76 1.0 Deployment: Fase deployment 09.02.0008 3.88 4.0 mendefinisikan bagaimana model 09.02.0010 2.58 1.0 dikembangkan dalam bentuk sistem, siapa 09.02.0011 2.68 2.5 yang akan menggunakannya, dan seberapa 09.02.0013 3.76 3.5 sering sistem tersebut digunakan. Terdapat 3 09.02.0016 3.74 3.5 langkah yang ada dalam fase ini, yaitu: 09.02.0017 3.62 3.5 Perencanaan deployment, Perencanaan pengawasan dan pemeliharaan; langkah ini 09.02.0021 2.97 4.0 penting apabila hasil dari pemodelan dalam 09.02.0029 2.73 3.0 data mining digunakan secara periodik. 09.02.0030 3.71 4.0 3:.-..z..:I'.Y
4. Basil Penelitian dan PembahasaJlJl Persiapan data adalah proses awal dari implementasi sistem. Dalam proses persiapan data, perlu dilakukan persiapan
3
09.02.0033
3.28
3.0
09.02.0051
2.95
2.5
09.02.0052
3.42
3.0
09.02.0056
2.65
2.5
09.02.0058
2.57
2.5
Langkah pertama adalah menentukan jumlah cluster yang akan dibentuk. Sebagai contoh: ditentukan dua cluster secara acak sebagai berikut: Cl
C2
=
=
(2.75,
Grafik Clustering
4.: !J..!-~J.~
3.00)
3.5 .
(3.25, 3.75)
3
0.5f
~
4.0
1.47 0.63
C2
09.02.0002 3.90
4.0
1.52 0.69
C2
09.02.0003 3.14
3.0
0.39 0.76
C1
09.02.0004 3.88
4.0
1.51 0.68
C2
09.02.0005 2.95
3.5
0.54 0.39
C2
09.02.0007 2.76
1.0
2.00 2.79
C1
09.02.0008 3.88
4.0
1.51 0.68
C2
09.02.0010 2.58
1.0
2.01 2.83
C1
09.02.0011 2.68
2.5
0.50 1. 37
C1
09.02.0013 3.76
3.5
1.13 0.57
C2
09.02.0016 3.74
3.5
1.11 0.55
C2
09.02.0017 3.62
3.5
1. 00 0.45
C2
09.02.0021 2.97
4.0
1. 02 0.38
C2
09.02.0029 2.73
3.0
0.02 0.91
C1
09.02.0030 3.71
4.0
1.38 0.52
C2
09.02.0033 3.28
3.0
0.53 0.75
C1
09.02.0051 2.95
2.5
0.54 1.29
C1
09.02.0052 3.42
3.0
0.67 0.77
Cl
09.02.0056 2.65
2.5
0.51 1.39
C1
09.02.0058 2.57
2.5
0.53 1.42
C1
..... i
i
•••••
U
••• ••••• M ••••••••••••••••••
I
...... 1............-+.............. -+.... .
~_ ••• M •••••••
U
3
U
U
U
U
4
Gambar 4.2 Visualisasi Clustering lterasi 1
Langkah terakhir adalah menentukan posisi titik centroid yang barn dengan perhitungan mengambil nilai rata-rata dari data yang ada pada centroid Cl dan centroid C2.
nim 09.02.0003 09.02.0007 09.02.0010
ipk rdbms 3,14 3 2,76 1 2,58 1 09.02.0011 2,68 2,5 09.02.0029 2,73 3 09.02.0033 3,28 3 09.02.0051 2,5 2.95 09.02.0052 3,42 3 09.02.0056 2,65 2,5 09.02.0058 2,57 2,5 Cl barn = AVERAGE (IPK, RDBMS) (2.88,2.4)
CLUSTER
09.02.0001 3.83
·· .. ······i
..................,............. i··
IPK
.
d2
' I • •:
····:-.1 ·················.1..+.
1: •..
Ta be14 2Hasi1H'ltungan I terasl. 1 d1
'
~ 1.51+1···+
=~(3.83 - 3.25)2 + (4.0-3.75)2 =0.63
ipk rdbms
..; ............ +
m
Nilai minimal 0.63 sehingga data pertama masuk ke dalam pengelompokan cluster C2 Dengan cara yang sama, maka data selanjutnya dapat diperoleh perhitungan jarak dan pengelompokan clusteringdalam bentuk tabel sebagai berikut:
nim
•
~ 2.51~·1 2 . t ...............+...............l
Langkah kedua adalah menghitung jarak setiap titik terhadap C 1 dan C2 menggunakan rumus distance. Perhitungan jarak data pertama dengan nim 09.02.0001 adalah sebagai berikut: d 1 (x, y) =~(3.83- 2.75)2 + (4.0-3.00)2 =1.47 d 2 (x, y)
.....'.L ................ ,1
=
nim ipk rdbms 09.02.0002 3,9 4 09.02.0004 3,88 4 09.02.0005 2,95 3,5 09.02.0008 3,88 4 09.02.0013 3,76 3,5 09.02.0016 3,74 3,5 09.02.0017 3,62 3,5 09.02.0021 2,97 4 09.02.0030 3,71 4 C2 barn = AVERAGE (IPK, RDBMS) = (3.62,3.8)
Apabila data dalam bentuk tabel di atas, digambarkan dalam bentuk grafIk clustering, maka didapatkan visualisasi sebagai berikut: 4
dengan perhitungan jarak dan nilai centroid menggunakan rumusan dan formula K-Means 2. Terdapat 3 analisis utama yang dapat diselesaikan menggunakan algoritma KMeans yaitu analisis data nilai lIPK mahasiswa, analisis perbandingan nilai mata kuliah tertentu terhadap nilai lPK dan analisis perbandingan nilai mata kuliah terhadap mata kuliah dalam rumpun mata kuliah yang sarna dalam kurikulum. 3. Dengan melakukan proses analisis terhadap nilai baik IPK maupun mata kuliah, maka didapatkan garnbaran secara umum tentang data hasil stum mahasiswa.
Dengan cara yang sarna pada pembahasan di atas, maka dapat dilakukan proses untuk. iterasi berikut. Hasilnya dari iterasi berikut adalah sebagai berikut: Tabel 4. 3 HasH Perbitunaan Iterasi 1 ipk rdbrns
nirn
CLUSTER
d2
d1
09.02.0001 3.83
4.0
1.86 0.29
C2
09.02.0002 3.90
4.0
1. 90 0.34
C2
09.02.0003 3.14
3.0
0.65 0.93
C1
09.02.0004 3.88
4.0
1.89 0.33
C2
09.02.0005 2.95
3.5
1.10 0.74
C2
09.02.0007 2.76
1.0
1.41 2.93
C1
09.02.0008 3.88
4.0
1.89 0.33
C2
09.02.0010 2.58
1.0
1.43 2.99
C1
09.02.0011 2.68
2.5
0.22 1.60
C1
09.02.0013 3.76
3.5
1.41 0.33
C2
09.02.0016 3.74
3.5
1.40 0.32
C2
09.02.0017 3.62
3.5
1.33 0.30
C2
09.02.0021 2.97
4.0
1. 60 0.68
C2
09.02.0029 2.73
3.0
0.62 1.20
C1
09.02.0030 3.71
4.0
1. 80 0.22
C2
09.02.0033 3.28
3.0
0.72 0.87
C1
09.02.0051 2.95
2.5
0.12 1.46
C1
09.02.0052 3.42
3.0
0.80 0.83
C1
09.02.0056 2.65
2.5
0.26 1.62
C1
09.02.0058 2.57
2.5
0.32 1.67
C1
5.2 Saran Penelitian yang dilakukan masih sebatas dalarn penggarnbaran data secara umum sehingga pengembangan di masa-masa mendatang perlu mempertimbangkan pengembangan sistem pendukung keputusan menggunakan algoritma yang sarna. Daftar Pustaka [1] Michael I.A Bern) and Gordons S. Linnoff, "Data Mining Techniques", Wiley Publishing, Inc, 2004 [2] Cross fudustry Standard Process for Data Mining, http://www.crisp-dm.orgl [3] Iiawei Han dan Micheline Kamber. "Data Mining: Concepts and Techniques", Morgan Kaufmann Publisher, 2001 [4] Mehmed Kantardzic, "Data MiningConcepts, Models, Methods, and Algorithms", New John Wiley & Sons, Inc., 2003 [5] Sean Kelly, "Data Warehouse in Action", John Wiley & Sons, Inc., 1997 [6] Efrem G. Mallach, "Decision Support and Data Warehouse Systems", McGrawHill,2ooo [7] George M. Marakas , "Modem Data Warehousing, Mining, and Visualization Core Concepts", Prentice Hall, Inc., 2003
Grafik Clustering 4,5 , """"'~""'~
3,5
3: ~ 2,5
:g
2:
a: 1,5 1
0,5
o u
U
U
3
U
U
U
U
4
IPK
Gamb8ll' 4.3 Visualisasi Cllllstering Iterasi 2
5. Kesimpulan dan Saran 5.1 Kesfimpulan 1. Algoritma K-Means dapat untuk mengelola nilai IPK menjadi pengelompokan Pengelompokan IPK dapat
digunakan mahasiswa clustering. dilakukan 5