DINAMIKA TEKNOLOGI April 2016 Vol. 8; No. 1; Hal. 45-50
ANALISA PERBANDINGAN TEKNIK-TEKNIK DATA MINING UNTUK PREDIKSI PRESTASI AKADEMIK SISWA Imam Syaifuddin(1), Reddy Alexandro Harianto(2) Sekolah Tinggi Teknik Surabaya e-mail:
[email protected](1),
[email protected](2)
ABSTRAK Kemampuan untuk memprediksi kinerja akademik siswa sangat penting dalam sistem pendidikan. Banyak penelitian yang dilakukan untuk memprediksi prestasi akademik, penelitian ini menelaah beberapa kajian tentang pemanfaatan data mining untuk memprediksi prestasi akademik siswa. Berbagai metode dan algoritma data mining digunakan dalam memprediksi prestasi akademik, pada penelitian ini dilakukan perbandingan dua model prediksi prestasi akademik siswa yaitu penggunaan Algoritma Decision Tree dan Bayesian Network. Hasil dari metode yang di teliti mempunyai akurasi yang hampir sama, Algoritma Decision Tree rata-rata akurasi mencapai 97,5669% sedangkan Bayesian Network rata-rata akurasinya 94,8199%. Hasil dari penelitian ini sangat membantu bagi lembaga pendidikan untuk memantau secara dini prestasi akademik siswa, sehingga bisa dilakukan pendampingan proses belajar agar dapat tercapai prestasi yang diharapkan. Kata kunci: Data Mining, Decison Tree, Multi Layer Perceptron, Prestasi akademik
ABSTRACT The ability to predict the academic aptitude of students is very important in an education system. Many researches have been done to predict academic achievement, this research involves a few prior studies in the usage of data mining to predict students' academic achievements. There are many methods and algorithms in data mining that can be used to predict academic achievement, in this research a comparison will be done between two student academic achievement prediction models, the Decision Tree Algorithm and Bayesian Network. Results from the chosen methods have similar accuracy rates, with the Decision Tree Algorithm achieving an average of 97.5669% accuracy, whereas the Bayesian Network reaches an average accuracy of 94.8199%. The result of this research is useful for educational institutes to observe students' academic achievement from early on, so assistance in the learning process can be given in order to reach the expected achievement. Keywords: Data Mining, Decison Tree, Multi Layer Perceptron, Academic Performance.
PENDAHULUAN Pendidikan adalah pembelajaran pengetahuan, keterampilan, dan kebiasaan sekelompok orang yang diturunkan dari satu generasi ke generasi berikutnya melalui pengajaran, pelatihan, atau penelitian [1]. Dalam sebuah proses pendidikan terdapat suatu sistem yang menunjang terhadap siklus pendidikan, sistem tersebut saling menunjang sehingga menghasilkan output yang diharapkan. Kegagalan salah satu sistem akan mengakibatkan output yang tidak diharapkan. Banyak upaya preventif yang dilakukan oleh lembaga pendidikan agar sistem berfungsi sebagaimana mestinya agar menghasilkan output yang maksimal.
Salah satu yang dapat digunakan untuk memantau proses kegiatan pembelajaran adalah dengan data mining. Data Mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan dan mechine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar. Berbagai metode data mining dalam melakukan analisa dan prediksi prestasi akademik, baik
Dinamika Teknologi Jurnal Ilmiah Teknologi dan Rekayasa, ISSN: 1907-7327
45
DINAMIKA TEKNOLOGI April 2016 Vol. 8; No. 1; Hal. 45-50
menggunakan algoritma tunggal maupun penggabungan beberapa algoritma dengan tujuan mendapatkan hasil yang lebih baik. Diantaranya adalah: Kajian yang dilakukan Behrouz Minaei Bidgoli dkk terhadap sistem pendidikan berbasis web untuk memprediksi prestasi akademik, yang mana semua siswa berinteraksi dengan sistem tersebut, mereka merancang, mengimplementasikan dan mengevaluasi serangkaian pola lalu membandingkan kinerja siswa. Selanjutnya dengan belajar suatu bobot yang sesuai dengan fitur yang digunakan pada algoritma genetika proses prediksi selanjutnya dilakukan. Selanjutnya kajian dengan topik yang sama juga dilakukan V. Ramesh, dkk dalam memprediksi prestasi akademik siswa pada lembaga pendidikan yang mana faktor personal, sosial-ekonomi, psikologi dan variabel lingkungan dikaji, mereka menggunakan klasifikasi, pohon keputusan dan Naive Bayes dengan metode multi layer perception. Penelitian ini dilakukan pada sekolah yang menerapkan sistem pendidikan berbasis teknologi informasi yang memanfaatkan berbagai sarana pendidikan berbasis sistem yang terdiri atas sistem kehadiran yang mewajibkan semua siswa melaksanakan absensi fingerprint, sistem penilaian dan sistem konseling yang terintegrasi untuk memprediksi prestasi akademik. Semua siswa berinteraksi dengan sistem tersebut, sehingga data yang dihasilkan oleh sistem yang digunakan dapat digunakan untuk diteliti dan dievaluasi untuk membentuk serangkaian pola sehingga dapat memprediksi kinerja siswa. Selanjutnya dengan belajar suatu bobot yang sesuai dengan fitur yang digunakan pada algoritma genetika proses prediksi selanjutnya dilakukan. Penelitian ini sangat berguna untuk mengidentifikasi prestasi siswa lebih dini, sehingga dapat di pantau untuk segera diberikan tindakan pada siswa agar mendapatkan prestasi yang optimal. Tujuan utama dari penelitian ini adalah: Mengidentifikasi variabel sekunder yang dapat mempengaruhi prestasi akademik siswa Memprediksi nilai akademik siswa berdasarkan aktivitas melakukan absensi melalui fingerprint Memprediksi perilaku dan akhlak siswa agar dilakukan penganan lebih dini
46
Mengidentifikasi kelompok siswa terhadap variabel yang di berikan sebagai tolak ukur penelitian. Mengelompokkan problem yang dihadapi siswa sehingga dapat diberikan prioritas penanganan Mencari algoritma terbaik yang bisa digunakan untuk melakukan Identifikasi terhadap prestasi akademik siswa. Pada bagian berikut kita akan menggambarkan metodologi keseluruhan penelitian, platform datamining, model dan akan membandingkan tiap algoritma yang digunakan serta hasil akhir dari algoritma dalam memprediksi prestasi akademik siswa.
METODOLOGI Pada bagian ini membahas proses yang dilakukan dalam melakukan penelitian terhadap prediksi prestasi akademik siswa, bagaimana tahapan masing-masing peneliti dalam mengumpulkan data dan menganalisanya. Dalam literatur data mining, berbagai kerangka umum telah dikenalkan bagaimana tata laksana pengumpulan data, menganalisa data, menyebarluaskan hasil, menerapkan hasil dan pemantauan perbaikan. Salah satu model adalah CRISP-DM (Proses CrossIndustry Standard untuk data mining) diusulkan pada pertengahan 1990-an oleh konsorsium Eropa Metodologi CRISP-DM terutama terdiri dari enam langkah: memahami tujuan, mengumpulkan data, menyiapkan data, membangun model, mengevaluasi model menggunakan salah satu metode evaluasi, dan akhirnya penyebaran yang menggunakan model untuk prediksi masa depan dari kinerja siswa. Sebelum pengumpulan data, pertama-tama tentukan perangkat yang digunakan dalam memproses dan menganalisa data mining, banyak sekali perangkat yang ditawarkan dalam pengelolaan data-mining, baik yang berbayar maupun yang open source, dari 30 daftar perangkat data-mining, kita menyeleksi 10 perangkat yang dapat digunakan untuk menganalisa dan memproses data dengan kapasitas yang besar, kemudian dari 10 perangkat kita seleksi menjadi 3 tool yaitu: weka, orange dan yale, dari 3 perangkat, weka sangat baik dalam proses data mining dengan data yang sangat besar.
Dinamika Teknologi Jurnal Ilmiah Teknologi dan Rekayasa, ISSN: 1907-7327
DINAMIKA TEKNOLOGI April 2016 Vol. 8; No. 1; Hal. 45-50
1. Persiapan Data Data adalah salah satu bagian penting dari penelitian, ada beberapa langkah yang perlu diperhatikan dalam pengumpulan data, antara lain: Mengidentifikasi variabel-variabel yang diteliti Menjabarkan variabel-variabel dalam beberapa dimensi Mencari indikator-indikator setiap dimensi Mendeskripsikan kisi-kisi instrumen Merumuskan item-item pertanyaan atau pernyataan instrumen. Selama pengumpulan data, data yang relevan dikumpulkan dan kualitas data harus diverifikasi. Biasanya, data yang dikumpulkan tidak lengkap, mengandung kesalahan dan tidak konsisten. Oleh karena itu data harus dibersihkan agar hasil yang didapatkan dalam proses data mining lebih akurat. Pembersihan data melibatkan beberapa proses seperti mengisi nilai-nilai yang hilang; smoothing data, mengidentifikasi atau menghapus outlier, dan menyelesaikan inkonsistensi. Kemudian, data dibersihkan diubah menjadi bentuk tabel yang cocok untuk model data mining. Data yang dibersihkan akan dibagi menjadi dua; pelatihan atau data pembelajaran (60%) dan sisanya adalah untuk memvalidasi data. Pelatihan data ini diterapkan untuk mengembangkan model sedangkan data divalidasi digunakan untuk memverifikasi model yang dipilih. Pengumpulan data yang berpengaruh pada prestasi akademik siswa diidentifikasi, sejumlah faktor yang dianggap memiliki pengaruh dikategorikan sebagai variabel input sedangkan Variabel output pada sisi lain mewakili beberapa nilai, Data primer dikumpulkan dari siswa dan data sekunder dikumpulkan dari sekolah. Data primer dikumpulkan melalui kuesioner yang dibagikan kepada siswa secara acak, pertanyaan yang dihimpun melalui kuesioner berisi tentang aspek personal, sosial-ekonomi dan psikologi responden yang berhubungan erat dengan aspekaspek untuk prestasi akademik siswa. Persiapan data akademik dilakukan dengan menganalisis dan menyiapkan data historis penilaian tiap mata pelajaran dari catatan akademis pada sekolah yang dikumpulkan pada periode semester ganjil 2015/2016, berdasarkan model penilaian kurikulum 2013 yang diklasifikasikan dalam 10 kelompok, rentang nilai yang diberikan tiap mata pelajaran seperti pada Tabel 1.
Tabel 1: Tabel Skala Penilaian berdasarkan Kurikulum 2013 No. SKOR NILAI 1 0.00 skor 1,00 D 2 1,00 skor ≤ 1,33 D+ 3 1,33 skor ≤ 1,66 C4 1,66 skor ≤ 2,00 C 5 2,00 skor ≤ 2,33 C+ 6 2,33 skor ≤ 2,66 B7 2,66 skor ≤ 3,00 B 8 3,00 skor ≤ 3,33 B+ 9 3,33 skor ≤ 3,66 A10 3,66 skor ≤ 4,00 A
Hasil pengelompokan untuk persiapan data seperti pada Gambar 1, data yang diperoleh pada grafik adalah hasil distribusi nilai pada persiapan data, yang proses pengelompokan nilai berdasarkan Tabel 1.
Distribusi Nilai 44
50
43
40 30 20 10
21 11
9
7
8
4
1
2
C-
D+
D
0 A
A-
B+
B
B-
C+
C
Gambar 1: Distribusi Nilai yang dikumpulkan dari sekolah
Selain data nilai akademik data yang digunakan dalam penelitian ini adalah data absensi siswa. Data absensi siswa digunakan sebagai variabel pendukung yang berhubungan dengan prestasi akademik siswa. Sistem kehadiran pada sekolah ini menggunakan fingerprint yang direkam setiap hari oleh sekolah, pre processing data dilakukan untuk menghasilkan data prosentase kehadiran tiap bulan, berdasarkan Persamaan 1. =
∑
(1)
Selanjutnya data prosentase tiap bulan jumlah kan berdasarkan Persamaan 2. =
∑
(2)
Kemudian data prosentase tiap semester dikonversi menjadi {A, B, C, D, E}, dengan rentang data prosentase untuk A: 85-100, B: 75-84, C:55-74, D: 35-54 dan E:0-34.
Dinamika Teknologi Jurnal Ilmiah Teknologi dan Rekayasa, ISSN: 1907-7327
47
DINAMIKA TEKNOLOGI April 2016 Vol. 8; No. 1; Hal. 45-50
Data Primer yang diperoleh dari siswa melalui kuesioner, digunakan sebagai variabel prediksi disajikan dalam Tabel 2. Tabel 2: Variabel dan Domain yang digunakan No 1
2
3
Variabel Jarak
kendaraan
frekwensiblj
4
lamablj
5
lingkunganblj
6
7
organisasi
hambatan
8
hubdgguru
9
pd
10
pendidikan
11
saudara
12
penghasilan
13
problem
14
absensi
15
nilai
Keterangan
Domain
Jarak rumah siswa dari sekolah sarana yang digunakan siswa untuk mencapai sekolah frekwensi belajar siswa di rumah setiap hari lama belajar setiap hari siswa di rumah suasana lingkungan belajar siswa organisasi yang diikuti siswa di sekolah hambatan yang dihadapi siswa disekolah hubungan antara siswa dan guru pengembanga n diri yang dikuti siswa di sekolah pendidikan orang tua saudara yang dimiliki siswa penghasilan orang tua siswa tiap bulan problem keluarga yang di hadapi siswa presensi kehadiran dengan media fingerprint nilai akhir siswa
{0-5KM, 5-10KM, 1015KM,15-20KM} {JALAN KAKI, ANGKUTAN UMUM, SEPEDA MOTOR, MOBIL PRIBADI} {TIDAK PERNAH, KADANGKADANG,CUKUP,SERI NG} {0-1JAM, 1-2JAM, 23JAM, >3JAM} {MENDUKUNG, BIASA SAJA, MENDUKUNG} {TIDAK AKTIF,KADANGKADANG,AKTIF}
Tabel 3: Rangking Atribut yang bisa digunakan berdasarkan Information Gain Rangking
Variabel
1
frekwensiblj jarak penghasilan lamablj pendidikan lingkunganblj saudara organisasi absensi problem hubdgguru hambatan kendaraan Pd
2 3 4 5 6 7 8 9 10
{ADA, KADANGKADANG, TIDAK ADA}
11
{KURANG BAIK, BIASA SAJA, SANGAT BAIK}
13
{TIDAK AKTIF, KADANG-KADANG, KURANG AKTIF} {SD, SMP, SMA, UNIVERSITAS} {0-2, 3-4, >5}
{<1 Jt, 1-2 Jt, 2-5 Jt, >5 Jt}
12
14
Information Gain
0.6655 0.1965 0.1654 0.1593 0.1187 0.0907 0.0777 0.071 0.0693 0.0608 0.0583 0.0555 0.0399 0.0373
Proses pengelompokan untuk menentukan “Information Gain” menggunakan “atribute evaluator”, untuk memulai pemilihan atribut maka dua objek harus di set up, yaitu: “atribute evaluator” dan “metode pencarian”. Evaluator digunakan untuk menentukan atribut apa yang layak digunakan. Metode pencarian digunakan untuk menentukan teknik pencarian yang terbaik, dari 15 atribut 14 atribut yang dapat digunakan pada penelitian ini.
{ADA, TIDAK ADA} {A, B, C, D, E} {A, A-, B+, B, B-, C+, C, C-, D+, D}
Selanjutnya dari pengelompokan data tersebut dipilihlah atribut utama yang relevan sebagai variabel yang merepresentasikan dan mempengaruhi prestasi akademik siswa. Tabel 3 menunjukkan ringkasan dari atribut utama, pengelompokan data dan “Information Gain” setiap atribut untuk prediksi prestasi akademik siswa. Nilai “Information Gain” didapatkan dari nilai
48
entropy yang dihasilkan dari sampel yang telah di splitting menggunakan nilai pada atribut kelompok sampel tersebut. Langkah ini menggunakan induksi Decision Tree dan berguna untuk mengidentifikasi atribut-atribut yang memiliki pengaruh terbesar pada klasifikasi.
2. Pemodelan Prediksi Prestasi Akademik Seperti disebutkan sebelumnya, banyak sekali teknik yang digunakan para peneliti dalam memprediksi prestasi akademik siswa, pada bagian ini akan dijelaskan lebih detail teknik yang digunakan setelah persiapan data dilakukan. Teknik yang digunakan pada penelitian ini adalah menggunakan beberapa model kemudian membandingkan tiap-tiap teknik dan model yang mempunyai akurasi terbaik. Bayesian Network merupakan salah satu teknik yang populer yang digunakan untuk prediksi suatu permasalahan karena dibangun berdasarkan teori
Dinamika Teknologi Jurnal Ilmiah Teknologi dan Rekayasa, ISSN: 1907-7327
DINAMIKA TEKNOLOGI April 2016 Vol. 8; No. 1; Hal. 45-50
probabilistik dan teori graf, teori probabilistik berhubungan langsung dengan data sedangkan teori graf berhubungan langsung dengan bentuk representasi yang ingin didapatkan dalam melakukan prediksi (Heckerman, 1995). Selain Bayesian Network, Teknik Decision Tree digunakan dalam penelitian ini, Decision Tree adalah pemetaan mengenai alternatif-alternatif pemecahan masalah yang dapat diambil dari masalah tersebut. Decision tree memperlihatkan faktor-faktor probabilitas yang akan mempengaruhi alternatif-alternatif keputusan tersebut. Penelitian ini akan memodelkan prediksi prestasi akademik siswa dengan tiga model, model pertama berdasarkan data sebenarnya pada variabel nilai yaitu konversi nilai berupa {A, A-, B+, B, B-, C+, C, C-, D+, D}, model kedua dengan prediksi nilai berdasarkan {BAIK, GAGAL} dan model ketiga berdasarkan {BAIK, PERINGATAN,GAGAL}. Dengan menggunakan model tersebut atribut input di perbaiki dengan mengelompokkan rentang nilai pada klasifikasi baru untuk mengevaluasi akurasi perubahan prediksi. Hasil tuning terhadap rentang nilai dengan model algoritma Decision Tree dan Bayesian Network didapatkan perbedaan hasil prediksi, seperti yang terpapar pada Tabel 4
ANALISA DAN HASIL Ringkasan hasil prediksi menggunakan algoritma Decision Tree dan Bayesian Network terlihat pada Tabel 4. Hasil penelitian juga menunjukkan algoritma Bayesian Network rata-rata hasil prediksi dengan tepat mengungguli algoritma Decision Tree. Hasil training pada teknik Decision Tree terdapat UnClassified Instances pada tiap-tiap model. Model pertama sebanyak 12,4088 % data yang tidak dapat diprediksi, sedangkan model kedua 0,7299% dan model ketiga 2,1898%, sedangkan untuk teknik yang menggunakan Bayesian Network mampu memprediksi semua data training yang di berikan.
kedua {BAIK, GAGAL} dan model ketiga {BAIK, PERINGATAN, GAGAL} yang mencapai 90% Tabel 4: Perbandingan Hasil TrainingDecision Tree dan Bayesian Network dengan Data Asli
Prediksi Nilai Akhir {A, A-, B+, B, B-, C+, C, C-, D+, D} {BAIK, GAGAL} {BAIK, PERINGATAN, GAGAL}
Rata-Rata
Hasil Data Asli Correctly
Incorrectly
DT
38,6861%
48,9051%
BN
42,3358%
57,6642%
DT
97,0803%
2,1898%
BN DT
97,0803%
2,9197%
92,7007%
5,1095%
BN
94,1606%
5,8394%
DT
76,1557%
18,7348%
BN
77,8589%
22,1411%
Setelah pemeriksaan hasil lebih detail menggunakan confusion matrix di temukan ada ketidakseimbangan yang besar dalam distribusi output tiap kelompok dan akurasi kelompok yang lebih kecil jauh lebih rendah dibandingkan akurasi kelompok yang lebih besar, terutama pada model pertama. Untuk mengatasi masalah ini, maka dilakukan resample data menggunakan fasilitas yang ada pada weka, untuk membuat data lebih seimbang distribusinya. Prediksi menggunakan data resample jauh lebih akurat hasil nya yang ditunjukkan pada Tabel 5. Tabel 5: Perbandingan Hasil TrainingDecision Tree dan Bayesian Network dengan Data Re-Sample
Prediksi Nilai Akhir {A, A-, B+, B, B-, C+, C, C-, D+, D} {BAIK, GAGAL} {BAIK, PERINGATAN, GAGAL}
Rata-Rata
Perbandingan hasil data training pada masingmasing model berbeda akurasinya, model pertama akurasinya sangat rendah dibandingkan dengan model kedua dan ketiga. Akurasi model pertama {A, A-, B+, B, B-, C+, C, C-, D+, D}, hanya mampu memprediksi benar 38,6861% dengan teknik Decision Tree dan 42,3358% dengan menggunakan Bayesian Network dibandingkan dengan model
Teknik
Teknik
Hasil Data Re-Sample
DT
Correctly 98,5401%
Incorrectly 1,4599%
BN
91,7591 %
8,7591%
DT
99,2701%
0,7299%
BN DT
99,2701% 94,8905%
0,7299% 5,1095%
BN
93,4307%
6,5693%
DT
97,5669%
2,4331%
BN
94,8199%
5,3527%
Hasil menggunakan data re-sample menunjukkan teknik Decision Tree lebih unggul dengan rata-rata 97,5669% dari pada Bayesian Network yang hanya mencapai akurasi 94,8199%, juga tidak ada UnClassified Instances pada tiap-tiap model pada Teknik Decision Tree, sehingga semua instance
Dinamika Teknologi Jurnal Ilmiah Teknologi dan Rekayasa, ISSN: 1907-7327
49
DINAMIKA TEKNOLOGI April 2016 Vol. 8; No. 1; Hal. 45-50
dapat diprediksi dengan baik. Rata-rata kemampuan prediksi yang dihasilkan pada masing-masing teknik meningkat lebih akurat dan merata pada tiaptiap model yang diteliti. Re-sample yang dilakukan pada data asli memberikan dampak yang signifikan terhadap pola distribusi data, sehingga membuat algoritma prediksi yang digunakan bekerja dengan optimal dengan data dan variabel yang di buat pada masingmasing metode yang diteliti.
System, International Journal on Computer Science and Engineering November. 4. V.Ramesh, P.Parkav and K.Ramar. 2013. Predicting Student Performance: A Statistical and Data Mining Approach, International Journal of Computer Applications, Volume 63– No.8. 5. Prabowo Pudjo Widodo, dkk. 2013. Penerapan Data Mining dengan MATLAB, Rekayasa Sains, Cetakan Pertama.
KESIMPULAN 1. Secara umum akurasi hasil prediksi yang dilakukan menggunakan teknik Algoritma Decision tree dan Bayesian Network tidak berbeda nyata untuk ketiga model yang diteliti, kedua teknik mencapai akurasi rata-rata mencapai 90%, tetapi bila ditinjau lebih detail maka Algoritma Decision Tree lebih unggul dibandingkan Algoritma Bayesian Network. Sehingga kedua teknik Algoritma bisa direkomendasikan untuk digunakan pada kasuskasus prediksi. 2. Hasil pengujian dari variabel input dengan menggunakan information gain, didapatkan bahwa frekuensi belajar mempunyai peranan yang sangat penting dalam memprediksi prestasi belajar siswa, dibandingkan dengan variabelvariabel lain. 3. Dari penelitian ini dapat disimpulkan bahwa data mining untuk prediksi akademik siswa dapat berguna dalam banyak konteks, untuk penerimaan siswa, dapat mengidentifikasi siswa yang layak mendapat beasiswa dan memprediksi siswa akan lulus atau tidak pada akhir studi sehingga dapat dipantau lebih dini untuk dilakukan perhatian yang lebih maksimal agar tidak terjadi kegagalan.
DAFTAR PUSTAKA 1. Muslihah Wook. 2009. Predicting NDUM Student’s Academic Performance Using Data Mining Techniques. International Conference on Computer and Electrical Engineering. 2. Nguyen Thai-Nghe, Paul Janecek, and Peter Haddawy. 2007. A Comparative Analysis of Techniques for Predicting Academic Performance. IEEE. 3. Behrouz Minaei-Bidgoli, Deborah A. Kashy, Gerd Kortemeyer'. 2003. Predicting Student Performance: an Application of Data Mining Methods With an Educational Web-Based
50
Dinamika Teknologi Jurnal Ilmiah Teknologi dan Rekayasa, ISSN: 1907-7327