PERBANDINGAN 3 METODE DALAM DATA MINING UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI DI SMA NEGERI 6 SURAKARTA
Naskah Publikasi Program Studi Informatika Fakultas Komunikasi dan Informatika
Oleh : Veronica Andriyana Yusuf Sulistyo Nugroho, S.T., M.Eng
PROGRAM STUDI INFORMATIKA FEKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA MARET, 2015
PERBANDINGAN 3 METODE DALAM DATA MINING UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI DI SMA NEGERI 6 SURAKARTA Veronica Andriyana, Yusuf Sulistyo Nugroho Program Studi Informatika, Fakultas Komunikasi dan Informatika Universitas Muhammadiyah Surakarta Email :
[email protected] Abstraksi Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat mutu sekolah, SMA N 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi untuk siswa berprestasi. Namun masih ada hal yang menjadi permasalahan yang sering muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa. Beasiswa untuk siswa berprestasi bertujuan memotivasi siswa untuk selalu meningkatkan prestasi akademik maupun non akademik dan membantu siswa yang kurang mampu tetapi berprestasi. Untuk mengatasi permasalahan tersebut adalah dengan cara menerapkan proses data mining. Dalam memprediksi siswa yang menerima beasiswa berdasarkan prestasi menggunakan metode Naive Bayes, Decision Tree Algoritma ID3, dan Regresi Linear. Atribut yang digunakan terdiri dari Nilai rata-rata, Gender, Ekstrakurikuler, Jurusan, Semester, Jumlah Tanggungan Orang Tua, Gaji Orang Tua, dan Beasiswa. Untuk melakukan proses data mining tersebut di perlukan tools pembantu yaitu RapidMiner 5. Pengimplementasian data mining menggunakan perbandingan 3 metode dapat diketahui bahwa berdasarkan dari jumlah sampel 305 siswa hasil nilai precision metode Decision Tree Algoritma ID3 lebih baik digunakan untuk penelitian ini dibandingkan dengan metode yang lain. Sedangkan berdasarkan nilai recall dan accuracy, Regresi Linear lebih baik digunakan dibandingkan metode lain. Tetapi apabila dilihat dari hasil secara keseluruhan prediksi penerima beasiswa variabel yang paling berpengaruh adalah Nilai rata-rata. Kata kunci : Algoritma ID3, Data mining, Decision Tree, Naive Bayes, Regresi Linear
berlimpah PENDAHULUAN Dalam dunia pendidikan, data yang berlimpah dan berkesinambungan mengenai siswa yang dibina dan alumni terus dihasilkan. Menurut Jing (2004) dan Merceron (2005) dalam Nugroho (2014), data yang
membuka
peluang
diterapkannya data mining untuk pengelolaan pendidikan yang lebih baik
dan
pelaksanaan
data
mining
pembelajaran
dalam ber-
bantuan komputer yang lebih efektif. Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat mutu sekolah, SMA
Negeri 6 Surakarta mengalokasikan
ID3,
dana
analisis
beasiswa
dalam
bentuk
Regresi
Linear.
Dengan
perbandingan
tersebut,
apresiasi untuk siswa berprestasi.
diharapkan
dapat
Namun masih ada permasalahan
menemukan
informasi
yang sering muncul, yaitu kurang
siswa yang menerima beasiswa
tepatnya
berdasarkan
penyaluran
beasiswa
membantu
prestasi
tentang
sehingga
terhadap siswa, misalnya siswa yang
membantu pihak sekolah dalam
sebenarnya tidak layak mendapatkan
mencari solusi dapat mengetahui
beasiswa
mendapatkan
tingkat prestasi siswa dan lebih
beasiswa, sebaliknya siswa yang
meningkatkan lagi mutu pendidikan
berhak mendapatkan beasiswa baik
sekolah dengan adanya siswa-siswa
itu
yang berprestasi.
tetapi
beasiswa
beprestasi
maupun
beasiswa kurang mampu tetapi tidak mendapatkan beasiswa. Tujuan dari adanya
beasiswa
untuk
siswa
berprestasi tersebut yaitu memotivasi siswa untuk selalu meningkatkan prestasi
akademik
maupun
non
akademik, membantu siswa yang kurang mampu tetapi berprestasi, dan menumbuhkan rasa percaya
diri
siswa untuk berkompetitif dalam mengembangkan potensinya. Berdasarkan tersebut
dapat
solusi
dengan cara memanfaatkan teknik data
mining
1. Prediksi / Peramalan Menurut susanto dalam Mauriza (2014)
Prediksi
memperkirakan
sesuatu
adalah yang
akan terjadi pada masa yang mendatang. Prediksi juga dapat digunakan dalam pengklasifikasian,
tidak
hanya
untuk
memprediksi time series, karena
permasalahan diambil
LANDASAN TEORI
dengan
membandingkan 3 metode untuk prediksi siswa penerima beasiswa berdasarkan prestasi yaitu Naïve Bayes, Decision Tree Algoritma
sifatnya yang bisa menghasilkan class berdasarkan atribut yang ada. 2. Data Mining Data
Mining
sering
disebut
KDD (Knowledge discovery in database). KDD adalah kegiatan yang
meliputi
pengumpulan,
pemakaian data, historis, untuk
tree yang umumnya digunakan
menemukan keteraturan, pola
untuk menemukan aturan yang
atau hubungan dalam set data
diharapkan bisa berlaku untuk
berukuran besar. (Santoso, 2007)
data-data tidak lengkap atau
3. Naive Bayes Naive
belum
Bayes
prediksi
adalah
berbasis
teknik
probabilitic
pernah
kita
ketahui.
(Lesmana, 2012) 5. Regresi Linear
sederhana yang berdasar pada
Analisis regresi adalah teknik
penerapan
Bayes
statistik untuk permodelan dan
(aturan Bayes) dengan asumsi
investigasi hubungan dua atau
independensi
lebih variabel. (Santosa, 2007)
Teorema
(ketidakketergantungan)
yang METODE PENELITIAN
kuat. (Prasetyo, 2012) 4. Decision Tree Algoritma ID3 Decision Tree untuk
adalah metode
menemukan
fungsi
a. Penentuan Atribut Tahap yang pertama menganalisis
dan
adalah
menyeleksi
pendekatan yang bernilai diskrit
data
dan tahan terhadap data-data
mendapatkan
yang memiliki kesalahan (noisy
record yang relevan terhadap
data) serta mampu mempelajari
keluaran yang diinginkan.
ekspresi-ekspresi
Atribut yang digunakan dalam
disjunctive
keseluruhan atribut
Iterative
prediksi
penerima
Dychotomizer version 3 (ID3)
terdapat
dalam
seperti
OR.
adalah salah satu jenis decision Tabel 1 Daftar Atribut Atribut Beasiswa Nilai rata – rata Gender Ekstrakurikuler Jurusan Semester Jumlah tanggungan orang tua Gaji orang tua
Variabel Y X1 X2 X3 X4 X5 X6 X7
untuk dengan
beasiswa tabel
1
dihitung berdasarkan Teoema
b. Implementasi Data Mining 1. Naive Bayes Klaifikasi
Bayes. (Widiastuti, 2010) Bayesian
adalah
Persamaan dari teorema Bayes
klasifikasi statistik yang bisa
dirumuskan seperti Persamaan
memprediksi
1 berikut ini :
probabilitas
sebuah class. Klasifikasi ini .......... (1) 2. Decision Tree Algoritma ID3 Hal
yang
harus
dilakukan
dalam metode decision tree
adalah menghitung entrophy dan information gain. (Ranny dkk, 2012)
Persamaan 2 Rumus entrophy : .........(2) Persamaan 3 Rumus Information Gain ..................(3) 3. Regresi Linear
investigasi hubungan dua atau
Analisis regresi adalah teknik
lebih variabel. (Santosa, 2007)
statistik untuk permodelan dan
Persamaan 4 Rumus Regresi Linear : ...............................................(4) Rumus Slovin dirumuskan seperti Persamaan 5 berikut ini :
HASIL DAN PEMBAHASAN 1. Penentuan Sampel
.......................... (5)
Untuk mendapatkan sampel yang dapat
menggambarkan
dan
mewakili jumlah populasi, maka dalam
penentuan
sampel
penelitian ini digunakan rumus Slovin (Umar, 2004)
n = 1290 / 1 + 1290 (0,05)2 n = 305,325 siswa Jadi
dibulatkan menjadi
305
siswa yang digunakan sebagai data sampel.
Gambar 1 Scatter Plot NaiveBayes menggunakan data testing 2. Hasil
Implementasi
Bayes
Naive
menggunakan
Berdasarkan scatter plot pada 1
hasilnya
mayoritas
menunjukkan
bahwa
penerima beasiswa dengan nilai rata-
siswa yang MENERIMA beasiswa tersebut. 4. Hasil
Implementasi
rata nilai≥8 dan jurusan BAHASA
Linear
sebagian
RapidMiner 5
ada
TIDAK
MENERIMA tetapi ada beberapa
RapidMiner 5
gambar
Sedangkan nilai≥8 dan Jurusan IPS
yang
menerima
Regresi
menggunakan
beasiswa. Sedangkan nilai≥8 dan Berdasarkan scatter plot dalam
jurusan IPA hasilnya tidak ada yang
gambar
menerima beasiswa.
3
menunjukkan
bahwa
6
Algortima
ID3
menggunakan RapidMiner 5 Berdasarkan scatter plot dalam gambar
2
menunjukkan
bahwa
6
TIDAK
MENERIMA.
hasilnya
mayoritas
TIDAK
MENERIMA. Sedangkan nilai≥8 (4) dan
Jurusan
mayoritas
IPS
TIDAK
(1)
hasilnya
MENERIMA
tetapi ada beberapa siswa yang MENERIMA beasiswa tersebut.
Gambar 2 Tampilan hasil decision tree pada Scatter Plot
Gambar 3 Scatter view Regresi Linear
Fakta menunjukkan :
5. Perhitungan Naive Bayes Sebagai
contoh
penulis
P( Y =MENERIMA)= 31 / 305
mengambil salah satu data uji
= 0,10164
yang
P( Y =TIDAK MENERIMA)=
memiliki
ciri
sebagai
berikut : nilai
≥
274 / 305 = 0,89836 8,
PEREMPUAN,
Fakta : (X1=
nilai≥
OLAHRAGA, IPA, semester 5,
P
tanggungan ≤ 4, gaji ≤ 1500000.
MENERIMA)=
Apakah siswa tersebut Menerima
0,80645
atau Tidak Menerima beasiswa ?
25
8 /
|Y= 31
=
P (X1= nilai≥
8 |Y= TIDAK
P (X7= gaji ≤ 1500000|Y=
MENERIMA)= 125 / 274 =
TIDAK MENERIMA)= 1 / 274 =
0,45620
0,00365
P
(X2=
PEREMPUAN
MENERIMA)=
19
/
31
|Y= =
(X2=
dihitung dengan : P(X1=
0,61290 P
HMAP dari keadaan ini dapat
PEREMPUAN
|Y=
nilai
≥
8,
X2=
PEREMPUAN,
X3 =
TIDAK MENERIMA)= 90 / 274
OLAHRAGA, X4= IPA, X5= 5,
= 0,32847
X6= tanggungan≤ 4, X7 = gaji ≤
P
(X3=
OLAHRAGA
|Y=
1500000 | Y = MENERIMA)
MENERIMA)= 3 / 31 = 0,09677 P
(X3=
OLAHRAGA
|Y=
TIDAK MENERIMA)= 22 / 274 = 0,08029 P (X4= IPA |Y= MENERIMA)=
P(X1= nilai ≥ 8, X2= PEREMPUAN,
2 / 31 = 0,06452 P
(X4=
IPA
MENERIMA)=
= 0,00105287
|Y= 7
/
TIDAK
X3= OLAHRAGA, X4= IPA, X5= 5,
274
X6= tanggungan≤ 4, X7 = gaji ≤
=
0,02555
1500000 | Y = TIDAK
P (X5= 5 |Y= MENERIMA)= 1 /
MENERIMA)
31 = 0,03226 P
(X5=
MENERIMA)=
5
|Y=TIDAK 4
/
274
=
0,01460 P (X6= tanggungan≤
4 |Y=
MENERIMA)= 1 / 31 = 0,03226 P (X6= tanggungan≤
4 |Y=
TIDAK MENERIMA)= 2 / 274 =
= 0,0000107389 KEPUTUSAN PREDIKSI BEASISWA = MENERIMA.
0,00730 P (X7= gaji ≤ 1500000 |Y= MENERIMA)= 1 / 31 = 0,03226
6. Perhitungan Algoritma ID3
Decision
Tree
a) Menentukan Root Node
nilai information gain seperti pada
Root Node adalah atribut yang
tabel 4.
memiliki nilai information gain
Tabel 4 Nilai Information gain
paling tinggi. Tabel
2
Atribut Information
gain
tertinggi Atribut Gender Nilai rata - rata Ekstrakurikuler Jurusan Semester Tanggungan orang tua Gaji orang tua
Nilai gain 0,001 0,035 0,028 0,000 0,015 0,002 0,009
Gender Ekstrakurikuler Semester Tanggungan orang tua Gaji orang tua
Nilai Gain 6 < nilai ≤ 8 BAHASA 0,061 0,075 0,026 0,075 0,048
d) Menentukan Leaf Node Menentukan leaf node pada Nilai
b) Menentukan Internal Node pertama Menentukan internal node pada Nilai rata-rata 6 < nilai ≤ 8 didapatkan nilai information gain seperti pada tabel 3.
Gender Ekstrakurikuler Jurusan Semester Tanggungan orang tua Gaji orang tua
BAHASA dengan ekstrakurikuler Olahraga
didapatkan
nilai
information gain seperti pada tabel 5. Tabel 5 Nilai Information gain
Tabel 3 Nilai Information gain Atribut
rata-rata 6 < nilai ≤ 8, jurusan
Nilai Gain ratarata 6 < nilai ≤ 8 0,005 0,017 0,039 0,033 0,001
Atribut
Gender Semester Tanggungan orang tua Gaji orang tua
Nilai Gain 6 < nilai ≤ 8, BAHASA, Olahraga 0,000 0,000 0,000 0,000
Dari hasil tabel 5 dapat disimpulkan 0,018
c) Menentukan Internal Node kedua
bahwa
ekstrakurikuler
Olahraga
menghasilkan leaf node, karena hasil
Menentukan internal node pada
dari information gain bernilai 0.
Nilai rata-rata 6 < nilai ≤ 8 dan
7. Perhitungan Regresi Linear
jurusan
BAHASA
didapatkan
Dari perhitungan implementasi
ID3, dan Regresi Linear) adalah
Regresi
nilai rata – rata.
Linear
menggunakan
RapidMiner menghasilkan sebuah
2. Berdasarkan dari nilai precision,
persamaan sebagai berikut :
metode Decision Tree Algoritma
Y = (0,136 × NILAI RATA –
ID3 lebih baik digunakan dalam
RATA) – ( 0,078 × SEMESTER)
penelitian ini karena memiliki
+
nilai
(0,021
×
JUMLAH
TANGGUNGAN ORANG TUA) + 0,858 Dari
lebih
dari
pada
algoritma yang lainnya. 3. Berdasarkan
persamaan
baik
nilai
recall
dan
tersebut
accuracy, Regresi Linear lebih
dibuktikan dengan perhitungan
baik digunakan dalam penelitian
manual
ini karena memiliki nilai lebih
dengan
mengambil
beberapa sampel data seperti di bawah ini : Pengujian
baik dari metode yang lain. 4. Hasil dari nilai precision, recall,
penghitungan
siswa
dan accuracy nya adalah sebagai
yang MENERIMA BEASISWA :
berikut:
Y = (0,136 × 4) – (0,078 × 2) +
a. Naive Bayes hasil precision
(0,021 × 0) + (0,015 × 0) + 0,858
89,90% , recall 99,64%, dan
= 1,246
accuracy 89,51%.
Karena hasilnya mendekati
1
maka hasilnya MENERIMA.
b. Decision Tree Algoritma ID3 hasil precision 90,04% , recall 82,48%, dan accuracy 76,07%. c. Regresi Linear hasil precision
KESIMPULAN Berdasarkan penjelasan dan analisis
89,84% , recall 100,00%, dan
yang telah diuraikan, maka dapat
accuracy 89,84%.
ditarik kesimpulan bahwa : 1. Variabel mempengaruhi
yang dari
paling hasil
perhitungan 3 metode (Naive Bayes, Decision Tree Algoritma
DAFTAR PUSTAKA
Lesmana, Dody Putu. 2012. ‘Perbandingan Kinerja Decision Tree J48 dan ID3 Dalam Pengklasifikasian Diagnosis Penyakit Diabetes Mellitus’. Jurnal Teknologi dan Informatika, Vol. 2, no. 2. Mauriza, Ahmad Fikri. 2014. ‘Implementasi Data Mining Untuk Memprediksi Kelulusan Mahasiswa Fakultas Komunikasi dan Informatika UMS Menggunakan Metode Naïve Bayes’, Skripsi.Fakultas Komunikasi Dan Informatika, Universitas Muhammadiyah Surakarta. Nugroho, Yusuf Sulistyo. 2014. ‘Klasifikasidan Prediksi Masa Studi dan Prestasi Mahasiswa
Fakultas
Komunikasi
dan
Informatika
Universitas
Muhammadiyah Surakarta’, Jurnal KomuniTI, Vol VI, No 1, Maret 2014. Prasetyo, Eko. 2012. Data Mining konsep dan aplikasi menggunakan matlab. Yogyakarta: Andi. Ranny dkk. 2012. ‘Pemilihan Diet Nutrien bagi Penderita Hipertensi Menggunakan Metode Klasifikasi Decision Tree’, Jurnal Teknik ITS, Vol. 1, No.1. Santosa, Budi. 2007. Data Mining Terapan dengan Matlab. Yogyakarta: Graha Ilmu. Santoso, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: GrahaIlmu. Umar, Husein (2014). Metode Penelitian Untuk Skripsi Dan Tesis Bisnis. Cetakanke – 6.Jakarta : PT Raja GrafindoPersada. Widiastuti, Dwi. 2010. ‘Analisa Perbandingan Algoritma SVM, Naive Bayes, dan Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem Pendeteksi Instrusi’, Jurnal Jurusan Sistem Informasi , Universitas Gunadarma.
BIODATA PENULIS
Nama
: Veronica Andriyana
NIM
: L200110086
Tempat Lahir
: Surakarta
Tanggal Lahir
: 8 Februari 1993
Jenis Kelamin
: Perempuan
Agama
: Islam
Pendidikan
: S1
Fakultas
: Jurusan Informatika/Fakultas Komunikasi dan Informatika
Universitas
: Universitas Muhammadiyah Surakarta
Alamat
: Jl. Tarumanegara Utara II, Tempel RT 5 RW 7, Banyuanyar, Banjarsari, Surakarta
Nomor Telepon
: 085799480482
Email
:
[email protected]