PERBANDINGAN KINERJA METODE KLASIFIKASI DATA MINING MENGGUNAKAN NAÏVE BAYES DAN ALGORITMA C4.5 UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA Gian Fiastantyo A11.2009.04932 Program Studi Teknik Informatika –S1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro, Jl. Nakula 1 No. 5-11. Semarang
[email protected]
ABSTRAK Perguruan tinggi adalah jenjang pendidikan yang dianggap sebagai gerbang terakhir bagi pelajar untuk menimba ilmu sebelum akhirnya melibatkan diri dalam persaingan kerja. Jumlah mahasiswa yang lulus tepat waktu menjadi indikator efektifitas dari sebuah perguruan tinggi baik negeri dan swasta. Penelitian dalam hal memprediksi tingkat kelulusan mahasiswa telah banyak dilakukan. Dalam penelitian ini dilakukan perbandingan metode data mining yaitu algoritma naïve bayes dan C4.5, yang diterapkan pada data mahasiswa strata 1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro. Naïve bayes adalah metode yang menghitung probabilitas dari tingkat kemunculan data yang satu terhadap data yang lainnya. Algoritma C4.5 adalah satu dari sebagian algoritma dalam metode decision tree yang mengubah data menjadi pohon keputusan, untuk kemudian dapat disimpulkan menjadi rule-rule. Berdasarkan hasil pengujian dengan mengukur kinerja kedua metode tersebut menggunakan metode pengujian confusion matrix, kemudian diketahui bahwa C4.5 memiliki nilai akurasi yang lebih baik yakni sebesar 77,354% , sedangkan naïve bayes memiliki nilai akurasi mencapai 74,094%. Kemudian berdasarkan perbandingan kinerja kedua metode tersebut, metode dengan pencapaian nilai akurasi terbaik akan diimplementasikan dalam bentuk sebuah Decision Support System. Kata Kunci
: data mining, klasifikasi, kelulusan, algoritma C4.5, naïve bayes
I. Pendahuluan Perguruan tinggi
jenjang
sumber daya yang dapat digunakan guna
pendidikan yang dianggap sebagai gerbang
meningkatkan kemampuan dan daya saing
terakhir bagi pelajar untuk menimba ilmu
perguruan tinggi. Sistem informasi dalam
sebelum akhirnya melibatkan diri dalam
hal ini dapat digunakan guna memperoleh,
persaingan
institusi
mengolah serta menyebarkan informasi
perguruan tinggi berada dalam lingkungan
yang telah diolah, agar dapat menunjang
yang
berbagai kegiatan operasional, sekaligus
kerja.
sangat
perguruan memiliki
tinggi
adalah
Saat
ini
kompetitif. kini
keunggulan
Sehingga
dituntut dalam
untuk
dapat berperan serta dalam mendukung
bersaing
pengambilan keputusan strategis yang akan
dengan memanfaatkan semua sumber daya yang
dimiliki.
Selain
sumber
daya
dilakukan. Institusi
perguruan
tinggi
kini
manusia, sarana, serta prasarana, sistem
diwajibkan meningkatkan kualitas layanan
informasi adalah contoh lain dari beberapa
dan memuaskan para mahasiswa serta
ruang publik disekitar mereka. Perguruan
mahasiswa yang lulus terlambat.
tinggi menganggap mahasiswa dan dosen
Penelitian dalam hal pengolahan data
sebagai resource utama dan mereka ingin
siswa atau mahasiswa telah dilakukan
tersebut
dengan beberapa metode yaitu [7], [14],
dengan cara yang lebih efektif [18]. Dalam
[19]. Tetapi belum ada yang melakukan
struktur pendidikan saat ini, mahasiswa
perbandingan kinerja antara metode naïve
memiliki
bayes dan algoritma C4.5 sehingga belum
terus
menggunakan
peran
resource
penting
bagi
sebuah
institusi pendidikan. Oleh karena itu perlu ditinjau ulang mengenai tingkat kelulusan
diketahui metode yang paling akurat. Oleh sebab itu dalam penelitian ini akan
mahasiswa tepat pada waktunya.
dilakukan
perbandingan
metode
Kelulusan tepat waktu merupakan isu
Naïve Bayes, dan Algoritma C4.5 sehingga
penting yang perlu disikapi dengan bijak
dapat diperoleh metode dengan akurasi
oleh institusi pendidikan. Tingkat kelulusan
prediksi ketepatan kelulusan mahasiswa
dianggap sebagai salah satu parameter
yang terbaik berdasar model data yang
efektifitas
ada.
institusi
pendidikan
[18].
Sehingga saat ini memperhatikan tingkat
II. Latar Belakang
kelulusan tepat waktu suatu perguruan
A. Naïve Bayes
tinggi menjadi hal penting. Penurunan
Bayes
merupakan
teknik
prediksi
berbasis
berpengaruh terhadap akreditasi perguruan
sederhana
yang
tinggi tersebut. Oleh karena itu perlu
penerapan
teorema
adanya monitoring serta evaluasi terhadap
aturan
kecenderungan kelulusan mahasiswa, tepat
independensi
waktu atau tidak.
yang kuat (naif). Dengan kata lain,
tingkat
kelulusan
Berdasar
mahasiswa
deskripsi
di
atas,
akan
jelas
Bayes)
probabilistic berdasar
pada
Bayes
(atau
dengan
asumsi
(ketidaktergantungan)
dalam Naïve Bayes, model yang
bahwa memprediksi kelulusan adalah hal
digunakan
yang penting bagi institusi dan potensi
independen”.
adalah
“model
fitur
besar bagi institusi untuk menyikapi serta
Dalam Naïve Bayes, maksud
menentukan kebijaksaan strategis perihal
independensi yang kuat pada fitur
kelulusan tepat waktu. Setelah institusi
adalah bahwa sebuah fitur pada
melakukan identifikasi mahasiswa yang
sebuah data tidak berkaitan dengan
beresiko, kemudian dilanjutkan dengan
ada atau tidaknya fitur lain dalam
mekanisme evaluasi dan monitoring, guna
data yang sama. Contohnya pada
meningkatkan
kasus klasifikasi hewan dengan fitur
kegigihan
mahasiswa, tingkat
penutup kulit, melahirkan, berat, dan
dapat
menyusui. Dalam dunia nyata, hewan
dianggap membagi mahasiswa menjadi dua
yang berkembang biak dengan cara
kelas yaitu “tepat” bagi mahasiswa yang
melahirkan dapat dipastikan juga
lulus tepat waktu dan “terlambat” bagi
menyusui. Di sini ada ketergantungan
dengan
harapan
kelulusan.
Tugas
meningkatnya prediksi
ini
pada fitur menyusui karena hewan
berisi fitur dan Y adalah label kelas.
menyusui biasanya melahirkan, atau
Naïve
hewan yang bertelur biasanya tidak
P(Y|X). Notasi ini disebut juga
menyusui. Dalam Bayes, hal tersebut
probabilitas
tidak dipandang sehingga masing-
probability) untuk Y, sedangkan
masing fitur seolahtidak memiliki
P(Y) disebut probabilitas awal (prior
hubungan apa pun.
probability) Y.
Bayes
Prediksi Bayes didasarkan
dituliskan
akhir
Selama
dengan
(posterior
proses
pada teorema Bayes dengan formula
harus
umum sebagai berikut:
probabilitas akhir P(Y|X) pada model
pembelajaran
(6)
( | ) ( ) ( )
( | )=
dilakukan
pelatihan
untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat
Ide dasar dari aturan Bayes
dari data latih. Dengan membangun
adalah bahwa hasil dari hipotesis atau
model tersebut, suatu data uji X’
peritiwa
diperkirakan
dapat diklasifikan dengan mecari
berdasarkan pada beberapa bukti (E)
nilai Y’ dengan memaksimalkan nilai
yang diamati. Ada beberapa hal
P(Y’|X’) yang didapat.
(H)
dapat
penting dari aturan Bayes tersebut, yaitu:
Formulasi Naïve Bayes untuk klasifikasi adalah
1. Sebuah
probabilitas ( | )=
awal/priori H atau P(H)
( )∏
( | ) ( )
adalah probabilitas dari
P(Y|X) adalah probabilitas
suatu hipotesis sebelum
data dengan vector X pada kelas Y.
bukti diamati.
P(Y) adalah probabilitas awal kelas
2. Sebuah probabilitas akhir
Y. ∏
( | ) adalah probabilitas
H atau P(H|E) adalah
independen kelas Y dari semua fitur
probabilitas hipotesis
dari
suatu
dalam vector X. Nilai P(X) selalu
setelah
bukti
tetap sehingga dalam perhitungan
diamati.
prediksi
Kaitan antara Naïve Bayes dengan klasifikasi, korelasi hipotesis,
nantinya
kita
tinggal
menghitung ( )∏
bagian ( | ) dengan memilih
dan bukti dengan klasifikasi adalah
yang terbesar sebagai kelas yang
bahwa
dipilih
hipotesis
dalam
teorema
sebagai
hasil
prediksi.
Bayes merupakan label kelas yang
Sementara probabilitas independen
menjadi
∏
klasifikasi,
target
pemetaan
sedangkan
dalam bukti
merupakan fitur-fitur yang menjadi masukan dalam model klasifikasi. Jika X adalah vector masukan yang
( | )
tersebut
merupakan
pengaruh semua fitur dari data terhadap
setiap
dinotasikan dengan:
kelas
Y,
yang
( | = ) =
( | = )
sejumlah calon variabel input dengan sebuah
Dan {
,
setiap ,
fitur
,….,
X=
} terdiri atas q
atribut.
decision tree eksplorasi
target.
Karena
memadukan antara
data
dan
pemodelan.
Decision tree digunakan untuk kasus-
B. Algoritma C4.5
kasus dimana outputnya bernilai
Tree atau pohon banyak dikenal sebagai
variabel
bagian
dari
Graph,
yan
diskrit [10]. decison
Sebuah
tree
adalah
termasuk dalam irisan bidang ilmu
sebuah struktur yang dapat digunakan
otomata
serta
untuk membagi kumpulan data yang
sendiri
besar menjadi himpunan-himpunan
yang
record yang lebih kecil dengan
dan
matematika merupakan
teori
bahasa Tree
diskrit. graf
tak-berarah
terhubung, serta tidak mengandung
menerapkan
sirkuit. [15] Dalam sebuah tree, setiap
keputusan. Dengan masing-masing
pasang simpul terhubung hanya oleh
rangkaian
satu lintasan, dan sebuah tree terdiri
himpunan hasil menjadi mirip dengan
dari [25]:
yang lain [4]
a) Root/akar, yang merupakan simpul tertinggi.
pembagian,
tanpa anak lagi .
aturan
anggota
Proses pada decision tree adalah mengubah
b) Leaf/daun, yang berupa simpul
serangkaian
bentuk
data
(tabel)
menjadi model pohon, mengubah model pohon menjadi rule, dan
c) Branch/cabang, yang merupakan simpul-simpul selain daun.
menyederhanakan rule [3]. Sebuah model decision tree terdiri
Decision tree merupakan metode
dari
sekumpulan
aturan
untuk
klasifikasi dan prediksi yang sangat
membagi sejumlah populasi yang
kuat dan terkenal. Metode decision
heterogen menjadi lebih kecil, lebih
tree mengubah fakta yang sangat
homogen
besar menjadi pohon keputusan yang
pada variabel tujuannya. Variabel
merepresentasikan
tujuan
dapat
dengan
aturan.
memperhatikan
biasanya
dikelompokkan
dipahami
dengan pasti dan lebih mengarah
dengan bahasa alami. Selain itu
pada perhitungan probabilitas dari
aturan
tiap-tiap record terhadap kategori-
juga
mudah
Aturan
dengan
dapat
diekspresikan
dalam bentuk bahasa basis data
kategori
seperti Structured Query Language
mengklasifikasi
(SQL) untuk mencari record pada
mengelompokkannya
kategori tertentu.
kelas.
Decision tree juga berguna dalam mengeksplorasi hubungan
data,
menemukan
tersembunyi
antara
tersebut
atau record
untuk dengan
dalam
satu
Data dalam decision tree biasanya dinyatakan
dalam
bentuk
tabel
dengan atribut dan record. Atribut
menyatakan suatu parameter yang
dapat
dibuat
menggunakan
sebagai
kriteria
dalam
dilakukan
dengan
konsep
Entropy,
pembentukan pohon. Atribut ini juga
Entropy menyatakan impurity suatu
memiliki
kumpulan
nilai
yang
terkandung
objek.
Jika
diberikan
didalamnya yang disebut instance.
sekumpulan
Dalam decision tree setiap atribut
label/output y yang terdiri dari objek
akan
simpul.
berlabel 1, 2 sampai n, Entropy dari
akan
objek dengan n kelas ini dapat
menempati
Selanjutnya
posisi
setiap
simpul
memiliki jawaban yang dibentuk
objek
dengan
dihitung dengan rumus berikut.
dalam cabang-cabang, jawaban ini ( ) = −
adalah instance dari atribut (simpul) yang
ditanyakan.
penelusuran,
Pada
pertanyaan
….−
saat
akan
(1)
pertama
akan ditanyakan pada simpul akar. Selanjutnya
−
Kemudian
setelah
itu
ada
dilakukan
beberapa kriteria yang dibahas, yakni
penelusuran
ke
cabang-cabang
Information Gain, Gain Ratio, Indeks
simpul
dan
simpul-simpul
Gini.
akar
berikutnya.
Penelusuran
setiap
1. Information Gain
simpul ke cabang-cabangnya akan
Information
gain
adalah
berakhir ketika suatu cabang telah
kriteria yang paling
populer
menemukan simpul kelas atau obyek
untuk
atribut.
yang dicari.
Information gain dapat dihitung
Saat menyusun sebuah decision
pemilihan
dari output data atau variabel
tree pertama yang harus dilakukan
dependent
adalah menentukan atribut mana
dikelompokkan
yang akan menjadi simpul akar dan
atribut A, dinotasikan dengan
atribut mana yang akan menjadi
gain (y,A). Information gain,
simpul selanjutnya. Pemilihan atribut
gain (y,A), dari atribut A relatif
yang
terhadap output data y adalah :
baik
adalah
atribut
yang
yang paling kecil
( ) (2)
− ∈
obyek
berdasarkan
( )
=
ukurannya. Atau atribut yang bisa memisahkan
yang
( , )
memungkinkan untuk mendapatkan decision tree
y
( )
menurut
Dimana nilai(A) adalah semua
kelasnya. Secara heuristik atribut
nilai yang mungkin dari atribut A,
yang dipilih adalah atribut yang
dan
menghasilkan simpul yang paling
mempunyai nilai c.
”purest” (paling bersih). Ukuran
2.
adalah subset dari y dimana A
Gain Ratio
purity dinyatakan dengan tingkat
Untuk
impurity, dan untuk menghitungnya,
diperlukan
menghitung suatu
gain
ratio term
SplitInformation.
SplitInformation
Secara umum langkah algoritma C4.5
dapat dapat dihitung dengan formula
untuk membangun pohon keputusan
sebagai berikut :
adalah sebagai berikut:
Dimana subset
sampai yang
adalah c
dihasilkan
dari
pemecahan S demgan menggunakan atribut A yang mempunyai sebanyak c
nilai.
Selanjutnya
gain
a.
Pilih atribut sebagai akar.
b.
Buat cabang untuk tiap-tiap nilai.
c.
Bagi kasus dalam cabang.
d.
Ulangi
proses
untuk
setiap
cabang sampai semua kasus pada cabang memiliki kelas
yang
sama.
ratio
dihitung dengan cara :
C. Tahap-Tahap Data Mining
3. Indeks Gini Jika
kelas
obyek
dinyatakan
dengan k, k-1,2, ...C, dimana C adalah
jumlah
kelas
untuk
variabel/output dependent y, Indeks Gini untuk suatu cabang atau kotak A dihitung sebagai berikut :
Dimana pk adalah ratio observasi Sebagai
dalam kotak A yang masuk dalam
suatu
rangkaian
kelas k. Jika IG(A) = 0 berarti semua
proses, data mining dapat dibagi
data dalam kotak A berasal dari kelas
menjadi beberapa tahap. Tahap-tahap
yang sama. Nilai IG(A) mencapai maksimum jika dalam kelas
A
proporsi data dari masing-masing kelas yang ada mencapai nilai yang
merupakan algortima
pemakai
terlibat
C4.5 pengembangan ID3,
sendiri dari dimana
pengembangan dilakukan dalam hal: bisa mengatasi missing data, bisa mengatasi data kontiyu, pruning.
langsung
atau
dengan perantaraan knowledge base. a. Business
Understanding
pemahaman
sama. Algortima
tersebut bersifat interaktif di mana
domain
atau
(penelitian).
Pada fase ini dibutuhkan pemahaman tentang substansi dari kegiatan data mining
yang
akan
dilakukan,
kebutuhan dari perspektif bisnis. Kegiatannya antara lain: menentukan sasaran atau tujuan bisnis, memahami
situasi bisnis, menentukan tujuan
presentasi dari pengetahuan yang
data
didapat dari evaluasi pada proses
mining
dan
membuat
perencanaan strategi serta jadwal penelitian. b. Data
data mining [11]. D. Confusion Matrix
Understanding
pemahaman
data
mengumpulkan
atau
adalah
(tools)
visualisasi
yang
biasa
awal,
digunakan pada supervised learning.
bisa
Tiap kolom pada matriks adalah
mengenal data yang akan dipakai.
contoh kelas prediksi, sedangkan tiap
Fase
baris mewakili kejadian di kelas yang
mempelajari
data
fase
Confusion Matrix adalah alat
data
untuk
ini
mencoba
mengidentifikasikan masalah yang berkaitan
dengan
kualitas
sebenarnya (Gorunescu, 2011).
data,
Confusion
matrix
berisi
mendeteksi subset yang menarik dari
informasi aktual (actual) dan prediksi
data untuk membuat hipotesa awal.
(predicted) pada sisitem klasifikasi.
c. Data preparation atau persiapan
Tabel
2.2
adalah
contoh
tabel
data. Fase ini sering disebut sebagai
confusion matrix yang menunjukan
fase yang padat karya. Aktivitas yang
klasifikasi dua kelas.
dilakukan antara lain memilih table field
dan
yang
Prediksi
akan
ditransformasikan ke dalam database
Aktual
Negaif
A
C
Positif
B
D
baru untuk bahan data mining (set Keterangan:
data mentah). d. Modeling adalah fase menentukan teknik data mining yang digunakan, menentukan tools data mining, teknik data mining, algoritma data mining, menentukan parameter dengan nilai
A = jumlah prediksi yang tepat bahwa instance bersifat negatif B =jumlah prediksi yang salah bahwa instance bersifat positif C =jumlah prediksi yang salah bahwa instance bersifat negatif
yang optimal. e. Evaluation adalah fase interpretasi terhadap hasil data mining yang
D =jumlah prediksi yang tepat bahwa instance bersifat positif.
ditunjukan dalam proses pemodelan
Beberapa persyaratan standar yang
pada
telah
fase
sebelumnya.
Evaluasi
didefiniskan
untuk
matrik
dilakukan secara mendalam dengan
klasifikasi dua kelas:
tujuan menyesuaikan model yang
a. Keakuratan (AC) adalah proposi
didapat agar sesuai dengan sasaran
jumlah
yang
persamaannya:
ingin
dicapai
dalam
fase
f. Deployment atau penyebaran adalah penyusunan
benar.
Rumus
AC = A + D/A + B + C + D
pertama.
fase
prediksi
laporan
atau
b. Penarikan
kembali
(recall)
atau
tingkat positif benar (TP) adalah
proporsi
kasus
positif
yang
yang sangat kompetitif. Sehingga
diidentifikasi dengan benar, yang
perguruan tinggi kini dituntut untuk
dihitung dengan persamaan:
memiliki
TP = D/C + D
keunggulan
bersaing
c. Tingkat positif salah (FP) adalah
dan
meningkatkan
dalam diwajibkan
kualitas
layanan
proporsi kasus negatif yang salah
serta memuaskan para mahasiswa
diklasifikasikan sebagai positif, yang
serta ruang publik disekitar mereka.
dihitung
Dalam struktur pendidikan saat ini,
dengan
menggunakan
persamaan:
mahasiswa memiliki peran penting FP = B/A+B
d. Tingkat
negatif
sejati
bagi sebuah institusi pendidikan. (TN)
Karena itu perlu ditinjau ulang
didefinisikan sebagai proporsi kasus
mengenai
negative
mahasiswa tepat pada waktunya.
yang
diklasifikasikan
dengan benar, yang dihitung dengan
tingkat
Kelulusan
kelulusan
tepat
waktu
menggunakan persamaan:
merupakan isu penting yang perlu
TN = A/A + B
disikapi dengan bijak oleh institusi
(12)
e. Tingkat negatif palsu (FN) adalah
pendidikan.
Tingkat
kelulusan
proporsi kasus positif yang salah
dianggap
diklasifikasikan sebagai negatif, yang
parameter
dihitung
pendidikan (Qudri & Kalyankar,
dengan
menggunakan
persamaan: f. Presisi (P) adalah proporsi prediksi positif
dihitung
yang benar,
dengan
yang
menggunakan
persamaan: P = D/B + D
salah
efektifitas
2010).
FN = C/C + D
kasus
sebagai
satu
institusi saat(13) ini
Sehingga
memerhatikan
tingkat kelulusan
tepat
suatu
waktu
tinggi
menjadi
hal
Penurunan
tingkat
mahasiswa
akan
terhadap
perguruan penting. kelulusan (14) berpengaruh
akreditasi
perguruan
tinggi tersebut. Oleh karena itu III. Desain Penelitian
perlu adanya monitoring serta
Metode yang digunakan dalam
evaluasi terhadap kecenderungan
penelitian ini adalah model CRISP-
kelulusan mahasiswa, tepat waktu
DM (Cross Industry Standard Process
atau tidak.
for Data Mining), dengan langkah-
b. Pemahaman
langkah sebagai berikut:
Data
(Data
Understanding) Data yang digunakan dalam
a. Pemahaman
Bisnis
(Bussiness
Understanding) Saat ini institusi perguruan tinggi berada dalam lingkungan
penelitian ini tidak diperoleh dari sumber
data,
mahasiswa,
dalam secara
hal
ini
langsung.
Melainkan data ini diperoleh dari
database mahasiswa yang dimiliki
menandakan
bahwa
atribut
oleh Universitas Dian Nuswantoro
bersangkutan akan digunakan dalam
Semarang, yaitu melalui bagian
penelitian, sedangkan indikator no (×)
ruang data yang dimiliki oleh
menandakan bahwa atribut tersebut
fakultas Ilmu Komputer. Data yang
akan dieliminasi pada tahap data
dikumpulkan adalah data mahasiswa
preparation.
fakultas Ilmu Komputer dengan program studi strata satu (S1) untuk
d. Pemodelan (Modelling)
tahun angkatan 2008 dan 2009. Data
Terdapat dua metode yang akan
terkumpul sebanyak 1919 data,
digunakan dalam penelitian ini, yaitu
dengan atribut nim (nomor induk
Naïve Bayes dan Algoritma C4.5.
mahasiswa), nama, program studi,
Untuk melakukan pengukuran serta
umur, jenis kelamin, status marital,
perbandingan akurasi dalam penelitian
status pekerjaan, ip (indeks prestasi)
ini akan menggunakan framework
semester
RapidMiner versi 6.
1
sampai
dengan
ip
semester 8, dengan label keterangan tepat atau terlambat.
c. Pengolahan Data (Data Preparation) Pada tahap ini atribut data yang akan digunakan adalah sebagai berikut Atribut
Detail Penggunaan
NIM
√
ID
Nama
×
No
Program Studi
√
Nilai Model
Jenis Kelamin
√
Nilai Model
Umur
√
Nilai Model
Status Marital
√
Nilai Model
validasi serta pengukuran keakuratan
Status
√
Nilai Model
hasil
IPS 1
√
Nilai Model
menggunakan beberapa teknik yang
IPS 2
√
Nilai Model
terdapat dalam framework RapidMiner
IPS 3
√
Nilai Model
IPS 4
√
Nilai Model
IPS 5
×
No
untuk
IPS 6
×
No
model, dan Split Validation untuk
IPS 7
×
No
validasi.
IPS 8
×
No
Keterangan
√
Label Target
e. Validasi dan Evaluasi Dalam tahapan ini akan dilakukan
yang
dicapai
oleh
model
versi. 5.13 yaitu Confusion Matrix pengukuran
tingkat
akurasi
f. Penyebaran (Deployment) Hasil dari penelitian ini berupa
Tabel diatas menjelaskan mengenai
analisa
yang
mengarah
ke
DSS
atribut yang akan digunakan dalam
(Decision
Support
System),
yang
penelitian,
diharapkan
dapat
digunakan
oleh
indikator
yes
(√)
institusi
perguruan
bahan
tinggi
sebagai
pertimbangan
dalam
menentukan langkah guna mengatasi permasalahan
ketepatan
kelulusan
mahasiswa, dan juga dapat digunakan sebagai bahan rujukan untuk penelitian selanjutnya. Selain itu hasil analisa ini juga akan digunakan sebagai dasar perancangan
sebuah
pengambilan
keputusan
melakukan
sistem
idemtifikasi
guna ketepatan
dan ratio perbandingan yang berbeda-
IV. Hasil Pengujian
a. Pembahasan model Naïve Bayes Pengaturan
dan
serta
framework
Berdasarkan sembilan kali pengujian yang dilakukan dengan metode sampling
kelulusan mahasiswa.
operator
c. Hasil Komparasi
penggunaan
parameter
RapidMiner
beda dari data training dan data testing dengan menggunakan kedua metode
dalam
diatas,
didapatkan
sangat
sebagai berikut:
hasil
pengujian
berpengaruh terhadap akurasi dan model
yang
terbentuk,
sebagai
contoh dalam penggunaan operator metode naïve bayes dibawah ini.
Tabel menampilkan
perbandingan hasil
pengujian
diatas dari
metode naïve bayes dan C4.5 dengan metode sampling yang bervariasi, serta ratio penggunaan data training yang bertahap, mulai dari 10% hingga 90%
b. Pembahasan model Algoritma C4.5 Serupa membangun
dengan model
proses
dalam
naïve
bayes,
pengaturan dan penggunaan operator serta parameter pada model C4.5 juga sangat berpengaruh terhadap akurasi yang dihasilkan. Berikut desain model C4.5 yang akan digunakan.
dari keseluruhan 1919 data mahasiswa yang tersedia di dataset. Dan dapat disimpulkan bahwa metode sampling Linear serta metode algortima C4.5 memiliki tingkat akurasi yang lebih baik dalam melakukan prediksi ketepatan kelulusan mahasiswa.
V. KESIMPULAN
VI. DAFTAR PUSTAKA
Berdasarkan hasil penelitian yang telah dilakukan maka dapat diambil beberapa kesimpulan, antara lain: 1. Dalam melakukan prediksi tingkat ketepatan
kelulusan
mahasiswa,
dengan menggunakan pemodelan metode Decision Tree didapatkan tingkat akurasi tertinggi sebesar 82.43%, parameter
dengan Split
menggunakan Relative
dan
Sampling Type Linear, sedangkan pada pemodelan metode Naïve Bayes memperoleh rata-rata tingkat akurasi tertinggi sebesar 74.09%, dengan menggunakan parameter Split Relative dan Sampling Type Stratified. Oleh karena itu dapat disimpulkan berdasarkan tingkat akurasi, bahwa pemodelan metode Decision Tree lebih baik dalam melakukan
prediksi
ketepatan
kelulusan mahasiswa pada data penelitian mahasiswa strata 1 (S1) Fakultas
Ilmu
Komputer
Universitas
Dian
Nuswantoro
angkatan 2008 dan 2009. 2. Aplikasi
yang
dibangun
berdasarkan hasil analisa dengan menggunakan RapidMiner, dapat digunakan
sebagai
Decision
Support System (DSS) atau alat bantu pengambilan keputusan bagi pihak Fakultas Ilmu Komputer Universitas Dian Nuswantoro, guna merancang serta mempersiapkan langkah-langkah strategis dalam menyikapi permasalahan ketepatan kelulusan mahasiswa.
[1] Azwar, S. (2004). Penyusunan Skala Psikologi. Yogyakarta: Pustaka pelajar. [2] Balagatabi, Z. N. (2012). Comparison of Decision Tree and Naïve Bayes Methods in Classification of Researcher’s Cognitive Styles in Academic Environment. Journal of Advances in Computer Research. [3] Basuki, A., & Syarif, I. (2004). Modul Ajar Decision Tree. Surabaya: PENS-ITS. [4] Berry, M. J., & Linoff, G. S. (2004). Data Mining Techniques. New Jersey: John Willey and Sons Inc. [5] Darmawan, A. (2012). Pembuatan Aplikasi Data Mining untuk Memprediksi Masa Studi Mahasiswa Menggunakan Algoritma K-Nearest Neighborhood. Digilab Unikom. [6] Gorunescu, F. (2011). Data Mining: Concepts, Models, and Techniques. Verlag Berlin Heidelberg: Springer. [7] Hamidah, I. (2012). Aplikasi Data Mining untuk Memprediksi Masa Studi Mahasiswa Menggunakan Algoritma C4.5. Digilab Unikom. [8] Han, J., & Kamber, M. (2006). Data Mining Concepts and Techniques. San Francisco: Mofgan Kaufann Publishers. [9] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for Predicting Student Graduation Outcomes. Preceeding of World Congress on Engineering and Computer Science. [10] Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Penerbit ANDI. [11] Larose, D. T. (2005). Discovering Knowledge in Databases. New Jersey: John Willey and Sons Inc.
[12] Larose, D. T. (2006). Data Mining Methods and Models. New Jersey: John Wiley and Sons. [13] Latifah, E. (2013). Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3. Digilab Unikom. [14] Meinanda, M. H., Annisa, M., Muhandri, N., & Suryadi, K. (2009). Prediksi Masa Studi Sarjana dengan Artificial Neural Network. Internetworking Indonesia Journal, 31-35. [15] Munir, R. (2010). Matematika Diskrit. Bandung: Informatika Bandung. [16] Nuswantoro, U. D. (2006). Peraturan Akademik. [17] Prasetyo, E. (2012). Data Mining Konsep dan Aplikasi menggunakan Matlab. Yogyakarta: Penerbit ANDI. [18] Quadril, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques. Global Journal of Computer Science. [19] Ridwan, M., Suyono, H., & Sarosa, M. (2013). Penerapan Data MiningUntuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS, 59-63. [20] Santosa, B. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Surabaya: Graha Ilmu. [21] Shearer, C. (2000). The CRISP-DM Model: The New Blueprint for
Data. Journal of Data Warehousing. [22] Shereker, S. S., & Patil, T. R. (2013). Performance Analysis of Naive Bayes and J48 Classification Algorithm for Data Classification. International Journal Of Computer Science And Applications. [23] Siregar, A. R. (2006). Motivasi Belajar Mahasiswa ditinjau dari Pola Asuh. USU Repository. [24] Sivakumari, Priyadarsini, & Amudha. (2009). Accuracy Evaluation of C4.5 and Naïve Bayes Classifiers Using Atribute Ranking Method. [25] Utdirartatmo, F. (2005). Teori Bahasa dan Otomata. Yogyakarta: Graha Ilmu. [26] Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining Machine Learning Tools and Techniques. Burlington: Morgan Kaufmann Publishers. [27] Yingkuachat, J., Praneetpolgrang, P., & Kijsirikul, B. (2007). An Application of the Probabilistic Model to the Prediction of Student Graduation Using Bayesian Belief Networks. ECTI Transaction on Computer and Technology.