Asep, Penerapan Metode Klasifikasi Data … 41
PENERAPAN METODE KLASIFIKASI DATA MINING UNTUK PREDIKSI KELULUSAN TEPAT WAKTU Asep Saefulloh1, Moedjiono2 1
2
STMIK Raharja, Jl. Jenderal Sudirman No.40 Cikokol Tangerang Universitas Budi Luhur, Jl. Ciledug Raya, Petukangan Utara, jakarta Selatan Email :
[email protected] ,
[email protected]
ABSTRACT Raharja University amazingly had alot of data which is it contained in the two database are Online Absent information (AO) database and Student Information system (SIS) database. AO database use to manage total grade value index (IMK) with SIS database is the data source to manage total grade point average (GPA/IPK). The outcome of IMK and IPK data not yet given a useful information, for estimating on time graduation from student only gather forcast from IMK and IPK. From that statement we want to do a research to forcast on time graduation using datamining classification using C4.5 algorithm, Naïve bayes and Neural Network algorithm. While in this research we are using CRISP-DM research models. From our research the best algoritm result is the highest algoritm accuracy on classification datamining are C4.5 and Neural Network within 100% accuracy rate result, while Naïve Bayes reached 99.8878%. All the three of algoritm are includes on the best classification became they had AUC (Area Under Curve) grade between 0.90-1.00 so they can be use on graduation on time prediction application. The data mining algorithm result this research is using C4.5, we designed interface using engine java which can show on time graduation prediction application and it can be determine on each study program. Keywords: Data Mining, IMK, GPA/IPK,CRISP-DM, Prediction
ABSTRAK Perguruan Tinggi Raharja memiliki kekayaan data yang luar biasa, terdapat pada dua database yaitu database Absensi on Line (AO) dan database Student Information System (SIS). Database AO dijadikan pasokan data untuk mengelola Indeks Mutu Kumulatif Mahasiswa (IMK) sedangkan database SIS merupakan pemasok data untuk pengelolaan Indeks Prestasi Kumulatif (IPK). IMK dan IPK hanya berupa data belum memberikan informasi yang bermanfaat, selama ini untuk memperkirakan kelulusan tepat waktu mahasiswa dengan melihat pengaruh dari IMK dan IPK hanya berupa forecasting. Berangkat dari permasalahan di atas maka diteliti untuk memprediksi kelulusan tepat waktu menggunakan metode klasifikasi data mining dengan pemilihan algoritma C4.5, Naïve Bayes, dan Neural Network, sedangkan untuk desain penelitian menggunakan model CRISP-DM. Dari penelitian menunjukan bahwa algoritma terbaik adalah algoritma yang paling tinggi tingkat accuracy pada model klasifikasi yaitu C4.5 dan Neural Network dengan tingkat accuracy 100% sedangkan Naïve Bayes 99.8878% . Ketiga algoritma tersebut termasuk klasifikasi sangat baik karena memiliki nilai AUC (Area Under Curve) antara 0.90-1.00 sehingga dapat dipergunakan untuk aplikasi prediksi kelulusan tepat waktu. Hasil data mining dari algoritma terpilih dalam penelitian ini menggunakan C4.5, interface dirancang menggunakan java engine yang dapat menampilkan prediksi kelulusan tepat waktu beserta jumlah kelulusan tepat waktu setiap Program Studi.
42. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54
Kata kunci : Data Mining, IMK, IPK, CRISP-DM, Prediksi
PENDAHULUAN Terkait dengan salah satu fungsi dari Perguruan Tinggi dalam pendidikan, pengajaran dan perihal ini menjadi salah satu butir akreditasi yaitu kelulusan tepat waktu bagi mahasiswa. Adanya informasi kelulusan tepat waktu tentu akan menjadikan suatu pengambilan keputusan yang tepat bagi manajemen Perguruan Tinggi dalam mengambil langkah strategis. Selama ini Perguruan Tinggi belum memiliki pola–pola prediksi kelulusan tepat waktu sebagai acuan untuk memprediksi jumlah lulus tepat waktu. Prediksi kelulusan tepat waktu yang dilakukan saat ini hanya berdasarkan forecaster dari data IPK (Indeks Prestasi Kumulatif) dan IMK (Indeks Mutu Kumulatif) semester sebelumnya. Prediksi hampir sama dengan klasifikasi dan estimasi, hanya saja prediksi digunakan untuk menduga nilai-nilai tertentu yang akan terjadi di masa mendatang [8]. Sementara itu Perguruan Tinggi Raharja mempunyai dataset AO (Absensi Online) dan SIS (Student Information Services) yang selama ini belum dimanfaatkan secara maksimal. Adalah hal yang sangat disayangkan jika dataset yang begitu besar tidak dimanfaatkan untuk digali informasi apa yang terdapat didalamnya. Selain itu, selama ini ada anggapan dari para forecaster Perguruan Tinggi bahwa untuk memprediksi tingkat kelulusan tepat waktu cukup dengan melihat data IPK dan IMK sebelumnya. Berangkat dari permasalahan tersebut maka dilakukanlah penelitian ini, yaitu untuk melakukan klasifikasi data mining terhadap dataset AO, SIS yang sudah tersimpan dalam database DMQ sehingga didapatkan prediksi kelulusan tepat waktu. Dalam penelitian untuk memprediksi kelulusan tepat waktu, akan dilakukan komparasi terhadap tiga algoritma klasifikasi data mining yaitu C4.5, Naïve Bayes dan Neural Network. Data dari DMQ yang sudah dicleansing akan diproses dengan menggunakan tools Weka, untuk menguji model pada penelitian ini, digunakan metode Cross Validation, Confusion Matrix, dan kurva ROC (Receiver Operating Characteristic).
PERMASALAHAN Dalam melakukan prediksi kelulusan tepat waktu mahasiswa terdapat berbagai macam permasalahan, diantaranya yaitu bahwa metode prediksi masih menggunakan prinsip kekeluargaan sehingga dirasakan kurangnya tingkat profesionalisme dalam melakukan prediksi kelulusan tepat waktu. Agar lebih terarah dalam melakukan penelitian, maka dirumuskan masalah yang ada sebagai berikut : a. Apakah algoritma C4.5, Naïve Bayes, dan Neural Network merupakan algoritma-algoritma yang dapat digunakan dalam menentukan prediksi kelulusan tepat waktu ? b. Diantara tiga algoritma yang dibahas dalam penelitian ini yaitu algoritma C4.5, Naïve Bayes, dan Neural Network, algoritma manakah yang terbaik dalam menentukan prediksi kelulusan tepat waktu ? c. Dari algoritma terpilih apakah dapat menampilkan data prediksi hasil klasifikasi datamining dengan menampilkan kelulusan tepat waktu ? Penelitian ini menggunakan perangkat lunak Weka (Weikato Environment Knowledge and Analysis) versi 3.6.4 yang merupakan aplikasi data mining berbasis open source (GPL) dan berengine Java [2], dengan Graphical User Interface (GUI) menggunakan java.
Asep, Penerapan Metode Klasifikasi Data … 43
METODE PENELITIAN PROBLEMS Pemilihan algoritma yang akurat untuk prediksi kelulusan tepat waktu
APPROACH Komparasi Algoritma C4.5,Naïve Bayes, Neural Network
IMPLEMENTATION Data mahasiswa untuk IPK dan IMK
DEVELOPMENT Framework Weka
MEASUREMENT Cross Validation, Confusion Matrix, Kurva ROC
RESULT Algoritma klasifikasi paling akurat prediksi kelulusan tepat waktu
Gambar 1. Kerangka Pemikiran Penelitian
Agar akurasi prediksi yang mendekati kebenaran, maka dilakukan aproach dengan melakukan data mining terhadap database DMQ. Sedangkan approach (model) yang digunakan yaitu algoritma C4.5, Naive Bayes, dan Neural Network untuk memecahkan permasalahan kemudian dilakukan pengujian terhadap kinerja dari ketiga metode tersebut. Pengujian menggunakan metode Cross Validation, Confusion Matrix dan kurva ROC. Untuk mengembangkan aplikasi (development) berdasarkan model yang dibuat, digunakan tools data mining Weka, sedangkan untuk desain ekperimennya menggunakan CRISP-DM (Cross Industry Standard Process for Data Mining). Langkah-Langkah Penelitian Penelitian ini didesain dengan menggunakan model CRISP-DM (Cross Industy Standard Process for Data Mining), dalam metode ini terdapat 6 tahapan [7]:
Gambar 2. Tahap CRISP-DM
Business/Research Understanding Phase Data diperoleh dari data sekunder berupa database DMQ Perguruan Tinggi Raharja, dalam penelitian ini akan mengkaji dan membuat model hasil komparasi algoritma C4.5, Naïve Bayes dan Neural Network untuk menentukan algoritma yang paling akurat dan menghasilkan rule prediksi kelulusan tepat waktu.
44. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54
Data Understanding Phase (Fase Pemahaman Data) Data pada database DMQ pada tahun 2013 sebanyak 5842. Data yang digunakan sebanyak 7 atribut yang digunakan dalam prediksi kelulusan tepat waktu adalah: Nim, Nama Mahasiswa, Jenjang Pendidikan, Jurusan, IPK, IMK dan Prediksi. Dari 7 atribut 2, predictor yaitu IPK dan IMK dan 1 attribut tujuan yaitu kelulusan tepat waktu. Data Preparation Phase (Fase Pengolahan Data) Dari 5842 data mahasiswa diambil data mahasiswa angkatan 2009 dan 2010 dengan pertimbangan sudah melewati semester II (tingkat stabilitas dalam menghadiri perkuliahan sudah tinggi) dan masih ada semester yang mereka akan tempuh (untuk memprediksi kelulusan tepat waktu). Setelah melakukan query terhadap database DMQ maka diperoleh 891 record yang akan diolah oleh Weka. Untuk selanjutnya dilakukan teknik preprocessing agar kualitas data yang diperoleh lebih baik [10]. Modeling Phase (Fase Pemodelan) Pada tahapan ini merupakan tahapan pemrosesan data training yang diklasifikasikan oleh model dan kemudian menghasilkan sejumlah aturan. Pada penelitian ini menggunakan tiga algoritma yaitu algoritma C4.5, Naïve Bayes dan Neural Network. Evaluation Phase (Fase Evaluasi) Pada fase ini dilakukan pengujian terhadap model-model yang bertujuan untuk mendapatkan model yang paling akurat. Evaluasi dan validasi dilakukan menggunakan metode Confusion Matrix dan kurva ROC (Receiver Operating Characteristic). Deployment Phase (Fase Penyebaran) Setelah pembentukan model selanjutnya dilakukan analisa dan pengukuran pada tahap sebelumnya, pada tahap ini diterapkan model atau rule yang paling akurat dalam prediksi kelulusan tepat waktu dan selanjutnya dapat digunakan untuk mengevaluasi data baru.
PEMBAHASAN Penelitian ini bertujuan untuk membandingkan tingkat akurasi yang dihasilkan oleh teknik atau model data mining yaitu algoritma C4.5, Naïve Bayes, dan Neural Network dalam melakukan prediksi terhadap kelulusan tepat waktu. Selain itu juga menjabarkan algoritma C4.5, Naïve Bayes, dan Neural Network kedalam rule serta menerapkan algoritma C4.5, Naïve Bayes, dan Neural Network dalam menentukan prediksi kelulusan tepat waktu. Kajian Pustaka Naïve Bayes, yang juga disebut idiots Bayes, simple Bayes, dan independence Bayes, adalah metode yang baik karena mudah dibuat, tidak membutuhkan skema estimasi parameter perulangan yang rumit, ini berarti bisa diaplikasikan untuk data set berukuran besar [11]. Klasifikasi Bayes juga dikenal dengan Naïve Bayes, memiliki kemampuan sebanding dengan dengan pohon keputusan dan neural network [4]. Mudah diinterpretasikan sehingga pengguna yang tidak punya keahlian dalam bidang teknologi klasifikasi pun bisa mengerti. Efektifitas metode Naïve Bayes dan perbandingan empiris lebih jauh, dengan hasil yang sama terdapat pada Domingos dan Pazzani (1997) [11]. Klasifikasi Bayes adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu kelas [5]. Klasifikasi Bayes didasarkan pada teorema Bayes, diambil dari nama seorang ahli matematika yang juga menteri Prebysterian Inggris, Thomas Bayes (1702-1761)[1]. Neural network dikenal dengan nama lain yaitu Jaringan Syaraf Tiruan (JST), Artificial Neural Nerwork (ANN), disebut juga Simulated Neural Network (SNN), atau biasanya hanya disebut Neural Network (NN). Neural Network (NN) adalah jaringan dari sekelompok unit pemroses kecil yang dimodelkan berdasarkan susunan syaraf manusia. JST atau neural network merupakan sistem adaptif yang dapat merubah strukturnya untuk memecahkan masalah berdasarkan informasi eksternal maupun internal yang mengalir melalui jaringan tersebut. Secara sederhana, neural network adalah alat pemodelan untuk memodelkan hubungan yang kompleks antara input dan output untuk menemukan pola-pola pada data. Pengertian lain Neural network adalah satu set unit input/output yang terhubung dimana tiap relasinya memiliki bobot [4]. Neural
Asep, Penerapan Metode Klasifikasi Data … 45
Network dimaksudkan untuk mensimulasikan perilaku sistem biologi susunan syaraf manusia, yang terdiri dari sejumlah besar unit pemroses yang disebut neuron, yang beroperasi secara paralel. Neuron mempunyai relasi dengan synapse yang mengelilingi neuron-neuron lainnya. Susunan syaraf tersebut dipresentasikan dalam neural network berupa graf yang terdiri dari simpul (neuron) yang dihubungkan dengan busur, yang berkorespondensi dengan synapse. Sejak tahun 1950-an, neural network telah digunakan untuk tujuan prediksi, bukan hanya klasifikasi tapi juga untuk regresi dengan atribut target kontinu [10]. C4.5 adalah algoritma decision tree yang dibuat oleh J.R. Quinlan. J48 adalah paket C4.5 yang terdapat di WEKA. Secara umum pendekatan untuk membuat decision tree adalah : 1. Memilih atribut yang paling membedakan dalam menentukan output. 2. Buatlah cabang yang terpisah untuk setiap value atribut tersebut. 3. Membagi instances kedalam sub grup yang merefleksikan nilai atribut dari node yang dipilih. 4. Untuk setiap sub grup, hentikan proses pemilihan atribut jika : a. Semua anggota dari sub grup mempunyai nilai output yang sama, hentikan proses pemilihan atribut untuk current path dan berilah label dengan nilai yang spesifik. b. Sub grup yang berisi single node atau tidak ada atribut sebagai pembeda dapat dihentikan. Seperti di poin a, label pada cabang tersebut adalah sisa dari atribut yang mempunyai bagian lebih besar. Lakukan proses diatas untuk setiap sub grup yang terpilih pada proses nomor 3 yang belum berhenti. Algoritma C4.5/J48 Langkah-langkah untuk membuat algoritma C.45 dengan memakai data training yang berjumlah 891 data , yaitu [5]: a. Siapkan data training. Data training yang digunakan dalam penelitian ini berjumlah 891 record. b. Hitung nilai entropy. Setelah dilakukan perhitungan entropy dengan menggunakan rumus sebagai berikut:
= `
= 0.289506617
c. Setelah itu, hitung nilai gain untuk setiap atribut, lalu pilih nilai gain yang tertinggi. Nilai gain tertinggi itulah yang akan dijadikan akar dari pohon. Misalkan, untuk atribut IPK, akan didapat gain :
= Dari hasil perhitungan entropy dan gain, terlihat bahwa atribut status mempunyai nilai gain tertinggi yaitu 0.540872042. Oleh karena itu, nilai status merupakan simpul akar pada pohon keputusan. Berikut hasil perhitungan entropy dan gain pada Tabel 1. Dalam algoritma ini diberlakukan pruning, pruning yang digunakan yaitu Pre-pruning untuk menghentikan pembangunan suatu subtree lebih awal. Saat seketika berhenti, maka node berubah menjadi leaf (node akhir).
46. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54
Tabel 1. Hasil Nilai Entropy Dan Gain Untuk Menentukan Simpul Akar Jumlah Data IPK
Lulus tepat waktu
Lulus tdk tepat waktu
Entropy
Gain
891
729
162
0.289506617
>=3.7
13
13
0
0
>=2.7
502
502
0
0
>=2.0
214
214
0
0
<=1.99
162
0
162
0
891
729
162
0.289506617
>=3.7
88
88
0
0
>=2.7
723
629
94
0.20093563
>=2.0
79
12
67
2.718818247
<=1.99
1
0
1
0
891
729
162
0.289506617
Laki-laki
609
481
128
0.340405334
Perempuan
282
248
34
0.185355042
891
729
162
0.289506617
Aktif
671
634
37
0.081829926
Tidak Aktif
195
74
121
1.397876948
25
21
4
0.251538767
891
729
162
0.289506617
Sarjana
739
612
127
0.272042711
Diploma
152
117
35
0.377562794
IMK
Jenis Kelamin
Status
Cuti Jenjang
0.289506617
0.452555394
0.115503557
0.540872042
0.128283251
Dari nilai entropy dan gain yang diperoleh tabel 1, selanjutnya tentukan simpul berikutnya yaitu simpul 1.1, dan dilakukan perhitungan entropy dan gain masing-masing atribut dari IPK. Jumlah kasus yang dihitung adalah nilai dari simpul IPK dan seterusnya sampai semua record dalam simpul, mendapatkan kelas yang sama. Berikut ini adalah hasil uji dengan tools Weka terhadap IPK sehingga langsung ditentukan atribut prediktor merupakan penentu dari seluruh attribut lainnya.
Gambar 3. Pohon Keputusan Classifier Trees J48
Dari gambar 3 pohon keputusan tersebut ditemukan aturan-aturan rule sebagai berikut: a. IPK adalah >= 3.7 THEN Lulus tepat waktu b. IPK adalah >= 2.7 THEN Lulus tepat waktu c. IPK adalah >= 2.0 THEN Lulus tepat waktu d. IPK adalah <= 1.99 THEN Lulus tidak tepat waktu Algoritma Naïve Bayes Metode Naïve Bayes menggunakan data training sejumlah 891 record seperti pada metode C4.5. Perhitungan pemilihan prediksi kelulusan tepat waktu dengan nilai prediksi lulus tepat waktu dan lulus tidak tepat waktu terlihat pada Tabel 2 baris pertama. Baris-baris berikutnya adalah hasil perhitungan nilai probabilitas prior, yaitu probabilitas nilai lulus tepat waktu dan
Asep, Penerapan Metode Klasifikasi Data … 47
lulus tidak tepat waktu masing-masing atribut terhadap total lulus tepat waktu dan lulus tidak tepat waktu dari seluruh data. Dalam data training terdapat 891 record dengan 729 kasus lulus tepat waktu dan 162 kasus lulus tidak tepat waktu, untuk menentukan prior probability dengan menggunakan rumus [1]: Bayes : Naïve Bayes : P (x|y) = P (y|x) P (x) P(Lulus tepat waktu,n) P(Lulus tidak tepat waktu,n)
= 729/891 = 0.818182 = 162/891 = 0.181818 Tabel 2. Perhitungan Probabilitas Prior P(XCi)
p IPK
Jumlah Data
LTW
LTTW
LTW
LTTW
891
729
162
0.81818
0.181818
>=3.7
13
13
0
0.01783
0
>=2.7
502
502
0
0.68861
0
>=2.0
214
214
0
0.29355
0
<=1.99
162
0
162
0
1
891
729
162
0.81818
0.181818
>=3.7
88
88
0
0.12071
0
>=2.7
723
629
94
0.86283
0.580247
>=2.0
79
12
67
0.01646
0.41358
<=1.99
1
0
1
0
0.006173
891
729
162
0.81818
0.181818
Laki-laki
609
481
128
0.65981
0.790123
Perempuan
282
248
34
0.34019
0.209877
891
729
162
0.81818
0.181818
Aktif
671
634
37
0.86968
0.228395
Tidak Aktif
195
74
121
0.10151
0.746914
IMK
Kelamin
Status
Cuti
25
21
4
0.02881
0.024691
891
729
162
0.81818
0.181818
Sarjana
739
612
127
0.83951
0.783951
Diploma
152
117
35
0.16049
0.216049
Jenjang
Ket: LTW=Lulus tepat waktu; LTTW Lulus tidak tepat waktu
Gambar 5. Plot Prediksi Kelulusan Tepat Waktu pada Algoritma Bayes
48. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54
Algoritma Neural Network Neural network yang menggunakan algoritma back propagation pada 6 (enam) langkah pembelajaran yaitu dengan menghitung atau menginisialisasi nilai bobot awal antara -0.1 sampai dengan 1.0 untuk input layer, hidden layer dan bias atau threshold. MLP terdiri dari input layer, satu atau lebih hidden layer, dan output layer [10]. Pada simpul bias terdiri dari dua, yaitu: simpul bias pada input layer yang terhubung dengan simpul-smpul hidden layer dan simpul bias pada hidden layer yang menghubungkan pada output layer. Setelah hitung input untuk simpul berdasarkan nilai input dan bobot jaringan saat itu, lalu bangkitkan output untuk simpul menggunakan fungsi aktifasi sigmoid. Kemudian tentukan nilai error baru yang pada akhirnya nilai error tersebut digunakan kembali untuk memperbaharui bobot relasi berikutnya. Berikut adalah neural net yang dihasilkan dari data training menggunakan multilayerperceptron pada tools Weka.
Gambar 6. Neural Net Yang Dihasilkan MLP
Dari gambar 6 tersebut dijabarkan secara spesifik dari 7 attribute yang digunakan dalam menggenerate setiap simpul dari seluruh attribute, sehingga seluruh simpul berjumlah 20 simpul hiden layer dan dibagian akhir terdapat 2 dua simpul yang mewakili atribut kelas yaitu lulus tepat waktu dan lulus tidak tepat waktu.
EVALUASI dan VALIDASI Dari ketiga algoritma C4.5, Naïve Bayes, dan Neural Network akan dievaluasi dan dilakukan uji validitas data dengan data training. Uji validitas dilakuan dengan Confusion Matrix dan ROC (Receveir Operating Characteristic), pengukuran yang biasa digunakan adalah precision, recall dan accuracy [9]. Confusion Matrix Algoritma C4.5 Confusion matrix menggunakan true positives, false positives, false negatives dan true negatives, dengan persamaan sebagai berikut [4]:
Asep, Penerapan Metode Klasifikasi Data … 49
Dari perhitungan terhadap 7 attribut dengan 891 record maka ditemukan 4 leave dan 5 Size of tree, dengan hasil Confusion Matrix sebagai berikut:
Gambar 7. Confusion Matrix untuk Algoritma C4.5
Maka diketahui nilai akurasi data pada algoritma C4.5 sebesar 100% dengan nilai Confusion Matrix yang diklasifikasikan Lulus Tepat Waktu untuk nilai a dan Lulus Tidak Tepat Waktu untuk nilai b. Untuk nilai Confusion Matrix klasifikasi a memiliki 729 record dengan kriteria Lulus Tepat Waktu dan 162 record dengan kriteria Lulus Tidak Tepat Waktu. Confusion Matrix Naïve Bayes Berikut ini adalah perhitungan nilai confusion matrix terhadap algoritma naïve bayes dengan 7 attribut dan 891 record yang menghasilkan tingkat akurasi 99.8878 %.
Gambar 8. Confusion Matrix pada Algoritma Naïve Bayes
Maka diketahui nilai akurasi data pada algoritma Naïve Bayes dalam perhitungan Confusion Matrix yakni 99.8878 % dengan 891 record terdapat klasifikasi a yang memiliki nilai 728 Lulus Tepat Waktu dan b dengan nilai 163 Lulus Tidak Tepat Waktu.
50. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54
Confusion Matrix Neural Network Berikut ini adalah perhitungan nilai confusion matrix terhadap Neural Network:
Gambar 9. Confusion Matrix pada Neural Network
Pengujian dengan Neural Network menghasilkan tingkat akurasi sebesar 100% menggunakan 891 record yang diuji dari data training. Hasil dari Confusion Matrix dengan klasifikasi a yang memiliki kriteria nilai Lulus Tepat Waktu terdapat 729 record dan klasifikasi b kriteria Lulus Tidak Tepat Waktu terdapat 162 record. Maka jika diperhatikan dari perbandingan ke tiga algoritma yaitu Algoritma C4.5, Naïve Bayes dan Neural Network pada tabel 3 ditemukan nilai akurasi tertinggi diperoleh melalui pengujian Neural Network dan Algoritma C4.5 serta diikuti nilai terandah yakni Naïve Bayes. Tabel 3. Komparasi Nilai Accuracy, Precision, dan Recall C4.5 Naïve Bayes Neural network Accuracy Precision Recall
100% 1% 1%
99.8878% 0.999% 0.999%
100% 1% 1%
Kurva ROC Pada setiap pengujian dalam Weka pada dasarnya langsung akan dimunculkan nilai ROC (Receveir Operating Characteristic). Hasil dari ROC akan divisualisasikan dalam bentuk plot.
Gambar 10. Gambar Plot untuk AUC pada Algoritma C4.5 dengan Class LTW
Asep, Penerapan Metode Klasifikasi Data … 51
Area Under Curve (AUC) dihitung menggunakan rumus [6]:
Di mana
Nilai Area Under ROC atau Area Under Curve (AUC) adalah 1 untuk perhitungan class dengan nilai Lulus Tepat Waktu pada algoritma C4.5. Sedangkan untuk Neural Network nilai kurva ROC atau Area Under Curve (AUC) adalah 1 untuk perhitungan class dengan nilai Lulus Tidak Tepat Waktu. Tabel 4. Komparasi Nilai AUC
AUC
C4.5
Naïve Bayes
Neural network
1
1
1
ANALISA HASIL KOMPARASI Model dengan metode C4.5, Naïve Bayes dan Neural Network yang diuji tingkat akurasinya menghasilkan perbandingan nilai accuracy,precision, sensitivity, dan recall yang terlihat pada tabel 3 , dan pada tabel 4 terlihat komparasi nilai AUC (Area Under Curve) antara ketiga model tersebut. Dari ketiga model, dapat diketahui bahwa nilai accuracy, precision, sensitivity, recal, dan nilai AUC yang paling tinggi diperoleh pada pengujian model C4.5 dan Neral Network dengan hasil yang seimbang dan terakhir model Naïve Bayes seperti pada tabel 5 berikut:. Tabel 5. Komparasi Nilai Accuracy dan AUC
C4.5 Accuracy AUC
100% 1
Naïve Bayes
Neural network
99.8878% 1
100% 1
Pada tabel 5, terlihat perbandingan nilai accuracy dan AUC dari tiap metode. Terlihat bahwa nilai secara keseluruhan hampir sama tingkat akurasinya, accuracy algoritma C4.5 dan neural network paling tinggi begitu pula dengan nilai AUC-nya mempunyai nailai yang sama. Untuk metode Naïve Bayes berada paling bawah dalam tingkat accuracy namun memiliki AUC yang sama. Untuk klasifikasi data mining, nilai AUC dapat dibagi menjadi beberapa kelompok [3]. a. 0.90-1.00 = klasifikasi sangat baik b . 0.80-0.90 = klasifikasi baik c. 0.70-0.80 = klasifikasi cukup d. 0.60-0.70 = klasifikasi buruk e. 0.50-0.60 = klasifikasi salah Berdasarkan pengelompokkan di atas dan Tabel IV.7 maka dapat disimpukan bahwa metode C4.5, naïve bayes, dan neural network termasuk klasifikasi sangat baik karena memiliki nilai AUC antara 0.90-1.00. Penerapan Algoritma Terpilih Berdasarkan hasil perbandingan akurasi pada tabel 5, algoritma terpilih sebagai algoritma terbaik dalam klasifikasi pemilihan mitra kerja yaitu algoritma C4.5 dan neural network yang memiliki tingkat akurasi yang paling tinggi dengan persentase 100% dari kedua algoritma
52. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54
tersebut yang dipergunakan dalam penerapan yaitu algoritma C4.5. Penerapan aplikasi menggunakan interface yang dibangun dengan java engine.
Gambar 11. Interface dari C4.5 Menggunakan Java Engine
Hasil olahan data mining akan dibaca oleh program yang dirancangbangun menggunakan Java Creator, GUI akan menampilkan IPK dan IMK pada radio button, range IPK atau IMK, NIM, nama mahasiswa, tampilkan hasil prediksi baik lulus tepat waktu maupun tidak lulus tepat waktu, tampilan seperti gambar 12.
Gambar 12. Aplikasi Klasifikasi Tampilan Prediksi Kelulusan Tepat Waktu
Asep, Penerapan Metode Klasifikasi Data … 53
Pada aplikasi klasifikasi data mining untuk prediksi kelulusan tepat waktu pada gambar 12 dihasilkan klasifikasi Lulus Tepat Waktu dan Lulus Tidak Tepat Waktu. Input data prediksi pada program tersebut sesuai dengan atribut yang dibutuhkan IPK atau IMK, kemudian klik tombol TAMPILKAN, maka secara otomatis tampil hasil klasifikasi prediksi kelulusan tepat waktu dan kelulusan tidak tepat waktu. Untuk menginput kembali data baru pilih IPK atau IMK kemudian isi range dari IPK atau IMK, dan tombol BATAL digunakan untuk clear data input dan hasil prediksi dari aplikasi tersebut. Implikasi Penelitian Implikasi dari temuan penelitian ini mencakup pada dua aspek, yaitu manajerial dan sistem. Pada Aspek Manajerial dengan memperhatikan hasil pengukuran dan evaluasi maka Algoritma C4.5 dan Nerural Network menunjukan algoritma terbaik dalam pengklasifikasian data sehingga metode Algoritma C4.5 dan Neural Network dapat memberikan solusi dalam prediksi kelulusan tepat waktu. Sedangkan pada aspek sistem, untuk mendukung pengambilan keputusan dan pengembangan sistem informasi manajemen strategik, model ini dapat diterapkan pada perusahaan menggunakan software Weka ataupun aplikasi interface kelulusan tepat waktu yang telah dirancang menggunakan java engine.
KESIMPULAN Berdasarkan hasil pengolahan data dan analisa, maka dapat diambil kesimpulan sebagai berikut : a. Bahwa algoritma C4.5, Naïve Bayes, dan Neural Network merupakan algoritma-algoritma yang dapat digunakan dalam menentukan prediksi kelulusan tepat waktu. b. Algoritma terbaik adalah algoritma yang paling tinggi tingkat accuracy pada model klasifikasi yaitu C4.5 dan Neural Network dengan tingkat accuracy 100% sedangkan Naïve Bayes 99.8878% . Ketiga algoritma tersebut termasuk klasifikasi sangat baik karena memiliki nilai AUC (Area Under Curve) antara 0.90-1.00 sehingga dapat dipergunakan untuk aplikasi prediksi. c. Dari algoritma terpilih dapat menampilkan NIM, Nama Mahasiswa, IPK, IMK, Prediksi kelulusan tepat waktu yang merupakan hasil klasifikasi datamining dengan menggunakan engine java.
DAFTAR RUJUKAN 1. 2.
3. 4.
5. 6. 7. 8.
Bramer. 2007. Principles of Data Mining, Springer Garner, R Stephen. WEKA: The Waikato Environment for Knowledge Analisys. Diambil November 2012 dari http://www.cs.waikato.ac.nz/~ml/publications/1995/Garner95WEKA.pdf Gorunescu Florin. 2011. Data Mining: Concept, Models and Techniques. Springer-Verleg Berlin Heidelberg Han, Jiawei. Pei, Jian. 2007. Mining Frequent Pattern by Pattern-Growth: Metodology and Implication. Diambil November 2012 dari http://www.acm.org/sigs/sigkdd/explorations/issues/2-2-2000-12/han.pdf Kusrini, luthfi taufiq Emha. 2009. Algoritma Data Mining, Penerbit Andi Yogyakarta Liu, Bing.2007. Integrating Classification and Association Rule Mining. Diambil November 2012 dari http://www.comp.nus.edu.sg/~dm2/publications/kdd98_1.ps Larose T. Daniel. 2006. Data Mining Methods and Models. John Wiley & Sons, Inc Publication
54. InfoSys Journal, Vol.2 No.1 Februari 2013, hlm. 41 - 54
9.
Prabowo. 2012. Aneka Teknik, Piranti dan Penerapan Data Mining: Studi Kasus Peramalan Harga Saham Industri Telekomunikasi Berbasis Jaringan Saraf Tiruan. Modul Perkuliahan Universitas Budi Luhur 10. She, Jyh-Jian. 2008. An Efficient Two-Phase Spam Filtering Method Based on E-Mails Categorization. International Journal of Network Security, Vol.8, No.3, PP.334-343, Taiwan 11. Vercellis, C., 2009. Business Intelligence; Data Mining and Optimization for Decision Making. John Wiley & Sons, Ltd., UK 12. Wu Xindom, Kumar Vivin. 2009. The Top Ten Algorithms in Data Mining. Chapman & Hill Book