PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika INTISARI Indeks Prestasi Kumulatif (IPK) dan Lama Studi menjadi salah satu parameter standar penilaian mutu lulusan dan bagian dari penilaian evaluasi sebuah program studi. Penelitian ini bertujuan untuk mengklasifikasi data historis mahasiswa Fakultas Teknik dan Fakultas Ilmu Pendidikan Universitas Negeri Gorontalo tahun 2003 sampai tahun 2012 dengan menggunakan Algoritma C5.0. Metode penelitian yang digunakan adalah Eksperimen melalui tahapan Knowledge Discovery Database. Berdasarkan hasil pengujian dengan menggunakan teknik k-fold cross validation, diperoleh akurasi tertinggi dari prediksi IPK sebesar 79,3 % dan 86,7% untuk lama studi. Hasil prediksi mahasiswa aktif angkatan 2012 dan 2013 menunjukkan bahwa kategori IPK Sedang sebesar 100%, kategori Lama Studi Tepat Waktu 88,80 % dan kategori Lama Studi Tidak Tepat Waktu 11,20 %. Kata Kunci: Klasifikasi, Algoritma C5.0, IPK dan Lama Studi
PENDAHULUAN Lulus tepat waktu dengan Indeks Prestasi Akademik (IPK) di atas rata-rata tentunya menjadi harapan setiap mahasiswa. IPK dan lama studi juga menjadi salah satu parameter standar penilaian mutu lulusan, karena profil lulusan selalu tidak lepas dari perhitungan rata-rata IPK dan lama studi lulusan. Sehingga penilaian IPK dan lama studi merupakan bagian dari penilaian evaluasi sebuah program studi, yang dalam proses evaluasinya dapat dilakukan lebih awal dengan mengklasifikasi data historis mahasiswa lulusan untuk memprediksi kategori IPK dan Lama Studi mahasiswa aktif yang informasinya belum diketahui sebelumnya, sehingga program studi dapat mengidentifikasi secara dini karakteristik mahasiswa yang berpotensi lulus dengan kategori tepat waktu atau IPK kategori rendah dan melakukan langkah persuasive. Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database atau data historis. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, 2005). Salah satu metode dalam data mining yang bisa digunakan untuk
memprediksi kategori IPK dan lama studi adalah Metode Klasifikasi dengan Algoritma C5.0. Hadjaratie (2012) dengan membandingkan beberapa metode teknik data mining dalam prediksi kategori IPK dan lama studi Fakultas Teknik UNG, yaitu metode Decission Tree dengan algoritma CART, Metode Artificial Neural Network dengan algortima Back Propagation, dan Metode K-Nearest Neighbour. Hasil penelitiannya menunjukkan bahwa metode Decision Tree dengan algoritma CART memiliki kinerja yang lebih baik dari metode lain dalam memprediksi kategori IPK dam lama studi mahasiswa (rata-rata akurasi sebesar 78%). Ernawati (2008) menjelaskan bahwa dalam algoritma C5.0, pemilihan atribut yang akan diproses menggunakan information gain. Secara heuristik akan dipilih atribut yang menghasilkan simpul yang paling bersih (purest). Jika dalam cabang suatu decision tree anggotanya berasal dari satu kelas maka cabang ini disebut pure. Kriteria yang digunakan adalah information gain. Jadi dalam memilih atribut untuk memecah obyek dalam beberapa kelas harus kita pilih atribut yang menghasilkan information gain paling besar. Ukuran information gain digunakan untuk memilih atribut uji pada setiap node di dalam tree. Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node selanjutnya. Formula untuk information gain adalah (Kantardzic M, 2003): s ,s ,, , , , s
,
=−
p log (p )
(1)
S adalah sebuah himpunan yang terdiri dari s data sampel. Diketahui atribut class adalah
m dimana mendefinisikan kelas-kelas di dalamnya, Ci (for i= 1, …, m), si adalah jumlah sampel pada S dalam class Ci. untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi dengan menggunakan aturan seperti di atas (2.1). Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci dan diestimasikan dengan si /s. Atribut A memiliki nilai tertentu {a1, a2,…, av}. Atribut A dapat digunakan pada partisi S ke dalam v subset, {S1, S2, …, Sv}, dimana Sj berisi sample pada S yang bernilai aj pada A. Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split), maka subset ini akan berhubungan pada cabang dari node himpunan S. Sij adalah jumlah sample pada class Ci dalam sebuah subset Sj. Untuk mendapatkan informasi nilai subset dari atribut A tersebut maka digunakan formula (Ernawati, 2006). ( )∑
⋯
(
,…,
)
(2)
⋯
adalah jumlah subset j yang dibagi dengan jumlah sampel pada S, maka untuk
mendapatkan nilai gain, selanjutnya digunakan formula (Ernawati,2006) Gain (A) = I (S1, S2, … Sm) = E (A)
(3)
Klasifikasi dengan algoritma C5.0 perlu diuji keakuratannya, salah satunya dengan teknik pengujian Cross Validation, yaitu metode umum digunakan untuk mengevaluasi kinerja dalam classifier. Dalam pendekatan cross validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua sub set data yang berukuran sama. Pilih salah satu sebagai data training dan satu lagi untuk testing, kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai training set menjadi test set demikian sebelumnya. Pendekatan ini dinamakan two-fold- cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Metode k-fold cross-validation menggeneralisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk training, sedangkan sisanya untuk testing. Prosedur ini diulangi k kali sedemikian sehingga setiap partisi digunakan untuk testing tepat satu kali. Total error ditentukan dengan menjumlahkan error untuk semua k proses tersebut (Tan, et al. 2005). Hasil pengujian dari setiap data testing dievaluasi tabulasi Confusion Matrix, dimana setiap sel berisi angka yang menunjukkan berapa banyak kasus yang sebenarnya dari kelas yang diamati untuk diprediksi sebagaimana yang terlihat pada Tabel 1 (Han dan Kamber, 2006). Tabel 1. Confusion Matrix untuk 2 Kelas Classification Class = Yes Class = No
Predicted Class Class = Yes Class = No A B TP (True Positive) FN (False Negative) C D FP (False Positive) TN (True Negative)
TP adalah jumlah record positif yang diklasifikasikan sebagai positif, FP adalah jumlah record negative yang diklasifikasikan sebagai positif, FN adalah jumlah record positif yang diklasifikasikan sebagai negative, TN adalah jumlah record negative yang diklasifikasikan sebagai negative. Evaluasi dengan confusion matrix menghasilkan akurasi dan laju error. Akurasi
adalah persentase dari total data yang diprediksi secara benar. Laju error adalah persentase dari total data yang diprediksi secara salah. =
=
METODE PENELITIAN
100%
(4)
Metode yang digunakan pada penelitian ini adalah metode Eksperimen (Suratmo, 2002) yang tahapannya mengacu pada tahapan Knowledge Discovery in Database (KDD) (Han dan Kamber, 2006), dan disusun berdasarkan tahapan penelitian Irene (2014), seperti yang terlihat pada Gambar 1. mulai
Pengumpulan Data
Praposesing Data
Data Set Lulusan
Data Set Mahasiswa Aktif
Data Set Lama Studi
Data Set IPK
k–Fold Cross Validation
Klasifikasi (Algoritma C5.0)
Pengujian Akurasi
Prediksi
selesai
Gambar 1. Tahapan Penelitian Data yang digunakan pada penelitian berasal dari basis data akademik Fakultas Teknik dan Fakultas Ilmu Pendidikan UNG, yang bersumber dari Sistem Informasi Akademik Terpadu UNG (SIATUNG) mengenai data mahasiswa lulusan yang digunakan adalah mahasiswa yang lulus tahun 2003 sampai dengan tahun 2012 (862 record untuk Fakultas Teknik dan 4224 record untuk Fakultas Ilmu Pendidikan) dan data prediksi menggunakan data mahasiswa aktif angkatan tahun 2012 dan 2013 (767 record untuk Fakultas Teknik dan 1357 record untuk Fakultas Ilmu Pendidkan).
Proses klasifikasi dan pengujian dilakukan dengan menggunakan teknik k-fold cross validation, dimana pada penelitian ini jumlah k yang digunakan sebanyak 2 (2-fold cross validation), sehingga data dibagi menjadi dua bagian (2-fold cross validation), dimana satu bagian data dijadikan sebagai data training dan satunya lagi sebagai data testing. (Tabel 2). Data training digunakan untuk proses klasifikasi dan data testing digunakan untuk proses pengujian. Tabel 2. Pembagian 2-fold cross validation untuk data set IPK dan Lama Studi Kelompok Data A Jlh record Jlh Missing value B Jlh record Jlh Missing value
Data Training IPK_Dataset_1 (training 1) LS_Dataset_1 (training 1) 1379 13,83 % IPK_Dataset_2 (training 2) LS_Dataset_2 (training 2) 1380 44,32 %
Data Testing IPK_Dataset_2 (testing 1) LS_Dataset_2 (testing 1) 1380 44,32 % IPK_Dataset_1 (testing 2) LS_Dataset_1 (testing 2) 1379 13,83 %
HASIL DAN PEMBAHASAN Klasifikasi Berdasarkan hasil klasifikasi data mahasiswa lulusan dengan menggunakan algoritma C5.0 dan melibatkan formula 1, formula 2, formula 3, diketahui bahwa jumlah rule yang terbentuk dan atribut yang terlibat tidak sama untuk setiap proses klasfikasi, baik pada data set IPK dan Lama Studi. Untuk data training set_IPK_1, rule yang terbentuk sebanyak 58 rule dan atribut yang terlibat sebanyak 12 atribut (semua atribut), sedangkan pada data training set_IPK_2 rule yang terbentuk sebanyak 8 rule dan atribut yang terlibat sebanyak 7 atribut, yang terdiri dari : jurusan, strata, asal sekolah, jenis kelamin, penghasilan ayah, seleksi, penghasilan ibu. Adapun data training set_LS_1, rule yang terbentuk sebanyak 41 rule dan atribut yang terlibat sebanyak 12 atribut (semua atribut), sedangkan data set_LS_2 rule yang terbentuk sebanyak 11 rule dan atribut yang terlibat sebanyak 7 atribut, yang terdiri dari : jurusan, strata, asal sekolah, jenis kelamin, penghasilan ayah, seleksi, penghasilan ibu. Dengan demikian, dapat diketahui bahwa data training set 2 (baik set_IPK_2 dan set_LS_2) lebih sedikit menghasilkan rule dan keterlibatan atribut dalam proses klasifikasi dibandingkan dengan data training set 1 (set_IPK_1 dan set_LS_1). Hal ini dapat saja disebabkan oleh karena jumlah missing value pada data training set 2 (44.32%) lebih banyak dibandingkan pada data training set 1 (13.83%). Karena
datanya lebih banyak, maka proses klasifikasi pada data training set 1 lebih banyak melakukan proses split untuk mendapatkan leaf (terbentuknya rule). Sedangkan pada data training set 2, karena banyaknya missing value, maka proses untuk mendapatkan leaf tidak banyak melakukan proses split, karena atribut yang tersisa tidak lagi memiliki data (missing value), sehingga leaf dibentuk secara otomatis oleh kategori dengan frekuensi mayoritas, sebagaimana aturan yang berlaku pada penerapan algoritma C5.0.
Pengujian Akurasi Sebelum melakukan prediksi data mahasiswa aktif, maka penerapan algoritma C5.0 pada data training IPK dan Lama Studi divalidasi terlebih dahulu dengan menggunakan data testing, untuk mendapatkan nilai performasi berupa nilai akurasi dari masing-masing data set, berdasarkan metode pembagian data 2-fold cross validation (Tabel 2), yang menyajikan informasi hasil perhitungan akurasi algoritma C.50 untuk data set IPK, dimana pada kelompok data A, himpunan rule yang dibentuk oleh data training Set_IPK_1 divalidasi dengan menggunakan data testing Set_IPK_2, sehingga bisa diperoleh kategori IPK hasil prediksi yang selanjutnya akan dibandingkan dengan kategori IPK dari data yang sebenarnya. Begitu pula sebaliknya dengan kelompok data B, dimana himpunan rule yang dibentuk oleh data training Set_IPK_2 divalidasi dengan menggunakan data testing Set_IPK_1. Perhitungan akurasi dilakukan berdasarkan formula 4. Tabel 3. Akurasi Algoritma C.50 pada data set IPK kelompok A PREDICTED RENDAH
SEDANG
TINGGI
PERCENT CORRECT
RENDAH
0
204
0
0.0%
SEDANG
0
1000
0
100.0%
TINGGI OVERALL PERCENTAGE
0
176
0
0.0%
0
100%
0
72.5%
OBSERVED
Tabel 4 Akurasi Algoritma C.50 pada data set IPK kelompok B PREDICTED RENDAH
SEDANG
TINGGI
PERCENT CORRECT
RENDAH
0
103
0
0.0%
SEDANG
0
1093
0
100.0%
TINGGI OVERALL PERCENTAGE
0
183
0
0.0%
0
100%
0
79.3%
OBSERVED
Tabel 3 Merupakan hasil perhitugan akurasi algoritma C.50 untuk data set Lama Studi, dimana pada kelompok data A, himpunan rule yang dibentuk oleh data training Set_LS_1 divalidasi dengan menggunakan data testing Set_LS_2, sehingga bisa diperoleh kategori Lama Studi hasil prediksi yang selanjutnya akan dibandingkan dengan kategori Lama Studi dari data yang sebenarnya. Begitu pula sebaliknya dengan kelompok data B (Tabel 4), dimana himpunan rule yang dibentuk oleh data training Set_LS_2 divalidasi dengan menggunakan data testing Set_LS_1. Tabel 5. Akurasi Algoritma C.50 pada data set Lama Studi kelompok A PREDICTED OBSERVED TIDAK TEPAT WAKTU TEPAT WAKTU OVERALL PERCENTAGE
PERCENT CORRECT
TIDAK TEPAT WAKTU
TEPAT WAKTU
0
0
0.0%
408
971
70.4%
29.6%
70.4%
70.4%
Tabel 6. Akurasi Algoritma C.50 pada data set Lama Studi kelompok B PREDICTED PERCENT CORRECT
OBSERVED
TIDAK TEPAT WAKTU
TEPAT WAKTU
TIDAK TEPAT WAKTU
54
173
3.9 %
TEPAT WAKTU OVERALL PERCENTAGE
11
1141
82.7 %
5%
95.29 %
86.7%
Berdasarkan kedua tabel perhitungan akurasi di atas (Tabel 5 dan 6), dapat diketahui kelompok data yang memiliki akurasi tertinggi adalah kelompok data set B, baik pada data set IPK (79.3%) maupun data set Lama Studi (86.7%), sehingga untuk selanjutnya himpunan rule
yang diperoleh dari data training Set_IPK_2 dan Set_LS_2 yang dipilih untuk digunakan sebagai pola dalam memprediksi data mahasiswa aktif angkatan 2012 dan 2013 yang belum memiliki kelas target. Prediksi Kategori IPK dan Lama Studi dari mahasiswa aktif angkatan 2012 dan 2013 diprediksi berdasarkan rule dari dataset yang memiliki akurasi IPK dan Lama Studi tertinggi (kelompok B). Untuk kategori IPK, hasil prediksi menunjukkan bahwa keseluruhan data menghasilkan kategori IPK = Sedang, sedangkan untuk kategori Lama Studi, hasil prediksinya bervariasi setiap atribut, dimana mayoritas kelas kategori dari setiap atribut menunjukkan hasil prediksi dengan kategori Lama Studi = Tepat Waktu.
Implementasi Implementasi penerapan klasifikasi ke dalam sistem disajikan pada Gambar 2, 3, 4, dan 5.
Gambar 2. Form menu klasifikasi Gambar 2 merupakan proses klasifikasi C5.0 untuk membentuk rule, rule yang dihasilkan akan digunakan dalam menghitung akurasi dan untuk memprediksi mahasiswa baru.
Gambar 3. Form menu rule Gambar 3 merupakan hasil rule dari proses klasifikasi yang dilakukan oleh gambar 2 diatas.
Gambar 4. Form pencocokan data Gambar 4 diatas merupakan form untuk menghitung akurasi dari setiap kelompok data, kelompok data yang memiliki nilai akurasi tertinggi, kelompok data tersebut akan digunakan pada proses prediksi
Gambar 5. Form Prediksi permahasiswa Gambar 5 diatas merupakan form prediksi mahasiswa, untuk mengetahui IPK dan Lama Studi dari seorang mahasiswa.
SIMPULAN DAN SARAN Berdasarkan hasil penelitian yang diperoleh, beberapa hal yang dapat disimpulkan adalah : a. Klasifikasi data lulusan berdasarkan IPK dan Lama Studi menghasilkan nilai akurasi 79,3 % dan laju error 20,7 % untuk set IPK, serta nilai akurasi 86,7 % dan laju error 13,3 % untuk set Lama Studi b.
Hasil prediksi mahasiswa aktif angkatan 2012 dan 2013, dinyatakan bahwa untuk kategori IPK SEDANG sebanyak 1777 mahasiswa, kategori Lama studi tepat waktu sebanyak 1578 mahasiswa dan tidak tepat waktu sebanyak 199.
Adapun hal-hal yang dapat disarankan adalah sebagai berikut : a.
Proses klasifikasi data mahasiswa disarankan untuk dikembangkan dan menguji coba kembali dengan data set yang memiliki data yang lebih lengkap (lebih sedikit missing value) dan ruang lingkup yang lebih luas (semua fakultas di lingkungan Universitas Negeri Gorontalo).
b.
Proses pengujian disarankan untuk dilakukan dengan mengubah jumlah k dalam metode kfold cross validation atau dengan teknik yang berbeda selain k-fold cross validation.
c.
Sistem dapat dikembangkan lebih dinamis, terutama dalam mengimport data set serta otomatisasi proses pembagian data training dengan mengubah secara dinamis nilai k pada metode k-fold cross validation.
DAFTAR PUSTAKA Ernawati, I. 2008. Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C5.0 dan KNearest Neighbour. [Tesis]. Institut Pertanian Bogor. Han, J dan Kamber, M. (2006). Data Mining Concept and Tehniques. San Fransisco: Morgan Kauffman. ISBN 13: 978-1-55860-901-3 Irene, W. 2014. Penerapan Algoritma C5.0 dalam Pengklasifikasian Data Mahasiswa Universitas Negeri Goronta [Skripsi]. Fakultas Teknik : Universitas Negeri Gorontalo. Sistem Informasi Akademik Terpadu Universitas Negeri Gorontalo. http://siat.ung.ac.id (diakses pada tanggal 2 Juli 2013) Turban. 2005. Decision Support System and intelligent system. Yogyakarta : Andi Offset Hadjaratie, L. 2012. Prediksi dan Pemetaan Data Mahasiswa Fakultas Teknik Universitas Negeri Gorontalo Menggunakan Pendekatan Data Mining. Laporan Penelitian Universitas Negeri Gorontalo.