JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 7 NO. 1 Maret 2014
ISSN : 2086 – 4981
KLASIFIKASI DATA KARAKTERISTIK MAHASISWA MENGGUNAKAN ALGORITMA C4.5 DAN CART (STUDI KASUS EDUCATIONAL DATA MINING) Indri Rahmayuni1
ABSTRACT In recent years, the use of data mining in education, known as an educational data mining (EDM) is growing. But most use of it is done on data derived from web-based, computer, and e-learning education. Meanwhile most educational institutions, especially in developing countries still use the traditional class system. Data obtained from the traditional classroom has not been exploited well to give support and guidance for students in order to improve the quality of education. Computer Engineering study program is one of the favorite at the Padang State Polytechnic. The first year class, especially the first semester is a crucial period for Computer Engineering’s new students. The percentage of failure and conditional pass in the first semester was higher than the next semester. The process of education in Computer Engineering is supported by two types of data, namely the student characteristics data and student grades data. The use of data mining to the data characteristics are expected to provide early prediction of academic achievement of students in the first semester. In this research, data mining is applied using CRISP-DM process model that provides a standard process of implementation of data mining in various fields. Decision tree method (C4.5 and CART algorithms) is used in the classification because it is easily understood and interpreted. Type of school, choice, and gender is a major predictor of student academic achievement. Keywords : educational data mining, classification, CART, C4.5 INTISARI Dalam beberapa tahun terakhir, penggunaan data mining di dunia pendidikan yang dikenal sebagai educational data mining (EDM) semakin berkembang. Namun sebagian besar penggunaan itu dilakukan pada data yang berasal dari pendidikan berbasis web, komputer, dan e-learning. Padahal sebagian besar institusi pendidikan, terutama di negara-negara berkembang masih menggunakan sistem kelas tradisional. Data yang didapat dari kelas tradisional ini belum dieksploitasi dengan baik untuk memberikan dukungan dan bimbingan bagi siswa demi meningkatkan kualitas pendidikan. Program studi Teknik Komputer merupakan salah satu program studi favorit di Politeknik Negeri Padang. Tahun pertama perkuliahan terutama semester pertama merupakan masa yang krusial bagi mahasiswa baru prodi Teknik Komputer. Persentase ketidaklulusan maupun lulus percobaan pada semester pertama lebih tinggi dari semester-semester berikutnya. Proses pendidikan di 1
Dosen Jurusan Teknologi Informasi Politeknik Negeri Padang
87
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 7 NO. 1 Maret 2014
ISSN : 2086 – 4981
program studi Teknik Komputer didukung oleh dua jenis data, yaitu data karakteristik mahasiswa dan data hasil studi (nilai) mahasiswa tiap semesternya. Penggunaan data mining terhadap data karakteristik diharapkan dapat memberikan prediksi awal prestasi akademik mahasiswa pada semester pertama. Pada penelitian ini, data mining diterapkan menggunakan model proses CRISPDM yang menyediakan proses standar penggunaan data mining pada berbagai bidang. Metode pohon keputusan (algoritma C4.5 dan CART) digunakan dalam klasifikasi karena hasil metode ini mudah dipahami dan diinterpretasikan. Jenis sekolah, pilihan, jenis kelamin, rata-rata nilai STTB, dan UAN merupakan prediktor utama prestasi akademik mahasiswa. Kata Kunci : educational data mining, klasifikasi, CART, C4.5
88
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 7 NO. 1 Maret 2014 PENDAHULUAN Pada era teknologi saat ini, data dan informasi menjadi bagian penting di berbagai bidang. Semua pihak berlomba mengumpulkan data dan informasi yang digunakan untuk mencapai kesuksesan. Awalnya, dengan munculnya komputer dan sarana penyimpanan data masal, data dikumpulkan dan disimpan dengan cepat. Sayangnya, koleksi-koleksi data tersebut dengan cepat menjadi sangat besar dan berlimpah. Dari data yang berlimpah ini, muncul pertanyaan mengenai hal-hal apa saja yang dapat dipelajari dari keseluruhan data dan informasi tersebut. Untuk menjawabnya dibutuhkan penyimpulan data secara otomatis, ekstraksi dari esensi informasi yang disimpan, serta penemuan pola yang ada dalam data. Proses ini dikenal sebagai data mining[1]. Politeknik Negeri Padang merupakan sebuah perguruan tinggi berbasis vokasional yang terdiri atas enam jurusan baik teknik maupun sosial. Sistem pendidikan di politeknik berbeda dari perguruan tinggi biasa (universitas) karena pengambilan mata kuliah mahasiswa setiap semesternya tidak dilakukan per mata kuliah, namun per-paket. Hal ini menyebabkan tantangan mahasiswa dalam proses akademik semakin besar karena jika seorang mahasiswa tidak memenuhi syarat kelulusan pada suatu semester, mahasiswa tersebut tidak hanya mengulang mata kuliah yang tidak lulus saja, tapi satu paket secara keseluruhan. Program studi Teknik Komputer merupakan salah satu program studi baru yang berada dibawah Jurusan Teknologi Informasi Politeknik Negeri Padang. Program studi Teknik Komputer mulai dibuka pada tahun 2005. Walaupun baru berumur 8 tahun, program studi Teknik Komputer merupakan salah satu program studi favorit di Politeknik Negeri Padang.
ISSN : 2086 – 4981
Sebagai salah satu program studi favorit, Teknik Komputer harus terus melakukan perbaikan-perbaikan dalam sistem pendidikannya untuk mencapai kualitas yang lebih baik. Program studi Teknik Komputer perlu mengerahkan seluruh sumber daya yang dimiliki untuk membantu mahasiswa menyelesaikan pendidikan mereka dengan prestasi akademik yang baik dan meminimalisir tingkat ketidaklulusan mahasiswa. Salah satu caranya adalah dengan melakukan klasifikasi data karakteristik mahasiswa baru untuk mengetahui karakteristik apa saja yang dapat dijadikan acuan dalam memprediksi prestasi akademik mahasiswa baru pada semester pertama. PENDEKATAN PEMECAHAN MASALAH Educational Data Mining Komunitas Educational Data mining (EDM) [1] mendefinisikan EDM sebagai sebuah disiplin ilmu yang sedang berkembang, dengan fokus pada pengembangan metode-metode untuk mengeksploitasi keunikan data yang berasal dari proses pendidikan dan menggunakan metode-metode tersebut untuk lebih memahami siswa serta sistem pembelajarannya.
Gambar 1. Alur Data mining Pada Pendidikan [2] Romero dan Venture [2] menggambarkan data mining pada sistem pendidikan (Gambar 1) sebagai suatu alur yang melibatkan tiga aktor yaitu pendidik dan penanggung jawab akademik sebagai pihak penyelanggara pendidikan serta siswa sebagai pengguna pendidikan. Melalui proses data mining terhadap sistem pendidikan, pendidik dan
89
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 7 NO. 1 Maret 2014 penanggung jawab pendidikan dapat mengetahui temuan/pengetahuan yang dihasilkan, sedangkan siswa mendapatkan rekomendasi terkait hasil tersebut. Dari survei yang dilakukan Romero dan Ventura [2], sebagian besar data mining pada dunia pendidikan dilakukan pada kelas berbasis web, pendidikan jarak jauh atau e-learning. Beberapa penelitian yang menerapkan data mining pada data pendidikan dari kelas tradisional memperlihatkan bahwa metode pohon keputusan merupakan metode yang paling banyak digunakan dan menghasilkan kualitas hasil yang lebih baik daripada metode lainnya [3]. Hasil klasifikasi metode pohon keputusan juga lebih mudah dipahami dan diinterpretasikan.
ISSN : 2086 – 4981
data T ke dalam sejumlah subset T1, T2, …, Tk. Dengan menggunakan persamaan entropy diatas, nilai entropy tiap subset dihitung (HS(Ti)). Kemudian total bobot subset simpul S dihitung dengan menggunakan persamaan 1. (1) dimana Pi merupakan proporsi record pada subset i. Semakin seragam sebuah subset terhadap kelas-kelas pembaginya, maka semakin kecil nilai entropy. Nilai entropy paling kecil adalah 0, yang dicapai ketika record subset berada pada satu kelas yang sama. Sedangkan nilai entropy paling tinggi adalah 1, yang dicapai ketika record subset terbagi sama rata pada untuk tiap kelas. Semakin kecil nilai entropy, semakin baik subset tersebut. Dari nilai-nilai entropy yang didapat, nilai information gain untuk simpul S dihitung melaui persamaan 2. gain(S) = H(T) – (2) HS(T) Pada algoritma C4.5, nilai information gain dihitung untuk seluruh simpul yang mungkin dikembangkan. Simpul yang dikembangkan adalah simpul yang memiliki nilai information gain yang paling besar.
Algoritma C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membangun sebuah pohon keputusan (decision tree) dari data. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 yang juga merupakan algoritma untuk membangun sebuah pohon keputusan. Algoritma C4.5 secara rekursif mengunjungi tiap simpul keputusan, memilih percabangan optimal, sampai tidak ada cabang lagi yang mungkin dihasilkan [4]. Algoritma C4.5 menggunakan konsep information gain atau entropy reduction untuk memilih percabangan yang optimal. Misalkan terdapat sebuah variabel X dimana memiliki sejumlah k nilai yang mungkin dengan probabilitas p1, p2, …, pk. Entropy menggambarkan keseragaman data dalam variabel X. Entropy variabel X (H(X)) dihitung dengan menggunakan persamaan 1
Algoritma CART Metode CART ini pertama kali diajukan oleh Leo Breiman et al. pada tahun 1984. Pohon keputusan yang dihasilkan CART merupakan pohon biner dimana tiap simpul wajib memiliki dua cabang. CART secara rekursif membagi records pada data latihan ke dalam subset-subset yang memiliki nilai atribut target (kelas) 2 yang sama. 1 Algoritma CART mengembangkan pohon keputusan Misalkan terdapat sebuah dengan memilih percabangan yang kandidat simpul yang akan paling optimal bagi tiap simpul. dikembangkan (S), yang membagi
90
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 7 NO. 1 Maret 2014 Pemilihan dilakukan dengan menghitung segala kemungkinan pada tiap variabel. Misalkan Ф(s|t) merupakan nilai “kebaikan” kandidat cabang s pada simpul t, maka nilai Ф(s|t) dapat dihitung sebagai (persamaan 3) [LAR05]:
ISSN : 2086 – 4981
dikelompokkan menjadi sebuah bidang penelitian Educational Data mining pada tahun 2005 Mulai tahun 2008, organisasi ini mengadakan konferensi tahunan EDM yang membahas penelitianpenelitian data mining di dunia pendidikan di seluruh dunia. Sebagaimana dijelaskan sebelumnya, penelitian terkait prediksi pada EDM semakin banyak dilakukan, salah satunya mengenai prestasi akademik siswa. Beberapa diantaranya adalah: (1) Jing Luan [5] melakukan penelitian di beberapa univeristas di Amerika Serikat untuk memprediksi siswa community college yang memenuhi syarat untuk pindah ke universitas. Model yang dihasilkan ditujukan untuk menyediakan pola profil siswa berdasarkan data demografi, finansial, pelajaran yang diambil dan nilai siswa. Penelitian ini menggunakan algoritma neural networks, C4.5, dan CART. (2) Erdogan dan Timor [1] melakukan penelitian terhadap mahasiswa di Univeristas Maltepe Turki untuk mengetahui hubungan antara hasil ujian masuk universitas dengan kesuksesan mereka dalam proses perkuliahan. Penelitian ini menggunakan algoritma pengklusteran Kmeans. (3) Gérard Lassibille dan Lucía Navarro Gómez [6] melakukan penelitian terhadap 7000 mahasiswa universitasuniversitas di Spanyol untuk mengetahui faktor utama yang mempengaruhi ketidaklulusan (drop out) mereka. Penelitian ini menunjukkan bahwa jenis kelamin (hanya di universitas teknik), umur ketika masuk, nilai ujian masuk, jenis SMU,
(3 ) dimana
Nilai maksimal ketika record yang berada pada cabang kiri atau kanan simpul memiliki kelas yang sama (seragam). Nilai maksimal yang dicapai sama dengan jumlah kelas pada data. Misalkan jika data terdiri atas dua kelas, maka nilai maksimal adalah 2. Semakin seragam record pada cabang kiri atau kanan, maka semakin tinggi nilai . Nilai maksimal sebesar 0.5 dicapai ketika cabang kiri dan kanan memiliki jumlah record yang sama. Kandidat percabangan yang dipilih adalah kandidat yang memiliki nilai Ф(s|t) paling besar. Penelitian Terkait Saat ini penelitian terhadap data mining dan sistem pendidikan semakin banyak dilakukan. Penelitian mengenai data mining di dunia pendidikan telah lama ada (sejak tahun 1990an) dan baru
91
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 7 NO. 1 Maret 2014 sumber biaya kuliah, pendidikan orang tua, serta status tempat tinggal berpengaruh terhadap ketidaklulusan mahasiswa di Spanyol. (4) Gerben W. Dekker [DEK09] melakukan penelitian untuk memprediksi ketidaklulusan mahasiswa (drop out) tahun pertama di Departemen Teknik Elektro Universitas Teknologi Eindhoven karena tingkat ketidaklulusan yang mencapai 40%. Data nilai akademik mahasiswa digunakan dalam penelitian ini. Model proses CRISP-DM dipakai sebagai acuan pelaksanaan penelitian dengan menggunakan algoritma C4.5 dan CART untuk melakukan prediksi. Dari penelitian ini diketahui bahwa nilai Aljabar Linier, Kalkulus, Jaringan, serta nilai rata-rata mata pelajaran IPA di SMU menjadi faktor penentu utama ketidaklulusan mahasiswa.
ISSN : 2086 – 4981
hasil pemindaian formulir pendaftaran peserta seleksi masuk PNP. Tabel 1. Atribut Data Pribadi Mahasiswa N Atribut Format o 1 No. Peserta 10 digit angka 2 Nama 20 karakter abjad Peserta 3 Tempat Lahir 20 karakter abjad 4 Tanggal 6 digit angka Lahir (ddmmyy) 5 Tahun 3 digit angka Masuk SMU (kelas + tahun) 6 Jurusan 3 digit angka SMU/SMK 7 Nilai 8 digit angka Ijazah/STTB (tahun + #mata pelajaran + nilai 8 Nilai 6 digit angka NEM/UAN (#mata pelajaran + nilai) 9 Pilihan 5 digit angka untuk Jurusan tiap pilihan 10 Alamat 25 karakter abjad Rumah 11 Nama Orang 20 karakter abjad Tua 12 Pekerjaan 2 karakter abjad Orang Tua A-L (pekerjaan ayah + pekerjaan ibu) 13 Asal Daerah 5 digit huruf (kode propinsi + kode kabupaten/kota) 14 Penghasilan 1 karakter abjad Orang Tua A/B/C/D 15 Keadaan 2 karater abjad Orang Tua A/B (keadaan ayah + keadaan ibu) 16 Jumlah dibagi menjadi dua Saudara atribut : 2 digit angka jumlah kakak dan 2 digit angka jumlah adit 17 Jenis 1 karakter abjad Kelamin P/W 18 Agama 1 karakter abjad A-F 19 Kewarganeg 1 karakter abjad
Data Yang Digunakan Penelitian ini menggunakan dua jenis data yaitu data pribadi dan data nilai semester pertama mahasiwa Program Studi Teknik Komputer Politeknik Negeri Padang dari angkatan 2006 sampai 2010. Tiap angkatan terdiri atas ±90 orang mahasiswa yang terdiri atas mahasiswa undangan (PMDK) dan mahasiswa jalur ujian masuk dengan latar belakang pendidikan SMU IPA dan SMK Teknik. Data karakteristik mahasiswa adalah data pribadi dari lulusan SMU/SMK yang mengikuti ujian seleksi masuk Politeknik Negeri Padang (PNP) bidang Rekayasa pada tiap tahun angkatan yang didapat dari bagian UPT Sistem Informasi dengan format Ms.Access. Untuk tiap tahun angkatan, terdapat 670-1150 record data. Data ini merupakan data mentah
92
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 7 NO. 1 Maret 2014 N o
Atribut
dengan menggunakan metode distribusi normal. (2) K3: IP dikelompokkan atas 3 kelompok Baik (IP≥3), Berisiko (2.5≤IP<3), dan Buruk (IP>2.5) yang mewakili tingkat risiko ketidaklulusan mahasiswa.
Format
araan 20 Pendidikan Orang Tua
A/B/C 2 karakter abjad A-H (pendidikan ayah + pendidikan ibu) Data nilai semester pertama mahasiswa angkatan 2006-2010 didapat dari program studi Teknik Komputer PNP dengan format Ms.Excel. Data nilai yang diambil adalah data nilai indeks prestasi (IP) mahasiswa pada semester pertama.
HASIL DAN PEMBAHASAN Klasifikasi dilakukan menggunakan aplikasi WEKA Explorer. Proses klasifikasi dilakukan terhadap data karakteristik mahasiswa (DataDasar) dengan pengelompokkan IP (K2 dan K3) sebagai atribut kelasnya. Klasifikasi dilakukan menggunakan algoritma CART dan C4.5. Hasil klasifikasi ditampilkan pada Tabel 2. Tabel 2. Hasil Klasifikasi Data
Persiapan Data Pada penelitian ini, proses persiapan data dilakukan terpisah pada data karakteristik, data nilai serta data gabungan. Karena tiap data memiliki atribut dan format yang berbeda, langkah-langkah yang dilakukan dalam proses persiapan data akan berbeda pula. Langkahlangkah persiapan untuk masingmasing data ditampilkan pada Gambar 2.
Data Algoritma Akurasi Recall Precision F-measure Atribut
Data Karakteristik Pengurangan Data Data Peserta Ujian Masuk PNP
Data Gabungan
Integrasi Data
ISSN : 2086 – 4981
Data Karakteristik
Pembersihan Data
DataDasar (K2) C4.5 CART 64.88% 67.56% 0.702 0.735 0.639 0.661 0.669 0.696 Sekolah Sekolah Pilihan Pilihan Jekel RTSTTB PKJ.Ayah Pos.Anak Pend.Ibu Umur
DataDasar (K3) C4.5 CART 49.16% 49.50% 0.627 0.669 0.592 0.556 0.609 0.608 Sekolah Sekolah Pilihan Pilihan RTUAN PKJ.Ayah PKJ.Ibu Pend.Ayah
Pengurangan Data Transformasi Data
Data Nilai
Pada table 2 tersebut dapat diketahui bahwa algoritma CART memberikan akurasi paling baik (67.56%), sedangkan algoritma C4.5 memberikan hasil sedikit dibawahnya (64.88%). Hal ini terjadi karena algoritma CART dengan konsep pohon biner lebih cocok digunakan untuk data yang bersifat numerik, dimana pada DataDasar, sebagian besar nilai atribut data karakteristiknya masih menggunakan bentuk numerik. Algoritma C4.5 membangun pohon dengan jumlah cabang tiap simpul sesuai dengan jumlah nilai simpul tersebut. Gambar 2 memperlihatkan pohon keputusan yang dihasilkan oleh algoritma CART (a) dan C4.5(b). Dari gambar ini dapat dilihat atribut-atribut
Pembersihan Data Data Nilai Data Nilai Mahasiswa Teknik Komputer PNP
Transformasi Data
Data Gabungan Transformasi Data
Gambar 2. Proses Persiapan Data Pendefinisian Atribut Kelas Atribut kelas yang digunakan adalah atribut kelas yang didefinisikan secara manual. Atribut kelas dibuat dengan mengelompokkan nilai indeks prestasi semester satu mahasiswa yang diambil dari data nilai mahasiswa. Pada penelitian ini digunakan dua jenis atribut kelas manual: (1) K2: IP dikelompokkan atas dua kelompok yaitu Atas dan Bawah yang mewakili posisi IP mahasiswa terhadap nilai IP 2.84. Nilai 2.84 ini didapat
93
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN VOL. 7 NO. 1 Maret 2014 yang digunakan dalam klasifikasi dan posisinya. Untuk atribut-atribut yang digunakan sebagai simpul pohon keputusan, pada sebagian besar pohon, atribut Sekolah merupakan akar pohon keputusan. Atribut Pilihan, Jekel, RTSTTB, RTUAN, PKJ.Ayah, PKJ.Ibu, serta Pend. Ayah merupakan atribut-atribut yang berada pada level atas pohon keputusan. Dari atribut-atribut utama tersebut, atribut Sekolah, Pilihan, Jekel, RTSTTB, dan RTUAN yang terkait langsung dengan pribadi dan latar belakang akademis mahasiwa dapat digunakan sebagai atribut data karakteristik baru untuk pemodelan prediksi prestasi akademik mahasiswa baru pada semester pertama.
ISSN : 2086 – 4981
(1) Algoritma CART memberikan akurasi yang lebih baik dari pada algoritma C4.5 dalam klasifikasi data karakteristik mahasiswa. (2) Atribut Sekolah, Pilihan, Jekel, RTSTTB, dan RTUAN yang terkait langsung dengan pribadi dan latar belakang akademis mahasiwa dapat digunakan sebagai atribut data karakteristik baru untuk pemodelan prediksi prestasi akademik mahasiswa baru pada semester pertama. DAFTAR PUSTAKA [1] Erdogan, S.Z, Timor, M. 2005. A Data mining Applications in Student Database. Journal of Aeronautics and Space Technologies. Vol 2(2). 53-57. [2] Romero, C., Ventura, S. 2007. Educational data mining: A survey from 1995 to 2005. Expert System with Application. Vol 33. 135-146. [3] Dekker, W. Gerben., et.al. 2009. Predicting Students Drop Out: A Case Study. Proceedings of the 2nd International Conference on Educational Data mining. 41-50. [4] Larose, D.T. 2005. Discovering Knowledge in Data: An Introduction to Data mining. Wiley Interscience. Ney Jersey. [5] Luan, J. 2002. Data mining and Its Applications in Higher Education. New Directions for Institutional Research. Vol 133. 17-36.
Gambar 3. Pohon Keputusan Klasifikasi Data Karakteristik Mahasiswa Menggunakan Algoritma CART (a) dan C4.5 (b)
[6] Lassibille, G., Gomez, L. N. 2007. Why Do Higher Education Students Drop Out? Evidence from Spain. Education Economics. Vol 16(1). 89-105.
KESIMPULAN Dari penelitian ytang dilakukan, dapat disimpulkan beberapa hal :
94