MODEL KLASIFIKASI NILAI AKHIR MATA KULIAH DATA MINING BERDASARKAN AKTIVITAS MAHASISWA PADA LMS MENGGUNAKAN POHON KEPUTUSAN
MUTIARA SANTIKA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2017
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa skripsi berjudul Model Klasifikasi Nilai Akhir Mata Kuliah Data Mining Berdasarkan Aktivitas Mahasiswa pada LMS Menggunakan Pohon Keputusan adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Februari 2017 Mutiara Santika NIM G64144043
ABSTRAK MUTIARA SANTIKA. Model Klasifikasi Nilai Akhir Mata Kuliah Data Mining Berdasarkan Aktivitas Mahasiswa pada LMS Menggunakan Pohon Keputusan. Dibimbing oleh MAYANDA MEGA SANTONI dan IMAS SUKAESIH SITANGGANG. Setiap perguruan tinggi selalu melakukan evaluasi dari hasil proses perkuliahan yang telah dilakukan. Prediksi nilai pada suatu mata kuliah berperan sebagai early warning terhadap kondisi performansi akademik studi mahasiswa. Hasil prediksi secara keseluruhan dapat digunakan sebagai acuan dalam mengevaluasi proses pendidikan. Untuk melakukan prediksi nilai dapat dilakukan dengan melihat beberapa aspek, salah satunya yaitu aktivitas mahasiswa pada Learning Management System (LMS). Terdapat berbagai macam metode klasifikasi, salah satu metode dalam data mining untuk klasifikasi adalah pohon keputusan dengan algoritme C50. Penelitian ini bertujuan untuk membentuk model klasifikasi nilai akhir mata kuliah data mining berdasarkan aktivitas pada LMS. Penelitian ini menggunakan data mahasiswa dan data log aktivitas penggunaan LMS mahasiswa Program Studi Ilmu Komputer FMIPA IPB pada mata kuliah data mining tahun ajaran 2015/2016. Pada penelitian ini dilakukan sebanyak 3 kali iterasi. Hasil uji model klasifikasi pada iterasi pertama, didapat akurasi model terbaik menggunakan 10 fold pada percobaan 4 kelas sebesar 64.29%. Pada iterasi kedua sebesar 40.00% dan pada iterasi ketiga dengan melakukan percobaan pada 2 kelas sebesar 85.71%. Kata kunci: C50, data mining, learning management system, pohon keputusan
ABSTRACT MUTIARA SANTIKA. Classification Model of Data Mining Course Final Score Based on Student Activities in Learning Management System using Decision Tree. Supervised by MAYANDA MEGA SANTONI and IMAS SUKAESIH SITANGGANG. Every university performs student evaluation from the result of a completed learning process. Prediction of course’s grade can be done as an early warning regarding student’s academic performance. Prediction result can be used as a reference to evaluate the education process. There are several aspects of evaluation, one of which is student activities on learning management system (LMS). This study aims to build a classification model of final score of data mining course based on LMS activity using C50 decision tree algorithm. This study uses students data and log file of LMS activity of data mining course in academic year of 2015/2016 which is enrolled by Computer Science students in IPB. This study uses 3 iteration. The result of the classification model in the first iteration obtained the best model accuracy using 10-fold in 4 experiment class of 64.29%. In the second iteration 40.00% and in the third iteration conducting experiments on two class of 85.71%. Keywords: C50, data mining, decision tree, learning management system.
MODEL KLASIFIKASI NILAI AKHIR MATA KULIAH DATA MINING BERDASARKAN AKTIVITAS MAHASISWA PADA LMS MENGGUNAKAN POHON KEPUTUSAN
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2017 MUTIARA SANTIKA
Penguji: 1 Muhammad Ashyar Agmalaro, S.Si, M.Kom
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Agustus 2016 ini ialah data mining, dengan judul Model Klasifikasi Nilai Akhir Mata Kuliah Data Mining Berdasarkan Aktivitas Mahasiswa pada LMS Menggunakan Pohon Keputusan. Penulis menyadari bahwa dalam proses penulisan skripsi ini banyak mengalami kendala dan masalah, namun berkat bantuan, bimbingan, kerjasama dari berbagai pihak dan berkah dari Allah subhanahu wa ta'ala sehingga kendalakendala yang dihadapi tersebut dapat diatasi. Untuk itu penulis menyampaikan ungkapan terima kasih kepada Bapak Khaerun selaku ayah, Ibu Santi selaku ibu, serta seluruh keluarga atas segala doa dan kasih sayangnya. Serta ucapan terima kasih dan penghargaan kepada Ibu Mayanda Mega Santoni, SKomp MKom dan Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku pembimbing yang telah dengan sabar, tekun, tulus dan ikhlas meluangkan waktu, tenaga, dan pikiran memberikan bimbingan, motivasi, arahan, dan saran-saran yang sangat berharga kepada penulis selama menyusun skripsi. Penulis juga menyampaikan terima kasih kepada: 1 Bapak Muhammad Ashyar Agmalaro, SSi MKom selaku penguji. 2 Bapak Dr Ir Agus Buono, MSi MKom selaku Ketua Departemen Ilmu Komputer IPB. 3 Seluruh dosen, staff tata usaha, dan staf pegawai Departemen Ilmu Komputer IPB. 4 Seluruh teman – teman sebimbingan. 5 Adik-adik tersayang Alfiyawati Santika dan Nabliya Ayu Ramadhani. 6 Teman-teman yang selalu mendukung yaitu Widyah, Amanda, Putri Indo, Jayantika, Septian, Febri, Ghifari, Nano, Agung, Aswin, Arda, Guswandi, Addinul, Jais, Zulfa. 7 Seluruh teman-teman Program S1 Alih Jenis Ilmu Komputer IPB Angkatan 9. Semoga segala bantuan, bimbingan, motivasi, dan dukungan yang telah diberikan kepada penulis senantiasa dibalas oleh Allah subhanahu wa ta’ala. Semoga karya ilmiah ini bermanfaat bagi semua pihak yang membutuhkan.
Bogor, Februari 2017 Mutiara Santika
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
3
TINJAUAN PUSTAKA
3
Learning Management System
3
Web Mining
4
Pohon Keputusan
5
Algoritme C50
5
K-Fold Cross Validation
7
METODE
7
Data Penelitian
7
Tahapan Penelitian
9
Lingkungan Pengembangan
12
HASIL DAN PEMBAHASAN
13
Iterasi Pertama
14
Iterasi Kedua
20
Iterasi Ketiga
24
Evaluasi dan Analisis Model Klasifikasi
28
SIMPULAN DAN SARAN
28
Simpulan
28
Saran
29
DAFTAR PUSTAKA
29
LAMPIRAN
31
RIWAYAT HIDUP
67
DAFTAR TABEL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Atribut data log penggunaan LMS Perhitungan precision dan recall dengan confusion matrix Potongan jumlah aktivitas pada iterasi pertama Interval untuk masing-masing atribut pada iterasi pertama Batas bawah dan batas atas yang digunakan pada iterasi pertama Rentang nilai untuk masing-masing kategori pada iterasi pertama Pemberian kategori untuk masing-masing aktivitas pada iterasi pertama Jumlah nilai mutu mata kuliah data mining pada iterasi pertama Distribusi jumlah data latih dan data uji pada iterasi pertama Confusion matrix yang dihasilkan pada iterasi pertama Nilai precision dan recall yang dihasilkan pada iterasi pertama Potongan jumlah aktivitas pada iterasi kedua Interval untuk masing-masing atribut pada iterasi kedua Batas bawah dan batas atas yang diperoleh untuk masing-masing atribut Rentang nilai untuk masing-masing kategori pada iterasi kedua Pemberian kategori untuk masing-masing aktivitas pada iterasi kedua Distribusi jumlah data latih dan data uji pada iterasi kedua Confusion matrix yang dihasilkan pada iterasi kedua Nilai precision dan recall yang dihasilkan pada iterasi kedua Potongan jumlah aktivitas pada iterasi ketiga Batas bawah dan batas atas untuk masing-masing atribut Rentang nilai untuk masing-masing kategori pada iterasi pertama Pemberian kategori untuk dan label kelas pada iterasi ketiga Jumlah data untuk masing-masing kelas pada iterasi ketiga Distribusi jumlah data latih dan data uji pada iterasi ketiga Confusion matrix yang dihasilkan pada iterasi ketiga Nilai precision dan recall yang dihasilkan pada iterasi ketiga
7 12 15 15 16 16 16 17 17 19 19 20 21 21 21 22 22 24 24 25 25 25 26 26 26 28 28
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Halaman home LMS mata kuliah data mining Halaman LMS data mining untuk pengumpulan tugas yang diupload Halaman LMS untuk melihat tugas mata kuliah data mining Halaman LMS untuk melihat mata kuliah data mining Halaman LMS untuk melihat modul mata kuliah data mining Modul mata kuliah data mining pada LMS Tahapan penelitian Tahapan praproses data Potongan data log pembelajaran sebelum praproses data Data log dengan pengguna dosen dan asisten praktikum Potongan aktivitas pada data log dengan berbagai macam pengguna Potongan kode program untuk membuat model pohon keputusan Pohon keputusan untuk iterasi pertama Hasil akurasi pada iterasi pertama
3 8 8 9 9 9 10 11 14 14 15 18 18 19
15 16 17 18
Pohon keputusan pada iterasi kedua Grafik hasil akurasi pada iterasi kedua Pohon keputusan pada iterasi kedua Hasil akurasi pada iterasi ketiga
23 23 27 27
DAFTAR LAMPIRAN 1 Aktivitas data log pada LMS 2 Jumlah aktivitas pada iterasi pertama 3 Aktivitas yang sudah dikategorikan untuk iterasi perama 4 Jumlah aktivitas pada iterasi kedua 5 Aktivitas yang sudah dikategorikan untuk iterasi kedua 6 Data yang digunakan untuk iterasi ketiga 7 Kode program cross vold validation 8 Pohon keputusan yang dihasilkan pada iterasi pertama 9 Pohon keputusan yang dihasilkan pada iterasi kedua 10 Pohon keputusan yang dihasilkan pada iterasi ketiga
31 33 37 41 45 49 53 54 58 62
PENDAHULUAN Latar Belakang Setiap perguruan tinggi perlu melakukan evaluasi dari hasil proses perkuliahan yang telah dilakukan. Menurut Kuh et al. (2006), terkait prestasi akademik mahasiswa terdapat beberapa faktor yang mempengaruhi keberhasilan belajar yaitu pengalaman sebelum perkuliahan dan karakteristik latar belakang siswa serta pengalaman perkuliahan yang meliputi perilaku siswa (student behaviours), kondisi institusi (institution condition) dan keterlibatan siswa (student engangement). Dari beberapa faktor tersebut, prediksi nilai pada suatu mata kuliah dapat berperan sebagai early warning terhadap kondisi performansi studi mahasiswa. Selanjutnya, hasil prediksi secara keseluruhan dapat digunakan sebagai acuan dalam mengevaluasi proses pendidikan, kurikulum, dan hal lain yang berkaitan dengan penyelenggaraan pendidikan (Fatriandini et al. 2013). Untuk melakukan prediksi nilai dapat dilakukan dengan melihat beberapa aspek, salah satunya yaitu aktivitas mahasiswa pada Learning Management System (LMS). Aktivitas belajar melalui LMS dapat memberikan nilai positif terhadap keberhasilan tujuan belajar. Prediksi nilai suatu mata kuliah dapat dilakukan dengan berbagai cara, salah satunya dapat dilakukan dengan menggunakan pendekatan teknik data mining. Menurut Han et al. (2012), data mining merupakan proses menemukan pengetahuan dan pola yang menarik dari data yang berjumlah besar. Klasifikasi merupakan salah satu metode dalam data mining untuk mengetahui label kelas dari suatu record dalam data. Banyak metode klasifikasi yang digunakan saat ini seperti Support Vector Machine, Bayesian Method, Neural Networks, Kneighbouor Method dan Decison Tree (pohon keputusan). Dari metode klasifikasi tersebut pohon keputusan menunjukkan kinerja aplikasi yang lebih baik. Daerah pengambilan keputusan yang sebelumnya kompleks dapat diubah menjadi lebih sederhana dan spesifik, sehingga proses pengambilan keputusan lebih menginterpretasikan solusi dari permasalahan. Beberapa penelitian telah dilakukan dalam memprediksi nilai akhir melalui aktivitas pada LMS. Romero et al. (2010) melakukan penelitian untuk memprediksi nilai akhir mahasiswa menggunakan Moodle courses. Penelitian ini menggunakan 10 atribut yaitu course, n_assignment, n_quiz_a, n_quiz_s, n_posts, n_read, total_time_assignment, total_time_quiz, total_time_forum, dan mark. Pada penelitian ini dihasilkan salah satu algoritme terbaik untuk memprediksi nilai akhir yaitu algoritme pohon keputusan. Algoritme tersebut merupakan algoritme yang mudah untuk dipahami dan memungkinkan interpretasi dari model yang diperoleh serta dapat digunakan dalam proses pembuatan keputusan. Ackapinar et al. (2015) melakukan penelitian dengan memodelkan performansi akademik mahasiswa berdasarkan interaksi dalam pembelajaran online. Penelitian ini dilakukan dengan menggunakan 11 atribut yaitu n_login, d_usage, n_post, n_tag, n_postnav, n_postass, n_answer, n_dissnav, n_answernav, n_questionAss, dan f_grades. Penelitian ini dilakukan dengan membandingkan akurasi yang dihasilkan dari beberapa metode salah satunya adalah Classification Tree. Delgado et al. (2006) melakukan penelitian dengan memprediksi nilai akhir mahasiswa menggunakan Moodle logs dengan neural network. Pada penelitian ini data yang digunakan yaitu
2 IP address, date and hour of the access, complete name, action (resource view, course view, user view, user update, upload, resource updates, resource add, forum view), dan information (marks, user profile). Penelitian ini menghasilkan sebesar 80% dapat memprediksi nilai dengan metode neural network. Oleh karena itu, pada penelitian ini akan membuat model klasifikasi nilai akhir pada mata kuliah data mining di Departemen Ilmu Komputer FMIPA IPB berdasarkan aktivitas LMS. Alasannya, karena mata kuliah data mining dapat mewakili mata kuliah yang ditawarkan pada mayor Ilmu Komputer FMIPA IPB dan aktivitas penggunaan LMS pada mata kuliah ini dilakukan secara rutin. Penelitian ini dilakukan dengan menggunakan metode pohon keputusan yaitu algoritme C50, sehingga dapat digunakan sebagai acuan untuk meningkatkan mutu pendidikan di IPB khususnya pada penyelenggaraan mata kuliah data mining di Program Studi S1 Ilmu Komputer.
Perumusan Masalah Berdasarkan latar belakang, perumusan masalah dalam penelitian ini adalah: 1 Bagaimana mengklasifikasikan nilai akhir mahasiswa mata kuliah data mining berdasarkan aktivitas pada log LMS dengan menggunakan algoritme pohon keputusan C50? 2 Bagaimana mendapatkan aktivitas penting pada LMS yang mempengaruhi nilai mata kuliah data mining yang ditawarkan Program Studi S1 Ilmu Komputer FMIPA IPB?
Tujuan Penelitian 1
2
Tujuan penelitian ini adalah: Membuat model klasifikasi untuk memprediksi nilai akhir mata kuliah data mining yang ditawarkan Program Studi S1 Ilmu Komputer FMIPA IPB berdasarkan aktivitas pada LMS. Menentukan aktivitas pada LMS yang mempengaruhi performa mahasiswa berdasarkan hasil klasifikasi menggunakan pohon keputusan algoritme C50.
Manfaat Penelitian Penelitian ini diharapkan dapat membentuk model klasifikasi untuk memudahkan dalam memprediksi nilai akhir mata kuliah data mining, berdasarkan aktivitas pada LMS dengan memanfaatkan data log penggunaan LMS. Sehingga dapat dijadikan sebagai acuan untuk meningkatkan mutu pendidikan di IPB khususnya pada penyelenggaraan mata kuliah data mining di Program Studi S1 Ilmu Komputer. Selain itu, untuk mendapatkan informasi mengenai aktivitas penting pada LMS yang mempengaruhi performa mahasiswa, agar kedepannya dapat meningkatkan penggunaan LMS dan pengembangan LMS. .
3 Ruang Lingkup Penelitian 1 2
3
Ruang lingkup penelitian ini ialah: Penelitian ini dibatasi pada penggunaan LMS untuk mahasiswa reguler dan alih jenis Program Studi S1 Ilmu Komputer FMIPA IPB. Data yang digunakan yaitu data mahasiswa regular dan alih jenis S1 Ilmu Komputer IPB berupa nim dan nilai akhir mata kuliah data mining, serta data log penggunaan LMS pada mata kuliah data mining tahun ajaran 2015/2016. Penelitian ini menerapkan algoritme C50 yang terdapat pada package C50 dalam aplikasi R.
TINJAUAN PUSTAKA Learning Management System LMS atau yang juga dikenal sebagai Virtual Learning Environtment (VLE) adalah media pembelajaran berbasis web yang bisa menjadi solusi untuk digunakan dalam proses pembelajaran. Beberapa alasan menggunakan media pembelajaran ini adalah terjadi peningkatan efektivitas pembelajaran dan prestasi akademik siswa, menambah kenyamanan, menarik lebih banyak perhatian siswa kepada materi yang disampaikan dalam pembelajaran, dapat diterapkan dengan berbagai tingkat dan model pembelajaran, serta dapat menambah waktu pembelajaran dengan memanfaatkan teknologi internet (Kim dan Won 2007). Tujuan adanya LMS di IPB yaitu sebagai fasilitator untuk mendukung dalam kegiatan pembelajaran dan dapat memantau dalam proses evaluasi pembelajaran. Tampilan LMS untuk mata kuliah data mining di IPB dapat dilihat pada Gambar 1. Gambar 1 menampilkan halaman home LMS mata kuliah data mining.
Gambar 1 Halaman home LMS mata kuliah data mining
4 Web Mining Menurut Srivastava et al. (2003) web mining merupakan aplikasi teknik data mining untuk mengekstrak pengetahuan (knowledge) dari data web. Ada dua pendekatan yang digunakan untuk mendefinisiskan web mining, yaitu pendekatan berbasis proses dan pendekatan berbasis data. Pendekatan berbasis proses yaitu web mining sebagai kumpulan suatu aktivitas sedangkan pendekatan berbasis data yaitu web mining sebagai terminologi tipe data web yang digunakan untuk proses data mining. Web mining dapat dibagi dalam tiga kategori berdasarkan jenis data yang diekstrak yaitu Web content mining (WCM), Web structure mining (WSM), dan Web Usage Mining (WUM). WCM merupakan penemuan informasi terhadap content web yang terdiri dari teks, gambar, audio, video, metadata, dan hyperlinks. WSM merupakan penemuan model yang berkaitan dengan struktur hubungan web yang meliputi intrapage structure dan interpage structure. WUM merupakan proses untuk mengaplikasikan teknik data mining dalam melakukan penemuan pengetahuan berupa pola penggunaan dari web. Pada penelitian sebelumnya Romero et al. (2014) telah berhasil memprediksi nilai akhir mahasiswa menggunakan Moodle courses. Data yang digunakan pada penelitian tersebut sebanyak 438 data mahasiswa dari Universitas Cordoba di Spanyol, dengan 7 mata kuliah dan 10 atribut. Tujuh mata kuliah tersebut yaitu Security and Hygiene in The Work, Projects, Engineering Firm, Programming for Enginnering, Computer Science Basis, Applied Computer Science, dan Scientific Programming. Sepuluh atribut yang digunakan yaitu Course, n_assignment, n_quiz_a, n_quiz_s, n_posts, n_read, total_time_assignment, total_time_quiz, total_time_forum, dan Mark. Penelitian dilakukan dengan membandingkan 5 metode klasifikasi yaitu Klasifikasi Statistik, Pohon Keputusan, Rule Induction, Fuzzy, dan Neural Networks. Pada penelitian ini dihasilkan algoritme terbaik yaitu algoritme Pohon Keputusan, Rule Induction dan Fuzzy Rule, karena ketiga algoritme tersebut merupakan algoritme yang mudah untuk dipahami, diinterpretasi dan dapat digunakan dalam proses pembuatan keputusan. Ackapinar et al. (2015) memodelkan performansi akademik mahasiswa berdasarkan interaksi dalam pembelajaran online. Data yang digunakan yaitu data log selama 14 minggu penggunaan online learning, 76 mahasiswa dengan 3803 logins, 4130 posts, 3937 tags, dan lebih dari 100,000 page view. Sebelas atribut yang digunakan yaitu n_login, d_usage, n_post, n_tag, n_postnav, n_postass, n_answer, n_dissnav, n_answernav, n_questionAss, dan f_grades. Atribut nilai akhir diperoleh dari mata kuliah Computer Hardware. Penelitian dilakukan dengan membandingkan 3 metode Naïve Bayes, Classification Tree dan CN2 Rules. Hasil penelitian menunjukkan bahwa algoritme Naïve Bayes lebih baik daripada algoritme klasifikasi lain. Algoritme Naïve Bayes mengklasifikasikan 75.4% dari mahasiswa sesuai dengan kelasnya yaitu (Fail, Pass/Good). Selain itu, model klasifikasi juga memprediksi mahasiswa yang gagal sebesar 81.5% dan mahasiswa lulus sebesar 91.8%. Delgado et al. (2006) memprediksi nilai akhir mahasiswa menggunakan Moodle logs menggunakan neural network models. Penelitian ini dilakukan kepada 240 mahasiswa Universitas Cordoba di Spanyol pada mata kuliah Methodology and Programming Technology. Pada penelitian ini data yang digunakan yaitu IP
5 address, date and hour of the access, complete name, action (resource view, course view, user view, user update, upload, resource updates, resource add, forum view), dan information (marks, user profile). Penelitian ini menghasilkan sebesar 80% dapat memprediksi nilai menggunakan metode neural network.
Pohon Keputusan Pohon keputusan merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon. Setiap node pada pohon keputusan merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut dan daun merepresentasikan kelas. Node paling atas dari pohon keputusan disebut sebagai node akar atau root (Han et al 2012). Pembentukan pohon keputusan terdiri atas tahap-tahap berikut (Han et al 2012): 1 Konstruksi tree, yaitu membuat tree yang diawali dengan pembentukan bagian akar, kemudian data terbagi berdasarkan atribut-atribut yang cocok untuk dijadikan node akar. 2 Pemangkasan tree (pruning), yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada tree yang telah terbentuk. 3 Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari tree yang telah dibentuk.
Algoritme C50 Algoritme C50 adalah perluasan dari algoritme C4.5 dan Iterative Dichotomizer 3 (ID3) (Patil et al. 2012). C50 adalah algoritme klasifikasi yang dapat menangani kumpulan data besar. C50 lebih baik daripada C4.5 dalam hal kecepatan, memori dan efisiensi. Model C50 dapat membagi sampel berdasarkan nilai information gain terbesar. Atribut yang memiliki information gain terbesar akan dipilih sebagai parent atau untuk node selanjutnya (Han et al. 2012). Algoritme C50 memiliki tiga parameter input yaitu D, attribute_list, dan attribute_selection_method. D merupakan data latih dengan label kelas yang terkait. Attribute list menggambarkan suatu tuple himpunan dari kandidat atribut dan attribute selection method menentukan prosedur untuk memilih atribut yang mengolah tuple menurut kelasnya (Han et al. 2012). Algoritme generate decision tree sebagai parameter input adalah sebagai berikut (Han et al. 2012): 1 D, data latih yang telah ditentukan label kelasnya. 2 Attribute_list, himpunan yang terdiri dari kandidat atribut. 3 Attribute_selection_method, prosedur untuk memilih atribut yang mengolah tuple menurut kelasnya. Algoritme klasifikasi pohon keputusan adalah sebagai berikut (Han et al. 2012): 1 Buat simpul N. 2 Jika semua tuple di D memiliki kelas yang sama yaitu C maka jadikan N sebagai simpul daun dan beri label C. 3 Jika attribute_list kosong maka:
6
4 5 6 7
8
jadikan simpul N sebagai simpul daun dan diberi label dengan kelas yang terbanyak. Terapkan attribute selection method (D, attribute list) untuk mendapatkan atribut uji terbaik. Beri label simpul N dengan atribut data uji. Jika atribut bernilai diskret dan dapat dipisahkan, maka: Attribute_list <- attribute_list – atribut uji Untuk setiap nilai j dari atribut uji yaitu: Buat Dj menjadi kumpulan data tuple untuk memenuhi hasil j. Jika Dj kosong, maka tambahkan simpul daun dengan label dari kelas yang terbanyak. Selainnya, tambah cabang baru dengan memanggil fungsi Generate_decision_tree (Dj, attribute_list) ke simpul N. Kembali ke N. Model klasifikasi yang digunakan yaitu tree dan rule-based. Tree dimulai sebagai node tunggal, N mewakili tuple D. Tree memiliki struktur pohon seperti flowchart yang masing-masing simpul internal non leaf node menunjukkan pengujian pada atribut. Masing-masing cabang mewakili hasil dari pengujian dan masing-masing simpul daun merupakan label kelas. Root merupakan simpul paling atas pada struktur tree, sedangkan rule-based merupakan cara yang baik untuk mewakili informasi atau pengetahuan. Aturan klasifikasi menggunakan aturan IF (kondisi) – THEN (kesimpulan) untuk klasifikasi. IF merupakan bagian (or left side) dari aturan ini dikenal sebagai aturan prasyarat, sedangkan THEN (or right side) merupakan bagian konsekuen (Han et al. 2012). Penelitian ini menggunakan nilai information gain sebagai ukuran pemilihan atribut. Atribut dengan information gain terbesar ditentukan sebagai atribut pemisah untuk simpul N. Ukuran pemilihan atribut didefinisikan pada persamaan 1 (Han et.al 2012). 𝑚
Info(D) = −∑𝑖=1 𝑝𝑖 𝑙𝑜𝑔₂ (𝑝𝑖)
(1)
Dengan info (D) merupakan informasi yang dibutuhkan untuk mengklasifikasi label kelas sebuah tuple di D. 𝑝𝑖 adalah jumlah sample untuk kelas 𝑖. Fungsi log menggunakan basis 2, karena informasi yang dikodekan dalam bit. Info(D) juga dikenal sebagai entropy. Partisi tuple di D pada beberapa atribut A memiliki nilai v yang berbeda {a1,a2, …, av} dari data latih. Atribut A digunakan untuk memisahkan D ke dalam 𝑣 partisi atau sub himpunan {D1, D2, …, D𝑣 }. |Dj|/|D| merupakan bobot partisi ke-j. Nilai entropy yang dihasilkan untuk mengklasifikasi tuple dari D berdasarkan partisi oleh A dapat dilihat pada persamaan 2 (Han et al. 2012): 𝑣
InfoA(D) = −∑𝑗=1 𝐷𝑗×Info (Dj) (2) D Untuk mendapatkan nilai gain yang diperoleh pada atribut A dapat dilihat pada persamaan 3 sebagai berikut:
7 Gain (A) = Info(D) – InfoA(D)
(3)
Gain (A) menyatakan berapa banyak cabang yang akan diperoleh pada A. Atribut A dengan information gain tertinggi. Information gain (A), dipilih sebagai atribut pada node N (Han et al. 2012).
K-Fold Cross Validation Menurut Refaeilzadeh et al. (2008) K-Fold Cross Validation adalah sebuah metode yang membagi himpunan contoh secara acak menjadi k himpunan bagian (subset). Pada metode ini dilakukan pengulangan sebanyak k kali untuk data pelatihan dan pengujian. Pada setiap pengulangan, satu subset digunakan untuk pengujian, sedangkan subset sisanya digunakan untuk pelatihan. Kelebihan dari metode ini adalah tidak adanya masalah dalam pembagian data. Setiap data akan menjadi test set sebanyak satu kali dan akan menjadi training set sebanyak k-1 kali. Kekurangan dari metode ini adalah algoritme pembelajaran harus dilakukan sebanyak k kali yang berarti menggunakan k kali waktu komputasi
METODE Data Penelitian Data yang digunakan pada penelitian ini adalah data mahasiswa reguler dan alih jenis Program Studi S1 Ilmu Komputer FMIPA IPB tahun ajaran 2015/2016. Selain itu digunakan data log penggunaan LMS untuk mata kuliah data mining tahun ajaran 2015/2016. Atribut pada data log penggunaan LMS diacu dari penelitian yang dilakukan oleh Romero et al. (2010) dan Akcapinar et al. (2015). Aktivitas pada data log penggunaan LMS merupakan atribut yang akan digunakan pada penelitian ini. Atribut data log penggunaan LMS pada mata kuliah data mining dapat dilihat pada Tabel 1. Tabel 1 Atribut data log penggunaan LMS No Nama Atribut 1 n_assigment 2 n_view_assigment 3 4 5
n_course_view n_course_module_view Nilai akhir
Kode V1 V2 V3 V4 V5
Keterangan Jumlah tugas yang di-upload Jumlah view tugas mata kuliah data mining Jumlah view mata kuliah data mining Jumlah view modul Nilai akhir
Halaman aktivitas pengumpulan tugas yang diupload menampilkan submission status yang tediri dari grading status, due date, time remaining, last modified, file submission, dan submission comment. Halaman aktivitas pengumpulan tugas yang diupload dapat dilihat pada Gambar 2.
8
Gambar 2 Halaman LMS data mining untuk pengumpulan tugas yang diupload Untuk melihat tugas pada mata kuliah data mining mahasiswa dapat secara langsung mengunduh tugas yang ada di LMS setelah mengklik kolom tugas yang diberikan. Gambar 3 menampilkan halaman melihat tugas mata kuliah data mining pada LMS.
Gambar 3 Halaman LMS untuk melihat tugas mata kuliah data mining Mahasiswa dapat melihat halaman mata kuliah data mining dengan terlebih dahulu masuk ke url https://lms.ipb.ac.id kemudian pilih course data mining. Gambar 4 menampilkan halaman untuk melihat mata kuliah data mining pada LMS. Untuk melihat halaman modul mata kuliah data mining dapat dilakukan dengan mengklik langsung materi yang diinginkan. Gambar 5 menampilkan halaman melihat modul kuliah data mining pada LMS. Gambar 6 menampilkan modul data mining pada LMS.
9
Gambar 4 Halaman LMS untuk melihat mata kuliah data mining
Gambar 5 Halaman LMS untuk melihat modul mata kuliah data mining
Gambar 6 Modul mata kuliah data mining pada LMS Tahapan Penelitian Pada penelitian ini terdapat beberapa tahapan yang terdiri dari pengumpulan data, praproses data, pembagian data, pemodelan klasifikasi dengan pohon
10 keputusan, model klasifikasi aktivitas mahasiswa, pengujian model klasifikasi, evaluasi dan analisis model klasifikasi, dan analisis aktivitas pada LMS yang mempengaruhi nilai mata kuliah data mining. Keseluruhan tahapan pada penelitian ini dapat dilihat pada Gambar 7.
Gambar 7 Tahapan penelitian Pengumpulan data Penelitian ini menggunakan data mahasiswa reguler dan alih jenis Program Studi S1 Ilmu Komputer FMIPA IPB sebanyak 144 mahasiswa dan data log penggunaan LMS untuk mata kuliah data mining tahun ajaran 2015/2016 sebanyak 37.161 log. Data diperoleh dari dosen kordinator mata kuliah data mining Ilmu Komputer IPB. Praproses Data Praproses dilakukan untuk meningkatkan kualitas data sehingga menghasilkan akurasi dan efisiensi data yang meningkat. Pada tahapan ini, data yang dikumpulkan dibersihkan dan dilakukan analisis untuk menentukan pemilihan atribut pengguna mahasiswa. Setelah memilih aktivitas dengan pengguna mahasiswa, tahap yang selanjutnya yaitu memilih atribut berupa aktivitas yang dilakukan mahasiswa pada penggunaan LMS. Aktivitas tersebut didapat dari kolom event_name pada data log LMS yang terdiri dari view mata kuliah, view modul mata kuliah, jumlah view tugas, jumlah upload tugas dan nilai akhir sebagai kelas keputusan. Tahap selanjutnya yaitu menghitung jumlah setiap aktivitas pada data log LMS. Setiap aktivitas akan dikelompokkan menjadi 4 grup yaitu tinggi (3), sedang (2), rendah (1), dan tidak ada informasi (0). Pengelompokkan 4 grup diperoleh dengan menentukan kategori untuk masing-masing aktivitas. Langkah selanjutnya yaitu memberikan label kelas untuk setiap data log pengguna LMS. Secara umum pemberian label kelas ini akan dibagi menjadi dua percobaan. Percobaan pertama yaitu mengelompokkan data sesuai dengan nilai
11 akhir masing-masing mahasiswa, yakni nilai mutu A, AB, B, dan BC. Percobaan kedua yaitu mengelompokkan data menjadi dua kategori kelas, yakni kelas K1 yang terdiri dari nilai mutu A dan AB, serta kelas K2 yang terdiri dari nilai mutu B dan BC. Gambar 8 menjelaskan urutan yang dilakukan saat praproses data.
Gambar 8 Tahapan praproses data Pembagian Data Untuk melakukan klasifikasi data dibagi menjadi data latih dan data uji. Data latih digunakan untuk membangun model pohon keputusan, sedangkan data uji digunakan untuk menguji model pohon keputusan. Pembagian data menggunakan metode k-cross fold validation. K-cross fold validation adalah sebuah metode yang membagi himpunan contoh secara acak menjadi k himpunan bagian (subset) Refaeilzadeh et al. (2008). Pemodelan Klasifikasi Pohon Keputusan Pada tahap ini dibangun model klasifikasi untuk membentuk pohon keputusan. Pembentukan pohon keputusan ini menggunakan algoritme C50. Algoritme ini menggunakan nilai information gain dalam membuat pohon keputusan. Model klasifikasi dibuat dengan menggunakan bahasa pemograman R dengan package yang telah tersedia yaitu C50. Pengujian Model Klasifikasi Pada tahap pengujian model klasifikasi dilakukan dengan perhitungan akurasi serta menghitung nilai precision dan recall. Pada tahap ini akurasi dihitung dari model klasifikasi. Akurasi berfungsi untuk menunjukkan tingkat kebenaran pengklasifikasian data terhadap kelas yang sebenarnya. Tingkat akurasi yang baik adalah tingkat akurasi yang mendekati 100%. Semakin tinggi tingkat akurasi maka semakin rendah kesalahan klasifikasi. Dalam penelitian ini, apabila akurasi dari model terbaik lebih kecil 70% akan dilakukan praproses data kembali. Metode yang digunakan dalam proses perhitungan akurasi adalah metode 10-cross fold validation. Akurasi diperoleh dari data uji dengan menggunakan rumus pada Persamaan 4. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =
∑ 𝑑𝑎𝑡𝑎 𝑢𝑗𝑖 𝑦𝑎𝑛𝑔 𝑑𝑖𝑘𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖𝑘𝑎𝑛 𝑏𝑒𝑛𝑎𝑟 ∑ 𝑑𝑎𝑡𝑎 𝑢𝑗𝑖
×100%
(4)
Menurut Amin et al (2012) precision adalah bagian data yang di ambil sesuai dengan informasi yang dibutuhkan sedangkan recall adalah pengambilan
12 data yang berhasil dilakukan terhadap bagian data yang relevan dengan query. Tabel 2 menunjukkan bentuk precision dan recall dari confusion matrix. Persamaan 5 menunjukkan perhitungan precision dan Persamaan 6 menunjukkan perhitungan recall. Tabel 2 Perhitungan precision dan recall dengan confusion matrix Klasifikasi Positif
Klasifikasi Negatif
Aktual Positif
TP
FN
Aktual Negatif
FP
TN TP
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = TP+FP TP
𝑅𝑒𝑐𝑎𝑙𝑙 = TP+FN
(5) (6)
Evaluasi dan Analisis Model Klasifikasi Pada tahap ini digunakan nilai akurasi terbaik dari pengujian model klasifikasi. Akurasi terbaik digunakan untuk menganalisis aktivitas LMS yang paling berpengaruh pada mata kuliah data mining. Dalam penelitian ini, proses evaluasi dan analisis model klasifikasi akan dilakukan jika memenuhi syarat model dengan akurasi terbaik lebih besar sama dengan 70%. Analisis tersebut direpresentasikan ke dalam pohon keputusan.
Lingkungan Pengembangan Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut: 1 Perangkat keras yang digunakan berupa komputer personal dengan spesifikasi: Intel® Core™ i3 CPU @2.20 GHz RAM 2 GB Harddisk Internal 512 GB 2 Perangkat lunak yang digunakan: Sistem Operasi Windows 7 32-bit Bahasa pemrograman R versi 3.3.1 untuk menjalankan RStudio RStudio versi 0.98.1102 untuk proses klasifikasi Microsoft Excel 2016 untuk pengolahan data mahasiswa dan data log LMS
13
HASIL DAN PEMBAHASAN Berdasarkan tahapan penelitian pada Gambar 7 yang telah dijelaskan sebelumnya bahwa proses evaluasi dan analisis model klasifikasi akan dilakukan jika memenuhi syarat akurasi model terbaik lebih besar sama dengan 70%. Pada penelitian ini terdapat 3 kali iterasi. Iterasi pertama dimulai dari proses pengumpulan data, praproses data, pembagian data menjadi data latih dan data uji, pemodelan klasifikasi pohon keputusan yang menghasilkan model klasifikasi aktivitas mahasiswa. Kemudian dilanjutkan tahap pengujian model klasifikasi. Pada tahap pengujian model klasifikasi, akurasi yang diperoleh dipastikan apakah sudah memenuhi syarat lebih besar sama dengan 70%. Pada iterasi pertama setiap atribut dihitung berdasarkan jumlah keseluruhan aktivitas yang dilakukan mahasiswa. Setelah menghitung jumlah keseluruhan aktivitas, tahap selanjutnya yaitu menentukan kategori pada masing-masing atribut yang kemudian dilanjutkan dengan proses klasifikasi. Dari proses klasifikasi yang dilakukan, model dengan akurasi terbaik pada iterasi pertama sebesar 64.29%. Akurasi tersebut lebih kecil sama dengan 70% sehingga dilakukan praproses data kembali dan dilakukan iterasi kedua. Pada iterasi kedua tahapan yang dilakukan sama dengan iterasi pertama. Namun yang membedakan adalah pada tahap praproses data (Gambar 8) yaitu menghitung jumlah aktivitas pada LMS. Perubahan terjadi pada atribut V3 dan V4 sedangkan untuk V1 dan V2 tetap. Jumlah aktivitas pada atribut V3 dan V4 dihitung per hari dimana semua kejadian yang terjadi dalam 1 hari dihitung sebagai 1 aktivitas. Berbeda dengan perhitungan aktivitas pada iterasi pertama dimana setiap kejadian dihitung satu aktivitas. Tahap selanjutnya yaitu menentukan kategori pada masing-masing atribut yang kemudian dilanjutkan dengan proses klasifikasi. Dari proses klasifikasi yang dilakukan, model dengan akurasi terbaik pada iterasi kedua menghasilkan akurasi lebih kecil sama dengan 70% yaitu sebesar 40.00% sehingga dilakukan praproses data kembali dan dilakukan iterasi ketiga. Pada iterasi ketiga tahapan yang dilakukan sama dengan iterasi pertama dan kedua namun pada salah satu tahap praproses data yaitu pemberian label kelas berubah. Sebelumnya pada iterasi pertama dan kedua percobaan dilakukan dengan 4 kelas yaitu kelas dengan nilai mutu A, AB, B dan BC. Namun pada iterasi ketiga percobaan dilakukan untuk 2 kelas yaitu K1 yang terdiri dari kelas dengan nilai mutu A dan AB serta K2 yang terdiri dari kelas dengan nilai mutu B dan BC. Pada iterasi ketiga menghasilkan model dengan akurasi terbaik lebih besar sama dengan 70% yaitu sebesar 85.71%. Karena pada iterasi ketiga pengujian model klasifikasi sudah memenuhi syarat untuk model dengan akurasi terbaik lebih besar sama dengan 70.00%, sehingga dapat dilakukan tahap selanjutnya yaitu evaluasi dan analisis model klasifikasi. Pada tahap evaluasi dan analisis model klasifikasi akan diperoleh aktivitas pada LMS yang mempengaruhi nilai mata kuliah data mining. Penjelasan lebih jelas untuk setiap iterasi dapat dilihat dibawah ini.
14 Iterasi Pertama Pengumpulan Data Data yang digunakan pada penelitian ini diperoleh dari dosen kordinator mata kuliah data mining Ilmu Komputer IPB. Penelitian ini menggunakan data mahasiswa reguler dan alih jenis Program Studi S1 Ilmu Komputer FMIPA IPB sebanyak 144 mahasiswa dan data log penggunaan LMS untuk mata kuliah data mining tahun ajaran 2015/2016 sebanyak 37.161 log dengan 5 atribut yang digunakan sesuai dengan Tabel 1. Praproses Data Praproses data dilakukan untuk menghasilkan dataset yang relevan dengan kebutuhan algoritme pohon keputusan C50. Dalam penelitian ini, data log pembelajaran merupakan representasi aktivitas pembelajar pada kelas data mining yang diikuti. Gambar 9 memperlihatkan contoh potongan data log pembelajaran yang belum dilakukan praproses data.
Gambar 9 Potongan data log pembelajaran sebelum praproses data Terdapat beberapa tahap yang harus dilakukan pada praproses data. Tahap pertama dilakukan dengan menghilangkan seluruh pengguna dosen dan asisten praktikum pada setiap data log, sehingga pada fail data log tersebut hanya terdapat pengguna mahasiswa saja. Gambar 10 memperlihatkan potongan data log dengan berbagai macam pengguna seperti dosen dan asisten praktikum.
Gambar 10 Data log dengan pengguna dosen dan asisten praktikum Setelah menghilangkan seluruh pengguna dosen dan asisten praktikum, tahap selanjutnya adalah memilih atribut berupa aktivitas yang dilakukan mahasiswa pada penggunaan LMS. Aktivitas tersebut didapat dari kolom event_name pada data log LMS yang terdiri dari 36 atribut yang dapat dilihat pada Lampiran 1. Gambar 11 memperlihatkan potongan aktivitas pada data log dengan berbagai macam pengguna seperti dosen dan asisten praktikum.
15
Gambar 11 Potongan aktivitas pada data log dengan berbagai macam pengguna Dari 36 aktivitas pada data log dipilih 4 aktivitas yang dijadikan sebagai atribut yang dilakukan oleh mahasiswa disesuaikan dengan penelitian yang dilakukan oleh Romero et al. (2010) dan Akcapinar et al. (2015) yaitu a submission has been submitted yang diinisialisasi dengan n_assignment (V1), The status of the submission has been viewed diinisialisasi dengan n_view assignment (V2), n_course_view (V3), dan n_course_module_view (V4). Kemudian dari data mahasiswa digunakan nilai mutu mata kuliah data mining sebagai kelas keputusan. Tahap selanjutnya yaitu menghitung jumlah aktivitas. Pada iterasi pertama setiap atribut dihitung berdasarkan jumlah keseluruhan aktivitas yang dilakukan mahasiswa. Tabel 3 memperlihatkan potongan jumlah aktivitas pada data log untuk masing-masing aktivitas. Jumlah keseluruhan aktivitas dapat dilihat pada Lampiran 2. Tabel 3 Potongan jumlah aktivitas pada iterasi pertama Pengguna Mahasiswa 1 Mahasiswa 2 Mahasiswa 3 Mahasiswa 4
V1 5 4 7 5
V2 30 12 26 27
V3 51 137 33 48
V4 60 50 55 61
Dari hasil jumlah aktivitas yang didapat untuk masing-masing mahasiswa, selanjutnya dihitung interval atau rentang nilai untuk masing-masing atribut. Perhitungan rentang nilai dibagi menjadi 4 grup yaitu tinggi yang dikodekan dengan (3), sedang dikodekan dengan (2), rendah dikodekan dengan (1) dan tidak ada informasi dikodekan dengan (0). Perhitungan rentang nilai dapat dilihat pada Persamaan 7. Setelah dilakukan perhitungan, diperoleh hasil interval seperti pada Tabel 4. Batas bawah + Interval – 1
(7)
Tabel 4 Interval untuk masing-masing atribut pada iterasi pertama Kategori V1 V2 V3 V4
Batas atas 14 56 293 185
Batas bawah Interval 1 5 1 19 8 95 8 59
Setiap atribut pada data log yang sudah dijumlahkan aktivitasnya mempunyai batas bawah dan batas atas yang digunakan untuk menentukan rentang nilai. Tabel
16 5 menampilkan batas bawah dan batas atas yang digunakan untuk masing-masing atribut yang mempunyai informasi. V1 untuk kategori 1 memiliki batas bawah 1 dan batas atas 5, V2 memiliki batas bawah 1 dan batas atas 19, V3 memiliki batas bawah 8 dan batas atas 102, dan V4 memiliki batas bawah 8 dan batas atas 66. V1 untuk kategori 2 memiliki batas bawah 6 dan batas atas 9, V2 memiliki batas bawah 20 dan batas atas 37, V3 memiliki batas bawah 103 dan batas atas 198, dan V4 memiliki batas bawah 67 dan batas atas 126. V1 untuk kategori 3 memiliki batas bawah 10 dan batas atas 14, V2 memiliki batas bawah 38 dan batas atas 56, V3 memiliki batas bawah 199 dan batas atas 293, dan V4 memiliki batas bawah 127 dan batas atas 185. Setelah batas bawah dan batas atas diketahui, selanjutnya yaitu menentukan rentang nilai untuk masing-masing kategori. Tabel 6 menunjukan hasil rentang nilai untuk masing-masing kategori. Tabel 5 Batas bawah dan batas atas yang digunakan pada iterasi pertama V2 V3 V1 Kategori Batas Batas Batas Batas Batas bawah atas bawah atas bawah 1 1 5 1 19 8 2 6 9 20 37 103 3 10 14 38 56 199
V4 Batas Batas Batas atas bawah atas 102 8 66 198 67 126 293 127 185
Tabel 6 Rentang nilai untuk masing-masing kategori pada iterasi pertama Kategori Tidak ada informasi Rendah Sedang Tinggi
(0) (1) (2) (3)
V1 0 1-5 6-9 10-14
V2 0 1-19 20-37 38-56
V3 0 8-102 103-198 199-293
V4 0 8-68 69-126 127-185
Setelah menghitung rentang nilai, tahap selanjutnya yaitu memberi kategori pada masing-masing atribut. Pemberian kategori rentangnya disesuaikan dengan perhitungan rentang nilai pada Tabel 6. Tabel hasil pemberian kategori dapat dilihat pada Lampiran 3. Setelah pemberian kategori kelas untuk masing-masing atribut masukkan nilai yang diperoleh mahasiswa pada mata kuliah data mining agar dataset dapat diolah pada Rstudio. Tabel 7 memperlihatkan kategori untuk masingmasing atribut berdasarkan Tabel 3. Tabel 7 Pemberian kategori untuk masing-masing aktivitas pada iterasi pertama Pengguna Mahasiswa 1 Mahasiswa 2 Mahasiswa 3 Mahasiswa 4
Atribut V1 1 1 2 1
V2 2 1 2 2
V3 1 2 1 1
V4 1 1 1 1
Kelas A AB B BC
17 Pembagian Data Pada iterasi pertama untuk melakukan klasifikasi data dibagi menjadi data latih dan data uji. Data latih digunakan untuk membangun model pohon keputusan, sedangkan data uji digunakan untuk menguji model pohon keputusan. Pembagian data dilakuan menggunakan 10 cross fold validation. Jumlah data untuk masingmasing kelas pada iterasi pertama dapat dilihat pada Tabel Tabel 8 Jumlah nilai mutu mata kuliah data mining pada iterasi pertama Huruf mutu A AB B BC
Jumlah Mahasiswa 37 26 53 28
Setelah dilakukan pengolahan data menggunakan 10 cross fold validation dengan 90% sebagai data latih dan 10% sebagai data uji didapatkan hasil distribusi data latih dan data uji untuk masing-masing kelas. Tabel 9 menunjukan distribusi jumlah data latih dan data uji yang diperoleh untuk percobaan 4 kelas pada iterasi pertama. Tabel 9 Distribusi jumlah data latih dan data uji pada iterasi pertama Fold 1 2 3 4 5 6 7 8 9 10
Distribusi Kelas Data Latih A AB B BC Jumlah 33 23 48 25 129 33 23 48 25 129 33 23 48 25 129 33 24 47 25 129 33 24 47 26 130 33 24 47 26 130 33 24 48 25 130 34 23 48 25 130 34 23 48 25 130 34 23 48 25 130
Distribusi Kelas Data Uji A AB B BC Jumlah 4 3 5 3 15 4 3 5 3 15 4 3 5 3 15 4 2 6 3 15 4 2 6 2 14 4 2 6 2 14 4 2 5 3 14 3 3 5 3 14 3 3 5 3 14 3 3 5 3 14
Pemodelan Klasifikasi Pohon Keputusan Pada tahap ini dibangun model klasifikasi untuk membentuk pohon keputusan. Pembentukan pohon keputusan ini menggunakan algoritme C50. Algoritme ini menggunakan ukuran information gain dalam membuat pohon keputusan. Pohon keputusan yang ditampilkan merupakan pohon keputusan dengan akurasi terbaik dari model yang terbentuk. Gambar 13 menampilkan potongan kode program untuk membuat model pohon keputusan.
18 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
model_all <- list() trainX_all <- list() trainY_all <- list() testX_all <- list() testY_all <- list() # actual cross validation for(k in 1:nrFolds) { # actual split of the data fold <- which(folds == k) data.train <- data[-fold,] data.test <- data[fold,] trainX <- data.train[,1:4] testX <- data.test[,1:4] trainY <-data.train[,5] testY <- data.test[,5] model <- C5.0( trainX, trainY ) model_all[[k]] <- model plot(model_all[[k]])
Gambar 12 Potongan kode program untuk membuat model pohon keputusan Potongan program pada Gambar 12 merupakan kode program dari fungsi algoritme pohon keputusan C50 untuk membuat model. Baris 1 menjelaskan list data yang diinisialisai dengan model_all. Baris 2 dan 3 menjelaskan variabel yang menyimpan label atau kelas untuk data latih dan data untuk data latih sedangkan baris 4 dan 5 menjelaskan variabel yang menyimpan data untuk data uji dan label atau kelas untuk data uji. Baris 7 sampai 15 merupakan kode program untuk proses 10 fold cross validation yaitu 9 kali digunakan sebagai data latih dan 1 sebagai data uji. Baris 16 dan 17 untuk menampilkan model secara keseluruhan sedangkan baris 18 digunakan untuk menampilkan pohon keputusan yang terbentuk dari masingmasing model. Pohon keputusan yang dihasilkan pada iterasi pertama dengan percobaan 4 kelas, diperoleh dari model ke 5 sebagai model terbaik. Pohon keputusan tersebut menampilkan V4 yaitu atribut n_course_module_view sebagai atribut yang memperoleh nilai gain tertinggi atau root dengan jumlah data ≤ 1 sebanyak 84 data terklasifikasi sebagai kelas B. Jika V4 > 1 sebanyak 46 data terklasifikasi sebagai kelas A. Gambar 13 menampilkan pohon keputusan yang dihasilkan pada iterasi pertama.
Gambar 13 Pohon keputusan untuk iterasi pertama
19 Pengujian Model Klasifikasi Pada tahap ini dilakukan perhitungan akurasi. Tingkat akurasi yang baik adalah tingkat akurasi yang mendekati 100%. Semakin tinggi tingkat akurasi maka semakin rendah kesalahan klasifikasi. Pada tahap pengujian model klasifikasi, percobaan dengan iterasi pertama dipastikan apakah hasil akurasi dari model terbaik yang diperoleh lebih besar sama dengan 70%. Dalam penelitian ini, pada iterasi pertama dihasilkan akurasi dari model terbaik lebih kecil sama dengan 70% yaitu sebesar 64.29% yang diperoleh pada model ke 5. Hasil akurasi pada iterasi pertama dapat dilihat pada Gambar 14.
Hasil Akurasi pada Iterasi Pertama 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00%
Gambar 14 Hasil akurasi pada iterasi pertama Dari percobaan yang dilakukan pada iterasi pertama, dengan melakukan pengujian pada 4 kelas menghasilkan confusion matrix yang terbentuk dari data uji untuk model terbaik dapat dilihat pada Tabel 10. Dari confusion matrix tersebut dihasilkan kelas AB dan BC bernilai 0. Kelas AB sebanyak 1 terklasifikasi sebagai kelas A dan kelas BC sebanyak 2 terklasifikasi sebagai kelas B. Selain itu nilai precision dan recall yang diperoleh untuk masing-masing kelas dari confusion matrix yang dihasilkan pada tabel 10 dapat dilihat pada Tabel 11. Tabel 10 Confusion matrix yang dihasilkan pada iterasi pertama
A AB B BC
A 3 1 0 0
AB 0 0 0 0
B 1 1 6 2
BC 0 0 0 0
Tabel 11 Nilai precision dan recall yang dihasilkan pada iterasi pertama Kelas A AB B BC
Precision 75.00% 0 60.00% 0
Recall 75.00% 0 100.00% 0
20 Iterasi Kedua Pengumpulan Data Data yang digunakan pada iterasi kedua sama dengan iterasi pertama yaitu data mahasiswa sebanyak 144 mahasiswa reguler dan alih jenis S1 Ilmu Komputer FMIPA IPB dan data log penggunaan LMS untuk mata kuliah data mining tahun ajaran 2015/2016 sebanyak 37.161 log dengan 5 atribut yang digunakan sesuai dengan Tabel 1. Praproses Data Pada tahap praproses data, tahap pemilihan atribut pengguna LMS dan pemilian atribut berupa aktivitas LMS sama dengan yang dilakukan pada iterasi pertama. Namun yang membedakan yaitu perhitungan jumlah aktivitas pada LMS. Perubahan terjadi pada atribut V3 dan V4 sedangkan untuk V1 dan V2 tetap. Jumlah aktivitas pada atribut V3 dan V4 dihitung per hari dimana semua kejadian yang terjadi dalam 1 hari dihitung sebagai 1 aktivitas. Berbeda dengan perhitungan aktivitas pada iterasi pertama dimana setiap kejadian dihitung satu aktivitas. Tabel 12 memperlihatkan potongan jumlah aktivitas pada data log untuk masing-masing atribut. Jumlah keseluruhan aktivitas untuk iterasi kedua dapat dilihat pada Lampiran 4. Tabel 12 Potongan jumlah aktivitas pada iterasi kedua Pengguna Mahasiswa 1 Mahasiswa 2 Mahasiswa 3 Mahasiswa 4
V1 5 4 7 5
V2 30 12 26 27
V3 18 13 7 14
V4 13 11 13 11
Seperti yang terlihat pada Tabel 12, jumlah aktivitas pada atribut V3 dan V4 berbeda dari jumlah aktivitas yang diperoleh pada iterasi pertama. Pada iterasi kedua, mahasiswa 2 memiliki jumlah aktivitas sebanyak 13 sedangkan sebelumnya pada iterasi pertama sebanyak 137. Hal ini juga mempengaruhi untuk tahap selanjutnya yaitu pemberian kategori untuk masing-masing mahasiswa. Sebelum melakukan tahapan pemberian kategori, terlebih dahulu dihitung interval atau rentang nilai untuk masing-masing atribut. Perhitungan rentang nilai sama dengan iterasi pertama yaitu membagi menjadi 4 grup yaitu tinggi yang dikodekan (3), sedang dikodekan (2), rendah dikodekan (1) dan tidak ada informasi (0). Untuk aktivitas V1 dan V2 rentangnya disesuaikan dengan iterasi pertama karena pada iterasi kedua hanya merubah jumlah aktivitas V3 dan V4. Perhitungan rentang nilai untuk masing-masing atribut menggunakan Persamaan 7. Hasil yang diperoleh dapat dilihat pada Tabel 13.
21 Tabel 13 Interval untuk masing-masing atribut pada iterasi kedua Kategori V1 V2 V3 V4
Batas atas 14 56 34 25
Batas bawah Interval 1 5 1 19 1 11 4 7
Setiap atribut pada data log yang sudah dijumlahkan aktivitasnya mempunyai batas bawah dan batas atas yang digunakan untuk menentukan rentang nilai. Tabel 14 menampilkan batas bawah dan batas atas yang digunakan untuk masing-masing atribut yang mempunyai informasi. Tabel 14 Batas bawah dan batas atas yang diperoleh untuk masing-masing atribut V3 Kategori Batas Batas Batas Batas Batas bawah atas bawah atas bawah 1 1 5 1 19 1 2 6 9 20 37 12 3 10 14 38 56 24 V1
V2
V4 Batas Batas Batas atas bawah atas 11 4 10 23 11 18 34 19 25
V1 untuk kategori 1 memiliki batas bawah 1 dan batas atas 5, V2 memiliki batas bawah 1 dan batas atas 19, V3 memiliki batas bawah 1 dan batas atas 11, dan V4 memiliki batas bawah 4 dan batas atas 10. V1 untuk kategori 2 memiliki batas bawah 6 dan batas atas 9, V2 memiliki batas bawah 20 dan batas atas 37, V3 memiliki batas bawah 12 dan batas atas 23, dan V4 memiliki batas bawah 11 dan batas atas 18. V1 untuk kategori 3 memiliki batas bawah 10 dan batas atas 14, V2 memiliki batas bawah 38 dan batas atas 56, V3 memiliki batas bawah 24 dan batas atas 34, dan V4 memiliki batas bawah 19 dan batas atas 25. Setelah batas bawah dan batas atas diketahui, selanjutnya yaitu menentukan rentang nilai untuk masingmasing kategori. Tabel 15 menunjukan hasil rentang nilai untuk masing-masing kategori. Tabel 15 Rentang nilai untuk masing-masing kategori pada iterasi kedua Kategori Tidak ada informasi (0) Rendah (1) Sedang (2) Tinggi (3)
V1 0 1-5 6-9 10-14
V2 0 1-19 20-37 38-56
V3 0 1-11 12-23 24-34
V4 0 4-10 11-18 19-25
Setelah menghitung rentang nilai dari masing-masing atribut tahap selanjutnya yaitu pemberian kategori untuk setiap mahasiswa. Pemberian kategori rentangnya disesuaikan dengan Tabel 15. Tabel hasil pemberian kategori untuk iterasi kedua dapat dilihat pada Lampiran 5. Setelah pemberian kategori kelas untuk masing-masing atribut masukkan nilai yang diperoleh mahasiswa pada mata kuliah
22 data mining agar dataset dapat diolah pada Rstudio. Tabel 16 memperlihatkan kategori untuk masing-masing atribut berdasarkan Tabel 12. Tabel 16 Pemberian kategori untuk masing-masing aktivitas pada iterasi kedua Pengguna Mahasiswa 1 Mahasiswa 2 Mahasiswa 3 Mahasiswa 4
V1 1 1 2 1
V2 2 1 2 2
Atribut V3 2 2 1 2
V4 2 2 2 2
Kelas A AB B BC
Pembagian Data Pada iterasi kedua pembagian data dilakukan seperti pada iterasi pertama. Data dibagi menjadi data latih dan data uji. Pembagian data dilakuan menggunakan 10 cross fold validation dengan 90% sebagai data latih dan 10% sebagai data uji. Jumlah data untuk masing-masing kelas pada iterasi kedua dapat dilihat pada Tabel 7. Setelah dilakukan pengolahan didapatkan hasil distribusi data latih dan data uji untuk masing-masing kelas. Tabel 17 menunjukan distribusi jumlah data latih dan data uji yang diperoleh pada iterasi kedua. Tabel 17 Distribusi jumlah data latih dan data uji pada iterasi kedua Fold 1 2 3 4 5 6 7 8 9 10
Distribusi Data Latih A AB B BC 33 23 48 25 33 23 48 25 33 23 48 25 33 24 47 25 33 24 47 26 33 24 47 26 33 24 48 25 34 23 48 25 34 23 48 25 34 23 48 25
Distribusi Data Uji Jumlah A AB B BC Jumlah 129 4 3 5 3 15 129 4 3 5 3 15 129 4 3 5 3 15 129 4 2 6 3 15 130 4 2 6 2 14 130 4 2 6 2 14 130 4 2 5 3 14 130 3 3 5 3 14 130 3 3 5 3 14 130 3 3 5 3 14
Pemodelan Klasifikasi Pohon Keputusan Pada tahap ini pemodelan klasifikasi pohon keputusan untuk iterasi kedua sama dengan iterasi pertama. Pembentukan pohon keputusan ini menggunakan algoritme C50, dengan menggunakan nilai information gain dalam membuat pohon keputusan. Pohon keputusan yang ditampilkan merupakan pohon keputusan dari model dengan akurasi terbaik yang terbentuk. Gambar 15 menampilkan pohon keputusan yang terbentuk pada iterasi kedua.
23
Gambar 15 Pohon keputusan pada iterasi kedua Pohon keputusan yang dihasilkan pada iterasi kedua dengan percobaan 4 kelas diperoleh dari model ke 4 sebagai model terbaik. Pohon keputusan tersebut menampilkan V4 yaitu atribut course_module_view sebagai atribut yang memperoleh nilai gain tertinggi atau root. Apabila V4 ≤ 1 masuk ke V1 yaitu n_assignment sebagai internal node. Jika V1 ≤ 0 sebanyak 14 data terklasifikasi sebagai kelas B. Jika V1 > 0 sebanyak 20 data terklasifikasi sebagai kelas BC. Apabila V4 > 1 sebanyak 96 data terklasifikasi sebagai kelas B. Pengujian Model Klasifikasi Pada tahap pengujian model klasifikasi, percobaan dengan iterasi kedua dilakukan untuk memastikan hasil akurasi dari model terbaik yang diperoleh lebih besar sama dengan 70%. Dalam penelitian ini, pada iterasi kedua dihasilkan akurasi dari model terbaik lebih kecil sama dengan 70% yaitu sebesar 40.00% yang diperoleh pada model ke 4. Hasil akurasi pada iterasi kedua dapat dilihat pada Gambar 16.
Hasil Akurasi pada Iterasi Kedua 100.00% 80.00% 35.71%
35.71%
60.00% 26.67% 40.00% 26.67% 20.00% 20.00%
40.00%
28.57%
35.71%
28.57%
29.90% 21.43%
0.00%
Gambar 16 Grafik hasil akurasi pada iterasi kedua
24
Dari percobaan yang dilakukan confusion matrix yang terbentuk dari data uji untuk model terbaik pada iterasi kedua dapat dilihat pada Tabel 18. Selain itu nilai precision dan recall yang diperoleh untuk masing-masing kelas dari confusion matrix yang dihasilkan pada tabel 18 dapat dilihat pada Tabel 19. Tabel 18 confusion matrix yang dihasilkan pada iterasi kedua A AB B BC
A 0 0 0 0
AB 0 0 0 0
B 4 2 5 2
BC 0 0 1 1
Table 19 Nilai precision dan recall yang dihasilkan pada iterasi kedua Kelas A AB B BC
Precision 0 0 38.46% 50.00%
Recall 0 0 83.33% 50.00%
Iterasi Ketiga Pengumpulan Data Data yang digunakan pada iterasi ketiga sama dengan iterasi pertama dan kedua yaitu data mahasiswa reguler dan alih jenis S1 Ilmu Komputer FMIPA IPB sebanyak 144 mahasiswa dan data log penggunaan LMS sebanyak 37.161 log pada mata kuliah data mining tahun ajaran 2015/2016. Praproses Data Pada tahap praproses data untuk iterasi ketiga, pemilihan atribut pengguna dan pemilian aktivitas LMS sama dengan yang dilakukan pada iterasi pertama dan kedua. Tahap praproses data pada iterasi ketiga menggunakan jumlah aktivitas pada iterasi pertama. Iterasi pertama digunakan kembali karena pada saat pengujian iterasi pertama dan kedua, menunjukan hasil bahwa iterasi pertama memiliki model dengan akurasi terbaik lebih besar dari pada iterasi kedua. Pada iterasi ketiga yang membedakan adalah tahap pemberian label kelas. Sebelumnya pada iterasi pertama dan kedua percobaan dilakukan dengan 4 kelas yaitu kelas dengan nilai mutu A, AB, B dan BC. Namun pada iterasi ketiga percobaan dilakukan untuk 2 kelas yaitu K1 yang terdiri dari kelas dengan nilai mutu A dan AB serta K2 yang terdiri dari kelas dengan nilai mutu B dan BC. Percobaan ini dilakukan karena dari model yang terbentuk pada iterasi pertama kelas AB dan BC bernilai 0. Hal ini dikarenakan kelas AB terklasifikasi ke dalam kelas A dan kelas BC terklasifikasi kedalam kelas B. Tabel 20 memperlihatkan potongan jumlah aktivitas pada data log untuk masing-masing atribut
25 Tabel 20 Potongan jumlah aktivitas pada iterasi ketiga Pengguna Mahasiswa 1 Mahasiswa 2 Mahasiswa 3 Mahasiswa 4
V1 5 4 7 5
V2 30 12 26 27
V3 51 137 33 48
V4 60 50 55 61
Dari hasil jumlah aktivitas yang didapat untuk masing-masing mahasiswa, selanjutnya dihitung rentang nilai untuk masing-masing atribut. Perhitungan rentang nilai pada iterasi ketiga sama seperti iterasi pertama dan kedua dengan membagi menjadi 4 grup yaitu tinggi yang dikodekan dengan (3), sedang dikodekan dengan (2), rendah dikodekan dengan (1) dan tidak ada informasi dikodekan dengan (0). Perhitungan rentang nilai dapat dilihat pada Persamaan 7. Tabel 21 menunjukan batas bawah dan batas atas yang diperoleh. dan Tabel 22 menunjukan rentang nilai untuk masing-masing atribut. Tabel 21 Batas bawah dan batas atas untuk masing-masing atribut V2 V3 V1 Kategori Batas Batas Batas Batas Batas bawah atas bawah atas bawah 1 1 5 1 19 8 2 6 9 20 37 103 3 10 14 38 56 199
V4 Batas Batas Batas atas bawah atas 102 8 66 198 67 126 293 127 185
Table 22 Rentang nilai untuk masing-masing kategori pada iterasi pertama Kategori Tidak ada informasi Rendah Sedang Tinggi
(0) (1) (2) (3)
V1 0 1-5 6-9 10-14
V2 0 1-19 20-37 38-56
V3 0 8-102 103-198 199-293
V4 0 8-68 69-126 127-185
Setelah menghitung rentang nilai, tahap selanjutnya yaitu memberi kategori pada masing-masing atribut. Pemberian kategori rentangnya disesuaikan dengan perhitungan rentang nilai pada Tabel 20. Setelah tahap pemberian kategori untuk masing-masing atribut masukkan nilai yang diperoleh mahasiswa pada mata kuliah data mining sebagai kelas keputusan. Pada iterasi ketiga pemberian label untuk kelas dengan nilai mutu A dan AB dirubah menjadi K1 dan kelas dengan nilai mutu B dan BC menjadi K2. Perubahan ini dilakukan karena pada iterasi pertama confusion matrix dari model terbaik menghasilkan kelas BC terklasifikasi sebagai kelas B sehingga dilakukan percobaan dengan 2 kelas. Tabel 23 memperlihatkan kategori untuk masing-masing atribut dan pemberian label kelas pada iterasi ketiga berdasarkan Tabel 20. Pemberian label kelas untuk keseluruhan data pada iterasi ketiga dapat dilihat pada Lampiran 6.
26 Tabel 23 Pemberian kategori untuk dan label kelas pada iterasi ketiga Pengguna Mahasiswa 1 Mahasiswa 2 Mahasiswa 3 Mahasiswa 4
Atribut V1 1 1 2 1
V2 2 1 2 2
V3 1 2 1 1
V4 1 1 1 1
Kelas K1 K1 K2 K2
Pembagian Data Pada iterasi ketiga pembagian data dibagi menjadi data latih dan data uji. Pembagian data dilakuan menggunakan 10 cross fold validation. Jumlah data untuk masing-masing kelas pada iterasi ketiga dapat dilihat pada Tabel 24. Tabel 24 Jumlah data untuk masing-masing kelas pada iterasi ketiga Huruf mutu K1 K2
Jumlah Mahasiswa 63 81
Setelah dilakukan pengolahan data menggunakan 10 cross fold validation dengan 90% sebagai data latih dan 10% sebagai data uji didapatkan hasil distribusi data latih dan data uji untuk masing-masing kelas. Tabel 25 menunjukan distribusi jumlah data latih dan data uji yang diperoleh pada iterasi ketiga. Tabel 25 Distribusi jumlah data latih dan data uji pada iterasi ketiga Fold 1 2 3 4 5 6 7 8 9 10
Distribusi Data Latih K1 K2 Jumlah 56 73 129 56 73 129 56 73 129 57 72 129 57 73 130 57 73 130 57 73 130 57 73 130 57 73 130 57 73 130
K1 7 7 7 6 6 6 6 6 6 6
Distribusi Data Uji K2 Jumlah 8 15 8 15 8 15 9 15 8 14 8 14 8 14 8 14 8 14 8 14
Pemodelan Klasifikasi Pohon Keputusan Pada tahap ini pembentukan pohon keputusan menggunakan algoritme C50. Algoritme ini menggunakan ukuran information gain dalam membuat pohon keputusan. Pohon keputusan yang ditampilkan merupakan pohon keputusan dengan
27 akurasi terbaik dari model yang terbentuk. Gambar 17 menampilkan pohon keputusan yang terbentuk pada iterasi ketiga.
Gambar 17 Pohon keputusan pada iterasi kedua Pohon keputusan yang dihasilkan pada iterasi ketiga dengan percobaan 2 kelas diperoleh model terbaik yaitu model ke 5 Pohon keputusan tersebut menampilkan V4 yaitu atribut course_module_view sebagai atribut yang memperoleh nilai gain tertinggi atau root. Apabila V4 ≤ 1 sebanyak 84 data terklasifikasi sebagai kelas K2, sedangkan jika V4 > 1 sebanyak 46 data terklasifikasi sebagai kelas K1 Pengujian Model Klasifikasi Pada tahap pengujian model klasifikasi, percobaan dengan iterasi ketiga dilakukan untuk memastikan hasil akurasi dari model terbaik yang diperoleh lebih besar sama dengan 70%. Dalam penelitian ini, pada iterasi ketiga dihasilkan akurasi dari model terbaik sebesar 85.71% dan sudah memenuhi syarat akurasi. Hasil akurasi pada iterasi ketiga dapat dilihat pada Gambar 18.
Hasil Akurasi Iterasi Ketiga 100.00%
85.71% 71.43% 78.57% 73.33% 60.00% 71.43% 64.29% 80.00% 68.19% 60.00% 60.00% 57.14% 60.00% 40.00% 20.00% 0.00%
Gambar 18 Hasil akurasi pada iterasi ketiga Dari percobaan yang dilakukan pada iterasi ketiga confusion matrix yang dihasilkan dari data uji dapat dilihat pada Tabel 27.
28
Tabel 26 Confusion matrix yang dihasilkan pada iterasi ketiga
K1 K2
K1 4 0
K2 2 8
Selain itu nilai precision dan recall yang diperoleh untuk masing-masing kelas dari confusion matrix yang dihasilkan pada tabel 27 dapat dilihat pada Tabel 28. Tabel 27 Nilai precision dan recall pada iterasi ketiga Kelas K1 K2
Precision 100.00% 80.00%
Recall 66.67% 100.00%
Evaluasi dan Analisis Model Klasifikasi Dari percobaan yang dilakukan pada iterasi pertama hingga ketiga diperoleh 3 model terbaik yang dihasilkan untuk masing-masing iterasi. Dari setiap model tersebut dianalisis bahwa pada setiap model pohon keputusan, atribut yang menjadi root yaitu V4 (course_module_ view). Pada iterasi pertama diketahui dari Gambar 13 , iterasi kedua dari Gambar 15 dan iterasi ketiga dari Gambar 17. Pada iterasi pertama dan kedua pengujian model klasifikasi dilakukan pada perobaan 4 kelas, sedangkan pada iterasi ketiga pengujian model klasifikasi dilakukan pada 2 kelas. Pada tahap pengujian model klasifikasi untuk iterasi pertama setiap atribut dihitung berdasarkan jumlah keseluruhan aktivitas yang dilakukan mahasiswa. Pada iterasi kedua terjadi perubahan pada atribut V3 dan V4 sedangkan untuk V1 dan V2 tetap. Jumlah aktivitas pada atribut V3 dan V4 dihitung per hari dimana semua kejadian yang terjadi dalam 1 hari dihitung sebagai 1 aktivitas. Berbeda dengan perhitungan aktivitas pada iterasi pertama dimana setiap kejadian dihitung satu aktivitas. Oleh karena itu setelah dilakukan percobaan dari iterasi pertama hingga ketiga, menghasilkan aktivitas yang paling mempengaruhi nilai pada mata kuliah data mining yaitu V4 (course_module_view) .
SIMPULAN DAN SARAN Simpulan Pada penelitian ini berhasil melakukan klasifikasi nilai akhir mahasiswa mata kuliah data mining berdasarkan aktivitas pada log LMS dengan menggunakan algoritme pohon keputusan C50. Data yang diperoleh menghasilkan klasifikasi sebanyak 3 kali iterasi. Iterasi pertama dan kedua dilakukan percobaan dengan 4 kelas dan iterasi ketiga dilakukan percobaan dengan 2 kelas menggunakan pohon
29 keputusan. Percobaan dilakukan dengan 10 cross fold validation dengan 90% sebagai data latih dan 10% sebagai data uji. Hasil percobaan memperlihatkan dari 10 kali percobaan pada iterasi pertama didapatkan rata–rata akurasi pohon keputusan sebesar 45.95%, dengan model terbaik yaitu pada model ke 5 sebesar 64.29%. Pada iterasi kedua rata-rata akurasi pohon keputusan sebesar 29.90% dengan model terbaik yaitu pada model ke 4 sebesar 40.00%. Pada iterasi ketiga didapat rata-rata akurasi pohon keputusan sebesar 68.19%, dengan model terbaik yaitu pada model ke 5 sebesar 85.71%. Selain itu, aktivitas yang paling mempengaruhi performa mahasiswa berdasarkan hasil klasifikasi yang dilakukan dari iterasi pertama sampai ketiga yaitu atribut V4 (course_module_view) karena aktivitas tersebut menghasilkan nilai information gain tertinggi dari pohon keputusan yang terbentuk.
Saran Saran untuk penelitian selanjutnya adalah dapat dilakukan dengan meningkatkan jumlah data mahasiswa agar hasil akurasi yang didapatkan lebih baik, dan menambahkan metode klasifikasi lain yang dapat digunakan sebagai pembanding. Dari model yang didapatkan, penelitian selanjutnya bisa mengembangkan sistem personalisasi e-learning untuk mengakomodasi konten pembelajaran yang sesuai.
DAFTAR PUSTAKA Ackapinar G, Altun A, Askar P. 2015. Modeling Students Academic Performance Based on Their Interactions in an Online Learning Environment. Elementary Education Online. Delgado M, Galindo G, Jimenez P, Pineiro P. 2006. Predicting students marks from Moodle logs using neural network models [jurnal]. Spanyol(SPN): Universitas Cordoba. Fatriandini S, Dayawati RN, Rismala R. 2013. Pembangunan Model Kelulusan Tepat Waktu Mahasiswa Menggunakan Neuro Fuzzy. Bandung(ID): Universitas Telkom. Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques. 3rd ed. United States of America: Morgan Kaufman Publisher. Kim, Won. 2007. Towards a Definition and Methodology for Blended Learning. Dalam Joseph Fong dan Fu Lee Wang (Eds.), Prosiding Workshop on Blended Learning. Edinburgh, 15-17 Agustus 2007. Kuh GD, Kinzie J, Buckley JA, Bridge BK, Hayek JC. 2006. What Matters to Student Success: A Review of the Literature. National Symposium on Postsecondary Student Success: Spearheading a Dialog on Student Success. Patil N, Lathi R, Chitre V. 2012. Customer Card Classification Based on C5.0 CART Algorithms. 2, pp. 164–167. Refaeilzadeh P, Tang L, Liu H. 2008. Cross-Validation. United States of America (USA): Arizona State University.
30 Romero, Cristobel, Espejo P, Jafra A, dan Raul J. 2010. Web Usage Mining for Predicting Final Marks of Students That Use Moodle Courses [jurnal]. Spanyol(SPN): Universitas Cordoba. Srivastava J, Desikan P, Kumar V. 2003. Web Mining – Concepts, Applications, and Research Direction.
31
LAMPIRAN
Lampiran 1 Aktivitas data log pada LMS No Nama Aktivitas 1 A file has been uploaded 2 A submission has been submitted 3 All the submissions are being downloaded 4 Calendar event created 5
Calendar event deleted
6
Calendar event updated
7 8
Comment created Course module created
9
Course module deleted
10
Course module updated
11 12
Course module viewed Course searched
13
Course section updated
14 15
Course updated Course user report viewed
16 17 18 19 20 21 22
Course viewed Discussion viewed Folder updated Grade deleted Grade user report viewed Grader report viewed Grading form viewed
23 24 25 26
Grading table viewed Log report viewed Notes viewed Recent activity viewed
27 28 29 30
Role assigned Role unassigned Submission created Submission form viewed
Keterangan File yang telah di unggah Tugas yang sudah dikumpulkan Semua tugas yang telah di unduh Membuat kegiatan pada kalender Menghapus kegiatan pada kalender Memperbaharui kegiatan pada kalender Membuat comment Membuat modul pada mata kuliah Menghapus modul pada mata kuliah Memperbarui modul pada mata kuliah Melihat modul mata kuliah Mencari mata kuliah yang diinginkan Memperbarui bagian mata kuliah Memperbarui mata kuliah Melihat laporan pengguna pada mata kuliah tersebut Melihat mata kuliah Melihat forum diskusi Memperbarui folder Menghapus kelas Melihat laporan pengguna kelas Melihat laporan pengguna Melihat urutan form Melihat urutan tabel Melihat laporan penggunaan log Melihat catatan yang dibuat Melihat aktivitas terakhir yang dilakukan Role assigned Role unassigned Membuat tugas Melihat halaman tugas
32 Lampiran 1 Lanjutan 31 Submission updated 32 The status of the submission has been viewed 33 User enrolled in course 34 User list viewed 35 User profile viewed 36 User unenrolled from course
Memperbarui tugas Melihat tugas yang diberikan Pengguna enrolled pada mata kuliah tersebut Melihat pengguna Melihat profil pengguna Pengguna unenrolled dari mata kuliah
33 Lampiran 2 Jumlah aktivitas pada iterasi pertama Mahasiswa Mahasiswa 1 Mahasiswa 2 Mahasiswa 3 Mahasiswa 4 Mahasiswa 5 Mahasiswa 6 Mahasiswa 7 Mahasiswa 8 Mahasiswa 9 Mahasiswa 10 Mahasiswa 11 Mahasiswa 12 Mahasiswa 13 Mahasiswa 14 Mahasiswa 15 Mahasiswa 16 Mahasiswa 17 Mahasiswa 18 Mahasiswa 19 Mahasiswa 20 Mahasiswa 21 Mahasiswa 22 Mahasiswa 23 Mahasiswa 24 Mahasiswa 25 Mahasiswa 26 Mahasiswa 27 Mahasiswa 28 Mahasiswa 29 Mahasiswa 30 Mahasiswa 31 Mahasiswa 32 Mahasiswa 33 Mahasiswa 34 Mahasiswa 35 Mahasiswa 36 Mahasiswa 37 Mahasiswa 38 Mahasiswa 39 Mahasiswa 40
V1 5 4 6 7 4 2 5 4 5 1 8 14 0 1 3 1 2 4 2 4 2 5 8 4 1 9 8 8 1 8 0 0 7 2 7 3 3 4 0 9
V2 30 14 21 24 16 10 12 14 24 6 29 46 2 10 11 9 9 9 20 16 10 35 20 18 14 27 38 56 6 21 1 1 26 7 38 20 24 12 10 50
V3 51 92 135 83 68 44 85 70 78 33 69 105 18 53 54 113 25 53 123 98 35 99 61 92 80 101 88 137 46 88 32 54 87 64 77 51 56 137 34 99
V4 60 100 185 91 72 78 92 101 69 31 87 86 37 53 54 60 26 77 76 67 48 72 94 75 74 83 101 116 60 100 54 88 122 61 91 66 80 50 57 73
Nilai A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A AB AB AB
34 Lampiran 2 Lanjutan Mahasiswa 41 Mahasiswa 42 Mahasiswa 43 Mahasiswa 44 Mahasiswa 45 Mahasiswa 46 Mahasiswa 47 Mahasiswa 48 Mahasiswa 49 Mahasiswa 50 Mahasiswa 51 Mahasiswa 52 Mahasiswa 53 Mahasiswa 54 Mahasiswa 55 Mahasiswa 56 Mahasiswa 57 Mahasiswa 58 Mahasiswa 59 Mahasiswa 60 Mahasiswa 61 Mahasiswa 62 Mahasiswa 63 Mahasiswa 64 Mahasiswa 65 Mahasiswa 66 Mahasiswa 67 Mahasiswa 68 Mahasiswa 69 Mahasiswa 70 Mahasiswa 71 Mahasiswa 72 Mahasiswa 73 Mahasiswa 74 Mahasiswa 75 Mahasiswa 76 Mahasiswa 77 Mahasiswa 78 Mahasiswa 79 Mahasiswa 80
7 4 4 6 7 4 4 0 10 2 4 7 6 1 0 0 8 5 0 7 4 5 5 7 8 6 9 1 1 3 3 4 0 0 0 6 5 0 1 7
26 10 28 14 27 10 11 1 35 10 15 26 37 4 8 5 26 21 4 20 13 26 11 26 21 33 21 3 9 10 18 34 3 2 17 45 18 8 6 31
79 24 70 69 293 36 31 25 89 95 35 33 56 46 24 104 86 54 42 70 44 41 62 33 48 100 69 22 39 61 72 44 15 39 38 66 63 22 36 67
90 31 79 60 117 69 33 29 65 69 44 43 55 55 41 98 82 57 69 78 56 49 61 55 46 104 67 43 62 63 56 57 42 85 57 65 86 33 38 63
AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB B B B B B B B B B B B B B B B B B
35 Lampiran 2 Lanjutan Mahasiswa 81 Mahasiswa 82 Mahasiswa 83 Mahasiswa 84 Mahasiswa 85 Mahasiswa 86 Mahasiswa 87 Mahasiswa 88 Mahasiswa 89 Mahasiswa 90 Mahasiswa 91 Mahasiswa 92 Mahasiswa 93 Mahasiswa 94 Mahasiswa 95 Mahasiswa 96 Mahasiswa 97 Mahasiswa 98 Mahasiswa 99 Mahasiswa 100 Mahasiswa 101 Mahasiswa 102 Mahasiswa 103 Mahasiswa 104 Mahasiswa 105 Mahasiswa 106 Mahasiswa 107 Mahasiswa 108 Mahasiswa 109 Mahasiswa 110 Mahasiswa 111 Mahasiswa 112 Mahasiswa 113 Mahasiswa 114 Mahasiswa 115 Mahasiswa 116 Mahasiswa 117 Mahasiswa 118 Mahasiswa 119 Mahasiswa 120
1 0 9 3 0 0 0 7 0 3 8 1 1 1 0 0 4 0 0 1 5 2 6 1 2 0 5 4 0 3 1 12 4 5 0 6 5 8 5 8
10 6 39 9 5 0 2 37 1 10 52 4 2 5 2 0 18 4 2 15 7 10 33 8 11 0 26 15 11 12 9 44 18 18 0 15 27 31 15 22
36 24 73 20 37 21 15 106 43 25 98 62 151 49 18 26 50 88 35 92 29 56 84 55 22 39 74 47 59 47 55 94 55 49 32 44 48 78 53 36
57 50 66 28 56 32 17 79 64 24 74 55 79 43 32 37 66 50 59 85 28 65 86 65 13 51 45 31 75 58 66 106 50 79 59 52 61 79 37 29
B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B BC BC BC BC
36 Lampiran 2 Lanjutan Mahasiswa 121 Mahasiswa 122 Mahasiswa 123 Mahasiswa 124 Mahasiswa 125 Mahasiswa 126 Mahasiswa 127 Mahasiswa 128 Mahasiswa 129 Mahasiswa 130 Mahasiswa 131 Mahasiswa 132 Mahasiswa 133 Mahasiswa 134 Mahasiswa 135 Mahasiswa 136 Mahasiswa 137 Mahasiswa 138 Mahasiswa 139 Mahasiswa 140 Mahasiswa 141 Mahasiswa 142 Mahasiswa 143 Mahasiswa 144
0 2 5 2 0 0 6 2 4 10 4 1 6 0 1 4 1 5 2 1 0 0 1 0
2 7 30 3 0 20 25 8 16 52 11 2 20 2 7 17 3 14 6 6 3 0 7 3
13 25 45 20 16 40 48 57 69 62 21 8 56 23 69 32 42 34 28 41 35 23 109 46
14 36 49 28 28 68 51 70 67 93 16 8 66 25 66 43 57 32 36 57 47 61 113 60
BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC
37 Lampiran 3 Aktivitas yang sudah dikategorikan untuk iterasi perama V1 1 1 2 2 1 1 1 1 1 1 2 3 0 1 1 1 1 1 1 1 1 1 2 1 1 2 2 2 1 2 0 0 2 1 2 1 1 1 0 2
V2 2 1 2 2 1 1 1 1 2 1 2 3 1 1 1 1 1 1 2 1 1 2 2 1 1 2 3 3 1 2 1 1 2 1 3 2 2 1 1 3
V3 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1
V4 1 2 3 2 2 2 2 2 2 1 2 2 1 1 1 1 1 2 2 2 1 2 2 2 2 2 2 2 1 2 1 2 2 1 2 1 2 1 1 2
V5 A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A AB AB AB
38 Lampiran 3 Lanjutan 2 1 1 2 2 1 1 0 3 1 1 2 2 1 0 0 2 1 0 2 1 1 1 2 2 2 2 1 1 1 1 1 0 0 0 2 1 0 1 2
2 1 2 1 2 1 1 1 2 1 1 2 2 1 1 1 2 2 1 2 1 2 1 2 2 2 2 1 1 1 1 2 1 1 1 3 1 1 1 2
1 1 1 1 3 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 1 2 1 2 2 1 1 1 2 1 1 1 1 1 2 2 1 2 2 1 1 1 1 1 2 2 1 1 1 1 1 1 2 1 1 2 1 1 1
AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB B B B B B B B B B B B B B B B B B
39 Lampiran 3 Lanjutan 1 0 2 1 0 0 0 2 0 1 2 1 1 1 0 0 1 0 0 1 1 1 2 1 1 0 1 1 0 1 1 3 1 1 0 2 1 2 1 2
1 1 3 1 1 0 1 2 1 1 3 1 1 1 1 0 1 1 1 1 1 1 2 1 1 0 2 1 1 1 1 3 1 1 0 1 2 2 1 2
1 1 1 1 1 1 1 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 2 1 1 2 1 2 1 1 1 1 1 1 2 1 1 2 1 1 1 1 1 2 1 1 2 1 2 1 1 1 2 1 1
B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B BC BC BC BC
40 Lampiran 3 Lanjutan 0 1 1 1 0 0 2 1 1 3 1 1 2 0 1 1 1 1 1 1 0 0 1 0
1 1 2 1 0 2 2 1 1 3 1 1 2 1 1 1 1 1 1 1 1 0 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1
1 1 1 1 1 2 1 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 2 1
BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC
41 Lampiran 4 Jumlah aktivitas pada iterasi kedua Mahasiswa Mahasiswa 1 Mahasiswa 2 Mahasiswa 3 Mahasiswa 4 Mahasiswa 5 Mahasiswa 6 Mahasiswa 7 Mahasiswa 8 Mahasiswa 9 Mahasiswa 10 Mahasiswa 11 Mahasiswa 12 Mahasiswa 13 Mahasiswa 14 Mahasiswa 15 Mahasiswa 16 Mahasiswa 17 Mahasiswa 18 Mahasiswa 19 Mahasiswa 20 Mahasiswa 21 Mahasiswa 22 Mahasiswa 23 Mahasiswa 24 Mahasiswa 25 Mahasiswa 26 Mahasiswa 27 Mahasiswa 28 Mahasiswa 29 Mahasiswa 30 Mahasiswa 31 Mahasiswa 32 Mahasiswa 33 Mahasiswa 34 Mahasiswa 35 Mahasiswa 36 Mahasiswa 37 Mahasiswa 38 Mahasiswa 39 Mahasiswa 40
V1 5 4 6 7 4 2 5 4 5 1 8 14 0 1 3 1 2 4 2 4 2 5 8 4 1 9 8 8 1 8 0 0 7 2 7 3 3 4 0 9
V2 30 14 21 24 16 10 12 14 24 6 29 46 2 10 11 9 9 9 20 16 10 35 20 18 14 27 38 56 6 21 1 1 26 7 38 20 24 12 10 50
V3 18 14 23 17 17 14 17 18 15 12 16 21 9 15 12 17 10 14 15 17 15 17 16 21 18 22 16 34 14 18 15 18 17 16 20 1 18 13 15 21
V4 13 15 22 17 13 11 17 16 13 11 11 17 9 14 12 17 10 12 13 16 12 14 15 17 17 17 15 21 14 18 15 17 17 14 18 14 16 11 14 16
Nilai A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A AB AB AB
42 Lampiran 4 Lanjutan Mahasiswa 41 Mahasiswa 42 Mahasiswa 43 Mahasiswa 44 Mahasiswa 45 Mahasiswa 46 Mahasiswa 47 Mahasiswa 48 Mahasiswa 49 Mahasiswa 50 Mahasiswa 51 Mahasiswa 52 Mahasiswa 53 Mahasiswa 54 Mahasiswa 55 Mahasiswa 56 Mahasiswa 57 Mahasiswa 58 Mahasiswa 59 Mahasiswa 60 Mahasiswa 61 Mahasiswa 62 Mahasiswa 63 Mahasiswa 64 Mahasiswa 65 Mahasiswa 66 Mahasiswa 67 Mahasiswa 68 Mahasiswa 69 Mahasiswa 70 Mahasiswa 71 Mahasiswa 72 Mahasiswa 73 Mahasiswa 74 Mahasiswa 75 Mahasiswa 76 Mahasiswa 77 Mahasiswa 78 Mahasiswa 79 Mahasiswa 80
7 4 4 6 7 4 4 0 10 2 4 7 6 1 0 0 8 5 0 7 4 5 5 7 8 6 9 1 1 3 3 4 0 0 0 6 5 0 1 7
26 10 28 14 27 10 11 1 35 10 15 26 37 4 8 5 26 21 4 20 13 26 11 26 21 33 21 3 9 10 18 34 3 2 17 45 18 8 6 31
27 12 18 19 28 14 12 9 18 17 14 13 12 15 10 21 18 16 14 16 14 15 15 7 16 18 14 9 12 18 13 13 8 15 13 16 12 9 12 16
25 12 16 15 22 14 9 9 17 16 13 13 12 15 9 18 16 11 12 13 12 12 15 13 14 15 13 9 13 12 12 10 8 14 11 12 11 8 9 14
AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB B B B B B B B B B B B B B B B B B
43 Lampiran 4 Lanjutan Mahasiswa 81 Mahasiswa 82 Mahasiswa 83 Mahasiswa 84 Mahasiswa 85 Mahasiswa 86 Mahasiswa 87 Mahasiswa 88 Mahasiswa 89 Mahasiswa 90 Mahasiswa 91 Mahasiswa 92 Mahasiswa 93 Mahasiswa 94 Mahasiswa 95 Mahasiswa 96 Mahasiswa 97 Mahasiswa 98 Mahasiswa 99 Mahasiswa 100 Mahasiswa 101 Mahasiswa 102 Mahasiswa 103 Mahasiswa 104 Mahasiswa 105 Mahasiswa 106 Mahasiswa 107 Mahasiswa 108 Mahasiswa 109 Mahasiswa 110 Mahasiswa 111 Mahasiswa 112 Mahasiswa 113 Mahasiswa 114 Mahasiswa 115 Mahasiswa 116 Mahasiswa 117 Mahasiswa 118 Mahasiswa 119 Mahasiswa 120
1 0 9 3 0 0 0 7 0 3 8 1 1 1 0 0 4 0 0 1 5 2 6 1 2 0 5 4 0 3 1 12 4 5 0 6 5 8 5 8
10 6 39 9 5 0 2 37 1 10 52 4 2 5 2 0 18 4 2 15 7 10 33 8 11 0 26 15 11 12 9 44 18 18 0 15 27 31 15 22
10 12 16 10 10 13 7 31 13 9 19 16 12 12 11 11 13 16 13 21 9 17 21 12 9 11 17 13 16 15 15 22 13 18 12 14 14 13 13 13
9 9 12 8 10 10 7 19 13 15 13 16 12 12 9 11 12 14 11 16 10 15 20 13 8 9 14 12 14 15 13 21 12 16 12 13 11 12 10 9
B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B BC BC BC BC
44 Lampiran 4 Lanjutan Mahasiswa 121 Mahasiswa 122 Mahasiswa 123 Mahasiswa 124 Mahasiswa 125 Mahasiswa 126 Mahasiswa 127 Mahasiswa 128 Mahasiswa 129 Mahasiswa 130 Mahasiswa 131 Mahasiswa 132 Mahasiswa 133 Mahasiswa 134 Mahasiswa 135 Mahasiswa 136 Mahasiswa 137 Mahasiswa 138 Mahasiswa 139 Mahasiswa 140 Mahasiswa 141 Mahasiswa 142 Mahasiswa 143 Mahasiswa 144
0 2 5 2 0 0 6 2 4 10 4 1 6 0 1 4 1 5 2 1 0 0 1 0
2 7 30 3 0 20 25 8 16 52 11 2 20 2 7 17 3 14 6 6 3 0 7 3
7 9 12 8 10 19 14 12 18 12 6 6 14 8 12 13 9 14 9 17 11 12 18 15
4 9 11 6 8 17 10 9 14 11 5 4 11 7 9 12 9 9 8 16 11 12 15 14
BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC
45 Lampiran 5 Aktivitas yang sudah dikategorikan untuk iterasi kedua V1 1 1 2 2 1 1 1 1 1 1 2 3 0 1 1 1 1 1 1 1 1 1 2 1 1 2 2 2 1 2 0 0 2 1 2 1 1 1 0 2
V2 2 1 2 2 1 1 1 1 2 1 2 3 1 1 1 1 1 1 2 1 1 2 2 1 1 2 3 3 1 2 1 1 2 1 3 2 2 1 1 3
V3 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 1 2 2 2 2
V4 2 2 3 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2
V5 A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A AB AB AB
46 Lampiran 5 Lanjutan 2 1 1 2 2 1 1 0 3 1 1 2 2 1 0 0 2 1 0 2 1 1 1 2 2 2 2 1 1 1 1 1 0 0 0 2 1 0 1 2
2 1 2 1 2 1 1 1 2 1 1 2 2 1 1 1 2 2 1 2 1 2 1 2 2 2 2 1 1 1 1 2 1 1 1 3 1 1 1 2
3 2 2 2 3 2 2 1 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2 2 1 2 2 2 2 1 2 2
3 2 2 2 3 2 1 1 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 1 1 2 2 2 2 1 1 2
AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB AB B B B B B B B B B B B B B B B B B
47 Lampiran 5 Lanjutan 1 0 2 1 0 0 0 2 0 1 2 1 1 1 0 0 1 0 0 1 1 1 2 1 1 0 1 1 0 1 1 3 1 1 0 2 1 2 1 2
1 1 3 1 1 0 1 2 1 1 3 1 1 1 1 0 1 1 1 1 1 1 2 1 1 0 2 1 1 1 1 3 1 1 0 1 2 2 1 2
1 2 2 1 1 2 1 3 2 1 2 2 2 2 1 1 2 2 2 2 1 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
1 1 2 1 1 1 1 3 2 2 2 2 2 2 1 2 2 2 2 2 1 2 3 2 1 1 2 2 2 2 2 3 2 2 2 2 2 2 1 1
B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B BC BC BC BC
48 Lampiran 5 Lanjutan 0 1 1 1 0 0 2 1 1 3 1 1 2 0 1 1 1 1 1 1 0 0 1 0
1 1 2 1 0 2 2 1 1 3 1 1 2 1 1 1 1 1 1 1 1 0 1 1
1 1 2 1 1 2 2 2 2 2 1 1 2 1 2 2 1 2 1 2 1 2 2 2
1 1 2 1 1 2 1 1 2 2 1 1 2 1 1 2 1 1 1 2 2 2 2 2
BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC BC
49 Lampiran 6 Data yang digunakan untuk iterasi ketiga V1 1 1 2 2 1 1 1 1 1 1 2 3 0 1 1 1 1 1 1 1 1 1 2 1 1 2 2 2 1 2 0 0 2 1 2 1 1 1 0 2
V2 2 1 2 2 1 1 1 1 2 1 2 3 1 1 1 1 1 1 2 1 1 2 2 1 1 2 3 3 1 2 1 1 2 1 3 2 2 1 1 3
V3 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 1 2 2 2 2
V4 2 2 3 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2
V5 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1
50 Lampiran 6 Lanjutan 2 1 1 2 2 1 1 0 3 1 1 2 2 1 0 0 2 1 0 2 1 1 1 2 2 2 2 1 1 1 1 1 0 0 0 2 1 0 1 2
2 1 2 1 2 1 1 1 2 1 1 2 2 1 1 1 2 2 1 2 1 2 1 2 2 2 2 1 1 1 1 2 1 1 1 3 1 1 1 2
3 2 2 2 3 2 2 1 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2 2 1 2 2 2 2 1 2 2
3 2 2 2 3 2 1 1 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 1 1 2 2 2 2 1 1 2
K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K1 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2
51 Lampiran 6 Lanjutan 1 0 2 1 0 0 0 2 0 1 2 1 1 1 0 0 1 0 0 1 1 1 2 1 1 0 1 1 0 1 1 3 1 1 0 2 1 2 1 2 0
1 1 3 1 1 0 1 2 1 1 3 1 1 1 1 0 1 1 1 1 1 1 2 1 1 0 2 1 1 1 1 3 1 1 0 1 2 2 1 2 1
1 2 2 1 1 2 1 3 2 1 2 2 2 2 1 1 2 2 2 2 1 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1
1 1 2 1 1 1 1 3 2 2 2 2 2 2 1 2 2 2 2 2 1 2 3 2 1 1 2 2 2 2 2 3 2 2 2 2 2 2 1 1 1
K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2
52 Lampiran 6 Lanjutan 1 1 1 0 0 2 1 1 3 1 1 2 0 1 1 1 1 1 1 0 0 1 0
1 2 1 0 2 2 1 1 3 1 1 2 1 1 1 1 1 1 1 1 0 1 1
1 2 1 1 2 2 2 2 2 1 1 2 1 2 2 1 2 1 2 1 2 2 2
1 2 1 1 2 1 1 2 2 1 1 2 1 1 2 1 1 1 2 2 2 2 2
K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2 K2
53 Lampiran 7 Kode program cross vold validation Fungsi kfold menggunakan 10 fold #get the data from somewhere and specify number of folds data <- read.csv('data_olah.csv') nrFolds <- 10 # generate array containing fold-number for each sample (row) model_all <- list() p_all <- list() akurasi_all <- 0 conf_mat_all <- list() trainX_all <- list() trainY_all <- list() testX_all <- list() testY_all <- list() # actual cross validation for(k in 1:nrFolds) { # actual split of the data fold <- which(folds == k) data.train <- data[-fold,] data.test <- data[fold,] trainX <- data.train[,1:4] testX <- data.test[,1:4] trainY <-data.train[,5] testY <- data.test[,5] model <- C5.0( trainX, trainY ) p <- predict( model, testX, type="class" ) akurasi<- sum( p == testY ) / length( p ) model_all[[k]] <- model p_all[[k]] <- p akurasi_all[k] <- akurasi conf_mat_all[[k]] <- table(testY, p ) trainX_all[[k]] <- trainX trainY_all[[k]] <- trainY testX_all[[k]] <- testX testY_all[[k]] <- testY #plot(model_all[[k]]) # train and test your model with data.train and data.test } #untuk melihat jumlah data test untuk setiap fold gunakan ini for(k in 1:nrFolds){ print(paste0("fold",k)) print(table(testY_all[[k]])) } #untuk melihat jumlah data train untuk setiap fold gunakan ini for(k in 1:nrFolds){ print(paste0("fold",k)) print(table(trainY_all[[k]])) }
54 Lampiran 8 Pohon keputusan yang dihasilkan pada iterasi pertama Pohon keputusan untuk fold 1
Pohon keputusan untuk fold 2
Pohon keputusan untuk fold 3
55 Lampiran 8 Lanjutan Pohon keputusan untuk fold 4
Pohon keputusan untuk fold 5
Pohon keputusan untuk fold 6
56 Lampiran 8 Lanjutan Pohon keputusan untuk fold 7
Pohon keputusan untuk fold 8
57 Lampiran 8 Lanjutan Pohon keputusan untuk fold 9
Pohon keputusan untuk fold 10
58 Lampiran 9 Pohon keputusan yang dihasilkan pada iterasi kedua Pohon keputusan untuk fold 1
Pohon keputusan untuk fold 2
Pohon keputusan untuk fold 3
59 Lampiran 9 Lanjutan Pohon keputusan untuk fold 4
Pohon keputusan untuk fold 5
Pohon keputusan untuk fold 6
60 Lampiran 9 Lanjutan Pohon keputusan untuk fold 7
Pohon keputusan untuk fold 8
61 Lampiran 9 Lanjutan Pohon keputusan untuk fold 9
Pohon keputusan untuk fold 10
62 Lampiran 10 Pohon keputusan yang dihasilkan pada iterasi ketiga Pohon keputusan untuk fold 1
Pohon keputusan untuk fold 2
Pohon keputusan untuk fold 3
63 Lampiran 10 Lanjutan Pohon keputusan untuk fold 4
Pohon keputusan untuk fold 5
Pohon keputusan untuk fold 6
64
Lampiran 10 Lanjutan Pohon keputusan untuk fold 7
Pohon keputusan untuk fold 8
65
Lampiran 10 Lanjutan Pohon keputusan untuk fold 9
Pohon keputusan untuk fold 10
66
67
RIWAYAT HIDUP Penulis dilahirkan di Kota Cirebon Jawa Barat pada tanggal 14 Agustus 1993. Penulis adalah anak pertama dari tiga bersaudara, anak dari pasangan Bapak Khaerun dan Ibu Santi. Penulis menempuh pendidikan Sekolah Menengah Atas di SMA Negeri 2 Kota Cirebon pada tahun 2008 hingga 2011. Kemudian penulis melanjutkan pendidikan Program Diploma 3 (D3) di Universitas Gadjah Mada Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Sistem Informasi pada tahun 2011 hingga 2014. Kemudian penulis melanjutkan pendidikan Program Sarjana Alih Jenis (S1) di Institut Pertanian Bogor Fakultas Matematika dan Ilmu Pengetahuan Alam Departemen Ilmu Komputer.