IMPLEMENTASI DATA MINING ALGORITMA C4.5 UNTUK MEMPREDIKSI PERILAKU MAHASISWA DIPLOMA 3 MELANJUTKAN STRATA 1 DI STMIK AMIKOM YOGYAKARTA
NASKAH PUBLIKASI
diajukan oleh Jumanto 10.11.4388
kepada SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA YOGYAKARTA 2014
IMPLEMENTASI DATA MINING ALGORITMA C4.5 UNTUK MEMPREDIKSI PERILAKU MAHASISWA DIPLOMA 3 MELANJUTKAN STRATA 1 DI STMIK AMIKOM YOGYAKARTA Jumanto1), Emha Taufiq Luthfi2), 1) 2)
Teknik Informatika STMIK AMIKOM Yogyakarta
Teknik Informatika STMIK AMIKOM Yogyakarta
Jl Ringroad Utara, Condongcatur, Depok, Sleman, Yogyakarta Indonesia 55283 Email :
[email protected]),
[email protected])
saja seakan-akan menjadi “kuburan data” (data tombs). Pertanyaannya sekarang apakah data tersebut dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat me’nambang’-nya untuk mencari “emas” atau “berlian” yaitu informasi yang berguna untuk organisasi [4]. Sebagai salah satu institusi perguruan tinggi di Indonesia, STMIK AMIKOM Yogyakarta tentu memiliki data (data mahasiswa, data nilai mahasiswa, data presensi, dan lain-lain) yang berjumlah besar dan luas yang telah terkumpul sejak perguruan tinggi ini beroperasi sejak tahun 1994 hingga sekarang yang diolah secara terkomputerisasi. Dapat dibayangkan jumlah data terkumpul sekian tahun lamanya yang tentunya sangat besar. Mahasiswa merupakan pelanggan utama dari perguruan tinggi [3]. Untuk itu sudah seharusnya pelayanan perguruan tinggi berorientasi pada mahasiswa. Dalam hal ini STMIK AMIKOM Yogyakarta perlu memprediksi mahasiswa program D3 melanjutkan ke jenjang S1. Sehingga pihak manajemen perguruan tinggi dapat melakukan tindakan-tindakan dalam bentuk pelayanan untuk mempertahankan mahasiswa tersebut.
Abstract - As an educational institution, STMIK AMIKOM Yogyakarta has many students. Ranging from diploma 3, graduate program, and post graduate program. The amount of students is growing more years so the need for good management in the management of the college. One of thing to note is Diploma 3 program students need to predict early on which has the potential to continue to graduate program, so that the college management to take measures necessary to maintain the students. Prediction models are built to predict the diploma 3 program students continue to graduate program with algorithm C4.5. This algorithm is an algorithm used to construct a decision tree in which the decision tree method change the fact that very large into the present decision tree rules. Diploma 3 students predicted results continue to graduate program using the algorithm C4.5 in the form of data in tabular form. The predicted results are expected to provide an overview to the management college how many are diploma 3 students continuing to graduate program.
Berdasarkan latar belakang di atas, dirumuskan permaslahan yakni : Bagaimana implementasi algoritma C4.5 pada aplikasi prediksi mahasiswa D3 melanjutkan S1 ?
Keywords - data mining, algorithm C4.5, decision tree, prediction 1. Pendahuluan
Adapun tujuan penelitian ini adalah sebagai berikut : 1. Mempelajari algortima C4.5 untuk mengklafikasi mahasiswa D3 mealanjutkan ke S1. 2. Merancang aplikasi prediksi mahasiswa D3 melanjutkan S1 menggunakan algoritma C4.5.
Dewasa ini banyak organisasi atau institusiinstitusi pendidikan tinggi telah mengumpulkan data sekian tahun lamanya. Data tersebut berupa data penerimaan mahasiswa baru, data kartu rencana studi (KRS), data nilai mahasiswa (KHS), data presensi mahasiswa, dan lain-lain. Data-data tersebut disimpan pada aplikasi berbasis komputer untuk menangani transaksi yang dilakukan setiap harinya. Pertumbuhan yang pesat dari akumulasi data telah menciptakan kondisi yang disebut sebagai “rich of data but poor of information” karena data yang terkumpul tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data tersebut dibiarkan begitu
Landasan Teori A. Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunkan teknik statistika, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar [2]. Data mining didefinisikan sebagai
1
suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam peyimpanan dengan menggunakan teknik statistika dan matematika [3]. Data mining sering disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data yang berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa yang akan datang [5].
sini dalam bentuk tabel yang memiliki atribut dan record. Atribut menyatakan parameter yang dibuat sebagai kriteria dalam pembuatan pohon (tree). Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, kelembaban dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut target atribut. Record atau instance merupakan nilai-nilai yang dimiliki oleh atribut.
B. Pengelompokan data mining Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu [2] : 1. Deskripsi Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenserungan. 2. Estimasi Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat bersarkan variabek prediksi. 3. Prediksi Hampir sama dengan klasifikasi dan estimasi, kecuali dalam prediksi nilai dari hasil akan ada di masa mendatang. 4. Klasifikasi Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat diagi dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. 5. Pengklusteran Pengklusteran merupakan pengelompokan record, pengamatanm, atau memperhatikan dan membentuk objek-objek yang memiliki kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memilki ketidakmiripan dengan record-record dalam kluster lain 6. Asosiasi Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
Gambar 1 Konsep Pohon Keputusan (Basuki dan Syarif) D. Algoritma C4.5 Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut [2]: a. b. c. d.
Pilih atribut sebagai akar Buat cabang untuk tiap-tiap nilai Bagi kasus dalam cabang Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memilki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera pada persamaan (1) berikut.
… (1) Keterangan : S : himpunan kasus A : atribut n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S Sementara itu, penghitungan nilai entropy dapat dilihat dari persamaan (2) berikut.
….(2) Keterangan : S : himpunan kasus A : fitur N : jumlah partisi S pi : proporsi dari Si terhadap S
C. Decision Tree (Pohon Keputusan) Menurut Basuki dan Syarif [1], konsep dari pohon keputusan adalah mengubah data menjadi pohon kemudian diinterpretasi ke dalam aturan-aturan. Data di 2
2. Pembahasan 2.1 Analisis Sistem 2.1.1 Analisis Kebutuhan A. Kebutuhan Fungsional Merupakan jenis kebutuhan yang berisi prosesproses apa saja yang nantinya akan dilakukan oleh sistem. Kebutuhan fungsional juga berisi informasiinformasi apa saja yang harus ada dan dihasilkan oleh sistem. 1. User dapat melakukan input data mahasiswa sebagai paramater prediksi perilaku mahasiswa D3 melanjutkan S1 yang berupa IPK D3, Jenis Kelamin, Umur, Pekerjaan Orang Tua, dan Profesi yang Diinginkan. 2. User dapat melakukan ubah data mahasiswa sebagai parameter prediksi perilaku mahasiswa D3 melanjutkan S1 yang berupa IPK D3, Jenis Kelamin, Umur, Pekerjaan Orang Tua, dan Profesi yang Diinginkan. 3. User dapat melakukan hapus data mahasiswa sebagai parameter prediksi perilaku mahasiswa D3 melanjutkan S1 yang berupa IPK D3, Jenis Kelamin, Umur, Pekerjaan Orang Tua, dan Profesi yang Diinginkan. 4. User dapat menampilkan data hasil prediksi perilaku mahasiswa D3 melanjutkan S1 setelah dilakukan proses data 5. Sistem dapat menampilkan pohon keputusan yang terbentuk.
nilai yang akan dipergunakan untuk kalkulasi dan nilai
B. Kebutuhan Non Fungsional Kebutuhan non fungsional digunakan untuk mengetahui kebutuhan minimal sistem yang dibuat. 1. Kebutuhan perangkat keras (hardware) yang digunakan untuk membangun aplikasi ini sebagai berikut : a. Intel Core i3-2310M CPU 2.10 GHz b. RAM 2 GB c. Hard disk 500 GB d. Graphic card Intel(R) HD graphics family e. Monitor LCD 14 inch f. Keyboard dan mouse 2. Kebutuhan perangkat lunak (software) yang dibutuhkan untuk membangun aplikasi ini sebagai berikut : a. Sistem Operasi : Windows7 Ultimate 32 Bit b. Pengolah database : MySQL c. Tool editor : Netbeans IDE 8.0
dikategorikan IPK tinggi.
dari setiap atribut harus bersifat pasti atau data diskret. Ketentuan lain yang harus dipenuhi agar masukan dapat diproses dengan lancar adalah peletakan kolom target harus berada pada posisi terakhir dari kolom tabel masukan. Sistem akan membaca masukan dengan atribut target berada pada kolom terakhir dari tabel, maka dari itu selain kolom terakhir sistem akan mengenalinya sebagai
atribut
komponen
masukan
variabel
dari
yang
sistem. menjadi
Beberapa parameter
pembentukan klasifikasi adalah sebagai berikut : 1. IPK D3 Variabel IPK D3 berisi data Indeks Prestasi Komulatif ketika mahasiswa tersebut lulus dari program D3 untuk diisi pada proses input program. Nilai yang sudah ditentukan pada program ini antara lain IPK 2,30 sampai dengan 2,99 yang selanjutnya dikategorikan sebagai IPK rendah, IPK antara 3,00 sampai dengan 3,50 yang selanjutnya dikategorikan sebagai IPK sedang, IPK antara 3,51 sampai dengan 4,00 yang selanjutnya
2. Umur Variabel umur berisi data umur ketika mahasiswa tersebut lulus dari program D3 untuk diisi pada proses input program. Nilai yang sudah ditentukan pada program ini antara lain umur antara 19 tahun sampai dengan umur 22 tahun yang selanjutnya dikategorikan umur muda, umur antara 23 tahun sampai dengan 25 tahun yang selanjutnya dikategorikan umur tua. 3. Jenis Kelamin Variabel jenis kelamin berisi data jenis kelamin mahasiswa tersebut untuk diisi pada proses input program. Nilai yang sudah ditentukan pada program ini
2.1.2 Analisis Data Data dari sistem adalah berupa atribut yang
adalah laki-laki dan perempuan. 4. Profesi yang Diinginkan
dimiliki oleh mahasiswa D3, nilai atribut dan nilai
Variabel profesi yang diinginkan
kemungkinannya. Data yang dimaksud adalah data yang
berisi
data
profesi yang diinginkan mahasiswa ketika lulus program
mempunyai minimal dua kolom atribut. Satu kolom
D3 untuk diisi pada proses input program. Nilai yang
sebagai kolom atribut masukan dan satu kolom menjadi
sudah ditentukan pada program ini antara lain profesi
kolom atribut target. Dari setiap kolom terdapat nilai-
dosen, PNS, wirausaha, dan pekerja swasta. 3
5) IF IPK = Sedang AND Job = Praktisi AND Jenis = Laki-laki AND Umur = Tua THEN Decision = Tidak Lanjut 6) IF IPK = Sedang AND Job = Dosen AND Jenis = Perempuan AND Umur = Muda THEN Decision = Lanjut 7) IF IPK = Sedang AND Job = Dosen AND Jenis = Perempuan AND Umur = Tua THEN Decision = Tidak Lanjut 8) IF IPK = Sedang AND Job = Dosen AND Jenis = Laki-laki AND Umur = Muda THEN Decision = Lanjut 9) IF IPK = Sedang AND Job = Dosen AND Jenis = Laki-laki AND Umur = Tua THEN Decision = Tidak Lanjut 10) IF IPK = Sedang AND Job = Pengusaha THEN Decision = Tidak Lanjut 11) IF IPK = Tinggi AND Jenis = Perempuan AND Job = Praktisi THEN Decision = Lanjut 12) IF IPK = Tinggi AND Jenis = Perempuan AND Job = Dosen THEN Decision = Tidak Lanjut 13) IF IPK = Tinggi AND Jenis = Perempuan AND Job = Pengusaha THEN Decision = Tidak Lanjut 14) IF IPK = Tinggi AND Jenis = Laki-laki AND Job = Praktisi AND Umur = Muda THEN Decision = Lanjut 15) IF IPK = Tinggi AND Jenis = Laki-laki AND Job = Praktisi AND Umur = Tua THEN Decision = Tidak Lanjut 16) IF IPK = Tinggi AND Jenis = Laki-laki AND Job = Dosen THEN Decision = Lanjut 17) IF IPK = Tinggi AND Jenis = Laki-laki AND Job = Pengusaha AND Umur = Muda THEN Decision = Lanjut 18) IF IPK = Tinggi AND Jenis = Laki-laki AND Job = Pengusaha AND Umur = Tua THEN Decision = Tidak Lanjut
2.1.3 Analisis Model 2.1.3.1 Cara Perhitungan Berikut adalah penjelasan mengenai langkahlangkah pembentukan pohon keputusan menggunakan algoritma C4.5 untuk menyelesaikan dalam kasus yang diangkat. Salah satu proses kalkulasi dari entropy adalah proses kalkulasi nilai entropy total yaitu dengan sampel 164 record sebagai data training. Sumber data yang digunakan sebagai data training untuk membentuk pohon keputusan diambil dari data akademik jurusan teknik informatika. Data tersebut diambil pada bulan januari 2013 yang selanjutnya diolah oleh penulis menjadi data yang siap digunakan untuk membentuk pohon keputusan. Tabel 3.1 Tabel Informasi Data Training Profesi IPK
JK
D3
Umu
Yang
Keputusa
r
Diinginka
n
n Renda h = 34
Sedang = 90
Lakilaki
Mud =
100
159
Peremp uan 64
a
=
=
Praktisi =
Lanjut =
121
43
Tua
Dosen
/
=5
Guru = 14
Tinggi
Pengusaha
= 39
= 29
Tidak Lanjut =121
2.2 Perancangan Sistem 2.2.1 Perancangan Use Case Diagram Use case diagram digunakan untuk mengetahui fungsi apa saja yang ada dalam sebuah sistem informasi dan siapa saja yang berhak menggunakan fungsi-fungsi itu.
2.1.3.2 Aturan-aturan (Rules) Menurut Basuki dan Syarif (2003), konsep dari pohon keputusan adalah mengubah data menjadi pohon kemudian diinterpretasi ke dalam aturan-aturan. Sesuai gambar pohon keputusan pada gambar 3.1 dapat dibentuk aturan sebagai berikut : 1) IF IPK = Rendah THEN Decision = Tidak Lanjut 2) IF IPK = Sedang AND Job = Praktisi AND Jenis = Perempuan AND Umur = Muda THEN Decision = Lanjut 3) IF IPK = Sedang AND Job = Praktisi AND Jenis = Perempuan AND Umur = Tua THEN Decision = Tidak Lanjut 4) IF IPK = Sedang AND Job = Praktisi AND Jenis = Laki-laki AND Umur = Muda THEN Decision = Lanjut
Gambar 2 Use Case Diagram 4
Dari gambar diatas terlihat bahwa ada satu actor yaitu user.User di atas hanya ada satu yaitu yang berfungsi sebagai admin. User tersebut dapat melakukan aktifitas prediksi keputusan, simpan hasil prediksi, lihat hasil prediksi, ubah hasl prediksi, hapus hasil prediksi, lihat pohon keputusan. 2.2.2 Perancangan Alur Program (Flowchart) Perancangan alur program ini bertujuan untuk memberi gambaran bagaimana aliran proses dari aplikasi prediksi mahasiswa D3 lanjut S1 ini berjalan. Mulai dari awal ketika sudah dalam form menu prediksi hingga menampilkan hasil prediksi perilaku mahasiswa D3 melanjut S1. Gambar 4 Tampilan Halaman Utama 2. Halaman Form Prediksi Keputusan Halaman form prediksi digunakan untuk memproses data mahasiswa D3 untuk diprediksi apakah mahasiswa tersebut melanjutkan ke jenjang S1 sesuai dengan kriteria yang telah ditentukan yakni berupa jenis kelamin, umur, ipk, dan job yang diinginkan. Hasil dari proses data tersebut ada 2 keputusan yakni Lanjut atau Lidak Lanjut. Berikut adalah tampilan halaman form prediksi.
Gambar 3 Alur Program (Flowhart) Sistem 2.3 Implementasi dan Pembahasan 2.3.1 Implementasi Sistem Implementasi sistem (implementation system) merupakan tahap peletakan sistem yang baru dibuat dan dikembangkan agar nantinya sistem tersebut siap dioperasikan sesuai dengan yang diharapkan. Tujuan dari tahap implementasi sistem ini mengetahui hasil dari pembuatan aplikasi, apakah telah sesuai dengan yang telah dirancang sebelumnya atau tidak.
Gambar 5 Halaman Form Prediksi
2.3.2 Implementasi Interface 1. Halaman Utama Halaman utama bersisi menu-menu yang ada pada aplikasi prediksi mahasiswa D3 melanjutkan ke S1. Halaman ini yang akan muncul pertama kali ketika user berhasil login dengan menginputkan username dan password secara benar. Pada halaman utama ini terdapat beberapa pilihan menu, yaitu Prediksi C4.5, Data Hasil Prediksi, Pohon Keputusan, Bantuan, Tentang, dan tombol Keluar.
3. Halaman Data Hasil Prediksi Data prediksi merupakan halaman yang akan tampil ketika user menekan tombol data prediksi. Pada halaman data hasil prediksi ini akan menampilkan data hasil proses prediksi yang dilakukan user. Pada halaman ini juga terdapat form untuk kebutuhan manipulasi data pada tabel, seperti tambah data, ubah data, dan hapus data.
5
Daftar Pustaka [1] Basuki, A dan Syarif, I., 2003. Decision Tree. http://lecturer.eepisits.edu/~basuki/lecture/DecisionTree.pdf. Diakses Tanggal 12 Januari 2014 [2] Kusrini dan Luthfi, E.T.2009. Algoritma Data Mining. Yogyakarta: Andi Offset [3] Madihah, Azka.2012. Analisis Kepuasan Mahasiswa Terhadap Kulaitas Pelayanan Pendidikan (Studi Kasus Program Studi Pasca Sarjana Kajian Administrasi Rumah Sakit Fakultas Kesehatan Masyrakat Universitas Indonesia). http://repository.ipb.ac.id/handle/123456789/60823. Diakses Tanggal 3 Desember 2013 [4] Pramudiono, Iko. 2003.Pengantar Data Mining : Menambang Permata Pengetahuan di Gunung Data. http://ikc.dinus.ac.id/umum/iko-datamining.php. Diakases Tanggal 3 Desember 2013 [5] Santoso, Budi.2007. Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis, Yogyakarta : Graha Ilmu
Gambar 6 Halaman Data Hasil Prediksi 3. Penutup 3.1 Kesimpulan Berdasarkan pembahasan yang telah diuraikan pada bab-bab sebelumnya maka dapat ditarik kesimpulan sebagai berikut : 1. Telah dibangun aplikasi prediksi perilaku mahasiswa D3 melanjutkan S1 di STMIK AMIKOM Yogyakarta menggunakan agoritma C4.5 dengan menerapkan representasi pohon keputusan pada aplikasi. 2. Aplikasi prediksi mahasiswa D3 melanjutkan S1 di STMIK AMIKOM Yogyakarta telah berjalan sesuai dengan analisis dan perancangan yang telah dibuat sebelumnya. Hal ini dapat dilihat dari sistem sudah bisa melakukan prediksi sesuai dengan kriteria, lihat data, menyimpan data, hapus data, ubah data, lihat gambaran pohon keputusan, dan lihat informasi tentang pembuat aplikasi
Biodata Penulis Jumanto, memperoleh gelar Sarjana Komputer (S.Kom), Jurusan Teknik Informatika STMIK AMIKOM Yogyakarta, lulus tahun 2014. Saat ini sedang mempersiapkan studi lanjut di Sekolah Pascasarjana program Magister of Computer Science (M.Cs) FMIPA Universitas Gadjah Mada. Emha Taufiq Luthfi, memperoleh gelar Sarjana Teknik (S.T.), Jurusan Teknik Elektro Fakultas Teknik Universitas Gadjah Mada Yogyakarta, lulus tahun 2003. Memperoleh gelar Master Ilmu Komputer (M.Kom) Sekolah Pascasarjana program studi Ilmu Komputer FMIPA Universitas Gadjah Mada Yogyakarta, lulus tahun 2007. Saat ini menjadi Dosen di STMIK AMIKOM Yogyakarta.
3.2 Saran Berikut saran-saran dari penulis untuk penelitian dan pengembangan lebih lanjut : 1. Sistem dapat memproses data mining secara real time, sehingga peniliti tidak lagi melakukan perhitungan secara manual baik di form excel ataupun tool perhitungan lainnya. 2. Sistem dapat memproses data untuk me-mining dalam jumlah besar. Misalkan dengan menggunakan file berekstensi *.xls sehingga user tidak lagi memproses data satu persatu. 3. Tampilan sistem agar lebih baik dan lebih menarik serta mudah digunakan dari yang sekarang karena sistem yang sekarang masih kurang baik dari segi tampilan dan kemudahan dalam pemakaian. 4. Sistem tidak hanya ada satu algoritma, dapat ditambahkan lagi dengan algoritma data mining lainnya seperti algoritma klasifikasi naive bayes, dll.
6