JURNAL TEKNIK, (2014) 1-6
1
APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE Irfan Fahmi, Budi Santosa Jurusan Teknik Industri, Fakultas Teknologi Industri, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia E-mail:
[email protected];
[email protected]
Abstrak— Dalam dunia pendidikan sekarang ini tersimpan data dalam sebuah database dengan jumlah yang sangat besar. Data tersebut berisi data mahasiswa, dosen, dan karyawan serta stakeholder kampus yang lain. Besarnya jumlah data dipengaruhi oleh kemudahan proses input dan penyimpanan data tersebut. Sehingga dalam hitungan tiap jam bisa terkumpul ribuan data. Akan tetapi kumpulan data tersebut tidak dapat dimanfaatkan secara baik dan hanya menjadi sekumpulan data yang tidak digunakan. Sehingga perlu digunakan sebuah cara untuk mengetahui informasi yang terdapat dalam kumpulan data tersebut yaitu dengan teknik data mining. Penelitian ini mengaplikasikan teknik data mining dengan metode decision tree untuk menentukan kelas IPK mahasiswa Teknik Industri ITS. Penentuan kelas IPK berdasarkan variabel jenis kelamin, jalur masuk, asal daerah, dan gaji orang tua. Dari keempat variabel tersebut diketahui variabel jalur masuk menjadi variabel yang paling berpengaruh terhadap IPK. Pengujian data mahasiswa dengan metode decision tree memiliki tingkat error rata-rata sebesar 42,01%. . Kata Kunci— Data Mining, Decision tree, Kelas IPK
I. PENDAHULUAN
D
ata merupakan sebuah elemen yang tidak bisa
terpisahkan dalam suatu obyek. Seiring perkembangan teknologi, proses pengambilan data tersebut semakin mudah serta penyimpanannya semakin aman karena dapat tersimpan dalam sebuah database yang terkomputerisasi. Di dunia pendidikan, data tersebut berupa identitas stakeholder serta berbagai data yang berhubungan dengan universitas itu. Dengan kemudahan setiap universitas dalam meng-input dan menyimpan data tersebut maka jumlah data yang tersimpan dalam sebuah database semakin meningkat. Database tersebut berisi ratusan bahkan ribuan data berkaitan dengan mahasiswa, dosen, karyawan serta data lain yang menyangkut kegiatan kampus. Saat ini database tersebut tidak banyak memberikan keuntungan yang signifikan terhadap universitas. Database tersebut seolah hanya menjadi sekumpulan data yang terabaikan. Data tersebut hanya dibutuhkan saat universitas tersebut mengadakan proses akreditasi atau digunakan untuk mengetahui identitas mahasiswa maupun dosen saat masih belajar maupun mengajar di universitas, sedangkan setelah
mahasiswa tersebut lulus kuliah data tersebut akan menjadi tumpukan data yang jarang digunakan. Minimnya manfaat yang diperoleh dari database tersebut seolah-olah membuat pekerjaan mengambil data ini menjadi non added value atau kurang memberikan nilai tambah terhadap pihak universitas. Salah satu cara memanfaatkan data tersebut adalah dengan mengolahnya, sehingga pola atau kecenderungan pada data tersebut dapat ditemukan. Dengan mengetahui pola yang terdapat pada data mahasiswa, maka hal tersebut akan dapat digunakan dalam membantu pengambilan keputusan bagi pihak universitas. Kecenderungan atau pola data mahasiswa ini bisa digunakan untuk memprediksi nilai IPK seseorang serta beberapa faktor yang berpengaruh terhadap performansi mahasiswa tersebut. Karena tugas utama suatu universitas adalah menyediakan pendidikan yang baik dan berkualitas. Sehingga mengetahui potensi maupun faktor yang berpengaruh terhadap performansi mahasiswa menjadi hal yang penting. Setelah mengetahui faktor-faktor tersebut, maka pihak universitas dapat menerapkan sistem pembelajaran yang tepat untuk mahasiswa. Selain itu universitas juga dapat mengantisipasi dan segera menangani mahasiswa yang memiliki performansi rendah. Pengenalan pola atau pattern recognition merupakan salah satu bagian dari data mining. Data mining atau knowledge discovery in database merupakan kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola hubungan dalam set data yang berukuran besar (Santosa, 2007). Salah satu metode yang digunakan dalam data mining adalah klasifikasi. Metode klasifikasi dapat digunakan untuk memprediksi atau meramalkan performansi mahasiswa berdasarkan variabel – variabel tertentu. Teknik ini dapat diaplikasikan dalam mencari informasi penting berkaitan dengan IPK mahasiswa. Metode klasifikasi yang digunakan pada penelitian ini adalah decision tree. Metode ini sangat banyak digunakan dalam mengatasi kasus yang outputnya bernilai diskrit. Keuntungan decision tree adalah modelnya sederhana dan mudah dipahami karena ditampilkan dalam bentuk pohon yang bercabang sehingga memudahkan dalam interpretasi. Ide dasar dari teknik decision tree bukan berdasarkan vektor jarak seperti pada teknik klasifikasi yang lain, melainkan berdasarkan urutan pertanyaan. Dalam decision tree setiap atribut ditanyakan di simpul, kemudian jawaban dari atribut ini akan dinyatakan dalam cabang sampai akhirnya ditemukan kategori atau kelas dari obyek di simpul terakhir (Santosa, 2007).
JURNAL TEKNIK, (2014) 1-6 Penelitian ini dilaksanakan pada jurusan Teknik Industri ITS. Jurusan Teknik Industri ITS merupakan salah satu institusi pendidikan yang mempunyai sasaran untuk menghasilkan sarjana-sarjana yang bermutu serta menjadi institusi yang unggul dan memiliki reputasi internasional. Salah satu cara untuk menghasilkan mahasiswa yang berkualitas adalah dengan menciptakan sistem pembelajaran yang tepat terhadap mahasiswa. Sehingga mahasiswa tersebut memiliki performansi yang baik dalam bidangnya. Berdasarkan teknik klasifikasi decision tree ini akan dapat diketahui faktor-faktor yang berpengaruh terhadap performansi mahasiswa serta seberapa besar pengaruhnya tersebut. Performansi mahasiswa dalam hal ini direpresentasikan dengan nilai IPK. Hasilnya diharapkan dapat menjadi bahan masukan atau rekomendasi kepada pihak universitas untuk membuat sistem pembelajaran yang tepat dan dapat menangani dengan segera mahasiswa yang memiliki performansi rendah. II. METODE PENELITIAN A. Tahap Pengumpulan Data Pada tahap ini dilakukan pengumpulan data yang akan digunakan sebagai input dalam penelitian ini. Data yang digunakan adalah data mahasiswa Teknik Industri ITS angkatan 2008 sampai 2010 yang sudah lulus. Data tersebut dapat diperoleh dari Badan Akademik Kemahasiswaan dan Perencanaan ( BAKP ) ITS. Nilai Indeks Prestasi Komulatif (IPK) Mahasiswa merupakan faktor utama dalam mengukur keberhasilan mahasiswa selama menempuh pendidikan di universitas. Nilai IPK ini merupakan acuan dasar untuk menilai apakah mahasiswa tersebut mempunyai performansi bagus ditinjau dari sisi softskill yaitu kemampuan di bidang akademik. Sehingga untuk mengetahui performansi mahasiswa digunakan variabel nilai IPK sebagai tolok ukurnya. Beberapa variabel yang berpengaruh terhadap IPK yang dapat diperoleh dari Badan Akademin Kemahasiswaan dan Perencanaan (BAKP) ITS yaitu jenis kelamin, asal daerah, jumlah nilai UNAS, jalur masuk, gaji orang tua dan asal SMA. Untuk jumlah nilai UNAS tidak digunakan karena banyak data yang tidak ada nilainya (missing value). Sedangkan asal SMA tidak digunakan karena website untuk mengetahui nilai akreditasi sekolah tidak bisa diakses sehingga tidak dapat mengetahui nilai akreditasi sekolah. Sehingga variabel yang dipertimbangkan dalam penelitian yaitu jenis kelamin, jalur masuk, asal daerah, dan gaji orang tua. B. Tahap Data Pre Processing Pada tahap ini akan dilakukan data pre processing yang terdiri dari beberapa aktivitas seperti data integration dan data cleaning. Setelah data yang dibutuhkan tersedia, maka selanjutnya data tersebut disatukan dan dipilih sesuai atribut yang telah ditentukan, proses ini disebut integrasi data. Variabel jenis kelamin dibagi menjadi laki-laki dan perempuan. Jalur masuk terdiri dari SNMPTN, Bidik Misi, S1 Kerjasama, PKM Mandiri, dan PKM Kemitraan. Alamat rumah terdiri dari Surabaya, Jawa Timur (Non Surabaya), Jawa Tengah & Jogja, DKI Jakarta & Jawa Barat, dan Luar Jawa. Selanjutnya dilakukan transformasi data terhadap
2 variabel yang bersifat kontinyu seperti penghasilan orang tua, dan nilai IPK dirubah ke dalam nilai diskrit. Penghasilan orang tua terdiri dari rendah, sedang, tinggi. Sedangkan untuk kelas IPK terdiri dari kurang, cukup, dan baik. Pada proses pembersihan data (data cleaning), jika ada salah satu data yang hilang (missing value) maka data tersebut dapat diabaikan. Begitu pula ketika ada data yang outlier maka data tersebut dihilangkan. Setelah itu maka akan diseleksi data tersebut sehingga diperoleh data yang relevan yang akan digunakan untuk proses data mining. C. Tahap Pengolahan Data Tahapan ini merupakan tahap pengolahan data yaitu proses data mining. Pengolahan data ini bertujuan untuk menemukan pola atau informasi penting dari sekumpulan data. Metode yang digunakan dalam proses data mining ini yaitu decision tree. Decision tree bertujuan untuk melakukan klasifikasi terhadap nilai IPK mahasiswa. Nilai IPK dijadikan sebagai label atau variabel output. Dalam melakukan klasifikasi nantinya akan diketahui faktor atau variabel input yang berpengaruh terhadap nilai IPK dan persentase variabel tersebut. Setelah ditemukan pola atau kecenderungan dari data tersebut kemudian akan dilakukan tahap post processing. D. Tahap Data Post Processing Pada tahap ini akan dilakukan data post processing yaitu terdiri dari proses interpretasi, visualisasi, dan evaluasi terhadap pola atau informasi yang telah dihasilkan dari tahap pengolahan data. Proses visualisasi akan ditampilkan dalam bentuk tree sehingga akan mudah dipahami. Setelah dilakukan proses ini maka informasi tersebut dapat dijadikan pengetahuan dan informasi penting terkait hal-hal yang berpengaruh terhadap IPK mahasiswa Teknik Industri ITS. E. Tahap Analisis dan Kesimpulan Pada tahap ini dilakukan analisis terhadap pengolahan data yang telah dilakukan dalam penelitian ini mulai dari data pre processing, pengolahan data, dan data post processing. Setelah dilakukan analisis dari semua proses tersebut, maka akan dapat ditarik beberapa kesimpulan yang akan menjawab tujuan dari penelitian ini. Kemudian hasil penelitian ini juga dapat dijadikan rekomendasi terhadap pihak Teknik Industri ITS dalam menyusun sistem pembelajaran yang tepat bagi mahasiswa. III. PROSES DATA MINING A. Sebaran Data Setelah data yang digunakan dalam penelitian tersedia. Berikut ini ditunjukkan penyebaran data berkaitan dengan IPK berdasarkan tiap-tiap variabel input. a. IPK (Variabel Output) Pada variabel IPK terdiri dari kelas kurang sebanyak 28 data, kelas cukup sebanyak 156 data, dan kelas baik sebanyak 36 data. Sehingga total data adalah 220 data.
JURNAL TEKNIK, (2014) 1-6
3 Sedangkan data kelas IPK berdasarkan variabel jalur masuk ditunjukkan pada Gambar 4.5.
Gambar 1. Sebaran Data Nilai IPK b. Jenis Kelamin Variabel jenis kelamin terdiri dari 2 instance, yaitu instance laki-laki yang terdiri dari 101 data dan instance perempuan yang terdiri dari 119 data. Sehingga total data sebanyak 220 data.
Gambar 5. Sebaran Data IPK Berdasarkan Jalur Masuk d. Asal Daerah Variabel Asal Daerah terdiri dari 5 instance, yaitu Surabaya sebanyak 94 data, Jawa Timur sebanyak 93 data, Jawa Tengah sebanyak 8 data, DKI & Jabar sebanyak 10 data, dan Luar Jawa sebanyak 15 data. Sehingga total data adalah 220 data.
Gambar 2. Sebaran Data Jenis Kelamin Kemudian data kelas IPK berdasarkan varibel jenis kelamin ditunjukkan pada Gambar 4.3. Gambar 6. Sebaran Data Asal Daerah Kemudian data kelas IPK berdasarkan variabel Asal Daerah ditunjukkan pada Gambar 4.7
Gambar 3. Sebaran Data IPK Berdasarkan Jenis Kelamin c. Jalur Masuk Variabel jalur masuk terdiri dari 6 instance yaitu PMDK sebanyak 3 data, S1 Kerjasama sebanyak 6 data, Bidik Misi sebanyak 10 data, PKM Mandiri sebanyak 62 data, PKM Kemitraan sebanyak 37 data, dan SBMPTN sebanyak 102 data. Sehingga total seluruh data adalah 220 data.
Gambar 7. Sebaran Data IPK Berdasarkan Asal Daerah e. Gaji Orang tua Variabel Gaji Orang tua terdiri dari 3 instance yaitu rendah sebanyak 85 data, sedang sebanyak 123 data, dan tinggi sebanyak 12 data. Sehingga total data adalah 220 data.
Gambar 4. Sebaran Data Jalur Masuk Gambar 8. Sebaran Data Gaji Orang Tua
JURNAL TEKNIK, (2014) 1-6
4
Adapun sebaran data kelas IPK berdasarkan variabel gaji orang tua ditunjukkan pada Gambar 4.9.
Information Gain variabel asal daerah sebesar 0,0743 Selanjutnya untuk menentukan node pertama yaitu berdasarkan nilai information gain yang tertinggi. Sehingga variabel jalur masuk yang terpilih karena memiliki nilai information gain tertinggi. Berikut rekapan nilai Information gain setiap variabel. Tabel 5. Rekapan Nilai Information Gain
Gambar 9. Sebaran Data IPK Berdasarkan Gaji Orang Tua B. Perhitungan algoritma C4.5 Pada algoritma c4.5, langkah pertama yang dilakukan dalam membuat model tree adalah menghitung nilai entropi dan information gain. Data yang digunakan sebagai data training untuk mendapatkan model tree sebesar 75% dari data keseluruhan yaitu sebesar 220 data. Berikut ini hasil perhitungan entropi dan information gain pada node awal. a. Jenis kelamin Nilai Entropi variabel jenis kelamin sebagai berikut. Tabel 1. Nilai Entropi Jenis Kelamin laki-laki
Setelah itu kemudian dilakukan perhitungan kembali nilai entropi dan information gain untuk mengetahui node berikutnya. Variabel jalur masuk mempunyai 6 instance. Sehingga perlu dilakukan perhitungan untuk masing-masing instance. Pada cabang PMDK hanya terdapat 3 data dan semuanya memiliki kelas yang sama yaitu cukup. Sehingga untuk variabel jalur masuk PMDK secara langsung dapat diklasifikasi ke dalam kelas cukup. Berikut ini gambar tree yang dihasilkan.
perempuan
1.1592
Jalur Masuk
1.1013
Information Gain variabel jenis kelamin sebesar 0,0296 b. Jalur Masuk Nilai Entropi variabel jalur masuk sebagai berikut. Tabel 2. Nilai Entropi Jalur Masuk PKM PKM Bidik K SBMPTN M Misi 1.03 1.07 0.97 0.97
S1 Kerjasama 1.58
PMDK 0.00
Information Gain variabel jalur masuk sebesar 0,1253 c. Gaji Orang tua Nilai Entropi variabel Gaji Orang tua sebagai berikut
Cukup
PMDK
Gambar 10. Tree Jalur PMDK Pada cabang S1 Kerjasama dilakukan perhitungan information gain untuk menentukan node berikutnya sampai pada node terakhir. Sehingga tree yang dihasilkan untuk jalur masuk S1 Kerjasama sebagai berikut. DKI & JABAR
Jalur Masuk
S1 Kerjasama
Cukup
Asal Daerah Jenis Kelamin
Jawa Timur
Baik
P
L Cukup
Tabel 3. Nilai Entropi Gaji Orang Tua rendah 1.1980
sedang 1.1207
Gambar 11. Tree Jalur S1 Kerjasama
Tinggi 0.4138
Information Gain variabel gaji orang tua sebesar 0,0455 d. Asal Daerah Nilai Entropi variabel asal daerah sebagai berikut.
Pada cabang Bidik Misi dihasilkan tree sebagai berikut. Tree tersebut juga dihasilkan dengan menghitung entropi dan information gain sampai node terakhir. Jenis Kelamin Surabaya
Tabel 4. Nilai Entropi Asal Daerah Surabaya
Jawa Timur
Jawa Tengah
DKI & Jabar
Luar Jawa
Jalur Masuk
Bidik Misi
P
Cukup
L
Baik
Asal Daerah Jawa Timur
1.1166
1.0338
0.8113
0.7219
1.5656
Jenis Kelamin
Gambar 12. Tree Jalur Masuk Bidik Misi
P L
Cukup Baik
JURNAL TEKNIK, (2014) 1-6
5 Jalur Masuk
Pada jalur PKM Mandiri dihasilkan tree sampai 4 level sebagai berikut.
SBMPTN
Jalur Masuk
Asal Daerah
Surabaya Jawa Timur
PKM Mandiri
Jawa Timur
Jenis Kelamin L rendah
Gaji
Luar Jawa
Kurang
Jenis Kelamin L
P
Kurang
Cukup
Pada jalur masuk PKM Kemitraan dihasilkan tree yang cukup kompleks. Tree yang dihasilkan mempunyai 4 level sebagai berikut. Jalur Masuk
PKM Kemitraan
Jawa Timur DKI & JABAR
Jenis Kelamin L Kurang
Kurang
Baik
Sedang Cukup
P Baik
Tinggi
Cukup
Gambar 15. Tree Jalur Masuk SBMPTN
Cukup
Gambar 13. Tree Jalur Masuk PKM Mandiri
Cukup
L
Gaji Rendah
Cukup
Jenis Kelamin
Cukup
P
Cukup
Cukup
Sedang Cukup
L
P Tinggi
Cukup
Jenis Kelamin
Cukup
DKI & JABAR
Cukup
DKI & JABAR Jawa Tengah
Asal Daerah
Surabaya
Luar Jawa
Asal Daerah Surabaya
rendah
P Cukup
Luar Jawa
Baik
Gaji
tinggi
Sedang
Jenis Kelamin L
kurang
Baik
C. Perhitungan Akurasi Untuk menghitung akurasi terhadap model decision tree yang telah dihasilkan, maka dilakukan beberapa percobaan untuk mengetahui seberapa besar error yang terjadi. Nilai error dihitung berdasarkan jumlah data testing yang salah dalam klasifikasi dibagi jumlah seluruh data testing. Jumlah data yang tersedia yaitu 293 data. Data training yang digunakan berjumlah 220 data atau sebanyak 75% dari total data dan data testing yang digunakan berjumlah 73 data atau sebanyak 25% dari total data. Perhitungan ini dilakukan pada software MATLAB. Dilakukan tiga percobaan dengan mengubah data training dan data testing. Dari ketiga percobaan tersebut diperoleh error rata-rata sebesar 42,01%. Berikut ini rekapan error dari ketiga percobaan tersebut. Tabel 6. Rekapan Tingkat Error
P Cukup
Jenis Kelamin L Kurang
P Cukup
Gambar 14. Tree Jalur Masuk PKM Kemitraan Jalur SBMPTN memiliki jumlah data paling banyak dibandingkan jalur lain. Dengan menghitung entropi dan information gain pada semua variabel, maka diperoleh tree SBMPTN yang terdiri dari 4 level dihasilkan tree sebagai berikut.
Error rata-rata yang terjadi dalam proses klasifikasi ini cukup tinggi karena hampir mencapai 50%. Hal ini disebabkan oleh banyaknya data training yang tidak sesuai dengan decision rule. Dengan rule yang sama, data tersebut bisa memiliki kelas yang berbeda. Sehingga akurasi ketepatan prediksi terhadap data baru menjadi rendah. IV. KESIMPULAN Dari penelitian dapat disimpulkan bahwa: 1. Kelompok mahasiswa berdasarkan IPK terdiri dari 3 kelas yaitu kurang, cukup, dan baik. Variabel yang dipertimbangkan dalam perhitungan yaitu jenis kelamin, jalur masuk,asal daerah, dan gaji orang tua.
JURNAL TEKNIK, (2014) 1-6 2. Variabel yang paling berpengaruh terhadap nilai IPK mahasiswa Teknik Industri ITS adalah jalur masuk, kedua yaitu asal daerah. Kemudian untuk jenis kelamin dan gaji orang tua sama besar pengaruhnya. 3. Perhitungan decision tree algoritma c4.5 mampu mengelompokkan data ke dalam kategori yang telah ditentukan. 4. Decision rule yang dihasilkan memiliki tingkat error rata-rata sebesar 42,01%. DAFTAR PUSTAKA Alfina, T. (2012). Analisa Perbandingan Metode Hierarchical Clustering, K-Means dan Gabungan Keduanya Dalam Membentuk Cluster Data. Surabaya: Institut Teknologi Sepuluh Nopember Surabaya. Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Fransisco: Morgan Kaufman Publisher. Kumar, B., & Pal, S. (2011). Data mining: A prediction for performance improving using classification. IJCSIS, vol 9. Ridwan, M., Suyono, H., & M.Sarosa. (2013). Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS, vol 7. Santosa, B. (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu. Sembiring, S., M.Zarlis, H, D., S, R., & Wani, E. (2011). Prediction of student academic performance by an application of data mining technique. IPEDR, vol 6. Sumathi, D. S., & S.N.Sivanandan, D. (2006). Introduction to Data Mining and its applications. Verlag Berlin Heidelberg: Springer. Sunjana. (2010). Aplikasi Mining Data Mahasiswa Dengan Metode Klasifikasi Decision tree. ISSN: 1907-5022. T.Larose, D. (2005). DISCOVERY KNOWLEDGE IN DATA : An Introduction to Data Mining. New Jersey: John Wiley & Sons, Inc.
6