2015 Seminar Teknologi dan Rekayasa (SENTRA)
Educational Data Mining untuk Mengetahui Pola Minat Kerja Mahasiswa Daniel Swanjaya1, Abidatul Izzah2 Universitas Nusantara PGRI Kediri
1,2
Kontak Person: Daniel Swanjaya1, Abidatul Izzah2 1,2 Kampus 2 : Jl Ds. Mojoroto Gang 1 1,2 Kediri, 64112 1 E-mail:
[email protected],
[email protected]
Abstrak Educational Data Mining adalah disiplin ilmu yang berkaitan dengan pengembangan metode untuk mempelajari data yang berasal dari dunia pendidikan sehingga dapat lebih memahami karakter siswa maupun mahasiswa. Dalam hal ini, EDM digunakan untuk memprediksi minat dan bakat kerja yang dimiliki oleh mahasiswa. Sejatinya masa perkuliahan sangat mencerminkan minat pekerjaan mahasiswa. Namun dalam kenyataannya masih banyak mahasiswa yang tidak memahami secara persis minat dan bakatnya meski sudah sampai pada tingkat akhir perkuliahan. Di sisi lain, secara tidak langsung minat dan bakat mahasiswa tercermin pada nilai akademik yang diperoleh. Oleh karena itu, paper ini mencoba menemukan pola minat dan bakat mahasiswa terhadap dunia kerja dengan menggunakan Decision Tree. Data yang digunakan dalam paper ini adalah data nilai 8 mata kuliah wajib dari 42 alumni jurusan S1 Matematika. Sedangkan lapangan kerja yang tersedia meliputi Pengajar, Pegawai, dan Enterpreuner. Hasil percobaan menunjukkan bahwa Decision Tree dapat membentuk sebuah pola minat dan bakat mahasiswa terhadap dunia kerja. Hasil evaluasi classifier ini menunjukkan nilai AUC diatas 0.9 untuk masing-masing profesi. Kata kunci: Decision Tree, Educational Data Mining, Minat Kerja, Prediksi
Pendahuluan Dalam pengembangannya, konsep dan metode Data Mining dapat diterapkan dalam berbagai bidang, misalnya pemasaran, pasar saham, manajemen, teknik, kedokteran, pendidikan, dll. Salah satu cabang Data Mining di bidang pendidikan yang sering disebut dengan Educational Data Mining (EDM). EDM merupakan teknik yang dapat diterapkan pada semua data yang terkait dengan bidang pendidikan. EDM merupakan proses transformasi data mentah yang tersimpan di sistem informasi pendidikan yang dapat digunakan untuk mengambil sebuah keputusan atau informasi[1]. EDM ditujukan untuk mempelajari data yang tersedia di bidang pendidikan dan menerjemahkan knowledge tersembunyi dari data tersebut. Metode klasifikasi seperti Decision Tree, Association Rule, atau Naïve Bayes dapat diterapkan pada saat menggali data pendidikan[2]. Beberapa kasus pendidikan yang dapat diselesaikan menggunakan EDM antara lain memprediksi nilai yang akan diperoleh siswa[2][3], memprediksi penerima beasiswa[4], memprediksi kemungkinan drop out[5], atau memprediksi jumlah mahasiswa pengikut mata kuliah[6]. Kemampuan prediksi ini akan membantu dosen maupun guru untuk mengidentifikasi siswa yang lemah dan pada akhirnya akan membantu mereka memecahkan masalah yang mungkin dihadapi[2]. Pemodelan masalah dalam EDM layaknya masalah penggalian data umumnya yang terdiri dari sejumlah record yang memiliki beberapa fitur. Misalnya pada kasus prediksi penerima beasiswa, fitur yang digunakan antara lain nilai semester, peringkat kelas, prestasi akademik non akademik, jumlah SKS yang diambil atau keterlibatan dengan kegiatan kurikulum[4]. Data EDM sering kali dikaitkan dengan nilai di bidang akademik dan non akademik. Namun masih sedikit yang mengaitkan prestasi akademik tersebut dengan keberhasilannya memasuki dunia kerja. Di sisi lain, sejatinya nilai akademik di saat perkuliahan sangat mencerminkan minat pekerjaan mahasiswa. Namun dalam kenyataannya masih banyak mahasiswa yang tidak memahami secara persis minat dan bakatnya meski sudah sampai pada tingkat akhir perkuliahan. Oleh karena itu, paper ini mencoba memanfaatkan EDM untuk menemukan pola minat dan bakat mahasiswa terhadap dunia kerja. Metode yang akan digunakan adalah Decision Tree. Data yang digunakan dalam paper ini SENTRA | 1
2015 Seminar Teknologi dan Rekayasa (SENTRA)
adalah data nilai 8 mata kuliah wajib dari 42 alumni jurusan S1 Matematika Universitas Airlangga. Sedangkan lapangan kerja yang tersedia meliputi Pengajar, Pegawai, dan Enterpreuner. Dengan demikian, diharapkan dengan mengetahui kemampuan mahasiswa di bidang akademik, profesi yang cocok untuk mahasiswa tersebut dapat diprediksi.
Metode Penelitian Proses penggalian data dimulai dari pengumpulan data. Data diambil dari 42 alumni jurusan S1 Matematika Universitas Airlangga yang telah lulus & bekerja. Lapangan pekerjaan yang umum bagi sarjana sains di bidang matematika antara lain pegawai bank, pegawai perusahaan swasta, PNS, pengusaha, pedagang, guru, tentor, dan dosen. Dalam paper ini, lapangan pekerjaan tersebut dikelompokkan menjadi tiga kategori yakni Enterpreuner, Pegawai, dan Pengajar. Lebih lanjut pembagian lapangan pekerjaan dapat dilihat pada Tabel 1. Tabel 1 Profesi Sarjana Matematika
Kategori Enterpreuner
Jenis Pekerjaan Pengusaha, Pedagang
Pegawai
Pegawai Bank, Pegawai Perusahaan Swasta, PNS
Pengajar
Guru, Tentor, Dosen
Data alumni tersebut dilengkapi dengan data nilai akademik yang diperoleh saat masih kuliah. Mata kuliah yang dijadikan pertimbangan antara lain mata kuliah Kalkulus 1, Analisis Real (Anreal) 1, Aljabar Linear Elementer (ALE), Aljabar Linear (Alin), Statistika 1, Statistika Komputasi (Statkom), Algoritma Pemrograman (Alpro), dan Ilmu Sosial Budaya Dasar (ISBD). Mata kuliah tersebut merupakan beberapa mata kuliah dasar di tingkat dasar dan beberapa mata kuliah lanjutan di masingmasing konsentrasi bidang yang ditempuh di tingkat atas. Pembagian konsentrasi bidang tersebut dapat dilihat di Tabel 2. Delapan fitur mata kuliah ini dipilih karena mata kuliah tersebut merupakan mata kuliah wajib yang pasti ditempuh oleh seluruh mahasiswa Jurusan S1 Matematika. Dengan demikian, diharapkan dengan mengetahui kemampuan mahasiswa di bidang akademik, profesi yang cocok untuk mahasiswa tersebut dapat diprediksi. Bobot fitur yang dipakai berupa data ordinal yakni, A, AB, B, BC, C, D, dan E yang memiliki bobot nilai indeks prestasi 0 s.d 4 dalam skala IPK 4. Tabel 2 Bidang Konsentrasi Mata Kuliah
Bidang Konsentrasi Matematika Murni
Mata Kuliah Kalkulus 1, Analisis Real (Anreal) 1, Aljabar Linear Elementer (ALE), Aljabar Linear (Alin)
Matematika Terapan
Statistika 1, Statistika Komputasi (Statkom), Algoritma Pemrograman (Alpro)
Ilmu Sosial
Ilmu Sosial Budaya Dasar (ISBD)
Pembuatan pola dilakukan menggunakan metode Decision Tree. Dalam Decision tree, model direpresentasikan sebagai struktur pohon (tree) yang terdiri dari node. Setiap node merepresentasikan fitur, setiap cabang merepresentasikan nilai dari fitur, dan setiap daun merepresentasikan kelas atau keputusan (Gorunescu, 2011). Decision Tree merupakan pendekatan divide-and-conquer dengan konsep klasifikasi. Metode ini bekerja dari atas ke bawah dengan membagi fitur ke dalam bagian kelas. Pembagian secara bertahap ini diproses secara rekursif submasalah sehingga dihasilkan fitur terakhir yang dapat menentukan kelas. Strategi ini menghasilkan sebuah tree yang kemudian dapat diubah menjadi suatu rules (Witten et all, 2011). Pada decision tree terdapat 3 jenis node, yaitu Root, Node Internal, dan Leaf node. Root merupakan node paling atas. Node ini tidak terdapat input di atasnya. Pada node ini mungkin bisa tidak terdapat output atau bisa mempunyai output lebih dari satu. Selanjutnya Internal Node yakni node percabangan. Pada node ini hanya terdapat satu input dan mempunyai output minimal dua. SENTRA | 2
2015 Seminar Teknologi dan Rekayasa (SENTRA)
Dalam kasus ini Root dan Node Internal berupa mata kuliah. Yang terakhir adalah Leaf node yang merupakan node akhir. Pada node ini hanya terdapat satu input dan tidak mempunyai output. Dalam kasus ini leaf node adalah profesi (Gorunescu, 2011). Model dibangun dengan Decision Tree menggunakan Algoritma C4.5. Tahap ini diawali dengan menghitung nilai entropy yang akan digunakan untuk menghitung nilai gain masing-masing fitur. Fitur dengan nilai gain yang tertinggi, selanjutnya akan ditetapkan menjadi root. Rumus menghitung entropy dan gain ditunjukkan dalam persamaan (1) dan (2). c
Entropy ( S ) pi 2 log pi
(1)
n 1
Gain( S , A) Entropy ( S )
| Sv | Entropy ( Sv ) vValues( A) S
(2)
Langkah perhitungan entropy dan gain pada tiap fitur ini diulang secara terus menerus hingga semua mata kuliah terpartisi. Proses dari Decision Tree ini akan berhenti jika semua mata kuliah dalam simpul N sudah mendapat kategori pekerjaan, tidak ada fitur mata kuliah di dalam record yang dipartisi lagi, dan tidak ada record di dalam cabang yang kosong (Gorunescu, 2011).
Hasil Penelitian dan Pembahasan Sebuah Decision Tree dibentuk dari 42 record dengan 8 fitur berupa nilai mata kuliah. Gambar 1 menunjukkan tree yang terbentuk. Pada Decision Tree tersebut, mata kuliah Aljabar Linear terpilih sebagai root dimana mata kuliah tersebut adalah mata kuliah konsentrasi matematika murni. Percabangan nilai Aljabar Linear dibatasi oleh nilai AB. Jika mahasiswa memperoleh nilai Aljabar Linear ≥ AB, maka besar kemungkinan dia memang berminat pada ilmu-ilmu eksak sehingga memilih berprofesi sebagai pengajar. Selanjutnya, untuk leaf kedua dan ketiga terpilih Analisis Real I dan Statistika I. Dari percabangan node ini dapat diketahui bahwa jika nilai dua mata kuliah tersebut < BC, maka mahasiswa yang bersangkutan lebih berminat dengan dunia industri atau kewirausahaan (enterpreuner). Selebihnya mahasiswa akan memilih sebagai wiraswasta (pegawai).
Gambar 1 Tree yang terbentuk “0” = Enterpreuner, “1” = Pegawai, dan “2” = Pengajar SENTRA | 3
2015 Seminar Teknologi dan Rekayasa (SENTRA)
Menurut pola yang dihasilkan tersebut, lima mata kuliah yang lain, yakni kuliah Kalkulus 1, ALE, Statkom, Alpro, dan ISBD tidak begitu mempengaruhi peminatan kerja mahasiswa. Dari Decision Tree tersebut, terbentuklah beberapa rule sebagai berikut: Rule (1) Rule (2) Rule (3)
: IF Aljabar Linear ≥ AB THEN Minat Kerja = Pengajar : IF Aljabar Linear < AB AND Analisis Real < C AND Statistika < BC THEN Minat Kerja = Enterpreuner : IF Aljabar Linear < AB AND Analisis Real < C AND Statistika > BC THEN Minat Kerja = Pegawai
Evaluasi Decision Tree dilakukan dengan menghitung luasan Area Under Curves (AUC) pada kurva Receiver Operating Characteristics (ROC). Kurva ROC adalah gambaran dua dimensi dari kinerja suatu classifier. Kurva ROC sering digunakan untuk mengevaluasi sebuah classifier karena mempunyai kemampuan evaluasi yang cukup baik. Analisis ROC telah diperkenalkan pada bidang machine learning dan data mining. Kurva ROC merupakan grafik perbandingan antara sensitivitas (sumbu vertikal) dan spesifisitas (sumbu horizontal). Sensitivitas yaitu proporsi data positif yang teridentifikasi dengan benar sedangkan spesifisitas adalah proporsi data negatif yang teridentifikasi salah sebagai positif (Fawcett, 2006). Metode yang digunakan untuk menghitung nilai kinerja classifier adalah dengan menghitung luas daerah dibawah kurva ROC, yang disebut dengan AUC. Jika nilai AUC semakin besar, maka classifier semakin baik. Pada paper ini dihitung luasan AUC pada masing-masing kurva ROC kelompok enterpreuner (Gambar 2), kelompok pegawai (Gambar 3), dan kelompok pengajar (Gambar 4). Nilai AUC untuk masing-masing kurva ROC kelompok Enterpreuner, Pegawai, dan Pengajar adalah 0.938, 0.985, dan 0.900. Dari ketiga hasil yang diberikan menunjukkan bahwa Decision Tree yang terbentuk merupakan classifier yang baik karena nilai AUC yang diperoleh mendekati 1.
Gambar 2 Kurva ROC untuk Enterpreuner
SENTRA | 4
2015 Seminar Teknologi dan Rekayasa (SENTRA)
Gambar 3 Kurva ROC untuk Pegawai
Gambar 4 Kurva ROC untuk Pengajar
Kesimpulan Paper ini memanfaatkan EDM untuk menemukan pola minat dan bakat mahasiswa terhadap dunia kerja. Metode yang digunakan adalah Decision Tree. Dari Tree yang terbentuk, mata kuliah Aljabar Linear terpilih sebagai root. Percabangan nilai Aljabar Linear dibatasi oleh nilai AB. Artinya besar kemungkinan mahasiswa akan memilih berprofesi sebagai pengajar jika memperoleh nilai Aljabar Linear ≥ AB. Mata kuliah lain yang terpilih sebagai node adalah Analisis Real I dan Statistika I. Menurut pola ini lima mata kuliah yang lain, yakni kuliah Kalkulus 1, ALE, Statkom, Alpro, dan ISBD tidak begitu mempengaruhi peminatan kerja mahasiswa. Evaluasi dilakukan dengan menghitung luasan AUC dari tiga kurva ROC. Nilai AUC yang diperoleh dari kurva ROC kelompok Enterpreuner, SENTRA | 5
2015 Seminar Teknologi dan Rekayasa (SENTRA)
Pegawai, dan Pengajar masing-masing adalah 0.938, 0.985, dan 0.900. Hal ini menunjukkan bahwa Decision Tree yang terbentuk merupakan classifier yang baik karena nilai AUC yang diperoleh mendekati 1. Penelitian ini masih menggunakan data sampel 8 nilai akademik dari 42 mahasiswa. Lebih lanjut dapat dikembangkan dengan memperhitungkan mata kuliah ilmu sosial yang lebih banyak antara lain PPKn, Etika, komunikasi, dll Karena mata kuliah sosial banyak mempengaruhi kemampuan mahasiswa dalam berkomunikasi dan berinteraksi di dunia kerja. Selain itu, perhitungan kemampuan non akademik juga belum dilibatkan dalam paper ini. Contohnya kemampuan akademik dapat dilihat dari keikutsertaannya di Unit kegiatan Mahasiswa (UKM).
Daftar Notasi S : Himpunan kasus A : Fitur p : proporsi kasus i n : Jumlah partisi atribut A | S v | : Proporsi S v terhadap S | S | : Jumlah kasus dalam S Referensi [1] Cecily H, Ryan B, Kalina Y. Proceedings of the Workshop on Educational Data Mining at the 8th International Conference on Intelligent Tutoring Systems Jhongli, Taiwan. 2006. [2] Anupama K, Vijayalakshmi. Efficiency Of Decision Trees In Predicting Student’s Academic Performance. Computer Science & Information Technology (CS & IT). 2011; 2: 335-343 [3] Brijesh K, Saurabh P. Mining Educational Data to Analyze Students’ Performance. International Journal of Advanced Computer Science and Applications. 2011; 2(6) : 63-69 [4] Irfan A, Jin T. An Application of Educational Data Mining (EDM) Technique for Scholarship Prediction. International Journal of Software Engineering and Its Applications. 2014; 8(12): 3142 [5] Mohammad M, Hari G, Diana P. Analisis Kemungkinan Drop Out Berdasarkan Perilaku Sosial Mahasiswa Dalam Educational Data Mining Menggunakan Jaringan Syaraf Tiruan Sebagai Classifier. Thesis. Surabaya: Postgraduate ITS; 2014. [6] Donny M dan Imam M. Aplikasi Association Rule Mining Untuk menemukan Pola Pada Data Nilai Mahasiswa Matematika ITS. Jurnal Sains dan Seni POMITS. 2013; 1(1):1-6 [7] Gorunescu, F. Data Mining Concept Model and Techniques. Berlin: Springer. 2011 [8] Witten I. Frank E., and Hall M. Data Mining: Practical Machine Learning Tools and Techniques 3rd Edition, Morgan Kaufmann Publishers. 2011. [9] Tom F. ROC Graphs : Notes and Practical Considerations for Data Mining Researchers, Pattern Recognition Letters. 2006; 27: 861–874
SENTRA | 6