PENANGANAN MASALAH KELAS TIDAK SEIMBANG DENGAN RUSBOOST DAN UNDERBAGGING (STUDI KASUS: MAHASISWA DROP OUT SPs IPB PROGRAM MAGISTER)
YULIANA PERMATASARI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2016
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa tesis berjudul Penanganan Masalah Kelas Tidak Seimbang dengan RUSBoost dan UnderBagging (Studi Kasus: Mahasiswa Drop Out SPs IPB Program Magister) adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Februari 2016
Yuliana Permatasari NIM G152130151
RINGKASAN YULIANA PERMATASARI. Penanganan Masalah Kelas Tidak Seimbang dengan RUSBoost dan UnderBagging (Studi Kasus: Mahasiswa Drop Out SPs IPB Program Magister). Dibimbing oleh ASEP SAEFUDDIN dan BAGUS SARTONO. Sekolah Pascasarjana Institut Pertanian Bogor (SPs IPB) didirikan tahun 1975 dengan tujuh program studi. Saat ini, SPs IPB memiliki 67 program studi magister dan 43 program studi doktoral. SPs IPB berusaha semaksimal mungkin untuk meningkatkan kualitas baik dari segi mutu proses penyelenggaraan pembelajaran maupun mutu lulusan. Mutu lulusan dapat dilihat dari tingkat persentase kelulusan mahasiswa yaitu persentase dari jumlah mahasiswa lulus dibagi dengan jumlah total mahasiswa pascasarjana untuk setiap angkatan. Asumsikan mahasiswa drop out mempengaruhi nilai mutu lulusan, semakin banyak mahasiswa drop out maka nilai mutu lulusan menjadi semakin buruk. Penelitian ini bertujuan untuk membantu SPs IPB mendeteksi mahasiswa yang berisiko drop out dengan membangun sebuah model yang dibangkitkan dengan algoritme pohon klasifikasi. Pohon klasifikasi adalah gambaran pemodelan dari suatu persoalan yang terdiri dari serangkaian keputusan yang mengarah kepada solusi dengan peubah responnya kategorik. Mahasiswa lulus jauh lebih banyak dibandingkan mahasiswa drop out, hal ini dikenal dengan kelas tidak seimbang. Kelas mahasiswa drop out dengan jumlah contoh yang jauh lebih sedikit disebut kelas minoritas atau positif, sedangkan kelas lulus disebut kelas mayoritas atau negatif. Pemodelan menggunakan pohon klasifikasi klasik akan menghasilkan model yang keputusannya condong kepada kelas mayoritas, sedangkan kelas minoritas dianggap sebagai noise. RUSBoost dan UnderBagging merupakan algoritme yang dapat digunakan untuk mengatasi masalah kelas tidak seimbang. RUSBoost merupakan kombinasi dari penarikan contoh acak undersampling dengan ensamble boosting, sedangkan UnderBagging adalah kombinasi dari penarikan contoh acak undersampling dengan ensamble bagging. Dari hasil analisis, algoritme RUSBoost dan UnderBagging terbukti dapat memberikan performa yang lebih baik secara signifikan dibandingkan pohon klasifikasi klasik. RUSBoost dan UnderBagging menghasilkan pembagi yang lebih baik antara mahasiswa drop out dan mahasiswa lulus yang ditunjukkan dari Area Under ROC yang lebih luas. RUSBoost dan UnderBagging lebih sensitif/peka dalam memprediksi mahasiswa bersiko drop out. Sementara jika menggunakan pohon klasifikasi klasik, maka diperoleh model klasifikasi dengan nilai akurasi tinggi namun tidak sensitif terhadap objek pada kelas drop out. Hasil dari pengklasifikasian data mahasiswa SPs IPB tahun 2008-2010 menggunakan algoritme RUSBoost dan UnderBagging diperoleh bahwa faktor yang mempengaruhi status mahasiswa drop out dan mahasiswa lulus adalah beasiswa dan IPK S1. Kata Kunci: Drop Out, Kelas Tidak Seimbang, ROC, RUSBoost, UnderBagging.
SUMMARY YULIANA PERMATASARI. Addressing Class Imbalance Problems Using RUSBoost and UnderBagging (Case on Drop Out Students in SPs IPB). Supervised by ASEP SAEFUDDIN and BAGUS SARTONO. Bogor Agricultural University Graduate School (SPs IPB) was built in 1975, from only seven study programs initially to 67 magister and 43 doctoral programs. SPs IPB is required to always improve the quality of education process and graduates. Part of approximation indicators for quality of the graduates are the period of study and the percentage of graduated students. The percentage of graduated students is the number of graduated students divided by the total number of graduate students. It is assumed that the number of graduated student are related to the quality of study program. More the drop out students the worse the quality. Therefore, this indicators should be considered by the IPB Graduate School (SPs). The aim of this study was to detect students at risk to study failure (drop out). Detection of students who are at risk to drop out can be analyzed by classification tree algorithm. Classification tree algorithm is a model containing a series of decisions to obtain an appropriate solution in which the response variable is categorical. In the application of the algorithm contains class imbalance problems which is the numbers of drop out students was much less than the number of passing student, is called class imbalance. Drop out students class with less instances was called minority or positive class, whereas passing class was called majority or negative class. Consequently, application of the classical tree classification algorithm was resulted to classification decision which were tend to the majority class while all samples of minority class were regarded as noise. This study was using RUSBoost and UnderBagging algorithm to handle class imbalance problems. RUSBoost is a combination of random under sampling and boosting, while UnderBagging is a combination of random under sampling and bagging. Both of them are using under sampling method, which eliminates several instances on majority class so that the number of instances on majority class is relatively same to minority class. The purpose of this combination is to create a powerful model in classifying class imbalance. Analysis results show that RUSBoost and Underbagging was proven to provide significantly better performance than using classical classification tree. RUSBoost and UnderBagging produced better separation between drop out class and passing class which is represents by higher Area Under Curve (ROC). RUSBoost and UnderBagging are more sensitive in predicting the risk of students who drop out than the classical classification tree. Whereas classical classification tree results classification model which had high accuracy performance, but was not sensitive to predict instances of drop out class. The classification of SPs IPB students in 2008-2010 using RUSBoost and UnderBagging algorithms shows that the factors which were affecting the status of drop out students and passing students were scholarship and GPA. Keywords: Drop Out, Class Imbalance, ROC, RUSBoost, UnderBagging.
© Hak Cipta Milik IPB, Tahun 2016 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB
i
PENANGANAN MASALAH KELAS TIDAK SEIMBANG DENGAN RUSBOOST DAN UNDERBAGGING (STUDI KASUS: MAHASISWA DROP-OUT SPs IPB PROGRAM MAGISTER)
YULIANA PERMATASARI
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika Terapan
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2016
ii
Penguji pada Ujian Tesis: Dr. Ir. I Made Sumertajaya, M.S
iii
Judul Tesis : Penanganan Masalah Kelas Tidak Seimbang dengan RUSBoost dan UnderBagging (Studi Kasus: Mahasiswa Drop Out SPs IPB Program Magister) Nama : Yuliana Permatasari NIM : G152130151
Disetujui oleh Komisi Pembimbing
Prof Dr Ir Asep Saefuddin, MSc Ketua
Diketahui oleh
Dr Bagus Sartono, MSi Anggota
iv
PRAKATA Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan tesis yang berjudul “Penanganan Masalah Kelas Tidak Seimbang dengan RUSBoost dan UnderBagging (Studi Kasus: Mahasiswa Drop Out SPs IPB Program Magister)”. Keberhasilan penulisan tesis ini tidak lepas dari bantuan, bimbingan, dan petunjuk dari berbagai pihak. Terima kasih penulis ucapkan kepada Bapak Prof. Dr. Ir. Asep Saefuddin, M.Sc dan Bapak Dr. Bagus Sartono, M.Si selaku pembimbing, atas kesediaan dan kesabaran untuk membimbing dan membagi ilmunya kepada penulis dalam penyusunan tesis ini. Terimakasih kepada Bapak Dr. Ir. I Made Sumertajaya, M.S selaku penguji luar komisi pembimbing atas masukan yang diberikan. Ucapan terima kasih juga penulis sampaikan sebesar-besarnya kepada seluruh Dosen Departemen Statistika IPB yang telah mengasuh dan mendidik penulis selama di bangku kuliah hingga berhasil menyelesaikan studi, serta seluruh staf Departemen Statistika IPB atas bantuan, pelayanan, dan kerjasamanya selama ini. Ucapan terima kasih yang tulus dan penghargaan yang tak terhingga juga penulis ucapkan kepada kedua orangtuaku Bapak Mukarramah Indra dan Ibu Ria Ningsih, kakakku Eka Widyaningsih, adik-adikku tersayang Intan Rosma Indra dan Berliana Nilam Indra serta seluruh keluarga atas doa dan semangatnya. Terakhir tak lupa penulis juga menyampaikan terima kasih kepada seluruh mahasiswa Pascasarjana Departemen Statistika atas segala bantuan dan kebersamaannya selama menghadapi masa-masa terindah maupun tersulit dalam menuntut ilmu, serta semua pihak yang telah banyak membantu dan tak sempat penulis sebutkan satu per satu. Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan. Bogor,
Februari 2016
Yuliana Permatasari
v
DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR DAFTAR LAMPIRAN
vi vi vi
1 PENDAHULUAN Latar Belakang Tujuan Penelitian
1 1 3
2 TINJAUAN PUSTAKA Mahasiswa drop out Pohon Klasifikasi Kelas Tidak Seimbang Teknik Resampling Metode Ensemble RUSBoost UnderBagging Tabel Klasifikasi
3 3 4 5 6 6 7 8 9
3 METODE Data Metode Analisis
11 11 11
4 HASIL DAN PEMBAHASAN Deskripsi Mahasiswa Sekolah Pascasarjana IPB Program Magister Model Klasifikasi Mahasiswa IPB Pohon Klasifikasi Klasik RUSBoost (Random Under Sampling dan Boosting) UnderBagging (Random Under-Sampling dan Bagging)
13 13 15 15 16 17
5 KESIMPULAN DAN SARAN Kesimpulan Saran
19 19 19
DAFTAR PUSTAKA
20
RIWAYAT HIDUP
25
vi DAFTAR TABEL 1 2 3 4 5 6 7
Tabel klasifikasi Peubah penyusun model Persentase mahasiswa drop out Sekolah Pascasarjana IPB Tabel klasifikasi hasil prediksi pohon klasifikasi klasik pada data latih dan uji Kinerja klasifikasi model pohon klasifikasi klasik (%) Kinerja model klasifikasi dari beberapa tingkat ketidakseimbangan RUSBoost (%) Kinerja model klasifikasi algoritme UnderBagging (%)
9 11 13 15 15 16 17
DAFTAR GAMBAR 1 2 3 4 5 6
Grafik persentase mahasiswa drop out SPs IPB program magister angkatan 2008-2010 3 Struktur pohon klasifikasi 4 Taksonomi metode berbasis ensemble 7 Ilustrasi proses UnderBagging 9 Kurva ROC dari beberapa tingkat ketidakseimbangan pada data latih (a) dan data uji (b) 16 Kurva ROC dari model klasifikasi UnderBagging dengan pengembalian (a) tanpa pengembalian (b) 17
DAFTAR LAMPIRAN 1 2 3 4 5 6 7
Persentase Kategori Peubah Penjelas dengan Peubah Respon Deskripsi Peubah Kontinu Diagram Pohon Klasifikasi Klasik Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan Pohon Klasifikasi Tunggal Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan metode RUSBoost Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan Metode UnderBagging Bobot pada pemodelan RUSBoost
21 21 22 23 23 23 24
1
1 PENDAHULUAN Latar Belakang Institut Pertanian Bogor (IPB) merupakan salah satu universitas negeri terkemuka di Indonesia yang didirikan pada tahun 1963. IPB telah berperan aktif dalam mengembangkan ilmu pengetahuan dan teknologi khususnya pada bidang pertanian, pertenakan, dan bioscience (IPB 2015). Berbagai kerjasama telah dibangun IPB dengan berbagai institusi dari dalam dan luar negeri dalam upaya mewujudkan visi dan misi yang diembannya. Demikian pula, prestasi tingkat nasional dan tingkat internasional telah diraih IPB. Pada tahun 1975, IPB mendirikan Sekolah Pascasarjana (SPs) sebagai program pascasarjana pertama di Indonesia. Perkembangannya semakin pesat, awalnya hanya tujuh program studi, kini terdapat 67 program studi magister dan 43 program studi doktoral (IPB 2014). Sekolah Pascasarjana dituntut untuk selalu memperbaiki kualitas, mendukung percepatan kemajuan yang dicapai oleh IPB, baik dari segi mutu proses penyelenggaraan pembelajaran maupun mutu lulusan. Salah satu cerminan dari mutu lulusan adalah persentase kelulusan mahasiswa. Persentase kelulusan mahasiswa yaitu persentase dari jumlah mahasiswa lulus dibagi dengan jumlah total mahasiswa pascasarjana pada setiap angkatan. Berdasarkan data yang diperoleh dari bagian akademik SPs IPB, terdapat mahasiswa drop out pada setiap angkatan, persentasenya semakin meningkat setiap angkatan. Hal ini dapat mempengaruhi tingkat mutu lulusan mahasiswa pascasarjana. Oleh karena itu dibutuhkan suatu model untuk mendeteksi mahasiswa yang berisiko drop out. Mendeteksi mahasiswa berisiko drop out pada saat penerimaan mahasiswa baru dapat menjadi suatu peringatan dini (early warning) bagi SPs IPB. SPs akan lebih waspada terhadap mahasiswa berisiko drop out, sehingga jumlah mahasiswa drop out dapat diminimalisir. Pendeteksian mahasiswa berisiko drop out dapat dibangun dengan menerapkan hasil pemodelan klasifikasi mahasiswa yang lulus maupun drop out. Klasifikasi adalah teknik data mining yang menempatkan suatu objek ke dalam satu gugus kategori berdasarkan objek atau konsep yang bersangkutan. Misalkan peubah penjelas ( , , … ) pada vektor , ruang contoh berisi vektor dan himpunan kelas peubah respon = {1,2, … . , }, menurut Breiman et al. (1984) klasifikasi adalah partisi ruang contoh menjadi kelas himpunan bagian yang saling lepas yaitu , … , dengan A j sedemikian sehingga untuk setiap j
∈ diprediksi ke dalam kelas . Tujuan utama klasifikasi adalah membangun sebuah model klasifikasi untuk menentukan suatu penciri/kelas dari suatu kelompok data. Model klasifikasi dibangun dari gugus data yang disebut data latih (training set), sedangkan proses pemodelan disebut latihan (training/learning). Sebelum digunakan untuk memprediksi suatu data yang tidak diketahui kelasnya, terlebih dahulu dilakukan uji validasi terhadap model klasifikasi (classifier/learner) yang diperoleh menggunakan gugus data uji. Ada banyak algoritme klasifikasi pada data mining, salah satunya CART (Classification and Regression Trees). CART terdiri dari dua yaitu pohon klasifikasi dan pohon regresi. Pohon klasifikasi adalah suatu gambaran pemodelan
2
dari suatu persoalan yang terdiri dari serangkaian keputusan yang mengarah kepada solusi dengan peubah responnya kategorik, sedangkan pohon regresi peubah responnya numerik (Breiman et al. 1984). Peubah respon dalam penelitian ini merupakan peubah kategorik, oleh karena itu digunakan pohon klasifikasi. Jumlah mahasiswa drop out jauh lebih sedikit dibandingkan mahasiswa lulus, sehingga data yang digunakan pada pemodelan tidak seimbang, hal ini dikenal dengan kelas tidak seimbang (class-imbalanced). Kelas dengan jumlah contoh lebih sedikit yang menjadi perhatian dalam penelitian disebut kelas minoritas (positif), sedangkan kelas yang lainnya disebut kelas mayoritas (negatif). Kelas tidak seimbang merupakan salah satu masalah yang muncul dalam pengklasifikasian, ketika menggunakan algoritme klasifikasi klasik keputusan akan lebih condong kepada kelas mayoritas, sedangkan kelas minoritas dalam pemodelan dianggap sebagai noise (Chawla et al. 2004). Oleh karena itu, kelas tidak seimbang harus ditangani untuk membentuk klasifikasi yang relevan. Ada banyak metode penanganan masalah kelas tidak seimbang. Galar et al. (2011) mengelompokan menjadi tiga pendekatan, yaitu level algoritme, level data, dan cost-sensitive learning. Pendekatan level algoritme dilakukan dengan membuat atau memodifikasi algoritme yang ada, untuk memperhitungkan pentingnya contoh pada kelas minoritas. Pendekatan level data menyeimbangkan kelas pada data latih dengan menambahkan/mereplikasi contoh pada kelas minoritas (oversampling) atau mengeliminasi contoh pada kelas mayoritas (undersampling). Cost-sensitive learning merupakan pendekatan yang menggabungkan level algoritme dan data. Selain ketiga pendekatan tersebut, metode ensemble dapat digunakan untuk menangani masalah kelas tidak seimbang, dengan cara menambahkan atau mengkombinasikan metode ensemble dengan salah satu dari ketiga pendekatan metode tersebut. Ensemble adalah metode yang menggabungkan beberapa klasifikasi tunggal dengan tujuan memperoleh suatu model klasifikasi yang lebih akurat. Metode gabungan terbaik berdasarkan penelitian Galar et al. (2011) adalah algoritme RUSBoost (Random Under-Sampling dan Boosting) dan UnderBagging (Under-Sampling dan Bagging). Penelitian ini menggunakan kedua algoritme tersebut untuk menangani masalah kelas tidak seimbang pada kasus mahasiswa drop out SPs IPB program magister.
Tujuan Penelitian Tujuan dari penelitian ini adalah menerapkan algoritme RUSBoost dan UnderBagging untuk penanganan masalah kelas tidak seimbang pada data mahasiswa SPs IPB program magister serta membandingkan hasil ketepatan klasifikasi dari keduanya.
3
2 TINJAUAN PUSTAKA Mahasiswa Drop Out Mahasiswa Drop Out adalah mahasiswa yang tidak diizinkan oleh SPs IPB untuk meneruskan pendidikannya (drop out), apabila mahasiswa tersebut melebihi jangka waktu studi dan atau melanggar ketentuan yang berlaku. Jangka waktu studi program magister di SPs IPB tidak lebih dari 48 bulan. Ketentuan yang berlaku di SPs IPB yaitu, IPK mahasiswa tidak kurang dari 3.00. Pada akhir semester satu dan dua SPs IPB memberikan evaluasi terhadap mahasiswa, apabila IPK mahasiswa kurang dari 3.00, maka mahasiswa tersebut tidak dapat meneruskan studinya. Selain itu, mahasiswa dinyatakan gagal dan drop out apabila mahasiswa tersebut gagal dua kali pada ujian tesis (IPB 2014). Persentase mahasiswa drop out Sekolah Pascasarjana IPB dapat dilihat pada grafik Gambar1.
Gambar 1 Grafik persentase mahasiswa drop out SPs IPB program magister tahun angkatan 2008-2010 Mahasiswa drop out merupakan salah satu persoalan yang masih menjadi perhatian bagi beberapa peneliti. Mariati (2005) menggunakan pohon klasifikasi untuk mengklasifikasikan mahasiswa statistika pascasarjana IPB hasilnya menunjukkan bahwa kelompok mahasiswa yang cenderung drop out adalah kelompok mahasiswa yang bukan sebagai dosen maupun peneliti, asal perguruan tinggi Jawa non BHMN dan luar Jawa, IPK S1 kurang dari 2,61. Larasati (2008) memprediksi keberhasilan mahasiswa program magister sains IPB menggunakan metode pohon regresi data lengkap dan data tersensor, yang mempengaruhi keberhasilan mahasiswa adalah status perguruan tinggi asal, akreditasi perguruan tinggi asal, IPK S1, dan sumber biaya pendidikan. Jajuli (2013) mengidentifikasi faktor-faktor berhenti studi mahasiswa pascasarjana IPB menggunakan Regresi Logistik dan Zero Inflated Poisson menyatakan bahwa kelompok mahasiswa lakilaki, mahasiswa yang S1 nya berasal dari perguruan tinggi swasta, mahasiswa dengan sumber biaya mandiri, dan mahasiswa yang tidak linier S1 memiliki peluang berhenti studi lebih tinggi.
4
Pohon Klasifikasi Pohon klasifikasi adalah suatu gambaran pemodelan dari suatu persoalan yang terdiri dari serangkaian keputusan yang mengarah kepada solusi dengan peubah responnya kategorik (Breiman et al. 1984). Tujuan dari pohon klasifikasi adalah untuk menduga nilai Y berdasarkan nilai X yang diketahui. Struktur pohon pada metode ini diperoleh melalui suatu algoritme penyekatan rekursif terhadap ruang penjelas X.
Gambar 2 Struktur pohon klasifikasi Pada tahap awal, seluruh gugus data berada pada akar simpul (root node) t yang kemudian disekat menjadi dua anak gugus data, simpul kiri dan kanan, tL dan tR. Simpul dengan kelas yang masih bercampur didalamnya disekat kembali hingga tidak dapat disekat lebih lanjut. Sekatan akhir yang dihasilkan disebut simpul akhir (terminal node), sedangkan sekatan yang masih mungkin disekat disebut simpul dalam (non-terminal node). Diagram pohon yang dihasilkan pohon klasifikasi merupakan suatu model yang akan diinterpretasikan ke dalam suatu tabel. Pembentukan pohon klasifikasi memerlukan empat komponen yaitu (Breiman et al.1984): 1. Segugus pertanyaan biner S Pohon klasifikasi dibentuk melalui penyekatan data pada tiap simpul menjadi dua anak simpul. Penyekat s dibangkitkan dari segugus pertanyaan S yang berbentuk pernyataan biner. Pembentukan pertanyaan dilakukan dengan aturan sebagai berikut: a. Setiap sekat tergantung pada nilai yang hanya berasal dari satu peubah penjelas. b. Untuk peubah penjelas kontinu , banyak sekat yang diperoleh adalah ≤ , dengan = 1,2, … , − 1 dan c adalah nilai tengah antara dua nilai amatan peubah berurutan yang berbeda. Jadi jika mempunyai n nilai yang berbeda maka akan terdapat sebanyak-banyaknya n-1 penyekatan. c. Jika peubah penjelas kategorik, penyekatan yang terjadi berasal dari semua kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint). Jika peubah merupakan peubah kategorik nominal dengan L kategori maka terdapat 2 − 1 penyekat, sedangkan jika peubah kategorik ordinal maka terdapat − 1 penyekat.
5
2.
Kriteria kebaikan sekat (goodness of split) Kriteria kebaikan sekat merupakan alat evaluasi untuk melihat kebaikan sekat-s pada simpul t. Jika sekat s pada simpul t menyekat data dengan proporsi ke dalam simpul bagian kanan dan dengan proporsi ke dalam simpul bagian kiri , maka kebaikan sekat didefinisikan sebagai penurunan nilai impurity: ∆ ( , )= ( )−
( )−
( ).
Keheterogenan data (impurity) pada setiap simpul diukur dengan formula berikut: ( )=−
( | ) log
(| )
dengan ( ) merupakan fungsi keheterogenan yang melibatkan ( | ) proporsi kelas j pada simpul t. Nilai ( ) berkisar antara nol dan satu, ( ) bernilai maksimum ketika kelas dalam simpul masih bercampur, sebaliknya akan bernilai minimum ketika kelas dalam simpul telah homogen. 3. Aturan penghentian penyekatan (stop-spliting rule) akan menentukan saat suatu simpul tidak dapat disekat lebih lanjut. Misalkan threshold > 0 , simpul t dikatakan simpul akhir apabila max ∈ ∆ ( , ) < . 4. Aturan penetapan tanda kelas pada setiap simpul akhir. Misalkan pohon klasifikasi dibangun dan memiliki simpul akhir , aturan penetapan kelas ∗ ( ) pada simpul akhir adalah jika ( | ) = max ( | ) , maka ∗ ( ) = . Jika nilai maksimum terdapat pada dua atau lebih kelas yang berbeda, maka ∗ ( ) salahsatu dari yang memaksimumkan kelas.
Kelas Tidak Seimbang Kelas tidak seimbang terjadi ketika jumlah contoh suatu kelas secara ekstrim jauh lebih banyak dari kelas yang lain. Kelas dengan jumlah contoh yang lebih banyak disebut kelas mayoritas sedangkan kelas yang lain disebut kelas minoritas. Dalam aplikasi, rasio kelas minoritas dengan mayoritas dapat sebesar 1:100, 1:1000, 1:10000 atau bahkan lebih. Masalah kelas tidak seimbang sering terjadi pada kehidupan seperti; kesalahan diagnosis/pemantauan medis, manajemen risiko, pelanggan fraud, credit scoring, dan banyak kasus lainnya (Chawla et al. 2004). Melakukan klasifikasi pada data dengan kelas tidak seimbang akan menghasilkan klasifikasi yang bias, contoh pada kelas minoritas dianggap sebagai noise sehingga hasil akhir klasifikasi cenderung pada kelas yang memiliki komposisi data yang lebih besar. Pada kasus mahasiswa SPs IPB program magister tingkat persentase mahasiswa lulus 90.87%, algoritme klasifikasi klasik yang meminimalkan tingkat kesalahan akan mengklasifikasikan semua mahasiswa sebagai kelas mayoritas (mahasiswa lulus) untuk mencapai tingkat kesalahan rendah 9.03%. Namun, semua contoh pada kelas minoritas (mahasiswa drop out) akan diklasifikasikan ke dalam kelas mayoritas. Sebelumnya telah dijelaskan
6
beberapa pendekatan untuk menangani masalah kelas tidak seimbang, yaitu pendekatan level algoritme (internal), pendekatan level data (eksternal), dan pendekaatan cost-sensitive learning. 1. Pendekatan level algoritme dilakukan dengan membuat atau memodifikasi algoritme yang ada, untuk memperhitungkan pentingnya contoh mayoritas. 2. Pendekatan level data yaitu dengan menambahkan langkah penarikan contoh resampling pada tahap pre-processing. Resampling menyeimbangkan distribusi data untuk mengurangi efek dari distribusi kelas tak seimbang dalam proses pemodelan dengan melakukan beberapa metode resampling seperti; oversampling, undersampling, atau gabungan dari kedua metode. 3. Metode cost-sensitive merupakan pendekatan yang menggabungkan algoritme dan data tingkat untuk memasukkan kesalahan biaya klasifikasi masing-masing kelas pada tahap latihan. Selain ketiga pendekatan tersebut, ensemble juga dapat digunakan untuk menangani masalah kelas tidak seimbang dengan cara mengkombinasi ensemble dengan salah satu pendekatan tersebut.
Tenik Resampling Teknik resampling adalah proses manipulasi sebaran contoh pada data dalam upaya meningkatkan kinerja pengklasifikasian. Proses resampling dilakukan pada tahap pre-processing, sebelum proses pemodelan. Tujuan dari resampling adalah untuk menyeimbangkan gugus data yang tidak setimbang dengan oversampling pada kelas minoritas atau dengan undersampling pada kelas mayoritas. Oversampling meningkatkan ukuran kelas minoritas pada gugus data latih dengan mereplikasi contoh pada kelas minoritas hingga diperoleh ukuran contoh yang diinginkan. Mereplikasi contoh pada kelas minoritas memungkinkan terjadinya overfitting. Undersampling merupakan metode resampling yang lebih efisien bila dibandingkan dengan oversampling, dengan menghilangkan beberapa contoh pada kelas mayor, gugus data menjadi lebih seimbang dan proses klasifikasi lebih cepat. Namun, undersampling memiliki kelemahan yaitu kehilangan beberapa informasi yang berguna pada contoh yang terbuang. Metode Ensemble Pengklasifikasian berbasis ensemble didesain untuk meningkatkan keakuratan pada klasifikasi tunggal dengan menginduksi dan menggabungkan beberapa klasifikasi tunggal. Secara umum, ensemble membangun model dengan dua tahap yaitu memodelkan beberapa klasifikasi dari data latih dan kemudian hasil prediksi tersebut dikombinasi untuk menentukan kelas dari data yang belum diketahui kelas sebelumnya. Metode ensemble yang populer digunakan adalah Bagging dan Boosting (Zhou 2012). Bagging adalah metode ensemble yang dikenalkan oleh Breiman pada tahun 1996 yang merupakan akronim dari bootstrap dan aggregrating. Metode ini
7
membangun m gugus data baru dari gugus data menggunakan teknik resampling booostrap, kemudian dari masing-masing gugus data dilakukan proses klasifikasi. Hasil dari klasifikasi tersebut di-voting untuk memperoleh prediksi akhir. Menggunakan Bagging ditujukan untuk mereduksi ragam dari peubah penjelas. Boosting secara umum berfokus untuk membuat deret klasifikasi, setiap pengklasifikasi pada Boosting menggunakan data yang sama tetapi memiliki sebaran bobot yang berbeda pada setiap iterasi, tergantung pada klasifikasi sebelumnya. Penggunaan bobot juga dilakukan pada saat proses penggabungan dugaan akhir dari banyak pohon yang dihasilkan (Sartono & Syafitri 2010). Belakangan ini, klasifikasi ensemble muncul sebagai salah satu solusi dalam penanganan masalah kelas tidak seimbang dengan cara mengkombinasikan ensemble dengan salah satu pendekatan. Berikut taksonomi ensemble untuk menangani masalah kelas tidak seimbang: Ensemble pada Kelas Tidak Seimbang
Data Preprocessing Ensemble Learnig
Cost-Sensitive Boosting
Baggingbased OverBagging UnderBagging
Boosting -based SMOTEBoost MSMOTEBoos
+
Hybrid EasyEnsemble BalanceCascade
Gambar 3 Taksonomi metode berbasis ensemble
RUSBoost RUSBoost, metode baru yang mulai ramai diperbincangkan merupakan gabungan dari random under-sampling (RUS) dengan metode ensemble yaitu boosting. Boosting adalah metode yang meningkatkan akurasi model klasifikasi dengan mengkombinasikan beberapa model klasifikasi tunggal. Model klasifikasi dilatih berulang kali menggunakan data latih yang sama tetapi memiliki sebaran bobot yang berbeda pada setiap iterasi. Setelah proses iterasi selesai, model klasifikasi yang diperoleh digabungkan. Algoritme RUSBoost menambahkan teknik resampling yaitu random undersampling pada algoritme boosting. Pada setiap iterasi, learner dilatih dengan data yang dibangkitkan dengan penarikan contoh acak undersampling setelah penambahan bobot. Oleh karena itu, pada algoritme RUSBoost contoh pada kelas mayoritas dihilangkan terlebih dahulu kemudian mengikuti tahap per tahap proses boosting pada data yang tersisa. Proses penarikan contoh dan boosting diulang berkali-kali. Seieffert (2010) memaparkan algoritme RUSBoost sebagai berikut: Andaikan gugus data yang kita miliki terdiri atas m pengamatan, dengan y sebagai
8
peubah respon yang memiliki k kelas. Secara ringkas, tahapan algoritme tersebut dapat dituliskan sebagai berikut: 1. Penentuan awal bobot setiap pengamatan, yaitu ( ) = 1/m untuk semua = 1,2, … , 2. Misalkan t adalah nomor iterasi, maka untuk t = 1, 2, … T lakukan proses berikut: a. Buat gugus data dengan menggunakan random undersampling b. Bangun model klasifikasi dari gugus data dengan memperhatikan bobot sebesar c. Hitung tingkat kesalahan klasifikasi ( ) 1−ℎ ( , )+ℎ ( , ) .
= ( , );
d. Hitung
sebagai
=
1− e. Tentukan bobot yang baru untuk setiap pengamatan menjadi (
( , )
( , :
)
( )= ( ) untuk pengamatan yang salah klasifikasi, sedangkan untuk pengamatan yang diduga dengan tepat maka bobotnya tetap 3. Dugaan akhir adalah kelas k yang memiliki nilai terbesar dari T 1 H ( x ) arg max ht ( x, y ) log t yY t 1
UnderBagging Metode UnderBagging merupakan metode gabungan antara teknik penarikan contoh undersampling dengan bagging yang pertama kali dikenalkan oleh Barandela et al. (2003). Tujuan pembentukan metode ini adalah untuk mengatasi kesulitan pemodelan pada data dengan kelas tidak seimbang. Algoritme UnderBagging serupa dengan algoritme bagging ensamble yaitu, membangun beberapa gugus data dari data latih dan kemudian hasil masingmasing klasifikasi diagregat. UnderBagging membangkitkan gugus data baru dari data latih sebanyak T, yaitu rasio dari jumlah contoh pada kelas mayoritas dan kelas minoritas. Masingmasing gugus data terdiri dari semua contoh pada kelas minoritas dan dengan jumlah yang sama dipilih secara acak dengan atau tanpa pengembalian dari kelas mayoritas. Kemudian, dari masing-masing gugus data tersebut dibentuk pohon klasifikasi. Pada tahap pengujian setiap pohon klasifikasi dihitung peluang respon dari tiap observasi dan menghitung ketepatan klasifikasi dan kesalahan klasifikasi (misclassification). Klasifikasi kelas yang dihasilkan pada T gugus data tersebut di voting dan kemudian hasil voting disesuaikan dengan keadaan yang sebenarnya.
9
Data Random
Gug us data
Undersampling
Gug us data
Gug us data
...
Latihan (training) Lea rner 1
Lea rner 2
Lea rner t
...
Metode
Voting
Hasi Gambar 4 Ilustrasi proses UnderBagging
Tabel Klasifikasi Tabel klasifikasi adalah tabel yang terdiri dari data aktual dan data prediksi, tabel ini digunakan dengan tujuan untuk mengukur kinerja suatu model klasifikasi. Berikut ini merupakan tabel klasifikasi dengan dua kelas (Chawla et al. 2002): Aktual Kelas Positif Kelas Negatif Keterangan: TP (True Positive) TN (True Negative) FP (False Positive) FN (False Negative)
Tabel 1 Tabel klasifikasi Prediksi Kelas Positif TP FP
Kelas Negatif FN TN
: Jumlah prediksi yang benar dari data yang positif. : Jumlah prediksi yang benar dari data yang negatif. : Jumlah prediksi yang salah dari data yang negatif. : Jumlah prediksi yang salah dari data yang positif.
Dari Tabel Klasifikasi dapat diukur nilai akurasi, sensitivity, dan specifity sebagai berikut: + = + + +
10
= =
+ +
Receiver Operating Characteristic (ROC) merupakan kurva analisis yang juga digunakan untuk mengukur kinerja suatu model klasifikasi. Kurva ROC memplotkan true positive rate (TPR) = /( + ) pada y-axis dan peluang false positive rate (FPR) = /( + ) pada x-axis. Dalam kurva ROC terdapat garis diagonal yang menghubungkan titik (0,0) dan (1,1). Titik yang berada di atas garis diagonal menunjukkan hasil klasifikasi yang baik, sedangkan titik yang berada di bawah garis menunjukkan hasil yang salah. Prediksi terbaik yaitu sensitivity 100% dan specifity 100%, yang berada di titik (0,1). Kurva ROC dapat diubah ke dalam bentuk skalar, salah satunya AUC. AUC adalah suatu bagian dari daerah satuan persegi yang nilainya antara 0 hingga 1. Nilai AUC semakin mendekati satu maka akurasi model klasifikasi semakin tinggi (Fawcett 2006).
11
3 METODE Data Penelitian ini menggunakan data sekunder mahasiswa Sekolah Pascasarjana IPB program magister tahun angkatan 2008, 2009, dan 2010. Data diperoleh dari bagian akademik SPs IPB. Jumlah amatan sebanyak 2326 mahasiswa, dengan 2116 amatan mahasiswa lulus dan 210 amatan mahasiswa drop out. Mahasiswa drop out yaitu mahasiswa yang memiliki IPK kurang dari 3.00 pada tahun pertama perkuliahan dan atau mahasiswa yang tidak dapat menyelesaikan perkuliahan kurang dari 48 bulan. Persentase mahasiswa SPs IPB program magister yang di-drop out sebesar 9.03%. Peubah yang digunakan pada penelitian ini adalah: Tabel 2 Peubah penyusun model Peubah Y
Nama Peubah Mahasiswa berhenti kuliah
X1
Jenis kelamin
X2
Status perkawinan
X3
Status pekerjaan
X4
Sumber biaya pendidikan
X5
Status perguruan tinggi asal
X6
Daerah perguruan asal
X7
Akreditasi perguruan tinggi asal
X8 X9
Kategori Peubah 0 = Lulus 1 = Drop Out 0 = Perempuan 1 = Laki-laki 0 = Belum menikah 1 = Menikah 2 = Janda/duda 0 = Belum bekerja 1 = Bekerja 0 = Mandiri 1 = Beasiswa 0 = Negeri 1 = Swasta 2 = Kedinasan 0 = Luar Jawa 1 = Jawa 1=A 2=B 3=C 4=D
Usia IPK S1 (skala 0-4)
Skala Kategorik Kategorik Kategorik Kategorik Kategorik Kategorik Kategorik
Ordinal Rasio Rasio
Metode Analisis Langkah-langkah analisis data yang dilakukan dalam penelitian ini adalah sebagai berikut: 1. Melakukan eksplorasi data untuk mengetahui gambaran umum data.
12
2.
3.
Membagi gugus data menjadi dua bagian data latih dan data uji dengan proporsi kelas tetap sama, menggunakan simple random sampling sehingga diperoleh 80% untuk data latih dan selebihnya 20% untuk data uji Membangun pohon klasifikasi dari data latih a. Menggunakan Random Under Sampling Boosting (RUSBoost) untuk berbagai proporsi tingkat keseimbangan antara kelas mayoritas dengan kelas minoritas pada proses penarikan contoh acak undersampling, yaitu RB1 [50:50], RB2 [55:45] , RB3 [60:40], RB4 [65:35], dan RB5 [70:30]. b. Menggunakan UnderBagging dengan pengembalian 1) Membuat gugus data baru sebanyak p, p adalah rasio jumlah kelas mayoritas dengan kelas minoritas. Setiap gugus data berisi keseluruhan contoh kelas minoritas dan dengan jumlah yang sama contoh kelas mayoritas yang diboostrap dengan pengembalian. 2) Membuat pohon klasifikasi h(x) pada masing-masing gugus data 3) Maka pohon klasifikasi akhir H(x) T
H ( x ) arg max (ht ( x) y ) . yY
4. 5. 6. 7.
t 1
c. Menggunakan UnderBagging tanpa pengembalian Proses yang sama pada langkah 3b tapi pada langkah 3a.1) dilakukan boostrap tanpa pengembalian. Melakukan uji pada gugus data uji dengan menggunakan pohon klasifikasi yang telah diperoleh dari langkah 3 Menghitung nilai accuracy, sensitivity, dan specifity. Memilih model terbaik berdasarkan nilai AUC (Area Under Curve ROC) dan akurasi. Mengidentifikasi faktor-faktor yang mempengaruhi mahasiswa drop out.
13
4 HASIL DAN PEMBAHASAN Deskripsi Mahasiswa Sekolah Pascasarjana IPB Program Magister Mahasiswa Sekolah Pascasarjana (SPs) IPB program magister berjumlah kurang lebih 700 orang tiap angkatan. Pada setiap angkatan masih terdapat mahasiswa drop out, mahasiswa drop out di SPs IPB adalah mahasiswa ber-IPK kurang dari 3.00 pada tahun pertama perkuliahan dan mahasiswa dengan masa perkuliahan lebih dari 48 bulan. Gambaran umum tentang mahasiswa drop out SPs IPB program magiter dapat dilihat dari Tabel 3. Tabel 3. Persentase mahasiswa drop out Sekolah Pascasarjana IPB Angk atan (tahun ) 2008 2009 2010 Total
Jumlah Mahasiswa 700 727 689 2326
Drop Out 60 77 73 210
Pers entase 7.89 9.57 9.58 9.03
Berdasarkan Tabel 3, dapat dilihat bahwa dari 2326 mahasiswa SPs IPB program magister, sebanyak 210 (9.03%) mahasiswa yang terkena drop out. Persentase mahasiswa drop out pada setiap angkatannya terus meningkat. Pada mahasiswa angkatan 2008, 2009, dan 2010 terdapat mahasiswa drop out dengan persentase sebesar 7.89%, 9.57%, dan 9.58%. Gambaran data mahasiswa SPs IPB program magister secara keseluruhan dapat dilihat pada Lampiran 1 dan 2. Berikut ini akan dijelaskan mahasiswa drop out SPs IPB program magister berdasarkan karakteristiknya: 1) Peubah Jenis Kelamin. Mahasiswa berjenis kelamin perempuan lebih banyak dibandingkan dengan mahasiswa berjenis kelamin laki-laki, yaitu sebesar 53.87%. Namun mahasiswa berjenis kelamin laki-laki memiliki persentase drop out lebih besar dari mahasiswa berjenis kelamin perempuan. Hal ini dikarenakan perempuan cenderung lebih rajin dan ulet dibandingkan laki-laki, sedangkan mahasiswa laki-laki cenderung aktif pada kegiatan diluar perkuliahan seperti: olahraga, organisasi, dan lain sebagainya. Rasio odd dari mahasiswa drop out antara laki-laki dan perempuan sebesar 1.14, artinya risiko terjadinya drop out pada mahasiswa laki-laki 1.14 kali risiko terjadinya drop out pada mahasiswa perempuan. 2) Peubah Status Perkawinan. Mahasiswa belum menikah sebesar 50.56%, sedangkan mahasiswa menikah sebesar 44.56% dan sisanya 4.88% berstatus janda/duda. Persentase drop out mahasiswa berstatus menikah lebih kecil dibandingkan mahasiswa belum menikah serta mahasiswa janda/duda. Hal ini karena seseorang yang berstatus menikah memiliki tanggung-jawab dan disiplin yang tinggi pada dirinya sendiri maupun keluarga. 3) Peubah Status Pekerjaan. 70.51% dari mahasiswa SPs IPB tahun angkatan 2008-2010 berstatus bekerja. Mahasiswa berstatus bekerja memiliki persentase drop out lebih kecil dibandingkan mahasiswa berstatus tidak
14
4)
5)
6)
7)
8) 9)
bekerja. Hal ini dikarenakan sebahagian besar mahasiswa dengan status bekerja merupakan mahasiswa yang mendapatkan tugas belajar dari instansi terkait, sehingga memiliki tanggungjawab lebih dibandingkan mahasiswa tidak bekerja. Rasio odd dari mahasiswa drop out antara mahasiswa tidak bekerja dan bekerja sebesar 2.42, artinya risiko terjadinya drop out pada mahasiswa tidak bekerja 2.42 kali risiko terjadinya drop out pada mahasiswa berstatus bekerja. Peubah Sumber Biaya Pendidikan. Persentase drop out mahasiswa biaya mandiri lebih besar dari mahasiswa beasiswa. Mahasiswa biaya mandiri memiliki peluang risiko terjadinya drop out 3.90 kali peluang risiko terjadinya drop out pada mahasiswa penerima beasiswa. Hal ini dikarenakan beasiswa mampu mendorong dan mempertahankan semangat belajar mahasiswa untuk menyelesaikan pendidikan tepat waktu, sedangkan mahasiswa biaya mandiri mempunyai beban lebih yaitu biaya kuliah Peubah Status Perguruan Tinggi asal. SPs IPB didominasi oleh mahasiswa yang berasal dari perguruan tinggi negeri (83.83%), kemudian dari perguruan tinggi swasta (14.62%), dan hanya 1.55% berasal dari perguruan tinggi kedinasan. Persentase drop out mahasiswa yang berasal dari perguruan tinggi swasta lebih besar dibandingkan mahasiswa yang berasal dari perguruan tinggi negeri dan perguruan tinggi kedinasan. Hal ini dikarenakan IPB merupakan perguruan tinggi negeri sehingga terdapat perbedaan lingkungan dan sistem pengajaran bagi mahasiswa dari perguruan tinggi swasta, selain itu kualitas dan kuantitas mahasiswa antar perguruan tinggi negeri dengan swasta tentu berbeda. Peubah Daerah Perguruan Tinggi asal. Mahasiswa sebahagian besar (61.32%) berasal dari perguruan tinggi di Pulau Jawa, dan sisanya (32.68%) berasal dari perguruan tinggi di luar Pulau Jawa. Persentase drop out mahasiswa asal perguruan tinggi Pulau Jawa lebih besar dari mahasiswa asal luar Pulau Jawa. Mahasiswa asal perguruan tinggi Pulau Jawa memiliki risiko drop out 1.268 kali risiko drop out mahasiswa yang berasal dari perguruan tinggi luar Pulau Jawa. Peubah Akreditasi Perguruan Tinggi asal. Mahasiswa yang berasal dari perguruan tinggi berakreditasi C memiliki persentase drop out lebih besar dibandingkan mahasiswa yang berasal dari perguruan tinggi berakreditasi A dan B. Hal ini dikarenakan kualitas dan kuantitas suatu perguruan tinggi dapat ditunjukkan dari nilai akreditasi perguruan tinggi tersebut, semakin baik nilai akreditasi artinya kualitas dan kuantitas perguruan tinggi tersebut lebih baik. Oleh karena itu, lulusan perguruan tinggi dengan akreditasi yang lebih baik tentunya lebih baik dan mampu bersaing. Peubah Usia. Rata-rata mahasiswa masuk pada usia 30 tahun, dengan usia paling muda 20 tahun dan paling tua 61 tahun. Peubah Indeks Pretasi Kumulatif (IPK) S1. Mahasiswa memiliki rata-rata IPK S1 sebesar 3.15, nilai IPK tertinggi 4.00 dan IPK terendah 2.06. Persentase drop out pada mahasiswa ber-IPK S1 kurang dari 2.75 lebih besar dibandingkan mahasiswa ber-IPK S1 lebih dari 2.75. Risiko drop out pada mahasiswa ber-IPK S1 kurang dari 2.75 sebesar 1.56 kali risiko drop out pada mahasiswa ber-IPK S1 lebih dari 2.75.
15
Model Klasifikasi Mahasiswa IPB Pohon Klasifikasi Klasik Pohon klasifikasi dibangkitkan dari data latih yang berjumlah 1860 mahasiswa dengan batas pemberhentian sekat β = 0.004. Peubah yang paling mempengaruhi pemodelan adalah peubah status sumber biaya, usia, dan status pekerjaan. Model klasifikasi yang dihasilkan berbentuk pohon dengan enam simpul yang dapat dilihat pada Lampiran 3. Pohon klasifikasi yang diperoleh dapat digunakan untuk memprediksi status mahasiswa SPs IPB program magister, masuk ke dalam kelas lulus atau kelas drop out. Prediksi menggunakan pohon klasifikasi, mahasiswa dengan status sumber biaya mandiri, status perguruan tinggi asal swasta dan kedinasan, belum menikah, akreditasi PT asal A dan B, usia lebih dari 24 tahun, dan IPK kurang dari 3.4 diprediksi ke dalam kelas mahasiswa drop out. Hasil prediksi pada data latih dan uji dapat dilihat pada Tabel 4. Tabel 4 Tabel klasifikasi hasil prediksi pohon klasifikasi klasik pada data latih dan uji Prediksi Aktual Drop
Data Latih Drop Lulu Out s 6 165
Data Uji Drop Lulu Out s 0 39
Out Lulus
1
168
2
425
8 Berdasarkan Tabel 4, sebanyak 166 dari 1860 amatan pada gugus data latih salah dalam pengklasifikasian. Pada gugus data uji, 41 dari 466 amatan salah dalam pengklasifikasian. Untuk melihat kebaikan kinerja dari hasil model klasifikasi dihitung nilai akurasi, sensitivity, dan specificity. Penerapan metode pohon klasifikasi klasik pada mahasiswa SPs IPB program magister, diperoleh kebaikan kinerja yang dapat dilihat pada Tabel 5. Tabel 5 Kinerja klasifikasi model pohon klasifikasi klasik (%) Akurasi Sensitivity Specificity AUC
Data Latih 91.08 03.59 99.94 51.77
Data Uji 91.20 00.00 99.53 49.77
Berdasarkan hasil perhitungan pada Tabel 5, tingkat akurasi model klasifikasi pada data latih dan data uji sangat baik, yaitu 91.80% dan 91.20%, kesalahan klasifikasi yang diberikan kurang dari 10%. Akan tetapi nilai sensitivity dari kedua gugus data tersebut sangat kecil. Hal ini menyebabkan prediksi model akan lebih condong kepada kelas mayoritas (kategori mahasiswa lulus). Nilai
16
AUC pada data latih sebesar 51.77 dan pada data uji sebesar 49.77%, menunjukkan bahwa model tidak cukup baik.
RUSBoost (Random Under Sampling dan Boosting) Sebelumnya telah diketahui bahwa pembangkitan model dengan pohon klasifikasi klasik memberikan model dengan kinerja yang tidak cukup baik. Masalah terjadi karena peubah respon pada gugus data yang digunakan memiliki kelas tidak seimbang, yaitu amatan pada kategori kelas lulus jumlahnya jauh lebih banyak dibandingkan amatan pada kategori kelas drop out. Random Under Sampling Boosting merupakan salah satu metode untuk menangani masalah kelas tidak seimbang. Model klasifikasi dibangun dari gugus data yang dibangkitkan dengan penarikan contoh acak undersampling. Gugus data akan dibangkitkan dengan lima proporsi yang berbeda antara lulus dan drop out, yaitu [0.5:0.5], [0.55:0.45], [0.6:0.4], [0.65:0.35], dan [0.7:0.3]. Peubah yang paling mempengaruhi pemodelan adalah peubah IPK S1 dan sumber biaya pendidikan, lihat Lampiran 5. Kinerja model klasifikasi yang dibangun dari gugus data dengan tingkat ketidakseimbangan yang berbeda-beda ditunjukkan oleh Tabel 6: Tabel 6 Kinerja model klasifikasi dari beberapa tingkat ketidakseimbangan RUSBoost (%) Proporsi Data Latih Data Uji lulus dan drop Nama A Ak AU A out UC urasi C kurasi 6 RUSBo 0.50:0.50 67. 67.4 7 5.45 ost-1 0.55:0.45 15 1 6.88 6 RUSBo 0.60:0.40 66. 7 65.7 ost-2 0.65:0.35 45 3.73 6.59 7 RUSBo 0.70:0.30 66.9 7 7 74. ost-3 2 2.10 5.38 84 RUSBo 7 65.1 79. 7 ost-4 1.48 0 78 5.97 RUSBo 7 64.2 83. 8 ost-5 1.26 9 82 0.90
17
(a)
(b)
Gambar 5 Kurva ROC dari beberapa tingkat ketidakseimbangan pada data latih (a) dan data uji (b) Dari Tabel 6 telihat bahwa nilai AUC meningkat ketika jumlah amatan pada kelas mayoritas yang dieliminasi mendekati jumlah amatan pada kelas minoritas. Pada nilai akurasi terjadi sebaliknya, ketika jumlah amatan pada kelas mayoritas yang dieliminasi mendekati jumlah amatan pada kelas minoritas maka nilai akurasi akan semakin menurun. Kurva ROC pada Gambar 5 menunjukkan bahwa skala horizontal merupakan nilai false positive rate (1-specificity) dan skala vertikal merupakan nilai true positive rate (sensitivity). Berdasarkan kurva tersebut RUSBoost dengan proporsi [0.5:0.5], [0.55:0.45], dan [0.6:0.4] memberikan hasil yang lebih baik dibandingkan proporsi [0.65:0.35], dan [0.7:0.3]. UnderBagging (Random Under-Sampling dan Bagging) Sebelumnya telah ditampilkan hasil dari algoritme RUSBoost, diketahui bahwa algoritme RUSBoost dapat menangani masalah kelas tidak seimbang. Selain menggunakan algoritme RUSBoost, Random UnderSampling dan Bagging juga dapat digunakan untuk menangani masalah kelas tidak seimbang. Tahap Boostrap pada penelitian ini dilakukan dengan dan tanpa pengembalian sebanyak 11 gugus data. Dari kesebelas gugus data tersebut dibagun model klasifikasi. Membangun model klasifikasi status mahasiswa SPs IPB program magister dengan algoritme UnderBagging, peubah yang muncul sebagai peubah yang memberikan konstribusi terbesar adalah peubah sumber biaya pendidikan, 37% pada UnderBagging dengan pengembalian dan 30% pada UnderBagging tanpa pengembalian. Sebaliknya, peubah status, akreditasi, dan wilayah perguruan tinggi asal dan jenis kelamin tidak memberikan konstribusi terhadap pemodelan. Untuk mengetahui lebih jelas konstribusi dari masing-masing peubah, dapat dilihat pada Lampiran 6. Hasil kinerja dari model klasifikasi yang dibangun oleh algoritme UnderBagging ditunjukkan pada Tabel 7: Tabel 7 Kinerja model klasifikasi algoritme UnderBagging (%)
Akura
Dengan Pengembalian Data Data Uji Latih 60.75 56.65
Tanpa Pengembalian Data Data Uji Latih 59.73 57.73
si Sensiti
83.33
71.43
82.14
76.19
Specifi
58.51
55.19
57.51
55.90
AUC
77.46
63.66
76.78
67.78
vity city Tabel 7 menunjukkan bahwa algoritma UnderBagging juga dapat menangani masalah kelas tidak seimbang. Nilai akurasi, sensitivity, specificity,
18
dan AUC dari UnderBagging dengan pengembalian terhadap data latih lebih baik dibandingkan UnderBagging tanpa pengembalian. Sebaliknya, pada uji validasi UnderBagging tanpa pengembalian lebih baik.
(a)
(b)
Gambar 6 Kurva ROC dari model klasifikasi UnderBagging dengan pengembalian (a) tanpa pengembalian (b)
19
5 KESIMPULAN DAN SARAN Kesimpulan Penelitian terhadap mahasiswa SPs IPB program magister tahun angkatan 2008-2010, peubah respon dengan dua kategori yaitu mahasiswa drop out dan mahasiswa lulus. Memiliki masalah kelas tidak seimbang yaitu, 9.03% kelas drop out dan 90.7% kelas lulus. Dari penelitian yang penulis lakukan dapat disimpulkan: 1. Apabila membangun model dari data dengan kelas tidak seimbang menggunakan algorime pohon klasifikasi klasik, maka tidak akan efektif. Model yang dihasilkan akan memiliki nilai akurasi yang tinggi dengan kesalahan hanya sebesar 9.03%. Namun, kesalahan ini diperoleh dari kesalahan model mengklasifikasikan kelas minoritas. Secara keseluruhan amatan pada kelas minoritas dikelompokkan ke dalam kelas mayoritas. Jadi, kepekaan model klasifikasi terhadap kelas minoritas sangat buruk. 2. Algoritme RUSBoost dan UnderBagging dapat menangani masalah kelas tidak seimbang. Menggunakan salahsatu dari algoritme tersebut pada pohon klasifikasi dapat meningkatkan kepekaan model klasifikasi terhadap kelas minoritas. Dalam menangani masalah kelas tidak seimbang algoritme RUSBoost lebih baik dibangdingkan UnderBagging. Namun pada proses komputasi, UnderBagging lebih mudah, cepat dan ringan. 3. Peubah yang berkonstribusi lebih pada pengklasifikasian mahasiswa drop out berdasarkan hasil pemodelan menggunakan pohon klasifikasi klasik, RUSBoost, dan UnderBagging adalah peubah sumber biaya pendidikan dan IPK S1. Sebaliknya, peubah jenis kelamin dan status, wilayah, dan akreditasi perguruan tinggi asal tidak banyak berkonstribusi pada pemodelan.
Saran Dari hasil penelitian ini, model dari kedua pendekatan pohon klasifikasi (RUSBoost dan UnderBagging) dapat digunakan untuk mendeteksi mahasiswa berisiko drop out. SPs IPB dapat menjadikan nilai mutu (IPK) S1 dan sumber biaya pendidikan sebagai indikator utama dalam seleksi penerimaan mahasiswa magister.
20
DAFTAR PUSTAKA Agresti A. 2002. Categorical Data Analysis. John Willey & Sons, Inc. New York. Barandela R, Sanchez JS, Valdovinos RM. 2003. New Appllications of Ensembles of Classifiers. Pattern Anal Applic 6: 245-256. Breiman L, Friedman JH, Olshen RA, Stone CJ. 1984. Classification and Regression Trees. New York: Chapman & Hall/CRC. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research. Vol 16:321–357. Chawla NV, Japkowicz N, Kolcz A. 2004. Editorial: Special Issue on Learning from Imbalanced Data Sets. ACM SIGKDD Explorations. Vol. 6:1-6. Fawcett T. 2006. An Introduction to ROC analysis. Pattern Recognition Letters. 27:861-874. Galar M, Fernandez A, Barrenechea E, Bustince H, Herrera F. 2011. A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and HybridBased Approaches. IEEE Transactions on Systems 42: 463-484. Hutabarat IM. 2005. Pohon Klasifikasi dan Pohon Regresi Keberhasilan Mahasiswa Pascasarjana Program Studi Statistika IPB. [Thesis]. Bogor. Institut Pertanian Bogor. [IPB] Institut Pertanian Bogor. 2014. Katalog Program Pascasarjana IPB. Bogor: Institut Pertanian Bogor. ____________. 2015. About IPB [Internet]. [diunduh 2015 Des 25]. Tersedia pada: http://ipb.ac.id/about. Jajuli M. 2010. Identifikasi Faktor-Faktor Berhenti Studi Mahasiswa Pascasarjana IPB Menggunakan Regresi Logistik dan Zero Inflated Poisson. [Thesis]. Bogor. Institut Pertanian Bogor. Larasati SK. 2008. Prediksi Keberhasilan Mahasiswa Program Magister Sains IPB Menggunakan Metode Pohon Regresi Data Lengkap dan Data Tersensor. [Skripsi]. Bogor. Institut Pertanian Bogor. Liu XY, Wu J, Zhou Z. Exploratory Undersampling for Class-Imbalance Learning. IEEE Transactions on Systems, Man and Cybernetics. Part.B: 1-14. Sartono B dan Syafitri UD. 2010. Metode pohon gabungan: Solusi pilihan untuk mengatasi kelemahan pohon regresi dan klasifikasi tunggal. Forum Statistika dan Komputasi. Vol 15:1-7. Seieffert C, Khoshgoftaar TM, Hulse JV, Napollitano A. 2010. RUSBoost: A Hybrid Approach to Alleviating Class Imbalance. IEEE Transactions on Systems, Man, and Cybernetics. Part A: systems and humans: Vol.40. Therneau TM, Atkinson EJ, Foundation M. 2015. An Introduction to Recursive Partitioning Using the RPART Routines. Tersedia pada: https://cran.rproject.org/web/packages/rpart/vignettes/longintro.pdf Zhou, ZH. 2012. Ensemble Methods: Foundations and Algorithms. CRC Press: Florida.
21
Lampiran 1 Persentase Kategori Peubah Penjelas dengan Peubah Respon Dro Kategori Jumla Peubah p out Peubah h (%) Jenis Kelamin Laki-laki 10 9.6 Perempua 73 0 n 12 8.5 53 4 Status Perkawinan Belum 11 11. menikah 76 48 Menikah 11 6.5 Janda/dud 36 1 a 14 7.1 4 Status Pekerjaan Belum 68 14. bekerja 6 72 Bekerja 16 6.6 40 5 Sumber Biaya Pendidikan Beasiswa 11 4.0 Mandiri 67 3 11 14. 59 06 Status Perguruan Tinggi Negeri 19 8.5 Asal Swasta 50 1 Kedinasan 34 12. 0 06 36 8.3 3 Wilayah Perguruan Tinggi Jawa 15 9.6 Asal Luar Jawa 66 4 76 7.7 0 6 Akreditasi Perguruan A 11 7.9 Tinggi Asal B 60 3 C 95 9.8 3 6 21 11. 3 27
Lampiran 2 Deskripsi Peubah Kontinu P eubah U sia I PK S1
M in 20 .00 02 .06
Q
M 1 edian 2 28 4.73 .75 0 03 2.94 .14
Q 3
M ax
3 4.00 3.37
ean 61.
00 0
04. 00
M 2 9.998 3. 1522
St. Dev 6.4 57 0.3 23
22
Lampiran 3 Diagram Pohon Klasifikasi Klasik yes
BEASISWA = tdk no
StatusPT = dns,sws
KAWIN = blm
AKREDITA = A,B
lulus
USIA >= 24
IPK.S1 >= 3.4
DO
lulus
lulus
lulus
lulus
lulus
23
Lampiran 4 Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan Pohon Klasifikasi Tunggal Peubah Penjelas Sumber Biaya Pendidikan Usia Status Perkawinan Status Pekerjaan IPK S1 Akreditasi Perguruan Tinggi
Importanc e 25 21 17 16 10 7
Status Perguruan Tinggi Asal Wilayah Perguruan Tinggi Asal Jenis Kelamin
2 2 0
Asal
Lampiran 5 Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan metode RUSBoost Peubah Penjelas
RB -1
IPK S1
21. 35
Sumber Pendidikan Usia
RB -2
Biaya
22. 88
19. 58 14.
Status Pekerjaan
09.
Akreditasi PT Asal
08.
Jenis Kelamin
06. 36
Status PT Asal
42
13 Wilayah PT Asal 49
88
07. 78
06. 73
03. 21
08. 60
03.
04. 52
08
05.
04.
05.
05. 93
62
91
11 01.
05.
06.
08.
10. 45
01
30 07.
04.
12.
06.
09. 95
15. 11
98
25
18. 10
12.
12.
06.
50
32
30
62
99
17.
09.
27.
18. 59
21
25
23
04
89
RB -5
29.
20.
12.
13. 89
Status Perkawinan
41
18
RB -4
24.
18. 50
98
RB -3
03. 65
05. 82
02. 85
Lampiran 6 Peubah Penjelas yang berpengaruh (Variable Importance) pada Pemodelan Menggunakan Metode UnderBagging Peubah Penjelas Sumber
Biaya
UnderBagging dengan pengembalian 37
UnderBagging tanpa pengembalian 30
24
Pendidikan Usia Status Perkawinan IPK S1 Status Pekerjaan Status PT Asal Akreditasi PT Asal Wilayah PT Asal Jenis Kelamin
17 20 16 9 0 0 0 0
18 15 19 13 3 1 1 0
Lampiran 7 Bobot pada pemodelan RUSBoost Iter asi ke1 2 3 4 5 6 7 8 9 10
RUSB oost-1 0,335 6704 0,050 3004 0,185 6897 0,241 6956 0,003 8388 0,035 3574 0,134 2013 0,003 8388 0,003 8388 0,003 8388
RUSB oost-2 0,121 445 0,095 773 0,151 905 0,265 293 0,001 625 0,025 936 0,001 625 0,174 911 0,039 785 0,121 702
Bobot RUSB oost-3 0,245 572 0,154 217 0,120 104 0,129 482 0,121 232 0,001 342 0,091 406 0,094 069 0,008 946 0,033 631
RUSB oost-4 0,360 728 0,157 835 0,137 449 0,189 145 0,000 921 0,025 315 0,125 846 0,000 921 0,000 921 0,000 921
RUSB oost-5 0,293 791 0,237 333 0,116 574 0,113 544 0,060 679 0,109 974 0,017 071 0,000 725 0,049 584 0,000 725
25
RIWAYAT HIDUP Penulis dilahirkan di Surabaya, Provinsi Jawa Timur pada tanggal 2 Juli 1991. Merupakan anak kedua dari empat bersaudara dari pasangan Bapak Mukarramah Indra dan Ibu Ns Ria Ningsih SKep. Pendidikan dasar penulis diselesaikan pada tahun 2002 di SD Negeri 33 Rawang Barat. Pendidikan menengah pertama ditempuh di SMP Negeri 2 Padang dan lulus pada tahun 2005. Pendidikan menengah atas ditempuh di SMA Negeri 10 Padang Program IPA dan lulus pada tahun 2008. Penulis diterima di program studi Pendidikan Matematika Universitas Andalas pada tahun yang sama, dan menyelesaikannya pada tahun 2012. Selanjutnya penulis melanjutkan program master (S2) pada program studi Statistika Terapan, Sekolah Pascasarjana IPB pada tahun 2013 dengan program Beasiswa BPPDN dari Direktorat Jendral Pendidikan Tinggi (Dikti).