KLASIFIKASI IMBALANCED DATA MENGGUNAKAN WEIGHTED K-NEAREST NEIGHBOR PADA DATA DEBITUR KARTU KREDIT BANK
AISYAH SYAHIDAH
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Imbalanced Data Menggunakan Weighted K-Nearest Neighbor pada Data Debitur Kartu Kredit Bank adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2014 Aisyah Syahidah NIM G64090036
ABSTRAK AISYAH SYAHIDAH. Klasifikasi Imbalanced Data Menggunakan Weighted KNearest Neighbor pada Data Debitur Kartu Kredit Bank. Dibimbing oleh AZIZ KUSTIYO. Manajemen risiko kredit bertujuan untuk meminimalkan potensi kerugian dari kredit macet. Analisis data debitur bermasalah yang sudah ada dapat menjadi model dalam kualifikasi pemberian kredit selanjutnya. Data debitur bank termasuk kasus data tidak seimbang. Proses klasifikasi menjadi tidak optimal karena kelas dengan jumlah data lebih banyak memberikan pengaruh yang sangat besar dalam hasil klasifikasi. Penelitian ini bertujuan untuk mengembangkan model klasifikasi data debitur kartu kredit menggunakan algoritme weighted knearest neighbor dan metode sampling yang bertujuan meningkatkan kualitas klasifikasi pada data tidak seimbang. Metode sampling yang digunakan yaitu oversampling dan undersampling. Metode oversampling acak menghasilkan nilai f-measure terbaik sebesar 86.51%. Metode oversampling duplikasi menghasilkan nilai recall terbaik sebesar 100%. Kata kunci: data tidak seimbang, oversampling, undersampling, weighted knearest neigbor
ABSTRACT AISYAH SYAHIDAH. Classification of Imbalanced Data Using Weighted KNearest Neighbor in Data Bank Credit Card Debtors. Supervised by AZIZ KUSTIYO. Credit risk management aims to minimize potential losses of nonperforming loans. The classification results of existing data debtors can be referred for credit qualifications. The debtors data, most likely, are imbalanced due to the good debtors dominated the bad one. Classification process could not be optimum because of the class with more data had tremendous influence in the classification result. This research aims to develop a data classification model based on credit card debtors using weighted k-nearest neighbor and sampling method which aimed to improve the quality of classification on the imbalanced data. The sampling methods used are the oversampling and undersampling. The random oversampling method obtains the best performance with F-measure of 86.51%. Moreover, the duplication oversampling can obtain 100% recall. Keywords: imbalanced data, oversampling, undersampling, weighted k-nearest neighbor
KLASIFIKASI IMBALANCED DATA MENGGUNAKAN WEIGHTED K-NEAREST NEIGHBOR PADA DATA DEBITUR KARTU KREDIT BANK
AISYAH SYAHIDAH
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
Penguji: 1 Toto Haryanto, SKom MSi 2 M Asyhar Agmalaro, SSi MKom
Judul Skripsi : Klasifikasi Imbalanced Data Menggunakan Weighted K-Nearest Neighbor pada Data Debitur Kartu Kredit Bank Nama : Aisyah Syahidah NIM : G64090036
Disetujui oleh
Aziz Kustiyo, SSi MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhaanahu wa ta’aala atas segala karunia dan hidayah-Nya sehingga karya ilmiah ini berhasil diselesaikan. Ungkapan terima kasih penulis sampaikan kepada Ayah Ir H Solichin, MMSI, Bunda Hj Bonita Anugrawati, adik Fatiya Nur Afifah, Rahma Fadhilah, dan Muhammad Labib Faishal atas segala bantuan, dukungan, doa, dan kasih sayang selama ini. Tema yang dipilih dalam penelitian ini ialah data tidak seimbang, dengan judul Klasifikasi Imbalanced Data Menggunakan Weighted K-Nearest Neighbor pada Data Debitur Kartu Kredit Bank. Terima kasih penulis ucapkan kepada Bapak Aziz Kustiyo, SSi, MKom selaku pembimbing, kepada Bapak Toto Haryanto, SKom, MSi dan Bapak M Asyhar Agmalaro, SSi, MKom selaku penguji. Terima kasih atas semua pengajaran, bimbingan, saran, dukungan, dan waktu yang telah diberikan selama masa studi dan penyelesaian penelitian tugas akhir ini. Tak lupa, penulis sampaikan terima kasih kepada seluruh staf Departemen Ilmu Komputer IPB atas layanan terbaik yang diberikan kepada penulis. Terima kasih juga penulis sampaikan kepada teman-teman ilkomerz 46 atas bantuan, dukungan, kasih sayang, dan doa selama ini. Semoga karya ilmiah ini bermanfaat.
Bogor, Juli 2014 Aisyah Syahidah
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE Pengadaan Data
2
Praproses Data
2
Normalisasi Data
4
Strategi Sampling
4
Pembagian Data Uji dan Data Latih
5
Klasifikasi dengan WKNN
5
Confusion Matrix
7
Penerapan Model Terbaik
8
HASIL DAN PEMBAHASAN Pengadaan Data
8
Praproses Data
8
Strategi Sampling
9
Klasifikasi dengan WKNN
9
Analisis Data Hasil Klasifikasi
9
Perbandingan dengan Penelitian Sebelumnya
12
SIMPULAN DAN SARAN Simpulan
14
Saran
14
DAFTAR PUSTAKA
14
LAMPIRAN
16
DAFTAR TABEL 1 2 3 4 5 6 7 8
Confusion matrix Nilai rata-rata kinerja WKNN pada data asli Confusion matrix pada data asli untuk pengujian ke-8 Nilai rata-rata kinerja WKNN pada data oversampling duplikasi Nilai rata-rata kinerja WKNN pada data oversampling acak Nilai rata-rata kinerja WKNN pada data undersampling acak Nilai rata-rata kinerja WKNN pada data cluster undersampling Perbandingan dengan penelitian sebelumnya
7 10 10 10 11 11 11 13
DAFTAR GAMBAR 1 Metode penelitian 2 Grafik f-measure setiap model data penelitian WKNN
3 13
DAFTAR LAMPIRAN 1 Keterangan lengkap atribut 2 Hasil klasifikasi data asli dalam % untuk data uji ke-8 dengan k tetangga terdekat 3 Nilai precision data asli dengan 10 tetangga terdekat 4 Confusion matrix data asli untuk data uji ke-3 5 Nilai precision data oversampling duplikasi dengan 1 tetangga terdekat 6 Confusion matrix data oversampling duplikasi untuk data uji ke-7 7 Nilai precision data oversampling acak dengan 1 tetangga terdekat 8 Confusion matrix data oversampling acak untuk data uji ke-6 9 Nilai precision data undersampling acak dengan 9 tetangga terdekat 10 Confusion matrix data undersampling acak untuk data uji ke-4 11 Nilai precision data cluster undersampling dengan 6 tetangga terdekat 12 Confusion matrix data cluster undersampling untuk data uji ke-1
16 16 17 17 17 18 18 18 18 18 19 19
PENDAHULUAN Latar Belakang Layanan perkreditan adalah layanan bank yang sering digunakan oleh masyarakat. Ketika mengajukan kredit, masyarakat harus mengisi formulir yang membantu pihak bank menentukan penerimaan pengajuan kredit. Beberapa masyarakat yang memenuhi persyaratan pengajuan mengalami kendala dalam pelunasan kredit. Hal ini merugikan pihak bank karena berisiko menimbulkan kredit macet (bermasalah). Kredit bermasalah bukan hal yang dapat dihindari oleh pihak bank sehingga bank membutuhkan manajemen risiko kredit yang baik. Salah satu indikator manajemen risiko kredit yang baik adalah rendahnya persentase kredit bermasalah. Analisis data debitur bermasalah yang sudah ada dapat menjadi model dalam kualifikasi pemberian kredit. Data debitur bank termasuk kasus data tidak seimbang. Proses klasifikasi menjadi tidak optimal karena kelas dengan jumlah data lebih banyak memberikan pengaruh yang sangat besar dalam hasil klasifikasi. Kelas dengan data yang sedikit (minoritas) difokuskan dalam kasus data tidak seimbang. Berbagai penelitian menunjukkan bahwa klasifikasi weighted k-nearest neighbor (WKNN) adalah modifikasi dari klasifikasi k-nearest neighbor (KNN). Menurut Gou et al. (2012) permasalahan pada KNN terjadi ketika memilih k tetangga terdekat. Jika k yang dipilih sangat kecil, perkiraan klasifikasi cenderung menjadi tidak akurat karena data yang kurang, adanya noise, ambigu atau salah pelabelan. Nilai k yang terlalu besar dengan mudah membuat kinerja klasifikasi menurun karena adanya outlier dari kelas-kelas lain. Pemilihan k harus dioptimalkan untuk dapat meningkatkan akurasi. Menurut Pao et al. (2008) pemberian bobot pada klasifikasi KNN dapat memperbaiki tingkat kesalahan. Pao et al. menyimpulkan hal ini dari hasil penelitian Dudani (1976) mengenai classifier WKNN. Gou et al. menggunakan dataset UCI yang juga digunakan pada penelitian Dudani sehingga dapat membandingkan kinerja KNN dan WKNN. Dataset UCI merupakan data seimbang. Pao et al. menggunakan data rekaman menggunakan Bahasa Mandarin yang juga merupakan data seimbang. Dari kedua penelitian tersebut, dapat disimpulkan bahwa WKNN dapat mengatasi masalah sensitivitas KNN pada k tetangga terdekat. Penelitian ini dilakukan untuk melihat kinerja WKNN pada data debitur kartu kredit bank yang tidak seimbang. Kemudian, dari hasil penelitian ini akan dibuat suatu model untuk mengklasifikasikan debitur ke dalam kelas baik atau buruk. Penelitian dengan menggunakan data yang sama telah dilakukan oleh Ulya (2013) menggunakan algoritme KNN. Dari hasil penelitian tersebut diperoleh akurasi dari model terbaik sebesar 96.24%, serta recall, precision, dan f-measure sebesar 99.23%, 95.21%, dan 96.30%.
Perumusan Masalah Rumusan permasalahan pada penelitian ini adalah pengukuran kinerja WKNN terhadap data debitur kartu kredit bank yang tidak seimbang.
2 Tujuan Penelitian Tujuan dari penelitian ini adalah menerapkan metode oversampling dan undersampling serta WKNN pada data debitur kartu kredit yang tidak seimbang.
Manfaat Penelitian Hasil dari penelitian ini diharapkan dapat menjadi pertimbangan dalam proses penerimaan calon debitur kartu kredit bank agar meminimumkan risiko terjadinya debitur bermasalah.
Ruang Lingkup Penelitian Lingkup dari penelitian ini, yaitu: 1 Data yang digunakan adalah data penelitian Setiawati (2011) yaitu data sekunder nasabah kartu kredit pada bank X periode tahun 2008-2009. 2 Metode yang digunakan yaitu teknik oversampling dan undersampling dengan algoritme WKNN.
METODE Penelitian ini melalui 8 tahapan yaitu pengadaan data, praproses data, normalisasi data, strategi sampling menggunakan metode oversampling dan undersampling, 10-fold cross validation untuk membagi data latih dan data uji, klasifikasi menggunakan WKNN, analisis hasil, dan penerapan model terbaik. Ilustrasinya dapat dilihat pada Gambar 1.
Pengadaan Data Tahap pertama, data penelitian yang digunakan adalah data tidak seimbang yang juga digunakan pada penelitian Wijayanti (2013). Data berjumlah 4413 instances dengan 14 atribut yang terbagi menjadi 2 kelas yaitu kelas debitur baik (good) dan kelas debitur buruk (bad). Peneliti sebelumnya membuat proposal penelitian dan menghubungi pihak bank yang bersedia untuk bekerja sama dalam penelitian yang sedang dilakukan.
Praproses Data Tahap selanjutnya, data awal yang didapat berjumlah 4413 dengan 14 atribut yang terdiri atas 7 atribut bertipe data rasio, 6 atribut bertipe data nominal, dan 1 atribut bertipe data ordinal. Atribut pendapatan, jumlah tanggungan, umur, masa kerja, lama tinggal, banyaknya kartu kredit lain, dan persentase utang kartu kredit lain termasuk ke dalam tipe data rasio. Atribut jenis kelamin, status
3 Mulai Pengadaan Data Praproses Data Normalisasi Data
Strategi Sampling (oversampling dan undersampling) Pembagian Data (k-fold Cross Validation)
Data Latih
Data Uji
Klasifikasi WKNN Analisis Hasil Klasifikasi Penerapan Model Terbaik
Selesai Gambar 1 Metode penelitian pekerjaan, jenis pekerjaan, tipe perusahaan, status rumah, dan status pernikahan termasuk ke dalam tipe data nominal. Atribut pendidikan termasuk ke dalam atribut ordinal. Terdapat 3 kategori teknik untuk menunjukkan kesalahan pengukuran sebagai wujud kehati-hatian dalam penggunaan data berskala besar (Dasu & Johnson 2003). Pertama, mendeteksi missing value. Pada penelitian ini, penghapusan instance dilakukan pada atribut data yang missing value, seperti pada atribut banyaknya kartu kredit lain. Kedua, mendeteksi incomplete data. Penghapusan instance juga dilakukan pada atribut yang incomplete. Pada kedua teknik ini terjadi pengurangan data. Ketiga, mendeteksi outliers. Data outliers pada penelitian ini dikoreksi secara manual, seperti data atribut pendapatan yang mengandung nilai yang tidak seharusnya antara 0 atau 1, dan nilai -1 pada atribut
4 masa kerja. Total data yang telah diproses dalam penelitian ini menjadi 3895 dengan 14 atribut, dengan 3259 termasuk ke dalam kategori kelas good dan 636 kelas bad.
Normalisasi Data Variabel suatu data cenderung memiliki kisaran yang besar dan beragam. Tahapan selanjutnya yaitu melakukan normalisasi variabel untuk tipe data rasio untuk menstandardisasi skala setiap nilai variabel yang ada. Teknik normalisasi yang dilakukan dalam penelitian ini adalah min-max normalization. Min-max normalization bekerja dengan cara melihat nilai suatu atribut terhadap nilai minimum dan menskalakannya terhadap kisaran data. Nilai minmax normalization akan berkisar antara 0.0 dan 1.0 (Larose 2005).
dengan
adalah nilai hasil normalisasi, adalah nilai sebelum normalisasi, adalah nilai minimum dari atribut, dan adalah nilai maksimum dari atribut.
Strategi Sampling Data yang telah dinormalisasi kemudian dilakukan strategi sampling untuk data tidak seimbang. Strategi sampling terdiri atas oversampling kelas minoritas atau undersampling kelas mayoritas (Garcia 2007). Strategi oversampling dapat mengurangi pengaruh data kelas mayoritas terhadap hasil pengujian keseluruhan data secara signifikan (Efendiev dan Hou 2008). Ada 2 cara oversampling yang dilakukan pada penelitian ini yaitu oversampling duplikasi dan oversampling acak. Oversampling duplikasi merupakan proses duplikasi data kelas minoritas secara terurut hingga jumlah instance sama atau mendekati jumlah instance data kelas mayoritas. Dalam penelitian ini, 636 data kelas bad diduplikasi sebanyak 4 kali hingga mendekati jumlah kelas good sebanyak 3259 data. Proses duplikasi ini menyebabkan kelas bad berjumlah 3180 data. Percobaan oversampling duplikasi menghasilkan 1 dataset. Oversampling acak merupakan proses membangkitkan data kelas minoritas secara acak hingga jumlah instance sama dengan data kelas mayoritas. Dalam penelitian ini, 636 data kelas bad dibangkitkan secara acak untuk setiap atribut independen hingga jumlah instance data kelas bad sebanyak kelas good yaitu 3259 data. 1 dataset dihasilkan pada percobaan oversampling acak. Strategi undersampling dilakukan pada kelas mayoritas sehingga jumlah instance data kelas mayoritas sama dengan data kelas minoritas. Ada 2 cara undersampling dalam penelitian ini yaitu undersampling acak dan undersampling dengan clustering. Undersampling acak yaitu membangkitkan setiap atribut data kelas mayoritas (good) secara acak hingga jumlah instance sama dengan jumlah
5 instance data kelas minoritas (bad) sebanyak 636. Undersampling secara acak dilakukan sebanyak 3 kali sehingga diperoleh 3 dataset. Proses undersampling dengan clustering dimulai dengan mengolah data mayoritas (good) dengan metode k-means clustering menggunakan WEKA. Data dibagi menjadi 2 sampai 10 cluster, kemudian dilakukan pembangkitan data mayoritas (good) sesuai dengan perbandingan setiap cluster terhadap data minoritas (bad). Hal ini dilakukan supaya data tidak mengelompok pada cluster tertentu dan dapat merepresentasikan keseluruhan data. Jumlah data yang diambil untuk setiap cluster didapat menggunakan fungsi berikut (Yen dan Lee 2009): lust
Percobaan cluster undersampling menghasilkan 9 dataset.
Pembagian Data Uji dan Data Latih Data yang telah mengalami strategi sampling kemudian dibagi menjadi data latih dan data uji menggunakan metode k-fold cross-validation. Metode k-fold cross validation membagi data secara acak sejumlah subset-k yang sama besar. Subset yang terbentuk kemudian dilakukan iterasi sebanyak k-kali untuk pelatihan dan pengujian. Setiap proses pengujian menggunakan 1 subset sebagai data uji, sedangkan subset lainnya sebagai data latih. Penelitian ini menggunakan metode 10-fold cross validation (Kohavi 1995).
Klasifikasi dengan WKNN Klasifikasi WKNN merupakan pengembangan dari klasifikasi KNN yang ada. WKNN termasuk salah satu aturan pemilihan di mana anggota berbeda dari kumpulan tetangga terdekat diberi bobot oleh fungsi jarak antara data latih dengan data uji (Zavrel 1997). WKNN memakai prinsip yang sama dengan KNN yaitu mencari jarak terdekat antara data yang akan diuji dengan sejumlah k tetangga terdekatnya dalam data latih. WKNN akan memberi bobot terberat pada tetangga terdekat dan terkecil pada tetangga terjauh sesuai fungsi jarak (Gou et al. 2012). Langkah pertama dalam proses klasifikasi WKNN adalah perhitungan jarak antara data uji dengan data latih. Perhitungan jarak pada data rasio dan ordinal dapat menggunakan fungsi Euclidean seperti berikut: (
)
√∑
Berbeda dengan data rasio dan ordinal, untuk menghitung jarak data nominal tidak tepat menggunakan fungsi Euclidean. Data nominal hanya melambangkan makna sebagai angka dan tidak menunjukkan perbedaan nilai atau
6 tingkatan sehingga tidak dapat diperbandingkan besarnya. Dalam menghitung jarak nominal, fungsi yang digunakan yaitu: { dengan x adalah data uji dan y adalah data latih. Kedua jarak tersebut kemudian digabungkan menggunakan fungsi agregat ketidaksamaan berat rata-rata yang diukur dari setiap atribut (Teknomo 2006). Fungsi yang digunakan adalah: ∑n w ∑n w dengan: Sij = jarak data uji dengan data latih k = variabel fitur Sijk = adalah nilai ketidaksamaan antarobjek i dan j untuk fitur k wijk = bobot fitur, bernilai 1 untuk jarak rasio dan 0.5 untuk jarak nominal. Langkah selanjutnya yaitu perhitungan menggunakan WKNN. Pemberian bobot terhadap k tetangga terdekat terhadap data uji mengikuti fungsi sebagai berikut (Dudani 1976 dalam Gou et al. 2012): (
)
(
)
{ (
)
(
)
(
)
(
)
(
)
(
)
kemudian, hasil klasifikasi data uji didapatkan dengan pemilihan bobot terbesar. ∑ (
(
)
)
dengan: {(
( ( (
)} = kumpulan data latih = vektor data latih = label kelas data latih yang berkorespondensi dengan vektor = data uji ) = jarak Euclidean antara dan (jarak terbesar) ) = jarak Euclidean antara dan (jarak data ke-i) ) = jarak Euclidean antara dan (jarak terkecil) = label kelas data uji yang belum diketahui = label kelas (good atau bad) = label kelas untuk ke-i tetangga terdekat di antara k tetangga terdekatnya
7 (
) = fungsi Dirac delta, bernilai 1 jika dan bernilai 0 jika selainnya Jarak tetangga terdekat mendapat bobot 1, jarak tetangga terjauh mendapat bobot 0, dan bobot jarak tetangga lain terskala secara linear terhadap selang antaranya.
Confusion Matrix Langkah selanjutnya, hasil klasifikasi data uji dibandingkan dengan kelas aktual data uji. Jumlah dari kelas positif (kelas minoritas yaitu kelas bad) yang benar diklasifikasikan dilambangkan dengan TP. Jumlah kelas positif yang salah diklasifikasikan ke dalam kelas negatif dilambangkan dengan FN. FP adalah jumlah kelas negatif yang salah diklasifikasikan ke dalam kelas positif. TN adalah jumlah kelas negatif yang benar diklasifikasikan. TP, FN, FP, dan TN disajikan dalam bentuk tabel confusion matrix yang merupakan teknik untuk mengukur kemampuan dari classifier pada kasus data tidak seimbang. Confusion matrix untuk dua kelas (Han et al. 2005) dapat dilihat pada Tabel 1. Tabel 1 Confusion matrix Kelas hasil klasifikasi Kelas positif Kelas negatif TP FN FP TN
Kelas aktual Kelas positif Kelas negatif
1 Akurasi Akurasi adalah jumlah perbandingan data yang benar diklasifikasikan dengan jumlah keseluruhan data. Perhitungan akurasi menggunakan fungsi sebagai berikut:
2 Precision Precision merupakan fungsi dari kelas data positif yang diklasifikasikan dengan benar dibandingkan dengan keseluruhan hasil prediksi data ke dalam kelas positif. Perhitungan precision menggunakan fungsi sebagai berikut: s n 3 Recall Recall merupakan fungsi dari kelas data positif yang diklasifikasikan dengan benar dibandingkan dengan keseluruhan data kelas aktual positif. Perhitungan recall menggunakan fungsi sebagai berikut:
8 all 4 F-measure F-measure merupakan gabungan dari precision dan recall yang digunakan untuk mengukur kemampuan classifier dalam mengklasifikasikan kelas minoritas. F-measure bernilai tinggi jika nilai precision dan recall juga bernilai tinggi (Han et al. 2005). Perhitungan f-measure menggunakan fungsi sebagai berikut: all all
s n s n
Penerapan Model Terbaik Tahapan selanjutnya yaitu menganalisis hasil akurasi, f-measure, precision, dan recall setiap percobaan. Percobaan yang menghasilkan nilai f-measure tertinggi akan menjadi model sebagai acuan prediksi data baru.
HASIL DAN PEMBAHASAN Pengadaan Data Data yang didapat merupakan data penelitian Setiawati (2011) yang digunakan untuk mengklasifikasikan nasabah ke dalam kelas baik atau buruk menggunakan jaringan saraf tiruan. Data ini juga digunakan pada penelitian Ulya (2013) menggunakan klasifikasi KNN dan Wijayanti (2013) menggunakan klasifikasi FKNN. Data ini terdiri atas 4413 instance dengan 14 atribut. 6 atribut bertipe data nominal, 1 atribut bertipe data ordinal, dan 7 atribut bertipe data rasio. Atribut bertipe data nominal dan ordinal dilambangkan dengan angka untuk mempermudah pengklasifikasian data. Keterangan atribut dapat dilihat pada Lampiran 1.
Praproses Data Data dengan missing value, outliers, dan tidak lengkap pada tahap ini dilakukan penghapusan instance. Beberapa instance seperti pada atribut banyaknya kartu kredit lain, pendapatan, dan masa kerja dihapus karena tidak lengkap dan tidak valid. Banyaknya data menjadi 3895 yang terbagi menjadi 3259 termasuk kelas good dan 636 termasuk kelas bad. Data kemudian dinormalisasi agar rentang antardata tidak terlalu besar. Atribut yang dinormalisasi adalah atribut bertipe data rasio dengan rentang nilai yang besar seperti atribut pendapatan per tahun, persentase utang kartu kredit maksimum, usia, masa kerja, dan lama tinggal.
9 Strategi Sampling Metode oversampling yang diterapkan pada data minoritas, menjadikan data bertambah yang kemudian digabungkan dengan data mayoritas menjadi 6518 data. Metode undersampling yang diterapkan pada data mayoritas, menjadikan data berjumlah 1272 setelah digabungkan data minoritas.
Klasifikasi dengan WKNN Prinsip kerja WKNN mengikuti prinsip kerja KNN yaitu mencari data uji dengan jarak terdekat terhadap data latih sesuai k tetangga terdekat yang dipilih. WKNN mengubah nilai jarak pada k tetangga terdekat menjadi nilai antara 0 dan 1. Jarak terdekat akan diberi nilai 1. Sebaliknya, jarak terjauh akan diberi nilai 0. Langkah pengklasifikasian menggunakan WKNN sebagai berikut: 1 Perhitungan jarak Euclidean untuk data bertipe data rasio setelah dilakukan normalisasi. 2 Perhitungan jarak data nominal dengan membandingkan data uji dan data latih. 3 Perhitungan kedua jarak yang digabung menggunakan fungsi agregrat ketidaksamaan berat rata-rata. 4 Penentuan jarak terdekat sesuai k tetangga terdekat. 5 Pembobotan jarak terdekat antara data uji dan data latih. Hasil klasifikasi ditentukan oleh jarak dengan bobot terbesar untuk setiap kelas yang sama.
Analisis Data Hasil Klasifikasi Data asli yang telah melalui praproses data dan normalisasi terdiri atas 636 data kelas minoritas dan 3259 data kelas mayoritas. Data kemudian diklasifikasikan menggunakan metode WKNN. Hasil akurasi, f-measure, precision, dan recall pada data asli dengan k tetangga terdekat ditunjukkan pada Tabel 2. Salah satu contoh hasil klasifikasi pengujian ke-8 pada data asli dapat dilihat pada Lampiran 2. Hasil klasifikasi terbaik pada data asli yang tidak melalui proses sampling menghasilkan nilai akurasi sebesar 75.22%, nilai precision sebesar 0.81%, dan nilai recall sebesar 0.47%. Hasil precision terbaik pada data asli dengan 10 tetangga terdekat dapat dilihat pada Lampiran 3, sedangkan confusion matrix pada data asli dengan nilai precision terbaik dapat dilihat pada Lampiran 4. Data asli yang tidak seimbang ini menghasilkan nilai akurasi yang besar. Hal ini disebabkan oleh kinerja akurasi yang tidak dapat mewakili kelas minoritas. Bila kelas minoritas salah diklasifikasikan, nilai akurasi tetap besar karena didominasi oleh kelas mayoritas yang benar diklasifikasikan. Nilai f-measure pada data asli berupa NaN. Nilai ini didapatkan karena adanya nilai 0 pada precision dan recall untuk beberapa bagian data dari himpunan 10-fold cross validation. Adanya nilai 0 ini menunjukkan bahwa terdapat data uji yang keseluruhan kelas minoritasnya diklasifikasikan ke dalam kelas mayoritas. Salah satu contoh confusion matrix pada data asli dengan hasil precision dan recall adalah 0 dapat dilihat pada Tabel 3.
10 Tabel 2 Nilai rata-rata kinerja WKNN pada data asli Nilai k Akurasi (%) F-measure (%) Precision (%) Recall (%) 1 60.17 NaN 1.82 2.71 2 67.81 NaN 0.31 0.31 3 65.96 NaN 1.68 1.92 4 68.29 NaN 0.17 0.16 5 68.76 NaN 0.52 0.48 6 70.24 NaN 0.39 0.31 7 71.51 NaN 0.40 0.31 8 72.68 NaN 0.68 0.47 9 73.69 NaN 0.73 0.47 10 75.22 NaN 0.81 0.47 Tabel 3 Confusion matrix pada data asli untuk pengujian ke-8 Kelas aktual Kelas positif Kelas negatif
Kelas hasil klasifikasi Kelas positif Kelas negatif 0 64 33 295
Tabel 4 Nilai rata-rata kinerja WKNN pada data oversampling duplikasi Nilai k Akurasi (%) F-measure (%) Precision (%) Recall (%) 1 84.51 86.44 76.13 100.00 2 84.51 86.44 76.13 100.00 3 84.51 86.44 76.13 100.00 4 84.51 86.44 76.13 100.00 5 84.49 86.43 76.11 100.00 6 84.20 86.19 75.80 99.90 7 82.95 85.24 74.45 99.71 8 80.79 83.65 72.16 99.52 9 79.73 82.83 71.19 99.05 10 79.50 82.64 71.00 98.86 Data percobaan kedua yaitu data oversampling duplikasi. Data ini terdiri atas 636 data minoritas yang diduplikasi untuk setiap instance sebanyak 4 kali. Data kemudian digabungkan dengan data asli minoritas dan mayoritas sehingga 1 dataset berjumlah 6439. Hasil akurasi, f-measure, precision, dan recall dengan k tetangga terdekat ditunjukkan pada Tabel 4. Hasil klasifikasi terbaik pada data oversampling duplikasi memiliki nilai akurasi sebesar 84.51%, nilai f-measure sebesar 86.44%, nilai precision sebesar 76.13%, dan nilai recall sebesar 100%. Hasil precision terbaik pada data oversampling duplikasi dengan 1 tetangga terdekat dapat dilihat pada Lampiran 5, sedangkan confusion matrix pada data oversampling duplikasi dengan nilai precision terbaik dapat dilihat pada Lampiran 6. Hasil klasifikasi oversampling duplikasi lebih baik dibandingkan dengan hasil klasifikasi data asli.
11 Tabel 5 Nilai rata-rata kinerja WKNN pada data oversampling acak Nilai k Akurasi (%) F-measure (%) Precision (%) Recall (%) 1 84.58 86.51 76.73 99.22 2 82.53 84.37 76.14 94.67 3 83.48 85.36 76.47 96.69 4 83.48 85.36 76.47 96.69 5 83.43 85.33 76.42 96.69 6 83.11 85.07 76.10 96.53 7 82.72 84.76 75.72 96.36 8 81.93 84.14 74.90 96.09 9 81.11 83.48 74.13 95.66 10 80.21 82.77 73.22 95.28 Tabel 6 Nilai rata-rata kinerja WKNN pada data undersampling acak Nilai k Akurasi (%) F-measure (%) Precision (%) Recall (%) 1 55.74 57.82 55.21 60.87 2 54.32 52.26 54.59 50.33 3 55.50 56.08 55.29 57.09 4 56.13 57.38 55.75 59.30 5 56.21 57.99 55.68 60.71 6 56.29 58.25 55.75 61.18 7 56.37 58.69 55.75 62.12 8 56.68 58.99 56.04 62.44 9 56.84 59.34 56.13 63.07 10 56.60 59.64 55.80 64.17 Tabel 7 Nilai rata-rata kinerja WKNN pada data cluster undersampling Nilai k Akurasi (%) F-measure (%) Precision (%) Recall (%) 1 75.01 74.42 75.92 73.28 2 75.01 74.42 75.92 73.28 3 75.01 74.42 75.92 73.28 4 75.24 75.00 75.70 74.54 5 75.31 75.03 76.00 74.38 6 74.53 74.15 75.34 73.28 7 75.08 74.84 75.68 74.38 8 74.69 74.55 74.99 74.39 9 73.67 73.36 74.23 72.81 10 73.67 73.26 74.40 72.50 Data percobaan ketiga yaitu data oversampling acak. Data ini terdiri atas 636 data minoritas yang diduplikasi secara acak setiap atribut independen sehingga jumlahnya menjadi 3259. Data kemudian digabungkan dengan data asli mayoritas sehingga 1 dataset berjumlah 6518 data. Hasil akurasi, f-measure, precision, dan recall dengan k tetangga terdekat ditunjukkan pada Tabel 5. Hasil
12 klasifikasi terbaik pada data oversampling acak memiliki nilai akurasi sebesar 84.58%, nilai f-measure sebesar 86.51%, nilai precision sebesar 76.73%, dan nilai recall sebesar 99.22%. Hasil precision terbaik pada data oversampling acak dengan 1 tetangga terdekat dapat dilihat pada Lampiran 7, sedangkan confusion matrix pada data oversampling acak dengan nilai precision terbaik dapat dilihat pada Lampiran 8. Hasil recall oversampling acak tidak lebih baik dibandingkan dengan oversampling duplikasi. Metode oversampling acak menghasilkan nilai klasifikasi terbaik dibandingkan dengan metode sampling yang lain. Metode terbaik ini menjadi acuan dalam penentuan penerimaan nasabah kartu kredit yang baru. Data percobaan keempat yaitu data undersampling acak. Pada percobaan ini, data mayoritas sebanyak 3259 dibangkitkan secara acak untuk setiap atribut independen sehingga jumlahnya menjadi 636. Data kemudian digabungkan dengan data asli minoritas sehingga 1 dataset berjumlah 1272 data. Percobaan undersampling acak dilakukan sebanyak 3 kali kemudian diambil hasil terbaik. Nilai akurasi, f-measure, precision, dan recall dengan k tetangga terdekat ditunjukkan pada Tabel 6. Hasil klasifikasi terbaik pada data undersampling acak memiliki nilai akurasi sebesar 56.84%, nilai f-measure sebesar 59.34%, nilai precision sebesar 56.13%, dan nilai recall sebesar 63.07%. Hasil precision terbaik pada data undersampling acak dengan 9 tetangga terdekat dapat dilihat pada Lampiran 9, sedangkan confusion matrix pada data undersampling acak dengan nilai precision terbaik dapat dilihat pada Lampiran 10. Hasil klasifikasi ini lebih baik dibandingkan dengan hasil klasifikasi pada data asli. Data percobaan kelima yaitu data cluster undersampling. Pada percobaan ini, data mayoritas dibagi ke dalam 2 hingga 10 cluster. Setiap cluster kemudian dicari nilai proporsi terhadap data minoritas. Pembangkitan data mayoritas secara acak mengikuti nilai proporsinya pada data minoritas. Data ini kemudian digabungkan dengan data asli minoritas. Jumlah 1 dataset cluster undersampling yaitu 1272. Nilai akurasi, f-measure, precision, dan recall dengan k tetangga terdekat ditunjukkan pada Tabel 7. Hasil klasifikasi terbaik didapatkan saat 2 cluster dengan nilai akurasi sebesar 75.31%, nilai f-measure sebesar 75.03%, nilai precision sebesar 76.00%, dan nilai recall sebesar 74.38%. Hasil precision terbaik pada data cluster undersampling dengan 5 tetangga terdekat dapat dilihat pada Lampiran 11, sedangkan confusion matrix pada data cluster undersampling dengan nilai precision terbaik dapat dilihat pada Lampiran 12. Data asli menghasilkan nilai f-measure yang tak terdefinisikan pada semua nilai k. Nilai f-measure pada data oversampling acak cenderung menurun ketika nilai k ditingkatkan. Hal ini juga berlaku pada data oversampling duplikasi. Nilai f-measure pada data cluster undersampling cenderung meningkat ketika nilai k tetangga terdekat ditingkatkan. Data undersampling acak menghasilkan nilai fmeasure yang stabil seiring peningkatan nilai k tetangga terdekat. Grafik peningkatan f-measure untuk setiap data ditunjukkan pada Gambar 2.
Perbandingan dengan Penelitian Sebelumnya Perbandingan hasil klasifikasi dari penelitian Ulya (2013) dan Wijayanti (2013) dengan penelitian ini dapat dilihat pada Tabel 8. Hasil klasifikasi data asli
13 k=1
k=2
k=3
k=4
k=5
k=6
k=7
k=8
k=9
k = 10
90
60
30
0 Data Asli
Over-sampling Over-sampling Cluster Under- Under-sampling Acak Duplikasi sampling Acak
Gambar 2 Grafik f-measure setiap model data penelitian WKNN Tabel 8 Perbandingan dengan penelitian sebelumnya Akurasi F-Measure Precision Recall Classifier Sampling (%) (%) (%) (%) Data asli 80.87 29.81 28.86 42.19 Oversampling 96.24 99.23 95.21 96.30 duplikasi KNN Oversampling acak 84.27 83.91 86.23 90.40 Undersampling acak 77.28 75.99 82.86 83.60 Cluster undersampling 66.66 68.87 67.52 81.45 Data asli 79.05 22.64 25.68 15.59 Oversampling 91.93 92.54 86.12 100.00 duplikasi FKNN Oversampling acak 84.37 84.04 85.82 82.34 Undersampling acak 75.71 75.34 78.44 71.05 Cluster undersampling 76.33 72.43 78.27 72.80 Data asli 75.22 NaN 0.81 0.47 Oversampling 84.51 86.44 76.13 100.00 duplikasi WKNN Oversampling acak 84.58 86.51 76.73 99.22 Undersampling acak 56.84 59.34 56.13 63.07 Cluster undersampling 75.31 75.03 76.00 74.38 yang tidak dilakukan sampling pada ketiga penelitian sangat rendah, setelah dilakukan sampling terjadi peningkatan hasil klasifikasi. Nilai recall pada oversampling duplikasi dan oversampling acak pada penelitian ini lebih baik dibandingkan dengan penelitian sebelumnya yaitu sebesar 100% dan 99.2%. Hal ini menunjukkan bahwa persentase data kelas minoritas yang bisa diklasifikasikan dengan benar menggunakan WKNN lebih besar dibandingkan dengan KNN dan
14 FKNN. Nilai f-measure oversampling acak pada penelitian ini sebesar 86.51% juga lebih baik dibandingkan dengan nilai f-measure oversampling acak pada penelitian sebelumnya. Hasil klasifikasi undersampling pada penelitian ini tidak lebih baik dibandingkan dengan penelitian sebelumnya.
SIMPULAN DAN SARAN Simpulan 1
2 3 4 5
Berdasarkan penelitian yang telah dilakukan, simpulan yang didapat yaitu: Penelitian sebelumnya menggunakan KNN dan FKNN pada metode oversampling duplikasi menghasilkan nilai akurasi yang lebih baik dibandingkan dengan metode oversampling acak. Penelitian menggunakan WKNN pada metode oversampling duplikasi menghasilkan nilai akurasi yang hampir sama dengan oversampling acak. Nilai akurasi pada metode oversampling duplikasi menggunakan KNN dan FKNN lebih baik dibandingkan dengan WKNN. Pola nilai f-measure pada penelitian ini untuk metode oversampling duplikasi dan oversampling acak sama dengan pola nilai akurasi. Nilai recall untuk metode oversampling duplikasi dan oversampling acak menggunakan WKNN lebih baik dibandingkan dengan KNN dan FKNN. Klasifikasi pada metode undersampling acak menggunakan WKNN menghasilkan nilai yang kurang baik dibandingkan dengan KNN dan FKNN.
Saran Penelitian selanjutnya diharapkan dapat menerapkan metode classifier lain seperti distance weighted k-nearest neighbor (DWKNN) yang merupakan pengembangan dari WKNN dengan cara pembobotan berbeda. Hasil penelitian Gou et al. menunjukkan bahwa DWKNN menghasilkan nilai akurasi yang lebih baik dibandingkan dengan WKNN pada data seimbang.
DAFTAR PUSTAKA Dasu T, Johnson T. 2003. Exploratory Data Mining and Data Cleaning. New Jersey (US). J Wiley. Dudani SA. 1976. The distance-weighted k-nearest neighbor rule. IEEE Transactions on System, Man, and Cybernetics. SMC-6(4): 325-327. Efendiev Y, Hou TY. 2009. Multiscale Finite Element Methods: Theory and Applications. New York (US). Springer. Garcia V, Sanchez JS, Mollineda RA, Alejo R, Sotoca JM. 2007. The class imbalance problem in pattern classification and learning. DI dalam: II Congreso Espanol de Informatica [Internet]. [2007 Sep 11-14]. Zaragoza (ES):
15 Zaragoza. hlm 283-291; [diunduh 2014 Jan 20]. Tersedia pada: http://marmota.dlsi.uji.es/WebBIB/papers/2007/1GarciaTamida2007.pdf. Gou J, Du L, Zhang Y, Xiong T. 2012. A new distance-weighted k-nearest neighbor classifier. Journal of Informational and Computational Science (9) [Internet]. [diunduh 2013 Okt 24]; 6(2012):1429-1436. Tersedia pada: http://www.joics.com/publishedpapers/2012_9_6_1429_1436.pdf. Han H, Wang WY, Mao BH. 2005. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. Di dalam: Huang DS, Zhang XP, Huang GB, editor. International Conference in Intelligent Computing. ICIC; 2005 Agu 23-26; Hefei, China. Berlin (DE): Springer Berlin Heidelberg. hlm 878-887. Kohavi R. 1995. A study of cross-validation and bootstrap for accuracy estimation and model selection. International Joint Conference on Artificial Intelligence. 1995 Agu 20-25; Quebec, Kanada. Quebec (CA): Morgan Kauffman. hlm 1137-1145. Larose DT. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey (US). J Wiley. Pao TL, Liao WY, Chen YT. 2008. A weighted discrete KNN method for mandarin speech and emotion recognition. Di dalam: Mihelic F, Zibert J, editor. Speech Recognition Technologies and Applications. I-Tech; 2008 Nov 1; Vienna, Austria. Vienna (AT): I-Tech. hlm 550-552. Setiawati AP. 2011. Penelusuran banyaknya unit dan lapisan tersembunyi jaringan saraf tiruan pada data tidak seimbang (studi kasus debitur kartu kredit Bank Mandiri tahun 2008-2009) [skripsi]. Bogor (ID): Institut Pertanian Bogor. Teknomo K. 2006. Similarity measurement [internet]. [diunduh 2013 Nov 27]. Tersedia pada: http://people.revoledu.com/kardi/tutorial/Similarity/Aggregate Distances.html. Ulya F. 2013. Klasifikasi debitur kartu kredit menggunakan algoritme k-nearest neighbor untuk kasus imbalanced data [skripsi]. Bogor (ID): Institut Pertanian Bogor. Wijayanti R. 2013. Klasifikasi nasabah kartu kredit menggunakan algoritme fuzzy k-nearest neighbor pada data tidak seimbang [skripsi]. Bogor (ID): Institut Pertanian Bogor. Yen SJ, Lee YS. 2009. Cluster-based under-sampling approaches for imbalanced data distributions. Expert Systems with Applications. 36(3):5718-5727.doi: 10.1016/j.eswa.2008.06.108. Zavrel J. 1997. An empirical re-examination of weighted voting for K-NN. Di dalam: Daelemans W, Flach P, van den Bosch A, editor. Proceedings of the 7th Belgian-Dutch Conference on Machine Learning [Internet]. [Waktu dan tempat pertemuan tidak diketahui]. Tilburg (NL): TILBURG. hlm 139-148. [diunduh 2014 Jan 20]. Tersedia pada: http://citeseerx.ist.psu.edu/viewdoc/download? doi=10.1.1.36.573&rep=rep1&type=pdf.
16 Lampiran 1 Keterangan lengkap atribut Tipe Data Nominal
Nama Atribut Jenis Kelamin Status Pernikahan
Tipe Perusahaan
Status Pekerjaan Pekerjaan
Status Rumah Ordinal
Pendidikan
Rasio
Pendapatan Jumlah Tanggungan Banyaknya Kartu Kredit Lain Persentase Utang Kartu Kredit Lain Usia Masa Kerja Lama Tinggal
Keterangan 1 = Pria 2 = Wanita 1 = Lajang 2 = Menikah 3 = Bercerai 1 = Kontraktor 2 = Konversi 3 = Industri berat 4 = Pertambangan 5 = Jasa 6 = Transportasi 1 = Permanen 2 = Kontrak 1 = Konversi 2 = PNS 3 = Profesional 4 = Wiraswasta 5 = Perusahaan swasta 0 = Bukan milik sendiri 1 = Milik sendiri 1 = SMP/SMA 2 = Akademi 3 = S1/S2 Rupiah per tahun Satuan Satuan Persen Tahun Bulan Bulan
Lampiran 2 Hasil klasifikasi data asli dalam % untuk data uji ke-8 dengan k tetangga terdekat Nilai k Akurasi F-Measure Precision Recall 1 60.46 6.06 4.95 7.81 2 68.11 NaN 0.00 0.00 3 66.84 4.41 4.17 4.69
17 Lampiran 2 Hasil klasifikasi data asli dalam % untuk data uji ke-8 dengan k tetangga terdekat (lanjutan) Nilai k Akurasi F-Measure Precision Recall 4 67.86 NaN 0.00 0.00 5 68.62 1.60 1.64 1.56 6 69.39 NaN 0.00 0.00 7 70.66 NaN 0.00 0.00 8 71.68 NaN 0.00 0.00 9 72.70 NaN 0.00 0.00 10 75.26 NaN 0.00 0.00 Lampiran 3 Nilai precision data asli dengan 10 tetangga terdekat Data Uji ke-k Precision (%) 1 0.00 2 0.00 3 2.94 4 2.70 5 0.00 6 0.00 7 2.50 8 0.00 9 0.00 10 0.00 Lampiran 4 Confusion matrix data asli untuk data uji ke-3 Kelas aktual Kelas positif Kelas negatif
Kelas hasil klasifikasi Kelas positif Kelas negatif 1 63 33 296
Lampiran 5 Nilai precision data oversampling duplikasi dengan 1 tetangga terdekat Data Uji ke-k Precision (%) 1 75.90 2 77.02 3 75.90 4 74.64 5 75.36 6 76.64 7 78.82 8 75.18 9 77.40 10 74.41
18 Lampiran 6 Confusion matrix data oversampling duplikasi untuk data uji ke-7 Kelas aktual Kelas positif Kelas negatif
Kelas hasil klasifikasi Kelas positif Kelas negatif 346 0 115 211
Lampiran 7 Nilai precision data oversampling acak dengan 1 tetangga terdekat Data Uji ke-k Precision (%) 1 76.96 2 76.89 3 76.85 4 77.59 5 77.38 6 82.98 7 69.78 8 78.02 9 74.77 10 76.11 Lampiran 8 Confusion matrix data oversampling acak untuk data uji ke-6 Kelas aktual Kelas positif Kelas negatif
Kelas hasil klasifikasi Kelas positif Kelas negatif 334 23 83 212
Lampiran 9 Nilai precision data undersampling acak dengan 9 tetangga terdekat Data Uji ke-k Precision (%) 1 56.94 2 58.57 3 56.52 4 58.21 5 56.25 6 53.75 7 56.58 8 54.93 9 52.78 10 56.76 Lampiran 10 Confusion matrix data undersampling acak untuk data uji ke-2 Kelas aktual Kelas positif Kelas negatif
Kelas hasil klasifikasi Kelas positif Kelas negatif 42 21 30 34
19 Lampiran 11 Nilai precision data cluster undersampling dengan 5 tetangga terdekat Data Uji ke-k Precision (%) 1 81.48 2 76.12 3 76.81 4 79.66 5 83.02 6 73.02 7 77.94 8 68.85 9 73.44 10 69.70 Lampiran 12 Confusion matrix data cluster undersampling untuk data uji ke-5 Kelas aktual Kelas positif Kelas negatif
Kelas hasil klasifikasi Kelas positif Kelas negatif 37 27 13 51
20
RIWAYAT HIDUP Penulis dilahirkan di Bekasi pada tanggal 6 April 1991. Penulis merupakan anak pertama pasangan Ir H Solichin, MMSI dan Hj Bonita Anugrawati. Penulis merupakan lulusan dari MAN 4 Model Jakarta (2006-2009), MTs Islam Ngruki Sukoharjo (2003-2006), dan MI Pembangunan UIN Jakarta (1997-2003). Penulis diterima sebagai mahasiswa Ilmu Komputer Institut Pertanian Bogor pada tahun 2009 melalui jalur Undangan Seleksi Masuk IPB (USMI). Selama menjadi mahasiswa, penulis menjadi panitia dalam Masa Perkenalan Fakultas Matematika dan Ilmu Pengetahuan Alam (MPF-MIPA) dan Masa Perkenalan Departemen Ilmu Komputer (MPD-Ilkom) pada tahun 2011. Penulis menjalani praktik kerja lapang di Departemen Planning & Scheduling PT Rajawali Citra Televisi Indonesia, Jakarta Barat pada bulan Juni sampai Agustus 2012. Penulis juga aktif menjadi anggota Serambi Ruhiyah Mahasiswa FMIPA (SERUM-G) pada tahun yang sama.