KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT
DEWI SRI RAHAYU
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Naive Bayes pada Data Tidak Seimbang untuk Kasus Prediksi Resiko Kredit Debitur Kartu Kredit adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, April 2014 Dewi Sri Rahayu NIM G64090029
ABSTRAK DEWI SRI RAHAYU. Klasifikasi Naive Bayes pada Data Tidak Seimbang untuk Kasus Prediksi Resiko Kredit Debitur Kartu Kredit. Dibimbing oleh AZIZ KUSTIYO. Bisnis perbankan di Indonesia masih didominasi oleh bisnis perkreditan. Sebagian besar pendapatan bank berasal dari bisnis tersebut. Namun, resiko kredit dapat menyebabkan kredit bermasalah sehingga dapat mengurangi pendapatan bank. Penelitian ini menggunakan analisis klasifikasi naive bayes pada data tidak seimbang untuk kasus prediksi resiko kredit debitur kartu kredit yang mampu mengklasifikasikan calon debitur ke dalam kategori good atau bad. Strategi sampling digunakan untuk mengatasi permasalahan data tidak seimbang. Metode yang digunakan adalah oversampling duplikasi, oversampling acak, undersampling acak, dan undersampling cluster. Hasil penelitian menunjukkan bahwa metode oversampling acak menunjukkan nilai terbaik setelah dilakukan strategi sampling dengan nilai f-measure sebesar 83.30%. Kata Kunci: Data tidak seimbang, klasifikasi naive bayes, oversampling, resiko kredit, undersampling.
ABSTRACT DEWI SRI RAHAYU. Naive Bayes Classification on the Imbalanced Data for the Predictions of Debtor’s Credit Risk. Supervised by AZIZ KUSTIYO. Banking business in Indonesia is still dominated by the credit business field. Most of the bank's revenue comes from this business field. Unfortunately, credit risk can cause problems in loans which can reduce the bank’s revenue. This research uses a Naive Bayes classification analysis on the imbalanced data for the predictions of debtor’s credit risk that are able to classify the future debtor into the following two categories: good or bad. Sampling strategy is used to overcome the problems of imbalanced data. Duplication oversampling, random oversampling, random undersampling, and cluster undersampling are chosen as the methods. It is found that the random oversampling method shows the best value after sampling strategy is conducted with an f-measure of 83.30%. Keywords: Credit risk, imbalanced data, naive bayes classification, oversampling, undersampling.
KLASIFIKASI NAIVE BAYES PADA DATA TIDAK SEIMBANG UNTUK KASUS PREDIKSI RESIKO KREDIT DEBITUR KARTU KREDIT
DEWI SRI RAHAYU
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
Penguji : 1. Toto Haryanto, SKom, MSi 2. Karlina Khiyarin Nisa, SKom, MT
Judul Skripsi : Klasifikasi Naive Bayes pada Data Tidak Seimbang untuk Kasus Prediksi Resiko Kredit Debitur Kartu Kredit. Nama : Dewi Sri Rahayu NIM : G64090029
Disetujui oleh
Aziz Kustiyo, SSi MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Puji syukur kehadirat Allah subhanahu wa ta’ala atas segala karunia-Nya yang telah melimpahkan rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul Klasifikasi Naive Bayes pada Data Tidak Seimbang untuk Kasus Prediksi Resiko Kredit Debitur Kartu Kredit. Terima kasih penulis ucapkan kepada Bapak Aziz Kustiyo, SSi, MKom selaku pembimbing yang telah mencurahkan waktu dan ilmunya untuk membimbing saya. Penulis juga mengucapkan terima kasih kepada dosen penguji, Bapak Toto Haryanto, SKom, MSi dan Ibu Karlina Khiyarin Nisa, SKom, MT atas kritik dan saran. Disamping itu, penulis juga ingin menyampaikan terimakasih kepada seluruh staf Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB atas semua pelayanan terbaik yang pernah penulis terima. Selanjutnya penghormatan dan terima kasih yang sebesar-besarnya penulis berikan kepada orang tua dan keluarga tercinta yang telah mencurahkan cinta serta dukungannya baik moril maupun materil. Kepada teman-teman sebimbingan atas bantuan serta saran yang diberikan, IMTR terutama buat Zahrial Syah Alam dan teman-teman Pocut Baren atas bantuan, saran, kritik, dan dukungannya kepada penulis. Semoga karya ilmiah ini bermanfaat. Bogor, April 2014 Dewi Sri Rahayu
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Pengadaan Data
2
Data Tidak Seimbang
2
Praproses Data
4
Normalisasi Data
4
Strategi Sampling
4
Pembagian Data Uji dan Data Latih
5
Diskretisasi
6
Klasifikasi Naive Bayes
6
Analisis Hasil Klasifikasi
6
Penerapan Model Terbaik
8
HASIL DAN PEMBAHASAN
8
Pengadaan Data
8
Praproses Data
8
Hasil Klasifikasi
8
Perbandingan Hasil Percobaan
13
Perbandingan dengan Penelitian Sebelumnya
16
SIMPULAN DAN SARAN
18
Simpulan
18
Saran
18
DAFTAR PUSTAKA
18
LAMPIRAN
20
DAFTAR TABEL
1 Confusion Matrix untuk data dengan dua kelas 2 Karakteristik atribut 3 Confusion matrix Data Asli 4 Confusion Matrix Oversampling Duplikasi 5 Confusion Matrix Oversampling Acak 6 Confusion Matrix Undersampling Acak 7 Confusion Matrix Undersampling Cluster 8 Nilai akurasi setiap model data percobaan 9 Nilai Precision setiap model data percobaan 10 Nilai Recall setiap model data percobaan 11 Nilai F-Measure setiap model data percobaan 12 Hasil percobaan oversampling terbaik 13 Perbandingan analisis hasil dengan penelitian sebelumnya
7 8 9 10 11 12 12 13 13 14 14 15 17
DAFTAR GAMBAR 1 Tahapan penelitian 2 Hasil percobaan data asli 3 Hasil percobaan oversampling duplikasi 4 Hasil percobaan oversampling acak 5 Hasil percobaan undersampling acak 6 Hasil percobaan undersampling cluster 7 Grafik f-measure terbaik
3 9 10 10 11 12 16
DAFTAR LAMPIRAN 1 Daftar atribut 2 Confusion matrix tiap percobaan 3 Antarmuka sistem prediksi risiko kredit
20 21 22
PENDAHULUAN Latar Belakang Bisnis perbankan di Indonesia masih didominasi oleh bisnis perkreditan. Sebagian besar pendapatan bank berasal dari bisnis perkreditan, meskipun tidak menutup mata bahwa pada akhir-akhir ini fee base income semakin meningkat akibat penjualan produk dan jasa perbankan lainnya. Selain itu, dengan menempatkan kredit (menyalurkan dana) dan menerima kembali angsuran pokok dan bunga maka sangat membantu pengelolaan likuiditas bank, bahkan bank dalam memenuhi kewajiban jangka panjangnya juga tidak lepas dari sumbersumber dana dari pelunasan kredit. Aktivitas perkreditan yang tepat juga bisa meningkatkan rentabilitas bank (Taswan 2011). Namun kredit yang diberikan kepada para peminjam selalu ada resiko, berupa kredit tidak dapat kembali tepat pada waktunya yang dinamakan kredit bermasalah. Kredit bermasalah selalu ada dalam kegiatan perkreditan bank karena bank tidak mungkin menghindari adanya kredit bermasalah (Christianata 2008). Berdasarkan beberapa penelitian sebelumnya, bank memiliki kemungkinan menerima debitur dengan resiko kredit tinggi. Jumlah debitur kredit yang beresiko tinggi jauh lebih sedikit dibanding dengan debitur kredit yang berisiko rendah. Namun, hal ini bisa menyebabkan pengurangan pendapatan bank (Anggraini 2013). Data nasabah yang digunakan dalam pembuatan model klasifikasi ini merupakan himpunan data tidak seimbang. Data tidak seimbang merupakan suatu kondisi pada sebuah himpunan data terdapat satu kelas yang memiliki jumlah instance yang kecil bila dibandingkan dengan kelas lainnya. Contohnya pada suatu himpunan data yang terdiri dari dua kelas, rasio jumlah instance antara dua kelas tersebut sebesar 1:100, 1:1000, dan 1:10.000. Kondisi data tidak seimbang ini dapat menyebabkan pengklasifikasian data yang tidak optimal (Barandela et al. 2002). Salah satu penelitian dilakukan oleh Mladenic dan Grobelnik (1999) yang menggunakan metode naive bayes classifier pada selection feature yang terdiri dari 5 feature seperti: entertainment, arts, computer, education, dan references untuk menghitung prediksi rata-rata kategori yang meliputi F-measure, precision, dan recall. Hasil yang diperoleh dari model terbaik adalah pada feature references dengan pengukuran f-measure, precision, dan recall sebesar 64.00%, 51.00%, dan 81.00%. Pada penelitian ini akan dibuat suatu model untuk mengklasifikasikan nasabah dengan kategori good atau bad. Pembuatan model dilakukan dengan menggunakan klasifikasi naive bayes. Sebelumnya, penelitian dengan menggunakan data yang sama dilakukan oleh Setiawati (2011) menggunakan algoritme jaringan saraf tiruan backpropagation. Berdasarkan penelitian tersebut, diketahui bahwa perbandingan jumlah debitur pada kelas good dan bad memiliki perbedaan yang cukup besar, yaitu 5:1. Dari hasil penelitian tersebut diperoleh akurasi dari model terbaik sebesar 73.39%, serta recall dan precision kelas bad sebesar 56.26% dan 36.90%.
2 Perumusan Masalah Masalah yang dianalisis dalam penelitian ini adalah bagaimana menerapkan metode naive bayes classifier dalam mengklasifikasikan nasabah kartu kredit yang berisiko kredit good dan kredit bad serta pengaruh terhadap hasil akurasi, precision, recall, dan f-measure pada kasus data tidak seimbang. Tujuan Penelitian Tujuan penelitian ini adalah membangun suatu model untuk mengklasifikasikan debitur kartu kredit yang merupakan data tidak seimbang dengan menggunakan metode oversampling dan undersampling pada algoritme naive bayes classifier. Manfaat Penelitian Penelitian ini memberikan gambaran kinerja naive bayes classifier pada data tidak seimbang. Ruang Lingkup Penelitian Ruang lingkup dalam penelitian ini adalah set data yang digunakan pada penelitian Setiawati (2011) yaitu data sekunder nasabah kartu kredit bank X pada periode tahun 2008-2009. Metode yang digunakan pada penelitian ini adalah oversampling dan undersampling dengan algoritme naive bayes classifier.
METODE Penelitian ini dilakukan dalam beberapa tahapan. Alur tahapan metode penelitian yang dilakukan dapat dilihat pada Gambar 1. Pengadaan Data Pada tahap ini dilakukan pencarian data yang akan diolah dan dianalisis. Data yang dipilih adalah data sekunder nasabah kartu kredit bank X pada periode waktu 2008-2009. Data ini diperoleh dari penelitian sebelumnya yang dilakukan oleh Setiawati (2011). Data Tidak Seimbang Data tidak seimbang merupakan ketidakseimbangan yang terjadi ketika jumlah data training antara dua kelas yang berbeda, salah satu kelasnya merepresentasikan jumlah data yang sangat besar (majority class) sedangkan kelas yang lainya merepresentasikan jumlah data yang sangat kecil (minority class) (Sastrawan et al. 2010).
3
Mulai
Pengadaan Data
Praproses Data
Normalisasi Data
Strategi Sampling ( Oversampling dan Undersampling )
Pembagian Data Uji dan Data Latih
Data Uji
Data Latih
Diskretisasi
Klasifikasi Naive Bayes Analisis Hasil Klasifikasi Penerapan Model Terbaik Pengujian Antarmuka Sistem
Selesai
Gambar 1 Tahapan penelitian
4 Praproses Data Tahap ini, data yang digunakan akan diproses sesuai algoritme dan tipe data atribut itu sendiri. Data awal yang diperoleh berjumlah 4413 dengan 14 atribut, 7 atribut diantaranya termasuk ke dalam kategori atribut numerik, yaitu pendapatan, jumlah tanggungan, umur, masa kerja, lama tinggal, banyaknya kartu kredit lain, dan persentase utang kartu kredit lain, serta 6 atribut lainnya termasuk ke dalam kategori atribut nominal, yaitu jenis kelamin, status pekerjaan, jenis pekerjaan, tipe perusahaan, status rumah, dan status pernikahan, sedangkan pendidikan tergolong ke dalam atribut ordinal. Di dunia nyata data cenderung tidak lengkap, noise, dan tidak konsisten, sehingga terdapat beberapa metode untuk pembersihan data (Han dan Kamber 2001). Pertama adalah missing value, bermula dari penghapusan data yang dilakukan terhadap beberapa atribut yang missing value, contohnya pada atribut persentase utang kartu kredit, banyaknya kartu kredit lain, dan lainnya. Untuk mengatasi missing value dilakukan penghapusan instance yang memiliki missing value sehingga terjadi pengurangan jumlah instance. Kedua adalah inconsistent data, dimana terdapat noise data yang tidak konsisten untuk beberapa atribut. Praproses data dikoreksi secara manual. Data yang mengandung nilai fitur tidak valid antara 0 atau 1 pada fitur pendapatan, dan -1 pada fitur masa kerja dan lama tinggal. Total data keseluruhan yang akan diproses dalam penelitian ini berjumlah 3895 data dengan 14 atribut independen yang terdiri dari 3259 data yang termasuk ke dalam kategori kelas good dan 636 data termasuk ke dalam kategori kelas bad. Normalisasi Data Normalisasi data dilakukan pada atribut data numerik yang memiliki pengaruh terhadap atribut berskala kecil dengan skala nilai antara 0.0 sampai 1.0. Normalisasi dapat mengatasi atribut yang memiliki nilai rentang yang cukup besar. Banyak metode yang digunakan untuk normalisasi data, antara lain min-max normalization yang digunakan pada penelitian ini (Han dan Kamber 2001). Min-max normalization melakukan transformasi linear pada data asli. Untuk melakukan normalisasi data, perlu mengetahui minimum (Xmin) dan maksimum (Xmax) dari data (Mitsa 2010) : n
n a
n
Dengan Xnorm adalah nilai hasil normalisasi, nilai sebelum normalisasi, Xmin nilai minimun dari fitur, dan Xmax nilai maksimum dari fitur. Strategi Sampling Strategi sampling merupakan bagian dari ilmu statistik yang memfokuskan penelitian terhadap pemilihan data yang dihasilkan dari satu kumpulan populasi data (Sastrawan et al. 2010). Strategi sampling adalah metode umum yang digunakan dalam menyelesaikan permasalahan data tidak seimbang. Dengan
5 penerapan sampling, tingkat data tidak seimbang semakin kecil sehingga klasifikasi dapat dilakukan dengan tepat. Strategi sampling terdiri dari oversampling dan undersampling. Pertama adalah oversampling, strategi ini dilakukan pada data kelas minoritas sehingga jumlah data mendekati jumlah data kelas mayoritas. Oversampling terdiri dari oversampling duplikasi dan oversampling acak. Oversampling duplikasi memiliki beberapa instance yang sama sehingga tidak memiliki variasi data, sedangkan oversampling acak dapat dilakukan dengan pembangkitan data secara acak. Kedua adalah undersampling, strategi ini dilakukan pada kelas mayoritas sehingga jumlah data kelas mayoritas sama dengan jumlah data kelas minoritas. Undersampling terdiri dari undersampling acak dan undersampling cluster. Undersampling acak dilakukan pada kelas mayoritas sehingga jumlah data sama dengan jumlah data kelas minoritas yang diambil secara acak, sedangkan undersampling clustering dilakukan pada software WEKA menggunakan metode k-means clustering. Pembagian Data Uji dan Data Latih Pembagian data uji dan data latih dilakukan setelah melakukan strategi sampling, teknik yang pertama adalah metode oversampling duplikasi. Data bad akan dibangkitkan sebanyak data good secara duplikasi, kemudian jumlah data (good dan bad) diambil 1/4 untuk data uji, dan 3/4 untuk data latih. Oversampling acak dilakukan secara random menggunakan software Minitab, kemudian jumlah data (good dan bad) diambil 1/4 untuk data uji, dan 3/4 untuk data latih. Metode undersampling terdiri atas undersampling acak dan undersampling cluster. Pada undersampling acak, pembagian data uji dan data latih dilakukan dengan mengurangi jumlah data kelas terbesar yang dilakukan secara acak sehingga jumlah datanya sama dengan kelas terkecil. Jumlah data (good dan bad) diambil 1/4 untuk data uji, dan 3/4 untuk data latih. Undersampling cluster dilakukan pada data mayoritas dengan metode clustering menggunakan k-means yang dibagi sebanyak 10 cluster. Setelah didapat hasil clustering, data tersebut dipisah berdasarkan cluster. Agar data yang diambil tidak mengelompok pada suatu cluster tertentu, jumlah data yang diambil pada masing-masing cluster mengikuti fungsi berikut (Yen dan Lee 2009):
u
u ah data clust ah data ke as a or tas
u
ah data ke as
nor tas
dengan Ci : hasil dari jumlah data setiap cluster i. Hasil dari fungsi di atas merupakan jumlah data yang harus diambil pada setiap cluster. Jumlah data tersebut akan digunakan sebagai data uji, selebihnya menjadi data latih. Setelah melakukan pembagian data uji dan data latih pada setiap metode sampling, data tersebut diimplementasikan menggunakan software WEKA pada klasifikasi naive bayes.
6 Klasifikasi merupakan proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan konsep atau kelas-kelas data. Tujuan dari klasifikasi adalah membentuk model yang dapat digunakan untuk memprediksi kelas dari suatu objek atau data yang label kelasnya tidak diketahui (Han dan Kamber 2001). Diskretisasi Algoritme klasifikasi dan clustering hanya berhubungan dengan atribut nominal dan tidak dapat menangani atribut yang diukur pada skala numerik. Pada dataset, atribut numerik harus dilakukan diskretisasi ke dalam sejumlah kecil dari rentang yang berbeda (Witten et al. 2011). Dalam penelitian ini, diskretisasi dilakukan terhadap data numerik seperti banyaknya tanggungan, pendapatan, umur, masa kerja, dan lama tinggal. Diskretisasi ini menguji beberapa rentang yang digunakan antara lain mulai dari rentang 10, 20, 30, 40, dan 50 yang diimplementasikan pada WEKA menggunakan unsupervised discretization. Klasifikasi Naive Bayes Naive bayes adalah metode klasifikasi yang dapat memprediksi probabilitas sebuah class, sehingga dapat menghasilkan keputusan berdasarkan data pembelajaran (Baktiar et al. 2013). Naive bayes classifier merupakan sebuah metode klasifikasi yang berakar pada teorema bayes yang memiliki asumsi bahwa atributnya independen dari nilai-nilai atribut lainnya, asumsi ini disebut probabilitas bersyarat. Berikut formula bayes yang dinyatakan dengan (Leung 2007): ( | ) dengan P(H|X) P(X|H) P(H) P(X)
: : : :
( | ) ( ) ( )
probabilitas hipotesis H benar jika diberikan evidence X. probabilitas munculnya evidence X, jika diketahui hipotesis H benar. probabilitas hipotesis H (menurut hasil sebelumnya) tanpa memandang evidence apapun. probabilitas evidence X.
Ciri utama dari naive bayes classifier adalah asumsi yang sangat kuat (naif) akan independensi dari masing-masing kondisi/kejadian (Natalius 2010). Meskipun asumsi independen ini sering diabaikan dalam praktek, naive bayes tetap memberikan akurasi klasifikasi yang kompetitif dengan efisiensi komputasi dan banyak fitur yang diinginkan lainnya, sehingga menyebabkan naive bayes banyak diterapkan dalam praktek. Analisis Hasil Klasifikasi Analisis hasil dilakukan untuk mengukur keberhasilan suatu algoritme klasifikasi dengan membuat confusion matrix dari setiap percobaan. Confusion matrix mengandung informasi tentang kelas data aktual dan kelas data hasil prediksi yang direpresentasikan pada baris matriks. Kinerja algoritme klasifikasi
7 dievaluasi berdasarkan data yang ada pada matriks. Tabel 1 menyajikan confusion matrix untuk data dengan dua kelas (Sun et al. 2009). Tabel 1 Confusion Matrix untuk data dengan dua kelas Data
Aktual
Kelas Positif Kelas Negatif
Hasil Prediksi Kelas Kelas Positif Negatif TP FN FP TN
Keterangan: TP adalah jumlah instance kelas positif yang berhasil diprediksi benar sebagai kelas positif. FN adalah jumlah instance kelas positif yang tidak berhasil diprediksi dengan benar karena masuk ke kelas negatif. FP adalah jumlah instance kelas negatif yang tidak berhasil diprediksi benar sebagai kelas negatif karena dikelompokkan ke kelas positif. TN adalah jumlah instance kelas negatif yang berhasil diprediksi benar sebagai kelas negatif.
Beberapa pengukuran evaluasi untuk data tidak seimbang adalah akurasi, precision, recall, dan f-measure. Semakin tinggi tingkat akurasi, precision, recall, dan f-measure maka algoritme yang dihasilkan dengan metode tersebut semakin baik dalam melakukan klasifikasi. Berdasarkan data yang didapat akan dihitung akurasi, precision, recall, dan f-measure (Witten dan Frank 2005). 1. Akurasi (Ac) Akurasi adalah jumlah perbandingan data yang benar dengan jumlah keseluruhan data. Perhitungan akurasi menggunakan fungsi sebagai berikut: c 2. Precision (P) Precision digunakan untuk mengukur seberapa besar proporsi dari kelas data positif yang berhasil diprediksi dengan benar dari keseluruhan hasil prediksi kelas positif. Perhitungan precision menggunakan fungsi sebagai berikut:
3. Recall (R) Recall digunakan untuk menunjukkan persentase kelas data positif yang berhasil diprediksi benar dari keseluruhan data kelas positif. Perhitungan recall menggunakan fungsi sebagai berikut:
4. F-measure (F) F-measure merupakan gabungan dari precision dan recall yang digunakan untuk mengukur kemampuan algoritme dalam mengklasifikasikan kelas minoritas. Perhitungan f-measure menggunakan fungsi sebagai berikut: call call
cs n cs n
8
Penerapan Model Terbaik Setelah analisis hasil klasifikasi, dilakukan penerapan model terbaik dari klasifikasi naive bayes. Antarmuka sistem mampu memprediksi risiko kredit dari kelas data baru berdasarkan model naive bayes dengan f-measure yang dihasilkan berupa nilai yang tertinggi. Model data tersebut digunakan sebagai dasar pada proses prediksi data baru.
HASIL DAN PEMBAHASAN Pengadaan Data Data yang dipilih adalah data sekunder nasabah kartu kredit bank X pada periode waktu 2008-2009. Data ini diperoleh dari penelitian sebelumnya yang dilakukan oleh Setiawati (2011). Total data asli yang belum mengalami praproses data berjumlah 4413 data dengan 3574 data kelas good dan 839 data kelas bad. Praproses Data Berdasarkan hasil analisis data yang dilakukan, tidak semua atribut memiliki nilai yang lengkap. Data yang terdapat missing value tidak digunakan dalam proses klasifikasi. Selain itu, data yang mengandung nilai fitur tidak valid seperti 0 atau 1 pada fitur pendapatan, -1 pada fitur masa kerja dan lama tinggal juga tidak digunakan. Kelengkapan atribut menentukan seberapa baik hasil dari klasifikasi. Setelah penghapusan data, jumlah data yang digunakan pada penelitian ini berjumlah 3895 data. Data kelas good sebanyak 3259 data dan kelas bad sebanyak 636 data. Karakteristik dari atribut data yang diketahui dapat dilihat pada Tabel 2. Selengkapnya dapat dilihat daftar atribut pada Lampiran 1. Tabel 2 Karakteristik atribut Numerik
Nominal
Pendapatan Jumlah tanggungan Umur Masa kerja Lama tinggal Banyaknya kartu kredit lain Persentase utang kartu kredit lain
Jenis kelamin Status pekerjaan Jenis pekerjaan Tipe perusahaan Status rumah Status pernikahan
Ordinal Pendidikan
Hasil Klasifikasi Hasil klasifikasi menunjukkan nilai yang memiliki akurasi terbaik dari setiap percobaan berdasarkan rentang yang digunakan.
9
Percobaan Data Asli Data asli dalam percobaan ini merupakan data yang sudah melalui tahap praproses data dan belum mengalami proses sampling, dengan 3259 data mayoritas yang merupakan debitur good, dan 636 data minoritas merupakan debitur bad. Total data keseluruhan untuk percobaan data asli berjumlah 3895 data. Akurasi terbaik percobaan data asli didapatkan pada rentang 20, dapat dilihat pada Gambar 2. 100%
83.76%
80% 51.85%
60% 40% 20%
15.04%
8.81%
0%
Akurasi
Recall
Precision
F-Measure
Gambar 2 Hasil percobaan data asli Berdasarkan Gambar 2 diketahui bahwa jumlah instance uji kelas debitur bad yang diprediksi sebagai kelas debitur good lebih besar dibanding dengan jumlah instance bad yang diprediksi benar. Pada instance uji debitur good, jumlah instance prediksi benar lebih besar dibandingkan dengan jumlah instance yang salah prediksi, sehingga nilai recall dan precision pada kelas debitur bad sebesar 8.81%, dan 51.85%. Berikut confusion matrix data asli dapat dilihat pada Tabel 3. Tabel 3 Confusion matrix Data Asli Data Aktual
Bad Good
Bad 14 13
Prediksi Good 145 801
Percobaan Oversampling Duplikasi Pada percobaan ini, data minoritas 636 data bad, akan dibangkitkan sebanyak data good dengan cara duplikasi sehingga jumlahnya menjadi 3180 data. Jumlah data (good dan bad) diambil 1/4 untuk data uji, dan 3/4 untuk data latih. Setelah itu, data diproses agar dapat diolah pada software WEKA. Akurasi terbaik percobaan oversampling duplikasi didapatkan pada rentang 40, dapat dilihat pada Gambar 3.
10 100% 80%
85.15% 72.77 %
75.55%
67.90%
60% 40%
20% 0% Akurasi
Recall
Precision
F-Measure
Gambar 3 Hasil percobaan oversampling duplikasi Berdasarkan Gambar 3 diketahui bahwa jumlah instance yang prediksi benar di kedua kelas adalah cukup baik. Recall untuk kelas bad adalah 85.15% sementara precision kelas bad adalah 67.90%. Hal ini dapat dilihat dari hasil pengukuran confusion matrix bahwa oversampling duplikasi cukup baik dalam memprediksi debitur yang berpotensi menjadi debitur good dan bad. Berikut confusion matrix oversampling duplikasi dapat dilihat pada Tabel 4. Tabel 4 Confusion Matrix Oversampling Duplikasi Prediksi Data Bad Good Bad 644 151 Aktual Good 535 535 Percobaan Oversampling Acak Percobaan oversampling acak ini dilakukan dengan cara membangkitkan data kelas minoritas sehingga jumlahnya sama dengan kelas mayoritas. Proses pengambilan data secara acak ini dilakukan dengan software Minitab. Jumlah data (good dan bad) diambil 1/4 untuk data uji, dan 3/4 untuk data latih. Setelah itu, data diproses agar dapat diolah pada software WEKA. Akurasi terbaik percobaan oversampling acak didapatkan pada rentang 20, dapat dilihat pada Gambar 4. 100%
80%
81.29%
94.50% 74.50%
83.30%
60% 40% 20% 0% Akurasi
Recall
Precision
F-Measure
Gambar 4 Hasil percobaan oversampling acak
11 Berdasarkan Gambar 4 diketahui bahwa jumlah instance uji kelas debitur bad yang diprediksi sebagai kelas debitur good lebih kecil dibanding dengan jumlah instance bad yang diprediksi benar. Pada instance uji debitur good, jumlah instance prediksi benar lebih besar dibandingkan dengan jumlah instance yang salah prediksi, sehingga nilai precison dan recall yang dihasilkan pada oversampling acak lebih tinggi, yaitu sebesar 74.50% dan 94.50%, dengan demikian ketepatan algoritme naive bayes classifier dalam memprediksi kelas debitur bad sangat baik. Berikut confusion matrix oversampling acak dapat dilihat pada Tabel 5. Tabel 5 Confusion Matrix Oversampling Acak Prediksi Bad 751 257
Data Aktual
Bad Good
Good 44 557
Percobaan Undersampling Acak Teknik undersampling acak dilakukan dengan mengurangi jumlah data kelas mayoritas secara acak menjadi 636 data sesuai jumlah data pada kelas minoritas. Total data yang diproses adalah 1272. Jumlah data (good dan bad) diambil 1/4 untuk data uji, dan 3/4 untuk data latih. Setelah itu, data diproses agar dapat diolah pada software WEKA. Akurasi terbaik percobaan undersampling acak pada saat rentang 40, dapat dilihat pada Gambar 5. 100% 80% 60%
45.59%
40%
20.80%
20%
5.45%
3.14%
0% Akurasi
Recall
Precision
F-Measure
Gambar 5 Hasil percobaan undersampling acak Berdasarkan Gambar 5 diketahui bahwa jumlah instance uji kelas debitur bad yang diprediksi sebagai kelas debitur good lebih besar dibanding dengan jumlah instance bad yang diprediksi benar. Pada instance uji debitur good, jumlah instance prediksi benar lebih besar dibandingkan dengan jumlah instance yang salah prediksi, sehingga nilai recall dan precision yang dihasilkan sangat rendah yaitu sebesar 3.14% dan 20.80%. Hal ini menunjukkan bahwa ketepatan algoritme naive bayes classifier dalam memprediksi kelas debitur bad sangat rendah dengan dibuktikan oleh nilai precision dan recall yang rendah pada setiap percobaan. Berikut confusion matrix undersampling acak dapat dilihat pada Tabel 6.
12 Tabel 6 Confusion Matrix Undersampling Acak Prediksi Bad Good 5 154 19 140
Data Aktual
Bad Good
Percobaan Undersampling Cluster Proses clustering pada percobaan ini dilakukan dengan metode k-means yang dibagi sebanyak 10 cluster untuk 3259 data kelas mayoritas. Setelah didapat hasil clustering, data tersebut dipisah berdasarkan cluster. Untuk setiap cluster tersebut akan diambil sejumlah data dari masing-masing cluster sehingga jumlahnya menjadi 636 data yang kemudian akan digabungkan dengan 636 data kelas minoritas sehingga total data adalah 1272. Jumlah data (good dan bad) diambil 1/4 untuk data uji, dan 3/4 untuk data latih. Setelah itu, data diproses agar dapat diolah pada software WEKA. Akurasi terbaik percobaan undersampling cluster pada saat rentang 40, dapat dilihat pada Gambar 6.
100% 80%
67.92%
66.00%
68.60%
67.30%
60% 40%
20% 0% Akurasi Recall Precision F-Measure Gambar 6 Hasil percobaan undersampling cluster Berdasarkan Gambar 6 diketahui bahwa bahwa jumlah instance uji kelas debitur bad yang diprediksi sebagai kelas debitur good lebih kecil dibanding dengan jumlah instance bad yang diprediksi benar. Pada instance uji debitur good, jumlah instance prediksi benar lebih besar dibandingkan dengan jumlah instance yang salah prediksi. Recall untuk kelas bad adalah 66.03%, sedangkan precision untuk kelas bad adalah 68.62%. Hasil pengukuran confusion matrix ini dapat dikatakan bahwa undersampling cluster cukup baik dalam memprediksi debitur yang berpotensi menjadi debitur good dan bad. Berikut confusion matrix undersampling cluster dapat dilihat pada Tabel 7. Tabel 7 Confusion Matrix Undersampling Cluster Prediksi Data Aktual
Bad Good
Bad 105 48
Good 54 111
13 Perbandingan Hasil Percobaan Berdasarkan hasil klasifikasi, diperoleh nilai akurasi, precision, recall, dan f-measure percobaan pada data asli, oversampling duplikasi, oversampling acak, undersampling acak, dan undersampling cluster yang diperlihatkan pada Tabel 8, Tabel 9, Tabel 10, dan Tabel 11. Tabel 8 Nilai akurasi setiap model data percobaan Model data
10
Akurasi tiap rentang (%) 20 30 40
50
Data asli
83.65
83.76
83.04
82.11
82.73
Oversampling duplikasi
70.29
63.21
72.03
72.77
71.16
Oversampling acak
78.43
81.29
79.73
79.49
79.98
Undersampling Acak
44.34
44.96
45.28
45.59
44.96
Undersampling cluster
67.29
62.89
64.78
67.92
66.98
Tabel 9 Nilai Precision setiap model data percobaan Model data
10
Precision tiap rentang (%) 20 30 40
50
Data asli
50.00
51.85
41.17
33.33
38.46
Oversampling duplikasi
66.45
54.62
68.25
67.90
67.00
Oversampling acak
73.09
74.50
72.48
71.95
72.50
Undersampling Acak
20.00
19.23
20.00
20.80
21.42
Undersampling cluster
68.96
65.41
66.43
68.60
68.00
14 Tabel 10 Nilai Recall setiap model data percobaan Model data
Recall tiap rentang (%) 20 30 40
10
50
Data asli
6.28
8.81
8.81
9.43
9.43
Oversampling duplikasi
80.50
81.00
81.13
85.15
82.01
Oversampling acak
89.18
94.50
95.09
95.84
95.84
Undersampling Acak
3.77
3.14
3.14
3.14
3.77
Undersampling cluster
62.89
54.71
59.74
66.00
64.15
Tabel 11 Nilai F-Measure setiap model data percobaan Model data
10
F-Measure tiap rentang (%) 20 30 40
50
Data asli
11.15
15.04
14.50
14.70
15.15
Oversampling duplikasi
72.80
65.24
74.13
75.55
73.75
Oversampling acak
80.33
83.30
82.25
82.19
82.57
Undersampling Acak
6.34
5.40
5.43
5.45
6.41
Undersampling cluster
65.78
59.58
62.90
67.30
66.01
Berdasarkan nilai akurasi yang diperoleh pada Tabel 8 terlihat bahwa akurasi antara data asli dengan data yang sudah dilakukan strategi sampling memiliki perbedaan yang signifikan. Metode klasifikasi naive bayes pada data asli menghasilkan akurasi lebih tinggi dibandingkan dengan akurasi yang dihasilkan setelah dilakukan strategi sampling, yaitu sebesar 83.76%. Berdasarkan confusion matrix yang dihasilkan pada percobaan data asli, jumlah instance kelas debitur good yang diprediksi dengan benar lebih besar dibandingkan dengan jumlah instance yang salah diprediksi. Hal ini dapat dilihat dari hasil confusion matrix tiap percobaan pada Lampiran 2. Pada metode oversampling duplikasi, oversampling acak, dan undersampling cluster, akurasi yang dihasilkan lebih kecil dari percobaan data asli, namun jumlah instance kelas debitur bad yang diprediksi dengan benar cukup tinggi, sedangkan undersampling acak, jumlah instance kelas bad yang salah diprediksi lebih besar dibandingkan dengan jumlah instance kelas bad yang diprediksi dengan benar, sehingga akurasi yang dihasilkan undersampling acak sangat rendah.
15 Nilai Precision dan recall yang diperoleh pada Tabel 9 dan Tabel 10 menunjukkan bahwa precision dan recall yang dihasilkan pada metode oversampling duplikasi, oversampling acak, dan undersampling cluster lebih tinggi dibandingkan dengan percobaan pada data asli dan metode undersampling acak. Berdasarkan confusion matrix yang dihasilkan pada oversampling duplikasi, oversampling acak, dan undersampling cluster, jumlah instance kelas bad yang diprediksi dengan benar lebih besar dibandingkan dengan jumlah instance kelas bad yang salah diprediksi, sedangkan jumlah instance kelas bad yang diprediksi dengan benar lebih besar dibanding dengan jumlah instance kelas good yang salah diprediksi. Hal ini dapat dilihat dari hasil confusion matrix tiap percobaan pada Lampiran 2. Pada percobaan data asli dan metode undersampling acak menunjukkan bahwa jumlah instance kelas bad yang diprediksi dengan benar lebih kecil dibanding jumlah instance kelas bad yang salah diprediksi, sedangkan jumlah instance kelas bad yang diprediksi dengan benar lebih besar dibandingkan dengan jumlah instance kelas good yang salah diprediksi, sehingga menyebabkan precision dan recall yang dihasilkan pada percobaan data asli dan metode undersampling acak sangat rendah. Nilai f-measure dapat dilihat pada Tabel 11. Perhitungan f-measure menggunakan nilai precision dan recall. Nilai f-measure tinggi merepresentasikan bahwa nilai precision dan recall juga tinggi. Nilai f-measure tertinggi menggunakan algoritme naive bayes diperoleh pada metode oversampling acak, yaitu sebesar 83.30%. Sedangkan pada undersampling acak diperoleh nilai fmeasure sebesar 6.41% yang merupakan f-measure terkecil. Berikut hasil percobaan metode oversampling terbaik dapat dilihat pada Tabel 12. Tabel 12 Hasil percobaan oversampling terbaik Model Data
Akurasi
Precision
Recall
F-measure
Oversampling duplikasi
72.77
68.25
85.15
75.55
Oversampling acak
81.29
74.50
95.84
83.30
Berdasarkan hasil percobaan yang diperoleh pada Tabel 12 menunjukkan bahwa metode oversampling acak memiliki nilai yang lebih tinggi dibandingkan dengan metode oversampling duplikasi, dengan f-measure yang dihasilkan oleh metode oversampling acak adalah sebesar 83.30%. Hal ini dapat dilihat dari confusion matrix yang dihasilkan kedua percobaan ini pada Lampiran 2. Berdasarkan hasil yang diperoleh dari confusion matrix menunjukkan bahwa oversampling acak memiliki kinerja yang lebih baik dalam memprediksi kelas debitur bad dibandingkan dengan oversampling duplikasi. Secara global, nilai akurasi tertinggi diperoleh pada data asli yaitu sebesar 83.76%, sedangkan precision, recall, dan f-measure tertinggi diperoleh pada saat dilakukan metode oversampling acak yaitu sebesar 74.50%, 95.84%, dan 83.30%. Nilai akurasi, precision, recall, dan f-measure yang dilakukan pada strategi sampling khususnya metode oversampling menunjukkan hasil yang cukup tinggi
16 dibandingkan dengan metode undersampling yang memiliki perbedaan yang cukup signifikan antar kedua percobaan, yang mengakibatkan metode oversampling ini dapat meningkatkan performansi dalam mengklasifikasikan data tidak seimbang pada kasus prediksi risiko kredit. Berikut hasil klasifikasi terbaik setiap percobaan berdasarkan f-measure tertinggi dapat dilihat pada Gambar 7.
F-measure (%)
100% 80% 60% 40% 20% 0% Data asli (Rentang 50)
Oversampling Oversampling Undersampling Undersampling duplikasi acak (Rentang acak (Rentang cluster (Rentang 40) 20) 50) (Rentang 40)
Gambar 7 Grafik f-measure terbaik Berdasarkan Gambar 7 menunjukkan bahwa strategi sampling mampu meningkatkan nilai f-measure. Pada saat metode oversampling duplikasi, oversampling acak, dan undersampling cluster, f-measure yang dihasilkan lebih tinggi yaitu sebesar 75.55% (rentang 40), 83.30% (rentang 20), dan 67.30% (rentang 40) dibandingkan dengan f-measure yang dihasilkan pada data asli dan undersampling acak. Perhitungan f-measure menggunakan nilai precision dan recall, sehingga nilai f-measure yang dihasilkan bergantung pada hasil yang diperoleh dari precision dan recall. Berdasarkan hasil analisis yang dilakukan terhadap akurasi, precision, recall, dan f-measure, didapatkan model terbaik yang dihasilkan pada strategi oversampling acak karena menghasilkan akurasi, precision, recall, dan f-measure yang tinggi. F-measure terbaik dihasilkan pada nilai rentang 20. Antarmuka sistem akan dibuat menggunakan klasifikasi naive bayes yang mampu memprediksi risiko kredit pada kelas data baru. Antarmuka sistem ini akan bermanfaat untuk melakukan prediksi ketika sistem dimasukkan data baru, sehingga sistem mampu menampilkan hasil kelas prediksi yaitu kelas good atau kelas bad pada data baru. Perbandingan dengan Penelitian Sebelumnya Setiawati (2011), Wijayanti (2013), Anggraini (2013), dan Ulya (2013) melakukan penelitian menggunakan data yang sama dengan penelitian ini. Pada penelitian yang dilakukan Setiawati (2011), merupakan classifier jaringan saraf tiruan pada propagasi balik. Pengambilan sampel sebanyak 50 kali dilakukan untuk mengatasi data yang tidak seimbang. Model terbaik dari penelitian ini menghasilkan akurasi sebesar 73.39% dan f-measure sebesar 44.57%. Pada penelitian Wijayanti (2013), melakukan perubahan pada algoritme dan juga resampling untuk mengatasi data yang tidak seimbang. Algoritme yang digunakan fuzzy k-nearest neighbor dengan hasil akurasi sebesar 91.93% dan f-measure
17 sebesar 92.54%. Pada penelitian Anggraini (2013), melakukan pengambilan sampel pada tiap kelas dan strategi sampling untuk mengatasi data yang tidak seimbang. Algoritme yang digunakan C4.5 dan CART dengan hasil akurasi sebesar 88.65% dan f-measure sebesar 89.60%. Pada penelitian Ulya (2013), melakukan strategi sampling menggunakan algoritme k-nearest neighbor dengan hasil akurasi sebesar 96.24% dan f-measure sebesar 96.30%. Perbandingan akurasi, precision, recall, dan f-measure pada penelitian ini terhadap penelitian yang sudah dilakukan sebelumnya dapat dilihat pada Tabel 13. Tabel 13 Perbandingan analisis hasil dengan penelitian sebelumnya Metode Akurasi Precison Recall F-measure JST propagasi balik 1)
73.39
36.90
56.26
44.57
FKNN data asli 2) FKNN oversampling duplikasi FKNN oversampling acak FKNN undersampling cluster FKNN undersampling acak
79.05 91.93 84.37 76.33 75.71
25.68 86.12 85.82 78.27 78.44
15.59 100.00 82.34 72.80 71.05
19.40 92.54 84.04 72.43 75.34
C4.5 oversampling duplikasi 3) CART oversampling duplikasi C4.5 undersampling cluster CART undersampling cluster
86.97 86.83 88.05 88.52
80.30 79.10 92.50 94.40
97.5 99.60 82.90 81.90
88.10 88.20 87.40 87.70
KNN data asli 4) KNN oversampling replikasi KNN oversampling acak KNN undersampling acak KNN undersampling cluster
80.87 96.24 84.27 77.28 66.66
28.86 95.21 86.23 82.86 67.52
42.19 99.23 90.40 83.60 81.45
29.81 96.30 83.91 75.99 68.87
Naive bayes, data asli Naive bayes, oversampling duplikasi Naive bayes oversampling acak Naive bayes undersampling acak Naive bayes undersampling cluster
72.77 81.29 45.59 67.92
68.25 74.50 21.42 68.96
85.15 95.84 3.77 66.00
75.55 83.30 6.41 67.30
Keterangan: 1) Penelitian Setiawati (2011) 2) Penelitian Wijayanti (2013)
3) Penelitian Anggraini (2013) 4) Penelitian Ulya (2013)
Berdasarkan Tabel 13 terlihat bahwa secara global, nilai f-measure yang dihasilkan pada penelitian sebelumnya Ulya (2013) lebih tinggi yaitu sebesar 96.30% pada algoritme k-nearest neighbor dibandingkan pada penelitian ini yang menggunakan algoritme naive bayes classifier yaitu sebesar 83.30%. Kinerja naive bayes classifier dalam memprediksi risiko kredit masih sangat rendah. Hal ini dibuktikan dari hasil f-measure yang diperoleh pada algoritme naive bayes lebih kecil dibandingkan dengan penelitian sebelumnya.
18
SIMPULAN DAN SARAN Simpulan Penelitian ini menerapkan naive bayes dalam mengklasifikasikan calon debitur kartu kredit kedalam kategori good atau bad dengan menggunakan metode oversampling dan undersampling. Berdasarkan penelitian yang telah dilakukan, disimpulkan bahwa model naive bayes yang menggunakan metode oversampling duplikasi, oversampling acak, dan undersampling cluster lebih baik dibandingkan pada percobaan data asli dan undersampling acak. Hal ini dibuktikan pada hasil confusion matrix yang menggambarkan kinerja dari setiap percobaan. F-measure yang dihasilkan pada metode oversampling acak merupakan hasil tertinggi dari metode yang lain, dengan nilai f-measure sebesar 83.30% pada saat rentang 20. Metode oversampling acak adalah hasil terbaik pada penelitian ini, karena metode oversampling acak dapat meningkatkan performansi dalam mengklasifikasikan data tidak seimbang pada kasus prediksi risiko kredit. Perbandingan dengan penelitian sebelumnya menunjukkan bahwa akurasi, precision, recall, dan f-measure yang dihasilkan menggunakan oversampling dan undersampling dengan algoritme naive bayes classifier masih kurang baik. Hal ini dikarenakan akurasi, precision, recall, dan f-measure yang dihasilkan lebih rendah dibandingkan penelitian yang dilakukan menggunakan algoritme fuzzy k-nearest neighbor, C4.5 dan CART, dan k-nearest neighbor dalam menggunakan data yang sama. Saran Pada penelitian selanjutnya diharapkan dapat melakukan klasifikasi naive bayes tanpa melakukan proses diskretisasi, melainkan menggunakan sebaran peluang untuk mendapatkan nilai peluang, dan melakukan klasifikasi naive bayes dengan strategi sampling lain, seperti: synthetic minority oversampling technique (SMOTE).
DAFTAR PUSTAKA Anggraini D. 2013. Perbandingan algoritme C4.5 dan CART pada data tidak seimbang untuk kasus prediksi risiko kredit debitur kartu kredit [skripsi]. Bogor (ID): Institut Pertanian Bogor. Barandela R, Sanchez JS, Garcia V, Rangel E. 2002. Strategies for Learning in class imbalance problems. Pattern Recognition; 36(3):849-850. Baktiar YA, Hidayat N, Regasari R. 2013. Implementasi metode Naive Bayes untuk klasifikasi kenaikan Grade Karyawan pada Fuzzyfikasi Data Kinerja Karyawan (Studi Kasus PT PJB UP Brantas) [Internet]. ;[diunduh 2013 November 5]. Tersedia pada: http://ptiik.ub.ac.id/doro/archives/detail/DR00053201312.
Christianata. 2008. Tindakan Hukum Penyelamatan Kredit Macet Melalui Restrukturisasi Berdasarkan Undang-Undang Perbankan [internet]. Palangka Raya (ID): Jurnal Ilmu Hukum; 3(2):63-70. ;[diunduh 2013 Desember 28].
19 Tersedia pada: http://www.scribd.com/doc/19539535/Tindakan-HukumPenyelamatan-Kredit-Macet-Melalui-Restrukturisasi-Berdasarkan-Undang undang-Perbankan. Han J, Kamber M. 2001. Data Mining Concepts & Techniques. USA (US): Academic Press. Leung MK. 2007. Naive Bayesian Classifier. Polytechnic University Department of Computer Science [internet]. ;[diunduh 2014 Maret 31]. Tersedia pada: http://cis.poly.edu/~mleung/FRE7851/f07/naiveBayesianClassifier.pdf Mitsa, T. 2010. Data Mining and Knowledge Discovery Series. Minneapolis (US): Chapman & Hall/CRC. Mladenic D, Grobelnik M. 1999. Feature Selection For Unbalanced Class Distribution and Naive Bayes. Slovenia (SI) : J.Stefan Institute. Natalius S. 2010. Metoda Naive Bayes Classifier dan penggunaannya pada klasifikasi dokumen [skripsi]. Bandung (ID): Institut Teknologi Bandung. Sastrawan, Baizal, Bijaksana. 2010. Analisis Pengaruh Metode Combine Sampling dalam Churn Prediction untuk Perusahaan Telekomunikasi. Seminar Nasional Informatika U N ”V t an”; 2010 Mei 22; Yogyakarta, Indonesia. Yogyakarta (ID): Institut Teknologi Telkom. Setiawati AP. 2011. Penelusuran banyaknya unit dan lapisan tersembunyi jaringan saraf tiruan pada data tidak seimbang (Studi kasus debitur kartu kredit Bank Mandiri tahun 2008-2009) [skripsi].Bogor (ID): Institut Pertanian Bogor. Sun Y, Wong AKC, Kamel MS. 2009. Classification of imbalanced data: Internation J Pattern Recognition Artific Intelligen; 23(4):687-719. Taswan. 2011. Konsekuensi Informasi Asimetris Dalam Perkreditan Dan Penanggananya Pada Lembaga Perbankan "Consequensi of Credit Asymetric Informasi and It's Treatment in Banking Institutions". Fokus Ekonomi. 10(3): 226-234. Semarang (ID): Universitas Stikubank. Ulya. 2013. Klasifikasi debitur kartu kredit menggunakan algoritme K-Nearest Neighbor untuk kasus imbalanced data [skripsi]. Bogor (ID): Institut Pertanian Bogor. Witten IH, Frank E. 2005. Data Mining: Practical Machine Learning Tools and Techniques. San Fransisco (US) : Morgan Kauffman. Witten IH, Frank E, Hall MA. 2011. Practical Machine Learning Tools and Techniques. San Fransisco (US) : Morgan Kauffman. Yen SJ, Lee YS. 2009. Cluster-based under-sampling approaches for imbalanced data distributions. Expert Systems with Applications. 36(3):5718-5727. doi:10.1016/j.eswa.2008.06.108.
20
LAMPIRAN Lampiran 1 Daftar atribut Atribut
Keterangan
Pendidikan
1 = SMP/SMA 2 = Akademi 3 = S1/S2 1 = Pria 2 = Wanita 1 = Lajang 2 = Menikah 3 = Bercerai 1 = Kontraktor 2 = Conversion 3 = Industri Berat 4 = Pertambangan 5 = Jasa 6 = Transportasi 1 = Permanen 2 = Kontrak 1 = Conversion 2 = PNS 3 = Professional 4 = Wiraswasta 5 = Perusahaan Swasta Dalam bulan Dalam bulan 0 = Bukan Milik Sendiri 1 = Milik Sendiri
Jenis Kelamin Status Pernikahan
Tipe Perusahaan
Status Pekerjaan Pekerjaan
Masa Kerja Lama Tinggal Status Pemilikan Rumah Banyaknya Tanggungan Pendapatan Banyaknya Kartu Kredit Lain Persentase Utang Kartu Kredit Umur Kelas
Rupiah
Dalam tahun 1 = Debitur bad 0 = Debitur good
21
Lampiran 2 Confusion matrix tiap percobaan Percobaan data asli
Data Aktual
Data Aktual
Percobaan oversampling duplikasi
Rentang 10 Prediksi Bad Good
Bad 10 10
Good 149 804
Rentang 20 Prediksi Bad Good
Bad 14 13
Good 145 801
Data Aktual
Data Aktual
Rentang 30 Data Aktual
Prediksi Bad Good
Bad 14 20
Good 145 794
Data Aktual
Rentang 40 Data Aktual
Prediksi Bad Good
Bad 15 30
Good 144 784
Data Aktual
Rentang 50 Data Aktual
Prediksi Bad Good
Bad 15 24
Good 144 790
Data Aktual
Rentang 10 Prediksi Bad Good
Bad 40 23
Good 155 491
Rentang 20 Prediksi Bad Good
Bad 44 79
Good 151 535
Rentang 30 Prediksi Bad Good
Bad 45 300
Good 150 514
Rentang 40 Prediksi Bad Good
Bad 77 20
Good 118 494
Rentang 50 Prediksi Bad Good
Bad 52 21
Good 143 493
22
Lampiran 2 Lanjutan Percobaan oversampling acak
Data Aktual
Data Aktual
Data Aktual
Data Aktual
Data Aktual
Percobaan undersampling acak
Rentang 10 Prediksi Bad Good
Bad 709 261
Good 86 553
Rentang 20 Prediksi Bad Good
Bad 751 257
Good 44 557
Rentang 30 Prediksi Bad Good
Bad 756 287
Good 39 527
Rentang 40 Prediksi Bad Good
Bad 762 297
Good 33 517
Rentang 50 Prediksi Bad Good
Bad 762 289
Good 33 525
Data Aktual
Data Aktual
Data Aktual
Data Aktual
Data Aktual
Rentang 10 Prediksi Bad Good
Bad 6 24
Good 153 135
Rentang 20 Prediksi Bad Good
Bad 5 21
Good 154 138
Rentang 30 Prediksi Bad Good
Bad 5 20
Good 154 139
Rentang 40 Prediksi Bad Good
Bad 5 19
Good 154 140
Rentang 50 Prediksi Bad Good
Bad 6 22
Good 153 137
23
Lampiran 2 Lanjutan Percobaan Undersampling cluster
Data Aktual
Data Aktual
Rentang 10 Prediksi Bad Good
Bad 100 45
Data
Good 59 114
Aktual
Rentang 30 Prediksi Bad Good
Bad 95 48
Data Aktual
Data
Good 64 111
Aktual
Rentang 50 Prediksi Bad Good
Bad 102 48
Lampiran 3 Antarmuka sistem prediksi risiko kredit
Good 57 111
Rentang 20 Prediksi Bad Good
Bad 87 46
Good 72 113
Rentang 40 Prediksi Bad Good
Bad 105 48
Good 54 111
24
RIWAYAT HIDUP Penulis merupakan putri keenam dari enam bersaudara dari pasangan Bapak Sulaiman dan Ibu Ratna, Spd. Penulis dilahirkan di kota Banda Aceh pada tanggal 24 September 1991. Tahun 2009 penulis lulus dari SMA Negeri 3 Banda Aceh dan pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI) pada Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama di bangku kuliah penulis aktif diberbagai kegiatan. Pada Tahun pertama (TPB) penulis mengikuti kegiatan Seni Budaya Gentra Kaheman. Tahun 2011 penulis merupakan Panitia IT TODAY di Departemen Ilmu Komputer. Tahun 2012 penulis mengikuti kegiatan Wirausaha Muda yang mampu meningkatkan kreativitas. Pada tanggal 26 Juni 2013 sampai dengan 23 Agustus 2013 penulis menjalankan praktik kerja lapangan di MULTIMEDIA NUSANTARA (METRASAT) Bogor. Penulis juga anggota dari Organisasi Mahasiswa Daerah (OMDA) Aceh periode 2009-2010. Penulis aktif sebagai pengurus Ikatan Mahasiswa Tanah Rencong sebagai Sekretaris Umum di OMDA Aceh periode 2011-2012. Dalam menyelesaikan studi di IPB, penulis melakukan penelitian yang berjudul Klasifikasi Naive Bayes Pada Data Tidak Seimbang untuk Kasus Prediksi Risiko Kredit Debitur Kartu Kredit, dibawah bimbingan Bapak Aziz Kustiyo, SSi, Mkom.