Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
APLIKASI DATA MINING SEBAGAI PENDEKATAN PRAKTIS UNTUK MEMPREDIKSI NILAI KREDIT KONSUMEN Budi Santosa*, Aditya Angga Kusuma**
Jurusan Teknik Industri Institut Teknologi Sepuluh Nopember (ITS) Surabaya Kampus ITS Sukolilo Surabaya 60111 e-mail: *
[email protected], **
[email protected] ABSTRAK Paper ini mengaplikasikan metode Data Mining yaitu Linear Discriminant Analysis (LDA), dan Decision Tree untuk memprediksi keputusan pemberian kredit. Keputusan diterima atau tidak dicoba dengan pendekatan data mining. Jika hasilnya menyatakan diterima, selanjutnya digunakan Artificial Neural Networks (ANN) untuk meramalkan berapa besarnya pinjaman atau kredit. Untuk decision tree digunakan algoritma, Classification and Regression Tree (CART). Hasil uji yang telah dilakukan, menunjukkan bahwa CART unggul dalam memprediksi applicant yang permohonan kreditnya diterima, sedangkan untuk memprediksi applicant yang permohonan kreditnya ditolak, LDA lebih baik dari CART. ANN dengan input yang sudah dipreprocess menghasilkan tingkat error yang lebih kecil dalam memprediksi nilai nomial rupiah yang diberikan kepada debitor. Kata Kunci: Data Mining, Linear Discriminant Analysis, Decision Tree, Clasification and Regression Tree dan Artificial Neural Networks
PENDAHULUAN Selama bertahun-tahun, para kreditur (pihak bank) telah menggunakan sistem penilaian kredit (credit scoring) untuk menentukan apakah para pemohon kredit dikatakan layak untuk diberikan pinjaman atau tidak. Saat ini tidak hanya pihak bank saja yang menggunakan sistem penilaian kredit, perusahaan-perusahaan asuransi dan telekomunikasi juga telah menerapkan sistem ini untuk memutuskan apakah pinjaman atau jasa yang diharapkan oleh para konsumen dapat disetujui atau tidak. Keputusan yang diambil para pemberi pinjaman tentunya mengacu pada nilai kredit (credit score) yang telah diprediksi. Bila nilai kredit (credit score) yang dihasilkan besar, maka dapat diinterpretasikan bahwa pinjaman yang diajukan tersebut memiliki resiko yang kecil. Dengan demikian, besar kemungkinan pinjaman yang diajukan tersebut dapat diberikan. Isu-isu yang sedang berkembang dalam dunia perbankan saat ini khususnya dalam hal kredit, diantaranya adalah pihak bank mengalami kekeliruan dalam memberikan kredit kepada nasabahnya sehingga menyebabkan nasabah tersebut gagal membayar (kredit macet) dan nasabah sering tidak puas terhadap keputusan bank akan jumlah nominal pinjaman yang jauh dari permohonan yang diajukan.. Penelitian ini mencoba menawarkan kepada pihak bank suatu metode praktis yang dapat digunakan untuk mengevaluasi resiko dari permohonan aplikasi kredit dalam periode waktu tertentu, metode tersebut mampu menyediakan informasi penting yang dapat digunakan untuk membantu pihak bank dalam merumuskan strategi yang tepat untuk mengelola resiko yang dapat timbul atas pemberian kredit kepada konsumen.
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
Pada penelitian ini, Linear Discriminant Analysis dan Classification and Regression Tree (CART) diharapkan menjadi suatu metode pendekatan sederhana dalam memprediksi keputusan pemberian kredit (credit score) kepada nasabah, sehingga dapat ditentukan apakah nasabah tersebut diberikan pinjaman atau tidak. Selanjutnya untuk memprediksi berapakah nilai rupiah yang dapat diberikan kepada setiap nasabah digunakan metode Artificial Neural Networks. TINJAUAN PUSTAKA Credit Scoring Credit scoring adalah sebuah metode yang digunakan untuk mengevaluasi resiko kredit dalam aplikasi pinjaman. Dalam penggunaannya, metode ini menggunakan data historis dan teknik-teknik statistik. Credit scoring berusaha untuk mendeteksi segala efek karakteristik serta perilaku para pemohon kredit yang mungkin menyebabkan pembayaran angsuran kredit yang diajukan tidak sesuai tempo waktu yang telah disepakati (Mester, 1997). Metode ini menghasilkan sebuah “score” yang membuat sebuah bank dapat meranking pemohon kredit atau peminjam dengan resiko yang telah diidentifikasikan. Untuk membangun sebuah model scoring, atau “scorecard”, seorang analis kredit menganalisis data historis pinjaman terdahulu untuk menentukan manakah karakteristikkarakteristik yang digunakan dalam memprediksi pinjaman yang diajukan kepada bank. Sebuah model yang baik seharusnya memberikan sebuah persentasi score yang tinggi kepada peminjam, apabila pinjaman dilaksanakan dengan baik sebaliknya bagi para peminjam yang tidak melaksanakan pinjamannya dengan baik maka selayaknya diberikan score yang rendah. Kebanyakan dalam sistem scoring, sebuah score yang tinggi mengindikasikan risiko yang rendah, dan pemberi pinjaman menetapkan sebuah cutoff score berdasarkan jumlah risiko yang mungkin diterima. Sudah sepatutnya untuk model ini, pemberi pinjaman menyetujui pemohon kredit dengan score di atas cutoff dan menolak pemohon kredit dengan score di bawah cutoff. Metoda Scoring Beberapa metode-metode statistik digunakan untuk mengembangkan sistem credit scoring, antara lain linear probability models, logit, probit models dan discriminant analysis models. Metode yang pertama dari ketiga teknik statistik tersebut digunakan untuk memperkirakan kemungkinan terjadinya kegagalan pembayaran angsuran kredit berdasarkan data historis pinjaman dan karakteristik-karakteristik peminjam. Teknik ini berbeda dengan kedua teknik lainnya, linear probability models mengasumsikan ada sebuah hubungan linear antara kemungkinan kegagalan pembayaran angsuran kredit dengan banyak faktor; model Logit mengasumsikan bahwa kemungkinan kegagalan pembayaran adalah dapat didekati secara distribusi logistik; dan model Probit mengasumsikan bahwa probabilitas kegagalan pembayaran angsuran kredit merupakan sebuah distribusi normal. Discriminant Analysis membagi para peminjam ke dalam kelas-kelas yang memiliki resiko kegagalan pembayaran angsuran kredit yang tinggi dan rendah.
ISBN : 978-979-99735-7-3 A-14-2
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
Model Evaluasi Akurasi Untuk dapat melakukan komparasi bagi masing-masing teknik, akurasi dari masing-masing teknik harus dapat diukur. Sebuah pendekatan pengukuran akurasi yang cukup sederhana dan mudah diaplikasikan adalah confusion matrix. Di dalam confusion matriks terdapat empat sel yang harus ditentukan nilainya. Nilai-nilai ini didapat dari hasil uji model terhadap testing. Untuk lebih jelasnya dapat dilihat pada tabel 1. Tabel 1. Confusion Matrix untuk Klasifikasi Dua Kelas (Santosa, 2007)
Prediksi
Aktual Ya (2) Tidak (1) Ya (2) hit (a) false alarm (b) Tidak (1) miss (c) correct negative (d) Aktual tidak Total Aktual ya
total prediksi ya prediksi tidak
Parameter yang biasanya digunakan untuk pengukuran adalah: 1. Probability of Detection (POD), mengukur ketepatan prediksi (positif). Nilai POD berkisar dari nol hingga satu. POD bernilai satu bila secara tepat memprediksi kejadian ‘Ya’. a (1) POD ac 2. True Negative Rate (TNR), mengukur ketepatan prediksi (negative). Nilai TNR berkisar dari nol hingga satu. TNR bernilai satu bila secara tepat memprediksi ‘Tidak’. d (2) TNR d b 3. Overall Accuracy (OA), mengukur ketepatan prediksi secara keseluruhan. Nilai OA bernilai satu bila secara tepat memprediksi kejadian ‘Ya’ dan ‘Tidak’. ad (3) OA abcd METODOLOGI PENELITIAN Pada penelitian ini, digunakan dua metode pendekatan praktis dalam memprediksi keputusan pemberian kredit (model 1) yaitu Linear Discriminant Analysis (LDA), Classification and Regression Tree (CART). Selanjutnya, Artificial Neural Network (ANN) digunakan untuk memprediksi nominal rupiah yang diberikan bank kepada nasabahnya (model 2). Kedua model tersebut dikembangkan berdasarkan datadata yang telah dikumpulkan dari PT. Bank X. Pada paper ini variable yang dijadikan input atau variable independent adalah faktor-faktor yang dianggap memiliki pengaruh terhadap pemisahan karakteristik antara nasabah yang diberikan pinjaman maupun nasabah yang ditolak aplikasi kreditnya. Tabel 2 menunjukkan variable predictor yang dijadikan input dalam penelitian baik dengan data kategorikal maupun data asli. Data kategorikal adalah data asli yang dikategorikan ke dalam beberapa nilai. Dalam penelitian ini untuk model prediksi keputusan pemberian kredit konsumen disusun dua skenario untuk metode LDA dan CART: uji dengan data input yang dikategorikan dan input yang tidak dikategorikan (data asli). Untuk mengembangkan model prediksi nominal rupiah yang dapat diberikan untuk peminjam (metode ANN), terdapat enam skenario dalam pendefinisian variable
ISBN : 978-979-99735-7-3 A-14-3
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
predictor dan variable response. Keempat skenario yang dimaksud adalah sebagai berikut: 1. Menggunakan 14 variable predictor dengan preprocessing data dimana variable response adalah nominal rupiah. 2. Menggunakan 14 variable predictor tanpa preprocessing data dimana variable response adalah nominal rupiah. 3. Menggunakan 5 variable predictor (yang bernilai rupiah) dengan preprocessing data dimana variable response adalah nominal rupiah. 4. Menggunakan 5 variable predictor (yang bernilai rupiah) tanpa preprocessing data dimana variable response adalah nominal rupiah. Beberapa skenario yang disusun untuk tiap-tiap metode dalam penelitian ini selanjutnya dibandingkan nilai rata-rata tingkat errornya, kemudian dipilih nilai tertinggi dari rata-rata tingkat error, nilai tersebut disimpulkan sebagai rata-rata tingkat error tiap metode. Data yang didapatkan dibagi menjadi data training dan testing yang akan digunakan untuk proses training dan testing. Metode data mining yang digunakan merupakan supervised learning, dimana metode tersebut membutuhkan proses pembelajaran untuk mengenali pola data-data input yang telah diketahui labelnya (output-nya) sebelum melakukan prediksi atau klasifikasi data-data yang belum diketahui labelnya, proses pembelajaran ini disebut proses training. Proses testing atau proses validasi adalah proses prediksi data yang belum diketahui labelnya untuk dibandingkan dengan label (output) sesungguhnya, atau dengan kata lain melakukan validasi hasil prediksi metode bersangkutan. Tabel 2. Variable Predictor Var.# X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14
Variable Name Gaji Jaminan Total Jaminan Kendaraan Harga Rumah Besar Nominal Tabunga n La ma Bekerja Status Kendaraan Pendidikan Status Priba di Tipe perusahaan Bidang Usaha Jenis pekerjaan Status Rumah tinggal Tanggungan
Dalam paper ini digunakan algoritma K-Cross Validation (Santosa, 2007) dalam proses pengujian (proses training dan testing). K-Cross Validation membagi seluruh data menjadi K bagian, bila bagian yang satu menjadi data testing maka sisa bagian data yang lain menjadi data training. Dalam hal ini digunakan nilai K=4. Untuk metode LDA dan CART digunakan data input sebanyak 400 data, sedangkan untuk ANN digunakan total data input sebanyak 338 data. Ini dikarenakan dari 400 data observasi peminjam, hanya 338 peminjam yang diterima kreditnya. Dalam ANN, data input yang digunakan hanya data peminjam yang aplikasi kreditnya diterima oleh bank.
ISBN : 978-979-99735-7-3 A-14-4
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
HASIL EKSPERIMEN DAN ANALISIS Prediksi dengan LDA dan CART Berdasarkan hasil pengolahan data lalu dimasukkan dalam confusion matrix seperti dalam tabel 6 untuk metode CART dapat diketahui input kategorikal memiliki tingkat akurasi yang lebih tinggi bila dibandingkan skenario yang lainnya (lihat tabel 5). Tingkat akurasi (OA) yang didapatkan sebesar 80%. Skenario lainnya memiliki tingkat akurasi sebesar 80%. Namun terjadi perbedaan nilai TNR. Tabel 3. Mendefinisikan Variable Data Pemohon Kredit
ISBN : 978-979-99735-7-3 A-14-5
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009 Tabel 4 Perbandingan Tingkat Akurasi dengan Metode CART
Skenario Input kategori Input asli
POD 0.93 0.93
TNR 0.08 0.05
OA 0.80 0.80
Pengukuran tingkat akurasi untuk tiap skenario dapat diukur dengan menggunakan confusion matrix seperti tabel 4. Tabel 5. Confusion Matrix Uji CART Skenario 1 Aktual Approved (2) disapproved (1) total Approved (2) 314 57 371 disapproved (1) 24 5 29 Total 338 62
Dari Tabel 5 terlihat terdapat 314 hit, 57 false alarm, 24 miss dan 5 correct negative. Model ini melakukan kesalahan klasifikasi approved sebanyak 24 dari total 338 (0.93) dan terdapat 57 kesalahan klasifikasi disapproved dari total 62 data disapproved. Dengan cara yang sama untuk CART dengan input data kategori didapatkan hasil seperti dalam Tabel 5. Berdasarkan hasil pengolahan data dapat diketahui bahwa input data asli memiliki tingkat akurasi yang lebih tinggi bila dibandingkan dengan input data kategori. Tingkat akurasi (OA) yang didapatkan dengan menggunakan data input asli ini sebesar 62.25%, lebih besar 7.25 % di atas tingkat akurasi sistem bila digunakan data kategori, yang nilainya adalah 55%. Perbandingan tingkat akurasi antar-skenario dapat dilihat pada tabel 6. Tabel 6. Perbandingan Tingkat Akurasi antar-Skenario Metode LDA
Skenario Input asli Input kategori
POD 0.68 0.59
TNR 0.34 0.28
OA 0.62 0.55
Uji CART memiliki tingkat akurasi prediksi sebesar 80%, kemampuan metode untuk memprediksi applicant yang permohonan kreditnya diterima (POD) sebesar 92.9% dan kemampuan metode untuk memprediksi applicant yang permohonan kreditnya ditolak (TNR) adalah sebesar 5%. Sedangkan LDA memiliki tingkat akurasi prediksi sebesar 62%, kemampuan metode untuk memprediksi applicant yang permohonan kreditnya diterima (POD) sebesar 68.15% dan kemampuan metode untuk memprediksi applicant yang permohonan kreditnya ditolak (TNR) adalah sebesar 34.30%. Berdasarkan pengolahan data serta uji validasi terhadap metode LDA maupun CART, dapat dipahami bahwa metode CART memiliki tingkat error yang lebih baik dibandingkan dengan LDA. Hal ini mengindikasikan bahwa CART merupakan metode terbaik dalam hal memprediksi nilai kredit konsumen (approved/disapproved). Memprediksi Nominal Rupiah yang Dapat Diberikan kepada Applicants Model prediksi yang kedua ialah model yang diharapkan mampu menghasilkan nilai nominal kredit yang berdasarkan atas metode Artificial Neural Networks. Dalam penelitian ini, penentuan jumlah hidden neuron dan layer hidden dilakukan melalui proses trial and error. Berdasarkan percobaan pada pemakaian lebih dari satu layer hidden untuk data kredit konsumen Bank X, jaringan ANN tidak dapat menurunkan
ISBN : 978-979-99735-7-3 A-14-6
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
Mean Square Error (MSE). Sehingga pada penelitian ini, diuji jaringan ANN multilayer dengan satu layer hidden. Berdasarkan proses pengujian trial and error diketahui bahwa komposisi terbaik untuk jumlah hidden neuron dan layer hidden secara berurutan adalah 5 dan 1. Langkah selanjutnya adalah menentukan fungsi aktivasi bagi hidden layer dan neuron output tersebut. Proses Prediksi dan Validasi Hasil Prediksi ANN Dengan menjalankan program ANN, maka untuk mengetahui performansi tiap skenario dapat digunakan Mean Square Error (MSE). Mean Square Error (MSE) untuk seluruh scenario 3 sampai 6 ditunjukkan pada tabel 7. Tabel 7 menunjukkan bahwa dengan 5 variabel prediktor prediksi kategori bsarnya nominal lebih baik dilihat dari tingkat kesalahannya. Tabel 7 Perbandingan MSE dengan Metode ANN
Skenario 1 (preprocess) 2 3(preprocess) 4
MSE 0.006 1.8E+17 0.009 1.8E+17
Disimpulkan bahwa untuk memprediksi besar nominal kredit yang diberikan kepada applicant, pengembangan model menggunakan 14 variable predictor dengan preprocessing data, dimana variable response adalah nominal rupiah yang diberikan oleh bank kepada nasabahnya. KESIMPULAN Uji CART memiliki tingkat error prediksi sebesar 21.25% kemampuan metode untuk memprediksi applicant yang permohonan kreditnya diterima (POD) sebesar 92.9% dan kemampuan metode untuk memprediksi applicant yang permohonan kreditnya ditolak (TNR) adalah sebesar 8.05% dimana hasil ini lebih baik dari LDA. Untuk memprediksi besar nominal kredit yang diberikan kepada applicant, model menggunakan 14 variable predictor dengan preprocessing data, dimana variable response adalah nominal rupiah yang diberikan oleh bank kepada nasabahnya, merupakan skenario terbaik. DAFTAR PUSTAKA Altman, E. (1968). Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy, Journal of Finance, Vol. 23, 1968, pp. 589-609. Aris Sugiharto (2006). Pemrograman GUI dengan MATLAB, ANDI, Yogyakarta. Beale, R. and Jackson, T. (1990). Neural Computing: An Introduction, Institute of Physics Publishing. Budi Santosa (2007). Data Mining: Teknik Pengenalan Pola Teori dan Aplikasi, Graha Ilmu, Yogyakarta.
ISBN : 978-979-99735-7-3 A-14-7
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
Budi Santosa (2007). Data Mining Terapan dengan MATLAB, Garaha Ilmu, Yogyakarta. Eisenbeis, R., A. (1977): Pitfalls in the Application of Discriminant Analysis in Business, Finance and Economics. Journal of Finance, Vol. 32, 1977, pp. 875900. Fisher, R., A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenic, Vol. 7, 1936, pp. 179-188. Halim, S., Rahardjo, J., Adelia, S. (1999). Model Matematik untuk Menentukan Nilai Tukar Mata Uang Rupiah terhadap Dollar Amerika, Jurnal Teknik Industri: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. I, No. 1, hal. 30-40. Halim, S., Wibisono, A., M. (2000). Penerapan Jaringan Saraf Tiruan untuk Peramalan, Jurnal Teknik Industri, Vol. 2, No. 2, Desember 2000: 106 – 114. Hand, D., J., Henley, W., E. (1997). Statistical Classification Methods in Consumer Credit Scoring, Journal of the Royal Statistical Society, Series A (Statistics in Society), Vol. 160, 1997, pp. 523-541. Min, J., H., Lee, Y., C. (2008). A practical approach to credit scoring, Expert Systems with Applications 35 (2008) 1762–1770, Republic of Korea. Mester, L., J. (1997). What’s The Point of Credit Scoring?, www.philadelphiafed.org/research-and data/publications/businessreview/1997/september-october/brso97lm.pdf, diakses tanggal 15 September 2008. Pratama, T., Iwan, B. (1999). Metode Peramalan Memakai Jaringan Saraf Buatan dengan Cara Backpropagation, Jurnal Teknologi Industri, Vol. III. No.2, hal 109-116. Pociecha, J. (2005). Discriminant Methods for Bankruptcy Prediction – Theory and Applications, Cracow University of Economics, Poland. Reichert, A., K., Cho., C., C., Wagner, G., M. (1983). An Examination of Conceptual Issues Involved in Developing Credit-scoring Models, Journal of Business and Economic Statistics, Vol. 1, 1983, pp. 101-114. Resmana, Dwi W. (1997). Prediksi Nilai Tukar Valuta Asing: Sebuah Studi Kasus Penggunaan Jaringan Syaraf Tiruan Untuk Peramalan, Edisi Pertama, Surabaya: Lembaga Penelitian dan Pengabdian Kepada Masyarakat Universitas Kristen Petra. Siswantini (2007). Studi Komparasi Metode Data Mining untuk Memprediksi Kebangkrutan Bank, Tugas Akhir S1, Teknik Industri Institut Teknologi Sepuluh Nopember, Surabaya. Zhang, J., L., Hardle, W. (2008). The Bayesian Additive Classification Tree Applied to Credit Risk Modelling, SFB 649 Discussion Paper 2008-003, Berlin.
ISBN : 978-979-99735-7-3 A-14-8