1
ANALISIS KLASIFIKASI KREDIT MENGGUNAKAN METODE NEWTON TRUNCATED-KERNEL LOGISTIC REGRESSION (NTR-KLR) (STUDI KASUS : DATA KREDIT BANK “X”)
Liya Misdiati, dan Santi Puteri Rahayu, M.Si, Ph.D. Jurusan Statistika, FMIPA, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 E-mail:
[email protected],
[email protected] Abstrak—Analisis
klasifikasi risiko kredit adalah permasalahan penting dalam dunia perbankan yang menyangkut kerugian dan perputaran dana bank. Fakta keuangan kontan menunjukkan, kenaikan jumlah kredit sebesar 23,7% akhir Januari 2012 tidak sejalan dengan jumlah kredit yang sudah dicairkan nasabah, sebesar 24,48% nasabah belum mencairkan dana pelunasan kredit sampai akhir September 2012. Untuk meminimalisasi kerugian perbankan akibat ketidakpastian pemberian kredit kepada nasabah, dikembangkan model credit scoring yaitu NTR-KLR untuk memprediksi pengajuan kredit nasabah pada bank X. Konsep metode NTR-KLR, menggunakan matriks Kernel dalam proses pengklasifikasian sehingga cocok untuk data yang bersifat non-linear. Pemodelan NTRKLR pada data Bank X diwakili oleh satu data testing pada Fold pertama memberikan total akurasi klasifikasi sebesar 82,61%. Sebagai pembanding digunakan pula metode NTRRLR dalam pengklasifikasian. Total akurasi yang dihasilkan model NTR-RLR pada perwakilan Fold pertama sebesar 80,43%. Selanjutnya kedua metode yaitu NTR-KLR dan NTR-RLR dibandingkan menggunakan kriteria total akurasi, sensitivity, specitivity dan pengujian statistik. Hasilnya metode NTR-KLR memberikan akurasi prediksi klasifikasi risiko kredit nasabah lebih tinggi dibandingkan metode NTR-RLR. Kata Kunci— Klasifikasi, Logistic Regression (LR), Kernel, Akurasi, Total akurasi, Sensitivity, Specitivity I. PENDAHULUAN isiko kredit merupakan salah satu risiko penting dalam dunia perbankan yang berdampak signifikan pada kerugian dan perputaran dana bank . Risiko kredit muncul akibat nasabah atau debitur gagal memenuhi kewajiban membayar kredit pada tanggal pelunasannya atau jatuh tempo [1]. Data keuangan kontan menunjukkan kenaikan penyaluran jumlah kredit perbankan sebesar 23,7% akhir Januari 2012 tidak diimbangi oleh pencairan jumlah kredit nasabah, sekitar 24,48% nasabah perbankan belum mencairkan dana pelunasan kredit hingga akhir September 2012 (Keuangan Kontan) [2] . Fakta ini menunjukkan pemberian kredit kepada nasabah sangat berisiko tinggi. Klasifikasi risiko kredit dalam perbankan memiliki peran penting dalam pemetaan risiko nasabah. Pengklasifikasian yang salah akan menimbulkan dampak berantai yaitu timbulnya kredit macet, terganggunya stabilitas keuangan yang diikuti kerugian perbankan [1]. Sistem yang diterapkan perbankan untuk memprediksi pemberian kredit kepada nasabah masih berbasis manual.
R
Kelemahan penggunaan sistem manual diantaranya adalah lambat dalam memprediksi risiko kredit nasabah, penilaian kredit sering kali tidak obyektif (tidak akurat) karena hanya berdasarkan informasi aset, dan menimbulkan kelelahan pekerja serta expert yang kurang berpengalaman. Hal ini menjadi bukti klasifikasi risiko kredit melalui metode credit scoring berperan penting bagi perbankan dalam meminimalisir risiko kerugian. Metode data mining modern yang dikembangkan untuk kepetingan credit scoring diantaranya model Discriminan Linear oleh (Reichert, Cho dan Wagner,1983) [3], Logistic Regression (Henley,1995) [4], Neural Network (Desai, 1996; Malhotra dan Malhotra, 2002) [5] dan model Genetic Programming (Ong, Huang, dan Tseng, 2005) [6]. Penelitian risiko kredit pada bidang perbankan pernah dilakukan oleh Huang ,dkk (2007) menggunakan Support Vector Machine (SVM) untuk mengklasifikasikan kredit nasabah melalui evaluasi score aplikasi kredit, memberikan tingkat akurasi lebih tinggi dibandingkan metode klasifikasi lain seperti Genetic Programming, Neural Networks, maupun Decision Tree [7]. Selanjutnya penelitian Sodiq, J dkk juga mengembangkan model kredit scoring menggunakan regresi logistik untuk mengetahui faktor-faktor yang mempengaruhi klasifikasi risiko kredit nasabah bank X Jakarta Pusat [8]. Penelitian kali ini menggunakan metode Newton Truncated-Kernel Logistic Regression (NTR-KLR) [9] dalam mengklasifikasikan risiko kredit nasabah bank X. Pada dasarnya NTR-KLR merupakan salah satu metode KLR yang menggunakan pendekatan Truncated Newton dalam menyelesaikan perhitungan numerik Maximum Likelihood Estimation (MLE). Metode KLR pada penelitian Ji Zhu dan Hastie (2005) merupakan pengembangan dari metode Regularized Logistic Regression (RLR) yang menggunakan metode kernel [10]. Telah diketahui metode kernel digunakan ketika pola data bersifat non-linear. Kelebihan metode KLR dibandingkan dengan Support Vector Machine (SVM) adalah dapat menghasilkan akurasi yang sebanding dengan fungsi optimisasi lebih sederhana dan menyajikan nilai probabilitas keanggotaan klasifikasi. Sebagai pembanding akurasi metode NTR-KLR pada penelitian ini juga digunakan metode NTRRLR dalam mengevaluasi performance klasifikasi. II. TINJAUAN PUSTAKA A. Logistic Regression Fungsi distribusi probabilitas (x i ,y i ) dari n pasangan sampel random pada kasus klasifikasi biner mengikuti
2 distribusi Bernouli (y i ) = 0,1dengan input xi diberikan oleh [11] : ξ (x i ) = π (x i ) yi [1- π (x i )]1-yi (1) Fungsi logistik : E [y i = 1|x i , β] = p i =
e xi β 1 + e xi β
(2)
Transformasi logit : p (3) η i = ln i = x i β 1 − pi B. Regularized Logistic Regression (RLR) dan Kernel Logistic Regression (KLR) Metode RLR adalah pengembangan metode LR dengan menambah parameter regularisasi pada model logit. Metode RLR memiliki satu parameter regularisasi yaitu λ . Estimasi nilai β diperoleh dengan meminimumkan fungsi NLL dengan mengganti domain y i ∈ (0,1) menjadi y i ∈ (− 1,1) fungsi NLL
menjadi [12] : yi = ±1 n
=
∑ log(1 + exp(− yi .xi β )) i =1
(4) L = 1T log (1+exp(-y i . f(x i )) (a). Fungsi Optimisasi regulasi RLR dan KLR Untuk RLR [9] : (5) L(β) = 1T log (1+exp (-y. (Xβ)) + λ βTβ 2 Fungsi optimasi KLR diperoleh dari bentuk kernel melalui fungsi optimasi RLR : (6) β = φ(x)α dimana φ(x) : fungsi yang memetakan data asli x dalam input space kedalam feature space untuk mengkonvert hubungan non-linear menjadi linear. Pada KLR, fungsi kernel yang dinyatakan dalam bentuk matrik (K) digunakan memperbaiki akurasi akurasi RLR dalam mengatasi masalah non-linier. Model logit untuk KLR [9] : f (x) = βTφ(x) = φ(x)T φ(x)α (7) = Kα Fungsi regularisasi KLR L(α) = 1T log (1+exp(-y.K 1 α)) + λ αTK 2 α (8) 2
1
𝑝𝑖 �𝑦𝑖 = 1|𝐗 = 𝒙𝒊 � =
1 + 𝑒𝑥𝑝�−𝒙𝒊 𝛃(𝒕+𝟏) � Problem utama dalam pengklasifikasian KLR dan RLR adalah menentukan estimasi model linear. C. Newton Truncated-Kernel Logistic Regression(NTR-KLR) dan Newton Truncated-Regularized Logistic Regression(NTRRLR) Estimasi MLE pada LR, RLR dan KLR memiliki bentuk non-linier sehingga diperlukan metode iteratif seperti Newton Raphson. Metode Newton Raphson adalah algoritma sistem linear yang diselesaikan secara iteratif dari (NRUR) untuk estimasi newton direction, dengan formula [9] : 𝛉 (t+1) = 𝛉 (t)+ s (t) (13) = 𝛉 (t) – (H(t))-1g(t) Solusi sistem linear NRUR : 𝛃 (t+1) = 𝛃 (t) + s(t) 𝛃 (t+1) = 𝛃 (t) – (H(t))-1g(t) P
P
P
P
P
P
P
= 𝛃(t) − �
𝜕2 𝐿(𝛃)
Sistem linear KLR dengan NRUR menjadi :
−1
�
𝜕(𝛃)𝜕�𝛃𝑇 �
�
𝜕𝐿(𝛃) 𝜕(𝛃)
λ K 2 ) s(t) = (-K 1 T(y.p) + λ K 2 α)
�
(14)
(15) Terdapat masalah numerik dalam mengestimasi newton direction yaitu ukuran matriks terlalu besar untuk diinverskan sehingga digunakan metode truncated-newton Menggunakan Linear CG bentuk kuadart NRUR untuk model KLR dan RLR adalah [9] : (K 1 TV(t)K 1 +
q (t ) ( s ) = (-K 1 T(y.p) + λ K 2 α)T(t) s(t) +
λ K 2 )(t) s(t)
1 T(t) s (K 1 TV(t)K 1 + r 2 (16)
Untuk model RLR bentuk kuadrat NRUR Linear CG adalah :
q (t ) ( s ) = (-XT(y.p) + λ 𝛃)T(t) s(t) + (t) (t)
1 T(t) T (t) s (X V X + λ I) 2
(17) s D. K-Fold Cross Validation Resampling K-Fold Cv digunakan untuk membagi data training dan data testing sebanyak k kali. Prinsipnya pada setiap k percobaan digunakan data training sebanyak k-1 Fold dan 1 Fold sisanya sebagai data testing [13].
Fungsi basis radial kernel yang digunakan [10] : K(x i ,x j ) = exp �
2
−�𝒙𝒊 −𝒙𝒋 � 2𝜎2
�
(9)
Estimasi MLE dari RLR dan KLR dengan meminimumkan fungsi NLL, jika estimasi MLE berbentuk non-linear maka harus diselesaikan melalui iterasi newton Raphson. (b). Klasifikasi KLR dan RLR Klasifikasi KLR diestimasi melalui [10] : 𝑝1 (𝒙) (10) 𝑠𝑖𝑔𝑛 �𝑙𝑜𝑔 � = 𝑠𝑖𝑔𝑛(𝑓(𝒙)) 1 − 𝑝1 (𝒙) Jika nilai sign − f(𝐱) bertanda negatif maka objek masuk kelas negatif dan jika positif nasabah masuk kelas positif. Probabilitas bersyarat klasifikasi biner KLR memenuhi [9] : 1 (11) 𝑝𝑖 �𝑦𝑖 = 1|𝐗 = 𝒙𝒊 � = 1 + 𝑒𝑥𝑝(−𝐊𝟏 𝜶(𝒕+𝟏) ) Probabilitas bersyarat untuk RLR [9] : (12)
Gambar 2.1. Metode K-Fold Cv
Keuntungan penggunaan K-Fold Cv adalah semua bagian data set dapat digunakan sebagai data training maupun sebagai data testing. Rata-rata rumus average error pada K-Fold Cv : 1 K (18) E = ∑ Ei K i =1 E. Kriteria Evaluasi Kinerja metode klasifikasi diukur melalui nilai total akurasi. Total akurasi adalah ukuran umum dalam menaksir akurasi klasifikasi [14]. Matriks confussion klasifikasi adalah : Tabel 2.1 Confussion Matrix Klasifikasi Biner Aktual Prediksi
3
Positif Negatif
Positif a 11 a 21
Negatif a 12 a 22
dimana : a11 + a 22 (19) a11 + a12 + a 21 + a 22 Nilai sensitivitas dirumuskan : a11 (20) sensitivity = a11 + a12 Nilai specitivitas adalah : a 22 (21) specificity = a 21 + a 22 KLR memiliki dua parameter (λ , σ ) sedangkan RLR hanya
Total akurasi =
memiliki satu parameter yaitu (λ ) [9].
F. Pemilihan Model Terbaik Pemilihan model KLR secara umum dilakukan melaui tahapan berikut [9]: (i) Menentukan range grid dari (λ , σ ) dan step grid. Nilai grid yang digunakan pada penelitian ini adalah c1i c2 i λ = e danσ = e . Koefisien c 1i dan c 2i adalah nilai equidistant (dengan step grid =-0,5). (ii) Dengan menggunakan k-Fold CV, dilakukan estimasi dari rata-rata total akurasi atau nilai total akurasi untuk setiap pasangan (λ , σ ) . (iii) Pasangan (λ , σ ) yang memiliki rata-rata total akurasi terbaik pada K-Fold Cv dipilih sebagai parameter optimal. III. METODOLOGI PENELITIAN A. Sumber Data Data yang digunakan dalam penelitian ini adalah data sekunder, aplikasi pengajuan kredit nasabah bank X sebanyak 1000 data. Variabel respon pada data ini bersifat biner yang terbagi dalam dua kategori yaitu 0 untuk good credit dan 1 untuk bad credit. Variabel prediktor yang digunakan terdiri dari faktorfaktor yang mempengaruhi pelunasan pembayaran kredit nasabah bank X berjumlah 29 variabel. Sehingga total dengan variabel respon adalah 30 variabel. B. Variabel Penelitian Berikut merupakan variabel prediktor dan respon yang digunakan dalam penelitian ini : Tabel 3.1 Ringkasan Variabel Kredit Bank X Variabel Ket. Wilayah X1 Status Pernikahan X3 Jenis Kelamin X4 Jumlah Anak X5 Kepemilikan Rumah X6 Lama Tinggal X7 Kepemilikan Telepon Rumah X8 Pendidikan X9 Job Type X 10 Employment Type X 11 Masa Kerja (thn) X 12 Jabatan X 13 Total Pendapatan X 14 Pinjaman Lain X 15 Pendapatan Bersih X 16 Tenor X 17
Type Nominal Nominal Nominal Skala Nominal Skala Nominal Ordinal Nominal Nominal Skala Nominal Skala Skala Skala Skala
Lama hubungan baik dengan Bank(thn) Tipe Perusahaan Lama Usaha Perusahaan (thn) Jenis Usaha Jenis Kredit Telefon Kantor/ Rumah Punya Kartu Kredit Punya Acc Bank X Punya Acc Bank Nominal Account Rasio Hutang tehadap Income
X 18 X 19 X 20 X 22 X 23 X 24 X 25 X 26 X 27 X 28 X 29
Skala Nominal Skala Nominal Nominal Nominal Nominal Nominal Nominal Skala Skala
Variabel prediktor pada penelitian ini sebagian besar dikoding, karena berupa variabel kualitatif, sedangkan untuk variabel respon dikoding menjadi dua yaitu bad credit (1) dan good credit (-1). C. Metode Analisa Langkah-langkah analisis yang dilakukan adalah sebagai berikut : 1. Menganalisa karakteristik nasabah bank X melalui statistika deskriptif, sebelumya dilakukan pra-processing data untuk menangani kasus missing value dan outlier. 2. Melakukan pemodelan NTR-KLR pada data testing Fold terpilih dan mengukur akurasi klasifikasinya. Sebelum pemodelan variabel prediktor dirandom dan distandartkan, kemudian dibagi menjadi dua bagian yaitu data training dan testing pada 5 dan 10 Fold Cv. 3. Melakukan pemodelan NTR-RLR pada data testing Fold terpilih dan mengukur akurasi klasifikasinya. Sebelum pemodelan data dirandom dan variabel (x) distandartkan selanjutnya data dibagi dua bagian pada 5 dan 10-Fold Cv. Kemudian membandingkan akurasi klasifikasi NTR-KLR dan NTR-RLR berdasarkan kriteria total akurasi, sensitivitas, specitivitas dan pengujian statistik. IV. ANALISIS DAN PEMBAHASAN A. Pra Processing Data Berikut ini adalah missing value pada data kredit Bank X : Tabel 4.1 Data Missing Pada Variabel Bank X Variabel N Missing Count Percent (%) Job Type 999 1 0,1 Jabatan 999 1 0,1 Pendapatan Bersih 999 1 0,1 Tipe Perusahaan 999 1 0,1 Lama Usaha Perusahaan 999 1 0,1
Jumlah missing value pada kelima variabel adalah 1, kurang dari 10% sehingga perlu diimputasi. Output imputasi missing data menggunakan metode listwise, all values, EM dan regression dilihat pada Table 4.2 Variabel
Tabel 4.2 Estimasi Mean Missing Value Mean Listwise All Values EM 5,0332E6 5,0399E6 5,0383E6
Regression Pendapatan 5,0384E6 Bersih Lama Usaha 4,4856E1 4,4823E1 4,4794E1 4,4785E1 Perusahaan Tabel 4.3 Estimasi Standart Deviasi Missing Value Variabel Standart Deviasi Listwise All Values EM Regression Pendapatan 5,7010E6 5,6977E6 5,6951E6 5,6950E6 Bersih Lama Usaha 2,1516E2 2,1495E2 2,1490E2 2,1485E2 Perusahaan
4 Pemilihan metode estimasi didasarkan pada nilai standart deviasi terkecil. Hasilnya imputasi nilai missing untuk kedua variabel diperoleh melalui metode regression dengan imputasi 5038400 rupiah untuk pendapatan bersih dan 44,785 tahun untuk variabel lama usaha. B. Deteksi Outlier Hasil outlier multivariat yang dihitung berdasarkan nilai jarak mahalanobis adalah : Tabel 4.4 Deteksi Outlier Melalui Jarak Mahalanobis Pengamatan ke Jarak Mahalanobis 5 220,742794 34 64,8366108 73 68,0684464 97 67,4162043 98 68,8638349 146 72,3330085
981 989 993
174,787079 102,022393 65,9697775
Berdasarkan Tabel 4.4 sebanyak 76 pengamatan memiliki jarak mahalanobis melebihi nilai tabel χ ( 29; 0, 001) 59,30117 sehingga dinyatakan sebagai outlier multivariat, jadi tidak digunakan dalam analisis selanjutnya. 2
C. Karakteristik Nasabah Bank X Hasil statistika deskriptif nasabah bank X setelah data outlier dihilangkan dan nilai missing value diestimasi diberikan sebagai berikut : Var Usia JA LT MK TP PL PB T LB LU NA RH
Mean 35,37 1,57 10,41 7,30 8600000 250000 3650000 37,35 3,64 20,80 6513200 31,0643
Tabel 4.5 Statistika Deskriptif Data Bank X SE Mean StDev Min 0,253 7,683 20 0,043 1,293 0 0,327 9,917 0 0,217 6,597 1 215300 6538067,198 2275227 21270 645771,672 0 70850 2151217,119 0 0,408 12,393 12 0,094 2,850 0 0,669 20,316 1 587440 11783760 -1,80 0,37939 11,35416 7,88
Maks 62 6 46 32 60000000 7558099 20000000 60 19 300 204000000 91,71
Tabel 4.5 menunjukkan karakteristik nasabah bank X. Untuk variabel usia, rata-rata usia nasabah bank X adalah 35,37 tahun, usia minimum nasabah adalah 20 tahun dan maksimal berumur 62 tahun. Rata-rata pendapatan bersih nasabah sebesar 3650000 rupiah, standart error 70850 dan standart deviasi 2151217,119 dengan jumlah minimal pendapatan bersih nasabah 0 rupiah dan maksimum pendapatannya adalah 20000000. Analisis serupa berlaku untuk variabel lain pada Tabel 4.5. Sedangkan deskripsi variabel prediktor yang bersifat kategorik ditampilkan pada Tabel 4.6. Tabel 4.6 Statistika Deskriptif Data Numerik Bank X Variabel Range Mode N for Mode Wilayah 10 9 228 Status Pernikahan 3 1 700 Jenis Kelamin 1 1 733 Kepemilikan Rumah 5 1 396 KepemilikanTelfon Rumah 0 1 922 Pendidikan 6 2 406 Job Type 2 0 803 Employment Type 6 0 478
Jabatan Tipe Perusahaan Channel Jenis Usaha Jenis Kredit Telfon Rumah/Kantor Punya Kartu Kredit Punya Account Bank X Punya Account Bank Lain
11 7 5 33 7 1 1 1 1
0 0 0 8 5 0 0 1 1
509 764 811 136 734 855 754 852 894
Nasabah bank X paling banyak berasal dari wilayah berkode 9 yaitu regional X berjumlah sebanyak 228 orang. Variabel status pernikahan menunjukkan nasabah berkode 1 yaitu menikah berjumlah 700 nasabah. Analisis variabel kualitatif yang lain juga serupa. D. Pemodelan NTR-KLR Tahapan dalam pemodelan prediksi klasifikasi risiko kredit nasabah dengan metode NTR-KLR dilakukan melalui tahapan berikut. 1. Pemilihan parameter optimal Hasil parameter pada 5 dan 10 Fold Cv dihasilkan berikut : Tabel 4.7 Rata-rata Total Akurasi Data Testing Untuk 5 dan 10 Fold Cv K-Fold Lambda Sigma Akurasi Akurasi Data Testing Data Mean Median Training 92,90% 82,61% 5 – fold 0,1353 4,4817 83,07% 10 – fold 0,2231 2,7183 95,37% 82,96% 83,15%
Berdasarkan Tabel 4.7 parameter optimal dihasilkan pada pembagian data 5 Fol-Cv yang dipilih berdasarkan kriteria rata-rata total akurasi data testing tertinggi. Nilai parameter optimal yang dihasilkan λ=0,1353 dan σ=4,4817. 2. Pemilihan Fold Cv Pemodelan Pemilihan fold dilakukan sebagai perwakilan data testing yang akan dimodelkan Pemilihan Fold didasarkan pada median total akurasi, hasilnya diberikan pada Tabel 8. Tabel 4.8 Akurasi Data Testing Kombinasi 5-Fold Cv NTR-KLR K-Fold Akurasi Data Testing 82,61% 5- Fold 81,52% 83,70% 81,52% 86,02%
Pemilihan Fold dilakukan sebagi perwakilan data testing yang akan digunkaan untuk membangun model prediksi. Berdasarkan Tabel 4.9 Fold Cv yang terpilih sebagai perwakilan data testing untuk pemodelan NTR-KLR adalah Fold pertama dengan total akurasi mendekati nilai mediannya 82,61%. 3. Pembentukan Model NTR-KLR Model NTR-KLR data testing Fold pertama sulit direpresentasikan ke dalam bentuk linear karena data asli x telah dipetakan kedalam input space ke dalam feature space sehingga dalam pemodelan, ditampilkan model secar umumnya : 1 𝑝𝑖 �𝑦𝑖 = 1|𝐗 = 𝒙𝒊 � = 1 + 𝑒𝑥𝑝(−𝐊𝟏 𝜶(𝒕+𝟏) ) dengan memasukkan nilai y i = 1, matriks kernel testing K dan vektor 𝛂 ke dalam persamaan di atas diperoleh nilai probabilitas nasabah untuk masuk kelas 1, yaitu bad credit. Sedangkan probabilitas nasabah yang masuk good credit diperoleh dari : 1 𝑝𝑖 �𝑦𝑖 = 1|𝐗 = 𝒙𝒊 � = 1 + 𝑒𝑥𝑝(𝐊𝟏 𝜶(𝒕+𝟏) )
5
Pemodelan NTR-KLR menghasilkan akurasi klasifikasi sebesar 82,61%. Tabel 4.9 menunjukkan dari 40 nasabah yang berkredit tidak lancar, 10 nasabah tepat dikelompokkan tetapi 30 sisanya diklasifikasikan pada kredit lancar. Sedangkan dari 144 nasabah faktanya berkredit lancar, 142 orang masuk pada kelas yang tepat dan 2 sisanya masuk pada kelas yang tidak tepat. Terjadi miss clasification 17,39% pada model. 4. Sensitivitas dan Specitivitas Performance model dapat dilihat berdasarkan kriteria berikut : Tabel 4.10 Nilai Sensitivitas dan Specitivitas Fold Pertama 5-Fold Cv Sensitivitas Specitivitas Fold ke-1 25,0% 98,61%
Peluang nasabah bad credit dikelompokkan pada kelas yang tepat adalah 0,250 dan peluang nasabah good credit masuk pada kelas yang cocok adalah 0,9861. E. Pemodelan NTR-RLR Seperti pada NTR-KLR dalam NTR-RLR juga dilakukan step-step yang sama untuk mendapatkan model prediksi. Stepstep tersebut dijelaskan seperti di bawah ini. 1. Pemilihan Parameter Optimal Berdasarkan output parameter di bawah ini dilakukan pemilihan parameter optimal model : Tabel 4.11 Rata-Rata Total Akurasi Data Testing Pada 5 dan 10-Fold Cv Model NTR-RLR K-Fold Lambda Akurasi Data Akurasi Data Testing Training Mean Median 5 – fold 33,1155 82,70% 80,43% 81,12% 10 – fold 1,0966e+003 80,80% 80,80% 80,43%
Nilai parameter optimal yang dipilih sebagai pemodelan NTR-RLR prediksi klasifikasi nasabah bank X adalah λ = 33,1155 pada 5-Fold Cv karena rata-rata total akurasi data testing yang dihasilkan lebih tinggi 81,12%> 80,80% dari 10 Fold Cv. 2. Pemilihan Fold Cv Pemodelan Pemilihan data testing pada 5-Fold Cv berdasarkan total akurasi di bawah ini : Tabel 4.12 Akurasi Data Testing Kombinasi 5-Fold Cv NTR-RLR K-Fold Parameter Akurasi Data Testing 5-fold λ = 33,1155 80,43% 78,80% 79,89% 80,43% 84,41%
Tabel 4.12 menjelaskan bahwa Fold pertama digunakan membangun model prediksi karena total akurasinya mendekati nilai median sehingga digunakan sebagai wakil data testing pada 5-Fold Cv. 3. Pembentukan Model NTR-RLR Seperti halnya NTR-KLR model umum pada NTR-RLR diberikan berikut ini : 1 𝑝(𝑌 = 1|𝐗 = 𝐱 𝐢 ) = 1 + 𝑒𝑥𝑝(−𝒙𝛃(𝑡+1) )
Tabel 4.13 Akurasi Klasifikasi Data Testing Fold ke-5 NTR-RLR Observed Predicted Good Bad Credit Percentage Fold-1 Good Bad 1 -1 Correct Credit 1 11 29 27,5 -1 7 137 95,14 Overal Percentage 80,43
Pemodelan NTR-RLR data testing pada Fold ke-1 menghasilkan akurasi klasifikasi sebesar 80,43%. Dari 40 nasabah, sebanyak 11 nasabah berkredit tidak lancar tepat diklasifikasikan, tetapi 29 nasabah salah pengklasifikasian. Sedangkan untuk 144 nasabah berkredit lancar tepat dikelompokkan sebanyak 137 orang dan 5 sisanya diklasifikasikan pada kelas tidak lancar. Pengklasifikasian model NTR-RLR mengalami miss clasification sebesar 14,13%. 4. Sensitivitas dan Specitivitas Nilai sensitivitas dan specitivitas yang dihasilkan pada model NTR-RLR adalah : Tabel 4.14 Nilai Sensitivitas dan Specitivitas NTR-RLR 5-fold Sensitivitas Specitivitas Fold Pertama 27,5% 95,14%
Tidak jauh berbeda dengan output NTR-KLR nilai sensitivitas 0,275 menunjukkan peluang nasabah bad credit diprediksi bad credit masih kecil yaitu sebesar 0,275. Di sisi lain peluang model dapat memprediksi nasabah good credit ke dalam kelas yang tepat sebesar 0,9514. F. Perbandingan Model NTR-KLR dan NTR-RLR Perbandingan metode NTR-KLR dan NTR-RLR dilihat berdasarkan output visual dan pengujian secara statistik melalui uji wilcoxon siged rank. Serta dilakukan pula uji kesamaan varians untuk kedua metode baik NTR-KLR maupun NTR-RLR. a. Secara Visual metode NTR-KLR (82,61%) memberikan akurasi prediksi yang lebih tinggi dibandingkan metode NTR-RLR (80,43%) dalam mengklasifikasikan risiko kredit nasabah bank X. Perbandingan nyata total akurasi kedua metode ditampilkan visualisasinya berikut : NTR-KLR vs NTR-RLR 10 Fold Cross Validation
NTR-KLR vs NTR-RLR 5 Fold Cross Validation 86,02
86 85
87,23
81,52
81,52
80,43
80,43
85,87
84,78
84,78
83,70
83,70 82,61
82
78,26
78
78,80
79
84
81,52
81,52
78,26
78,26
3
4
Variable NTR-KLR NTR-RLR
82,98
80
79,89
80
85,87
86
83,70 82,61
82 81
89,13
88
84,41
84 83
90
Variable NTR-KLR NTR-RLR
Total Acuracy
Tabel 4.9 Akurasi Klasifikasi Data Testing Fold ke-1 NTR-KLR Observed Predicted Bad Good Credit Percentage Fold-1 Bad Good 1 -1 Correct Credit 1 10 30 25,00 -1 2 142 98,61 Overal Percentage 82,61
dengan memasukkan nilai y i = 1 dan matriks 𝛃 dan x diperoleh nilai probabilitas nasabah masuk ke dalam kelas bad credit. Sedangkan probabilitas nasabah yang masuk dalam kelas good credit diperoleh melalui persamaan : 1 𝑝(𝑌 = −1|𝐗 = 𝐱 𝐢 ) = 1 − 1 + 𝑒𝑥𝑝(𝒙𝛃(𝑡+1) ) Hasil total akurasi model prediksi NTR-RLR melalui program NTR-RLR disajikan seperti pada Tabel 4.13.
Total Acuracy
Melalui program pembentukan NTR-KLR diperoleh hasil matriks confussion data testing Fold pertama seperti berikut :
77,17
78,26
78,26
77,17
77,17
76
78 1
2
3
Fold ke-
4
5
1
2
5 6 Fold ke-
7
8
9
10
Gambar 4.1 Perbandingan Total Akurasi NTR-KLR dan NTR-RLR Pada 5 dan 10-Fold Cv
Berdasarkan Gambar 1 dengan menggunakan pembagian data 5 dan 10 Fold Cv dihasilkan bahwa total akurasi metode NTR-KLR lebih tinggi pada setiap kombinasi data testing daripada metode NTR-RLR. Berdasarkan nilai sensitivitas dan specitivitasnya kedua model menghasilkan sensitivitas yang rendah dengan specivisitas yang tinggi.
6 b. Pengujian kesamaan varinas (Levene’s test) Output uji kesamaan varians untuk pasangan 5 Fold dan 10 Fold Cv metode NTR-KLR dan NTR-RLR adalah :
Output statistik uji levene’s (0,01) pada 5 Fold bernilai kurang dari F( 0, 05;1;8) = 5,32. Begitu pula pada 10 Fold (0,25)
pada pembagian data 5-Fold Cv dengan nilai rata-rata total akurasi klasifikasi sebesar 83,07%. Kombinasi data testing terpilih sebagai pemodelan adalah pada Fold pertama dengan total akurasi klasifikasi mendekati nilai median 82,61%. Nilai sensitivitas data testing cukup kecil 0,250 sedangkan specitivitasnya sebesar 0,9861. Pemodelan data bank X menggunakan metode NTR-KLR memberikan total akurasi lebih tinggi 82,61% dibandingkan metode NTR-RLR 80,43%. Informasi ini didukung output visual dan pengujian statistik sehingga disimpulkan total akurasi metode NTR-KLR lebih besar dibandingkan metode NTR-RLR pada 5 dan 10-Fold Cv.
kurang dari nilai F( 0, 05;1;18) = 4,41. Nilai P-Value (0,544) dan
B. Saran
Tabel 4.15 Uji Levene’s Pada 5 Fold-Cv
Test Method Levene’s Test
DF1 1
DF2 8
Statistics 0,01
P-Value 0,544
Tabel 4.16 Uji Levene’s Pada 10 Fold-Cv
Test Method Levene’s Test
DF1 1
(0,689) juga kurang dari
DF2 18
α (0,05)
Statistics 0,25
P-Value 0,689
sehingga berdasarkan
informasi ini diputuskan gagal menolak
H 0 , karena tidak
cukup bukti untuk menolaknya. Hal ini berarti varians total akurasi metode NTR-KLR dan NTR-RLR tidak berbeda signifikan. c. Pengujian Kesamaan Median (Wilcoxon Signed Rank test) Uji kesamaan median pasangan 5 dan 10 Fold dilakukan untuk mengetahui apakah median total akurasi yang dihasilkan metode NTR-KLR dan NTR-RLR berbeda signifikan berdasarkan pengujian statistik. Hasil uji wilcoxon sign rank diberikan pada Tabel 4.15 dan Tabel 4.16. Hipotesis : H 0 : M D ≥ 0 (Selisih median total akurasi metode NTR-RLR dan NTR-KLR pada pasangan 5 Fold Cv lebih dari sama dengan 0) H 1 : M D < 0 (Selisih median total akurasi metode NTR-RLR dan NTR-KLR pada pasangan 5 Fold Cv kurang dari 0) Tabel 4.17 Output Uji Wilcoxon Data Berpasangan Pada 5 Fold-Cv
Test Statistic Wilcoxon Signed Rank Statistik Uji Z -2,023 P-Value 0,043 Tabel 4.18 Output Uji Wilcoxon Data Berpasangan Pada 10 Fold-Cv
Test Statistic Wilcoxon Signed Rank Statistik Uji Z -2,831 P-Value 0,005
Output statistik uji Z (-2,023) dan P-Value (0,043) yang bernilai kurang dari α (0,05) pada 5 Fold dan begitu pula pada 10 Fold memberikan kesimpulan bahwa
H 0 ditolak
sehingga disimpulkan median total akurasi pada 5 dan 10 Fold- Cv untuk metode NTR-KLR lebih besar dari metode NTR-RLR. V. KESIMPULAN DAN SARAN A. Kesimpulan Karakteristik nasabah bank X menunjukkan bahwa usia minimum nasabah bank X adalah 20 tahun dengan usia maksimal 62 tahun. Rata-rata pendapatan nasabah yang mengajukan aplikasi kredit adalah 3650000 rupiah. Sebagian rata-rata waktu pelunasan kredit nasabah adalah 37,5 tahun. Untuk variabel kualitatif sebanyak 228 nasabah berasal dari regional IX, sebanyak 700 nasabah pengaju aplikasi kredit telah menikah. Analisis yang sama untuk variabel laiinya. Pemodelan data bank X menggunakan metode NTR-KLR mengasilkan parameter optimal λ = 0,1353 dan σ = 4,4817
1. Pemodelan NTR-KLR dan NTR-RLR dalam penelitian ini menghasilkan nilai sensitivitas yang rendah karena keterbatasan penggunakan kriteria total akurasi, untuk penelitian selanjutnya disarankan menggunakan kriteria G-means agar model yang dihasilkan memiliki nilai sensitivitas dan specitivitas yang lebih tinggi. 2. Pada penelitian ini banyaknya data pengklasifikasian bank X yaitu good dan bad credit memiliki jumlah yang tidak seimbang, oleh karena itu pada penelitian selanjutnya perlu memperhatikan aspek imbalanced data.
DAFTAR PUSTAKA [1] Elizabeth, Lusiana . 2009. Risiko dan Management. Jurusan Ekonomi Pasca Sarjana Universitas Indonesia. [2] www.keuangan.kontan.co.id. Undisbursed Loan di Indonesia. [3] Riechert, A.K., Cho, C.C., Wagner,G.M. 1983. An Examination Of The Conceptual Issue. Journal Business and Economic Statistics 1 (101-114). [4] Henley, W.E. 1995. Statistical aspect of credit scoring. Thesis PhD, Open University. [5] Desai, R.H, Edelman, D. B., A.J. 1992. Acomparison of neural networks and linear scoring models in the credit union environment. European Journal of Operational Research, 95(1),24-37. [6] Ong, Huang and Tzeng. 2005. Building credit scoring models using genetic programming. Journal International, 29(1), 41-47. [7] Huang, C.L., Chen, M.C. and Wang, C.J. 2007. Credit scoring with a data mining approach based on support vector machines. Expert System with Application; 33 ;847-856. [8] Sodiq,J,dkk . 2012. Pengembangan Model Credit Scoring Menggunakan Regresi Logistik Biner.Surabaya. Institut Tekonologi Sepuluh Nopember. [9] Rahayu Santi P,dkk. 2012. Logistic regression methods with truncated newton method. Procedia Engineering;50:827-836. [10] Zhu J. and Hastie T. 2005. Kernel logistic regression and the import vector machine. Journal of Computational and Graphical Statistics;14(1):185-205. [11] Hosmer D.W. and Lemeshow. 1980. A goodness-of-fit test for the multiple logistic regression model. Communication in Statistics A10:1043-1069. [12] Koh, K., Kim, S. dan Boyd, S. 2007. An interior point method for large scale l1 regularized logistic regression. Journal of Machine learning Research; 8: 1519-1555. [13] Ricardo Gutierrez-Osuma. 2012. “Pattern Analysis K-Fold Cross Validation” : Lecture.CSCE 666. [14] Johnson, R.A and Wichern D.W. 2007, Applied Multivariate Statistical Analysis, Sixth Edition, Prentice Hall, New Jersey. [15] Malhotra, R., & Malhotra, D. K. 2002. Differentiating between good credits and bad credits using neuro fuzzy system. European Journal of Operation Research, 136(1), 190-211.