KAJIAN PERBANDINGAN MODEL CREDIT SCORING TERHADAP DATA NUMERIK DAN DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK
PERA TINFIKA MUTIARA
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2008
KAJIAN PERBANDINGAN MODEL CREDIT SCORING TERHADAP DATA NUMERIK DAN DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK
PERA TINFIKA MUTIARA
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains Pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2008
Judul Skripsi Nama NRP
: Kajian Perbandingan Model Credit Scoring Terhadap Data Numerik Dan Data Kategorik Menggunakan Regresi Logistik : Pera Tinfika Mutiara : G14103003
Menyetujui, Pembimbing I
Pembimbing II
Bagus Sartono, M.Si NIP 132 311 923
Anang Kurnia, M.Si NIP 132 158 749
Mengetahui, Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Drh. Hasim, DEA NIP 131 578 806
Tanggal Lulus :
ABSTRAK PERA TINFIKA MUTIARA, KAJIAN PERBANDINGAN MODEL CREDIT SCORING TERHADAP DATA NUMERIK DAN DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK. Dibimbing oleh BAGUS SARTONO DAN ANANG KURNIA. Model scoring diperlukan oleh berbagai institusi dan perusahaan untuk meningkatkan profitabilitas mereka. Model regresi logistik merupakan salah satu teknik yang sering digunakan. Penggunaan teknik ini pun menjadi populer karena memberikan kemudahan dalam interpretasi dan ketersediaan software yang dapat menanganinya. Permasalahan yang sering muncul dalam penyusunan model scoring ini adalah bagaimana memilih peubah penjelas yang akan dimasukkan ke model dan mampu mencerminkan keadaan finansial debitor. Selain itu dalam pembentukkan model terganggu dengan keberadaan data outlier dan data yang hilang (missing) pada kasus-kasus tertentu. Data-data yang ada saat ini sangat rentan terhadap noise, missing value, dan tidak konsisten. Salah satu teknik yang digunakan untuk menanganinya adalah dengan transformasi data dan reduksi data. Oleh karena itu penelitian dilakukan untuk membandingkan model scoring yang dibangun oleh nilai asli peubah penjelasnya dengan model scoring yang dibangun oleh nilai hasil diskretisasi peubah penjelasnya menggunakan metode regresi logistik. Berdasarkan perbandingannya tersebut model yang peubah penjelasnya dibangun oleh nilai hasil diskretisasi memberikan peluang untuk menghasilkan model dengan performans yang lebih baik.
RIWAYAT HIDUP Penulis dilahirkan di Ciamis pada tanggal 31 Agustus 1984 dari pasangan Muhidin dan Eti Rohayati. Penulis merupakan putri ketiga dari lima bersaudara. Tahun 1997 penulis lulus dari SDN Legokjawa I dan melanjutkan ke sekolah menengah pertama di MTs Legokjawa. Tiga tahun kemudian penulis melanjutkan pendidikan menengah atas di SMUN I Ciamis dan lulus pada tahun 2003. Pada tahun yang sama penulis melanjutkan pendidikan ke Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Selama kuliah di IPB, penulis aktif dalam kegiatan Himpro GSB (Gamma Sigma Beta) yaitu sebagai staf pada Departemen Keilmuan tahun 2004/2005. Pada tahun yang sama penulis juga aktif dalam organisasi KAMMUS (Keluarga Mahasiswa Muslim Statistika), dan pada tahun berikutnya penulis juga aktif pada salah satu Unit Kegiatan Mahasiswa yakni Badan Kerohanian Islam Mahasiswa tahun 2005/2006.
PRAKATA Setiap pujian tercurah kepada Rabb Yang Maha Kasih, setiap syukur terpatri dalam diri bagi Sang Penjaga Terbaik yang senantiasa mengalirkan arus kebaikan dan membuka pintu-pintu kemudahan dalam menyelesaikan karya kecil ini. Salawat beserta salam semoga tercurah kepada manusia terbaik Rasulullah SAW beserta keluarga, sahabat dan umatnya hingga akhir zaman. Karya ilmiah ini berjudul ” Kajian Perbandingan Model Credit Scoring Data Numerik dan Data Kategorik menggunakan Regresi Logistik”. Dalam penelitian ini dilakukan analisis regresi logistik dalam membandingkan model yang disusun dari data asli dengan data hasil diskretisasi. Pada kesempatan ini, penulis menyampaikan ucapan terima kasih kepada semua pihak yang telah membantu dalam penyelesaian karya ilmiah ini, terutama kepada : 1. Bapak Bagus Sartono, M.Si dan Bapak Anang Kurnia, M.Si yang telah berkenan menjadi dosen pembimbing, dan dengan penuh kesabaran membimbing penulis dalam menyelesaikan tugas akhir ini. 2. Ibu dan Bapak yang tak henti mencurahkan doa dan kasih sayangnya, waktu dan seluruh hidupnya, motivasi terkuat yang mendukung penulis selama menjalankan tugas akhir. Adik-adik, Kakak-kakak, Sepupu dan keluarga tercinta yang tak lelah memberi dukungan. 3. Seluruh staf dan Dosen Departemen Statistika IPB, Bu Markonah, Bu Sulis, Bang Sudin, Mang Herman dan Kang Dur. 4. Bayu, Anggoro, Dauz, Edo dan seluruh keluarga besar Statistika 40 yang selalu membantu dan memberi dukungan kepada penulis dalam menjawab setiap masalah dalam penulisan ini. 5. Adik-adik Statistika angkatan 41, 42 dan 43. 6. Seluruh Jamish Crew yang turut mewarnai perjalanan dalam menyelesaikan tulisan ini. 7. Semua pihak yang telah memberi dukungan kepada penulis yang tidak dapat disebutkan satu per satu. Penulis menyadari bahwa kesempurnaan hanyalah milik Allah SWT, masih banyak kekurangan dalam karya ilmiah ini, semoga dapat disempurnakan pada penelitian berikutnya. Harapan penulis tidak lain semoga karya ilmiah ini bermanfaat bagi seluruh pihak yang membutuhkan.
Bogor, Mei 2008
Pera Tinfika Mutiara
DAFTAR ISI
Halaman DAFTAR TABEL .................................................................................................. v DAFTAR GAMBAR ............................................................................................. v DAFTAR LAMPIRAN .......................................................................................... v PENDAHULUAN Latar Belakang ................................................................................................. 1 Tujuan .............................................................................................................. 1 TINJAUAN PUSTAKA Credit Scoring ................................................................................................... 1 Regresi Logistik ................................................................................................ 1 Correct Classification Table ............................................................................. 2 ROC Curve ........................................................................................................ 3 Weight of Evidence............................................................................................ 3 BAHAN DAN METODE Bahan................................................................................................................. 3 Metode............................................................................................................... 4 HASIL DAN PEMBAHASAN Deskripsi Nasabah............................................................................................. 5 Analisis Regresi Logistik .................................................................................. 6 Perbandingan Model ......................................................................................... 7 KESIMPULAN ....................................................................................................... 8 DAFTAR PUSTAKA ............................................................................................ 9 LAMPIRAN ......................................................................................................... 10
DAFTAR TABEL
Halaman 1. Kategorisasi Data Berdasarkan WOE ................................................................ 4 2. Jumlah Nasabah pada kategori Rasio Utang dan Pendapatan (DSR) ................. 5 3. Jumlah Nasabah pada kategori Pendapatan Tahunan Kotor ............................... 5 4. Jumlah Nasabah pada kategori Jumlah Tanggungan .......................................... 5 5. Jumlah Nasabah pada Kategori Status Rumah Hunian....................................... 5 6. Jumlah Nasabah pada kategori Kode Pekerjaan ................................................. 6 7. Nilai statistik-G, nilai-p dan nilai log-likelihood pada Model-1 dan Model-2....7 8. P-Value dari uji Wald pada Model-1 dan Model-2............................................. 7 9. Korelasi Antar Peubah Penjelas .......................................................................... 7 10. Klasifikasi metode regresi logistik antara Model-1 dan Model-2.................. ...7
DAFTAR GAMBAR
Halaman 1. Kurva ROC ........................................................................................................ 3 2. Flowchart Metode ............................................................................................... 4 3. Grafik Jumlah Kolektibilitas Nasabah ................................................................ 6 3. Kurva ROC Model-1........................................................................................... 8 3. Kurva ROC Model-2........................................................................................... 8
DAFTAR LAMPIRAN
Halaman 1. Grafik plot peubah penjelas dengan logitnya dari Model-1.............................. 10 2. Nilai B, SE dan Rasio Odds pada Model-1 ....................................................... 10 3. Nilai B, SE dan Rasio Odds pada Model-2 ....................................................... 10
PENDAHULUAN Latar Belakang Model credit scoring telah banyak digunakan oleh berbagai organisasi finansial seperti bank dan penyedia jasa kredit sebagai alat yang efisien untuk meningkatkan keuntungan. Credit scoring adalah sistem yang dipakai oleh pemberi kredit dalam membantu menyeleksi dan memutuskan apakah akan memberi kredit kepada pemohon atau tidak. Model scoring dibangun berdasarkan data pelanggan sebelumnya yang masuk dalam kategori buruk dan baik. Credit score memberikan peminjam perhitungan yang cepat dan objektif mengenai resiko kredit seseorang. Model dibangun berdasarkan pada informasi berupa data yang dimiliki perusahaan finansial tersebut. Permasalahan yang sering muncul dalam penyusunan model scoring ini adalah bagaimana memilih peubah penjelas yang akan dimasukkan ke dalam model dan mampu mencerminkan keadaan keuangan pemohon kredit. Kendala yang lain juga terjadi apabila dalam pembentukkan model terganggu dengan keberadaan data pencilan atau pada kasus-kasus tertentu dijumpai data yang hilang. Pre-processing data merupakan tahapan pemilihan peubah penjelas. Tahapan ini diperlukan karena data-data yang ada saat ini sangat rentan terhadap noise, data hilang (missing value), dan tidak konsisten. Salah satu teknik yang digunakan dalam preprocessing data adalah transformasi data dan reduksi data atau juga biasa disebut binning. Binning memetakan nilai-nilai sebuah peubah ke dalam satu set bin. Sebuah bin bisa terdiri dari satu nilai saja, suatu set nilai yang terbatas, selang kontinu, sebuah nilai hilang, atau bahkan nilai yang tidak ada sebelumnya (Hollowel 2004). Oleh karena itu Alfiansyah (2007) telah melakukan pengkelasan kategori dan proses penggabungan antar kategori karena adanya peubah berskala nominal dan ordinal serta peubah kontinu yang ditransformasi ke dalam peubah diskret dengan menggunakan metode supervised entropy based discretization dan supervised chi-square. Proses diskretisasi pada data numerik dan data kategorik, keduanya melakukan transformasi dengan menggunakan nilai WOE, suatu besaran yang menunjukkan kecenderungan suatu kategori peubah terhadap kelas atau status tertentu. Metode diskretisasi atau binning yang didapatkan diharapkan mampu meningkatkan kualitas
peubah penjelas yang akan dijadikan dasar pemodelan. Untuk mengetahui seberapa besar metode diskretisasi dapat memperbaiki model yang memiliki masalah dengan data ekstrem, maka pada penelitian ini akan dilakukan kajian perbandingan model scoring ketika peubah penjelasnya menggunakan nilai asli dengan model scoring ketika peubah penjelasnya menggunakan nilai hasil diskretisasi. Tujuan Membandingkan model scoring yang dibangun oleh nilai asli peubah penjelasnya dengan model scoring yang dibangun oleh nilai hasil diskretisasi peubah penjelasnya menggunakan metode regresi logistik
TINJAUAN PUSTAKA Credit Scoring Model scoring merupakan salah satu alat yang dapat digunakan untuk menentukan peminjam yang tepat untuk diberi pinjaman. Dengan menggunakan data perusahaan pemberi pinjaman dan teknik statistika, credit scoring mencoba untuk memisahkan pengaruh berbagai karakteristik pelamar dalam hal pelanggaran dan kelalaian. Informasi peminjam diperoleh dari aplikasi pinjaman dan catatan kredit. Data perusahaan yang dipakai antara lain aplikasi pendapatan bulanan, hutang yang belum dilunasi, aset finansial, lamanya bekerja, apakah pelamar lalai atau pernah melanggar peminjaman sebelumnya, apakah pelamar memiliki rumah sendiri atau menyewa, dan tipe rekening bank yang dimiliki. Regresi Logistik Regresi logistik merupakan teknik analisis data yang dapat menjelaskan hubungan antara peubah respons yang memiliki dua kategori atau lebih dengan satu atau lebih peubah penjelas berskala kontinu atau kategori (Hosmer dan Lemeshow, 1989). Model regresi logistik menjadi model dasar bagi analisis hubungan antara peubah respon biner dengan peubah-peubah bebasnya. Respon berskala biner adalah peubah respon Y yang bernilai ‘ya’ atau ‘tidak’ yang umumnya dinotasikan sebagai Y=1 atau Y=0. Peluang masing-masing kejadian adalah P(Y=1)= π dan P(Y=0)=1- π. Peubah acak ini mengikuti sebaran Bernoulli dengan rata-rata π (Hosmer dan
Lemeshow, 1989) dengan fungsi peluang sebaran Bernoulli adalah :
P(Y = y ) = π y (1 − π )1− y Pendekatan model persamaan regresi logistik digunakan karena dapat menjelaskan hubungan antara x dan π(x) yang bersifat tidak linier, ketidaknormalan sebaran dari Y, dan keragaman respon tidak konstan yang tidak dapat dijelaskan oleh model linier biasa (Agresti, 1990). Model umum persamaan peluang regresi logistik dengan p peubah penjelas, yaitu :
π ( x) =
e g ( x) 1 + e g (x)
dimana komponen
g ( x) = ln
π ( x) = β 0 + β 1 x1 + ... + β p x p 1 − π ( x)
merupakan penduga logit sebagai fungsi linear dari peubah penjelas. Model regresi logistik menggunakan metode kemungkinan maksimum untuk menduga parameter-parameternya. Fungsi kemungkinan maksimum yang diperoleh jika antara amatan yang satu dengan amatan yang lain diasumsikan bebas adalah : n
l ( β ) = ∏ π ( xi ) yi [1 − π ( xi )]1− yi i =1
Parameter βi diduga dengan memaksimumkan persamaan di atas. Pendekatan logaritma dilakukan untuk memudahkan perhitungan, sehingga fungsi log-kemungkina sebagai berikut :
L( β ) = ln[l ( β )] = ∑{yi ln[π(xi )]+ (1− yi ) ln[(1−π(xi )]) Nilai dugaan βi dapat diperoleh dengan membuat turunan pertama L(β) terhadap βi sama dengan nol. Namun demikian karena persamaan tersebut tidak linier dalam parameter maka diperlukan teknik khusus menggunakan prosedur teknik kuadrat terkecil terboboti secara iteratif. Menurut (Hosmer & Lemeshow 1989) untuk mengetahui peran seluruh peubah penjelas di dalam model secara bersama-sama dapat menggunakan statistik uji - G. Hipotesis yang diuji adalah : H0 : β1 = β2 =…= βp = 0 H1 : minimal ada satu βi ≠ 0, i = 1,2, …, p Statistik uji-G didefinisikan sebagai :
L G = −2 ln 0 Lp
Dengan L0 adalah fungsi kemungkinan (likelihood) tanpa peubah penjelas, dan Lp merupakan fungsi kemungkinan dengan p peubah penjelas. Statistik uji-G mengikuti sebaran χ2 dengan derajat bebas p. Uji Wald digunakan untuk menguji parameter βi secara parsial. Hipotesis yang diuji adalah : H0 : βi = 0 H1 : βi ≠ 0, i = 1,2, …, p Statistik uji-Wald didefinisikan sebagai : ^
z=
β
SE
^
W=
βi ^
SE ( β i ) Jika hipotesis nol benar, maka statistik uji-Wald akan menyebar mengikuti sebaran normal baku. Interpretasi koefisien untuk model regresi logistik adalah dengan cara melihat rasio oddnya. Koefisien model logit, βi, mencerminkan perubahan nilai fungsi logit g(x) untuk perubahan satu unit peubah penjelas x. Dalam analisis model logit rasio odds didefinisikan sebagai :
Ψ = exp( β i ) = exp[ g (1) − g (0)] Ψ
=
ex p (
β
i
)
=
ex p [
g
(1
)
−
g
( 0
)]
Interpretasi dari rasio odds ini adalah untuk peubah penjelas X yang berskala nominal, yaitu kecenderungan untuk Y=1 pada X=1 sebesar Ψ kali dibandingkan pada X=0. Correct Classification Table Salah satu cara untuk mengetahui ketepatan prediksi dari model adalah menggunakan tabel kesesuaian klasifikasi (correct classification table). Untuk memperoleh kesesuaian dugaan terhadap amatan harus menentukan nilai cutoff (c) dan dibandingkan dengan peluang dugaan π(x). Jika π(x) lebih besar dari c maka nilai dugaan termasuk pada respon y = 1 dan selain itu y = 0. Nilai c yang digunakan adalah 0.5 (Hosmer dan Lemeshow 1989). Ketepatan model dalam memprediksi kejadian gagal (y=0), yaitu P(ŷ=0|y=0) dinyatakan sebagai N00/N0. atau sering disebut specificity, proporsi nilai dugaan yang sama dengan nilai amatan pada kategori nilai amatan y=0. Indikator dan pengertian yang sama juga berlaku untuk mengevaluasi kemampuan model memprediksi kejadian sukses (y=1), P(ŷ=1|y=1) yaitu N11/N1. atau sering disebut sensitivity. Kemampuan model dalam memprediksi keseluruhan kejadian adalah (N00+N11)/N.. yang mencerminkan
proporsi nilai amatan yang secara tepat dapat diduga oleh model.
Amatan 0 1
Dugaan 0 1 N00 N0. N10 N11 N.0 N.1
Total N0. N1. N..
%Tepat N00/N0. N11/N1. (N00+N11)/N..
Dengan : Suatu amatan bernilai 0 dengan N00: dugaan 0 N.0: Jumlah total dugaan bernilai 0 N0.: Jumlah total amatan bernilai 0 N..: Jumlah keseluruhan nilai yang dihasilkan Kurva ROC Pada Gambar 1 kurva ROC menyajikan sensitivity dan specificity sebagai alat pemisah (penggolong) untuk suatu barisan cutoff. Setiap titik pada kurva menyajikan peluang dari cutoff. Titik yang mendekati sudut kanan atas berkorespondensi dengan peluang cutoff yang rendah. Sementara titik di kanan bawah berkorespondensi dengan peluang cutoff yang tinggi. Kurva ROC untuk pengkelasan yang sempurna akan memiliki satu titik di sudut kiri atas (0,1). Oleh karena itu, wilayah di bawah kurva ROC (c statistic) sering digunakan untuk mengevaluasi penampilan dari model prediksi untuk keseluruhan cutoff.
Gambar 1. Kurva ROC Weight of Evidence (WOE) Weight of Evidence (WOE) adalah perbandingan proporsi kategori tertentu suatu peubah untuk kelompok status kolektibilitas. WOE merupakan selisih atau besarnya perbedaan antara log odds tiap-tiap kategori dengan log odds total (Mays 2003). Fungsi WOE dalam proses membangun model credit scoring, WOE juga menunjukkan tingkat resiko seseorang.
WOE tiap bin didefinisikan sebagai berikut :
f (i ) WOE (i ) = log G f B (i ) n f G (i ) = 100 Gi = persentase jumlah nG nasabah kategori ke-i pada kelompok nasabah yang berstatus baik.
n f B (i ) = 100 Bi = persentase jumlah nB nasabah kategori ke-i pada kelompok nasabah yang berstatus buruk. Keterangan : nG : jumlah nasabah berstatus baik populasi nB : jumlah nasabah berstatus buruk populasi jumlah nasabah berstatus baik nGi : bin i jumlah nasabah berstatus buruk nBi : bin i
pada pada pada pada
BAHAN DAN METODE Bahan Bahan penelitian adalah data yang sama seperti yang digunakan oleh Alfiansyah (2007) yakni data sekunder dari hasil amatan terhadap 1000 orang nasabah suatu perbankan. Berdasarkan pengalaman, peubah input yang biasa dipertimbangkan sebagai peubah penjelas dalam membangun credit scoring model antara lain : DSR (rasio antara hutang dan pendapatan), Gross annual income, Number of dependants (banyak tanggungan), Residence status (status kepemilikan rumah), dan Job code (kode pekerjaan). Pada kelima peubah tersebut Alfiansyah (2007) melakukan diskretisasi berdasarkan metode chi-square dan hasilnya adalah sebagai berikut : 1. Debt Salary Ratio (rasio antara hutang dan pendapatan) yang dinotasikan dengan DSR. Peubah ini dibagi menjadi delapan kelompok. 2. Gross annual income yang dinotasikan dengan GAI. Peubah ini dibagi menjadi tujuh kelompok. 3. Number of dependants (banyak tanggungan) yang dinotasikan dengan NOD. Peubah ini dibagi menjadi lima kelompok.
4. Residence status (status kepemilikan rumah) yang dinotasikan dengan RS. Peubah ini dibagi menjadi enam kelompok. 5. Job code (kode pekerjaan) yang dinotasikan dengan JC. Peubah ini dibagi menjadi lima kelompok. Pada setiap peubah penjelas dibagi mejadi beberapa kategori dan pada masingmasing kategori dihitung nilai WOE-nya. Nilai WOE yang dihasilkan dan tercantum pada Tabel 1 merupakan perbandingan proporsi kategori tertentu pada masing-masing peubah penjelas untuk status baik atau buruknya calon penerima kredit. Semakin besar nilai WOE pada suatu kategori berarti kategori tersebut cenderung untuk baik, atau dengan kata lain para calon penerima kredit pada kategori tersebut cenderung memiliki peluang lebih besar untuk mendapatkan pinjaman. Tabel 1. Kategorisasi data berdasarkan WOE Debt Salary Ratio (%) Kategori WOE 0.00 - 16.27 -0.1740 16.27 - 17.00 0.8944 17.00 - 17.99 -1.0365 17.99 - 19.69 -0.0456 19.69 - 20.41 1.9240 20.41 - 38.01 0.3204 38.01 - 38.91 -0.8640 38.91 - inf -0.0362 Gross Annual Income (juta rupiah) Kategori WOE 0.0 – 53.4 -0.0682 53.4 – 57.6 -1.1005 57.6 – 63.0 1.0429 63.0 – 72.3 -0.1496 72.3 – 98.9 2.0323 98.9 – 139.7 0.0270 139.7 – inf 6.4396 Number Of Dependants (jiwa) Kategori WOE 1 -0.1874 2 -0.0419 4 0.0569 0,3 0.1355 ≥5 0.4107 Residence Status Kategori WOE Rented -0.3583 Parents -0.1376 Own 0.1444
Others Institution Credit
0.2658 0.4481 0.5087
Job Code Kategori Notaris, peg yayasan Pegawai swasta Guru/Dosen, peg.BUMN/BUMD Pegawai Negri Sipil Others
WOE -1.3393 -0.1135 0.4602 0.9379 2.0969
Metode Langkah–langkah metode penelitian sebagaimana tertera pada Gambar 2 adalah sebagai berikut : 1. Memanfaatkan data asli dan data hasil diskretisasi Alfiansyah (2007). 2. Menduga model menggunakan metode regresi logistik dengan peubah penjelasnya adalah nilai asli yang kemudian disebut sebagai Model-1. 3. Menduga model dengan menggunakan metode regresi logistik dengan nilai peubah penjelasnya adalah nilai hasil diskretisasi (nilai WOE) yang kemudian disebut sebagai Model-2. 4. Membandingkan performa dari kedua model yang dihasilkan pada tahap (2) dan (3) dengan melihat signifikansi koefisien regresi, correct classification table, dan kurva ROC. Software yang digunakan adalah SAS 9.1, SPSS 11.5, dan Microsoft Office Excel 2007. Data asli
Data terdiskretisasi
Menduga Model -I
Menduga Model -2
Membandingkan performa model - Koefisien regresi - Correct Classification Table - Kurva ROC
Gambar 2 Flowchart Metode
HASIL DAN PEMBAHASAN Deskripsi Nasabah
Jumlah nasabah yang menjadi contoh dalam penelitian ini sebanyak 1000 orang. Untuk melihat apakah orang tersebut bisa mendapatkan pinjaman dari bank atau tidak , maka harus dilihat apakah orang tersebut berpeluag untuk mengalami kredit macet atau tidak. Dilihat dari kategori pertama yakni DSR (Rasio Utang dan Pendapatan) semakin besar DSR menunjukkan bahwa nasabah tersebut semakin berpeluang untuk macet dalam pembayaran kredit karena alokasi pendapatan berkurang untuk membayar kredit dengan asumsi pengeluaran sama. Setelah dilakukan analisis terhadap 1000 orang nasabah tersebut dapat diketahui dari Tabel 2 bahwa sebagian besar nasabah berada pada selang rasio (17.00 - 17.99)% dan (20.41 - 38.01)%. Nasabah dengan rasio terkecil berada pada selang (0.00-16.27)% sebanyak 43 orang. Sedangkan nasabah dengan rasio tertinggi memiliki rasio lebih dari 38.91% sebanyak 37 orang.
GAI (juta rupiah)
Jumlah
%
0.0 – 53.4
27
2.7
53.4 – 57.6
27
2.7
57.6 – 63.0
818
81.8
63.0 – 72.3
25
2.5
72.3 – 98.9
31
3.1
98.9 – 139.7
40
4
139.7 – inf
32
3.2
Pada Tabel 4 dapat diketahui nahwa nasabah yang tidak memiliki tanggungan sebanyak 311 orang atau 31.1%, selanjutnya nasabah dengan tanggungan 1, 2, 3, 4 dan 5 berturut-turut sebesar 25.1%, 27.2%, 12.3%, 3.2%, dan 0.7%. Sedangkan nasabah yang memiliki tanggungan lebih dari 5 orang sebesar 0.4%. Tabel 4 Jumlah Nasabah pada kategori Jumlah Tanggungan
Tabel 2 Jumlah Nasabah pada kategori Debt Salary Ratio (DSR) DSR (%)
Jumlah
%
0.00 - 16.27
43
4.3
16.27 - 17.00
41
4.1
17.00 - 17.99
272
27.2
17.99 - 19.69
100
10
19.69 - 20.41
83
8.3
20.41 - 38.01
396
39.6
38.01 - 38.91
28
2.8
38.91 - inf
37
3.7
Untuk kategori pendapatan tahunan kotor atau GAI, sebagian besar nasabah memiliki pendapatan yang berkisar pada selang 57.6 sampai 63 juta rupiah dengan persentase 81.8%. Nasabah dengan pendapatan tahunan kotor paling rendah memiliki pendapatan sebesar 0.0 sampai 53.4 juta rupiah dengan persentase 27% dan nasabah dengan pendapatan paling tinggi memiliki pendapatan lebih dari 139.7 juta rupiah dengan persentase 32%, bahkan ada nasabah yang mencapai pendapatan tahunan kotor paling tinggi yakni sebesar 1.2 Milyar.
Tabel 3 Jumlah Nasabah pada kategori Pendapatan Tahunan Kotor
NOD (jiwa)
Jumlah
%
0
311
31.1
1
251
25.1
2
272
27.2
3
123
12.3
4
32
3.2
≥5
11
1.1
Untuk kategori status rumah atau RS pada Tabel 5 dapat diketahui bahwa sebagian besar nasabah tinggal di rumah milik sendiri sebesar 43.7% dan sebesar 47.1% tinggal di rumah milik orang tua. Selainnya tinggal di rumah yang berstatus sewa sebesar 3.2%, di rumah yang bestatus kredit sebesar 1.9%, di rumah milik institusi sebesar 1.8% dan dengan status rumah lainnya sebesar 2.3%. Tabel 5 Jumlah Nasabah pada Kategori Status Rumah Hunian RS
Jumlah
%
Rented
32
3.2
Parents
471
47.1
Own
437
43.7
Others
23
2.3
Institution
18
1.8
Credit
19
1.9
Kategori terakhir pada Tabel 6 adalah kode pekerjaan atau JC. Mayoritas nasabah
memiliki pekerjaan sebagai pegawai swasta sebesar 79% dan sebagian yang lain adalah pegawai BUMN/BUMD, Pegawai Negeri Sipil, Guru/Dosen, Pejabat Negara dll. Tabel 6 Jumlah Nasabah pada kategori Kode Pekerjaan JC
Jumlah
%
Notaris
2
0.2
Pegawai Yayasan
5
0.5
Pegawai Swasta
790
79
Guru/Dosen Pegawai BUMN/BUMD
8
0.8
137
13.7
Pegawai Negeri Sipil
29
2.9
Pejabat Negara
7
0.7
Profesional
2
0.2
Wiraswasta
7
0.7
Akuntan
2
0.2
Dokter
6
0.6
Employee
3
0.3
Paramedis
2
0.2
Peubah Y (kolektibilitas nasabah) sebagai peubah respon merupakan peubah biner karena memiliki dua nilai yakni baik yang dinotasikan oleh angka 1 dan buruk yang dinotasikan oleh angka 0. Pada Gambar 3 dapat dilihat nasabah yang memiliki kategori baik sebanyak 833 orang atau 83.3%, nasabah dengan kategori buruk sebanyak 163 orang atau 16.3%, dan data nasabah yang hilang sebanyak 4 orang atau 0.4%. Jumlah Kolektibilitas Nasabah
163
4
Baik Buruk Nilai Hilang
833
Gambar
3
Grafik Jumlah Nasabah
Kolektibilitas
Analisis Regresi Logistik Analisis regresi logistik menggunakan peubah penjelasnya, yang dapat berupa peubah kategorik ataupun peubah numerik, untuk menduga besarnya peluang kejadian tertentu dari kategori peubah respon. Dalam hal ini, analisis regresi logistik menggunakan
peubah penjelas (DSR, GAI, NOD, RS dan JC) untuk menduga besarnya peluang kejadian nasabah yang mengalami kredit macet atau masuk dalam kategori buruk. Pemodelan peluang kejadian peubah penjelas dari kategori peubah respon dilakukan melalui transformasi logit. Hubungan yang dibangun antara logit dengan parameternya adalah hubungan linier. Berdasarkan Lampiran 1 hubungan antara peubah penjelas dengan logitnya banyak yang tidak linier. Misalnya, hubungan DSR dengan logit membentuk pola kuadratik. Hubungan antara GAI dengan logit membentuk gerombol dan terdapat data ekstrem. Hubungan antara NOD dengan logit membentuk pola kubik. Untuk RS dan JC tidak bisa dihitung nilai logitnya karena RS dan JC merupakan peubah kategorik sementara model regresi mensyaratkan peubah penjelasnya dalam bentuk numerik. Berdasarkan Tabel 7 pendugaan parameter pada Model-1 menghasilkan nilai Statistik-G sebesar 30.012 dengan nilai p = 0.000. Model penuh dapat diterima secara statistik karena nilai p lebih kecil dari taraf nyata α = 0.05. Berarti model yang dibangun layak atau minimal ada satu βi yang tidak sama dengan nol. Sedangkan pendugaan parameter pada Model-2 menghasilkan nilai Statistik-G sebesar 74.461 dengan nilai p = 0.000. Model penuh dapat diterima secara statistik karena nilai p lebih kecil dari taraf nyata α = 0.05. Berarti model yang dibangun layak atau minimal ada satu βi yang tidak sama dengan nol. Dari tabel 7 juga bisa dilihat bahwa nilai statistik-G pada Model-2 lebih besar daripada Model-1, hal ini menunjukkan bahwa kuasa uji dari Model-2 lebih besar atau dengan kata lain pengaruh dari peubah penjelas (DSR, GAI, NOD, RS dan JC) lebih terdeteksi pada Model-2 daripada Model-1. Statistik uji-G digunakan untuk mengetahui peran seluruh peubah penjelas dalam model secara bersama-sama. Sehingga terujinya signifikansi kedua model menandakan bahwa seluruh peubah penjelas berpengaruh terhadap kelancaran kredit nasabah yang akan menentukan status nasabah pada dua kategori baik atau buruk. Akan tetapi keberpengaruhan peubah penjelas pada Model-2 lebih besar jika dilihat berdasarkan statistik uji-G. Tabel 7 Nilai statistik-G, nilai-p dan nilai loglikelihood pada Model-1 dan
Model-2 Statistik-G Nilai-p Log-Likelihood
Model-1 30.012 0.000 - 426.902
Model-2 74.461 0.000 -406.668
Selain statistik uji-G, uji Wald digunakan untuk menguji parameter secara parsial. Dari model logistik yang terlihat pada Tabel 8, pada Model-1 peubah DSR, NOD, dan RS menghasilkan nilai-p yang lebih besar dari α = 0.05. Hal ini menunjukkan bahwa peubah-peubah tersebut tidak berpengaruh nyata secara statistik, sedangkan peubahpeubah yang signifikan berpengaruh nyata pada taraf α = 0.05 adalah peubah GAI dan JC. Sedangkan untuk Model-2 peubah NOD dan RS menghasilkan nilai-p yang lebih besar dari α = 0.05. Hal ini menunjukkan bahwa peubahpeubah tersebut tidak berpengaruh nyata secara statistik, sedangkan peubah-peubah yang signifikan berpengaruh nyata pada taraf α = 0.05 adalah peubah DSR, GAI, dan JC. Tabel 8 P-Value dari uji Wald pada Model-1 dan Model-2 Peubah Model-1 Model-2 DSR 0.167 0.000 GAI 0.011 0.001 NOD 0.058 0.176 RS 0.265 0.121 JC 0.015 0.003 Untuk mengukur sejauh mana validitas pengujian parameter maka dapat dilakukan pengujian korelasi antar peubah, hal ini berguna dan menjadi salah satu indikator apakah antar peubah saling bebas atau tidak atau dengan kata lain telah terjadi multikolinearitas dalam model atau tidak.
GAI
-0.160 (0.000)
NOD
0.015 (0.637)
0.241 (0.000)
RS
0.052 (0.100)
0.136 (0.000)
0.388 (0.000)
JC
0.000 0.242 0.257 0.162 (0.988) (0.000) (0.000) (0.000) Keterangan : Nilai di dalam tanda kurung menunjukkan nilai-p Dari Tabel 9 dapat dilihat bahwa antar peubah NOD dengan RS ada korelasi. Akan tetapi hal ini tidak dapat dijadikan pegangan bahwa telah terjadi masalah dalam model sehingga pada Tabel 8 peubah NOD dan RS dari Model-2 tidak nyata. Kemudian dilakukan simulasi lagi dengan membuang peubah RS, akan tetapi hasilnya peubah NOD tetap saja tidak menjadi nyata. Hal ini diduga cukup untuk menyatakan bahwa tidak ada masalah dalam model sehingga hasil pengujian parameter dinyatakan valid. Besarnya nilai-nilai koefisien regresi (B), SE dan Rasio Odds dari Model-1 dan Model-2 disajikan berturut-turut pada Lampiran 2 dan Lampiran 3. Pembandingan Model Penilaian kebaikan model dalam mengepas data yang digunakan diperlukan untuk memastikan bahwa prediksi yang diperoleh dari model memiliki tingkat ketepatan yang tinggi. Menurut (Hosmer & Lemeshow 1989), model dengan peubah yang signifikan berdasarkan hasil pengujian belum tentu akan memberikan tingkat ketepatan yang tinggi. Sehingga digunakan teknik sederhana untuk menentukan tingkat kebaikan pendugaan dari model, salah satunya adalah tabel klasifikasi.
Tabel 9 Korelasi Antar Peubah Penjelas DSR GAI NOD RS Tabel 10 Klasifikasi metode regresi logistik antara Model-1 dan Model-2 Amatan Total (%) Tepat Dugaan Ya Tidak 115 47 162 71.0 Model-1 Ya 462 370 832 44.5 Tidak 577 417 994 Total 48.8 114 48 163 70.4 Model-2 Ya 348 484 833 58.2 Tidak 462 532 994 Total 60.2 Tabel ini merupakan tabel frekuensi dua kategori prediksinya. Model yang diinginkan arah antara nilai kategori aktual data dengan dari pengujian ini adalah model yang
memiliki rata-rata prediksi benar yang sangat tinggi. Karena dalam penelitian ini ada dua model, dimana Model-1 disusun dari data asli dan Model-2 dari data hasil diskretisasi maka model dengan rata-rata prediksi benar yang lebih tinggi adalah model yang lebih baik. Tabel 10 menunjukkan bahwa dengan menggunakan nilai cutoff sebesar 0.84 maka berdasarkan metode regresi logistik pada Model-1 diperoleh nilai sensitivity sebesar 71.0% dan nilai specificity sebesar 44.5% dengan nilai kesalahan positif dan kesalahan negatif masing-masing sebesar 80.1% dan 11.3%. Sedangkan nilai total correct classification adalah sebesar 48.8%. Untuk metode regresi logistik pada Model-2, nilai sensitivity dan specificity masing-masing sebesar 70.6% dan 58.1% dengan nilai total correct classification sebesar 60.1%, sedangkan nilai kesalahan positif sebesar 75.2% dan nilai kesalahan negatifnya sebesar 9.0%. Nilai total misclassification rate untuk Model-1 sebesar 51.2% sedangkan untuk Model-2 sebesar 39.9%. Selain Tabel Klasifikasi, teknik lain yang digunakan adalah kurva ROC. Kurva ROC merupakan teknik pengembangan dari tabel klasifikasi. Kurva ROC untuk pengkelasan yang sempurna akan memiliki satu titik di sudut kiri atas (0,1). Oleh karena itu, wilayah di bawah kurva ROC (c statistic) sering digunakan untuk mengevaluasi penampilan dari model prediksi untuk keseluruhan cutoff. Penggunaan c statistic yang diturunkan dari ROC curve sangat membantu kesulitan yang terjadi dalam penggunaan tabel klasifikasi dan memperjelas pengambilan kesimpulan terhadap kebaikan model.
Gambar 4. Kurva ROC Model 1
Gambar 5. Kurva ROC Model 2 Sebagaimana terlihat pada Gambar 4 dan 5, Model-2 lebih baik dari Model-1 karena kurva ROC pada Model-2 memiliki luas daerah di bawah kurva yang lebih besar dari Model-1 dilihat dari estimated area (c) pada Model-2 sebesar 0.703 sedangkan Model-1 sebesar 0.617. Setelah dianalisis melalui beberapa teknik yang ada maka dapat disimpulkan bahwa Model-2 lebih baik dari Model-1. Hal ini terjadi karena bentuk hubungan yang tidak linear antara peubah penjelas dengan logit. Sebagai contoh adalah plot antara NOD dengan logit pada Lampiran 1. Hubungan ini terkesan dipaksakan linier padahal hubungan yang sebenarnya tidak linier. Akibatnya performa Model-1 menjadi lebih buruk dari pada Model-2. Adapun Model-2 nampak lebih baik (hubungannya linier) karena data yang digunakan pada model ini adalah data hasil diskretisasi.
KESIMPULAN Perbandingan dua model yang dibentuk dari data yang berbeda, dimana Model-1 dibentuk dari data asli dan Model-2 dari data hasil diskretisasi, menghasilkan keluaran yang berbeda. Model dengan data asli menjadi buruk karena tidak dapat menghindari kehadiran data-data ekstrem, seperti data pencilan dan lain sebagainya. Kemudian model ini juga tidak dapat menghindari pelanggaran asumsi seperti kelinearan yang harus dipenuhi dalam hubungan antara logit dengan parameternya. Setelah melalui serangkaian pengujian dan pengepasan data menunjukkan bahwa keberadaan nilai ekstrem ataupun ketidaklinieran pada hubungan antara logit dengan parameternya menyebabkan buruknya model, sehingga upaya untuk melakukan diskretisasi data cukup memperbaiki kondisi model.
DAFTAR PUSTAKA Agresti A. 1990. Categorical Data Analysis. John Wiley & Sons, New York. Alfiansyah. 2007. Diskretisasi Peubah Credit Scoring Model menggunakan Metode Entropi dan Khi Kuadrat.[Skripsi]. Statistika FMIPA IPB. Hollowel. 2004. A Fair Isaac White Paper: Technology Guide To The Scorecard Module. http://www.fairisaac.com/. [22 Juni 2007] Han, J & Kember, M. 2001. Data Mining : Concepts And Techniques. Academic Press. San Diego Hosmer D.W. Jr. & Lemeshow S. 1989. Applied Logistic Regression. John Wiley & Sons. New York. Kantardzic M. 2003. Data Mining : Concepts, Models, Methods, And Algorithms New York : IEEE & Wiley Inter-Science. Mays E. 2003.The Role Of Credit Scores In Consumer Lending. Thomson, SouthWestern. Watherill G.B. 1986. Regression Analysis with Application. New York : Chapman & Hall
LAMPIRAN Lampiran 1
Grafik plot peubah penjelas dengan logitnya dari Model 1. plot DSR dengan logit
0 -0.2
0
5
10
15
20
25
30
35
40
45
logit
-0.4 -0.6
logit
-0.8 -1 -1.2 DSR
logit
plot GAI dengan logit 0 -0.10.00 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1
200,000,0 400,000,0 600,000,0 800,000,0 1,000,000 1,200,000 1,400,000 00.00 00.00 00.00 00.00 ,000.00 ,000.00 ,000.00
logit
GAI
plot NOD dengan logit 0 -0.1 0
1
2
3
4
5
6
7
8
9
-0.2 logit
-0.3 -0.4
logit
-0.5 -0.6 -0.7 -0.8 -0.9 NOD
Lampiran 2 Nilai B, SE dan Rasio Odds pada Model 1 DSR
B .014
S.E. .010
Rasio Odds 1.014
GAI
.000
.000
1.000
NOD
-.157
.083
.854
RS(1)
-.627
.460
.534
RS(2)
-.233
.198
.792
JC(1)
-3.574
1.565
.028
JC(2)
-2.471
1.098
.085
JC(3)
-1.325
.606
.266
JC(4)
-.752
.659
.471
.561
.511
1.753
Konstan
Lampiran 3 Nilai B, SE dan Rasio Odds pada Model 2 DSR
B .982
S.E. .192
Rasio Odds 2.670
GAI
.955
.276
2.599
NOD
.900
.666
2.459
RS
.798
.515
2.220
JC
.759
.254
2.136
1.619
.093
5.047
Konstan