PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA C4.5 UNTUK MEMPREDIKSI KELANCARAN PEMBAYARAN NASABAH (Studi Kasus: BMT Al Ikhwan)
NASKAH PUBLIKASI
diajukan oleh Tria Septia Depi 11.11.5403
kepada JURUSAN TEKNIK INFORMATIKA SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA YOGYAKARTA 2014
APPLICATION OF C4.5 ALGORITHM USING DATA MINING TO PREDICT SMOOTHNESS CUSTOMER PAYMENT (CASE STUDY: BMT AL IKHWAN)
PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA C4.5 UNTUK MEMPREDIKSI KELANCARAN PEMBAYARAN NASABAH (Studi Kasus: BMT Al Ikhwan)
Tria Septia Depi Kusrini Jurusan Teknik Informatika STMIK AMIKOM YOGYAKARTA
ABSTRACT In the field of business finance credit unions exist in BMT Al Ikhwan had experienced problems in determining the prospective new customers, especially in their transactions when the customer wants to borrow. Issues that arise include the customer can not afford to pay anymore money that has been borrowed earlier. To the agency and client side experience disappointment, consequently comfort perceived by the customer and the institution itself disrupted. By designing this application because it would be seen from a number of factors that support the decision of one of the types of work and the amount of the loan to strengthen the customer is able to smooth the process of loan payment or not. The problems that occur are dealt with a case that is capable of searching for data reinforce the results of the decision and the expected decision technique C4.5 algorithm generated will be accurate. The results of this study will produce an output that is if the prospective customer the customer meets the criteria of BMT Al-Ikhwan it will be recommended to loan capital, however if it does not meet the required standards, the institution prospective customer will not be recommended in lending capital. Keywords: Data Mining, Job Type, Loan Amount, the C4.5 algorithm, Cooperative
1
2
1.
Pendahuluan Perkembangan ekonomi saat ini sangat pesat, itu terjadi karena kebutuhan dari
masyarakat sangat meningkat. Dengan demikian akibat dari perkembangan yang pesat tersebut bukan tidak mungkin dapat menimbulkan permasalahan ekonomi dari sebagian masyarakat dalam memanajemen keuangan dengan baik. BMT Al Ikhwan merupakan salah satu contoh Lembaga Keuangan Mikro (LKM) yang mampu mengatasi permasalahan perekonomian dari masyarakat. Terbukti disetiap periode jumlah calon nasabah mengalami peningkatan. Untuk itu dengan peningkatan tersebut pihak lembaga terkait harus meningkatkan juga kualitas dari sistem yang mengelola setiap transakssi yang dilakukan. Oleh karena itu dibutuhkan sebuah sistem yang dapat membantu memanajemen para nasabahnya, namun pihak lembaga terkait mengalami kesulitan dalam memprediksi kelancaran pembayaran pinjaman nasabah. Sehingga dalam mengatur nasabah dalam peminjaman tersebut masih dilakukan secara manual dengan cara mensurvey tempat tinggal calon nasabah. Dengan itu aplikasi ini akan membantu pihak lembaga terkait agar dapat memprediksi kelancaran pembayaran pinjaman yang dilakukan oleh nasabah tersebut, jadi pihak lembaga terkait dapat mengatasi masalah sedini mungkin sehingga tidak terjadi ketidak puasan dari nasabah maupun pihak lembaga. Dalam aplikasi ini akan mengimplementasikan Data Minig menggunakan Algoritma C4.5. Menurut Han dan Kanber (2006:6) menjelaskan bahwa “Data Mining” merupakan pemilihan atau “Menggali” pengetahuan dari jumlah data yang banyak. Data Mining menurut David Hand, Heikki Mannila dan Padhreic Smyth adalah analisa terhadap data (biasanya data yang berukuran besar) untuk menemukan hubungan yang jelas serta menyimpulkannya yang belum diketahui sebelumnya dengan cara terkini dipahami dan berguna bagi pemilik data tersebut (Larose, 2006). Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan, dengan metode pohon keputusan kita dapat mengubah fakta yang sangat besar menjadi pohon keputusan yang mempresentasikan aturan. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target (Kusrini dan Emha Taufiq Luthfi, 2009).
3
2.
Landasan Teori
2.1
Pengertian Data Mining Data Mining adalah suatu istilah yang digunakan untuk menguraikan penemuan
pengetahuan didalam database. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database besar (Turban, dkk.2005). Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pola seperti teknik statistik dan matematika (Larose, 2005). 2.2
Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat
dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang mempresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dan diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. (Kusrini, 2009) Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. (Kusrini, 2009) 2.3
Desain Model Aplikasi Desain model dari aplikasi terdiri dari physical model dan logical model. Physical
model dapat digambarkan dengan bagan alir sistem. Logical model dalam system informasi lebih menjelaskan kepada pengguna bagaimana nantinya fungsi-fungsi di system informasi secara logika akan bekerja. Logical model dapat digambarkan dengan DFD (Data Flow Diagram) dan kamus data (Data Dictionary). 2.4
Algoritma C4.5 Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah
sebagai berikut.
4
a. Pilih atribut sebagai akar. b. Buat cabang untuk tiap-tiap nilai. c.
Bagi kasus dalam cabang.
d. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atributatribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam persamaan 1 berikut.
Keterangan: S
: himpunan kasus
A : atribut N
: jumlah patrisi atribut A
|Si|
: jumlah kasus pada partisi ke-i
|S|
: jumlah kasus dalam S
Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan 2 berikut.
Keterangan: S
: himpunan kasus
A
: fitur
n
: jumlah partisi S
pi
:proporsi
dari
Si
terhadap
S.
5
3. 3.1
Analisis dan Perancangan Sistem Analisis Sistem Analisis sistem merupakan suatu tahapan mendeskripsikan data-data yang akan
digunakan sebagai dasar dari suatu perangkat lunak, fungsi dan kinerja, menunjukkan interface perangkat lunak, membangun batasan yang harus dipenuhi oleh suatu perangkat lunak. Sedangkan Sistem adalah kumpulan elemen yang saling berhubungan dan berinteraksi dalam satu kesatuan untuk menjalankan suatu proses pencapaian suatu tujuan utama (Sutarman, 2012:13). Pengertian ini merupakan pendekatan sistem yang lebih menekankan pada elemen atau komponennya. Analisis sistem yang di paparkan dalam pembahasan ini merupakan gambaran secara keseluruhan kendala-kendala yang ada dalam aplikasi data mining yang berbasis algoritma C4.5 pada sistem BMT Al Ikhwan. Dengan adanya sistem yang masih bersifat manual mengakibatkan proses sistem yang terjadi kurang efektif dan efisien 3.2
Analisis Data Data dari sistem adalah berupa atribut yang dimiliki oleh nasabah, nilai
atributnya,, dan nilai kemungkinannya. Data yang dimaksud adalah data yang mempunyai minimal dua kolom atribut. Satu kolom sebagai kolom atribut masukkan dan satu kolom sebagai kolom atribut target. Dari setiap kolom terdapat nilai-nilai yang akan dipergunakan untuk kalkulasi, dan nilai dari setiap atribut harus bersifat diskret. Beberapa komponen variabel yang digunakan yaitu: 1. Tahun Variabel tahun berisi seluruh kemungkinan tahun dari setiap nasabah. Variabel yang sudah ditentukan pada program berdasarkan hasil pengelompokan survei yaitu tahun 2012. 2. Jenis Kelamin Variabel ini berisi data jenis kelamin dari nasabah yang digunkan untuk pembentukan keputusan. Pengelompokkan yang ada berdasarkan ketentuan oleh program yang dibuat yaitu L (laki-laki) dan P (perempuan). 3. Jumlah Pinjaman Variabel ini berisi data jumlah pinjaman yang di ajukan oleh nasabah yang telah disetujui dari pihak BMT Al Ikhwan. Minimal jumlah peminjaman yaitu Rp. 500.000
sampai
Rp.16.000.000
Rp.5000.000,
sampai
Rp.6000.000
Rp.50.000.000
dan
sampai
Rp.15.000.000,
Rp.51.000.000
sampai
Rp.150.000.000. 4. Jenis
Pekerjaa
6
5. Variabel ini berisikan jenis pekerjaan dari nasabah. Pengelompokkan yang ada berdasarkan Jasa, Pedagang dan Produsen. 6. Jenis akad Variabel ini berisi kesepakatan antara nasabah dan pihak BMT untuk memenuhi hak dan kewajiban dari masing masing pihak, atau dengan kata lain jenis akad ini merupakan perjanjian lama angsuran dari pihak nasabah dan pihak BMT. Pengelompokkan yang ditentukan adalah Murobahah, Ijaroh, Al Hiwalah. 7. Karakter Variabel ini berisikan jenis karakter dari nasabah. Pengelompokkan yang ada terdiri dari dua karekter yaitu bagus dan bermasalah. 8. Keputusan Variabel ini merupakan data yang berfungsi untuk menentukan hasil keputusan. Dalam pengelompokan data sudah ditentukan secara tetap agar tidak terjadi kesalahan dalam perhitungan proses program. Data keputusan hanya memiliki dua buah nilai yaitu “YA” dan “TIDAK”. 3.3
Analisis Model Kebutuhan masukan dari sistem adalah berupa atribut yang dimiliki oleh sebuah
variabel, nilai atribut, dan nilai kemungkinannya yang dibuat kedalam sebuah data tabel. Data tabel yang dimaksud adalah data yang mempunyai minimal dua kolom atribut. Satu kolom atribut masukan dan satu kolom sebagai atribut target. Dari setiap kolom terdapat nilai-nilai yang akan dipergunakan untuk kalkulasi, dan nilai dari setiap atribut harus bersiat rahasisa.Berikut adalah data untuk menentukan kelancaran pembayaran atau tidaknya dari suatu nasabah. Di bawah ini adalah cara perhitungan menggunakan algoritma C4.5, perhitungan ini dilakukan dari data yang terdapat dalam skripsi.
7
Tabel 1 Perhitungan Node 1
Jml Kasus (S) 15
node 1
Yes
No
(S1)
(S2) 9
Entropy 6
Gain
0.970950594 0
Tahun
2012
15
9
6
0.970950594 0.003396422
Jk L
3
2
1
0.918295834
P
12
7
5
0.979868757 0.603632261
Karakter
Bagus
9
9
0
0
Bermasalah
6
2
4
0.918295834 0.087943095
Pekerjaan Pedagang
8
6
2
0.811278124
Jasa
4 3
2
2
1
2
1 0.918295834
Produksi Jml Pinjaman
0.087943095 500.0005.000.000 16.000.00060.000.000 6.000.00015.000.000 61.000.000160.000.000
8
6
2
0.811278124
3
1
2
0.918295834
2
1
1
1
2
1
1
1
Jenis Akad
0.019973094 Murobahah Ijaroh Al Hiwalah
9 2 4
6
3
1
1
2
2
0.918295834 1 1
8
Dari hasil perhitungan yang dilakukan dari tahap ke tahap maka dapat dihasilkan pohon keputusan akhir seperti dibawah ini.
Karakter
Bagus
Bermasalah 1.1 Jumlah Pinjaman
Ya
6jt sd 15jt 16jt sd 60jt 61jt sd 160jt
5rts sd 5jt 1.1.1 Jenis Pekerjaan Pedagang Jasa
Ya
Tidak
Tidak
Ya
Produksi
Tidak
Ya
Gambar 3 Pohon Keputusan Akhir
4.
Implementasi dan Pembahasan Tahap implementasi sistem merupakan tahap meletakkan sistem agar siap
dioperasikan setelah melakukan analisis dan perancangan secara rinci dengan menggunakan teknologi yang dipilih. Tahap ini termasuk kegiatan menulis kode program. Implementasi juga merupakan penerapan dari elemen-elemen yang telah didalam bentuk pemrograman untuk menghasilkan suatu tujuan berdasarkan kebutuhan pembuatan sistem. Tahapan implementasi dilakukan ketika sistem selesai dan telah melalui tahap pengujian program. Sehingga sistem tersebut siap untuk digunakan. Pengujian sistem dilakukan untuk mengetahui apakah program telah bebas dari kesalahan-kesalahan sebelum diterapkan. Kesalahan program yang mungkin terjadi adalah kesalahan (syntax). Yakni kesalahan pada penulis source code program dan kesalahan pada saat
9
program sedang berjalan (runtime), yaitu kesalahan pada saat execubale program dijalankan. 4.1
Hasil dari Pengetesan Program Beberapa hasil dari pengetesan program yang dihasilkan yaitu sebagai berikut: 1. Data Nasabah Data nasabah adalah data kasus dari nasabah yang akan dilakukan perhitungan menggunakan teknik Algoritma C4.5 dan akan membentuk suatu pohon keputusan. Dibawah ini adalah hasil uji dari sistem saat data kasus dimasukkan dalam sistem.
Gambar 3.1 Data Kasus Nasabah 2. Pohon Keputusan Hasil uji dari pohon keputusan dapat berjalan dengan baik serta mampu menampilkan hasilnya. Pohon keputusan ini didapat setelah data kasus sebelumnya selesai dilakukan perhitungan menggunakan teknik algoritma c4.5. Dibawah ini adalah tampilan pohon keputusan dari sistem.
10
Gambar 3.2 Pohon Keputusan
3. Testing Form Testing ini di gunakan untuk menguji ketika calon nasabah akan melakukan transaksi dan melihat apakah calon nasabah tersebut berhak di beri rekomendasi atau tidak. Selain itu jika calon nasabah tersebut di rekomendasikan maka datanya tersimpan otomatis pada database dan jika tidak direkomendasikan maka data tidak tersimpan ke database. Proses dari form ini dilihat dari rule pohon keputusan yang telah terbentuk pada menu C45. Ketika dilakukan pengetesan, program ini dapat berjalan dengan baik seperti yang terlihat pada gambar dibawah ini.
Gambar 3.3 Hasil Uji Testing
11
5.
Penutup
5.1
Kesimpulan Berdasarkan hasil penelitian dan pembahasan yang telah dilakukan dapat
diambil kesimpulan, antara lain: 1. Sistem mampu melakukan prediksi calon nasabah yang akan melakukan transaksi. Prediksi yang dilakukan berdasarkan rule pohon keputusan yang terbentuk sebelumnya. 2. Sistem mampu mengimplementasikan pohon keputusan menggunakan algoritma C4.5 dengan cara menginputkan data kasus yang akan dilakukan prediksi. 3. Perancangan pohon keputusan memudahkan dalam proses penalaran penentu pola keputusan yang terbentuk. 4. Data yang dapat diambil hanya file yang berekstensi *.csv (Comma Delimited). 5. Sistem ini dapat mengelompokkan nasabah yang ingin di tampilkan berdasarkan nomor identitas dan karakter. 6. Perhitungan yang di hasilkan oleh sistem sama dengan perhitungan yang dilakukan manual. 7. Sistem dapat melakukan testing atau kelayakan calon nasabah apakah di rekomendasikan untuk menjadi anggota atau tidak. Form testing mengambil acuan dari rule keputusan yang telah dibentuk sebelumnya. 8. Pada program yang telah dibuat, semua komponen dapat berjalan dengan baik dan sesuai dengan hasil output yang diinginkan. 5.2
Saran Mengingat keterbatasan yang dimiliki oleh penulis, baik pengetahuan, waktu,
maupun pemikiran, maka penulis dapat memberikan beberapa gambaran sebagai saran yang dapat dipakai sebagai acuan dalam pengembangan aplikasi ini di masa yang akan datang, antara lain: 1. Selama melakukan penelitian terdapat variabel yang dibutuhkan namun tidak dimiliki oleh bagian administrasi dan keuangan. Oleh karena itu saran untuk BMT Al Ikhwan adalah agar menambahkan variabel yang di butuhkan misalkan penambahan variabel angsuran. (perlu penyesuaian lagi). 2. Menyempurnakan segala kekurangan dari program yang belum diketahui oleh penulis. Seperti menambah variabel-variabel data dari sosial dan psikologi calon nasabah yang analisanya dapat dilakukan pada jenjang lebih lanjut. 3. Untuk pengembangan sistem sebaiknya tampilan di buat lebih menarik dari sistem
ini
karena
tampilannya
masih
dinilai
sederhana.
12
Daftar Pustaka BMT Al Ikhwan. http://bmt-alikhwan.com/. Diakses tanggal 20 Mei 2014. Han, J. dan Kamber, M. (2006), Data mining: Concepts and techniques (2nd
ed,),Elsevier
Inc.
diakses
dari
http://www.cs.uiuc.edu/homes/hanj/bk2/toc.pdf#page=1&zoom=auto,0,843 pada tanggal 15 November 2013
Jefri. (2013). Implementasi Algoritma C4.5 Dalam Aplikasi Untuk Memprediksi
Jumlah
Mahasiswa Yang Mengulang Mata Kuliah. Yogyakarta : STMIK AMIKOM.
Kusrini dan Luthfy, E.T. 2009. Algoritma Data Mining. Yogyakarta: Andi.