IMPLEMENTASI TEKNIK DATA MINING DENGAN MENGGUNAKAN METODE DECISION TREE UNTUK PREDIKSI PENENTUAN RESIKO KREDIT Edo Wardo,M.Izman Herdiansyah, S.T.,M.M.,Ph.D., Andri,M.Cs. Jurusan Sistem Informasi, Fakultas Ilmu Komputer, Universitas Bina Darma Jalan Jenderal Ahmad Yani No.12 Palembang Email :
[email protected],
[email protected],
[email protected] Abstrak.Perkembangan sistem informasi dalam berbagai bidang usaha perbankan sangat diperlukan dalam rangka memberikan kenyamanan, keamanan, dan kemudahan dalam pengambilan keputusan khususnya pada bidang perkreditan. Tujuan paper ini adalah memberikan kontribusi untuk mempercepat pengambilan keputusan tersebut. Teknik data mining digunakan untuk memberikan model supaya pihak bank cepat dalam membuat keputusan kepada nasabah.Bank adalah salah satu lembaga keuangan yang berperan penting dalam perekonomian di Indonesia. Karena Kebutuhan masyarakat pedesaan yang semakin meningkat menyebabkan tidak sedikitnya yang melakukan kredit di PT. Bank Rakyat Indonesia (Persero) Tbk Pada penelitian ini digunakan teknik data mining decision tree dengan metode algoritma C4.5 untuk mengetahui apakah nasabah tergolong nasabah lancar ataupun tidak lancar. dan menghasilkan rule dari pohon keputusan yang diterapkan pada implementasi system data nasabah kredit, Model ini berhasil diterapkan sistem untuk mengetahui nasabah yang tergolong lancar ataupun tidak lancar. Kata kunci : Data Mining, Decision tree, Algoritme C4.5, Kredit, Classify. Abstract. Information system developing in various indispensable banking effort area in order to gives convenience, security, and amenity in decision making in particular on area about credit. To the effect paper this is give contribution to hasten that decision making. mining's data tech is utilized to give model so fast bank party in make decision to client. Bank is one of financial institution which get essential role in economics at Indonesian. Since rural society requirement that progressively increases to cause not a minimum one does credit at PT. Indonesian People bank (Persero) Plc On tech utilizes this research mining decision tree's data by methodics C4.5'S algorithm to know if smooth client rank client or even not smooth. and results rule of decision tree that is applied on system's implementation credit client data, This model is successful being applied system to know categorised client smooth or even not smooth. Keyword : Mining's data, Decision tree, C4.5'S algorithm, Credit, Classify
1
1.
Pendahuluan
Bank memiliki fungsi-fungsi keuangan yang ditawarkan pada nasabah, dalam menjalankan fungsi-fungsi tersebut bank memiliki risiko keuangan yang ada.Risiko-risiko tersebut bisa memberikan kerugian jika tidak dikelola dengan benar.Ada beberapa faktor yang mempengaruhi risiko keuangan sebuah bank seperti risiko dari internal dan eksternal perbankan. Dari segi eksternal bank faktor yang sangat kuat adalah nasabah.Apabila nasabah bank tersebut loyal dan mengikuti peraturan perbankan yang ada maka risiko bisa diminimalisir.Lain halnya jika terdapat nasabah yang tidak mengikuti aturan.Contohnya dalam hal perbankan terdapat program kredit pinjaman, nasabah yang memiliki kemampuan bisa membayar angsuran tepat waktu tapi ada nasabah yang telat membayar angsuran. Hal itu bisa terjadi karena banyak kemungkinan seperti banyaknya tanggungan, ada angsuran lain dan sebagainya. Dari segi internal, kelemahan bank dalam menganalisis sehingga salah dalam membuat keputusan pemberian kredit, kelemahan bank dalam pemberian pengawasan dan tindakan internal bank yang dengan sengaja tidak menerapkan praktek perbankan yang sehat .Hal-hal tersebut bisa merugikan pihak bank karena itu pihak bank harus bisa melakukan prediksi terhadap risiko kredit. Berdasarkan penjelasan diatas penulis penulis mengambil judul skripsi “Implementasi Teknik Data Mining Dengan Menggunakan Metode Decision Tree Untuk Prediksi Penentuan Risiko Kredit”.
2.
Metodelogi Penelitian
1.1
Lokasi dan Waktu Penelitian
Penelitian ini dilakukan pada Bank BRI Cabang Prabumulih Unit Betung yang beralamat di jalan Desa Betung-Karang Agung Kecamatan Abab Kabupaten Pali.Penulis melakukan penelitian di Bank
BRI Cabang Prabumulih Unit Betung dari bulan Oktober sampai dengan selesai. 1.2 Metode penelitian Metode penelitian yang digunakan adalah metode deskriptif. Menurut Nazir (2003:54), Metode Deskriptif adalah suatu metode dalam meneliti status sekelompok manusia, suatu objek, suatu set kondisi, suatu sistem pemikiran, ataupun suatu kelas suatu peristiwa pada masa sekarang. Sedangkan menurut Ety Rochaety (2007), metode deskriptif adalah Penelitian yang dilakukan untuk mengetahui nilai variabel mandiri, baik satu variabel atau lebih (independen) tanpa membuat perbandingan atau menghubungkan dengan variabel lain. Tujuan dari penelitian deskriptif ini adalah membuat deskripsi, gambaran ataupun lukisan secara sistematis, faktual dan akurat mengenai fakta-fakta, serta hubungan antar fenomena yang diselidiki. 1.3 Decision Tree Menurut Gorunescu (2011) decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon (tree) dimana node yang paling atas disebut root dan setiap node merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut dan daun mereprensentasikan kelas. Decision tree merupakan suatu pendekatan yang sangat popular dan praktis dalam machine learning untuk menyelesaikan permasalahan klasifikasi. Konsep decision tree pada dasarnya adalah mengubah data menjadi pohon keputusan dan aturan hirarki (aturan-aturan keputusan)yang pada perkembangan selanjutnya dapat disederhanakan dengan menghilangkan cabang-cabang atau aturanaturan yang tidak perlu. Sedangkan atributatribut yang menyertai data tersebut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Salah satu atribut merupakan atribut yang menyatakan data penyelesaian peritem data yang disebut dengan klasifikasi atau kelas.Atribut memiliki nilai-nilai yang
2
dinamakan dengan instance. Misalkan atribut pendapatan mempunyai instance berupa rendah, menengah,dan tinggi. Pohon keputusan terdiri dari node yang membentuk pohon berakar, yang berarti pohon tersebut diarahkan oleh node yang disebut akar (root) yang tidak memiliki masukan (input). Semua nodelain memiliki tepat satu masukan (input). Sebuah node tanpa keluaran (output) disebut internal node. Dan semua selain node disebut daun (leaf) atau seringkali dikenal sebagai decision node.Untuk setiap leaf, sebuah keputusan telah dibuat dan diaplikasikan ke semua observasi di dalam leaf.Leaf tersebut merupakan hasil akhir pengelompokan data dari pohon keputusan yang membagi ke dalam kelompok klasifikasi.
Didalam algoritma C4.5 terdapat rumus gain dan rumus entropy. Entropy merupakan ukuran kemurnian suatu atribut.Gain adalah pengurangan entropy yang disebabkan oleh partisi berdasarkan suatu atribut. Rumus Gain adalah:
Keterangan: S= himpunan data set k =banyaknya partisi S pj= probabilitas yang didapat dari Sum(Ya) dibagi Total Kasus Rumus Entropy adalah:
Keterangan: S = Himpunan Kasus A= Fitur N= Jumlah Partisi S pi= Proporsi dari Si terhadap S
2.
Algoritma C4.5
Algoritma C4.5 merupakan kelompok algoritma yang biasa digunakan pada decision tree. Algoritma ini mempunyai input berupa training samples dan samples.Training samples berupa data contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya akan digunakan sebagai parameter dalam melakukan klasifikasi data. Berikut adalah algoritma dasar dari C4.5: 1. Membangun decision tree dari training set. 2. Melakukan pruning untuk menyederhanakan tree. 3. Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rulesama dengan jumlah path yang mungkin didapat dari root sampai leaf node. (Kusrini, Emma, Taufiq Luthfi. 2009).
3.
Contoh Kasus Decision Tree Menggunakan Algoritma C4.5
Untuk mempermudah mengerti penggunaan algoritma C4.5 disediakan contoh kasus yang diambil data bank dan nasabah Bank Rakyat Indonesia Cabang Prabumulih Unit Betung. Pada kasus ini kita harus menyelesaikan kasus lancar atau tidaknya suatu kredit berdasarkan umur, pekerjaan, besar pinjaman dan jangka waktu. Tabel 4.2 Contoh Kasus Learning Dataset
3
Hitung Total kasus, jumlah kasus untuk keputusan Lancar, jumlah kasus untuk keputusan Tidak dan entropy serta gain dari semua kasus dan kasus yang dibagi berdasarkan atribut umur, pekerjaan, besar pinjaman dan jangka waktu. Gunakan rumus entropi, hitung Total sebagai berikut:
Penjelasan: Nilai 10 didapatkan dari banyaknya jumlah kasus, nilai 6 didapatkan dari banyaknya hasil Lancar dan 4 didapatkan dari banyaknya hasil Tidak. Hitung entropi setiap atribut: a) Atribut Umur
Penjelasan: Nilai 3 dibagian bawah didapat dari banyaknya jumlah 50, nilai 2 diatas didapat dari banyaknya jumlah Lancar untuk 50 dan nilai 1 didapat dari banyaknya jumlah Tidak untuk 50. Hal itu berlaku untuk perhitungan selanjutnya.
Hitung dengan rumus Gainuntuk setiap atribut: e) Atribut Umur=
f) Atribut Pekerjaan
g) Atribut Besar Pinjaman
h) Atribut Jangka Waktu
b) Atribut Pekerjaan
c) Atribut Besar Pinjaman
Penjelasan: Nilai 0.9709 didapatkan dari hitungan Entropy (Total), nilai 10 didapat dari banyaknya jumlah kasus, nilai 0.7218 didapat dari Entropy (36), nilai 0.918 didapat dari Entropy(24), nilai 0 didapat dari Entropy(60) dan nilai 5 didapat dari jumlah 36, nilai 3 didapat dari jumlah 24 dan nilai 2 didapat dari jumlah 60. Daftar nilai bisa dilihat di tabel bawah. Tabel 4.3 Contoh Kasus Hasil Perhitungan Entropy dan Gain
d) Atribut Jangka Waktu 4
Pada kolom gain terdapat nilai 0.2346 yang terletak pada baris atribut jangka waktu dan itulah nilai tertinggi sehingga kelembaban yang dijadikan root node.
Gambar 4.5 Contoh Kasus Node 1 Didapatlah atribut jangka waktu menjadi node akar (root node).Kemudian lakukan lagi perhitungan diatas sampai semua kasus masuk dalam kelas hasil dan sampai didapat hasil akhir node.
Setelah dilakukan proses transpormasi data menjadi yang sesuai untuk penerapan data mining dengan teknik classify maka tahap selanjutnya adalah dengn melakukan penggelompokan data nasabah. Adapun tahap pengelompokkan ini, langkah awal yang dilakukan yaitu menentukan jumlah lancer dan tidak lancer yang mana data nasabah berdasarkan biodata nasabah kredit. Setelah itu maka langka selanjutnya yaitu mengalokasikan data yang di ambil dari data nasabah ke masing-masing data nasabah kemudian akan membentuk pemodel data jumlah nasabah lancer dan tidak lancar. Dari rangkayan proses sebelum terjadinya suatu penggelompokan, akan dilakukan suatu proses ketahap selanjutnya.
Tabel 4.4 Hasil Akhir Contoh Kasus
Gambar 5.1 data nasabah
5.1
Gambar 4.6 Contoh Kasus Hasil Akhir Decision Tree
4.
Proses Data menggunakan Weka.
Mining
Setelah penjelasan proses penerapan data mining dengan teknik Classify secara teorititis pada penjelasan diatas,maka selanjutnya akan dijelaskan proses data mining secara aplikatif dimana proses data mining yang akan dilakukan mengguna prangkat lunak data mining yaitu Weka V3.6.9. Seperti yang telah dijelaskan pada bab sebelumnya weka adalah sebuah aplikasi open source, weka memiliki 4 tools menu yang bisa digunakan, antara lain Explorer, Experimenter, Knowledgeflow, dan Simple CLI, Untuk penelitian ini penulis menggunakan menu Explorer
Penerapan metode classify dengan algoritma C4.5.
5
pilih data yang telah disimpan dalam format Csv.
Gambar 5.2 aplikasi weka Fungsi 4 tools menu diatas antara lain : 1. Explorer,digunakan untuk menggalih lebih jauh data dengan aplikasi weka 2. Experimenter, berguna untuk melakukan percobaan dengan pengujian statistic skema belajar 3. KnowledgeFlow, digunakan untuk pengetahuan pendukung 4. Simple CLI, antar muka dengan tampilan command line yang memungkinkan secara langsung mengeksekusi perintah weka untuk system operasi yang tidak menyediakan secara langsung. Setelah mengenal 4 menu tersebut, maka kemudian untuk melakukan proses data mining menu yang dipilih adalah explorer, setelah itu maka akan ada beberapa tampilan sub menu untuk dipilih sesuai teknik yang diperlukan dala data mining, sebelumnya yang perlu diketahui bahwa kesuksesan dalam implementasi data mining terletak pada factor pengetahuan manusia sebagai implementornya, pengumpulan data yang berkualitas, dan menguasai permodelan , serta penggunaan algoritma yang tepat sangat menentukan keakuratan hasil akhir yaitu sebuah informasi yang sesuai dengan apa yang diharapkan.dan factor sebelum akan melakukan implementasi data mining mengunakan aplikasi weka, factor tersebut perlu diperhatikan agar hasil akhirnya sesuai dengan apa yang diharapkan. Dalam rakaian proses data mining menggunakan weka ini data yang digunakan adalah data yang telah ditransformasi kedalam format Microsoft Excel 2007(.CSV) Baru selanjutnya proses data mining dilakukan dengan mengunakan menu ExplorerOpenFile pada Weka, lalu
Gambar 5.3 menu explorer pada weka Jika langkah awal tersebut telah dilakukan sesuai dengan petunjuk, maka akan mendapatkan hasil sebagai berikut :
Gambar 5.4. Tampilan awal proses Dari tampilan weka tersebut, maka dihasilkan beberapa attribute yang tampil dalam menu tersebut, antara lain: UMUR: Merupakan usia kepala keluarga PEKERJAAN: Merupakan jenis pekerjaan orang yang meminjam uang. BESAR PINJAMAN: Merupakan besarnya pinjaman uang nasabah bank JANGKA WAKTU: Merupakan jarak waktu tempo pinjaman uang. KETERANGAN : Merupakan keterangan Classify nasabah peminjaman uang pada bank. Didalam menu preprocess ada yang namanya filter klik choose setelah dipilih klik filter dipilih lagi unsurpervised dan klik nama atribut pilih NominalToBinary maka akan muncul tampilan seperti gambar dibawah ini.
6
Gambar 5.5. Tampilan pemilihan filter Setelah melakukan pemilihan filter untuk melakukan klasifikasi, dan sudah menemukan metode yang paling cocok, tentu kita akan menggunakan hasilnya untuk memprediksi hasil klasifikasi dari sekumpulan data. Di sini filter yang dipilih adalah NominalToBinary.
pengelompokkan data sebagai system partisi. Setelah melakukan langkah penentuan teknik serta algoritma yang dibutuhkan, maka kemudian setelah itu akan tampil beberapa pilihan beberapa sub menu use training set, supplied test set, cross-validation, percentagesplit Dan dalam penelitian kali ini akan menggunakan salah satu option set saja yaitu use training set karena pada dasarnya semua option tersebut akan menghasilkan hasil yang sama maka akan digunakan satu saja.
Gambar 5.8 Classify mode Gambar 5.6. Tampilan setelah pemilihan filter Untuk menerapkan metode classify dan algoritma J48 merupakan implementasi dari C4.5 pada data yang telah relevan maka dapat dilakukan dengan menggunakan menu Classify J48.
Berikut fungsi serta penjelasan sub menu classify hanya menggunakan use training set ini saja. 1. Use training set, Pengetesan dilakukan dengan menggunakan data training itu sendiri. . selanjutnya langsung klik button start untuk melihat hasil classify menggunakan algoritma j48. Lihat hasil proses classify pada gambar 5.9 dibawah ini
Gambar 5.7.menu pemilihan algoritma
Pada gambar 5.7 algoritma yang digunakan adalah algoritma J48 yang merupakan implementasi algoritma C4.5 salah satu algoritma penganalisisan data untuk data atau metode data mining yang melakukan proses pemodelan tanpa supersive (Unspersived) dan merupakan salah satu metode yang melakukan
Gambar 5.9 proses classify proses classify data yang memiliki 5 antribut yaitu, umur,pekerjaan, besar pinjaman, jangka waktu dan keterangan. Dari 5 atribut tersebut mempunyai jumlah record atau full data berjumlah 97 dan dibagi menjadi dua cluster 0 yang berjumlah 57 dan cluster 1 berjumlah 40 nasabah .
7
untuk mengetahu gambar pohon keputusanya klik kana pada result list lalu pilih visualize tree.
Gambar 5.10 proses untuk melihat hasil tree hasil akhir yang telah diproses data mining, Dari proses prediksi yang dilakukan pada data tes set, maka didapatkan hasil pola prediksi classify terdapat dua cluster yaitu lancar dan tidak lancar menggunakan algoritma C4.5. Pohon keputusan yang didapat dari proses classify terhadap data nasabah 2011-2014, Maka akan muncul pohon keputusan decision tree sebagai brikut pada gambar 5.11
dengan 36 bulan dan besar pinjaman kurang dari atau sama dengan 60.000.000 juta maka terdapat 59 orang yang membayar kredit dengan lancar,dan apabila besar pinjaman lebih dari 60.000.000 juta maka terdapat 6 orang yang membayar kredit dengan tidak lancar. Jika jangka waktu lebih dari 36 bulan dengan besar pinjaman kurang dari atau sama dengan 80.000.000 juta 10 orang yang membayar kredit dengan lancar, dan jika besar pinjaman lebih dari 80.000.000 juta dengan umur kurang dari atau sama dengan 35 tahun maka terdapat 2 orang yang membayar kredit tidak lancar. Dan jika besar pinjaman lebih dari 80.000.000 juta dengan umur lebih dari 35 tahun maka terdapat 2 orang yang membayar kredit dengan lancar. 4. Penutup 6.1
Gambar 5.11. Hasil Classify Data Nasabah Menggunakan Tree Gambar diatas menjelaskan hasil dari classify data nasabah yang lancar atau tidak lancar. Dapat dilihat dari gambar diatas jika jangka waktu kurang dari atau sama dengan 12 bulan dan besar pinjaman lebih dari 25.000.000 juta maka terdapat 13 orang yang melakukan kredit tidak lancar, jika pinajaman kurang dari atau sama dengan 25000000 dan umur kurang dari atau sama dengan 42 tahun maka terdapat 3 orang yang melakukan pembayaran tidak lancar, dan umur lebih dari 42 tahun maka terdapat 2 orang yang melakukan pembayaran kredit lancar. Jika jangka waktu lebih dari 12 bulan atau jangka waktu kurang dari atau sama
Simpulan Berdasarkan dari penelitian yang sudah dilakukan dan telah diuraikan dalam penerapan data mining pada Bank Rakyaat Indonesia (BRI) Desa Betung Abab Kab. PALI untuk jumlah nasabah yang meminjam uang, maka penulisan dapat menarik beberapa kesimpulan sebagai berikut : 1. Penerapan data mining dengan mengunakan metode decision tree dan algorima J48 yang telah dilakukan akan menghasilkan sebuah informasi mengenai pemodelan pohon keputusan decision tree nasabah yang meminjam uang untuk mengetahui lancar atau tidak lancar, mempunyai jumlah record atau full data berjumlah 97 dan dibagi menjadi dua classify yaitu classify 0 yang berjumlah 57 nasabah dan classify 1 berjumlah 40 nasabah 2. Informasi mengenai data nasabah kecamatan Betung Abab Kab. PALI yang dihasilkan dari penerapan data mining yang telah dilakukan. 3. Semakin kecil atribut data nasabah yang ditentukan maka semakin sedikit pila pola/aturan yang dat dihasikan dan
8
waktu yang diperlukan relative lebih sedikit. 4. Perhitungan yang telah dilakukan secara teoritis dan aplikasih menghasilkan nilai data classify yang telah ditentukan. 5. Waktu yang diperlukan dalam pemprosesan tergantung pada spesifikasi computer yang digunakan dalam data mining, jumlah data yang diolah yang terlibat sehingga perumusan yang tepat untuk perhitungan waktu belum dapat ditentukan.
Referensi [1] Gorunescu, F.2011. Data Mining Concept Model and Techniques. Berlin:Springer. ISBN 9783-642-197208 [2] Kusrini, Emma Taufiq Luthfi. 2009. Algoritma Data Mining.Yokyakarta. Penerbit Andi [3] Nazir. M 2003,Metode Penelitian, Salemba Empat, Jakarta. [4] Rochaety E,dkk. 2007. Metodologi Penelitian Bisnis: Dengan Aplikasi SPSS, Edisi Pertama. Penerbit Mitra Wacana Media : Jakarta.
9