KNIT-2 Nusa Mandiri
ISBN: 978-602-72850-1-9
PENERAPAN PARTICLE SWARM OPTIMIZATION UNTUK SELEKSI ATIRBUT PADA METODE DECISION TREE C 4.5 UNTUK PERSETUJUAN Andika Dwi Hadiri Teknik Informatika, STMIK ERESHA Jl. H Samali No 51, Kalibata Jakarta Selatan
[email protected]
ABSTRACT: The credit freeze is one of the credit risk faced by the financial and banking industry. Improved accuracy of credit ratings can be done by doing the selection of attributes, because the selection of attributes reduce the dimensionality of the data so that operation of the data mining algorithms can be run more effectively and more quickly. In this study will be used method Decision Tree algorithm C4.5 and will be selected attributes using particle swarm optimization to determine credit ratings. With this decision method, Credit Approval process is expected to be more accurate, so that errors caused in decision making is minimized. Keywords: Credit Assessment, Selection Attributes, algoritma Decision Tree C 4.5, particle swarm optimization PENDAHULUAN Latar Belakang Masalah Penilaian kredit merupakan topik yang penting dalam pengelolaan resiko keuangan. Krisis keuangan global baru-baru ini memaksa pelaku industri keuangan dan perbankan untuk lebih berhati-hati dalam menetapkan kebijakan. Laporan bank Indonesia menunjukkan bahwa pada akhir tahun 2011 tercatat kredit macet senilai Rp. 33.401.000.000.000 naik hingga 17,64% dibandingkan dengan th 2010 sebesar Rp. 28.396.000.000.000 (Indonesia, Bank;, 2012). Hal tersebut menunjukkan bahwa tingkat kredit macet mengalami kenaikan yang tajam. Kredit macet merupakan salah satu resiko kredit yang dihadapi oleh pelaku industri keuangan dan perbankan. Kredit macet dapat dihindari dengan cara melakukan analisa kredit yang akurat terhadap calon debitur. Keakuratan penilaian kredit sangat penting untuk profitabilitas lembaga keuangan. Proses pengevaluasian permintaan kredit (misalnya kredit untuk sebuah perorangan), seorang analisis kredit harus meneliti dan melakukan penilaian melalui suatu prosedur terhadap kondisi calon debitur yang diperkirakan dapat mempengaruhi kemampuan mereka dalam memenuhi kewajiban kepada lembaga keuangan.Salah satu tahapan dalam pengevaluasian dan penilaian tersebut adalah dengan melakukan pengklasifikasian nasabah berdasarkan kriteria-kriteria tertentu yang telah menjadi standar di setiap Bank. Salah satu metoda yang dapat digunakan untuk melakukan pengklasifikasian nasabah tersebut adalah dengan melakukan analisis Data Mining. Perumusan Masalah Berdasarkan latar belakang di atas, dapat dirumuskan menjadi masalah-masalah sebagai berikut :
1.
Seberapa besar peningkatan akurasi Decision Tree apabila Particle swarm optimization diterapkan untuk seleksi atribut yang tepat dalam penentuan penilaian kredit? Tujuan Penelitian Tujuan dari penelitian ini adalah : 1. Mengetahui faktor-faktor yang diperlukan dalam melakukan pengklasifikasian nasabah sebagai dasar pemberian kredit. 2. Tujuan dari penelitian ini adalah menerapkan Particle Swarm Optimization (PSO) untuk melakukan seleksi atribut pada Decision Tree C 4.5 untuk meningkatkan akurasi penentuan penilaian kredit. BAHAN DAN METODE Data Mining Data mining atau Knowledge Discovery in Databases (KDD) adalah pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensi bermanfaat. Proses ini meliputi sejumlah pendekatan teknis yang berbeda, seperti clustering, data summarization, learning classification rules. Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Proses atau tahapan dalam data mining dapat dibagi menjadi beberapa tahap, yaitu pembersihan data, intergrasi data, transformasi data, aplikasi teknik data mining, evaluasi pola yang ditemukan, presentasi pengetahuan . Credit Scoring Credit scoring ini merupakan kumpulan data nasabah yang diambil dari data aplikasi pinjaman nasabah. credit scoring mengelompokkan para
97
calon debitur menjadi dua jenis yaitu debitur baik dan debitur buruk. Metode Filter untuk Seleksi Atribut Seleksi atribut (juga dikenal sebagai subset seleksi) adalah suatu proses yang digunakan dalam machine learning, dimana atribut dari subset yang tersedia dari data yang dipilih untuk penerapan algoritma learning. Algoritma C 4.5 (Decision Tree) Algoritma C4.5 merupakan salah satu algoritma yang telah secara luas digunakan, khususnya di area machine learning yang memiliki beberapa perbaikan dari algoritma sebelumnya yaitu ID3. Algoritma C4.5 dan ID3 model yang tak terpisahkan, karena membangun sebuah pohon keputusan, dibutuhkan algoritma C4.5 Diakhir tahun 1980- an, J. Ross Quinlan seorang peneliti di bidang mesin pembelajaran mengembangkan sebuah model pohon keputusan yang dinamakan ID3. Walaupun sebenarnya proyek ini telah dibuat sebelumnya oleh E.B. Hunt, J. Marin, dan P.T. Stone. Kemudian Quinlan membuat algoritma dari pengembangan ID3 yang dinamakan C4.5 yang berbasis supervised learning. Tabel 1 Learning Dataset Panas
Kelemba ban Tinggi
Berang in Salah
Tidak
Cerah
Panas
Tinggi
Benar
Tidak
3
Berawan
Panas
Tinggi
Salah
Ya
4
Hujan
Sejuk
Tinggi
Salah
Ya
5
Hujan
Dingin
Normal
Salah
Ya
6
Hujan
Dingin
Normal
Benar
Ya
7
Berawan
Dingin
Normal
Benar
Ya
8
Cerah
Sejuk
Tinggi
Salah
Tidak
No
Cuaca
Suhu
1
Cerah
2
Main
9
Cerah
Dingin
Normal
Salah
Ya
10
Hujan
Sejuk
Normal
Salah
Ya
11
Cerah
Sejuk
Normal
Benar
Ya
12
Berawan
Sejuk
Tinggi
Benar
Ya
13
Berawan
Panas
Normal
Salah
Ya
14
Hujan
Sejuk
Tinggi
Benar
Tidak
Sumber: Hasil Penelitian (2016) Kemudian hitung entropi dengan rumus sebagai berikut :
Di mana : S : ruang (data) sampel yang digunakan untuk pelatihan : jumlah yang bersolusi positif atau mendukung pada data sampel untuk
98
kriteria tertentu . : jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu. Select Atrributes Select attributes adalah operator untuk memilih atribut dari dataset yang akan digunakan atau atribut yang tidak digunakan, ketika semua atribut pada dataset tidak akan digunakan semua. Particle Swarm Optimization Particle Swarm Optimization merupakan teknik komputasi evolusioner yang mampu menghasilkan solusi secara global optimal dalam ruang pencarian melalui interaksi individu dalam segerombolan partikel. Setiap partikel menyampaikan informasi berupa posisi terbaiknya kepada partikel yang lain dan menyesuaikan posisi dan kecepatan masingmasing berdasarkan informasi yang diterima mengenai posisi yang terbaik tersebut. Klasisfikasi Klasifikasi adalah proses menempatkan obyek atau konsep tertentu kedalam satu set kategori, berdasarkan sifat obyek atau konsep yang bersangkutan (Gorunescu, 2011). Metode klasifikasi ditujukan untuk pembelajaran fungsi- fungsi berbeda yang memetakan masingmasing data terpilih kedalam salah satu dari kelompok kelas yang telah ditetapkan sebelumnya. Dari pembelajaran tersebut, metode klasifikasi dapat secara otomatis dapat memprediksi kelas dari data lain yang belum diklasifikasikan (Olson & Shi, 2008). Pengujian K-Fold Cross Validation Cross Validation salah satu metode yang digunakan menemukan parameter terbaik dengan cara menguji besarnya error pada data testing. Cross Validation membagi data secara acak kedalam k bagian dengan ukuran yang sama dan masing-masing bagian akan dilakukan proses klasifikasi. Evaluasi dan Validasi Confusion Matrix Confusion matrix memberikan keputusan yang diperoleh dalam traning dan testing, confusion matrix memberikan penilaian performance klasifikasi berdasarkan objek dengan benar atau salah [26]. Confusion matrix berisi informasi aktual (actual) dan prediksi (predicted) pada sistem klasifikasi. Kurva ROC Kurva ROC (Receiver Operating Characteristic) adalah alat visual yang berguna untuk membandingkandua model klasifikasi. ROC mengekspresikan confusion matrix. ROC adalah grafik dua dimensi dengan false positives
KNIT-2 Nusa Mandiri
ISBN: 978-602-72850-1-9
sebagai garis horisontal dan true positives sebagai garis vertikal [26]. Dengan kurva ROC, kita dapat melihat trade off antara tingkat dimana suatu model dapat mengenali tuple positif secara akurat dan tingkat dimana model tersebut salah mengenali tuple negatif sebagai tuple positif. HASIL DAN PEMBAHASAN Pengumpulan Data Pengumpulan data yang digunakan dalam penelitian ini menggunakan data sekunder yang diperoleh dari database dalam UCI machine learning responsitory . Data tersebut berupa Credit Approval.data memuat 690 nasabah terdiri dari 15 atribut.
Sumber: Hasil Penelitian (2016) Gambar 2 Model yang diusulkan HASIL DAN PEMBAHASAN Data Yang Akan Diolah Dengan Rapid Miner a. Jika data yang disiapkan dalam bentuk Excel maka tidak boleh lebih dari satu sheet. b. Lalu simpan dengan format CSV (comma separated value). Dalam penyimpanan tulis nama file dilanjutkan titik CSV. Contohnya : data akhir.CSV.
Sumber: Hasil Penelitian (2016) Gambar 1 Data Credit Approval (UCI Repository) Metode yang Diusulkan Menggambarkan alur metode yang di usulkan serta menjelaskan cara kerja model yang di usulkan. Metode ini akan digambarkan secara skematik dan disertai dengan formula perhitungan. Model akan dibentuk dari data yang sudah diolah dan hasil pengolahan model akan diukur dengan model yang ada saat ini.
Analisa Decision Tree Dengan Particle Swarm Optimization Menggunakan Rapid Miner 1. Untuk mengambil Sample Data Repository, buka hirarki Samples, masuk ke folder Data. 2. Lakukan Drag dan Drop salah satu Example Repository. Tarik dan lepaskan repository ke dalam Main Process. 3. Hubungkan output pada Database ke Result, lalu klik run yang terdapat pada menu dashboard. 4. Cara Import Repository, ada beberapa ekstensi file yang dapat kita masukkan kedalam repository kita. CSV File, Excel Sheen File, Access Database Table File, Database Table, Binary File. Namun pada Dasarnya cara melakukan import pada semua file ini sama. Sebagai contoh, pilih Import Excel Sheet. Pembahasan Hasil Pengujian Selanjutnya dilakukan observasi population dari Decission Tree C 4.5dan particle swarm optimization. Hasilnya ditunjukkan oleh Tabel 4.1 dibawah ini. Tabel 2. Observasi population
99
Population
Accuracy
AUC
5
85.51%
0.862
10
85.51%
0.862
20
85.80%
0.885
30
85.80 %
0.887
40
85.51%
0.862
100
85.94%
0.862
200
86.09%
0.889
Sumber: Hasil Penelitian (2016) Hasil observasi menunjukkan bahwa nilai tertinggi dari akurasi yaitu 86.09% dan AUC yaitu 0.889 diperoleh dengan nilai population 200. Maka nilai-nilai tersebut digunakan dalam penelitian ini. Langkah selanjutnya adalah menyeleksi atribut yang digunakan yaitu A1, A2, A3, A4, A5, A6, A7, A8, A9, A10, A11, A12, A13, A14, A15 dan 1 atribut sebagai label yaitu A16. Dari hasil eksperiment dengan menggunakan algoritma Decission Tree C 4.5 berbasis particle swarm optimization diperoleh hasil seperti dalam Tabel 4.2 dibawah ini. Tabel 3. Hasil Seleksi Atribut Atribute Weight A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 Sumber: Hasil Penelitian (2016)
Hasil Pengujian Metode Decission Tree C 4.5 1. Confusion Matrix Tabel 4.3 menunjukkan hasil dari confusion matrix metode Decission Tree C 4.5. Tabel 4. Nilai accuracy, sensitivity, specificity, ppv dan npv metode Decission Tree Nilai (%) Accuracy
0.8420
Sensitivity
0.8133
Specificity
0.8663
PPV
0.8371
NPV
0.8460
Sumber: Hasil Penelitian (2016) Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua class bisa dilihat pada Gambar 4.1 yang merupakan kurva ROC untuk algoritma Decission Tree C 4.5. Kurva ROC pada gambar 4.1 mengekspresikan confusion matrix dari tabel 4.3 Garis horizontal adalah false positives dan garis vertikal true positives. Menghasilkan nilai AUC (Area Under Curve) sebesar 0.880 dengan nilai akurasi klasifikasi cukup (fair classification).
0.002 0.164 1 1 0.913 1 0.814 0.697 1 1 0.685 0 0 0.485 0.174
Dari 16 variabel prediktor dilakukan seleksi atribut sehingga menghasikan terpilihnya 14 atribut yang digunakan yaitu A1, A2, A3, A4, A5, A6, A7, A8, A9, A10, A11, A14, A15. Sedangkan atribut lainnya A12 dan A13 tidak berpengaruh terhadap bobot atribut. Pembahasan Hasil Pengujian Hasil pengujian model adalah untuk mengukur tingkat akurasi dan AUC (Area Under Curve) dari penentuan penilaian kredit dengan metode cross
100
validation.
Sumber: Hasil Penelitian (2016) Gambar 3. Kurva ROC dengan Metode Decission Tree C 4.5 Hasil Pengujian Metode Decission Tree berbasis PSO 1. Confusion Matrix Tabel 4.5. menunjukkan hasil dari confusion matrix metode Decission Tree C 4.5 berbasis
KNIT-2 Nusa Mandiri
ISBN: 978-602-72850-1-9
PSO Tabel 5. Nilai accuracy, sensitivity, specificity, ppv dan npv metode Decission Tree C 4.5Tree berbasis PSO Nilai Accuracy
0.8609
Sensitivity 0.8266 Specificity 0.8910 PPV
0.8697
NPV
0.8538
Sumber: Hasil Penelitian (2016) Kurva ROC Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua class bisa dilihat pada Gambar 4.2 yang merupakan kurva ROC untuk algoritma Decission Tree C 4.5 berbasi PSO. Kurva ROC pada gambar 4.2 mengekspresikan confusion matrix dari tabel 4.4. Garis horizontal adalah false positives dan garis vertikal true positives. Menghasilkan nilai AUC (Area Under Curve) sebesar 0.889 dengan nilai akurasi klasifikasi cukup (fair classification).
Sumber: Hasil Penelitian (2016) Gambar 4. Kurva ROC dengan Metode Decission Tree berbasis PSO Tingkat kenaikan kredit macet yang tajam menunjukkan adanya masalah serius dalam analisa penilaian kredit. Untuk menghasilkan penilaian kredit yang akurat diperlukan sebuah metode yang paling tepat. Pada penelitian ini Decission Tree C 4.5 digunakan karena diketahui dari hasil penelitian sebelumnya bahwa Decission Tree (C4.5) memiliki kemampuan generalisasi yang sangat baik untuk memecahkan masalah
walaupun dengan sampel yang terbatas. Eksperiment menggunakan metode Decission Tree (C4.5) menghasilkan tingkat akurasi sebesar 84.20 % dan mempunyai nilai AUC sebesar 0.880. Dari hasil tersebut diketahui bahwa keberhasilan dari Decission Tree (C4.5) sangat dipengaruhi oleh pemilihan atribut yang tepat. Semakin banyak atribut dan informasi yang digunakan akan mengakibatkan banyaknya waktu dan biaya yang dikorbankan bahkan akan mengurangi tingkat akurasi dan kompleksitas yang lebih tinggi. Mengingat pentingnya seleksi atribut Decission Tree (C4.5) maka diterapkan Particle swarm optimization (PSO) untuk melakukan tugas tersebut. Particle swarm optimization (PSO) diketahui dapat digunakan sebagai teknik optimasi untuk mengoptimalkan subset fitur. Algoritma PSO sederhana dan memiliki kompleksitas yang lebih rendah. sehingga dapat memastikan solusi optimal dengan menyesuaikan pencarian global dan lokal, sehingga kinerja klasifikasi Decission Tree (C4.5) dapat ditingkatkan. Eksperiment dilakukan kembali dengan menerapkan Particle swarm optimization (PSO) untuk seleksi atribut dalam Decission Tree (C4.5) dan dilakukan penyesuaian pada parameter population. Dari 16 variabel prediktor dilakukan seleksi atribut sehingga menghasikan terpilihnya 14 atribut yang digunakan. Hasil eksperiment menunjukkan akurasi sebesar 86.09% dan nilai AUC sebesar 0.889. Hasil dari eksperiment tersebut menunjukkan pengujian data kredit Credit Approval UCI data set menggunakan Decission Tree (C4.5) dan penerapan Particle Swarm Optimization dalam pemilihan atribut menunjukkan hasil yang lebih akurat dalam penentuan penilaian kredit ditandai dengan peningkatan nilai akurasi sebesar 1.89% dan nilai AUC sebesar 0.009. KESIMPULAN Dari uraian pada bab-bab yang sudah dibahas sebelumnya dapat ditarik kesimpulan : Metode pohon keputusan (decision tree) berbasis PSO yang diproses dengan software Rapid Miner dapat mengidentifikasi kelayakan kredit dengan baik. Dengan dilakukannya seleksi atribut dan penyesuaian pada population dapat menghasilkan variabel prediktor yang mempengaruhi nilai bobot pada atribut class. Sistem yang dibangun dapat membantu dalam mengklasifikasikan kriteria anggota nasabah yang pengajuan. UCAPAN TERIMA KASIH Penulis sungguh sangat menyadari, bahwa penulisan Makalah ini tidak akan terwujud tanpa
101
adanya dukungan dan bantuan dari berbagai pihak. Maka, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan terima kasih yang sebesar-besarnya kepada yang terhormat: 1. Bapak Dr.Rasmadi, selaku Ketua STMIK Eresha, yang telah menyediakan wadah untuk dapat menimba ilmu dalam program Pasca Sarjana di kampus tercinta ini. 2. Bapak Dr. Makhsun Toha, M.Si, selaku Ketua Program Studi Teknik Informatika STMIK Eresha, yang telah menyediakan wadah untuk dapat menimba ilmu dalam program Pasca Sarjana di kampus tercinta ini. 3. Bapak Dr. M. Syamsun, sebagai Pembimbing Utama, yang telah banyak mengarahkan, membimbing dan memberikan materi-materi pengajaran dalam menyelesaikan tesis ini. 4. Bapak Atang Susila, Ir, Meng, selaku Dosen Pembimbing Kedua Tesis, yang telah banyak mengarahkan dan membimbing dalam penulisan tesis ini. 5. Segenap dosen STMIK Eresha yang telah mendidik dan memberikan ilmunya kepada penulis, serta seluruh staff dan karyawan yang membantu kelancaran kuliah penulis. 6. Kedua orang tua dan keluarga penulis yang dengan sabar dan tulus telah memberikan motivasi, dukungan, nasehat dan doa yang tak ternilai harganya. 7. Rekan – rekan STMIK Eresha Angkatan 45 yang telah banyak memberikan motivasi belajar serta dukungan moril dalam menyelesaikan tesis ini. 8. Dan semua pihak yang tidak dapat disebutkan satu persatu. DAFTAR PUSTAKA Alrijadjis, & Astrowulan, K. (n.d.). Optimasi Kontroler PID berbais Particle Swarm Optimization (PSO) untuk Sistem dengan Waktu Tunda. Bastos, J. A. (2008). Credit Scoring with Boosted Decision Trees. MPRA. Gorunescu, F. (2011). Data Mining Concepts, Model and Techniques. Berlin: Springer. Han, J., & Kamber, M. (2006). Data Mining Concepts and Techniques. San Francisco: Diane Cerra. X. Hu, R. Eberhart, and Y. Shi. Particle swarm with extended memory for multiobjective optimization, IEEE Swarm Intelligence Symposium 2003, Indianapolis, IN, USA X. Hu, R. Eberhart, and Y. Shi. Recent advances in particle swarm, , IEEE Congress on Evolutionary Computation 2004, Portland, Oregon, USA Jiang, Y. (2009). Credit Scoring Model Based on Decision Tree and the Simulated Annealing Algorithm. 2009 World Congress on
102
Computer Science and Information Engineering (hal. 18 - 22). Los Angeles: IEEE Computer Society. Lai, K. K., Yu, L., Zhou, L., & Wang, S. (2006). Credit Risk Evaluation With Least Square Support Vector Machine. Larose, D. T. (2005). Discovering Knowledge In Data. Canada: Wiley- Interscience. Moertini, V. S. (2003). Towards the Use of C4.5 Algorithm for Classifying Banking Dataset. INTEGRAL , 105-116. Rapid-I. (2010). Rapid Miner User Manual . Rapid-I. Yu, L., Chen, G., Koronios, a., Zhu, S., & Guo, X. (2007). Application and Comparison of Classification Techniques in Controlling Credit Risk. World Scientific , 111. Zurada, J. (2010). Could decision trees improve the classification accuracy and interpretability of loan granting decision? 43rd Hawaii International Conference on System Sciences (pp. 1-9). Dawson, C. W. (2009). Projects in Computing and Information System A Student's Guide. England: Addison-Wesley. Feng-Chia, L. (2009). Comparison of the Primitive Classifiers without Features Selection in Credit Scoring. Management and Service Science. Gang, W., Jinxing, H., Jian, M., & Hongbing, J. (2011). A comparative assessment of ensemble learning for credit scoring. Expert Systems with Applications: An International Journal. 38, 223-230. Gorunescu, Florin (2011). Data Mining: Concepts, Models, and Techniques. Verlag Berlin Heidelberg: Springer. Han, J., & Kamber, M. (2006). Data Mining Concepts and technique. San Francisco: Diane Cerra Heiat, A. (2011). Modeling Consumer Credit Scoring Through Bayes Network. World Journal of Social Sciences. 3, 132-141. Hian, C.K., Wei, C.T., & Chwee, P.G (2006). A Two-step Method to Construct Credit Scoring Models with Data Mining Techniques. International Journal of Business and Information, 1, 96-118. Jianguo, Z., & Tao, B. (2008). Credit Risk Assessment using Rough Set Theory and GAbased SVM. The 3rd International Conference on Grid and Pervasive Computing, 320-