Jurnal | 1
MODEL DATA MINING UNTUK PREDIKSI DATA KONSUMEN FINANSIA MULTI FINANCE (FMF) PRABUMULIH DENGAN METODE NAIVE BAYES CLASSIFIER Jojo Meysandes1,A.Haidar Mirza,S.T.,M.Kom.2,Ari Muzakir,M.Cs3 Email:
[email protected],
[email protected],
[email protected] 3
Universitas Bina Darma Palembang Jl. A Yani No. 12 Plaju, Palembang 30624
ABSTRACK: PT. Finansia Multi Finance (FMF) Branch Prabumulih, is one of 311 branches of PT. FMF based in Jakarta is engaged in lending. PT consumer history. FMF can be utilized to habitual patterns of consumer behavior. Unfortunately, the consumer data has not been used to recognize the pattern (pattern) that can be used to predict new potential customers, for decision whether the application of new consumer credit or older consumers who are ready to take the credit is approved or not, a survey conducted by the staff of PT. FMF to the residence of the consumer to assess whether consumers are more credit worthy to see evidence of a paycheck if the consumer is the employee / employee, or see passbook if consumers are self-employed. There are no performance history data utilization consumers for credit granting decision-making process by utilizing a computer owned by the company. The purpose of this research is to create data mining models for the prediction of consumer data PT. FMF Branch Prabumulih with Naive Bayes classifier method. Keyboar: Data Mining, Naive Bayes classifier, Consumer Data, PT. Finansia Multi Finance, FMF, Prabumulih ABSTRAK: PT. Finansia Multi Finance (FMF) Cabang Prabumulih, merupakan satu dari 311 cabang PT. FMF yang berpusat di Jakarta yang bergerak dalam bidang perkreditan. Riwayat konsumen PT. FMF dapat dimanfaatkan untuk pola kebiasaan perilaku konsumen tersebut. Sayangnya data konsumen tersebut belum dimanfaatkan untuk mengenali pola (pattern) yang dapat dimanfaatkan untuk memprediksi calon konsumen yang baru,Untuk pengambilan keputusan apakah permohonan kredit konsumen baru atau konsumen lama yang sudah pernah mendapatkan kredit disetujui atau tidak, dilakukan survei oleh staf PT. FMF ke tempat tinggal konsumen untuk dinilai apakah konsumen tersebut layak mendapatkan kredit dengan melihat bukti slip gaji jika konsumen adalah pegawai/karyawan, atau melihat buku tabungan jika konsumen tersebut wiraswasta. Belum ada pemanfaatan data riwayat performance konsumen untuk proses pengambilan keputusan pemberian kredit dengan memanfaatkan komputer yang dimiliki perusahaan. Tujuan dari penelitian ini adalah membuat model data mining untuk prediksi data konsumen PT. FMF Cabang Prabumulih dengan metode Naive Bayes Classifier. Kata Kunci: Data Mining, Naive Bayes Classifier, Data Konsumen, PT. Finansia Multi Finance, FMF, Prabumulih
Jurnal | 2 PENDAHULUAN
1. Latar Belakang Perkembangan dunia teknologi informasi dan komunikasi (TIK) yang sangat pesat telah menyebabkan banyak orang dapat memperoleh data dengan mudah dan cepat. Data tersebut semakin lama semakin banyak, akibatnya pemanfaatan data yang ada tidak maksimal. Kemampuan teknologi untuk menyimpan data, mengolah data, mengekstrak data, menganalis data, dan meringkas data untuk menghasilkan sebuah informasi yang menunjang kegiatan pemilihan keputusan dirasa masih kurang. Dengan adanya masalah ini maka diterapkan teknik dan ilmu baru dalam mengolah data menjadi informasi, salah satunya yaitu teknik Data Mining untuk mengatasi masalah penggalian informasi atau pola yang penting atau menarik dari data dalam jumlah besar. Data Mining dapat memberikan pengetahuan yang sebelumnya tersembunyi di dalam gudang data sehingga menjadi informasi yang berharga. Rumusan Masalah Berdasarkan latar belakang yang telah diuraikan di atas, maka perumusan masalahnya adalah: “bagaimana mengolah data pengajuan kredit pada PT. FMF untuk proses data mining guna memprediksi data pengajuan konsumen PT. FMF dengan menggunakan metode Naive Bayes Classifier?” Batasan Masalah Dalam penelitian ini penulis membatasi permasalahan agar tetap terarah dan tidak menyimpang dari apa yang sudah direncanakan sebelumnya. Adapun batasan masalah dalam penelitian ini ialah. 1. Data yang digunakan bahan pertimbangan
sebagai untuk
pengolahan data mining dengan algoritma Naïve Bayes adalah Pengajuan Kredit untuk Tahun 2013 yang telah berjalan. 2. Software yang di gunakan untuk menjalankan proses pengolahan data Mining dengan menggunakan Algoritma Naïve Bayes adalah Weka versi 3.8. 2. ANALISIS DATA
Analisis Data Analisis data merupakan proses menganalisis sumber data (data source) sehingga menjadi data yang siap digunakan dalam proses data mining nantinya. Analisis data mengikuti tahapan dalam Knowledge Discovery in Database (KDD), yaitu data cleaning, data integration, data selection, transformation dan data mining. Jika data source yang digunakan telah melalui proses data cleaning, data integration, data selection dan transformation, maka data tersebut siap diolah dengan proses data mining. Data source yang digunakan adalah data PT. Finansia Multi Finance (FMF). Data Cleaning Data cleaning (atau data cleansing) merupakan proses membersihkan data yang bersifat sebagai berikut. 1. Tidak lengkap (incomplete), yaitu data yang tidak memiliki nilai atribut, kekurangan atribut kepentingan tertentu, atau hanya mengandung data agregat. Cara menangani data yang tidak lengkap yaitu dengan mengabaikan tuple biasanya dilakukan ketika label kelas yang hilang (ketika melakukan klasifikasi) tidak efektif ketika % dari nilai yang hilang per atribut bervariasi, mengisi nilai yang hilang secara manual, dan mengisi secara otomatis dengan cara rata-rata atribut, rata-rata atribut untuk semua sampel
Jurnal | 3
termasuk dalam kelas yang sama atau nilai yang paling mungkin. 2. Noise data (gangguan), yaitu kesalahan acak atau varian dalam variabel yang diukur. Nilai atribut salah mungkin karena : a. Instrumen pengumpulan data yang salah b. Masalah entri data c. Masalah transmisi data d. Keterbatasan teknologi e. Tidak konsisten dalam konvensi penamaan Adapun cara mengatasi noise data yaitu dengan menggunakan binning. Binning dimulai dengan mengurutkan data dan partisi ke dalam (frekuensi-sama) suatu tempat, selanjutnya dapat dihaluskan dengan cara menghitung rata-rata, menghitung median, dengan batas-batas 3. Inconsistent (tidak konsisten), yaitu berisi data yang mengandung nilai yang tidak konsisten. Pada preses data cleaning menggunkan software Mysql agar mempermudah dalam melakukan proses membuat data set yang siap untuk di olah menggunakan Weka versi 3.8. Adapun jumlah data awal yang berhasil di export ke dalam Mysql sebanyak 1025 record, dapat di lihat pada Gambar berikut:
Gambar 3.1. Jumlah Data Awal Untuk melaksanakan proses data cleaning terlebih dahulu melihat kondisi dari masing – masing atribut apakah ada record
yang kosong dalam atribut tersebut, pada proses ini didapat atribut Bermasalah ada sebanyak 363 record yang tidak memiliki isi / data sehingga untuk record ini akan di hilangkan / di hapus / tidak digunakan dalam proses pembuatan data set yang akan di gunakan dalam proses data mining dengan menggunakan Weka versi 3.8.
Gambar 3.2. Data Kosong Pada Atribut Bermasalah Data Integration Data integration merupakan proses menggabungkan data dari berbagai data source, sehingga data tersebut saling berintegrasi. Data integration dilakukan pada attribut-attribut yang mengidentifikasikan entitas-entitas yang unik. Data integration perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan data yang menyimpang pada saat pengambilan aksi nantinya. Pada Proses ini data yang di dapat dari PT. FMF merupakan data sudah terintegrasi dalam hal ini sudah berada dalam 1 tabel Database sehingga tidak perlu di lakukan integrasi dengan tabel – tabel yang lain Data Selection Data selection adalah proses menseleksi atau memilih atribut yang akan digunakan dalam proses data mining, karena tidak semua atribut pada sumber data yang telah melewati proses data integration dapat digunakan seluruhnya. Pada proses data selection, yaitu memilih atribut apa saja yang relevan dan sesuai untuk proses data mining. Sehingga, hasil dari data selection tersebut menjadi data target. Data target itulah yang akan
Jurnal | 4
menjadi atribut yang relevan dan mendukung dalam proses data mining. Data Transformation Data transformation merupakan proses mengubah data atau transformasi data awal menjadi data dengan bentuk atau format yang sesuai untuk proses data mining. Pada tapa Data Transformation dilakukan langkah – langkah untuk klasifikasi pada masing – masing atribut. Adapun hasil setelah dilakukan klasifikasi sebagai berikut :
Gambar 2.33. Hasil Klasifikasi Atribut Pada Mysql Kemudian data tersebut yang ada pada Gambar diatas diexport ke dalam bentuk CSV guna dipakai untuk pengolahan data mining menggunakan Weka versi 3.8 seperti Gambar berikut :
Gambar 2.34. Format Data Set CSV Untuk Proses Data Mining Weka Versi 3.8. 3. HASIL DAN PEMBAHASAN Hasil Untuk tabulasi manual proses Distribusi Frekuensi pada masing – masing atribut dapat dilakukan dengan melakukan perintah query pada mysql contoh sebagai berikut untuk mencari jumlah distribusi frekuensi data dengan Atribut Statu
KAWIN dan Atribut Bermasalah adalah BERMASALAH (query : SELECT count( `Status` ) FROM `table 1` WHERE `Status` like 'KAWIN' and `Bermasalah` like 'BERMASALAH')
Gambar 4.9. Hasil Query untuk Atribut Status KAWIN dan Atribut Bermasalah adalah BERMASALAH Berdasarkan Persamaan dari teorema Bayes adalah: 𝑃(𝐻|𝑋 ). 𝑃(𝐻) 𝑃(𝐻|𝑋) = 𝑃(𝑋) Dimana: X : Data dengan kelas yang belum diketahui H : Hipotesis data X merupakan suatu kelas spesifik P(H|X): Probabilitas hipotesis H berdasar kondisi X (posterior probability) P(H) : Probabilitas hipotesis H (prior probability) P(X|H): Probabilitas X berdasarkan kondisi pada hipotesis H P(X) : Probabilitas X Diketahui : X1 = Status X2 = Tanggungan X3 = Rumah Sendiri X4 = Pekerjaan X5 = Penghasilan X6 = Pengeluaran X7 = Sisa X8 = Kredit X9 = Lama Kredit X10 = Angsuran Y = Bermasalah Fakta Menunjukkan : P ( Y = Bermasalah) = 88 / 662 = 0.13 P ( Y = TIDAK BERMASALAH) = 576 / 662 = 0.87
Jurnal | 5
Pembahasan Dan Pengujian Hasil Untuk mendapatkan hasil pengolahan metode klasifikasi Naive Bayes Classifier dengan WEKA 3.80, file data konsumen dalam format Excel (.XLSX extension) harus dikonversi dahulu menjadi file berformat .CSV (Comma Separated Value). Hal ini dapat dilakukan dengan membuka file data konsumen dalam format .XLSX tersebut dengan Excel dan menyimpannya melalui menu File, Save As, pilih format .CSV. Snapshot tampilan file data konsumen dalam format .CSV disajikan di bawah ini:
Gambar 4.3. Tampilan Weka Explore Untuk Proses Data Mining Pilih menu Open file... untuk membuka file data konsumen dalam format .CSV pada folder yang telah ditentukan:
Gambar 4.1. Data Set Siap Olah Dengan Weka 3.8 Langkah selanjutnya WEKA 3.80 dijalankan dengan tampilan awal sebagai berikut:
Gambar 4.2. Software Weka Versi 3.8 Dengan memilih menu Explorer, WEKA menampilkan tampilan sebagai berikut:
Gambar 4.4. Open File Weka Untuk Proses Data Mining Hasil membuka file data konsumen dalam format .CSV disajikan di bawah ini:
Gambar 4.5. Tampilan Setelah Open File Pada Weka Versi 3.8. Pada tahap ini untuk atribut Nama dan Disetujui tidak ikut dipakai dalam pengolahan hanya Atribut Statu, Tanggungan, Rumah Sendiri, Penghasilan, Pengeluaran, Sisa, Kredit, Lama_Kredit, Angsuran dan Bermasalah Untuk mengolah data set yang telah siap dengan metode Naive Bayes Classifier dengan WEKA, pilih Tab Classify, tekan tombol Choose, pilih Bayes, NaiveBayes seperti tampilan di bawah ini:
Jurnal | 6
Gambar 4.6. Memilih Metode Pengolahan Data Mining Menggunakan Naïve Bayes Classifier Tentukan kolom yang dianalisis adalah kolom Bermasalah dengan tampilan sebagai berikut:
dilakukan percobaan dengan melakukan perhitungan secara manual Jika diketahui suatu kondisi sebagai berikut : Skenario 1 : P(X1 | Status) = KAWIIN P(X2 | Tanggungan) = BANYAK P(X3| Rumah) = SENDIRI P(X4| Pekerjaan) = WIRAUSAHA P(X5| Penghasilan) = CUKUP TINGGI P(X6 | Pengeluaran) = TINGGI P(X7| Sisa) = BAIK P(X8 | Kredit) = SEDANG P(X9 | Lama Kredit) = 24 BULAN P(X10 | Angsuran) = SEDANG P(Y | Bermasalah) = ….? P(Y | Tidak Bermasalah) = …?
Gambar 4.7. Tampilan Pemilihan Naïve Bayes Classifier Pada Weka Tekan tombol Start agar WEKA memproses data dengan metode Naive Bayes Classifier dengan tampilan hasil sebagai berikut:
Gambar 4.8. Tampilan Hasil Pengolahan Naïve Bayes Classifier pada Weka Pengujian Hasil Untuk melihat apakah nilai probabilitas yang di hasilkan dapat dipakai untuk menguji suatu kondisi menggunakan persamaan teorema bayes maka perlu
P(Y | Tidak Bermasalah) = (532/576) * (17/576) * (24/576) * (358/576) * (20/576) * (182/576) * (76/576) * (85/576) * (112/576) * (68/576) * (576/662) = 3,012E-09 P(Y | Bermasalah) = (77/88) * (7/88) * (7/88) * (56/88) * (7/88) * (25/88) * (11/88) * (22/88) * (22/88) * (12/88) * (88/662) = 1.12754E-08 Resume : Dengan kondisi di atas yaitu apabila atribut Status bernilai KAWIIN, atribut Tanggungan bernilai BANYAK, atribut Rumah bernilai SENDIRI, Pekerjaan bernilai WIRAUSAHA, atribut Penghasilan bernilai CUKUP TINGGI, atribut Pengeluaran bernilai TINGGI, atribut Sisa bernilai BAIK, atribut Kredit bernilai SEDANG, atribut Lama Kredit bernilai 24 BULAN, atribut Angsuran bernilai SEDANG maka dapat di prediksi kondisi calon yang mengajukan kredit Tidak akan bermasalah hal ini dikarenakan berdadarkan perhitungan dengan menggunakan naïve bayes nilai P(Y | Tidak Bermasalah > nilai P(Y | Bermasalah) Skenario 2 :
Jurnal | 7
P(X1 | Status) = KAWIIN P(X2 | Tanggungan) = BANYAK P(X3| Rumah) = SEWA P(X4| Pekerjaan) = PETANI P(X5| Penghasilan) = RENDAH P(X6 | Pengeluaran) = TINGGI P(X7| Sisa) = TIDAK BAIK P(X8 | Kredit) = BESAR P(X9 | Lama Kredit) = 18 BULAN P(X10 | Angsuran) = BESAR P(Y | Bermasalah) = ….? P(Y | Tidak Bermasalah) = …? P(Y | Tidak Bermasalah) = (532/576) * (17/576) * (31/576) * (121/576) * (418/576) * (182/576) * (449/576) * (178/576) * (91/576) * (6/576) * (576/662) = 2.70899E-08
P(Y | Bermasalah) = (77/88) * (7/88) * (5/88) * (15/88) * (59/88) * (25/88) * (76/88) * (20/88) * (15/88) * (2/88) * (88/662) = 7.78675E-08 Resume : Dengan kondisi di atas apa bila atribut Status bernilai KAWIIN, atribut Tanggungan bernilai BANYAK, atribut Rumah bernilai SEWA, atribut Pekerjaan bernilai PETANI, atribut Penghasilan berniali RENDAH, atribut Pengeluaran) bernilai TINGGI, atribut Sisa bernilai TIDAK BAIK, bernilai Kredit bernilai BESAR, atribut Lama Kredit bernilai 18 BULAN, atribut Angsuran bernilai BESAR maka dapat di prediksi calon yang mengajukan kredit akan Bermasalah hal ini di karenakan nilai P(Y | Tidak Bermasalah < nilai P(Y | Bermasalah) sehinggan kondisi diatas dapat di kategorikan Bermasalah. 4. KESIMPULAN DAN SARAN Kesimpulan Penelitian konsumen
mengenai prediksi calon pada PT. FMF cabang
Prabumulih dengan menggunakan proses data mining dengan metode Naïve Bayes Classifier menghasilkan kesimpulan sebagai berikut : 1. Hasil data set yang di gunakan berdasarkan data yang di peroleh dari PT. FMF yang telah melalui proses data selection sebanyak 662 record 2. Adapun nilai probabilitas untuk class bermasalah dengan nilai 0.87 dan nilai probabilitas untuk class tidak bermasalah dengan nilai 0.13 dimana nilai ini dapat di pergunakan untuk memprediksi calon konsumen dengan menghitung nilai probabilitas pada masing – masing atribut. Adapun atribut yang di pergunakan untuk proses data mining antaralain atribut status, tanggungan,rumah, penghasilan, pengeluaran, sisa, kredit, lama kredit, angsuran dan atribut bermasalah di gunakan sebagai class untuk proses pengolahan data mining untuk memprediksi data konsumen. Saran Berdasarkan hasil dan kesimpulan yang telah diuraikan diatas, maka ada beberapa saran yang ingin disampaikan yaitu: 1. Pada penelitian berikutnya disarankan untuk menggunakan jumlah data yang lebih besar agar di hasilkan suatu prediksi dengan nilai yang lebih baik. 2. Pada penelitian ini disarankan kepada mahasiswa yang lain untuk melakukan uji coba dengan data yang sama dari perusahaan yang berbeda untuk melihat dari hasil pengujian Algoritman Naive Bayes 3. Pada penelitian ini dapat menjadi referensi untuk proses pengolahan data menggunakan metode Naive Bayes Classifier.
Jurnal | 8
DAFTAR PUSTAKA Berry. M.J.A. dan Linoff G.S. (2004). Data Mining Techinique for Marketing. sales. Customer Relationship Management . Second Edition. Wiley Publishing. Inc. Fayyad. U. M. (1996). Advances in Knowledge Discovery and Data Mining. Cambridge. MA: The MIT Press. Hamzah. A. (2012). Klasifikasi Teks dengan Naïve Bayes Classifier (NBC) untuk Pengelompokan Teks Berita dan Abstract Akademis. In Prosiding Seminar Nasional Apikasi Sains & Teknologi (SNAST) Periode III. p. B269-B277. Yogyakarta. Jiawei, Han.. (2001). Data Mining: Concept and Techniques. Morgan Kaufmann Publisher Larose D. T.. (2006). Data Mining Methods and Models . Jhon Wiley & Sons. Inc. Hoboken New Jersey Ponniah. Paulraj. (2001). Data Warehousing Fundamentals : A Comprehensive Guide for IT Profesionals Pramudiono. I. (2006). Apa itu Data Mining? Dalam http://datamining.japati.net/cgi bin/indodm.cgi. Diakses tanggal 26 Mei 2016. Presiden Republik Indonesia. (1999). Undang-Undang Republik Indonesia No.8 Tahun 1999 tentang Perlindungan Kosumen. Ridwan. M.. Suyono. H.. & Sarosa. M. (2013). Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS. 7(1). 59-64. Simarmata. Dj.A.. (1983). Operations Research Sebuah Pengantar teknik - teknik Optimasi dari Sistem Operasional . Jakarta : PT Gramedia Sugiono. (2005). Metode Penelitian Bisnis. Penerbit Alfabeta. Bandung. Turban. E.. Aronson. J. E. dan Liang. T. (2005). Decision Support Sistems and Intelliget Sistems (Sistem Pendukung Keputusan dan Sistem Cerdas). Edisi Ketujuh. Andi. Yogyakarta. Turban. Efraim & Linda Volonino. (2010). Information Technology for Management. Edisi Ketujuh. Asia : John Willey & Sons. Xhemali. D.. Hinde. C.J. & Stone. R.G. (2009). Naive Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages. International Journal of Computer Science Issues 4 (1): 16 -23. ( Online ) http://ijcsi.org/papers/4 -1-1623.pdf (16 Mei 2013)