IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA C4.5 UNTUK MEMPREDIKSI KELAYAKAN PEMBIAYAAN ANGGOTA PADA BMT IHSAN MULIA YOGYAKARTA
NASKAH PUBLIKASI
diajukan oleh Adji Sukmana 12.11.6554
kepada SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA YOGYAKARTA 2016
IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA C4.5 UNTUK MEMPREDIKSI KELAYAKAN PEMBIAYAAN ANGGOTA PADA BMT IHSAN MULIA YOGYAKARTA Adji Sukmana1), Windha Mega Pradnya D 2), 1)
Teknik Informatika STMIK AMIKOM Yogyakarta 2) Sistem Informasi STMIK AMIKOM Yogyakarta
Jl Ringroad Utara, Condongcatur, Depok, Sleman, Yogyakarta Indonesia 55283 Email :
[email protected]),
2)
perekonomian yang terjadi di masyarakat. Terbukti dengan meningkatnya jumlah anggota disetiap periode. Permasalahan yang sering terjadi adalah anggota sering terlambat bahkan tidak lancar dalam membayar pinjamannya sehingga diperlukan penentuan siapa yang layak untuk menerima pinjaman. Melihat kondisi tersebut, penulis menyusun penelitian “Implementasi Data Mining Menggunakan Algoritma C4.5 Untuk Memprediksi Kelayakan Pembiayaan Anggota Pada BMT Ihsan Mulia Yogyakarta”.
Abstract - Cooperatives have a very big role against the development and growth of economy in Indonesia. The main activities of the cooperative that provides financial services to members of the fund with the goal of advancing the welfare of the members, so that financing is an important factor for the members of the cooperative. BMT Ihsan Mulia Yogyakarta is one of the cooperative loan are successful and have lots of members. But with different economic conditions demands carefulness in decision making the financing of cooperative members.
1.2 Rumusan Masalah Berdasarkan latar belakang yang telah dijelaskan di atas maka diperoleh rumusan masalah yaitu bagaimana mengimplementasikan data mining untuk memprediksi kelayakan pembiayaan anggota pada BMT Ihsan Mulia Yogyakarta menggunakan algoritma C4.5 ?
In this in this research, the researchers tried to analyze the main points of these problems, determine goals, then take the data with observations and analyzing data by studying some of the existing literature. The analysis was conducted using data mining with C4.5 algorithms which generated a decision tree.
1.3 Maksud dan Tujuan Adapun maksud dan tujuan dari pelaksanaan skripsi ini adalah sebagai berikut :
Rule generated will be used to build a system that can help in decision making by predicting the feasibility of financing members, so that the decision is the best decision between cooperatives and members that will be financed by the cooperative.
1. Membuat sistem berbasis web untuk memprediksi kelayakan pembiayaan anggota pada BMT Ihsan Mulia Yogyakarta. 2. Dapat mengurangi resiko kemacetan pembayaran angsuran anggota yang hendak melakukan pinjaman pada BMT Ihsan Mulia Yogyakarta. 3. Menggabungkan sistem konvensional untuk membuat sebuah sistem aplikasi perangkat lunak dengan memanfaatkan teknologi informasi berbasis web. 4. Membentuk pohon keputusan dari variabel penentu kelayakan pembiayaan anggota pada BMT Ihsan Mulia Yogyakarta menggunakan algoritma C4.5. 5. Untuk Memenuhi salah satu syarat kelulusan Strata Satu di Sekolah Tinggi Manajemen Informatika dan Komputer Amikom Yogyakarta jurusan Teknik Informatika.
Keywords : Data Mining, Algorithm C4.5, Cooperative 1.
[email protected]
Pendahuluan
1.1 Latar Belakang Masalah Dewasa ini ekonomi masyarakat mengalami perkembangan yang sangat pesat, itu terjadi karena kebutuhan hidup yang semakin meningkat. Kondisi tersebut dapat menimbulkan permasalahan ekonomi dari sebagian masyarakat dalam memanajemen keuangannya. Sehingga banyak masyarakat melakukan peminjaman uang pada lembaga keuangan, baik itu lembaga keuangan bank maupun non-bank. Salah satu contoh lembaga keuangan non-bank adalah BMT (baitul maal wat tamwil). BMT merupakan Lembaga Keuangan Mikro (LKM) yang dipercaya menerapkan prinsip syariah dan mampu melayani bisnis dalam skala kecil. Hal tersebut mengakibatkan permintaan pembiayaan melalui BMT berkembang dengan sangat pesat.
1.4 Metode Penelitian Metode yang digunakan dalam penelitian ini adalah sebagai berikut :
BMT Ihsan Mulia Yogyakarta merupakan salah satu contoh LKM yang mampu mengatasi permasalahan
1
1.1.1 Metode Pengumpulan Data Metode pengumpulan data yang digunakan dalam sistem ini adalah studi literatur, metode observasi dan metode wawancara.
bertujuan untuk menerapkan algoritma C4.5 dalam sistem untuk memprediksi pemesanan barang pada Toko Sumber Rezeki yang dapat memprediksi data transaksi barang di gudang kemudian dapat melakukan penyaringan data yang tidak penting untuk pembangkitan barang yang dibutuhkan atau hasil pencarian data dapat dilakukan dengan cepat dan efisein [3].
1.1.2 Metode Analisis Untuk mengidentifikasi masalah, yaitu menganalisa dari data yang diperoleh untuk membuat sebuah sistem baru yang belum pernah dibuat sebelumnya, oleh karena itu penulis menggunakan metode analisis SWOT (Strength, Weakness, Opportunity, Threat)
Paulus Dian Wicaksana (2015), dengan judul “Perbandingan Algoritma K-Nearest Neighbors dan Naive Bayes untuk Studi Data Wisconsin Breast Cancer Data”. Penelitian tersebut bertujuan untuk mendapatkan hasil perbandingan dari kedua algoritma berupa tingkat akurasi, dan waktu proses, serta menentukan algoritma mana yang memiliki algoritma yang lebih baik dan lebih baik [4]
1.1.3 Metode Perancangan Sistem Metode perancangan sistem dalam penelitian ini penulis menggunakan UML (Unified Modeling Language) yaitu himpunan struktur dan teknik untuk pemodelan desain program berorientasi objek (OOP) yang meliputi Use Case Diagram, Activity Diagram, Sequence Diagram, Class Diagram.
2.2 Landasan Teori 2.2.1 Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah suatu proses yang menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar [5].
1.1.4 Metode Implementasi dan Pengujian Sistem Metode pengujian yang penulis gunakan yaitu metode k-fold cross validation sebagai metode pengujian keakuratan algoritma C4.5 yang dihasilkan dan pengujian black box test dan white box test untuk pengujian sistem. 2.
Pembahasan
2.1 Tinjauan Pustaka Khairul Sani (2016), yang berjudul “Analisis Perbandingan Algoritma Classification Untuk Authentication Uang Kertas (Studi Kasus: Banknote Authentication)”. Penelitian ini bertujuan untuk membedakan mata uang asli dan palsu dengan cara menganalisis authentication uang kertas, dengan menggunakan beberapa algoritma classification. Tahapannya dimulai dari pengambilan data, kemudian proses recognition banknote yang terdiri dari proses image acquisition, gray scale conversion, sampai ke tahap classification. Selanjutnya tahap pengujian classification yaitu menggunakan WEKA appliaction tool dengan menerapkan metode cross validation pada data banknote authentication. Dari hasil pengujian yang dilakukan, bahwa algorithm tree C4.5 memiliki nilai classified instance yang paling tinggi yaitu sebesar 98.54 % dibanding dengan algorithm naive bayes dan neural network [1].
2.2.2 Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dari prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang mempresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target [5].
Ardun (2015), dengan judul “Implementasi Data Mining untuk Memprediksi Kelayakan Pembiayaan Anggota pada BMT Bumi Mizan Sejahtera Yogyakarta Menggunakan Algoritma C4.5”. Penelitian tersebut dilakukan untuk membantu pihak koperasi dalam menetukan kelayakan pembiayaan anggota dengan memprediksi layak atau tidak diberi pembiayaan pembiayaan yang dilakukan kedepannya [2].
1. 2. 3. 4.
Eka Mulyani (2015), yang berjudul “Implementasi Algoritma C4.5 untuk Memprediksi Pemesanan Barang pada Toko Sumber Rezeki”. Penelitian tersebut
1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelas tertentu.
2.2.3 Algoritma C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut [5] : Pilih atribut sebagai akar. Buat cabang untuk tiap-tiap nilai. Bagi kasus dalam cabang. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algortima C4.5 yaitu :
2
2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus :
2.
3.
Keterangan : S : Himpunan Kasus A : Fitur n : Jumlah partisi S Pi : Proporsi dari Si terhadap S 3. Kemudian hitung nilai gain menggunakan rumus :
4.
Keterangan : S : Himpunan Kasus A : Atribut B : Jumlah partisi atribut A |Si| : Jumlah Kasus pada partisi ke-i |S| : Jumlah Kasus dalam S 4. Ulangi langkah kedua hingga semua record terpartsi. 5. Proses partisi keputusan akan berhenti saat : a. Semua record dalam simpul N mendapat kelas yang sama. b. Tidak ada atribut di dalam record yang dipartisi lagi. c. Tidak ada record di dalam cabang yang kosong.
5.
6.
7.
2.2.4 K-Fold Cross Validation Metode k-fold cross validation akan melakukan pembagian data secara acak menjadi beberapa bagian yang tidak tergantung satu dengan yang lainya, data akan dibagi menjadi data latih dan data uji. Pembagian data akan dilakukan sebanyak k nilai [6].
8.
2.3 Analisi Data Tahap awal yang dilakukan untuk melakukan prediksi kelayakan pembiayaan anggota pada BMT Ihsan Mulia Yogyakarta adalah melakukan analisis data terhadap sistem informasi yang baru.
dari pihak BMT Ihsan Mulia Yogyakarta, pengelompokan yang telah ditentukan yaitu Tidak Punya, 1 – 3 Orang dan > 3 Orang. Jumlah Pinjaman / Pembiayaan Diajukan Variabel ini berisi data jumlah pembiayaan yang diajukan oleh anggota yang akan disetujui dari pihak BMT Ihsan Mulia Yogyakarta. Pengelompokan jumlah pembiayaan yang diajukan telah sesuai dengan data yang dianalisis yaitu < 2 Juta, 2 - 5 Juta dan > 5 Juta. Jangka Waktu Variabel ini berisi data jangka waktu pembayaran yang diajukan oleh anggota yang akan disetujui dari pihak BMT Ihsan Mulia Yogyakarta. Pengelompokan data telah sesuai dengan yang ada yaitu 1 – 12 Bulan, 13 – 24 Bulan, dan 25 – 36 Bulan. Jaminan Variabel ini berisi jenis jaminan dari anggota. jenis jaminan yang diajukan. Pihak BMT harus menganalisis terlebih dahulu tingkat kebesaran jumlah nilai jual dari jaminan yang diberikan anggota. Setelah dianalisis maka data jaminan akan dikelompokkan menjadi dua kategori, yaitu Tinggi dan Rendah. Penghasilan Variabel ini berisi data total penghasilan dari anggota. Pengelompokan data sesaui dengan yang ada yaitu < 2 Juta, 2 - <4 Juta, 4 - <6 Juta dan > 6 Juta. Karakter Variabel ini berisi jenis karakter dari anggota, pengelompokan sesuai dengan yang ada berdasarkan karakter Baik dan Bermasalah. Status Perkawinan Variabel ini berisi status perkawinan dari anggota, pengelompokan sesuai dengan yang ada berdasarkan Menikah dan Belum Menikah. Kelayakan Variabel ini merupakan data yang berfungsi untuk menentukan hasil keputusan dari data anggota yang sudah diproses. Pengelompokan data sudah ditentukan secara tepat agar tidak terjadi kesalahan dalam perhitungan proses sistem. Data keputusan utuk kelayakan hanya ditentukan sesaui data yang ada berdasarkan Ya dan Tidak.
2.4 Analisis Model 2.4.1 Kebutuhan Masukan Kebutuhan masukan dari sistem adalah berupa nilai yang dimiliki oleh sebuah variabel yang dibuat ke dalam sebuah data tabel. Variabel yang digunakan untuk perhitungan pada penelitian ini yaitu penghasilan, jumlah pinjaman, jangka waktu, tanggungan keluarga, keperluan, status perkawinan, karakter dan kelayakan.
Adapun variabel yang akan diproses data mining menggunakan algoritma C4.5 sebagai berikut : 1. Jumlah Tanggungan Keluarga Variabel ini berisi data jumlah tanggungan keluarga dari anggota. Jumlah tanggungan keluarga telah sesuai dengan analisis yang dilakukan terhadap data 3
Pada penelitian ini penulis menggunakan 230 sampel data anggota beserta variabel – variabel dan keputusannya. Setelah itu dilakukan perhiutngan algoritma C4.5 dengan menghitung nilai masing- masing entropy dan gain.
2.5 Perancangan Alur Sistem 2.5.1 Use Case Diagram Berikut adalah Use Case Diagram dari sistem prediksi pemesanan barang. Use Case tersebut menjelaskan hal apa saja yang bisa dilakukan oleh setiap actor. Dalam Use Case terdapat 2 aktor yaitu manager dan karyawan.
Tabel 1 Hasil Perhitungan Entropy dan Gain
Gambar 2 Use Case Diagram 2.6 Implementasi Sistem 2.6.1 Implementasi Program 1. Tampilan Halaman Beranda
Melihat hasil kalkulasi tabel di atas dapat diperoleh hasil entropy dan gain dari masing-masing atribut. Pada node 1 didapatkan variabel karakter sebagai pohon pertama. Selanjutnya dilakukan perhitungan iterasi sampai selesai. Dari hasil perhitungan entropy dan gain seluruhnya, maka dapat membentuk cabang pohon keputusan sebagai berikut :
Gambar 3 Halaman Beranda Halaman beranda berisi statistik sistem yang disajikan dalam bentuk grafik. 2. Tampilan Formulir Tambah Data Variabel
Gambar 4 Tampilan Tambah Data Variabel
Gambar 1 Hasil Akhir Pohon Keputusan 4
Halaman formulir tambah data variabel berfungsi untuk memasukkan data variabel dan data nilai variabel dari masing – masing variabel. 3. Halaman Tambah Data Variabel Tampilan Data Variabel
Gambar 7 Data Sampel Anggota Berikut ini pengujian berdasarkan masing-masing form: 1. Gambar 5 Halaman Data Variabel Halaman menu data variabel merupakan halaman yang berisi tampilan data variabel yang sudah dimasukkan sebelumnya.
Form Pohon Keputusan Pengujian dilakukan dengan menampilkan pohon keputusan yang terbentuk dari hasil olah data sistem. Berikut ini hasil dari pohon keputusan :
4. Tampilan Formulir Tambah Data Prediksi
Gambar 8 Hasil Pohon Keputusan 2. Form Prediksi Pengujian dilakukan dengan cara menginputkan nilai variabel yang dimiliki oleh data anggota. Apabila data tersebut diproses makan sistem akan menampilkan output prediksi kelayakan pembiayaan anggota. pengujian ini menggunakan contoh calon anggota yang memiliki kasus sebagai berikut.
Gambar 6 Halaman Tambah Data Prediksi Formulir Tambah Data Prediksi merupakan halaman yang berisi formulir data kasus anggota yang akan diprediksi 2.7 Uji Coba Program dan Sistem Uji coba program dilakukan pada pohon keputusan, data prediksi, tambah data prediksi dan melihat dari keputusan yang dihasilkan dari sistem. Untuk proses pengujian program digunakan data yang sama seperti pada perhitungan manual dengan 230 data anggota. Berikut ini sebagian data yang digunakan :
Gambar 9 Hasil Prediksi Data Anggota 5
3. Pengujian K-Fold Cross Validation Pengujian dengan metode k-fold cross validation dilakukan dengan cara membagi data anggota sebanyak k bagian, kemudian k-1 bagian digunakan sebagai data untuk test sistem dan sisanya digunakan sebagai data training yang akan dijadikan model pohon keputusan. Pengujian ini dilakukan sebanyak k kali dengan mengganti-ganti partisi yang berfungsi sebagai data training dan data test. Hasil pengujian itu kemudian dirata-ratakan untuk menghasilkan sebuah nilai akurasi. Pada penelitian ini penguji menggunakan nilai 10 sebagai nilai K. Hasil dari pengujian 10-Fold Cross Validation menghasilkan akurasi benar 99.57% dan akurasi salah 0.43%.
5. Pengujian dengan menggunakan metode k-fold cross validation dengan nilai k = 10, menghasilkan persentase akurasi 99,57 % yang berarti bahwa sistem mempunyai keakurasian yang tinggi sehingga layak untuk diterapkan di lapangan. 3.2 Saran Saran yang dapat disampaikan oleh penulis untuk pengembangan dan perbaikan pada sistem ini untuk penelitian selanjutnya yaitu : 1. Diharapkan untuk selanjutnya terdapat penelitian yang membandingkan algoritma C4.5 dengan algoritma yang lain. 2. Adanya penambahan variabel lain yang memungkinkan mempengaruhi hasil kelayakan pembiayaan anggota dan variabel dijelaskan sedetail mungkin. 3. Adanya penambahan data update secara berkala pada sistem demi mendapatkan hasil kelayakan yang lebih akurat lagi. 4. Sebaiknya validasi inputan program lebih dispesifikasikan formatnya. Daftar Pustaka [1] Sani , Khairul , Wing Wahyu Winarno Dan Silmi Fauziati. 2016. Analisis Perbandingan Algoritma Classification Untuk Authentication Uang Kertas (Studi Kasus: Banknote Authentication). Yogyakarta : Universitas Ahmad Dahlan. [2] Ardun. 2015. Implementasi Data Mining untuk Memprediksi Kelayakan Kredit Nasabah pada BMT Bumi Mizan Sejahtera Yogyakarta Menggunakan Algoritma C4.5. Yogyakarta : STMIK AMIKOM Yogyakarta. [3] Mulyani , Eka. 2015. Implementasi Algoritma C4.5 untuk Memprediksi Pemesanan Barang pada Toko Sumber Rezeki. Yogyakarta : STMIK AMIKOM Yogyakarta. [4] Wicaksana , Paulus Dian. 2015. Perbandingan Algoritma K-Nearest Neighbors dan Naive Bayes untuk Studi Data Wisconsin Breast Cancer. Yogyakarta : Universitas Sanata Dharma. [5] Kusrini Dan Emha Taufiq Luthfi. 2009. Algoritma Data Mining. Yogyakarta : Andi. [6] Kohavi , Ron. 1995. A study of cross-validation and bootsrap for accurancy estimation and model selection. Stanford : Computer Science Departemen Stanford University.
Gambar 10 Persentase Pengujian K-Fold Cross Validation 3.
PENUTUP
3.1 Kesimpulan Berdasarkan hasil penelitian dan pembahasan yang telah dilakukan, maka kesimpulan yang dapat diambil adalah : 1. Sistem ini menampilkan kelayakan pembiayaan anggota pada BMT Ihsan Mulia Yogyakarta dengan meprediksi kelayakan Ya dan Tidak berdasarkan variabel yang telah ditentukan. 2. Sistem data mining untuk memprediksi kelayakan pembiayaan anggota ini dapat membantu pihak BMT Ihsan Mulia Yogyakarta dalam memprediksi kelayakan pembiayaan anggota berdasarkan rule pohon keputusan algoritma C4.5. 3. Sistem mampu menerapkan pohon keputusan menggunakan algoritma C4.5 dengan cara memasukkan data kasus anggota yang akan diprediksi. 4. Sistem mampu menggolongkan data anggota yang masuk dalam kategori Blacklist/Non-Blacklist guna membantu pihak BMT dalam mengolah data yang bermasalah.
Biodata Penulis Adji Sukmana, memperoleh gelar Sarjana Komputer (S.Kom), Jurusan Sistem Informasi STMIK AMIKOM Yogyakarta, lulus tahun 2016 Windha Mega Pradnya, memperoleh gelar Sarjana Komputer (S.Kom), Jurusan Sistem Informasi STMIK AMIKOM Yogyakarta, lulus tahun 2007. Memperoleh gelar Magister Komputer (M.Kom) Program Pasca Sarjana Magister Teknik Informasi STMIK AMIKOM Yogyakarta. Saat ini menjadi Dosen di STMIK AMIKOM Yogyakarta. 6