Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk Prediksi Pendonor Darah Potensial dengan Dataset RFMTC Wahyu Eko Susanto1, Candra Agustina2 1, 2
Program Studi Manajemen Informatika, AMIK BSI Yogyakarta Email:
[email protected],
[email protected]
Abstrak Darah yang di donorkan oleh pendonor hanya dapat bertahan selama 42 hari saja oleh karenanya stok darah harus di jaga, salah satunya dengan mengetahui mana pendonor yang potensial untuk mendonorkannya kembali. Selama ini beberapa algoritma memeiliki keakuratan yang berbeda-beda dalam memprediksi pendonor darah potensial. Sehingga belum di ketahui algoritma mana yang cocok untuk digunakan. untuk menjaga stok darah tetap aman maka perlu di cari cara untuk mengetahui dan membedakan antara pendonor darah yang potensial mendonorkan darahnya kembali dan yang tidak sehingga unit donor darah dapat mengambil keputusan. Dalam penelitian ini dilakukan komparasi Algoritma C4.5 dan Naïve Bayes yang diterapkan pada data diri pendonor dan data transaksi donor darah dengan dataset RFMTC. Dari hasil pengujian dengan mengukur kinerja kedua algoritma ketika dilakukan Curva ROC, diketahui bahwa algoritma C4.5 memiliki nilai accuracy lebih tinggi. Sehingga algoritma C4.5 dalam penelitian ini lebih baik dari pada algoritma untuk diterapkan pada prediksi pendonor darah potensial. Kata Kunci: C4.5, Naïve Bayes, RFMTC Abstract Donate blood at the donor can only survive for 42 days therefore the blood supply must be on guard, one of them by knowing which potential donors to donate back. During this time some algorithms memeiliki different accuracyin predicting the potential blood donor. So not yet known where the algorithms are suitable for use. to keep the blood supply remains safe it is necessary to find a way to identify and distinguish between potential blood donors donate blood so that the back and that is not a blood donor unit can make a decision. In this study a comparison algorithm C4.5 and Naïve Bayes is applied to the personal data of donors and blood donors transaction data with datasets RFMTC. From the test results by measuring the performance of both algorithms when testing Confusion Matrix and ROC curves, it is known that the Naïve Bayes algorithm has a higher accuracyvalue. So that the Naïve Bayes algorithm in this study is better than the algorithm C4.5 to be applied to the prediction of potential blood donors. Keyword: C4.5, Naïve Bayes, RFMTC
1. PENDAHULUAN Kesadaran masyarakat yang kurang untuk menjadi pendonor sukarela menjadi salah satu faktor yang mengakibatkan persediaan darah di Unit Donor Darah (UDD) menjadi rendah [1]. Menurut American Red Cross dilain sisi, darah hasil donor tidak lagi dapat digunakan setelah 42 hari. Satu-satunya cara untuk memenuhi permintaan adalah dengan memiliki sumbangan rutin dari sukarelawan yang sehat [2]. Di Indonesia saja pada tahun 2013 mengalami kekurangan kantong darah sebanyak 2.476.389, dimana idealnya ketersediaan darah yang diperuntukkan untuk donor adalah 2,5% dari Jumlah Penduduk. [1]. Beberapa penelitian telah dilakukan untuk menentukan pendonor darah yang potensial mendonorkan darahnya kembali untuk menjawab permasalahan tersebut. Penelitian menggunakan algoritma C4.5 dan Fuzzy Tahani dengan dataset yang memiliki variabel golongan darah, jenis kelamin, usia, berat badan, tekanan darah, kadar HB (hemoglobin), dan kadar HTC (hematocit) adapun target variabel output-nya adalah atribut Donor Lagi yang berisikan nilai „ya‟ atau „tidak‟ berdasarkan nilai ambang batas jumlah donor, bernilai „ya‟ apabila jumlah donor >=2 dan bernilai „tidak‟ apabila jumlah donor < 2 . Pada penelitian ini menghasilkan akurasi rata-rata sebesar 89,64% dengan menggunakan dataset yang berasal dari PMI Kota Malang[3]. Pada penelitian yang lain digunakan algoritma MLP dan SVM dan variabel dataset RFMTC (Recency, Frequency, Monetary, Time, Churn Probability). Dataset yang digunakan berasal dari UCI Machine Learning. Dari penelitian ini dihasilkan sensitivity 65.8% dan specificity 78.2% dari 600 data training dan 148 data testing [2]. Penelitian selanjutnya mengenai klasifikasi pendonor menggunakan metode Naïve Bayes classifier. Adapun variabel yang digunakan dalam penelitian ini adalah hemoglobin (HB), tensi atas, tensi bawah, berat badan, umur, jenis kelamin, riwayat penyakit menular, interval donor serta mempunyai variabel
16
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
target pendonor dan non pendonor. Dari 4 percobaan pengujian hasil yang didapatkan dalam penelitian ini adalah keakuratan rata-rata yang didapatkan sebesar 74% [4]. Dengan melihat perbedaan akurasi dari penelitian terdahulu maka dalam penelitian ini dicarilah algoritma yang lebih baik dalam memprediksi pendonor darah yang potensial mendonorkan darahnya kembali dengan menggunakan dataset di UDD PMI Kabupaten Bantul dengan cara membandingkan Algoritma C4.5 dan Naïve Baiyes. agar di ketahui tingkat akurasi pada masing-masing algoritma dengan variabel dataset RFMTC. 2. METODE Penelitian ini adalah penelitian eksperimen. Penelitian ini bertujuan untuk mencari algoritma yang tepat untuk digunakan dalam memprediksi pendonor yang potensial mendonorkan darahnya kembali dan yang tidak. Variabel target dari penelitian ini adalah donor lagi yang mempunyai class “donor” dan “Tidak Donor”. Data yang digunakan dalam penelitian ini berasal dari data pendonor yang melakukan donor darah di UDD PMI Kabupaten Bantul tahun 2012 sampai 2014 Data pendonor tersebut akan dianalisa untuk kemudian ditarik kesimpulan algoritma yang tepat untuk digunakan. 2.1. Dataset RFMTC Variabel dari dataset RFMTC (Recency, Frequency, Monetary value, Time since first purchase and Churn probability) merupakan modifikasi dari teknik RFM, tiga variabel sederhana, yaitu Recency of purchase, Frequency of purchase, dan Monetary value of purchase, merupakan dasar dari teknik RFM [5]. RFMTC merupakan hasil modofikasi dari Y, I-Cheng, Y, King-Jang, and T, Tao-Ming yang digunakan untuk meramalkan perilaku pendonor darah apakah pendonor tersebut termasuk klasifikasi yang potensial mendonorkan darahnya kembali atau tidak, Akurasi dari RFMTC ini menurut I-Cheng dkk, lebih tinggi daripada RFM, Adapun penjelasan dari variabel RFMTC tersebut [2]. Adapun penjelasan mengenai Variabel RFMTC adalah (a) Recency Jumlah bulan sejak terakhir menyumbangkan darah. (b) Frequency adalah jumlah berapakali donor, (c) monetary adalah jumlah darah yang disumbangkan dalam c.c., (d) Time yaitu jumlah bulan sejak pertama menyumbangkan darah, Churn Probability yaitu or merupakan variabel yang merepresentasikan apakah pendonor mendonorkan darahnya kembali atau tidak, 1 menyatakan mendonorkan darah (Donation), 0 menyatakan tidak menyumbangkan darah (non Donation). 2.2. Metode Pengumpulan Data Dalam penelitian ini metode pengumpulan data yang digunakan adalah metode pengumpulan data sekunder, yaitu dengan cara mengunduh data yang telah tersedia di database sistem informasi donor darah UDD PMI Kabupaten Bantul. Sampel dari data penelitian ini adalah data profile pendonor darah dan data hasil transaksi donor darah yang didapatkan dari UDD PMI Kabupaten Bantul. 2.3. Analisis Data Beberapa tahapan dalam melakukan analisa data dalam KDD [6] adalah: 1) Domain Understanding dan KDD Goals Tahap pertama dari KDD yaitu Domain Understanding dan KDD Goals pada tahapan ini dilakukan pencarian persoalan-persoalan yang berkaitan dengan prediksi pendonor darah yang potensial, yang dilanjutkan dengan menentukan rumusan masalah serta menganalisa kebutuhan untuk dapat memecahkan masalah tersebut. 2) Selection and Addition Pada tahapan Selection and Addition data yang didapatkan dianalisa agar dapat ditentukan variabel apa saja yang diperlukan berdasarkan analisa kebutuhan yang diperoleh. 3) Preprocessing Data Cleaning Pada tahap ini akan dilakukan pembersihan data. Setelah dihilangkan duplikasi dan null value, terdapat 824 record yang dapat digunakan. 4) Transformation Data yang digunakan dalam penulisan ini beberapa masih dalam bentuk angka, oleh karenanya data ditransformasikan ke dalam klasifikasi atau kelompok berdasar interval untuk pengujian.
17
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Pilihan interval kelas tergantung pada jumlah kelas untuk distribusi tertentu dan ukuran data. Interval kelas diusahakan harus dengan ukuran yang sama. Prof. Sturge telah memberikan rumus berikut untuk menentukan ukuran interval kelas [7]: (1)
Keterangan: N = Total Frekuensi i = Ukuran Kelas Intervalence 5) Evaluation and Interpretation Pada tahap ini adalah tahap pengujian dilakukan dengan menggunakan 660 data training data dan 165 data testing, kemudian dievaluasi menggunakan metode confusion matrix dan curva ROC. AUC pada kurva ROC memiliki tingkat nilai diagnosa yaitu [8]: a. Akurasi bernilai 0,90 – 1,00 = excellent classification b. Akurasi bernilai 0,80 – 0,90 = good classification c. Akurasi bernilai 0,70 – 0,80 = fair classification d. Akurasi bernilai 0,60 – 0,70 = poor classification e. Akurasi bernilai 0,50 – 0,60 = failure 6) Discovered Knowledge Setelah pembentukan model, dilakukan analisa, dan pengukuran, selanjutnya pada tahap ini diterapkan model yang paling akurat dari algoritma sebagai dasar pembuatan aplikasi yang dibuat berdasarkan algoritma terbaik. 3. HASIL DAN PEMBAHASAN 3.1 Hasil Penelitian ini bertujuan melakukan komparasi algoritma C4.5 dan Naïve Bayes untuk prediksi pendonor darah yang potensial mendonorkan darahnya kembali dengan menggunakan dataset RFMTC, kemudian menganalisa akurasi algoritma, algoritma yang paling cocok akan digunakan untuk melakukan prediksi pendonor darah yang potensial mendonorkan darahnya kembali. 1) Algoritma Naïve Bayes Pengujian Confussion Matrix Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai accuracy sebesar 70.30% seperti ditampilkan pada Tabel 1. Tabel 1. Hasil Nilai accuracy Accuracy: 70.30% True Tidak Donor True Donor Class precision Pred. Tidak Donor 73 28 72.28% Pred. Donor 21 43 67.19% Class recall 77.66% 60.56% Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai precision sebesar 67.19% seperti ditampilkan pada Tabel 2. Tabel 2. Hasil Nilai precision Precision: 67.19% (positive class: Donor) True Tidak Donor True Donor Class precision Pred. Tidak Donor 73 28 72.28% Pred. Donor 21 43 67.19% Class recall 77.66% 60.56% Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai recall sebesar 60.56% seperti ditampilkan pada Tabel 3.
18
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Tabel 3. Hasil Nilai precision recall: 60.56% (positive class: Donor) True Tidak Donor Pred. Tidak Donor 73 Pred. Donor 21 Class recall 77.66%
True Donor 28 43 60.56%
Class precision 72.28% 67.19%
Pengujian Curva ROC Pada algoritma Naive Bayes didapatkan hasil dari pengunaan ROC dengan menggunakan data testing menghasilkan nilai sebesar 0,780. Gambar dapat dilihat pada Gambar 1 dengan nilai 0,780, maka tingkat diagnosanya adalah fair classification.
Gambar 1. Grafik ROC Naïve Bayes 2)
Algoritma C4.5
Pengujian Confussion Matrix Pada percobaan menggunakan algoritma C4.5 didapatkan nilai accuracy sebesar 67.27% seperti ditampilkan pada Tabel 4. Tabel 4. Hasil Nilai accuracy Accuracy: 67.27% True Tidak Donor True Donor Class precision Pred. Tidak Donor 48 8 85.71% Pred. Donor 46 63 57.80% Class recall 51.06% 88.73% Pada percobaan menggunakan algoritma C4.5 didapatkan nilai precision sebesar 57.80% seperti ditampilkan pada Tabel 5. Tabel 5. Hasil Nilai Precision precision: 57.80% True Tidak Donor True Donor Class precision Pred. Tidak Donor 48 8 85.71% Pred. Donor 46 63 57.80% Class recall 51.06% 88.73% Pada percobaan menggunakan algoritma C4.5 didapatkan nilai recall sebesar 88.73% seperti ditampilkan pada Tabel 6.
19
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Tabel 6. Hasil Nilai Precision recall: 70.30% (positive class: Donor) True Tidak Donor Pred. Tidak Donor 48 Pred. Donor 46 Class recall 51.06%
True Donor 8 53 60.56%
Class precision 85.71% 57.80%
Pengujian Curva ROC Pada algoritma C4.5 di dapatkan hasil dari Kurva ROC/AUC (Area Under Curve) dengan menggunakan data testing menghasilkan nilai sebesar 0,945. Gambar dapat dilihat pada Gambar 2 dengan nilai 0, 945. maka tingkat diagnosanya adalah excellent classification
Gambar 2. Grafik ROC C4.5 3.2 PEMBAHASAN Dari pengujian confussion matrix dari masing-masing algoritma menghasilkan perbandingan nilai accuracy, precision dan recall pada Tabel 7. Tabel 7. Perbandinga hasil pengujian confussion matrix Algoritma Accuracy Precision Recall C4.5 67.27% 57.80% 88.73% Naïve Bayes 70.30% 67.19% 60.56% Dari Tabel 7, dapat kita lihat perbandingan nilai accuracy pada masing-masing algoritma menunjukkan hasil bahwa algoritma Naïve Bayes memiliki nilai accuracy dan Precision yang lebih tinggi dari C4.5 yaitu sebesar 70.30% untuk accuracy dan 67.19 % untuk precision. Sedangkan algoritma C4.5 mempunyai nilai recall 88.73%, lebih tinggi dari Naïve Bayes. Adapun hasil pengujian curva ROC pada masing-masing algoritma hasilnya dapat dilihat pada Tabel 8. Tabel 8. Komparasi curva ROC Algoritma Nilai ROC C4.5 0.945 Naïve Bayes 0.780
20
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8
Berdasarkan hasil pengujian nilai ROC pada Tabel 8 dapat dilihat bahwa algoritma C4.5 memiliki nilai ROC yang lebih tinggi daripada algoritma Naïve Bayes, sebesar 0.945 dengan klasifikasi Excelent clasification. 4. SIMPULAN Kesimpulan yang dapat diambil dari penelitian mengenai komparasi algoritma C4.5 dan Naïve Bayes untuk prediksi pendonor darah yang potensial mendonorkan darahnya kembali dengan menggunakan dataset RFMTC dari data yang berasal dari UDD PMI Kabupaten Bantul adalah algoritma C4.5 secara keseluruhan nilai AUC memiliki klasifikasi nilai ROC yang lebih baik dari Algoritma Naïve Bayes, sebesar 0.945 dengan klasifikasi Excelent classification. 5. REFERENSI [1] Kementrian Kesehatan Republik Indonesia. 2014. Darah Untuk Menyelamatkan Ibu. http://sehatnegeriku.kemkes.go.id/baca/rilis-media/20140624/4510357/darah-untukmenyelamatkan-ibu/, diakses (18 Juli 2016). [2] Darwiche, M., Feuilloy, M., Bousaleh, G., & Schang, D. 2010. Prediction of Blood Transfusion Donation. IEEE. pp.51-56. [3] Yunus, M., Dahlan, H. S., & Santoso , P. B. 2014. SPK Pemilihan Calon Pendonor Darah Potensial dengan Algoritma C4.5 dan Fuzzy Tahani. Jurnal EECCIS. Vol 8 (1) 47-54. [4] Fais A, S. N., Aditya D, M., & Mulya I, S. 2015. Klasifikasi Calon Pendonor Darah Dengan Metode Naive Bayes Clasifier. http://yudistira.lecture.ub.ac.id/ ,diakses 3 Juli 2016. [5] Aviliani, Sumarwan, U., Sugema, I., & Saefuddin, A. .2011. Segmentasi Nasabah Tabungan Mikro Berdasarkan Recency, Frequency, Dan Monetary : Kasus Bank BRI. Finance and Banking Journal, Vol. 13(1). 95-109. [6] Maimon, O., & Rokach, L. 2010. Data Mining and Knowledge Discovery Handbook. Springer, New York. [7] Jain, T.R & Aggarwal, S.C. 2010. Statistics for BBA. VK Indiana Enterprises, New Delhi. [8] Gorunescu, F. 2011. Data Mining Concepts, Models and Techniques. Springer, Verlag Berlin Heidelrbeg.
21