KNIT-2 Nusa Mandiri
ISBN: 978-602-72850-1-9
KOMPARASI ALGORITMA KLASIFIKASI DECISION TREE, NAIVE BAYES DAN NEURAL NETWORK UNTUK PREDIKSI PENYAKIT GINJAL KRONIS Raja Syahmudin Harahap Teknik Informatika, STMIK ERESHA UNPAM JL. Raya Puspitek No.11, Serpong, Tangerang Selatan
[email protected] ABSTRACT: Chronic kidney disease is a worldwide health crisis. In 2005, there were about 58 million deaths worldwide, with 35 million people associated will chronic kidney disease. (World Health Organization). Data mining plays a vital role in health care domain, nowadays. There is an increased need for an efficient analytical methodology to detect unknown and valuable information in health data. It produces huge amount of data about patients, diseases, diagnosis and medicines so on. In the health care industry, the data mining is mainly used for predicting the diseases from the datasets. In order to obtain high accuracy algorithm will do a comparison few algorithms that have different characteristics, they are Decision Tree, Naïve Bayes and Neural Network. From the test results to measure the performance of the three algorithms using the test method Cross Validation, Confusion Matrix and ROC curves, it is known that the algorithm Naïve Bayes has the highest accuracy value of 99,50%, followed by Decision Tree algorithm with the accuracy value of 97,25%, and Neural Network algorithm with the accuracy value of 97,25% . AUC values for Naïve Bayes algorithm also showed the highest value, namely 1,000, followed by Decision Tree algorithm with AUC values of 0,998 and the lowest is the Neural Network algorithm with AUC values of 0,991. All methods are include excellent classification because the AUC value between 0,90-1,00.
Keywords: Chronic kidney disease, data mining, comparison, decision tree, naïve bayes, neural network
PENDAHULUAN Data mining memainkan peran penting dalam bidang kesehatan, saat ini. Ada peningkatan kebutuhan yang efisien dalam metodologi analisis untuk mendeteksi informasi yang tidak diketahui dan berharga dalam data kesehatan. Ini menghasilkan sejumlah besar data tentang pasien, penyakit, diagnosis dan obat-obatan. Dalam bidang kesehatan, data mining digunakan untuk memprediksi penyakit dari dataset (Khaleel et al. 2013). Penyakit ginjal kronis (PGK) adalah krisis kesehatan di seluruh dunia. pada tahun 2005, ada sekitar 58 juta kematian di seluruh dunia dengan 35 juta penderita yang dikaitkan dengan penyakit ginjal kronis (World Health Organization). Beberapa kondisi seperti diabetes dan tekanan darah tinggi menjadi penyebab terjadinya tekanan pada ginjal. Dalam jangka panjang, kondisi-kondisi ini membuat fungsifungsi di atas tidak akan berjalan dengan baik.
PGK diderita sekitar 10% populasi dunia. Tingginya jumlah penderita diabetes di Asia membuat gagal ginjal lebih umum terjadi pada penduduk Asia. Selain diabetes, tekanan darah tinggi juga menjadi salah satu penyebab terkuat terjadinya penyakit ginjal kronis di Asia. Indonesia termasuk ke dalam 10 besar negara di Asia dengan kasus penyakit gagal ginjal tertinggi. PERNEFRI (Perhimpunan Nefrologi Indonesia) dan Kementerian Kesehatan menemukan bahwa penderita gagal ginjal kronis di Indonesia mencapai 25 sampai 30 juta orang. Dalam penelitian ini yang akan dilakukan adalah komparasi algoritma klasifikasi data mining, diantaranya adalah algoritma Decision Tree, algoritma Naïve Bayes dan algoritma Neural Network untuk prediksi penyakit ginjal kronis dengan tujuan agar algoritma yang didapat merupakan algoritma yang paling akurat. Penelitian ini bertujuan untuk mendapatkan algoritma klasifikasi data mining yang paling
441
KNIT-2 Nusa Mandiri akurat untuk prediksi penyakit ginjal kronis. Algoritma-algoritma yang digunakan adalah decision tree, naive bayes dan neural network. BAHAN DAN METODE Metode penelitian pada penelitian ini adalah penelitian eksperimen dengan tahapan penelitian sebagai berikut: 1.
Pengumpulan data Pengumpulan data merupakan tahap paling awal dalam penelitian. Untuk memperoleh data yang benar-benar akurat, maka penentuan jenis dan sumber data sangat penting. Sumber data pada penelitian ini adalah dataset penyakit ginjal kronis yang diperoleh dari UCI dataset melalui halaman website http://archive.ics.uci.edu/ml/datasets/Chronic_ Kidney_Disease dengan jumlah atribut sebanyak 25 dan jumlah data sebanyak 400. Pengolahan data awal Data yang digunakan dalam penelitian ini merupakan dataset yang didapat dari UCI Machine Learning Repository pada bagian Chronic Kidney Disease Dataset dengan menggunakan 25 atribut yaitu : a. Age: usia dalam tahun b. Blood Pressure: dalam mm/Hg c. Specific Gravity: bernilai 1.005,1.010,1.015,1.020,1.025 d. Albumin: bernilai 0,1,2,3,4,5 e. Sugar: bernilai 0,1,2,3,4,5 f. Red Blood Cells: dalam normal/abnormal g. Pus Cell: dalam normal/abnormal h. Pus Cell clumps: dalam present/notpresent i. Bacteria: dalam present/notpresent j. Blood Glucose: dalam mgs/dl k. Blood Urea: dalam mgs/dl l. Serum Creatinine: dalam mgs/dl m. Sodium: dalam mEq/L n. Potassium: dalam mEq/L o. Hemoglobin: dalam gms p. Packed Cell Volume q. White Blood Cell Count: dalam cells/cumm r. Red Blood Cell Count: dalam millions/cmm s. Hypertension: bernilai ya atau tidak t. Diabetes Mellitus: bernilai ya atau tidak u. Coronary Artery Disease: bernilai ya atau tidak v. Appetite: bernilai good/poor w. Pedal Edema: bernilai ya atau tidak x. Anemia: bernilai ya atau tidak y. Class: bernilai ckd/notckd
ISBN: 978-602-72850-1-9 3.
Metode yang diusulkan Pada tahap ini dijelaskan metode yang digunakan untuk komparasi algoritma klasifikasi data mining. Proses secara bertahap dimulai dari pengolahan data pre-processing data yaitu integrasi, selection dan cleansing. Selanjutnya dilakukan komparasi terhadap model klasifikasi yang digunakan yaitu decision tree, naïve bayes dan neural network.
2.
442
Sumber: hasil rancangan (2016) Gambar 1. Metode yang diusulkan 4.
Pengujian model Dalam melakukan penelitian ini diperlukan eksperimen dan proses pengujian model yang diusulkan. Proses eksperimen dan pengujian model menggunakan bagian dari dataset yang ada. Semua dataset kemudian diuji dengan metode yang diusulkan pada aplikasi Rapid Miner studio 7. Dalam penelitian eksperimen digunakan spesifikasi software dan hardware sebagai alat bantu dalam penelitian pada Tabel 1.dibawah ini. Tabel 1. Spesifikasi hardwaredan software SOFTWARE Sistem operasi Windows 7 Professional 64-bit Data mining : Rapidminer studio 7
HARDWARE CPU : intel core i5 Memory : 2 GB Harddisk : 500 GB
Sumber: hasil rancangan (2016)
KNIT-2 Nusa Mandiri Evaluasi dan validasi hasil Model yang diusulkan pada penelitian ini akan diuji dengan menggunakan confusion matrix untuk mengetahui tingkat akurasi. Confusion matrix akan menggambarkan hasil akurasi mulai dari prediksi positif yang benar, prediksi positif yang salah, prediksi negative yang benar, dan prediksi negative yang salah. Akurasi akan dihitung dari seluruh prediksi yang benar (baik prediksi positif dan negatif) dibandingkan dengan seluruh data testing. Semakin tinggi nilai akurasi, semakin baik pula model yang dihasilkan. Pengujian diukur dengan menggunakan ROC Curve. ROC Curve akan menggambarkan kelas positif dalam bentuk kurva. Pengujian dilakukan dengan menghitung nilai AUC( Area Under Curve), semakin tinggi nilai AUC dalam ROC Curve, maka semakin baik pula model klasifikasi yang terbentuk.
ISBN: 978-602-72850-1-9
5.
HASIL DAN PEMBAHASAN Tujuan utama dari penelitian ini adalah untuk mengetahui tingkat keakurasian algoritma-algoritma klasifikasi data mining pada penyakit ginjal kronis. Dalam menentukan tingkat keakurasian ini maka hasil analisis algoritma dengan pendekatan Decision Tree, Naïve Bayes dan Neural Network akan dilakukan komparasi. Sebelum melakukan komparasi, masingmasing algoritma akan diuji kinerjanya. Metode pengujiannya adalah menggunakan 10-Fold Cross Validation dengan desain modelnya seperti pada gambar 1.
Gambar 3. Model pengujian validasi decision tree Maka didapat hasil nilai confusion matrix, nilai accuracy dan nilai recall serta AUC dari pengujian diatas adalah sebagai berikut:
Gambar 4. Nilai accuracy decision tree Dari hasil didapatkan bahwa nilai accuracy yang terdapat pada model decision tree adalah 97,25% yang terlihat pada gambar 4. Pengujian model Naïve Bayes Pengujian model dengan naïve bayes pada Rapidminer terlihat pada gambar 5. sebagai berikut:
Gambar 5. Model pengujian validasi naïve bayes Maka didapat hasil nilai confusion matrix, nilai accuracy dan nilai recall serta AUC dari pengujian diatas adalah sebagai berikut: Gambar 2. Desain model validasi Pengujian model Decision Tree Pengujian model dengan decision tree pada Rapidminer terlihat pada gambar 3. sebagai berikut: Gambar 6. Nilai accuracy naïve bayes
443
KNIT-2 Nusa Mandiri
ISBN: 978-602-72850-1-9
Dari hasil didapatkan bahwa nilai accuracy yang terdapat pada model naïve bayes adalah 99,50% yang terlihat pada gambar 6. Pengujian model Neural Network Pengujian model dengan neural network pada Rapidminer terlihat pada gambar 7. sebagai berikut:
Gambar 7. Model pengujian validasi neural network Maka didapat hasil nilai confusion matrix, nilai accuracy dan nilai recall serta AUC dari pengujian diatas adalah sebagai berikut:
Gambar 8. Nilai accuracy neural network Dari hasil didapatkan bahwa nilai accuracy yang terdapat pada model neural network adalah 97,25% yang terlihat pada gambar 8. Tabel 2. Perbandingan performance algoritma DT Accuracy AUC
NB
NN
97.25%
99.50%
97.25%
0.998
1.000
0.991
Sumber: Hasil pengolahan data Berdasarkan tabel 2. dapat diketahui bahwa algoritma naive bayes memiliki nilai accuracy tertinggi yaitu 99,50%, decision tree 97,25% dan neural network 97,25%. Sedangkan pada uji ROC curve menunjukkan bahwa naive bayes mencapai nilai AUC yang terbaik yaitu 1,000, kemudian decision tree 0,998 dan neural network 0,991. KESIMPULAN Berdasarkan komparasi algoritma klasifikasi data mining yaitu decision tree,
444
naïve bayes dan neural network untuk prediksi penyakit ginjal kronis dengan menggunakan UCI dataset sebanyak 400 data penyakit ginjal kronis. Model yang dihasilkan diuji untuk mendapatkan nilai accuracy, precision, recall dan AUC dari setiap algoritma sehingga didapat pengujian dengan menggunakan decision tree didapat nilai accuracy adalah 97,25 % dengan nilai precision 95,15 %, kemudian nilai recall 98,00% dan nilai AUC adalah 0,998. sedangakan pengujian dengan mengunakan naïve bayes didapatkan nilai accuracy 99,50 % dengan nilai precision 99,38 %, kemudian nilai recall 99,33% dan nilai AUC adalah 1,000 dan neural network didapatkan nilai accuracy 97,25 % dengan nilai precision 96,40 %, kemudian nilai recall 96,67% dan nilai AUC adalah 0,991. Dengan demikian dari hasil pengujian model di atas, dapat disimpulkan bahwa naïve bayes adalah algoritma yang paling akurat untuk prediksi penyakit ginjal kronis. Meskipun pada penelitian komparasi algoritma klasifikasi data mining ini menghasilkan naïve bayes sebagai algoritma yang paling akurat untuk melakukan prediksi penyakit ginjal kronis, ada beberapa saran untuk penelitian selanjutnya yaitu: 1. Agar menambahkan beberapa algoritma klasifikasi data mining untuk dikomparasi seperti Particle Swarm Optimization, Support Vector Machine, Random Forest dan lain lain. 2. Agar menambahkan metode seleksi fitur seperti information gain, chi square, forward selection dan lain-lain. 3. Agar hasil penelitian ini diharapkan bisa digunakan untuk rumah sakit untuk meningkatkan akurasi dalam prediksi penyakit ginjal kronis. UCAPAN TERIMA KASIH Terima kasih kepada Bapak Anen Tumanggung, Ph.D, yang telah banyak mengarahkan, membimbing dan memberikan materi-materi pengajaran dalam menyelesaikan penelitian ini. DAFTAR PUSTAKA Alpaydin, Ethem. (2010). Introduction to Machine Learning. London: The MIT Press Astuti, E. D. (2009). Pengantar Jaringan Saraf Tiruan. Wonosobo: Star Publishing.
KNIT-2 Nusa Mandiri
ISBN: 978-602-72850-1-9
Budi Santoso. (2007). Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis, 1st ed. Yogyakarta, Indonesia: Graha Ilmu. Dr. S. Vijayarani; Mr.S.Dhayanand. (2015). ‘Kidney Disease Prediction Using Svm and Ann’, 6.2. Florin Gorunescu. (2011). Data Mining: Concepts, Model and Techniques, Prof. Janusz Kacprzyk and Prof. Lakhmi C. Jain, Eds. Berlin, Jerman: Springer, vol. 12. Gary S. Collins and others. (2013). ‘A Systematic Review Finds Prediction Models for Chronic Kidney Disease Were Poorly Reported and Often Developed Using Inappropriate Methods’, Journal of Clinical Epidemiology, 66.3, 268–77. Han, J., & Kamber, M. (2006). Data Mining Concept and Tehniques. San Fransisco: Morgan Kauffman. Ian H. Witten, frank Eibe, and Mark A. Hall. ( 2011). Data Mining: Practical Machine Learning Tools and Techniques, 3rd ed., Asma Stephan and Burlington, Eds. United States of America: Morgan Kaufmann. Jiawei Han. (2007). Data Mining Concept And Technique, 2nd ed., Asma Stephan, Ed. Champaign, United States of America: Multiscience Press. Kusrini, & Luthfi, E. T. (2009). Algoritma Data mining. Yogyakarta: Andi. Larose, D. T. (2005). Discovering Knowledge in Data. Canada: Wiley Interscience. Marc Breit and Klaus M. Weinberger. (2016). ‘Metabolic Biomarkers for Chronic Kidney Disease’, Archives of Biochemistry and Biophysics. Mohammed Abdul Khaleel, Sateesh Kumar and Pradham G N Dash. (2013). ‘A Survey of Data Mining Techniques on Medical Data for Finding Locally Frequent Diseases’, International Journal of Advanced Research in Computer Science and Software Engineering, 3.8, 2277–128. Parul sinha; Poonam Sinha. (2015). ‘Comparative Study of Chronic Kidney Disease Prediction Using KNN and SVM’, 4.12, 608–12. Shukla, A., Tiwari, R., & Kala, R. (2010). Real Life Application of Soft Computing. CRC Press. S.Ramya; Dr. N.Radha. (2016). ‘Diagnosis of Chronic Kidney Disease Using Machine Learning Algorithms’, Technology, 812–20. Wu, Xindong& Kumar, Vipin. (2009). The Top Ten Algorithms in Data Mining. Boca Raton: CRC Press Xindong Wu and Vipin Kumar. (2009). The top ten Algorithms in Data Mining: Taylor & Francis Group, LLC.
445