Konferensi Nasional Ilmu Sosial & Teknologi (KNiST) Maret 2017, pp. 71~76
71
PREDIKSI PENYAKIT DIABETES MENGGUNAKAN NAIVE BAYES DENGAN OPTIMASI PARAMETER MENGGUNAKAN ALGORITMA GENETIKA 1
2
3
Frisma Handayanna , Rinawati , Ester Arisawati , Linda Sari Dewi
4
1
STMIK Nusa Mandiri Jakarta e-mail:
[email protected] 2
STMIK Nusa Mandiri Jakarta e-mail:
[email protected] 3
STMIK Nusa Mandiri Jakarta e-mail:
[email protected] 4
STMIK Nusa Mandiri Jakarta e-mail:
[email protected] Abstrak Penyakit diabetes merupakan salah satu penyakit yang jumlahnya semakin meningkat dan bisa menyebabkan kematian. Penyakit diabetes merupakan penyakit sosial yang serius dan orang bisa terkena dalam jumlah besar, serta menyebabkan komplikasi dan melibatkan biaya yang tinggi. Untuk mengatasi permasalahan yang ada diperlukan suatu model yang mampu mengklasifikasikan dan memprediksi penyakit diabetes Type 3. Dalam penelitian ini dilakukan pengujian yaitu algoritma Naive Bayes dan algoritma Naive Bayes berbasis Algoritma Genetika mendapatkan rule dalam memprediksi penyakit diabetes dengan memberikan nilai akurasi yang lebih akurat. Dikarenakan masih banyak penelitian yang menggunakan metode Naive Bayes dalam memprediksi penyakit diabetes, tetapi nilai akurasi yang dihasilkan masih kurang akurat. Diharapkan penelitian ini dapat membantu masyarakat karena dengan adanya atribut yang menjelaskan penyebab dari penyakit diabetes type 3 sehingga mengetahui lebih dini apa yg menyebabkan penyakit diabetes type 3. Untuk dunia kesehatan, sebagai second opinion untuk tindakan atau langkah yang akan dilakukan oleh dokter untuk mendeteksi penyakit diabetes type 3. Dan bagi pengembangan keilmuan adalah penerapan algoritma Naive Bayes berbasis Algoritma Genetika dapat digunakan untuk prediksi penyakit diabetes type 3 dengan lebih cepat dan akurat. Dengan dilakukannya pengujian dengan dua model yaitu Algoritma Naive Bayes dan Naive Bayes berbasis Algoritma Genetika. Hasil yang didapat adalah pengujian dengan menggunakan Naive Bayes didapatkan nilai accuracy adalah 72.00% sedangkan pengujian dengan menggunakan Naive Bayes berbasis Algoritma Genetika didapatkan nilai accuracy 74.74% dan Sehingga dapat disimpulkan bahwa penerapan model Naive Bayes dengan Algoritma Genetika untuk seleksi fitur dan optimalisasi parameter terbukti dapat meningkatkan akurasi dalam prediksi penyakit diabetes type 3. Keywords: Diabetes, Naive Bayes, Algoritma Genetika
1. Pendahuluan Diabetes adalah penyakit di mana tubuh tidak mampu untuk menggunakan gula (atau glukosa) yang mengakibatkan terlalu banyak gula dalam darah (hiperglikemia). Ada tiga jenis diabetes: tipe 1 (insulin dependent), tipe 2 (non-insulin dependent diabetes mellitus (NIDDM) atau "onset dewasa"), dan diabetes mellitus gestasional (GDM). Jenis ketiga diabetes ada yang hanya mempengaruhi perempuan dan disebut
gestational diabetes mellitus (GDM) (Okatiranti, 2016). GDM adalah jenis sementara diabetes yang terjadi selama kehamilan. Kebanyakan wanita dengan GDM akan kembali ke kadar glukosa yang normal setelah melahirkan bayi (Gestational Diabetes & First Nations Women, 2009). Klasifikasi Naive Bayes sering bekerja jauh lebih baik di banyak situasi dunia nyata yang kompleks dari mengharapkan satu kekuatan. Dimana variabel independen
Diterima 23 Januari 2017; Revisi 12 Februari 2017; Disetujui 15 Maret, 2017
ISBN: 978-602-61242-0-3 dianggap untuk tujuan prediksi atau terjadinya peristiwa (Pattekari & Parveen, 2012). Algoritma Genetika adalah metode pencarian umum stokastik, mampuefektif menjelajahi ruang pencarian besar (Karegowda, Manjunath & Jayaram, 2011) . Algoritma yang paling efektif keputusan besar perhitungan pengurangan sistem dalam praktek adalah Algoritma Genetika (Mahmud, Agiza & Radwan, 2009).
Ditahap ini dilakukan penyeleksian data, datadibersihkan dan ditransformasikan kebentuk yangdiinginkan sehingga dapat dilakukan persiapan dalampembuatan model. 3. Metode yang diusulkan Pada tahap ini data dianalisis, dikelompokan variabelmana yang berhubungan dengan satu sama lainnya. Setelah data dianalisis lalu diterapkan model-model yang sesuai dengan jenis data. Pembagian data kedalam data latihan (training data) dan data uji (testing data)juga diperlukan untuk pembuatan model. 4. Eksperimen dan pengujian metode Pada tahap ini model yang diusulkan akan diuji untukmelihat hasil berupa rule yang akan dimanfaatkan dalampengambilan keputusan. 5. Evaluasi dan validasi Pada tahap ini dilakukan evaluasi terhadap model yangditetapkan untuk mengetahui tingkat keakurasian model.
2. Metode Penelitian Dalam penelitian ini dilakukan beberapa langkah yangdilakukan dalam proses penelitian. 1. Pengumpulan data Pada tahap ini dicari data yang tersedia, memperolehdata tambahan yang dibutuhkan, mengintegrasikansemua data kedalam data set, termasuk variabel yangdiperlukan dalam proses.
2. Pengolahan data awal Tabel 1. Atribut Dan Data Penyakit Diabetes Type 3 Berapa Kali Hamil
Konsentrasi Glukosa
Tekanan Darah
Lipatan Kulit
Serum Insulin
Massa Tubuh
Diabetes type 3 Silsilah Fungsi
Umur
6
14
148
35
0
33.6
0.627
50
Ya
1
85
66
29
0
26.6
0.351
31
Tidak
8
18
64
0
0
23.3
0.672
32
Ya
1
89
66
23
94
28.1
0.167
21
Tidak
0
13
40
35
168
43.1
2.288
33
Ya
5
11
74
0
0
25.6
0.201
30
Tidak
3
78
50
32
88
31.0
0.248
26
Ya
10
115
115
0
0
35.3
0.134
29
Tidak
2
19
70
45
543
30.5
0.158
53
Ya
8
12
96
0
0
0.0
0.232
54
Ya
Kelas
Sumber: (UCI Repository) Teknik pengumpulan data Teknik pengumpulan datayang diperoleh adalah data sekunder karena diperoleh dari Pima Indian diabetes Type 3 database dalam UCI (singkatan dari Pima Diabetes). Masalah yang harus dipecahkan di sini adalah prediksi terjadinya diabetes type 3 melitusType 3 dalam waktu 5 tahun dengan menggunakan Pima yang berisi 786 orang yang diperiksa dan sebanyak 500 pasien tidak terdeteksi terkena penyakit diabetes, sehingga 268 pasien terdeteksi penyakit
KNiST, 30 Maret 2017
diabetes. Data pasien penyakit diabetes type 3 bisa di lihat pada Tabel 1. Pengolahan data awal Jumlah data awal yang diperoleh dari pengumpulan data yaitu sebanyak 768 data, namun tidak semua data dapat digunakan dan tidak semua atribut digunakan karena harus melalui beberapa tahap pengolahan awal data (preparation data).
Tabel 2. Atribut Diabetes Type 3
72
ISBN: 978-602-61242-0-3 yang digunakan No
Atribut
Nilai
1
Berapa Kali Hamil
Berapa kali wanita hamil
2
Konsentrasi Glukosa
Konsentrasi glukosa plasma 2 jam dalam tes toleransi glukosa oral
3 4 5
Tekanan Darah Lipatan Kulit Serum Insulin
Tekanan Darah diastolik (mmHg) Triceps ketebalan lipatan kulit (mm) 2-Jam serum insulin (mu U / ml) Indeks massa tubuh (berat dalam kg / (tinggi dalam m) ^ 2)
6
Masssa Tubuh
7
Diabetes type 3 Silsilah Fungsi
Diabetes type 3 silsilah fungsi
8
Umur
Umur (tahun)
Sumber: (UCI Repository) Metode yang diusulkan Pada tahap modeling ini dilakukan pemprosesan data traning sehingga akan membahas metode algoritma yang diuji dengan memasukan data penyakit diabetes type 3 kemudian di analisa dan dikomparasi.
1. Naive Bayesyaitu suatu metode sebuah metode seleksi fitur, dan mengambilsalah satu yang memilikiakurasiklasifikasiterbaik. 2.Algoritma Genetikayaitu Model yang diusulkan pada penelitian tentang prediksi penyakit diabetes type 3 adalah dengan menerapkan Naive Bayes dan Naive Bayes berbasis Algoritma Genetika. Evaluasi dan Validasi Hasil Model yang diusulkan pada penelitian tentang prediksi penyakit diabetes type 3 adalah dengan menerapkan Naive Bayes dan naive bayesNaive Bayes berbasis Algoritma Genetika 3. Pembahasan Hasil Eksperimen dan Metode 3.1 Evaluasi dan validasi hasil Naive Bayes Hasil dari pengujian model yang dilakukan memprediksi penyakit diabetes type 3 dengan Naive Bayes untuk menentukan nilai accuracy dan AUC. Dalammenentukan nilai tingkat keakurasian dalam model dengan Naive Bayes. Metode pengujiannya menggunakan cross validation dengan desain modelnya sebagai berikut.
Genetic Algorithm Given a population of particles with random positions and velocities A particle in the population
Atrbute Weight represented by this particle
Traning Naïve Bayes Model Update particle velocitiy and global position
No
Is stop condition satisfied? Yes Optimal Naïve Bayes Atribute obtined Optimal Naïve Bayes classification model obtined
Sumber: Hasil Penelitian (2017) Gambar 3. Desain Model Validasi Pada penelitian penentuan hasil penyakit diabetes type 3 menggunakan algoritma Naive Bayes berbasis pada framework RapidMiner sebagai berikut:
Sumber: Hasil Penelitian (2017) Gambar 2. Metode yang diusulkan Eksperimen dan Pengujian Metode Tahap modeling untuk menyelesaikan prediksi penyakit diabetes type 3 dengan menggunakan dua metode yaitu algoritma naive bayesdan algoritma algoritma genetika.
KNiST, 30 Maret 2017
Sumber: Hasil Penelitian (2017) Gambar 4. Model Pengujian Validasi Naive Bayes 73
ISBN: 978-602-61242-0-3
Nilai accuracy, precision, dan recall dari data training dapat dihitung dengan menggunakan RapidMiner. Hasil pengujian dengan menggunakan model Naive Bayes didapatkan hasil pada tabel 3 1. Confusion Matrix Tabel 4 diketahui dari 768 data, 115 diklasifikasikan ya sesuai dengan prediksi yang dilakukan dengan metode naïve bayes, lalu 62 data diprediksi ya tetapi ternyata hasilnya prediksi tidak, 438data class tidak diprediksi sesuai, dan 153 data diprediksi tidak ternyata hasil prediksinya ya. Tabel 4. Model Confusion Matrix untuk Metode Naive Bayes accuracy:72.00% +/-5.12% (mikro: 72.01%) True True Class Ya Tidak precission pred. Ya 115 62 71.08% pred. Tidak 153 438 75.08% class recall 44.03% 90.04%
Gambar 5. Kurva ROC dengan Metode Naïve Bayes Dari Gambar 3 terdapat grafik ROC dengan nilai AUC (Area Under Curve) sebesar 0.753 dimana diagnosa hasilnya Fair classification. Berdasarkan hasil eksperiment yang dilakukan untuk memecahkan masalah prediksi hasil prediksi penyakit diabetes type 3, dapat disimpulkan bahwa hasil eksperiment menggunakan metode Naive Bayes mempunyai tingkat akurasi sebesar 72.00 % dan mempunyai nilai AUC sebesar 0.753. 3.2 Evaluasi dan validasi hasil Naive Bayes Berbasis Genetika Algoritma Pada penelitian penentuan hasil penyakit diabetes type 3 menggunakan Naive Bayes berbasis Genetika Algoritma pada framework RapidMiner sebagaiberikut
Sumber: Hasil Penelitian (2017) Berdasarkan Tabel 4tersebut menunjukan bahwa, tingkat akurasi dengan menggunakan algoritma Naive Bayes adalah sebesar 72,00%, 2. Kurva ROC Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua metode komparasi bisa dilihat pada Gambar 3 yang merupakan kurva ROC untuk algoritma Naive Bayes. Kurva ROC pada gambar 3 mengekspresikan confusion matrix dari Tabel 4. Garis horizontal adalah false positives dan garis vertikal true positives. Sumber: Hasil Penelitian (2017) Gambar 6. Model pengujian validasi Naive Bayes berbasis Genetika Algoritma
Sumber: Hasil Penelitian (2017)
KNiST, 30 Maret 2017
Nilai accuracy, precision, dan recall dari data training dapat dihitung dengan menggunakan RapidMiner. Hasil pengujian dengan menggunakan model Naive Bayes berbasis Genetika Algoritmadidapatkan hasil pada tabel 5 1. Confusion Matrix Tabel 5 diketahui dari 768 data, 116 diklasifikasikan ya sesuai dengan prediksi yang dilakukan dengan validasi Naive Bayes berbasis Genetika Algoritma, lalu 42 data diprediksi ya tetapi ternyata hasilnya prediksi
74
ISBN: 978-602-61242-0-3 tidak, 458 data class tidak diprediksi sesuai, dan 152 data diprediksi tidak ternyata hasil prediksinya ya. Tabel 5. Model Confusion Matrix untuk Metode validasi Naive Bayes berbasis Genetika Algoritma accuracy:74.74% +/-2.90% (mikro: 74.74%) True True Class Ya Tidak precission pred. Ya 116 42 73.42% pred. Tidak 152 458 75.08% class recall 43.28% 91.60%
Sumber: Hasil Penelitian (2017)
Genetikamempunyai tingkat akurasi sebesar 74.74% dan mempunyai nilai AUC sebesar 0.790.
Tabel 6. Pengujian algoritma Naive Bayes dan Naïve Bayes Berbasis Algoritma Genetika Naive Bayes Naive Bayes Berbasis Algoritma Genetika
Accuracy 72.00%
AUC 0.753
74.74%
0.759
Sumber: Hasil Penelitian (2017) Berdasarkan Tabel 5 tersebut menunjukan bahwa, tingkat akurasi dengan menggunakan algoritma Naive Bayes berbasis Algoritma Genetika adalah sebesar 74,74%. 3. Kurva ROC Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua metode komparasi bisa dilihat pada Gambar 3 yang merupakan kurva ROC untuk algoritma Naive Bayes. Kurva ROC pada gambar 3 mengekspresikan confusion matrix dari Tabel 4. Garis horizontal adalah false positives dan garis vertikal true positives.
Sumber: Hasil Penelitian (2017) Gambar 7. Kurva ROC dengan Metode Naïve Bayesberbasis Algoritma Genetika Dari Gambar 7 terdapat grafik ROC dengan nilai AUC (Area Under Curve) sebesar 0.790 dimana diagnosa hasilnya Fair classification. Berdasarkan hasil eksperiment yang dilakukan untuk memecahkan masalah prediksi hasil prediksi penyakit diabetes type 3, dapat disimpulkan bahwa hasil eksperiment menggunakan metode Naive Bayesberbasis Algoritma KNiST, 30 Maret 2017
4. Simpulan Berikut ini kesimpulan yang penulis ambil setelah melakukan penelitian. Hasil eksperimen pengujian data penyakit diabetes UCI data set dengan menggunakan Naive Bayes sebelum dan sesudah dilakukan seleksi atribut dengan optimasi parameter dengan Algoritma Genetika, menunjukkan bahwa adanya perbedaan yang signifikan pada akurasinya. Dan penerapan model Naive Bayes Algoritma Genetika untuk seleksi fitur dan optimasi parameter terbukti meningkatkan akurasi dalam prediksi penyakit diabetes type 3 . Pada penelitian ini penerapan model Naïve Bayes berbasis Algoritma Genetika dapat meningkatkan akurasi prediksi penyakit diabetes type 3, akan tetapi karena keterbatasan mengenai penelitian yang dilakukan ini disarankan untuk melakukan penelitian selanjutnya yang berkaitam dengan prediksi untuk mendapatkan akurasi yang lebih baik. Adapun saran yang diberikan yaitu: 1. Data Prediksi penyakit diabetes type 3 merupakan data yang diambil dari UCI Repository dimana atribut disesuaikan dengan kondisi penyakit diabates type 3, penelitian ini dapat dijadikan acuan bagi penentuan penyakit diabetes yang datanya bermanfaat bagi dunia kesehatan. 2. Parameter yang digunakan untuk penentuan penyakit diabetes type 3 mungkin akan bertambah dengan perubahan lingkungan. 3. Penelitian ini dapat dikembangkan dengan metode klasifikasi data mining lainnya seperti Decision tree, Neural Network, KNN dan lainnya serta melakukan optimasi dengan Ant Colony 75
ISBN: 978-602-61242-0-3 Optimization lainnya.
(ACO),
Adaboost,
dan
Referensi Iancu, E., Iancu, I., & Sfredel, V. (2010). Predictive Control Of Blood Glucose In Diabetes Mellitus Patients. International Conference On Automation, Quality And Testing, Robotics , 1-6. Karegowda, A.G. Manjunath, A.S. Jayaram, M.A. (2011). Application Of Genetic Algorithm Optimized Neural Network Connection Weights For Medical Diagnosis Of Pima Indians Diabetes. International Journal On Soft Computing (Ijsc ). 15-23. Mahmud ,W.M. Agiza, H N. & Radwan, E. (2009). Intrusion Detection Using Rough Sets Based Parallel Genetic Algorithm Hybrid Model. Proceedings Of The World Congress On Engineering And Computer Science. Mason, R. (2005). The Natural Diabetes Cure. Usa: 4th Printing Spring 2012. Okatiranti, O. (2016). PENGETAHUAN PASIEN DIABETES MELITUS TIPE II TENTANG PERAWATAN KAKI DI WILAYAH KERJA PUSKESMAS CIKUTRA BARU KECAMATAN CIBEUNYING KALER BANDUNG. KEPERAWATAN, 1(1). Pattekari, S.A. Parveen, A. (2012). Prediction System For Heart Disease Using Naive Bayes. International Journal of Advanced Computer and Mathematical Sciences, 290-294
Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program Strata Satu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta. Telah melakukan penulisan paper di Jurnal STMIK Antarbangsa Jurnal Sistem Informasi ISSN 2089-8711 Vol. IV No.1 Februari 2015, Jurnal STMIK Antarbangsa Jurnal Teknik Informatika Vol. I No. 2 Agustus 2015 ISSN. 2442-2444. Jurnal STMIK Antarbangsa Jurnal Teknik Informatika Vol. II No. 1 Februari 2016 ISSN. 2442-2444. Ester Arisawati, M.Kom. lulus Tahun 2007 Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta. Rinawati, M.Kom. lulus Tahun 2005 Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2008 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta. Linda Sari Dewi, M.Kom. lulus Tahun 2009Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta.
Biodata Penulis Frisma Handayanna, M.Kom. Lulus Tahun 2006 Diploma Tiga (DIII) Jurusan Komputer
KNiST, 30 Maret 2017
76