Jurnal Teknologi Informasi, Volume 9 Nomor 2, Oktober 2013, ISSN 1414-9999
DETEKSI PENYAKIT DIABETES TYPE II DENGAN NAIVE BAYES BERBASIS PARTICLE SWARM OPTIMIZATION Parida Purnana dan Catur Supriyanto Pascasarjana Teknik Informatika Universitas Dian Nuswantoro
ABSTRAK Menurut International Diabetes Federation saat ini ada 246 juta penderita diabetes diseluruh dunia, dan jumlah ini diperkirakan akan meningkat menjadi 380 juta pada tahun 2025. Telah terbukti bawa 80% dari kompikasi diabetes tipe 2 dapat dicegah atau ditunda pada awal identifikasi orang yang beresiko. Diabetes melitus tipe 2 adalah jenis yang paling umum dari diabetes umumnya yaitu 9095%. Diabetes tipe ini biasanya menyerang orang dewasa diatas 45 tahun, karena kelebihan berat badan. Metode yang digunakan dalam penelitian ini adalah naive bayes berbasis particle swarm optimization (PSO) untuk meningkatkan akurasi dalam deteksi penyakit diabetes. Data set yang akan digunakan sejumlah 598 pasien dengan parameter sebagai berikut: usia, jenis kelamin, kolesterol total, HDL, LDL, trigliserid, hemoglobin, lekosit, trombosit, tekanan darah, riwayat diabetes, olahraga, merokok, hamil. Hasil penelitian ini, algoritma naive bayes berbasis particle swarm optimization terbukti akurat dengan akurasi 98.16% dan memiliki nilai AUC 0.99 dikategorikan ke dalam excellent classification. Nilai ini membuktikan bahwa algoritma naive bayes berbasis particle swarm optimization dapat meningkatkan akurasi pada deteksi penyakit diabetes type II. Keywords: Data mining, Penyakit Jantung, Naive bayes, Particle Swarm Optimization 1. PENDAHULUAN The American Diabetes Association mengkategorikan diabetes tipe 1, yang biasa didiagnosis pada anak-anak dan orang muda, dan diabetes tipe 2 yang paling umum [1]. Dibetes menyebabkan penyakit lain/komplikasi. Komplikasi yang lebih sering terjadi dan mematikan adalah serangan jantung dan stroke, hal ini karena kadar gula mengalami kenaikan terus menerus sehingga berakibat rusaknya pembuluh darah, saraf dan srtuktur internal lainya.Diabetes melitus tipe 2 adalah jenis yang paling umum dari diabetes umumnya yaitu 90-95%. Diabetes tipe ini biasanya menyerang orang dewasa diatas 45 tahun, karena kelebihan berat badan [2]. Diabetes adalah salah satu penyakit metabolik di mana pasien memiliki gula darah tinggi yang disebabkan baik oleh tubuh kegagalan untuk memproduksi insulin yang cukup atau kegagalan sel untuk merespon insulin yang dihasilkan. Beberapa faktor yang bisa menimbulkan penyakit diabetes antara lain: faktor keturunan, kegemukan/obesitas biasanya pada usia 40 tahun , tekanan darah tinggi, angka triglycerid( salah satu jenis molekul lemak) yang tinggi, level kolesterol yang tinggi, gaya hidup yang modern cenderung mengonsumsi makanan instan, merokok, stres, kerusakan pada sel pankreas, banyak mengonsumsi karbohidrat. Data laboratorium yang belum difungsikan secara efektif bisa digunakan untuk deteksi penyakit diabetes. Pada penelitian ini akan melakukan deteksi penyakit diabetes dengan menggunakan algoritma klasifikasi data mining naive bayes berbasis PSO yang akan diukur akurasinya 2. TINJAUAN PUSTAKA 2.1 Penelitian yang Relevan Penelitian tentang deteksi penyakit jantung sudah pernah dilakukan. Beberapa penelitian diantaranya sebagai berikut: Muhammad Akmal Sapon et all [3], mereka menggunakan algoritma Bayesian Regulation untuk menghasilkan kinerja terbaik dalam memprediksi diabetes dibandingkan dengan BFGS Quasi – http://research.pps.dinus.ac.id 49
Jurnal Teknologi Informasi, Volume 9 Nomor 2, Oktober 2013, ISSN 1414-9999 Newton dan Levenberg Marquardt didasarkan dari nilai R dan keakuratan akurasi. Algoritma ini menghasilkan R 0.99576 . Keakuratan prediksi Bayesian Regulation ini adalah 88,8%, Pada tahun 2011 Manaswini Pradhan dan Dr. Ranjit Kumar Sahu[4] melakukan penelitian untuk mengklasifikasikan apakah seseorang menunjukan diabetes atau tidak dengan optimasi GA berbasis Jaringan Saraf Tiruan memberika akurasi terbaik dengan 5 Neuron pada lapisan tersembunyi. Dengan akurasi terbaik 72% dengan akurasi rata – rata 72,2%. MSE berada pada 1.6838e-004 Selain itu pada tahun 2011 Ahmad Saiku at all,[5] melakukan penelitian klasifikasi terhadap data diabets, dengan menggunakan 9 variabel menggunakan Fuzzy Decision Tree hasil tingkat keakuratan 78,91%. Pada tahun 2011 G.Parthiban at all [6] melakukan penelitian tentang diagnosis penyakit jantung dengan menggunakan data pasien diabetes menggunakan naive bayes, dengan 500 data pasien dengan 9 atribut yaitu, sex, age, family heredity, weight, blood presure, fasting, post prandial, aic, total kolesterol. Dalam penelitian ini menggunakan tools Weka dengan hasil akurasi prediksi 74%. 2.2 Landasan Teori 1. Naive Bayes Bayes merupakan pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class [ HYPERLINK \l "Kus09" 8 ]. Bayes memiliki akurasi dan kecepatan yang sangat tinggi saat diaplikasi ke dalam database dengan data yang besar. Berikut teorema bayes : }
(1)
Keterangan : X : data dengan class yang belum diketahui H : hipotesis data x merupakan suatu class spesifik P(H|X) : probabilitas hipotesis H berdasarkan kondisi X (posteriori probability) P(H) : probabilitas hipotesis H (prior probability) P(X|H) : probabilitas X berdasar kondisi pada hipotesis H P(X) : probabilitas dari X 2. ParticleSwarm Optimization (PSO) Particle Swarm Optimization (PSO) sering digunakan dalam penelitian, karena PSO memiliki kesamaan sifat dengan Genetic Algorithm (GA). Keuntungan dari PSO adalah mudah diterapkan dan ada beberapa parameter untuk menyesuaikan. Sistem PSO diinisiasi oleh sebuah populasi solusi acak dan selanjutnya mencari titik optimum dengan cara meng-update tiap hasil pembangkitan.Pendekatan yang digunakan lebih sistematis matematika untuk menemukan solusi. Particle Swarm Optimization (PSO) dirumuskan oleh Edward dan Kennedy pada tahun 1995. Proses pemikiran di balik algoritma ini terinspirasi dari perilaku sosial hewan, seperti burung yang berkelompok atau sekelompok ikan [9]. Tidak seperti GA, PSO tidak memiliki operator evolusi seperti crossover dan mutasi. Baris dalam matriks disebut partikel (sama dengan kromosom GA). Mereka mengandung nilai-nilai variabel dan tidak biner yang dikodekan. Setiap partikel bergerak sekitar dipermukaan partikel dengan kecepatan. Setiap pembaharuan kecepatan dan posisi berdasarkan lokasi terbaik dari lokal dan global: (2) Menghitung kecepatan baru tiap particle: (3) Keterangan: n : jumlah partikel dalam kelompok d : dimensi 50
http://research.pps.dinus.ac.id
Jurnal Teknologi Informasi, Volume 9 Nomor 2, Oktober 2013, ISSN 1414-9999 : kecepatan partikel ke-i pada iterasi ke-i w : faktor bobot inersia C1, C2 : konstanta akeselerasi (learning rate) R : bilangan random (0-1) : posisi saat ini dari partikel ke-i pada iterasi ke-i Pbesti : posisi terbaik sebelumnya dari partikel ke-i Pgbest : partikel terbaik diantara semua partikel dalam satu kelompok atau populasi. 3. Particle Swarm Optimization - Naive Bayes Untuk meningkatkan kinerja naive bayes maka akan digabungkan algoritma dari naive bayes dan PSO. Algoritma naive bayes dan PSO diimplementasikan sebagai berikut: 1) menginisialisasi segerombolan sehingga ketika t = 0,lokasi (t) masing-masing partikel dalam ruang ultraadalah acak. 2) setiap posisi partikel (t) mengevaluasikinerja F 3) bandingkan kinerja masing-masing individu dengan kinerja terbaik yang sejauh ini memiliki, jika F ( (t))> kemudian = F ( (t)) = (t) 4)
bandingkan kinerja setiap partikel dengan global best particle, jika F ( (t))> = F ( (t)) = (t)
kemudian
Mengubah vektor kecepatan partikel dimana
dan
adalah variabel acak.
dan
, sementara yang
adalah diidentifikasi sebagai
,
adalah konstanta percepatan positif.
lanjutkan ke langkah 2, ulangi rekursi sampai konvergensi. Berikut rumus masukan setiap partikel kelokasi baru :
5) 6)
3.
jika perhitungan bobot dari catatan akhir dalamsampel kumpulan data selesai. Kemudian menghitung bobot dari catatan berikutnya, putar ke langkah 1. hitung rata-rata bobot.
Deteksi Penyakit Diabetes Type II dengan Naive Bayes Berbasis Particle Swarm Optimization Diabetes melitus tipe dua adalah jenis yang paling banyak ditemukan (lebih dari 90%) dan timbulnya semakin sering ditemukan setelah umur 40 tahun [7] Pada keadaan kadar glukosa darah tidak terlalu tinggi atau belum ada komplikasi, biasanya pasien tidak berobat ke rumah sakit atau dokter. Ada juga yang sudah di diagnosis sebagai diabetes tetapi karena kekurangan biaya biasanya pasien tidak berobat lagi. Hal ini menyebabkan jumlah pasien diabetes yang tidak terdiagnosis lebih banyak daripada yang terdiagnosis. Gejala diabetes ditandai dengan rasa haus yang berlebihan, sering kencing terutama malam hari, banyak makan serta berat badan yang turun dengan cepat. Disamping itu kadang-kadang ada keluhan lemah, kesemutan pada jari tangan dan kaki, cepat lapar, gatal-gatal, penglihatan jadi kabur, gairah seks menurun, luka sukar untuk sembuh dan pada ibu-ibu sering melahirkan bayi diatas empat kilogram. Berbagai faktor genetik, lingkungan dan cara hidup berperan dalam perjalanan penyakit diabetes. Ada kecenderungan penyakit ini timbul dalam keluarga [7]. Di samping itu juga ditemukan perbedaan kekerapan dan komplikasi diantara ras, negara dan kebudayaan Beberapa faktor yang bisa menimbulkan penyakit jantung antara lain: http://research.pps.dinus.ac.id 51
Jurnal Teknologi Informasi, Volume 9 Nomor 2, Oktober 2013, ISSN 1414-9999 1) 2) 3) 4) 5) 6) 7) 8) 9) 10)
keturunan, kegemukan/obesitas biasanya di usia 40 tahun tekanan darah tinggi angka tligeserit yang tinggi kurangnya berolah raga merokok stress gaya hidup yang modern yang cenderung mengonsumsi makanan instan kerusakan pankreas banyak mengonsumsi karbohidrat Penelitian ini merupakan penelitian eksperimen. Pengumpulan data pada penelitian ini meliputi studi literatur berupa buku, jurnal, dan karya ilmiah yang relevan dengan deteksi penyakit diabetes dan data set yang digunakan adalah hasil rekap medical cek up yang meliputi hasil laboratorium sejumlah 598 orang yang diolah dengan tool rapidminer dan dari data tersebut akan dibagi 75% untuk data training dan 25% untuk data testing oleh rapidminer dengan menggunakan algoritma naive bayes berbasis PSO.Data set yang digunakan adalah data hasil laboratorium dan hasil rekam diabetes. Untuk data hasil laboratorium parameternya sebagai berikut : 1) Usia 2) Jenis kelamin 3) Hasil darah, meliputi : HDL, LDL, trigliserid, kolesterol total 4) Hemoglobin 5) Lekosit 6) Trombosit 7) Riwayat Diabetes 8) Tekanan Darah 9) Merokok 10) Hamil 11) Olahraga 4. 1) 2)
METODE PENELITIAN Pada eksperimen awal, dilakukan ujicoba parameter dengan menggunakan algortima naive bayesdihasilkan akurasi 96.99%. Eksperimen selanjutnya menggunakan metode naive bayes berbasis particle swarm optimization. Dari eksperimen dihasilkan akurasi 98.16%. Dari hasil eksperimen dengan menggunakan rapidminer dapat diringkas seperti tabel dibawah ini: No
Algoritma
Akurasi
Precision
Recall
AUC
1
Naive bayes
96.99%
91.93%
96.73%
0.992
2
Naive bayes berbasis PSO
98.16%
99.33%
98.20%
0.839
Tabel 4.1. Hasil eksperimen 5. PENUTUP Pada eksperimen awal dihasilkan akurasi untuk algoritma naive bayes sebesar 96.99% dengan nilai area under cover (AUC) 0.992 dengan kategori “excellent classification”. Pada eksperimen kedua dengan menggunakan algoritma naive bayes berbasis PSO menjadi 98.16% dan nilai AUC 0.994 dengan kategori “excellent classification”. Pada eksperimen kedua terbukti bahwa dengan penambahan optimasi dapat meningkatkan nilai akurasi. Penelitian masih perlu dilakukan penelitian dengan menggunakan data yang lebih banyak dan menggunakan metode data mining yang lain. 52
http://research.pps.dinus.ac.id
Jurnal Teknologi Informasi, Volume 9 Nomor 2, Oktober 2013, ISSN 1414-9999
Daftar Pustaka [1] D. S. Kumar, G. Sathyadevi, and S. Sivanesh, “Decision Support System for Medical Diagnosis Using Data Mining,” Journal of Computer Science, vol. 8, no. 3, pp. 147-153, 2011. [2] B. A. Tama and F. S. Rodiyatul, “An Early Detection Method of Type-2 Diabetes Mellitus in Public Hospital,” vol. 9, no. 2, pp. 287-294, 2011 [3] M. A. Sapon, K. Ismail, and S. Zainudin, “Prediction of Diabetes by using Artificial Neural Network,” vol. 7, pp. 299-303, 2011. [4] S. F. Bt Jaafar and D. Mohd Ali, “Diabetes Mellitus Forecast Using Artificial Neural Network (ANN),” 2005 Asian Conference on Sensors and the International Conference on New Techniques in Pharmaceutical and Biomedical Research, pp. 135-139, 2005. [5] A. Saikhu, J. Lianto, and U. Hanik, “Fuzzy Decision Tree Dengan Algoritma C4 . 5 Pada Data Diabetes Indian Pima,” pp. 297-302, 2011. [6] G. Parthiban and C. A. H. College, “Diagnosis of Heart Disease for Diabetic Patients using Naive Bayes Method,” vol. 24, no. 3, pp. 7-11, 2011. [7] A. Junaidi et al., “Sistem Cerdas Berbasis Logika Fuzzy Untuk Mendeteksi Penyakit Diabetes,” STMIK NUSA MANDIRI , Jakarta, Thesis 2009 [8] Kusrini and Taufiq Emha Luthfi, Algoritma Data Mining, Theresia Ari P., Ed. Yogyakarta, Indonesia: Andi Offset, 2009. [9] Budi Santosa, "Tutorial Particle Swarm Optimization," Institut Teknologi Surabaya, Surabaya, 2010.
http://research.pps.dinus.ac.id
53