Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol. 1, No. 10, Oktober 2017, hlm. 1210-1219
e-ISSN: 2548-964X http://j-ptiik.ub.ac.id
Implementasi Algoritma Modified K-Nearest Neighbor (MKNN) untuk Klasifikasi Penyakit Demam Fakihatin Wafiyah1, Nurul Hidayat2, Rizal Setya Perdana3 Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email:
[email protected],
[email protected],
[email protected] Abstrak Demam merupakan indikator awal untuk beberapa penyakit antara lain demam berdarah, tifoid dan malaria disertai gejala yang mirip, antara lain nyeri otot, gangguan pencernaan, kondisi lidah serta pembesaran pada hati dan limpa. Kemiripan gejala dari masing-masing penyakit sering menimbulkan kesulitan dalam mendapatkan anamnese (diagnosa sementara) sehingga pasien mendapatkan penanganan awal yang kurang tepat. Untuk menangani masalah tersebut diperlukan teknologi untuk mendapatkan diagnosa sementara dengan menerapkan salah satu metode klasifikasi yaitu Modified KNearest Neighbor (MKNN). Metode tersebut mempelajari pola dari data hasil pemeriksaan sebelumnya berdasarkan 15 gejala penyakit dengan proses perhitungan jarak eucledian, perhitungan nilai validitas dan perhitungan weighted voting yang hasil akhirnya digunakan untuk penetapan kelas klasifikasi berdasarkan nilai K yang telah ditentukan. Berdasarkan hasil pengujian terhadap perubahan nilai K, perubahan jumlah data latih dan perubahan komposisi data latih didapatkan rata-rata akurasi untuk pengujian pengaruh nilai K terhadap akurasi sebesar 88.55%. Nilai rata-rata akurasi yang didapatkan dari pengujian pengaruh variasi jumlah data latih adalah 92.42%. Pengujian pengaruh komposisi data latih terhadap akurasi mendapatkan nilai rata-rata akurasi sebesar 87.89%. Pengujian pengaruh komposisi data latih dan data uji terhadap akurasi mendapatkan nilai rata-rata akurasi sebesar 96.35%. Kata Kunci: Modified K-Nearest Neighbor (MKNN), klasifikasi, demam, Malaria, Tifoid, Demam Berdarah (DBD)
Abstract Fever is an early indicator for some diseases such as dengue fever, typhoid and malaria accompanied by similar symptoms, including muscle pain, indigestion, tongue condition and enlargement of the liver and spleen. Similar symptoms of each disease cause difficulties in getting anamnese (temporary diagnosis) so that patients get the inadequate initial treatment. Handling the problem, technology is needed to obtain a temporary diagnosis by applying one of the classification method of Modified KNearest Neighbor (MKNN). The method studied the pattern of previous examination data based on 15 symptoms of disease with eucledian distance calculation process, calculation of validity value and weighted voting calculation that the end result is used for class classification determination based on predetermined value of K. Testing of the value of K get the accuracy of 88.55%. The average value of accuracy obtained from testing of variation in the amount of training data is 92.42%. Testing the influence of the composition of train data get the average value of accuracy of 87.89%. Testing the influence of the composition of train data and test data get the average value of accuracy of 96.35%. Keyword: Modified K-Nearest Neighbor (MKNN), classification, fever, Malaria, Typhoid, Dengue Fever (DHF)
bahawa tubuh sedang melakukan perlawan terhadap zat-zat berbahaya. Beberapa penyakit selalu diawali dengan demam disertai gejala lain antara lain meningitis, infeksi saluran pernapasan, infeksi saluran kandung kemih, demam berdarah, demam tifoid dan malaria. Ketiga jenis penyakit ini memiliki beberapa indikator untuk diagnosa klinis antara lain,
1. PENDAHULUAN Demam adalah peningkatan suhu tubuh di atas 36o C yang disebabkan oleh faktor infeksi atau faktor non infeksi (Dinarello dan Gelfand, 2005). Demam merupakan hal yang sering terjadi pada manusia dan merupakan indikator Fakultas Ilmu Komputer Universitas Brawijaya
1210
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Demam, nyeri otot, gangguan pencernaan, kondisi lidah serta pembesaran pada hati dan limpa (Annisa, 2016). Kemiripan gejala dari masing-masing penyakit sering menimbulkan kesulitan dalam mendapatkan anamnese (diagnosa sementara) sehingga pasien mendapatkan penanganan awal yang kurang tepat dan semakin memperburuk kondisi pasien (Hariman, 2014). Kemajuan teknologi telah membantu menyelesaikan permasalahan di berbagai bidang terutama bidang kesehatan, kesalahan dalam melakukan diagnosa dapat dicegah dengan mempelajari pola dari data hasil pemeriksaan pasien demam berdarah, demam tifoid dan malaria sehingga gejala-gejala tersebut dapat diklasifikasikan berdasarkan kedekatan antara data lama dengan data baru. Proses klasfikasi menggunakan komputer dapat diterapkan dengan menggunakan beberapa algoritma, antara lain K-Nearest Neighbor, Modified KNearest Neighbor (MKNN), NaΓ―ve Bayes, Fuzzy Tsukamoto atau gabungan antara dua metodemetode tersebut seperti, Fuzzy K-Nearest Neighbor (FK-NN). Implementasi algoritma MKNN untuk klasifikasi demam bertujuan untuk memudahkan ahli medis dalam memperoleh anamnese (diagnosa sementara) dengan cara mengklasfikasi gejala-gejala yang dialami oleh pasien dengan K data tetangga terdekat untuk mendapatkan nilai akurasi yang tinggi. MKNN merupakan algoritma yang dikembangkan dari algoritma KNN, algoritma MKNN menambahkan proses baru untuk melakukan klasifikasi yaitu, perhitungan nilai validitas untuk mempertimbangkan validitas antar data latih dan pehitungan weighted voting untuk menghitung bobot dari masing-masing terdekat. Penambahan 2 proses baru dalam MKNN diharapkan dapat memperbaiki setiap kesalahan pada proses K-NN.
1211
terjadinya perubahan pada pusat termoregulasi yang terletak dalam hipotalamus anterior. Demam berhubungan dengan peningkatan suhu tubuh disertai peningkatan produksi sitoken pirogen yang berfugsi untuk mengatasi rangsang, antara lain peradangan, infeksi disebabkan bakteri dan virus serta rangasangan pirogenik. Demam merupakan gejala awal untuk penyakit-penyakit yang membutuhkan penanganan serius, antara lain demam berdarah, tifoid dan malaria. 2.2 Klasifikasi Klasifikasi adalah teknik untuk merancang fungsi berdasarkan hasil pengamatan dari data dan atribut dari data tersebut sehingga dapat dilakukan pemetaan terhadap data yang belum memiliki kelas kedalam data yang telah terklasifikasi sesuai dengan aturan-aturan yang diberikan. Terdapat banyak algoritma yang digunakan untuk mengklasfikasi data, antara lain fuzzy, artificial neural network, support vector machine dan K-nearest neighbor. Klasifikasi menggunakan algoritmaalgoritma tersebut secara umum dilakukan berdasarkan 3 tahapan yaitu: a) Perancangan Model Proses membangun solusi untuk menyelesaikan masalah berdasarkan data yang telah terklasfikasi (Data latih). b) Implementasi Model Proses penentuan kelas untuk data uji berdasarkan model fungsi dan parameterparameter data yang telah ditentukan pada tahap perancangan. c) Evaluasi Model Proses yang bertujuan untuk melakukan evaluasi terhadap hasil implementasi model fungsi dalam mengklasifikasikan data uji berdasarkan parameter-paramter yang telah ditetapkan.
2. TINJAUAN PUSTAKA 2.3 Normalisasi Data 2.1 Demam Suhu tubuh merupakan gambaran keseimbangan tubuh mengenai proses produksi dan pelepasan panas yang diatur dalam otak (hipotalamus). Suhu tubuh dalam kondisi normal jika berada dalam suhu 36.50C β 37.20C dan dikatakan demam jika suhu di atas diatas 37.20C Demam terjadi sebagai bentuk rangsang
Fakultas Ilmu Komputer, Universitas Brawijaya
Normalisasi data merupakan proses awal yang dilakukan dalam tahap klasifikasi dengan melakukan pensklaan nilai atribut dari data sehingga berada pada range tertentu (Panjaitan, 2013). Proses normalisasi pada dataset dilakukan dengan tujuan agar persebaran data merata dan meningkatkan nilai akurasi sistem. Pada penelitian menggunakan neuro fuzzy untuk klasifikasi inventori berdasarkan analisa ABC dijelaskan bahwa hasil pengujian pada data
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
masukan ternomalisasi dan tidak ternormalisasi menunjukkan hasil yang cukup berbeda hal ini ditunjukkan dengan perbedaan hasil klasifikasi dan mempengaruhi derajat keanggotaan dari data dengan pusat kelasnya (Darmanto, 2012). Terdapat beberapa cara teknik normalisasi antara min-max normalization, z-score normalization, decimal scaling dan sigmoidal normalization. Berikut adalah persamaan 1 untuk teknik minmax normalization.
π β² =
sβmin(ππ ) max(ππ )βmin(ππ )
(1)
Dimana: s = nilai dari data masukan min(ππ ) = nilai minimum seluruh data max(ππ ) = Nilai maksimum seluruh data
Algoritma modified k-nearest neighbor (MKNN) merupakan pengembangan dari metode KNN dengan penambahan beberapa proses yaitu, perhitungan nilai validitas dan perhitungan bobot. Algoritma k-nearest neighbor (KNN) merupakan algoritma clustering yang sangat sederhana dengan cara mengelompokkan data baru dengan K tetangga terdekat.
πππππππ‘π¦(π₯) =
1 π»
βππ=0 π(πππ(π₯), πππ(ππ(π₯)))
Untuk mendefinisikan jarak antara dua titik yaitu titik pada data training (x) dan titik pada data testing (y) maka digunakan rumus Euclidean, seperti yang ditunjukkan pada persamaan 2 (2)
dengan d adalah jarak antara titik pada data training x dan titik data testing y yang akan diklasifikasi, dimana x=x1,x2,β¦,xi dan y=y1,y2,β¦,yi dan I merepresentasikan nilai atribut serta n merupakan dimensi atribut. 2.4.2 Perhitungan Nilai Validitas Dalam algoritma MKNN, setiap data pada data training harus divalidasi terlebih dahulu pada awalnya. Validitas setiap data tergantung pada setiap tetangganya. Proses validasi dilakukan untuk semua data pada data training. Setelah dihitung validitas tiap data maka nilai validitas tersebut digunakan sebagai informasi lebih mengenai data tersebut. Persamaan yang digunakan untuk menghitung nilai validitas pada
(3)
Dimana: π» : jumlah titik terdekat πππ(π₯) : kelas x πππ(ππ(π₯)) : label kelas titik terdekat x
Fungsi S digunakan untuk menghitung kesamaan antara titik x dan data ke-i dari tetangga terdekat. Yang dituliskan dalam persamaan di bawah ini mendefinisikan fungsi S pada persamaan 4. (4)
Keterangan: a = kelas a pada data training. b = kelas lain selain a pada data training. 2.4.3 Perhitungan Weighted Voting Dalam metode MKNN, pertama weight masing-masing tetangga dihitung dengan menggunakan 1 / (de + 0.5). Kemudian, Validitas dari tiap data pada data training dikalikan dengan weighted berdasarkan pada jarak Euclidian. Dalam metode MKNN, weight voting tiap tetangga Persamaan 5. π(π) = πππππππ‘π¦(π) π₯
2.4.1 Perhitungan Jarak Eucledian
Fakultas Ilmu Komputer, Universitas Brawijaya
setiap data training adalah seperti persamaan dibawah ini Persamaan 3.
1π =π π(π, π) = { 0π β π
2.4 Algoritma Modified K-Nearest Neighbor (MKNN)
π (π₯π, π¦π) = ββππ=0(π₯π β π¦π )2
1212
1 ππ+ πΌ
(5)
Dimana: π(π) : Perhitungan Weight Voting πππππππ‘π¦(π) : Nilai Validitas ππ : Jarak Euclidean
Teknik weighted voting ini mempunyai pengaruh yang lebih penting terhadap data yang mempunyai nilai validitas lebih tinggi dan paling dekat dengan data. Selain itu, dengan mengalikan validitas dengan jarak dapat mengatasi kelemahan dari setiap data yang mempunyai jarak dengan weight yang memiliki banyak masalah dalam outlier. Jadi, algoritma MKNN diusulkan secara signifikan lebih kuat daripada metode KNN tradisional yang didasarkan hanya pada jarak. (Parvin, 2008). 3. METODOLOGI Tahapan yang dilakukan pada penelitian ini ditunjukkan pada gambar 1 berupa Diagram Alir Metodologi Penelitian.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
1213
Gambar 2 Alur Perancangan Gambar 1 Diagram Alir Metodologi Penelitian
3.1 Data Penelitian Data yang digunakan dalam penelitian merupakan jenis data sekunder berupa data yang didapatkan dari pihak Rumah Sakit Umum Daerah Selasih, Kota Riau, Indonesia dan dijadikan sebagai data dalam pengujian algoritma MKNN. Data yang digunakan adalah data yang telah diarsipkan sebelumnya oleh RSUD Selasih Pangkalan Kerinci Riau dan dapat dipergunakan untuk tujuan penelitian. Penelitian ini dilakukan menggunakan 15 gejala penyakit beserta bobot untuk masing-masing gejala dalam beberapa tingkatan dengan total data sebanyak 133 data pasien penderita penyakit demam berdarah, tifoid dan malaria.
4.1 Analisa Kebutuhan Proses Tahap awal sistem adalah melakukan normalisasi data latih dan data uji. Tahap Kedua sistem melakukan perhitungan jarak eucledian antara data latih dari sistem dengan data uji untuk menentukan jenis demam yaitu, demam berdarah, demam tifoid dan demam malaria. Untuk mendukung hasil klasifikasi dilakukan perhitungan validitas lalu mencari weighted voting sehingga didapatkan nilai tertinggi setelah perhitungan weighted voting untuk mengetahui hasil klasifikasi. Perancangan proses ditunjukkan oleh gambar 3 START
Input Data Gejala Demam
4. PERANCANGAN Perancangan berisi penjelasan mengenai kebutuhaan yang diperlukan untuk membangun sebuah sistem yang memiliki fungsi dalam klasfikasi penyakit demam menggunakan algoritma MKNN. Pada gambar 2 ditunjukkan dalam diagram perancangan.
Normalisasi Data
Proses Klasifikasi MKNN
Output Data Klasifikasi Demam
END
Gambar 3 Alur Sistem
4.2 Perancangan Proses Normalisasi Data Data yang digunakan dalam proses klasifikasi demam merupakan data pasien beserta bobot untuk setiap gejala demam. Data tersebut diproses dalam tahap normalisasi untuk Fakultas Ilmu Komputer, Universitas Brawijaya
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
1214
memperkecil jarak antar masing-masing data. Proses normalisasi dilakukan pada setiap data uji dan dan latih. Proses normalisasi dijelaskan dalam diagram 4. Sistem melakukan pemrosesan data latih dan data uji untuk gejala penyakit demam yang dimasukkan oleh pengguna. Proses perulangan dilakukan oleh sistem sampai menghasilkan data-data yang ternormalisasi. START
Normalisasi Data Dataset_pasiendemam
For x=1 to jumlah dataset
For y=1 to jumlah gejala
NormalisasiDataset =(dataset x, y-min x)/ (max y β min y)
HasilNormalisasi
Gambar 5 Diagram Alir Proses Klasifikasi MKNN
Y
4.3.1 Menghitung Jarak Eucledian
X
Perhitungan jarak eucledian dilakukan dilakukan dalam 2 tahapan yaitu menghitung nilai jarak eucledian antar data latih serta menghitung nilai jarak eucledian antar data latih dan data uji. Proses perhitungan jarak ditunjukan pada gambar 6
END
Gambar 4 Diagram Alir Proses Normalisasi
4.3 Perancangan Sistem Klasifikasi Klasifikasi demam menggunakan metode MKNN melalui beberapa tahap yaitu, memasukkan data set gejala demam yang telah dinormalisasi, menghitung jarak eucledian, mengambil sejumlah K tetangga terdekat berdasarkan hasil perhitungan jarak eucledian, menghitung nilai validitas data latih dan menghitung weighted voting. Proses klasifikasi ditunjukkan pada gambar 5
Start
Euclidean Dataset_pasiendemam
For x = 1 to datalatih
For y = 1 to dataLatih
Inisialisasi Jumlah data eucledianDataLatih=0
For z = 1 to Jumlah Parameter
JumlahDataEucledianDataLatih= JumlahDataEucledianDataLatih+(normal isasiDataLatih[x][y]normalisasiDataLatih[y][z]^2)
z
EucledianDataLatih=sqrt(jumla heuclediandatalatih)
y
x
Return
Gambar 6 Diagram Alir Perhitungan Jarak Eucledian Fakultas Ilmu Komputer, Universitas Brawijaya
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
4.3.2 Menghitung Nilai Validitas
1215 Start Weight Voting
Proses perhitungan validitas bertujuan untuk melakukan validasi setiap data latih yang digunakan dalam sistem yang ditunjukkan pada gambar 7. Tahap awal adalah melakukan perhitungan jarak eucledian antar data latih lalu mengambil sejumlah K tetangga terdekat berdasarkan hasil jarak eucledian yang terkecil. Tahap selanjutnya adalah melakukan perbandingan kelas untuk data latih tersebut. Hasil perbandingan tersebut kemudian dijumlahkan dan dibagi dengan nilai K yang telah ditentukan.
EuclideanDataUji[x] dan Validitas [x]
For x=1 to dataLatih
For y = 1 to DataUji
Weightvoting = validitas [x][y]*(1/ eucledianDataUji[x][y]*0.5)
START
Weightvoting [x][y]
EucledianDataLatih dan nilai_K
y
Hitung Validitas
x
For x=1 to datalatih
Return
asort (euclediandatalatih)
For y=1 to nilai_k-1
For z=y+1 to nilai_k
Gambar 8 Diagram Alir Perhitungan Weighted Voting
5. IMPLEMENTASI 5.1 Implementasi Halaman Data Latih
Datalatih[indexurutvaliditaslatih[y]][diagnosis]= =datalatih[indexurutvaliditaslatih[z]][diagnosis]
K[y]=1 K[z]=1
Z
Sistem menampilkan 100 data latih pasien yang digunakan untuk menyusun fungsi klasifikasi. Data pasien terdiri atas ID pasien dan bobot 15 gejala berdasarkan hasil pemeriksaan pada pasien seperti pada gambar 9.
Y
Menjumlahkan seluruh nilai pada variabel K
Validitas[x]=sum/nilai k
X
Return
Gambar 7 Diagram Alir Perhitungan Validitas
4.3.3 Menghitung Weighted Voting Proses perhitungan weighted voting dijelaskan dalam diagram alir 8 dimulai dari memasukkan nilai jarak eucledian antara data latih dan data uji serta nilai validiatas untuk selanjutnya dilakukan perulangan sampai mendapatkan nilai dari perhitungan weighted voting.
Fakultas Ilmu Komputer, Universitas Brawijaya
Gambar 9 Halaman Data Latih Pasien
5.2 Implementasi Halaman Data Uji Halaman sistem yang menampilkan data uji pasien yang digunakan untuk proses pengujian metode MKNN dalam mengklasifikasikan demam. Data uji memiliki data yang sama
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
dengan tabel data latih terdiri atas ID pasien dan 15 gejala beserta bobot seperti pada gambar 10
1216
masing-masing penyakit seperti ditunjukkan padahal gambar 12
yang
Gambar 12 Halaman Pengujian Gambar 10 Halaman Data Uji Pasien
5.3
Implementasi MKNN
Proses
Perhitungan
Proses klasifikasi demam menggunakan metode MKNN terdiri atas beberapa tahap, antara normalisasi data latih, normalisasi data uji, perhitungan jarak eucledian data latih, perhitungan nilai validitas, perhitungan jarak eucledian antara data latih dan data uji, perhitungan weighted voting seperti pada gambar 11.
6. PENGUJIAN Pengujian dilakukan untuk mengetahui pengaruh perubahan nilai K, pengaruh perubahan total data latih dan pengaruh perubahan komposisi data latih terhadap akurasi sistem. a)
Hasil pengujian Akurasi berdasarkan Nilai K
Pengujian terhadap nilai K dilakukan menggunakan nilai K yang bervariasi, yaitu nilai K = 3, K = 5, K = 7, K = 10, K = 20 dan K = 30 dengan jumlah data latih yang berbeda, yaitu 50, 70 dan 100 data latih. Grafik hasil pengujian ditunjukkan pada gambar 13
Pengujian Pengaruh Nilai K terhadap Akurasi 100,00% 80,00% 60,00% 40,00% 20,00%
Gambar 11 Halaman Proses Perhitungan MKNN 0,00%
5.3 Implementasi Hasil Klasifikasi Halaman pengujian pada sistem menampilkan hasil klasifikasi demam untuk semua data uji sesuai dengan nilai yang didapatkan dari perhitungan weighted voting. Hasil Klasifikasi dalam halaman pengujian ditampilkan sesuai dengan nilai K yang ditentukan lalu ditampilkan banyak data dengan sesuai nilai K dengan nilai tertinggi pada Fakultas Ilmu Komputer, Universitas Brawijaya
3
5
7
10
20
30
Gambar 13 Grafik Hasil Pengujian Pengaruh Nilai K
Grafik pada gambar 13 menunjukkan bahwa pada pengujian ini nilai akurasi tertinggi dari nilai K = 3 dan K =7. Pengujian terhadap nilai K menunjukkan tingkat akurasi yang berbeda sehingga dapat diketahui bahwa perubahan nilai K dapat mempengaruhi akurasi sistem untuk
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
mengklasifikasi demam. Nilai K yang semakin tinggi menyebabkan akurasi menurun hal ini disebabkan oleh beberapa hal antara lain mempengaruhi kesesuaian data, nilai K yang tinggi menyebabkan nilai validitas data latih rendah dan perbandingan data dari hasil weighted voting semakin banyak sehingga menyebabkan kesalahan sistem dalam melakukan klasifikasi. Total rata-rata akurasi untuk pengujian K adalah 88.55%. b)
Hasil pengujian Akurasi berdasarkan Jumlah Data Latih
Pengujian pengaruh jumlah data dengan 4 variasi data latih yaitu 30 data latih, 50 data latih, 70 data latih dan 100 data latih dengan menggunakan nilai K = 3 dan 33 data uji. Grafik hasil pengujian ditunjukkan pada gambar 14.
1217
menggunakan 70 data latih dengan ketentuan beberapa, yaitu skenario pertama komposisi data latih terdiri atas 30 Tifoid, 20 Malaria dan 20 Demam Berdarah (DBD). Skenario kedua komposisi data latih terdiri atas 20 Tifoid, 30 Malaria dan 20 Demam Berdarah (DBD). Skenario ketiga komposisi data latih terdiri atas 20 Tifoid, 20 Malaria dan 30 Demam Berdarah (DBD). Skenario terakhir menggunakan komposisi data latih seimbang terdiri atas 25 Tifoid, 25 Malaria dan 25 Demam Berdarah (DBD). Pengujian dilakukan menggunakan nilai K =10 dan mendapatkan hasil akurasi sistem seperti yang ditunjukkan pada gambar 15
Pengaruh Pengujian Komposisi Data Latih 100,00%
Pengaruh Pengujian Jumlah Data Latih
95,00% 90,00%
98,00% 97,00% 96,00% 95,00% 94,00% 93,00% 92,00%
85,00% 80,00% 30 T, 20 20 T , 30 30 T, 20 25 T, 25 M, 20 D M , 20 D M, 20 D M, 25 D
Gambar 15 Grafik Hasil Pengujian Pengaruh Komposisi Data Latih 30 Data Latih
50 Data Latih
70 Data 100 Data Latih Latih
Gambar 14 Grafik Hasil Pengujian Pengaruh Jumlah Data Latih
Hasil pengujian menunjukkan bahwa jumlah data latih mempengaruhi akurasi sistem dalam melakukan klasifikasi demam. Hal ini ditunjukkan dengan dengan hasil akurasi sebesar 93.94% dari pengujian menggunakan 30 data latih, 50 data latih dan 70 Data Latih. Pengujian menggunakan 100 data latih mendapatkan akurasi tertinggi sebesar 96.97%. Pengujian menggunakan skenario ini menunjukkan nilai akurasi rendah jika data latih yang digunakan tidak banyak. Proses klasifikasi menggunakan algoritma MKNN dilakukan dengan mempelajari pola dari data latih sehingga jumlah data latih yang rendah menyebabkan sistem kurang menemukan pola dari data latih untuk melakukan klasifikasi. c)
Hasil pengujian Akurasi berdasarkan Komposisi Data Latih Pengujian
komposisi
dilakukan
Fakultas Ilmu Komputer, Universitas Brawijaya
Hasil pengujian menunjukkan bahwa komposisi data latih untuk memberikan pengaruh terhadap proses klasifikasi demam. Pada 3 skenario komposisi data latih cenderung dominan pada satu kelas sehingga hasil akurasi sangat bervariasi. Skenario pertama dengan hasil akurasi 93.94%, skenario kedua menghasilkan akurasi 90.90% dan skenario ketiga menghasilkan akurasi 87.89%. Akurasi tertinggi didapatkan dari skenario terakhir dengan komposisi data seimbang yaitu 96.97%. Nilai akurasi yang tinggi disebabkan karena komposisi data yang digunakan merata dan tidak dominan pada kelas tertentu. d)
Hasil pengujian Akurasi berdasarkan Komposisi Data Latih
Pengujian komposisi dilakukan menggunakan 133 data pasien namun dilakukan perubahan terhadap komposisi data latih dan data uji. Pengujian pertama dilakukan dengan komposisi 100 data latih dan 33 data uji. Pengujian kedua dilakukan dengan komposisi 80 data latih dan 53 data uji serta pengujian ketiga dilakukan dengan komposisi data latih 70 dan 63
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
data latih. Pengujian dilakukan menggunakan nilai K = 3, K = 5, K =7 dan K = 10 dan mendapatkan hasil akurasi sistem seperti yang ditunjukkan pada gambar 16
97,50%
Pengaruh Pengujian Komposisi Data Latih dan Data Uji
97,00% 96,50% 96,00% 95,50% 95,00% 94,50% 94,00% 93,50% 93,00% 100 Data 80 Data Latih70 Data Latih Latih dan 33 dan 53 Data dan 63 Data Data Uji Uji Uji
Gambar 16 Grafik Hasil Pengujian Pengaruh Komposisi Data Latih dan Data Uji
Hasil pengujian menunjukkan bahwa komposisi data latih untuk memberikan pengaruh terhadap proses klasifikasi demam. Pada 3 skenario komposisi data latih dan data uji yang sangat bervariasi sehingga mempengaruhi tingkat akurasi. Skenario pertama dengan hasil akurasi 94.69%, skenario kedua menghasilkan akurasi 97.16% dan skenario ketiga menghasilkan akurasi 97.21%. Akurasi tertinggi didapatkan dari skenario terakhir dengan komposisi data latih lebih banyak namun hampir seimbang dengan data uji yaitu 97.21%. Akurasi yang tinggi dengan komposisi data latih 70 data dan dan data uji 63 data dapat disebabkan karena jarak antar data yang dekat sehingga dengan pengujian menggunakan komposisi seimbang mendapat akurasi yang lebih baik dalam penelitian menggunakan data ini. 7. KESIMPULAN Berdasarkan penelitian untuk melakukan klasifikasi demam menggunakan metode pada proses perancangan, implementasi dan pengujian maka dapat diambil kesimpulan sebagai berikut: 1. Implementasi algoritma MKNN untuk klasifikasi demam berdasarkan 15 gejala Fakultas Ilmu Komputer, Universitas Brawijaya
1218
demam dapat memberikan anamnese (diagnosa awal) terhadap 3 jenis demam, yaitu demam berdarah, tifoid dan malaria. 2. Hasil klasifikasi kelas pada algoritma MKNN diambil berdasarkan nilai tertinggi setelah proses perhitungan weighted voting dan nilai K yang telah ditentukan. 3. Pengujian akurasi dilakukan dalam 3 tahap, yaitu pengujian terhadap nilai K, pengujian terhadap jumlah data latih dan pengujian terhadap kompoisi data latih untuk mengetahui pengaruh perubahan nilai K dan perubahan data latih terhadap akurasi sistem dengan penjelasan sebagai berikut: a. Nilai rata-rata akurasi pengujian perngaruh nilai K terhadap akurasi adalah 88.55% dengan akurasi tertinggi pada pengujian nilai K = 3 dengan akurasi sebesar 94.95%. b. Nilai rata-rata akurasi pengujian pengaruh jumlah data latih terhadap akurasi adalah 92.42%. c. Nilai rata-rata akurasi pengujian komposisi data latih terhadap akurasi adalah 87.89% dengan nilai akurasi tertinggi sebesar 96.97% untuk pengujian komposisi data seimbang 25 Tifoid, 25 Malaria dan 25 Demam Berdarah. d. Nilai rata-rata akurasi pengujian pengaruh jumlah data latih dan data uji terhadap akurasi adalah 96.35%. Nilai akurasi tertinggi didapatkan dari pengujian dengan komposisi 70 data latih dan 63 data uji dengan nilai akurasi 97.21%. Saran yang dapat diberikan untuk pengembangan penelitian ini selanjutnya antara lain: a. Menambahkan kategori penyakit dengan gejala demam disertai gejala lain. b. Menambahkan data gejala yang lebih bervariasi baik dari pemeriksaan secara fisik dan pemeriksaan non fisik. c. Mengembangkan metode serta menggabungkan metode lain karena dalam memecahkan permasalahan ini, metode MKNN bukan satu-satunya metode yang dapat digunakan. d. Sistem juga dapat dikembangkan dengan menentukan nilai K dan komposisi jumlah data latih dan data uji yang optimal untuk mendapatkan akurasi yang lebih baik.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
DAFTAR PUSTAKA Annisa, C.D., Putri, R.R & Marji., 2016. Sistem Pakar Diagnosa Awal Penyakit DBD, Malaria dan Tifoid menggunakan Metode Fuzzy K-Nearest Neighbor (FKNN). S1. Universitas Brawijaya. Tersedia di
[Diakses 2 Februari 2017] Arista, R.B.et al., n.d. Deteksi Penyakit Demam Berdarah, Tifus dan Demam Biasa berdasarkan gejalanya. S1. Universitas Brawijaya. B. G. H. Gorte., 2008. Improving spectral image classifications by incorporating context data using likelihood vectors. Fifth International Conference on Image Processing and its Applications. Edinburgh. pp. 251-255. Ao Li, Lirong Wang, Yunzhou Shi, Minghui Wang, Zhaohui Jiang and Huanqing Feng. 2005. Phosphorylation Site Prediction with A Modified k-Nearest Neighbor Algorithm and BLOSUM62 Matrix. IEEE Engineering in Medicine and Biology 27th Annual Conference. Shanghai. Darmanto, E & Hartati, S., 2012. Neuro Fuzzy untuk Klasifikasi Inventori berdasarkan analisa ABC. Seminar Nasional Informatika 2012. UPN Veteran Yogyakarta. Yogyakarta. Departemen Kesehatan Indonesia, 2013. Penyakit Malaria dan TBC menyebabkan 170.000 kematian setiap tahun di Indonesia. Jakarta. Departemen Kesehatan Republik Indonesia, 2008a. Perkembangan Kejadian DBD di Indonesia 2004-2007. Tersedia di (Diakses tanggal 1 Januari 2017) Fransisca, S & Gabriela, P., 2000. Demam Berdarah Dengue (DBD). S1. Fakultas Kedokteran. Universitas Wijaya Kusuma. Gillepsie, CJSH., 2009. Mansonβs Tropical Disease. China: Saunders Elsevier. Gevorkian, D, Egiazarian, K & Astola, J., 2000. Modified K-nearest neighbor filters for Fakultas Ilmu Komputer, Universitas Brawijaya
1219 simple implementation. 2000 IEEE International Symposium on Circuits and Systems. Emerging Technologies for the 21st Century. Proceedings (IEEE Cat No.00CH36353), Geneva. pp. 568565 vol.4.
Hadisaputro, S., 1991. Tropical Disease Update. Laboratorium Ilmu Penyakit Dalam FK Undip. Semarang. Hariman, I & Noviar, A., 2014. Sistem Pakar untuk Mendiagnosa Penyakit DBD (Demam Berdarah Dengue) dengan Metode Forward Chaining Berbasis Web. Sekolah Tinggi Manajemen Informatika dan Ilmu Komputer LPKIA. Hasan, H., 2007. Analisis Faktor Risiko Kejadian Malaria di Puskesmas Sukamerin di Kecamatan Sungai Serut Kota Bengkulu Propinsi Bengkulu. S2. Universitas Diponogero. Panjaitan, A., Hidayat, B & Sujatmoko, K., 2013. Analisis Diskriminan Linear dalam Klasifikasi Data pada Teori Informasi dengan Metode Cross Validation. S1. Universitas Telkom. Parvin, H., Alizadeh, H & Bidgoli, B., 2008. MKNN: Modified K-Nearest Neighbor. Proceedings of the World Congress on Engineering and Computer Science 2008. San Fransisco. USA Zainuddin, S., Hidayat, N & Soebroto, A., 2014. Penerapan Algoritma Modified KNearest Neighbor (M-KNN) pada Pengklasifikasian Tanaman Kedelai. S1. Universitas Brawijaya. Tersedia di http://ptiik.ub.ac.id/skripsi [Diakses 2 Februari 2017]