Seminar Nasional Teknologi Informasi dan Multimedia 2015
ISSN : 2302-3805
STMIK AMIKOM Yogyakarta, 6-7 Februari 2015
PEMANFAATAN TEKNIK DATA MINING UNTUK DIAGNOSIS PENYAKIT TUBERCULOSIS (TBC) Mukhamad Hasim Iswanto1), Adhistya Erna Permanasari2), Hanung Adi Nugroho3) 1), 2), 3)
Progran Pasca Sarja Teknik Elektro Jurusan Teknik Elektro Dan Teknik Informatika Fakultas Teknik Universitas Gadjah Mada Jl. Grafika No 2 Bulaksumur Yogyakarta Email :
[email protected]),
[email protected]),
[email protected])
Abstrak Diantara penyakit paru, penyakit yang paling menular dan berbahaya adalah Tuberculosis Paru (Tb paru). Tuberculosis (TBC) merupakan penyakit menular yang umum, dan dalam banyak kasus bersifat mematikan. Penyakit ini disebabkan oleh berbagai strainmikobakteria, umumnya Mycrobacterium tuberculosis . Tuberculosis biasanya menyerang paru-paru, namun juga bisa berdampak pada bagian tubuh lainnya. Tuberculosis menyebar melalui udara ketika seseorang dengan infeksi TB aktif batuk, bersin, atau menyebarkan butiran ludah mereka melalui udara. Metode gold standard yang menjadi rujukan para dokter untuk mendiagnosis penyakit TBC adalah Uji Tuberculin. Namun metode ini invasive, mempunyai risiko, dan mahal. Sayangnya, metode ini memakan waktu dan berkinerja buruk.Selain itu, mereka membutuhkan sensitivitas bervariasi, mycrobacterium tuberculosis basil hidup, dahak yang sulit diperoleh dari anak-anak, personil terlatih untuk menghindari kesalahan manusia, dan karenanya, biaya tinggi. Para peneliti terus mengembangkan data yang akurat metode penambangan untuk diagnosis tuberculosis cepat untuk mengurangi tingkat pertumbuhan populasi dunia pasien tuberculosis. Tujuan paper ini adalah studi literatur tentang pemanfaatan teknik penambangan data untuk mendiagnosis penyakit Tuberculosis (TBC). Beberapa penelitian tentang teknik pengolahan data terutama dari beberapa data rekam medik yang dilakukan untuk pengambilan keputusan yang cepat dalam mendiagnosis terjadinya penyakit TBC pada pasien. Kemudian membahas teknik untuk data preprocessing dan metode data mining untuk diagnosis TB saat ini digunakan. Hasilnya menunjukkan bahwa paling sering atribut yang digunakan keringat malam, batuk lebih dari 3 minggu, demam, berat badan turun , usia dan nyeri dada. Support Vector Machine dan Bayesian Network memberikan akurasi tertinggi dibandingkan dengan metode lainnya. Hasil beberapa paper tersebut menunjukkan dengan klasifikasi menggunakan teknik data mining dapat membantu dokter paru untuk pengambilan keputusan yang cepat tersebut . Kata kunci:, Data Rekam Medis, Data Mining, Penyakit TBC
1.
PENDAHULUAN Istilah kedokteran yang berhubungan dengan paruparu sering mulai di pulmo-, dari kata Latin pulmones untuk paru-paru [1]. Paru-paru adalah organ pada sistem pernapasan (respirasi) dan berhubungan dengan sistem peredaran darah (sirkulasi) vertebrata yang bernapas dengan udara. Fungsinya adalah menukar oksigen dari udara dengan karbon dioksida dari darah. Prosesnya disebut "pernapasan eksternal" atau bernapas. Paru-paru juga mempunyai fungsi nonrespirasi. Paru-paru sangat erat kaitannya pada sistem pernapasan (respirasi) dan berhubungan dengan sistem peredaran darah. Tingkat pencemaran udara yang sangat tinggi organ yang terletak di bawah tulang rusuk ini memang mempunyai tugas yang berat yaitu menghirup berbagai bibit penyakit yang berkeliaran di udara. Ini semua dapat menimbulkan berbagai penyakit paru-paru. Pada organ paru terdapat beberapa penyakit yang dapat dikelompokkan menjadi dua yaitu penyakit paru spesifik (Tuberculosis Paru) dan penyakit paru nonspesifik seperti bronkitis, pneumonia bronkiectasis, asma bronkiole, tumor paru, dan lain-lain. Diantara penyakit paru, penyakit yang paling menular dan berbahaya adalah Tuberculosis Paru (Tb paru). 1.1.
PENYAKIT TUBERCULOSIS Tuberculosis biasanya menyerang paru-paru, namun juga bisa berdampak pada bagian tubuh lainnya. Tuberculosis menyebar melalui udara ketika seseorang dengan infeksi TB aktif batuk, bersin, atau menyebarkan butiran ludah mereka melalui udara [2]. Infeksi TB umumnya bersifat asimtomatik dan laten. Namun hanya satu dari sepuluh kasus infeksi laten yang berkembang menjadi penyakit aktif. Apabila Tuberkulosis tidak diobati maka lebih dari 50% orang yang terinfeksi bisa meninggal. TBC dapat menyerang siapa saja (tua, muda, laki-laki, perempuan). Sekitar 75% pasien TBC adalah kelompok usia yang paling produktif secara ekonomis (15-50 tahun). Diperkirakan seorang pasien TBC dewasa, akan kehilangan rata-rata waktu kerjanya 3 sampai 4 bulan. Survei prevalensi TB yang dilakukan di enam provinsi pada tahun 1983-1993 menunjukkan bahwa prevalensi TBC di Indonesia berkisar antara 0,2 – 0,65%. Menurut laporan Penanggulangan TBC Global yang dikeluarkan oleh WHO pada tahun 2004, angka 2.1-121
ISSN : 2302-3805
Seminar Nasional Teknologi Informasi dan Multimedia 2015 STMIK AMIKOM Yogyakarta, 6-7 Februari 2015
insidensi TBC pada tahun 2002 mencapai 555.000 kasus (256 kasus/100.000 penduduk), dan 46% diantaranya diperkirakan merupakan kasus baru [3]. Diagnosis TB aktif bergantung pada hasil radiologi (biasanya melalui sinar-X dada) serta pemeriksaan mikroskopis dan pembuatan kultur mikrobiologis cairan tubuh. Sementara itu, diagnosis TB laten bergantung pada tes tuberkulin kulit/tuberculin skin test (TST) dan tes darah. Pengobatan sulit dilakukan dan memerlukan pemberian banyak macam antibiotik dalam jangka waktu lama. Orang-orang yang melakukan kontak juga harus menjalani tes penapisan dan diobati bila perlu. Resistensi antibiotik merupakan masalah yang bertambah besar pada infeksi tuberkulosis resisten multi-obat (TBC MDR). Untuk mencegah TB, semua orang harus menjalani tes penapisan penyakit tersebut dan mendapatkan vaksinasibasil Calmette–Guérin. 1.2. TEKNIK DATAMINING UNTUK DIAGNOSIS PENYAKIT TUBERCULOSIS Seiring dengan perkembangan ilmu pengetahuan dan teknologi mencakup dalam bidang kesehatan pula sehingga sekarang ini pencatatan data dan rekam medis pasien dibuat dalam bentuk angka, grafik, teks dan gambar sebagai hasil sistem informasi rumah sakit dan peralatan elektronik di bidang kesehatan, yang semakin lama semakin bertambah jumlahnya. Jumlah data yang cukup banyak tersebut hanya akan menjadi sampah data apabila tidak dilakukan suatu mekanisme penggalian data untuk mendapatkan informasi yang berharga yang dapat dimanfaatkan pihak yang berkepentingan. Penggalian informasi berharga tersebut dapat dilakukan melalui proses data mining. Witten dkk. [4] mendefinisikan data mining sebagai serangkaian proses mendapatkan pengetahuan atau pola dari kumpulan data. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan,dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan didalam database besar yang merupakan bagian dari proses KDD (Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, prapengolahan, transformasi, data mining, dan evaluasi hasil. Diagnosis Tuberculosis (TBC) melibatkan banyak faktor yang membuat pekerjaan dokter semakin sulit, keputusan dokter biasa dilakukan dengan mengevaluasi hasil tes pasien-pasien sebelumnya. Metode yang digunakan sangat tergantung pada pengetahuan, intuisi dan pengalaman dokter itu sendiri. Diagnosis penyakit TBC dapat dilakukan secara otomatisasi menggunakan suatu metode yang diterapkan dalam aplikasi guna mendukung diagnosis penyakit TBC. Berbagai penelitian telah dilakukan dalam diagnosis penyakit TBC. Jurnal kajian ini mengulas beberapa penelitian yang dilakukan dalam diagnosis penyakit TBC dengan memanfaatkan teknik data mining menggunakan beberapa algoritme yang berbeda.
1.2.1. PREPROCESSING DATA TUBERCULOSIS Dalam rangka meningkatkan kualitas pola dan informasi yang dicari, perlu dilakukan preprocessing data sebelum menerapkan teknik data mining [5][6]. Preprocessing data meliputi pembersihan data (handling missing value and noisy data), transformasi data (smoothing, aggregation, generalization, normalization, attribute construction), integrasi data, reduksi data (data cube aggregation, attribute subset selection, discretization) [5]. Dengan melakukan preprocessing data dapat menyediakan set latihan terakhir yang siap menjadi diterapkan pada teknik data mining [7] . 1.2.2.
MISSING VALUE Data mentah cenderung tidak lengkap, berisik, dan tidak konsisten [5]. Prosedur pembersihan data harus dilakukan untuk mengisi nilai-nilai yang hilang, menangani kebisingan di outlier data, dan menyelesaikan data yang tidak konsisten. yang paling metode yang populer adalah mengisi nilai-nilai yang hilang dengan nilai yang paling mungkin, seperti nilai null [8] . 1.2.3. NORMALISASI Normalisasi adalah salah satu cara transformasi data. Sebuah atribut dinormalisasi dengan membuat skala nilai atribut dalam rentang kecil seperti 0,0-1,0. Teknik ini biasanya digunakan untuk klasifikasi seperti jaringan saraf, atau untuk mengukur jarak seperti terdekattetangga klasifikasi dan clustering. Bila menggunakan backpropagation Algoritme neural network untuk klasifikasi, normalisasi bisa mempercepat tahap belajar. Sementara dalam metode yang berbasis jarak, normalisasi membantu menghindari kesan yang atribut dengan berbagai macam (misalnya, pendapatan) lebih penting daripada atribut dengan rentang kecil (misalnya, atribut biner). 1.2.4. SELEKSI FITUR Seleksi fitur bagian adalah proses mengidentifikasi dan mengurangi jumlah atribut yang adalah informasi yang tidak relevan dan berlebihan mungkin [5][7]. Sehingga mengurangi dimensi data yang akan memungkinkan Algoritme ntuk berjalan lebih cepat dan lebih efektif. Beberapa metode yang digunakan adalah gain informasi, rasio keuntungan, seleksi fitur berbasis korelasi-(CSF). Informasi Gain menghitung informasi yang diperoleh dari atribut sehubungan dengan kelas dengan menggunakan entropi. Metode Rasio Gain adalah bentuk normalisasi Informasi Gain. Normalisasi dilakukan dengan membagi keuntungan informasi dengan entropi atribut sehubungan dengan kelas, sehingga mengurangi prasangka. CSF mencari atribut terbaik yang memiliki tertinggi korelasi dengan atribut kelas, tetapi korelasi terendah antara masing-masing atribut [6] informasi Gain. Beberapa teknik-teknik data mining untuk mendiagnosis penyakit TBC yang dikaji pada makalah ini adalah K-Nearest Neighbor’s Network (KNN) [8] ,kMeans [8] [9], Naïve Bayes [8], Algoritme C4.5 (Decision Tree)[8] [10] , Random Forest [8], PART[8] [11], Neural Network [12], Rough Set [12], Rough Neural
2.1-122
ISSN : 2302-3805
Seminar Nasional Teknologi Informasi dan Multimedia 2015 STMIK AMIKOM Yogyakarta, 6-7 Februari 2015
Network[12][13] , Algoritme Back Propagation Neural Network [14] Neuro Fuzzy [15], Adaptive Neuro Fuzzy Inference Systems (ANFIS) [10] [13], Multilayer Perceptron [11], Support Vector Machine (SVM)[8] , Bagging [8] and AdaBoost [8]. 1.2.5. NAÏVE BAYES Naïve Bayes adalah algoritme pengklasifikasian statistik yang mengasumsi tidak adanya ketergantungan antara atribut-atribut. Naïve Bayes mencoba untuk memaksimalkan probabilitas posterior dalam menentukan kelas. Keuntungan menggunakan Naïve Bayes adalah seseorang dapat bekerja dengan model Naïve Bayes tanpa menggunakan metode Bayesian. Pengklasifikasian Naïve Bayes mampu bekerja baik dalam banyak situasi dunia nyata yang kompleks [8]. 1.2.6. DECISION TREE Decision Tree adalah algoritme pengklasifikasian yang popular yang sederhana dan mudah diterapkan, tidak membutuhkan pengetahuan domain atau parameter pengetahuan dan dapat menangani data dengan dimensional tinggi. Hasil yang diperoleh dari Decision Tree lebih mudah untuk membaca dan menafsirkan melalui fitur untuk mengakses data detail profil pasien yang tersedia dalam pohon keputusan [10] . 1.2.7. K-Nearest Neighbor’s Network (KNN) KNN adalah metode untuk mengkelompokan objek berdasarkan data training terdekat dalam ruang fitur. KNN merupakan algoritme yang paling sederhana dari semua algoritme mechine learning. Tapi keakuratan KNN dapat mengalami kerusakan parah karena hadirnya fitur yang tidak relevan atau fitur yang tidak konsisten dengan kepentingan data . KNN merupakan salah satu algoritme yang digunakan untuk klasifikasi, meskipun juga dapat digunakan untuk estimasi dan prediksi [8]. KNN adalah contoh algoritme berbasis pembelajaran, di mana dataset pelatihan (training) disimpan, sehingga klasifikasi untuk record baru yang tidak diklasifikasi didapatkan dengan membandingkannya dengan record yang paling mirip dengan training set [8]. Langkah-langkah algoritme KNearest Neighbor adalah [8]: 1. Menentukan parameter k, misal k = 5. 2. Menghitung jarak (similarity) di antara semua training records dan objek baru. 3. Pengurutan data berdasarkan nilai jarak dari nilai yang terkecil sampai terbesar. 4. Pengambilan data sejumlah nilai k (misal k=5). 5. Menentukan label yang frekuensinya paling sering di antara k training records yang paling dekat dengan objek. 1.2.8. Algoritme Back Propagation Neural Network Ada dua proses learning dalam Algoritme Back propagation Neural Network (BPNN) yaitu feedforward dan proses backward. Dalam proses feedforward, dataset diterapkan sebagai input dan jaringan menyebarkan pola input dari lapisan ke lapisan sampai output pola yang dihasilkan. Proses dalam lapisan input (i) ke lapisan hidden (j) ditunjukan dengan [14]
output diperoleh dari penjumlahan beban input dari sebuah node dan peta ke fungsi aktivasi jaringan. Proses pada lapisan hidden (j) menuju lapisan output (k) ditunjukan dengan
Kesalahan dihitung untuk mengukur perbedaan antara yang output diinginkan dan output aktual yang telah dihasilkan dalam fase feedforward.
backpropagation diterapkan dari output (k) ke hidden (j) seperti yang ditunjukkan
Proses ini konvergensi
diulang
secara
berulang-ulang
sampai
1.2.9. Algoritme C4.5 Algoritme C4.5 digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar pohon keputusan Pohon keputusan adalah model prediksi menggunakan struktut pohon atau struktur berhirarki. Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan [8] [10]. Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan Algoritme C4.5 yaitu: 1. Mempersiapkan data training, dapat diambil dari datahistori yang pernah terjadi sebelumnya dan sudah dikelompokan dalam kelas-kelas tertentu. 2. Menentukan akar dari pohon dengan menghitung nilaigain yang tertinggi dari masing-masing atribut atau berdasarkan nilai index entropy terendah. Sebelumnyadihitung terlebih dahulu nilai index entropy, dengan rumus :
3. Hitung nilai gain dengan rumus : 4. Untuk menghitung gain ratio perlu diketahui suatu term baru yang disebut Split Information dengan rumus :
2.1-123
ISSN : 2302-3805
Seminar Nasional Teknologi Informasi dan Multimedia 2015 STMIK AMIKOM Yogyakarta, 6-7 Februari 2015
5. Selanjutnya menghitung gain ratio
6. Ulangi langkah ke-2 hingga record terpartisi. Proses partisi pohon keputusan akan berhenti disaat : a. Semua tupelo dalam record dalam simpul m mendapat kelas yang sama b. Tidak ada atribut dalam record yang dipartisi lagi c. Tidak ada record didalam cabang yang kosong 1.3.
METODE ANALISIS Pengumpulan data dalam penelitian ini mengenai diagnosis penyakit Tuberkolusis dengan teknik data mining melalui observasi dan studi pustaka. Observasi dilakukan dengan mengamati bagaimana proses diagnosis penyakit jantung koroner yang dilakukan oleh dokter spesialis paru-paru. Selanjutnya peneliti melakukan studi pustaka dengan membaca dan melakukan kajian dari beberapa referensi bacaan berupa e-book, artikel website dan jurnal. Penjelasan kajian pustaka diawali dengan penjelasan teknik yang dilakukan oleh dokter dan kemudian kajian pustaka tentang metode-metode yang telah dikembangkan. 2.
HASIL DAN PEMBAHASAN Tuberkulosis (TBC) merupakan penyakit menular yang umum, dan dalam banyak kasus bersifat mematikan. Penyakit ini disebabkan oleh berbagai strainmikobakteria, umumnya mycobacterium tuberculosis [16]. Gejala klasik infeksi TB aktif yaitu batuk kronis dengan bercak darah sputum atau dahak, demam, berkeringat di malam hari, dan berat badan turun. (dahulu TB disebut penyakit "konsumsi" karena orang-orang yang terinfeksi biasanya mengalami kemerosotan berat badan). Infeksi pada organ lain menimbulkan gejala yang bermacam-macam. Proses diagnosis penyakit Tuberculosis secara konvensional dilakukan oleh dokter dengan meninjau riwayat kesehatan pasien penyakit paru-paru dan dilanjutkan pemeriksaan fisik dan tes dahak serta radiologi (biasanya melalui sinar-X dada) serta pemeriksaan mikroskopis dan pembuatan kultur mikrobiologis cairan tubuh. Diagnosa awal TBC dapat dilakukan melalui pengkajian dari gejala klinis ,pemeriksaan fisik kemudian uji lanjutan dapat dilakukan. Gejala klinis yang sering ditemui pada tuberculosis paru adalah batuk yang tidak spesifik tetapi progresif. Pada pemeriksaan fisik kadang kita dapat menemukan suara yang khas tergantung seberapa luas dan dan seberapa jauh kerusakan jaringan paru yang terjadi. Uji lanjutan yang dilakukan yaitu gambaran radiologi atau Rontgen Paru dan pemeriksaan laboratorium klinis maupun bakteriologis. Pemeriksaan Rontgen dapat menunjukkan gambaran yang bermacam macam dan tidak dapat dijadikan gambaran diagnostik yang absolut dari Tuberculosis Paru. Pada pemeriksaan
laboratorium ,peningkatan laju endap darah dapat menunjukan proses yang sedang aktif ,tapi laju endap darah yang normal bukan berarti menyingkirkan adanya proses Tuberculosis. Penemuan adanya BTA pada dahak, bilasan bronkus, bilasan lambung, cairan pleura atau jaringan paru adalah sangat penting untuk mendiagnosis TBC Paru. Sering dianjurkan untuk pemeriksaan dahak sebanyak 3 kali untuk dahak yang diambil pada pagi hari. Uji tuberkulin [17] dilakukan dengan cara menyuntikkan secara intrakutan ( yakni di dalam kulit), dengan tuberkulin PPD RT 23 kekuatan 2 TU ( Tuberculin Unit ). Pembacaan dilakukan 48-72 jam setelah penyuntikan, dan diukur diameter dari peradangan atau indurasi yang dinyatakan dalam milimeter. Dinyatakan positif bila indurasi sebesa r > 10 mm pada anak dengan gizi baik, dan pada anak-anak dengan gizi buruk. Uji tuberkulin ini lebih dipilih oleh ahli paru untuk mendiagnosis keberadaan TB pada pasien dengan akurasi 70 % meskipun invasive, mempunyai risiko, dan mahal. Berbagai penelitian ilmiah telah menunjukkan bahwa pemanfaatan teknik data mining telah diterapkan dalam proses diagnosis penyakit Tuberkulosis yang memiliki tingkat keakuratan yang cukup baik. Data mining telah banyak dimanfaatkan dalam dunia medis untuk prediksi maupun diagnosis suatu penyakit dengan pemanfaatan berbagai algoritme data mining. Beberapa penelitian tersebut antara lain oleh M. Yunus dkk. [10],S Agarwal [9], dkk , April Rose C. Semogan dkk.[15], A. Bakar & Febriyani [12] , Benfu, dkk [14], T. Uçar and A. Karahoca [11], T. Asha dkk. [8] dan Uçar, dkk [13] dalam tabel sebagai berikut : Tabel 1. Tabel penelitian data mining sebelumnya Methods Lazy Bayesian ModelingModel
Author(s) k - k NB NN Means
Bakar & Febri yani, 2007
Benfu et al., 2009
2.1-124
Tree Classifier
Neural Network
T
Meta Modelling
Hasil / Akurasi
A
P A C.45 DT RF R
SVM
N N
R S
R N N
B Neuro P fuzzy
N F
Bag- AdaSVM ging Boost
MP
I S
RS = X X X
X
92,14% NN = 90,44% RNN = 92,29% 93.10%, sensitivity 88.89% and specificity 100%
Seminar Nasional Teknologi Informasi dan Multimedia 2015
ISSN : 2302-3805
STMIK AMIKOM Yogyakarta, 6-7 Februari 2015
Tabel 2. Tabel penelitian data mining sebelumnya
M. Yunus dkk. [10] membuat sistem pendukung keputusan mendiagnosis penyakit paru-paru menggunakan metode forwad chaining dan decision tree mampu A P R N menelusuri penyakit paru-paru berdasarkan gejala yang k - k A N R B Neuro Hasil/ C.45 Bag- AdaF MP SVM ging Boost sudah terdefinisi dan dapat digunakan oleh masyarakat - NB DT RF R N S N fuzzy Author(s) NN Akurasi P Means N I umum sebagai deteksi dini sebelum ke dokter. T S Kekurangannya gejala yang tidak terdefinisi akan sulit di SVM = diagnosis. 8,7%, T. Uçar and A. Karahoca [11] melakukan Asha dengan dkk. X X X X X X X X X Bagging penelitian dengan data setnya dari klinik 667 data pasien 2011 98,4% dan tersiri dari 30 atribut menggunakan 20 atribut terseleksi Random yaitu umur, berat badan, kelelahan, keengganan untuk Forest bekerja, kehilangan nafsu makan, berat badan turun, 98,3% Uçar ANFIS = berkdaeringat di malam, hemoptisis, demam, sedimentasi, & 18%, Karah X X X PPD, eritrosit, hematokrit, hemoglobin, leukosit, jumlah MP = 19% , oca, jenis leukosit, aktif lesi paru spesifik, jaringan kalsifikasi, PART = 2011 rongga, pneumonia infiltrasi dengan preposesing seleksi 20% ANFIS = fitur gain informasi ranking filter menggunakan metode Uçar 97% dkk. X X klasifikasi dengan algoritme ANFIS (adaptive neuro fuzzy RS = 2013 inference system), PART, dan MLP (mult ilayer 92% perceptron). Dari hasil menunjukkan bahwa dengan Mampu algoritme ANFIS 18%, MP 19% dan PART 20% menelusuri penyakit A. Bakar & Febriyani [12] melakukan penelitian M. paru-paru dengan data setnya dari Unit Layanan Kesehatan Mandau, Yunus X berdasarkan dkk. Riau terdiri dari 14 atribut 187 dari 233 data pasien gejala yg menggunakan 8 atribut terseleksi yaitu jenis kelamin, sudah terdefinisi umur, berat badan, demam, keringat malam, batuk > 3 minggu, dahak berdarah, Basil Tahan Asam (BTA) dengan S. preposesing discretization rough set application. Metode Agar X wal yang digunakan Klasifikasi dengan menguji beberapa dkk. Algoritme klasifikasi. Dari hasil menunjukkan bahwa dengan Algoritme Neural Network didapatkan akurasi April 90,44 dan Algoritme Rough Set 92,14% dengan Ros C X menggabungkan kedua Algoritme tersebut menghasilkan Semo gan Algoritme RoughSet Neural Network sebanyak 92,29 %. T. Uçar dkk [13] melakukan penelitian dengan data setnya dari Private Health Clinic in Istanbul 250 T. Asha, dkk [8] melakukan penelitian dengan data records data set menggunakan 20 variabel yaitu Aktif lesi setnya dari dari kota rumah sakit 700 data pasien paru tertentu, Jaringan kalsifikasi, Jumlah leukosit jenis, menggunakan 11 atribut yaitu umur, batuk kronis berat, Demam, Kelompok Umur, PPD, Berkeringat di (minggu), berat badan turun, batuk berdarah, temam terus malam hari, leukosit, Kehilangan berat badan, Hemoptisis, menerus, nyeri dada, HIV, temuan radiografi, serak, rongga, Sedimentasi, Kehilangan nafsu makan, Infiltrasi malam keringat, dahak dengan preprosesing mengganti pneumonia, Kelelahan, Keengganan untuk bekerja, missing value dengan nul. Metode yang digunakan Hemoglobin, Hematokrit, eritrosit dengan preprosesing clustering dan klasifikasi Algoritme dengan menguji Feature selection : information gain ranking filter using beberapa Algoritme clustering dan klasifikasi yaitu WEKA function Discretization MDL-base discretization k-nearest neighbor, k-means, C45 DT (Decision Tree), method. Metode yang digunakan Klasifikasi dengan random forest dan Support Vector Machine .Dari hasil Algoritme Rough Set dan ANFIS dengan hasil correctness menunjukkan bahwa dengan Algoritme Support Vector using ANFIS 97% dan RS 92 % Machine 98,7%, dengan model Bagging 98,4% dan Y. Benfu, dkk. [14] melakukan penelitan dengan Random Forest 98,3% data setnya dari TB apotik dan rumah sakit di Jining Kota M. Shukla and S. Agarwal [9] , dkk melakukan terdiri dari 291 data pasien SNPT 5 besar & 41 minor penelitian dengan menggunakan penggabungan (hibrid) karakteristik dengan menggunakan 29 atribut yaitu jenis antara 2 metode clustering dan klasifikas. Didapatkan cara kelamin, umur, status pernikahan, pekerjaan, yang efisien dalam klasifikasi dengan terlebih dahulu vaksinasi, penyakit kronis, lama batuk, batuk berdahak, melakukan clustering terhadap data penyakit Tuberculosis. lama dahak, keringat malam , lama keringat malam, Dengan Algoritme k-means dilakukan pengelompokan demam ringan, demam ringan di sore hari, data terhadap data set penyakit Tuberculosis yang kelemahan, nafsu makan turun, berat badan turun, nyeri memberikan hasil lebih baik dan efisien dalam melakukan dada, dada sesak, lama sesak, lesi daerah, lesi batas, klasifikasi conglutination, mulus, sel rongga, sel darah merah, 2.1-125
ISSN : 2302-3805
Seminar Nasional Teknologi Informasi dan Multimedia 2015 STMIK AMIKOM Yogyakarta, 6-7 Februari 2015
sel darah putih, eritrosit Tingkat sedimentasi dengan preposesing Feature selection : Single factor logistic regression Normalization: Min-Max. Metode yang digunakan Klasifikasi dengan Algoritme Back Propagation di dapatkan akurasi 93.10%, sensitifitas 88.89% dan spesifitas 100% April Rose C. Semogan, dkk. [15] membuat sistem pendukung keputusan yang mengintegrasikan Algoritme fuzy logic dan metode rule based. Sistem ini mampu mengklasifikasi penyakit Tuberculosis sesuai dengan kebutuhan dokter. Kreteria Fuzy nya menggunakan data pasien yang beresiko tinggi dan rendah KESIMPULAN Dari hasil penelitian diatas serta pembahasan yang telah dipaparkan diatas dapat ditarik kesimpulan bahwa proses diagnosis penyakit Tuberculosis dapat dilakukan secara konvensional dan teknik data mining. Diagnosis secara konvensional dapat dilakukan dengan Uji Tuberkulin dan pemeriksaan dahak dengan akurasi 70%. Diagnosis menggunakan teknik data mining memberikan hasil akurasi terbaik diperoleh dari penelitian Asha dkk (2013) dengan menggunakan Support Vector Machine memberikan akurasi tertinggi 98,7%, diikuti oleh Bagging 98,4% dan 98,3% Random Forest dibandingkan dengan metode lainnya.
[14]
[15]
[16] [17]
3.
Daftar Pustaka
[1] G. Henry, Anatomy of the human body. Philadelphia: Lea & Febiger, 1918. [2] A. Konstantinos, “Testing for tuberculosis,” Aust. Prescr., vol. Volume 33 |, no. 1, Feb. 2010. [3] Menteri Kesehatan Republik Indonesia, “Pedoman Penanggulangan TuberkulosisS (TB).” Kemenkes Nomor 364/MENKES/SK/V/2009, Mei-2009. [4] I. H. Witten, E. Frank, and M. A. Hall, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 3 edition. Burlington, MA: Morgan Kaufmann, 2011. [5] J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques, Third Edition, 3 edition. Burlington, MA: Morgan Kaufmann, 2011. [6] H. Dag, K. E. Sayin, I. Yenidogan, S. Albayrak, and C. Acar, “Comparison of feature selection algorithms for medical data,” in 2012 International Symposium on Innovations in Intelligent Systems and Applications (INISTA), 2012, pp. 1–5. [7] S. B. Kotsiantis, D. Kanellopoulos, and P. . Pintelas, “Data Preprocessing for Supervised Leaning,” Int. J. Comput. Sci., vol. 1, no. 2, 2006. [8] T. Asha, S. Natarajan, and K. N. B. Murthy, “A Data Mining Approach to the Diagnosis of Tuberculosis by Cascading Clustering and Classification,” ArXiv11081045 Cs, Aug. 2011. [9] M. Shukla and S. Agarwal, “Hybrid approach for tuberculosis data classification using optimal centroid selection based clustering,” in 2014 Students Conference on Engineering and Systems (SCES), 2014, pp. 1–5. [10] M. Yunus and S. Setyowibowo, “Aplikasi Sistem Pendukung Keputusan Diagnosa Penyakit Paru-paru dengan Metode Forward Chaining,” STMIK PPKIA Pradnya Paramita Malang, vol. Jurnal Teknologi Informasi Vol 2, no. 2. [11] T. Uçar and A. Karahoca, “Predicting existence of Mycobacterium tuberculosis on patients using data mining approaches,” Procedia Comput. Sci., vol. 3, pp. 1404–1411, 2011. [12] A. Bakar and F. Febriyani, “Rough Neural Network Model For Tuberculosis Patient Categorization,” Proc. Int. Conf. Electr. Eng. Inform., vol. Vol.2: Hal. 760–763, 2007. [13] T. Uçar, A. Karahoca, and D. Karahoca, “Tuberculosis disease diagnosis by using adaptive neuro fuzzy inference system and
rough sets,” Neural Comput. Appl., vol. 23, no. 2, pp. 471–483, Aug. 2013. Y. Benfu, S. HongMei, S. Ye, L. Xiuhui, and Z. Bin, “Study on the Artificial Neural Network in the Diagnosis of Smear Negative Pulmonary Tuberculosis,” in 2009 WRI World Congress on Computer Science and Information Engineering, 2009, vol. 5, pp. 584–588. A. R. C. Semogan, B. D. Gerardo, B. T. Tanguilig, J. T. de Castro, and L. F. Cervantes, “A Rule-Based Fuzzy Diagnostics Decision Support System for Tuberculosis,” in 2011 9th International Conference on Software Engineering Research, Management and Applications (SERA), 2011, pp. 60–63. V. Kumar, A. K. Abbas, and R. Mitchell, Robbins Basic Pathology, 8th ed. 2007. Kenyorini, Suradi, and E. Surjanto, “Uji Tuberkulin,” Bagian Pulmonologi Dan Kedokt. Respirasi FK UNS RSUD Dr Moewardi Surak., vol. Jurnal Tuberkulosis Indonesia, Vol. 3 No. 2.
Biodata Penulis Mukhamad Hasim Iswanto, memperoleh gelar Sarjana Komputer (S.Kom.), Jurusan Sistem Informasi, lulus tahun 1999. Sedang mengikuti studi program Pasca Sarjana, Program Studi Teknik Elektro dan Teknologi Informatika Universitas Gajah Mada Yogyakarta, masuk tahun 2012. Saat ini menjadi Dosen di Akademi Militer Magelang Jawa Tengah. Adhistya Erna Permanasari, memperoleh gelar Sarjana Teknik (S.T) Jurusan Teknik Elektro dan Teknologi Informasi Universitas Gadjah Mada, lulus tahun 2003. Memperoleh gelar Magister Teknik (M.T) dari Program Pasca Sarjana Teknik Elektro dan Teknologi Informasi Universitas Gadjah Mada, lulus tahun 2006. Memperoleh gelar Doctor (Ph.D) dari Universitas Petronas, Malaysia. Saat ini menjadi dosen di Jurusan Teknik Elektro dan Teknologi Informasi Universitas Gadjah Mada, Yogyakarta Hanung Adi Nugroho, memperoleh gelar Sarjana Teknik (S.T) Jurusan Teknik Elektro dan Teknologi Informasi Universitas Gadjah Mada, lulus tahun 2001. Memperoleh gelar Master of Engineering (M.E) dari The University of Queensland Australia, lulus tahun 2005. Memperoleh gelar Doctor (Ph.D) dari Universitas Petronas, Malaysia tahun 2012. Saat ini menjadi dosen di Jurusan Teknik Elektro dan Teknologi Informasi Universitas Gadjah Mada, Yogyakarta
2.1-126