BAB I 1 1.1
PENDAHULUAN
Latar Belakang Tulang punggung merupakan bagian dari tulang belakang yang tersusun
atas sekelompok vertebra, invertebrate discs, saraf, otot, medulla, dan sendi (Berthonnaud et al., 2005). Tulang punggung sebagai bagian dari tulang belakang mempunyai peranan penting pada tubuh manusia. Fungsi utama dari tulang punggung adalah menopang tubuh manusia, pelindung medulla spinalis dan pusat saraf, serta sebagai poros pergerakan tubuh (Rocha et al., 2011). Beberapa penelitian menyatakan bahwa pada tahun 2012, lebih kurang 270.000 orang di United States mengalami cidera tulang belakang atau SCI (Spinal Cord Injury), dengan rentang 236.000 sampai 327.000 orang (National Spinal Cord Injury Statistical Center, 2012). Salah satu penyebab terbesar SCI adalah trauma pada tulang punggung (Vogel et al., 2004). Trauma yang terjadi pada tulang punggung dapat mempengaruhi kemampuan sumsum tulang belakang untuk mengirim dan menerima pesan dari otak ke sistem tubuh yang mengendalikan sensorik dan motorik. Trauma tersebut dapat disebabkan oleh berbagai macam faktor (American Association of Neurological Surgeons, 2005). Disc hernia dan spondylolisthesis merupakan contoh dari penyakit atau gangguan yang dapat terjadi pada tulang punggung. Disc hernia merupakan penyakit pada tulang punggung yang dapat menyebabkan kelumpuhan. Sedangkan spondylolisthesis dapat menyebabkan rasa sakit dan gangguan saraf (Rocha et al., 2011).
1
2
Klasifikasi penyakit pada tulang punggung (vertebral column) merupakan salah satu implementasi dari teknik pembelajaran mesin (machine learning) di bidang kedokteran. Penelitian tentang klasifikasi penyakit atau kerusakan tulang dan sendi dari sistem kerangka masih jarang dilakukan karena belum adanya suatu database yang memiliki atribut numeric yang secara kuantitatif mampu menggambarkan penyakit tersebut (Neto dan Barreto, 2009).
Padahal sistem
klasifikasi tersebut dapat digunakan sebagai “second opinion” oleh para ahli radiologi sehingga dapat meningkatkan produktivitas dan konsistensi diagnosis dari ahli radiologi tersebut mengingat bahwa penyakit pada tulang dan sendi dari sistem kerangka memiliki dampak yang buruk dan dapat mengganggu aktivitas para penderita. Berdasarkan permasalahan di atas, pada penelitian ini, dipilih dataset Vertebral Column yang merupakan salah satu dataset dari UCI Machine Learning Repository. Dataset tersebut diambil oleh Dr. Henrique da Mota di Group of Applied Research in Orthopaedics (GARO) dari Médico-Chirurgical de Réadaptation des Massues, Lyon, France. Dataset tersebut memiliki enam atribut, yaitu pelvic incidence, pelvic tilt, lumbar lordosis angle, sacral slope, pelvic radius, dan grade of spondylolisthesis dan memiliki 310 instance. Keenam atribut parameter digunakan untuk mengklasifikasikan data ke dalam tiga kelas, yaitu hernia, spondylolisthesis, dan normal. Dataset dengan tiga kelas dipilih agar dapat menghasilkan suatu sistem yang dapat melakukan diagnosis penyakit yang lebih spesifik dibandingkan dengan memakai dataset yang memiliki dua kelas, yaitu kelas normal dan abnormal.
3
Pada penelitian ini, akan ditentukan metode klasifikasi terbaik diantara dua metode yang mungkin dapat digunakan untuk melakukan klasifikasi penyakit pada tulang punggung. Kedua metode tersebut adalah decision tree (J48) dan Bagging dengan J48 sebagai base learnernya. Secara umum, decision tree merupakan metode yang mudah direpresentasikan atau dipahami oleh manusia karena dapat memberikan gambaran secara visual. Selain itu, decision tree juga dapat digunakan untuk data yang memiliki atribut dengan tipe numeric seperti dataset Vertebral Column yang digunakan pada penelitian ini. Namun, decision tree merupakan metode yang tidak stabil, karena itu perlu adanya metode lain untuk dapat mengatasi kelemahan tersebut dan Bagging merupakan salah satu metode yang dapat digunakan (Witten et al., 2011). Performa dari kedua metode klasifikasi tersebut akan dievaluasi menggunakan metode 10-fold cross-validation. Dan parameter yang digunakan untuk mengevaluasi metode klasifikasi yang digunakan adalah TP rate (True Positive rate), FP rate (False Positive rate), accuracy, dan ROC (Receiver Operating Characteristic) AUC (Area Under the Curve). Parameter tersebut dipilih untuk dapat menganalisis ketepatan metode klasifikasi yang digunakan dalam melakukan klasifikasi penyakit pada tulang punggung mengingat bahwa ketelitian prediksi merupakan hal yang penting di dunia medis karena berkaitan dengan kesehatan atau keselamatan manusia. 1.2
Rumusan Masalah Masalah yang dirumuskan berdasarkan penjelasan latar belakang adalah
sebagai berikut.
4
1. Penelitian tentang klasifikasi penyakit atau kerusakan tulang dan sendi dari sistem kerangka masih jarang dilakukan. Padahal sistem klasifikasi dapat meningkatkan produktivitas dan konsistensi para ahli radiologi dalam melakukan diagnosis. 2. Secara umum, decision tree merupakan metode yang mudah direpresentasikan oleh manusia dan dapat digunakan pada atribut dengan tipe numeric. Meskipun demikian, decision tree merupakan metode yang tidak stabil sehingga perlu adanya metode lain untuk mengatasi kelemahan tersebut, terutama dalam melakukan klasifikasi penyakit pada tulang punggung. 1.3
Batasan Masalah Ada beberapa batasan yang dilakukan dalam penelitian ini, yang
dijabarkan sebagai berikut. 1. Batasan subjek penelitian adalah dataset dari UCI Mechine Learning Repository, yaitu dataset Vertebral column yang memiliki tiga kelas (disc hernia, spondylolistesis, dan normal). Dataset tersebut memiliki 6 parameter yang digunakan untuk menentukan kelas, yaitu pelvic incidence, pelvic tilt, lumbar lordosis angle, sacral slope, pelvic radius, dan grade of spondylolisthesis dengan instance sebanyak 310. 2. Batasan sistem adalah penelitian menggunakan WEKA untuk tahap klasifikasi dan evaluasi data. Metode klasifikasi yang digunakan adalah metode J48 dan Bagging dengan J48 sebagai base learner. Metode J48 yang digunakan merupakan J48 yang menggunakan tree
5
pruning dan tanpa pembentukan aturan keputusan. Sedangkan metode evaluasi yang digunakan adalah 10-fold cross validation. 3. Parameter yang digunakan untuk mengetahui performa dari metode klasifikasi yang digunakan adalah TP rate, FP rate, accuracy, dan ROC AUC. 1.4
Tujuan Penelitian
Tujuan diadakan penelitian ini adalah sebagai berikut. 1. Melakukan klasifikasi penyakit pada tulang punggung dengan menggunakan metode J48 dan Bagging dengan J48 sebagai base learner. Dan mengevaluasinya berdasarkan nilai accuracy, TP rate, FP rate, dan ROC AUC. 2. Mengevaluasi performa metode Bagging dalam meningkatkan performa metode J48 berdasarkan nilai accuracy, TP rate, FP rate, dan ROC AUC. 3. Menentukan metode terbaik untuk klasifikasi penyakit pada tulang punggung diantara kedua metode yang digunakan dalam penelitian ini. 1.5
Manfaat Penelitian Manfaat penelitian dari klasifikasi dataset Vertebral column adalah untuk
memberikan referensi metode apa yang dapat digunakan untuk klasifikasi penyakit pada tulang punggung sehingga dapat dibangun sebuah sistem klasifikasi yang berfungsi sebagai “second opinion” bagi para ahli radiologi atau dokter dalam mendiagnosis penyakit pada tulang punggung.
6
1.6
Keaslian Penelitian Penelitian tentang implementasi dari teknik machine learning di bidang
kedokteran seperti cardiology, radiology, dan pathology sudah banyak dilakukan sebelumnya dengan berbagai macam penyakit yang digunakan sebagai objek penelitian. Penyakit pada tulang belakang merupakan salah satu penyakit yang menjadi objek penelitian. Terdapat dua macam dataset Vertebral Column di UCI Machine Learning Repository, yaitu dataset yang memiliki dua kelas dan tiga kelas. Beberapa metode telah diuji pada kedua dataset tersebut untuk mendapatkan hasil klasifikasi dengan kualitas performa yang baik. Salah satu penelitian tentang klasifikasi penyakit pada tulang punggung dilakukan oleh Rocha et al. (2011) dengan menggunakan metode rejection, yaitu rejectSVM untuk klasifikasi penyakit pada tulang punggung ke dalam dua kelas, yaitu normal dan abnormal. Kotti dan Diamantaras (2012) menggunakan metode Mean Squared Slack (MSS) untuk melakukan klasifikasi pada dua dataset yang berbeda dan salah satunya adalah dataset penyakit pada tulang punggung yang memiliki dua kelas, yaitu normal dan abnormal. Sedangkan Redy et al. (2012) menggunakan metode Naïve Bayes untuk dua dataset Vertebral Column yang berbeda. Satu dataset merupakan klasifikasi penyakit pada tulang punggung yang memiliki dua kelas, dan satu lagi dataset yang memiliki tiga kelas. Hasil penelitian menunjukkan bahwa Naïve Bayes memiliki accuracy sebesar 83.7419%. Dewasa ini, berbagai penelitian menggunakan metode ensemble untuk dapat meningkatkan akurasi hasil klasifikasi di bidang kesehatan telah banyak
7
dilakukan. Salah satu penelitian tentang klasifikasi penyakit dengan menggunakan metode ensemble dilakukan oleh Tu et al. (2009) yang menggunakan algoritme Bagging dengan decision tree (J48) sebagai base learner untuk melakukan klasifikasi apakah seorang pasien mempunyai penyakit jantung atau tidak. Performa dari metode klasifikasi yang digunakan akan dievaluasi berdasarkan tiga parameter, yaitu sensitivity, specificity, dan accuracy. Hasil penelitian tersebut menunjukkan bahwa Bagging dapat meningkatkan performa dari J48. Ya-Qin et al. (2009) menggunakan Bagging untuk meningkatkan performa dari decision tree (C5). Metode tersebut digunakan untuk mengklasifikasikan penderita breast cancer yang dapat bertahan hidup dan yang tidak dapat bertahan hidup. Hasil penelitian menunjukkan bahwa Bagging dapat meningkatkan performa dari C5. Asha et al. (2011) membandingkan beberapa metode ensemble untuk mengklasifikasikan penyakit tuberculosis (TB), apakah merupakan pulmonary tuberculosis (PTB) ataukah retroviral PTB. Metode ensemble yang digunakan adalah Bagging, AdaBoost, dan Random Forest. Hasil penelitian menunjukkan bahwa Bagging memiliki sensitivity, specificity, dan accuracy yang paling tinggi. Lavanya dan Usha Rani (2012) menggunakan Bagging untuk meningkatkan performa
dari
decision
tree
(CART).
Metode
ensemble
tersebut
diimplementasikan pada tiga dataset breast cancer yang berbeda. Hasil penelitian menunjukkan bahwa Bagging dapat meningkatkan performa dari CART. Penelitian tentang klasifikasi penyakit pada tulang punggung dan penelitian tentang metode ensemble di bidang kedokteran yang pernah dilakukan sebelumnya dapat diringkas seperti pada Tabel 1.1.
8
Tabel 1.1 Ringkasan penelitian tentang metode ensemble yang pernah dilakukan sebelumnya No.
Author
Tahun
Judul Penelitian
Metode
1.
Rocha et al.
2011
Diagnostic of Phatology on the Vertebral Column with Embedded Reject Option
2.
Kotti dan Diamantaras
2012
Towards Minimizing The Energy of Slack Variables For Binary Classification
Mean Squared Slack (MSS)
Naïve Bayes
rejectSVM
3.
Reddy et al.
2012
Classification of Vertebral Column using Naïve Bayes Technique
4.
Tu et al.
2009
Effective of Heart Disease through Bagging Approach
Bagging dan decision tree (J48)
2009
Decision Tree Based Predictive Models For Breast Cancer Survivability On Imbalanced Data
Bagging dan C5
2010
Diagnosis of Tuberculosis using Ensemble Methods
AdaBoost, Bagging, dan Random Forest
2012
Ensemble Decision Tree Classifier for Breast Cancer Data
CART dan Bagging
5.
Ya-Qin et al.
6.
Asha et al.
7.
Lavanya dan Usha Rani
Berdasarkan penelitian sebelumnya, belum ada penelitian yang melakukan klasifikasi penyakit pada tulang punggung yang memiliki tiga kelas menggunakan metode J48 dan Bagging dengan J48 sebagai base learner. Pada penelitian ini, metode Bagging digunakan untuk meningkatkan performa dari J48. Enam atribut parameter yang digunakan untuk menentukan klasifikasi pada dataset Vertebral
9
Column adalah pelvic incidence, pelvic tilt, lumbar lordosis angle, sacral slope, pelvic radius, dan grade of spondylolisthesis. Enam atribut parameter tersebut nantinya akan digunakan untuk menentukan apakah seorang pasien menderita penyakit disc hernia, spondylolisthesis, atau normal. Perangkat lunak yang digunakan dalam penelitian ini adalah WEKA. 1.7
Sistematika Penulisan
BAB I : PENDAHULUAN Pada bab ini dijelaskan latar belakang, rumusan masalah, batasan, tujuan, manfaat dan keaslian penelitian. BAB II : TINJAUAN PUSTAKA DAN LANDASAN TEORI Pada bab ini dijelaskan teori-teori dan penelitian terdahulu yang digunakan sebagai acuan dan dasar dalam penelitian. BAB III : METODE PENELITIAN Pada bab ini dijelaskan metode yang digunakan dalam penelitian meliputi langkah kerja, alat dan bahan, serta alur penelitian. BAB IV : HASIL DAN PEMBAHASAN Pada bab ini dipaparkan hasil penelitian dan pembahasannya. BAB V : KESIMPULAN DAN SARAN Pada bab ini ditulis kesimpulan akhir dari penelitian dan saran untuk pengembangan penelitian selanjutnya.