SISTEM DIAGNOSIS MAMMOGRAM DIJITAL BERBANTUKAN KOMPUTER DENGAN MENGGUNAKAN TEKNIK EKSTRAKSI FITUR DAN SUPPORT VECTOR MACHINES Hendry Kosasi Binus University, Jakarta, DKI Jakarta, Indonesia
Kevin Setiawan Binus University, Jakarta, DKI Jakarta, Indonesia dan
Sudarsan Binus University, Jakarta, DKI Jakarta, Indonesia
Abstrak Tujuan penelitian ini adalah untuk membuat sebuah aplikasi yang dapat membantu kerja dokter dalam melakukan diagnosis kanker payudara berdasarkan microcalcification. Metode penelitian yang kami gunakan yaitu image preprocessing, feature extraction, serta pengklasifikasian menggunakan Support Vector Machines. Hasil yang dicapai adalah terciptanya sebuah aplikasi yang kemudian dapat sedikit banyak membantu dokter dalam melakukan diagnosis kanker payudara. Simpulan yang kami dapat dari penelitian skripsi ini adalah sebuah aplikasi yang memiliki tingkat keakurasian sebesar 87.5% sehingga dapat membantu dokter dalam mendiagnosis kanker payudara.
Kata Kunci : Diagnosis, Mammogram Digital, Support Vector Machines
1. Pendahuluan Kanker payudara telah menjadi salah satu penyebab kematian terbesar yang terjadi terhadap para wanita semenjak beberapa dekade terakhir ini. Tentunya hal ini menjadi sebuah hal yang tidak dapat dipandang sebelah mata lagi, apalagi kanker payudara telah menjadi penyakit kanker yang paling sering dialami oleh para wanita khususnya di negara industri seperti Indonesia. Menurut Profil Kesehatan Indonesia tahun 2008, kanker payudara menempati peringkat pertama penyakit kanker pada pasien rawat inap di rumah sakit pada tahun 2004-2007. Pada tahun 2004 angka kejadian kanker payudara sebanyak 5.207 kasus, tahun 2005 sebanyak 7.850 kasus, tahun 2006 sebanyak 8.328 kasus dan tahun 2007 sebanyak 8.277 kasus. Di samping itu, berdasarkan data Sistem Informasi Rumah Sakit (SIRS) tahun 2007, kanker payudara menempati urutan pertama pada pasien rawat inap di seluruh RS di Indonesia sebanyak 8.277 kasus (16,85%), disusul kanker leher rahim sebanyak 5.786 kasus (11,78%). Kanker tertinggi yang diderita wanita Indonesia adalah kanker payudara dengan angka kejadian 26 per 100.000 wanita, disusul kanker leher rahim dengan 16 per 100.000 wanita. Bukanlah hal yang penting bagi masyarakat awam mengenai jumlah penderitanya. Hal yang jauh lebih penting yaitu bagaimana cara untuk memberikan informasi serta menyadarkan masyarakat akan bahaya dari penyakit ini. Kemudian, dapat melakukan upaya pencegahan yang cepat dan tepat sehingga penyakit tersebut tidak terjadi. Jika sel kanker dapat dideteksi lebih awal, tentunya alternatif pengobatan akan semakin banyak dan prosentase untuk sembuh menjadi menjadi lebih tinggi. Perkembangan teknologi telah membuat pendeteksian untuk penyakit seperti kanker payudara menjadi lebih mudah. Pada jaman sekarang telah terdapat teknologi yang disebut dengan mammogram. Mammogram adalah sebuah alat yang dapat menghasilkan gambar 2 dimensi, umumnya berupa 8-bit grayscale image, yang didapat dari proses sinar-x terhadap payudara pasien. Proses yang ditempuh untuk mendapatkan mammogram image (gambar yang didapatkan setelah proses screening dengan X-Ray oleh mammogram) disebut juga sebagai mammography. Dari mammogram image tersebut, dokter melakukan analisa secara konvensional atau secara langsung mendiagnosis sel kanker tersebut dengan kasat mata. Namun sering kali terjadi kesalahan saat penganalisaan (karena kelelahan dan berbagai jenis human error) maupun luputnya hal penting dari penglihatan dokter. Maka dari itu, kemudian dibuatlah sebuah
mammogram dijital untuk memfasilitasi dokter dalam melakukan pendiagnosisan secara dijital (melalui bantuan komputer). Sebuah mammogram dijital dibuat ketika mammogram konvensional didijitalisasikan sehingga dapat digunakan oleh komputer. Dengan adanya mammogram dijital ini, maka Computer-Aided Diagnosis dapat dilakukan. Computer-Aided Diagnosis adalah sebuah sistem yang mampu mendiagnosis atau dalam arti sebenarnya dapat membedakan adanya penyakit atau tidak, mengurangi tingkat kesalahan dari pembacaan false positive dan false negative, serta meningkatkan peluang untuk mendeteksi adanya keadaan abnormal lebih dini, tentunya dengan bantuan komputer. Computer-Aided Diagnosis bekerja berbasiskan konsep dari pattern recognition serta computer vision. Sistem Computer-Aided Diagnosis ini dapat membantu dokter untuk mendiagnosis kanker payudara dan menyajikan hasilnya sebagai option ke-2 bagi dokter. Dengan latar belakang di atas, maka kemudian penulis memilih topik dengan judul “Sistem Diagnosis Mammogram Dijital Berbantukan Komputer dengan Menggunakan Teknik Ekstraksi Fitur dan Support Vector Machines”.
2. Metodologi Ruang lingkup yang kami kerjakan adalah sistem diagnosis mammogram dijital dengan pengembangan metode feature extraction dan Support Vector Machines. Agar pembahasan dalam penelitian ini memiliki arah dan tujuan, maka diberikan ruang lingkup pembahasan yang terdiri dari : • Sumber data yang berasal dari MIAS sebanyak 60 image: - Kedalaman 8 bit - Ukuran 1024 x 1024 pixel • Klasifikasi terhadap sel kanker berdasarkan microcalcification • Klasifikasi yang dilakukan : - Positif kalsifikasi atau negatif kalsifikasi - Jika positif kalsifikasi, dilakukan klasifikasi lebih lanjut terhadap tingkat severitasnya apakah benign atau malignant • Pengklasifikasian terbatas pada positif atau negatif kalsifikasi serta tingkat severitasnya, tidak termasuk ke dalam tingkat penyebaran kanker (stadium)
2.1 Metodologi Aplikasi Berbeda dengan otak manusia, komputer tidak memiliki titik jenuh dalam melakukan kalkulasi secara berulang-ulang. Klasifikasi gambar mammogram sudah dimungkinkan dengan berbagai macam teknik dan metode. Metode-metode yang digunakan menggunakan proses yang terdapat dalam computer vision yaitu image preprocessing seperti enchanced dan feature extraction (khususnya GLCM), sedangkan klasifier yang digunakan untuk membedakan microcalcification merupakan benign atau malignant adalah SVM (Support Vector Machines).
Gambar 2.1 Diagram Alur Aplikasi
2.1.1 Offline Training Process Pada proses ini, mula-mula dilakukan image preprocessing pada mammogram image yang dimasukkan. Setelah itu image tersebut diubah menjadi GLCM (Gray Level Co-occorence Matrix). Dari GLCM ini, kemudian diekstraklah fitur-fitur dengan tingkat diskriminator yang diinginkan. Fitur-fitur yang digunakan tidak dipilih secara acak, melainkan dipilih berdasarkan pemilihan fitur dengan pendekatan t-test sehingga didapat fitur-fitur yang dinilai mempunyai tingkat diskriminator tinggi. Pada penelitian ini, t-test tidak dilakukan karena sudah dilakukan dalam penelitian lain sebelumnya. Fitur-fitur tersebut antara lain mean of difference entropy, range of local homogeneity, dan range of difference variance. Kemudian dilakukanlah training dengan memasukkan fitur yang telah didapatkan dan class yang telah didefinisikan untuk jenis fitur tersebut sehingga kemudian didapatkanlah SVM terlatih yang dapat membedakan class dari mammogram image yang dimasukkan.
2.1.2 Online Classification Process Tahap ini tidak terlalu berbeda dengan proses training. Mula-mula dilakukan image preprocessing pada mammogram image yang dimasukkan. Lalu setelah diubah menjadi GLCM, diekstrak dan kemudian didapatkanlah fitur yang diinginkan. Setelah itu masukklah ke dalam proses pengklasifikasian yaitu dengan menggabungkan fitur yang didapat dengan SVM yang telah kita training sebelumnya. Maka kemudian akan didapatkan kelas untuk mammogram image tersebut, apakah positif kalsifikasi atau negatif kalsifikasi. Jika positif kalsifikasi, maka akan dilakukan pengklasifikasian kembali apakah termasuk benign atau malignant.
2.1.3 Image Preprocessing Proses image preprocessing pada gambar mammogram dilakukan untuk beberapa tujuan berikut ini: • Meningkatkan kejelasan gambar agar feature dapat diambil dengan mudah • Mengurangi ukuran gambar agar tidak membebani kerja CPU sehingga proses feature extraction dapat dilakukan dengan cepat • Membuang detail gambar yang tidak diperlukan dalam proses feature extraction.
Gambar yang diambil dari MIAS adalah berupa gambar grayscale 8 bit dengan 256 tingkat intensitas dengan ukuran 1024 x 1024 pixel. Tahapan preprocessing gambar mammogram yang dilakukan dapat dibagi menjadi 4 tahapan: • Cropping (memilih ROI) • High Pass Filtering • Low Pass Filtering • Histogram Equalization
2.1.4 Feature Extraction Mammogram dijital dianalisis dengan menentukan ROI (Region of Interest) lalu mengubahnya menjadi GLCM (Gray Level Co-Occurrence Matrix) terlebih dahulu, yaitu suatu matriks yang merepresentasikan hubungan ketetanggaan antar piksel dalam gambar pada berbagai arah orientasi dan jarak spasial. Di dalam aplikasi ini, ada 4 GLCM yang digunakan dalam menentukan feature pada gambar mammogram, yaitu GLCM dengan jarak spasial 1 dan sudut 0o, GLCM dengan jarak spasial 1 dan sudut 45o, GLCM dengan jarak spasial 1 dan sudut 90o, dan GLCM dengan jarak spasial 1 dan sudut 135o. Setelah memperoleh matriks kookurensi tersebut, dapat dihitung ciri statistik yang merepresentasikan gambar yang diamati. Berdasarkan data yang dipelajari, yang menjadi strong feature untuk deteksi kanker adalah mean of difference entropy, range of local homogeneity, dan range of difference variance.
-
Difference entropy dihitung dengan rumus:
Lalu dihitung mean-nya (nilai rata-rata)
-
Local homogeneity dihitung dengan rumus:
Lalu dihitung range-nya (nilai maksimum dikurangi nilai minimum)
-
Difference variance dihitung dengan rumus:
Lalu dihitung range-nya (nilai maksimum dikurangi nilai minimum)
2.1.5 Support Vector Machine SVM yang digunakan dalam aplikasi ini diambil dari framework EMGU CV dengan memasukkan: using Emgu.CV.ML; using Emgu.CV.ML.Structure; Dengan cara ini, input yang dimasukkan berupa feature, dan output berupa kelas. Berdasarkan penelitian yang sudah dilakukan secara empiris, parameter yang dipakai untuk dimasukan ke dalam parameter SVM di emgu.cv.ml untuk mendapat hasil terbaik adalah sebagai berikut: kernel type linear svm type c_svc parameter c = 1 mcvtermcriteria(100,0.0001)
Pembelajaran (training) dilakukan dengan menggunakan pasangan data input dan data output berupa sasaran yang diinginkan. Data input didapatkan dari hasil perhitungan GLCM yaitu feature mean of difference entropy, range of local homogeneity, dan range of difference variance. Data output didapatkan dari data MIAS. Untuk proses klasifikasi, hanya diperlukan feature mean of difference entropy, range of local homogeneity, dan range of difference variance dari image yang bersangkutan. Aplikasi ini memiliki 2 buah SVM yaitu abnormality untuk mengklasifikasikan ada atau tidaknya kalsifikasi dan severity untuk mengklasifikasi benign atau malignant. SVM severity akan otomatis dijalankan bila hasil dari SVM abnormality menyatakan bahwa ROI yang diambil tersebut positif mengandung kalsifikasi.
2.2 Implementasi Sistem aplikasi yang kami kembangkan adalah sistem pengklasifikasian jenis kanker payudara apakah tergolong normal atau abnormal (benign atau malignant) berdasarkan query mammogram image yang dimasukkan. Aplikasi ini kami buat menggunakan Microsoft Visual C# 2010 Express Edition (Version 10.0.30319.1 RTMRel), Microsoft .NET Framework Version 4.0.30319 RTMRel dengan pertimbangan: 1. Banyak framework yang sudah disediakan berbasiskan C#. Contohnya adalah EMGU CV yang kami pakai dalam membuat aplikasi ini 2. C# menggunakan bahasa OOP yang robust sehingga dapat mempermudah programmer dalam pembuatan sistem skala kecil, menengah maupun besar 3. Menurut survey yang dilakukan oleh TIOBE Programming Community, C# merupakan bahasa pemrograman nomor 3 terpopuler di dunia. Hal ini akan mempermudah kami mencari tutorial maupun snippet. (Sumber: http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html) 4. C# dicompile ke dalam intermediate language (CIL) sehingga bisa berjalan di semua arsitektur komputer dan sistem operasi 5. Program berjalan lebih cepat dan efisien di dalam Windows karena menggunakan .NET Framework
2.3 Evaluasi Data MIAS yang kami uji terdiri dari 60 mammogram image dengan ekstensi *.mamm terbagi menjadi 37 image normal, 13 image dengan tingkat severitas malignant, dan 10 image dengan tingkat severitas benign. Dari keseluruhan sample ini, kami membaginya menjadi 36 training sample dan 24 testing sample.
Detail dari training samplenya yaitu : •
Training sample : 36 images
•
Training positive calcification : 13 images
•
Training negative calcification : 23 images
•
Training calcification malignant : 7 images
•
Training calcification benign : 6 images
Detail dari testing sample: •
Testing sample : 24 images
•
True positives : 8 images
•
True negatives : 13 images
•
False positives : 1 image
•
False negatives : 2 images
•
True Benign : 3 images
•
True Malignant : 4 images
•
False Benign : 1 image
•
False Malignant : 1 images
Contoh gambar hasil testing ada di bawah ini:
Gambar 2.3a Diagnosis normal (calcification: negative)
Gambar 2.3b Diagnosis abnormal dengan tingkat severitas malignant
Gambar 2.3c Diagnosis abnormal dengan tingkat severitas benign
Gambar 2.3d Salah satu jenis kesalahan diagnosis (Tingkat severitas yang sebenarnya adalah malignant namun hasil diagnosis menyatakan benign)
Gambar 2.3e Salah satu jenis kesalahan dalam mendiagnosis abnormalitas. Seharusnya tingkat calcification adalah negative tapi hasil diagnosis menyatakan positive dengan tingkat severitas malignant.
Gambar 2.3f Salah satu jenis kesalahan dalam diagnosis yaitu false negative.
Data hasil testing gambar mammogram untuk 24 sample: Mammogram mdb236 mdb237 mdb239 mdb240 mdb241 mdb242 mdb243 mdb244 mdb245 mdb246 mdb247 mdb248 mdb249 mdb250 mdb251 mdb252 mdb253 mdb254 mdb255 mdb256 mdb257 mdb258 mdb259 mdb260
MIAS Information SVM Classification Calcification Severity Calcification Severity positive benign positive benign negative negative positive malignant positive malignant positive benign positive benign positive malignant positive benign negative negative negative negative negative positive malignant positive malignant positive malignant negative negative negative negative positive benign positive benign positive malignant positive malignant negative negative negative negative positive benign negative positive malignant positive malignant negative negative negative negative positive malignant negative negative negative negative negative negative negative negative negative Tabel 2.3 Hasil Testing
Detail dari testing sample: • Testing sample : 24 images • True positives : 8 images • True negatives : 13 images • False positives : 1 image • False negatives : 2 images • True Benign : 3 images • True Malignant : 4 images • False Benign : 1 image • False Malignant : 1 images
Dari data hasil testing tersebut maka kami mendapat prosentase keberhasilan untuk mendeteksi kanker ini berdasarkan microcalcification adalah: •
Prosentase keberhasilan pendeteksian keabnormalitasan = = = 87.5%
Sedangkan prosentase keberhasilan untuk menentukan tingkat severitas berdasarkan calcificationnya adalah: •
Prosentase keberhasilan penentuan tingkat severitas = = = 87.5%
•
Accuracy (ACC) = = = 87.5%
•
Specificity (SPC) atau true negative rate (TNR) = = = 92.86%
•
Presisi atau positive predictive value (PPV) = = = 88.89%
•
False positive rate (FPR) = = = 7.14%
•
False discovery rate (FDR) = = = 11.11%
Evaluasi Kesalahan Klasifikasi
Dari keempat kesalahan klasifikasi yang terjadi, kami melakukan analisis dari feature yang didapat dari setiap mammogram yang dianalisis. Hasilnya adalah sebagai berikut: 1. Fitur yang didapat merupakan confusion matrix di mana fitur tersebut menyebrangi threshold dari hyperplane SVM pada feature vector 2. Proses image preprocessing yang dilakukan dibasiskan pada ROI yang dipilih saja, sehingga hasilnya kurang menggambarkan keseluruhan tekstur dari gambar mammogram. Ketika ROI digeser, ada kemungkinan hasil dari klasifikasi berubah 3. SVM yang kami gunakan berbasiskan bidang lurus atau linear, sehingga klasifikasi yang terjadi masih kaku dan rentang terjadi kesalahan klasifikasi.
3. Kesimpulan Dari hasil analisis diagnosis kanker payudara yang kami lakukan dapat disimpulkan halhal sebagai berikut : 1. Prosentase keberhasilan untuk pendeteksian abnormalitas yaitu 87.5% dan prosentase keberhasilan penentuan tingkat severitas sebesar 87.5%. Hal ini berarti metode yang kami lakukan cukup bagus sehingga dapat dipakai untuk penelitian lebih lanjut. 2. False Positive Rate serta False Discovery Rate yang rendah berarti sistem yang kami buat ini mampu untuk diimplementasikan secara nyata di bidang kedokteran dan sedikit banyak dapat membantu dokter dalam mendiagnosis.
Daftar Pustaka [1] AbuBaker, Ayman A., Qahwaji, R. S., Aqel, Musbah J., Al-Osta, Hussam, and Saleh, Mohmmad H. (2006). Efficient Pre-processing of USF and MIAS Mammogram Images. Journal of Computer Science, 3(2), 67-75. [2] Alolfe, M. A., Youssef, A. M., Kadah, Y. M., and Mohamed, A. S. (2008). ComputerAided Diagnostic System Based on Wavelet Analysis for Microcalcification Detection in Digital Mammogram, Proceedings of the 2008 IEEE, 1-5. [3] American Cancer Society, Inc. 2007. Breast Cancer. Retrieved in 28 November 2011 from http://www.cancer.org [4] Anonim. 2011. Mammography. Retrieved in 28 November 2011 from http://en.wikipedia.org/wiki/Mammography [5] Barman, H., Granlund, G., Haglund, L. Feature Extraction for Computer-Aided Analysis of Mammograms. Sweden: Linkoping University. [6] Boryczko, K., Kurdziel, M., Yuen, David A. Detecting Clusters of Microcalcifications in High-Resolution Mammograms Using Support Vector Machines. Poland: Institude of Computer Science, USA: Minnesota Supercomputing Institude. [7] Burges, C.J.C. A Tutorial on Support Vector Machines for Pattern Recognition. Boston: Kluwer Academic Publishers. [8] Dhika. 2011. Apa Kabar Trend Kanker Payudara di Indonesia? Retrieved in 28 November 2011 from http://dhikatuy.blogdetik.com/2011/05/13/apa-kabar-trend-kankerpayudara-di-indonesia-2/ [9] Eisa, Mohamed, Refaat, Mohamed, El-Gamal, A. F. (2009). Preliminary Diagnostics of Mammograms using Moments and Texture Features. ICGST-GVIP Journal, 9(5). [10] GE Healthcare. 2010. Mammogram Exam. Retrieved in 28 November 2011 from http://www.gehealthcare.com/euen/patient/mammography/mammography-info.html [11] Kanghari. 2009. Istilah Komputer Sistem OCR. Retrieved in 28 November 2011 from http://kanghari.blogdetik.com/2009/04/06/istilah-komputer-sistem-ocr/
[12] Karahaliou, A., Skiadopoulos, S., Boniatis, I. et al. (2007). Texture Analysis of Tissue Surrounding Microcalcifications on Mammograms for Breast Cancer Diagnosis. The British Journal of Radiology, 80, 648-656. [13] Masala, G. L. (2006). Computer Aided Detection on Mammography. World Academy of Science, Engineering and Technology. [14] MD Anderson Cancer Center. 2011. Your First Mammogram : What to Expect. Retrieved in 28 November 2011 from http://www.mdanderson.org/publications/focused-onhealth/issues/2011-october/mammogrambreastcancer.html [15] Mohanty, A. K., Champati, P. K., Swain, S. K., and Lenka, S. K. (2011). A Review on Computer Aided Mammography for Breast Cancer Diagnosis and Classification Using Image Mining Methodology. International Journal of Computer Science and Communication, 2(2), 531-538. [16] Tiobe Software. 2011. January Headline: Objective-C wins the TIOBE Programming Language Award of 2011! Retrieved in 20 December 2011 from http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html [17] Verma, B., Zakos, J. (2001). A Computer-Aided Diagnosis System for Digital Mammograms Based on Fuzzy-Neural and Feature Extraction Techniques. IEEE Transaction on Information Technology in Biomedicine, 5(1), 46-54