BAB III METODOLOGI PENELITIAN 3.1
Kerangka Pikir Kanker payudara merupakan salah satu penyebab kematian yang sering dialami oleh wanita pada usia lanjut. Tercatat bahwa pada tahun 2011, terdapat lebih dari 200000 orang terkena kanker payudara dan sekitar 19% meninggal akibat kanker tersebut. Langkah yang paling efektif untuk menghindari hal tersebut adalah dengan mengetahui kanker tersebut secara dini dan dapat dilakukan penyembuhan sehingga kanker tersebut tidak menyebar ke organ tubuh lain. Deteksi kanker yang dilakukan dokter membutuhkan proses yang lama serta terdapat kemungkinan terjadi kesalahan sehingga diperlukan sebuah sistem yang dapat mendeteksi atau mengklasifikasi kanker tersebut. Sistem tersebut berguna untuk mempercepat proses klasifikasi serta membantu dokter dalam proses klasfikasi. Terdapat berbagai metode yang bisa digunakan untuk proses klasifikasi. Sebelum sebuah gambar dapat diklasifikasi, gambar tersebut harus
diambil
fitur-fitur
yang
bisa
menjadi
pembanding
yang
kuat.Histogram adalah sebuah metode ekstraksi fitur yang menggunakan warna.Tetapi menggunakan histogram, sebuah gambar sangat tergantung dari pencahayaan.Sedangkan pada mammogram, gambar yang dihasilkan tergolong mirip, baik secara warna maupun bentuk.Salah satu fitur yang dapat diekstraksi adalah melalui tekstur.Oleh karena itu, digunakan
25
26
metode wavelet transform yang mempunyai kekuatan ekstraksi pada tekstur. Metode wavelet transform yang sering digunakan adalah Discrete Wavelet Transform (DWT). DWT memberikan hasil yang cukup memuaskan untuk digital mammogram, tetapi DWT memiliki beberapa kelemahan, seperti ketergantungan pergeseran serta pemilihan arah yang buruk.Kelemahan-kelemahan yang ada pada DWT dapat ditutupi dengan Complex Wavelet Transform(CWT).Salah satu metode CWT yang bagus adalah Dual-Tree Complex Wavelet Transform (DTCWT). Sedangkan untuk classifier, terdapat berbagai metode pembelajaran seperti Naïve Bayes, Support Vector Machine (SVM), dan Artifitial Neural Network (ANN).Berdasarkan kajian pustaka, SVM dan ANN merupakan metode yang tepat untuk digunakan sebagai classifier untuk mammogram. SVM tergolong classifier yang bagus, tetapi toleransi terhadap noise pada SVM tidak lebih baik dari ANN. Jika noise yang ada pada gambar dimasukkan ke dalam classifer, tingkat keakuratan SVM akan menurun drastis dibandingkan dengan ANN. Jadi pada penelitian ini, metode fitur ekstraksi yang digunakan adalah DTCWT dan untuk classifier digunakan ANN.
27
3.2
Metodologi Penelitian
Training Preprocessing
Database Image
ROI
DTCWT
Ekstraksi Fitur
Proses Training Neural Network 1
Testing
Neural Network 2
Klasifikasi ROI
Ekstraksi Fitur
Preprocessing
DTCWT
Struktur : - CIRC - MISC - CALC - ASYM Jenis : - Benign - Malignant
Gambar 3.1 Metodologi yang diusulkan
Metodologi yang diusulkan menggunakan DTCWT sebagai fitur ekstraksi dan Neural Network sebagai classifier.Metode tersebut dibagi menjadi 2 fase yang dilakukan secara terpisah.Fase pelatihan ditujukan untuk melakukan pelatihan terhadap Neural Network karena NN termasuk salah satu jenis supervised learning, dimana untuk dapat mendapatkan kelas yang sesuai, harus diberikan sampel-sampel data untuk dilakukan
28
proses training. Fase pelatihan ini hanya cukup dilakukan satu kali dan sebelum fase ini dilakukan, tidak bisa dilakukan proses klasifikasi. Setelah proses training selesai dilakukan, sistem sudah dapat menerima input gambar dan dilakukan proses klasifikasi dan menghasilkan output berupa kelas dari gambar tersebut. Fase pelatihan diawali dengan mengambil data-data pelatihan berupa region of interest(ROI), yaitu daerah yang dicurigai sebagai kanker.Data hasil ROI tersebut kemudian dilakukan preprocessing berupa morfologi opening. Morfologi opening terdiri dari proses erosi, kemudian dilanjutkan dengan proses dilatasi. Hasil preprocessing tersebut kemudian diekstrak fiturnya dengan menggunakan DTCWT. Proses DT CWT akan menghasilkan 6 matriks untuk tiap level. Masing-masing matriks melambangkan orientasi arah. Ukuran matriks tersebut akan berbeda-beda sesuai dengan ROI dari gambar tersebut. Karena ROI dari setiap gambar berbeda-beda, maka hasil dari DTCWT tidak bisa langsung digunakan sebagai input Neural Network. Menurut Wroblewska.A, et al (2003), terdapat beberapa jenis perhitungan yang bisa digunakan untuk mengekstrak fitur untuk mammogram seperti mean, deviasi standar, contrast, entropy, variance, energy, dll.
29
Tabel 3.1 List Fitur yang Digunakan pada Objek Mammogram No. Nama Deskripsi 1. Mean Nilai rata-rata 2. Deviasi Standar Nilai deviasi standar 3. Background Nilai pada background object 4. Contrast between object (Mean-Background) / and background (Mean+Background) 5. Contrast 6. Entropy 7. Energy 8. Correlation 9. Variance M.Sonka, V. Hlavac, R. Boyle, 2008 10. Sum average 11. Sum entropy 12. Sum variance 13. Difference average 14. Difference entropy 15. Difference variance Pada penelitian ini, kombinasi perhitungan yang digunakan adalah kombinasi dari mean, deviasi standar, variance, dan entropy. Pemilihan kombinasi tersebut diambil berdasarkan penelitian yang dilakukan oleh Manimegalai.P, et al (2012).Dengan menggunakan kombinasi empat jenis koefisien tersebut, Manimegalai berhasil memperoleh tingkat akurasi sebesar 90%.Data ROI yang sudah diesktrak fiturnya tersebut kemudian dijadikan input NN untuk digunakan sebagai pelatihan. Pelatihan Neural Network dilakukan untuk mendapatkan weight(w) pada arsitektur Neural Network yang menjadi dasar jika ingin melakukan klasifikasi. Arsitektur yang digunakan adalah multilayered Perceptrons karena data dari ekstraksi fitur memiliki fitur yang banyak. Dari input yang banyak, berarti kompleksitas perhitungan akan semakin tinggi dan single layered perceptrons tidak bisa mengatasi masalah tersebut.
30
Pada fase klasifikasi, sistem akan menerima input berupa ROI. Data ROI tersebut dilanjutkan dengan proses preprocessing. Kemudian diikuti dengan proses mengeskstrak fitur menggunakan DTCWT yang sama dengan fase pelatihan. Hasil ekstraksi fitur kemudian diekstrak koefisien dengan kombinasi antara mean, deviasi standar, variance, dan entropy. Kemudian hasil koefisien tersebut dijadikan sebagai input pada Neural Network yang telah di-training sebelumnya. Hasil pada Neural Network adalah kelas pada ROI yang diberikan sebagai input.
Gambar 3.2 Contoh Proses DT CWT
Gambar diatas adalah contoh dari proses DT CWT. Gambar pada pojok kiri atas adalah gambar asli setelah didapat ROI. Sedangkan gambar disebelah kanan dari gambar asli adalah contoh proses erosi, dimana pixelpixel pada gambar akan dikecilkan. Sedangkan proses dilatasi adalah
31
proses pembesaran pixel disekitar gambar. Pada penelitian ini, proses yang digunakan adalah proses erosi, kemudian diikuti dengan proses dilatasi. Hasil dari proses tersebut dapat dilihat pada gambar dengan judul Opening. Sedangkan gambar pada pojok kanan atas adalah contoh hasil dari proses DT CWT. Gambar di baris kedua dan ketiga adalah matriks yang dihasilkan dari proses DT CWT. Pada setiap level akan menghasilkan 6 matriks dengan orientasi arah yang berbeda-beda. Matriks tersebut kemudian akan diekstrak fitur dengan perhitungan statistika seperti mean, deviasi standar, variance, dan entropy.
3.3
Sumber Data Data yang digunakan untuk pelatihan dan testing menggunakan mammogram yang terkumpul dalam Mammographic Image Analysis Society(MIAS)
yang
dapat
http://peipa.essex.ac.uk/info/mias.html.Database
diakses ini
terdiri
melalui dari
322
mammogram berukuran 1024x1024 pixel.Dari 322 kasus, terdapat 207 kasus normal, 64 kasus benign, dan 51 kasus malignant. Untuk menguji metodologi yang diusulkan, maka perlu dilakukan pengujian terhadap metodologi tersebut.Untuk fase pelatihan, data yang digunakan adalah 50 kasus yang terdiri dari 26 kasus benign, dan 24 kasus malignant.Sedangkan data yang digunakan pada fase klasifikasi adalah 45 kasus yang terdiri dari 26 kasus benign dan 19 kasus malignant.
32
Tabel 3.2 Tabel Distribusi Data Training dan Testing untuk Eksperimen pertama Jumlah Kasus Training Testing Benign 26 26 Malignant 24 19 Untuk eksperimen kedua, data training dan testing menggunakan data yang sama dengan eksperimen pertama. Struktur keabnormalan yang akan diuji adalah jenis Well-defined/circumscribed masses (CIRC), Calcification (CALC), Other, ill-defined masses (MISC), dan Asymmetry (ASYM). Untuk fase pelatihan data yang digunakan adalah 50 kasus dan fase klasifikasi adalah 45 kasus.
Tabel 3.3 Tabel Distribusi Data Training dan Testing untuk Eksperimen kedua Jumlah Kasus Training Testing Benign Malignant Benign Malignant CIRC 3 1 9 3 ASYM 2 2 4 4 ARCH 8 9 0 0 CALC 3 3 8 6 SPIC 9 7 0 0 MISC 1 2 5 6
3.4
Evaluasi Metodologi Dari kasus yang digunakan untuk proses pengujian, maka akan diperoleh jumlah data yang berhasil diklasifikasi dengan benar. Jumlah inilah yang menjadi tolak ukur dalam menentukan keberhasilan metodologi yang diusulkan, dan ditampilkan dalam bentuk persentase. Setelah proses pengujian, maka hasil pengujian akan digambarkan dalam
33
tabel confusion matrix. Untuk eksperimen kedua, hasil pengujian dihitung dengan menjumlahkan data yang diklasifikasi dengan benar, baik dari jenis
kanker
maupun
struktur
keabnormalannya.Kemudian
hasil
penjumlahan tersebut dibagi dengan jumlah keseluruhan data testing.
Actual Class
Tabel 3.4 Tabel Confusion Matrix Prediction Class Benign Malignant Benign a b Malignant c d
Persentase keakuratan dihitung dengan rumus: Persentase Keakuratan
3.5
100%
Time frame Time frame bertujuan agar penelitian ini dapat berjalan sesuai dengan rencana yang telah dibuat pada awal perencanaan.Berikut adalah time frame yang telah dibuat:
Tabel 3.5 Timeframe Penelitian Jenis Kegiatan Tanggal Mulai Melakukan planning penelitian 01 November 2011 Melakukan Research 16November 2011 - Mencari data - Mencari penelitian yang terkait - Membaca paper yang relevan Menulis Proposal 02 Januari 2012 Melakukan penelitian 01 Februari 2012 - Coding program - Melakukan testing - Melakukan percobaan data Menulis Tesis 02 Mei 2012
Tanggal Selesai 15 November 2011 01 Januari 2012
30Januari 2012 01 Mei 2012
24 Mei 2012