BAB II LANDASAN TEORI 2.1. Computer Aided Detection (CADe) and Diagnosis (CADx) Mammogram Sejak 1998, teknologi CADe telah disetujui oleh FDA (Food and Drug Administration) untuk digunakan dalam mammography screening (Fenton et al, 2007). Computer Aided Detection (CADe) digunakan oleh radiolog untuk mencari dan menandai wilayah yang mengandung lesi abnormal (Mohamed & Kadah, 2007). Untuk menghasilkan diagnosa yang efektif, dibutuhkan workstation solution yang dapat “berkomunikasi” dengan citra mammogram. Perangkat yang dapat membantu radiolog dalam melakukan pengamatan antara lain (Karellas, Vedantham, & Lewin, 2009): 1. Tools untuk menampilkan / menyembunyikan hasil deteksi CAD secara interaktif 2. Tools untuk memperbesar citra dari ukuran aslinya. 3. Fungsi-fungsi yang dapat diatur untuk menyesuaikan radiolog dalam mengamati. Selanjutnya, wilayah yang dicurigai pada CADe akan didiagnosa oleh Computer Aided Diagnosis.
Computer Aided Diagnosis merupakan diagnosa
seorang radiolog yang menggunakan hasil analisa komputer pada gambar medical sebagai “second opinion”, dalam mengkaji penyakit lebih dalam, dan membuat keputusan diagnosa (Giger, Karssemeijer, & Armato, 2002). Pada mammogram, CADx berfungsi untuk menentukan wilayah yang dicurigai atau ROI (Region of
5
6
Interest) kedalam kategori benign (tidak berbahaya bagi kesehatan) atau malignant (berbahaya).
Hasil diagnosa ini akan membantu radiolog dalam
menentukan langkah selanjutnya, apakah diperlukan biopsy atau follow-up mammography jangka pendek. (Elfarra & Abuhaiba, 2012). CADe secara garis besar terdiri dari 2 tahap. Pada tahap pertama, CADe bertujuan untuk mendeteksi lesi yang berbahaya dengan nilai sensitivity yang tinggi. Pada tahap kedua, CADe bertujuan untuk mengurangi false positive tanpa mengurangi sensitivity secara drastis. Sedangkan CADx secara garis besar mempunyai 1 tahap yang terdiri dari 5 langkah yaitu, pengolahan citra, segmentasi, ekstrasi fitur, pemilihan fitur dan klasifikasi. Proses CADx diawali dengan menginput bagian lesi yang abnormal (ROI) dan diakhiri dengan output berupa kecenderungan malignant atau saran untuk penanganan lebih lanjut.
Gambar 2. 1. Tahap-tahap dalam CADe dan CADx (Bovik, 2005)
7
2.2. Pengolahan Citra Pengolahan citra adalah sebuah istilah untuk operasi awal yang dilakukan pada citra. Pengolahan citra bertujuan agar meningkatkan data pada citra yang terdistorsi. Pengolahan citra tidak meningkatkan informasi pada gambar. Banyak citra digital terkadang buram atau blur karena noise sehingga gambar tersebut perlu diolah agar noise hilang dan citra menjadi lebih tajam. (Roopashree.S, Saini, & Singh, 2012). Dalam mammogram,
pengolahan citra
sangat
dibutuhkan dalam
menentukan orientasi pada mammogram, menghilangkan noise dan meningkatkan kualitas citra (Bandyopadhyay, 2010). Sebelum citra diproses, tahap pengolahan citra sangatlah penting untuk mempersingkat pencarian lesi abnormal tanpa terpengaruh background mammogram. Salah satu operasi dalam pengolahan citra yang sering dilakukan adalah cropping. Dengan cropping, bagian yang tidak relevan pada gambar seperti background dapat dihilangkan sehingga dapat fokus terhadap wilayah yang relevan (Miljkovi`c, 2009).
2.2.1. Contrast Enhancement Contrast Enhancement adalah salah satu jenis operasi dalam pengolahan citra. Pada citra mammogram, contrast enhancement adalah proses memanipulasi citra mammogram untuk meningkatkan kekontrasan gambar tersebut dan dapat mengurangi noise pada saat mendeteksi bagian lesi yang abnormal (Biltawi, AlNajdawi, & Tedmori, 2012). Tujuan dari contrast enhancement ini ialah untuk menghilangkan pixel-pixel gelap yang terdapat pada daerah abnormal (Mencattini,
8
Rabottino, Salmeri, Lojacono, & Colini, 2008). Nilai kontras yang terdapat pada daerah ROI dapat ditingkatkan dengan menggunakan persamaan:
(2. 1)
di mana k = 2,3,4,… dan asli ,
merupakan nilai intensitas pixel pada citra
merupakan hasil peningkatan masing-masing citra. Sedangkan merupakan intensitas maksimum dari citra asli.
Gambar 2. 2. Gambar Sebelum dan Sesudah Dilakukan Contrast Enhancement (MathWorks, 2015)
2.2.2. Histogram Equalization Histogram equalization merupakan salah satu teknik peningkatan kontras citra yang sering digunakan pada gambar terang atau gelap dalam domain spasial (Patel, Maravi, & Sharma, 2013). Dengan histogram equalization, kontras gambar akan meningkat secara menyeluruh (global). Kontras gambar dimodifikasi dengan dengan cara melebarkan puncak dan memampatkan palung histogram (Sasi &
9
Jayasree, 2013) . Proses ini dilakukan dengan menggunakan cummulative density function menggunakan persamaan berikut:
(2. 2)
dimana N adalah jumlah pixel citra dengan L level intensitas dan adalah jumlah pixel pada intensitas level
.
Gambar 2. 3. Gambar Original dan Gambar Hasil Histogram Equalization (Fishbaugh, 2015)
2.2.3. Contrast Limited Adaptize Histogram Equalization Teknik Contrast Limited Adaptize Histogram Equalization (CLAHE) merupakan teknik peningkatan kontras yang sering digunakan pada medical images (Reza, 2004). CLAHE merupakan peningkatan dari histogram equalization karena dapat beradaptasi dengan kontras lokal. Puncak histogram (peaks) pada citra bisa saja merupakan area yang tidak diinginkan, sehingga histogram equalization dapat keliru dan menyebabkan wilayah yang tidak diingikan meluas (noise).
10
Dalam Contrast Limited Adaptize Histogram Equalization (CLAHE), citra dipotong menjadi beberapa citra kecil dan kemudian dilakukan equalization pada setiap potongan citra (Min, Lim, Kim, & Lee, 2013). Blocking artifacts antar potongan citra dihilangkan dengan cara dilakukan bilinear interpolation. Dengan CLAHE, kontras pada wilayah yang homogen dapat dibatasi sehingga noise amplification dapat dihindarkan.
Gambar 2. 4. Gambar Original dan Gambar Hasil CLAHE (MathWorks, 2015)
2.2.4. Modified Seed Region Growing Seed Region Growth adalah sebuah proses dimana sebuah pixel atau kumpulan pixel berkembang menjadi wilayah yang lebih besar dengan menentukan kriteria diawal. Metode dasar dari SRG dimulai dari kumpulan seed yang ditaruh, kemudian pixel-pixel tetangga disekitar nya yang memiliki kemiripan karakteristik dengan seed akan membuat satu wilayah. Untuk pemilihan karakteristik seed, bergantung pada fitur dari masalah yang ingin diselesaikan. Apabila tidak ada pixel lagi yang memiliki karakteristik mirip dengan seed, maka wilayah yang berkembang akan berhenti (Shengjun, Houjin, & Jupeng, 2011).
11
Gambar 2. 5. Region Sebelum dan Sesudah Seed Growthing (Marshall, 2015) Pada umumnya, seed akan berkembang jika selisih antara mean dari wilayah seed dengan pixel atas, kiri, kanan, atau bawah masih lebih besar dari batas T yang ditentukan. Namun pada modified seed region growing, seed juga akan berkembang jika intensitas pixel disekitar wilayah masih lebih besar dari P dimana P merupakan intensity threshold.
2.2.5. Divide
and
Conquer
Homogeneity
Enhancement
Algorithm DHCEA merupakan sebuah algoritma enhancement citra dengan melihat kesamaaan pixel disekelilingnya pada digital mammogram (Maitra, Nag, & Bandyopadhyay, Detection of Abnormal Masses using Divide and Conquer Algorithm in Digital Mammogram, 2011). Pada metode ini akan ditentukan nilai perbedaan threshold maksimum / maximum difference threshold (MDT) yang didapatkan berdasarkan observasi. Algoritma ini melakukan scanning dari kiri ke kanan serta atas ke bawah dari gambar mammogram. Jika pada saat scanning, ditemukan pixel yang memiliki selisih lebih besar dari MDT, maka kumpulan pixel akan dipecah menjadi 2 bagian berdasarkan pixel yang berbeda tersebut. Pada kumpulan pertama pixel akan dihitung nilai modus dari himpunan tersebut. Nilai intensitas modus ini akan disebarkan ke seluruh posisi setelah memodifikasi
12
nilai tersebut menggunakan teknik uniform color quantization pada ruang warna yang dipecah menjadi skala 16 level. Proses ini akan berlangsung terus sampai mencapai ujung kanan dari baris terakhir citra mammogram. Proses yang sama juga akan dilakukan secara vertikal yang diikuti dengan uniform color quantization. Berikut algoritma untuk proses horizontal : 1. Scan citra dari pixel paling kiri ke paling kanan 2. Cek apakah nilai pixel, MDT-nilai pixel < intensitas pixel < MDT + nilai pixel 3. Jika nilai tidak sesuai, kelompokkan kumpulan pixel dari awal sampai akhir berdasarkan pixel yang berbeda pada langkah 2. 4. Dari kumpulan pixel yang mirip tersebut (dari pixel awal sampai pixel berbeda ), cari nilai modus dari semua pixel yang memiliki intensitas yang sama dan ubah semua pixel dari kumpulan tersebut setelah melakukan uniform color quantization pada kumpulan pixel. 5. Lanjutkan ke langkah 2 sampai ke pixel paling kanan dari baris terakhir citra.
Algoritma ini juga akan dilakukan untuk proses scanning secara vertical dari pixel paling atas sampai pixel paling bawah.
13
Gambar 2. 6. Pixel dengan Intensitas Berbeda (Kiri), Pixel Setelah Scanning Horizontal (Tengah), dan Pixel Setelah Scanning Vertical (Kanan) (Maitra, Nag, & Bandyopadhyay, Detection of Abnormal Masses using Divide and Conquer Algorithm in Digital Mammogram, 2011)
2.2.6. Edge Detection Algorithm Algoritma ini digunakan untuk mendeteksi edge pada citra mammogram setelah menjalan algoritma DCEHA. Proses pendeteksian edge ini dilakukan dalam 3 tahap. Pertama-tama dilakukan proses scanning citra secara horizontal dengan mengambil pixel pertama sebagai nilai threshold adaptif (Δt). Nilai ini akan dibandingkan dengan pixel berikutnya sampai mencapai ujung kanan. Jika terjadi perubahan intensitas pixel antara 2 pixel yang melebihi nilai threshold adaptif maka algortima ini akan menandakan pixel terakhir sebagai edge dan mengubah warna pixel tersebut menjadi hitam pada citra mammogram di tahap akhir. (2. 3)
Selanjutnya algoritma ini akan dilakukan juga untuk vertical scanning. Teknik yang sama pada horizontal dilakukan juga pada vertical scanning dengan menentukan pixel pertama sebagai nilai threshold adaptif. Jika terjadi perubahan intensitas pixel antara 2 pixel yang melebihi nilai threshold adaptif maka
14
algoritma ini akan menandakan pixel terakhir sebagai edge dan mengubah warna pixel tersebut menjadi hitam pada citra mammogram di tahap akhir. (2. 4)
Setelah selesai melakukan horizontal dan vertical scanning maka akan dilakukan operasi penggabungan antara pixel hasil horizontal scanning dan vertical scanning untuk menghasil edge pada gambar mammogram. Edge = ƒ(h) ∪ ƒ(v) (2. 5)
(a)
(b)
(c)
(d)
Gambar 2. 7. Pixel setelah horizontal scanning (a), Pixel setelah vertical scanning (b), Pixel setelah gabungan vertical dan horizontal (c), Tampilan Pixel akhir dengan background putih (d) (Maitra, Nag, & Bandyopadhyay, Detection of Abnormal Masses using Divide and Conquer Algorithm in Digital Mammogram, 2011)
15
2.2.7. Seeded Region Growing Algorithm Algoritma ini merupakan algorithma lanjutan dari Edge Detection Algorithm. Proses segmentasi yang dilakukan oleh Edge Detection Algorithm menyebabkan terbentuknya beberapa region dimana pixel didalamnya memiliki intensitas yang sama. Pada tahap ini, intensitas pixel pada sebuah region akan di ubah dengan modus dari pixel-pixel pada region tersebut dengan menggunakan intensitas citra awalnya (sebelum dilakukan DCHEA). Algoritma ini diawali melakukan scanning secara horizontal dari kiri ke kanan untuk mencari bagian yang belum diwarnai. Jika ditemukan region yang belum diwarnai maka akan di taruh sebuah seed yang akan bertumbuh selama belum mencapai edge dengan memanfaatkan stack. Setelah seed selesai bertumbuh, dihitung modus dari wilayah tersebut namun memakai intensitas pixel pada citra awal sebelum dilakukan DCHEA. Nilai modus ini kemudian digunakan untuk mewarnai region tersebut. Jika sudah mencapai pojok kanan gambar, maka posisi scanning akan turun secara sumbu y dan melakukan horizontal scanning lagi diawal sampai mencapai ujung bawah kanan citra (Maitra, Nag, & Bandyopadhyay, Detection of Abnormal Masses using Divide and Conquer Algorithm in Digital Mammogram, 2011). Berikut ini langkah-langkah melakukan SRGA: 1. Lakukan scan dari kiri citra pada baris pertama 2. Jika pixel belum di warnai dan bukan boundary edge, maka push seed tersebut kedalam Seed Stack 3. Cek pixel pada atas, kiri, bawah dan kanan dari seed tersebut
16
4. Jika pixel belum di warnai dan bukan boundary edge, maka push seed seed tersebut kedalam Seed Stack 5. Pop sebuah seed dari stack tersebut dan masukkan ke dalam Color List yang nantinya akan diwarnai. 6. Ulangi selama seed stack belum kosong dan sampai tidak ada lagi terdapat pixel yang belum diwarnai pada region tersebut, kemudian ulangi step 2 7. Setelah mendapatkan Color List, scan intensitas pada citra asli dan hitunglah modus 8. Warnai region tersebut dengan modus pada tahap sebelumnya 9. Kosongkan Color List dan kembali ke tahap pertama sampai seluruh wilayah diwarnai.
2.3. Robust Regression Linear regression telah menjadi salah satu alat statistik terpenting untuk menganalisa data. Akan tetapi, linear regression tidak dapat berfungsi dengan baik ketika distribusi error tidak normal. Untuk mengatasi permasalah ini, munculah robust regression, yang dapat membuat fitting criterion sehingga tidak rentan terhadap data noise. Metode paling umum yang digunakan untuk robust regression ialah Mestimation (Fox & Weisberg, 2011). Asumsikan linear model
(2. 6)
untuk observasi ke i dari n observasi. Maka fitted modelnya ialah
17
(2. 7)
M-estimator akan meminimalisasi fungsi objektif
(2. 8)
dimana fungsi
berisi kontribusi setiap residual kepada fungsi objektif. Fungsi
harus memiliki karakteristik berikut :
Selalu positif,
Bernilai 0 jika argument yang berikan juga 0,
Simetris,
Sebagai contoh, Asumsikan
untuk estimasi least-square. yang merupakan turunan dari . Turunan dari fungsi
objektif dengan koefisien b dan dengan partial derivatives 0 akan menghasilkan sistem dengan k + 1 yang dapat mengestimasi persamaan terhadap koefisienkoefisien: (2. 9)
Jika fungsi bobot w(e) = (e)/e, dan wi = w(ei) maka estimasi equation dapat dituliskan sebagai berikut
(2. 10)
18
Persamaan diatas merupakan problem weigted least-square, dengan tujuan meminimalkan
Pada problem ini, bobot bergantung pada residual,
namun residual bergantung pada estimated koefisien dan estimated koefisien bergantung pada bobot. Untuk mengatasinya dibutuhkan sebuah solusi iteratif ( yang dikenal iteratively reweighted least-squares) yang memiliki tahap-tahap berikut: 1. Tentukan nilai awal b(0) 2. Setiap iterasi t, hitunglah residual
dan bobot
dari
iterasi sebelumnya. 3. Hitung weighted least squares yang baru
(2. 11) dimana X adalah matriks model, dengan diag
untuk baris ke i dan W(t-1) =
merupakan bobot dari matriks. Ulangi tahap kedua dan ketiga sampai estimated koefisien menjadi
konvergen. Matriks kovarians asymptotic dari b didefinisikan sebagai berikut
(2. 12) Dengan menggunakan untuk mengestimasi kovarians asymptotic,
untuk mengestimasi E(
) dan
dapat menghasilkan estimated matriks
(namun tidak baik jika sampel terlalu sedikit).
19
Tabel 2. 1. Fungsi Objektif dan Fungsi Bobot untuk Least-squares, Huber, dan Bisquare Estimator Metode
Fungsi Objektif
Fungsi Bobot
Least-Squares Huber
Bisquare
2.4. Shape Descriptor Sebuah descriptor yang baik dapat menggambarkan karakteristik dari sebuah shape. Shape descriptor yang paling umum digunakan ialah area, circularity, eccentricity, major axis orientation dan bending energy (Yong, Walker, & Bowie, 1974). Shape descriptor tersebut hanya bisa membedakan shape yang memiliki perbedaan besar, oleh karena itu descriptor ini biasa digunakan sebagai filter yang bertujuan menghilangkan false hits shape atau dikombinasikan dengan descriptor lainnya agar dapat membedakan shape.
2.4.1. Eccentricity Eccentricity merupakan pengukuran berdasarkan perbandingan/rasio antara major dan minor axis dari suatu objek. Eccentricity ini biasa diukur dengan menggunakan minimum bounding rectangular box.
20
Gambar 2. 8. Minimum Bounding Rectangular Box (Park, 2011) Setelah terbentuk minimum bounding rectangular box, akan didapatkan L dan W sebagai panjang dan lebar kotak tersebut yang digunakan untuk menghitung dengan persamaan berikut : Eccentricity = L / W (2. 13)
2.4.2. Circularity Circularity merupakan indikator seberapa mirip objek dengan lingkaran (Park,
2011). Objek dengan bentuk yang sangat rumit akan memiliki nilai circularity yang kecil. Circularity ini diukur dengan menggunakan persamaan berikut :
Circularity = perimeter2 / 4 * Pi * Area (2. 14)
2.4.3. Solidity Solidity merupakan indikator kepadatan dari sebuah objek (Sarfraz & Ridha, 2007). Solidity diukur berdasarkan pebandingan/rasio antara luas objek dengan convex hull area dari objek tersebut yang didefinisikan sebagai persamaan berikut: Solidity = Areashape / Areaconvex hull (2. 15)
21
2.5. Ekstrasi Fitur Ekstraksi fitur mendeskripsikan informasi relevan yang terkandung dalam sebuah pola sehingga pekerjaan klasifikasi akan menjadi lebih mudah. Dalam pengenalan pola dan pengolahan citra, ekstraksi fitur merupakan sebuah bentuk special dari reduksi dimensi. Tujuan utama dari fitur ekstraksi adalah mendapatkan informasi yang paling relevan dari data asli dan menampilkan informasi tersebut didalam dimensi yang lebih rendah. Ketika sebuah data yang dimasukkan kedalam algoritma terlalu besar untuk diproses maka data tersebut akan direduksi agar menghasilkan vektor fitur. Proses mengubah data input menjadi vektor fitur ini disebut proses ekstraksi fitur. Apabila proses ekstraksi fitur dilakukan secara hati-hati, maka dapat diharapkan vektor fitur akan berisikan informasi relevan dari data input sehingga pekerjaan yang menggunakan fitur ini tidak perlu menggunakan input dengan ukuran yang besar (Kumar & Bhatia, 2014).
2.5.1. Gray Level Co-occurrence Matrix Gray Level
Co-occurrence Matrix
adalah
sebuah teknik untuk
mengevaluasi tekstur berdasarkan relasi spasial antar pixel pada citra. Metode ini menghitung banyaknya pasangan pixel dalam berbagai intensitas, yang saling berelasi spasial. Relasi spasial ini berarti relasi antara sebuah pixel dengan intensitas tertentu terhadap pixel lain pada jarak ( 1, 2 ..) dan sudut (0, 45, 90 , 135) tertentu. Kumpulan relasi spasial akan membentuk sebuah matriks yang disebut matriks kookurensi pada skala keabuan (gray level co-ocurence matrix).
22
Setelah mendapatkan matriks kookurensi, maka dapat dilakukan ekstraksi fitur dengan melakukan perhitungan statistik. Haralik menunjukan bahwa terdapat 14 fitur tekstur yang didefinisikan dalam persamaan dibawah ini (Haralick, Shanmugam, & Dinstein). Notasi: adalah nilai ke (i,j) pada matriks kookurensi adalah jumlah dari elemen matriks pada baris ke i adalah jumlah dari elemen matriks pada kolom ke j Ng
adalah tingkat kuantisasi keabuan pada citra
k = 2,3,…,2Ng
(2. 16)
k = 0,1,…, Ng – 1.
(2. 17)
Fitur Tekstur: 1. Angular Second Moment f1 =
(2. 18)
2. Contrast
f2 = 3. Correlation
(2. 19)
23
f3 = dimana
dan
(2. 20)
adalah rata-rata dan standar deviasi dari px dan py.
4. Sum of Squares: Variances f4 = (2. 21) 5. Inverse Difference Moment f5 =
(2. 22)
6. Sum Average f6 =
(2. 23)
7. Sum Variance f7 =
(2. 24)
8. Sum Entropy
f8 =
(2. 25)
9. Entropy f9 = (2. 26) 10. Difference Variance f10 = (2. 27) 11. Different Entropy f11 =
(2. 28)
24
12. & 13. Information Measures of Correlation f12 = f13 =
(2. 29) (2. 30) (2. 31)
dimana HX dan HY adalah entropy dari px dan py, dan
(2. 32)
(2. 33)
2.6. Retrieval Citra Berbasis Konten Retrieval Citra Berbasis Konten (Content Image Based Retrieval) memanfaatkan konten dari gambar untuk merepresentasikan dan melakukan indexing data (Wei & C.T. Li, Design of content-based multimedia retrieval, 2005).
25
Gambar 2. 9. Kerangka Konseptual untuk CBIR (Wei & C.T. Li, Design of content-based multimedia retrieval, 2005)
Sistem pencarian berbasis konten pada umumnya di bagi menjadi dua tahap, yakni tahap offline dan tahap online. Dalam tahap offline, dilakukan proses ekstraksi vektor fitur multi-dimensional, yang juga dikenal dengan descriptor. Vektor fitur ini merupakan sebuah dataset fitur yang disimpan di dalam database. Pada tahap online, user akan mengirimkan contoh query ke sistem pencarian gambar untuk mendapatkan gambar yang diinginkan. Distance atau similaritas yang dihasilkan antara fitur vektor pada contoh query dan fitur vektor yang terdapat dalam database akan digunakan untuk diurutkan. Proses retrieval dilakukan dengan menerapkan skema indexing untuk menyediakan sebuah cara yang efisien dalam melakukan pencarian dalam database citra. Setelah itu, sistem akan mengurutkan hasil pencarian yang paling sesuai dengan contoh query yang dikirimkan. Jika hasil tidak sesuai harapan, maka user dapat memberikan
26
feedback kepada sistem pencarian konten (Wei & C.T. Li, Design of contentbased multimedia retrieval, 2005).
2.7. Kd-Tree Indexing Kd-tree merupakan struktur data yang umum digunakan untuk mengatur titik-titik pada ruang multidimensional yang memiliki k dimensi (Otair, 2013). Proses searching pada K-d tree bersifat binary dengan limitasi didalamnya. Kdtree sangat membantu untuk melakukan pencarian seperti nearest neighbor dan range. Pada K-D Tree, setiap node level akan menyimpan data dari dimensi pertama, kemudian node anaknya akan menyimpan data dari dimensi kedua, dan berulang seterusnya sampai k dimensi. Titik yang akan dimasukkan dipilih berdasarkan median dari titik-titik yang akan dimasukkan kedalam subtree. Proses ini akan berhenti ketika sebuah node mencapai nilai maximum jumlah titik yang telah ditentukan.
Gambar 2. 10. Ilustrasi Kd Tree
27
Pada saat melakukan pencarian titik sebanyak k terdekat dari query, kdtree melakukan proses sebagai berikut (dengan ilustrasi Gambar 2. 9. ) : 1. Mencari lokasi node yang tepat untuk query. ( Node ke 4 ) 2. Mencari k titik terdekat yang terletak didalam node sebelumnya pada proses pertama 3. Mencari nodes lain yang memiliki jarak yang sama dengan k points terdekat pada proses kedua. (Node ke 3) 4. Dari semua nodes, cari k titik terdekat dengan query.
2.8. Neural Network Neural Network digunakan untuk men-generate kecenderungan peta untuk setiap mammogram dengan menggunakan fitur-fitur pada gabor sebagai input dari classifier. Nilai yang terdapat kecenderungan peta menunjukkan kemungkinan pixel tersebut untuk diklasifikasi sebagai pixel macrocalcification dimana semakin tinggi nilai pixel, maka kecenderungan pixel tersebut untuk diklasifikasi sebagai pixel macrocalcification semakin besar (Dheeba.J & Jiji.G, 2010). Model yang terdapat pada multilayer perceptron (MLP) terdiri dari sebuah atau lebih hidden layer dan fungsi node-node yang terdapat pada hidden layer adalah sebagai penengah antara input dan output pada neural network. Pertama, sebuah vektor input dimasukkan ke dalam layer input pada neural network. Selanjutnya, node yang terdapat pada layer input memberikan sinyal kepada node yang terdapat pada hidden layer. Sinyal output yang diberikan oleh hidden layer dapat dijadikan inputan bagi hidden layer selanjutnya atau output layer. Apabila terdapat error pada output, akan sangat sulit untuk menentukan berapa banyak
28
error yang ada dalam layer input, hidden, maupun output serta bagaimana cara menyesuaikan bobot untuk menghasilkan output yang sesuai (Sid-Ahmed, 1995). Permasalahan ini dapat diselesaikan dengan mencari efek dari keseluruhan bobot dengan menggunakan algoritma backpropagation (Alginahi, 2004) yang merupakan generalisasi dari algoritma Least Mean Square (LMS). Nilai dari Mean Square Error (MSE) dapat dilihat pada persamaan berikut: (2. 34)
di mana m merupakan jumlah data pada training set, k merupakan jumlah output, Tij merupakan nilai target output dari output ke-i untuk data training ke-j, dan Oij merupakan nilai output yang sebenarnya pada output ke-i untuk data training ke-j (Islam, Ahmadi, & Sid-Ahmed, 2010).
2.8.1. Radial Basis Function Neural Network Secara umum, Radial basis function neural nework (RBF NNs) memiliki 3 layer yaitu input layer, hidden layer dan output layer (Yoo, Oh, & Pedrycz, 2015).
Gambar 2. 11. Arsitektur RBF Neural Network (Mathworks, 2016)
29
RBF Neural Network hanya memiliki satu hidden layer dan satu output linear layer. Setiap node pada hidden layer menentukan level aktivasi bagian reseptif (radial basis function) (x)
yang diberikan input x. Output yj(x)
merupakan kombinasi linear dengan bobot dari beberapa level aktivasi bagian reseptif dengan persamaan berikut yj (x) = (2. 35) dengan j = 1 , … , s dimana s berarti jumlah output ( sebanyak class yang ingin diklasifikasikan pada RBF NN). Pada level aktivasi akan digunakan Gaussian dengan persamaan berikut (2. 36) dimana x adalah input vector dengan dimensi n [x1, …, xn]T, dan vi = [vi1,
…, vin] merupakan pusat ke i dari fungsi basis
sementara c merupakan
jumlah node pada pada hidden layer. Distance yang digunakan pada persamaan 2.26 merupakan ecludian distance (Staiano, Tagliaferri, & Pedrycz, 2006).
2.9. Studi yang relevan Penelitian
mengenai
pendeteksian
kanker
payudara
pada
citra
mammogram telah dilakukan sebelumnya. Pada tahun 2008, Hanmandu, M et al mengusulkan sebuah computer aided detection untuk mendeteksi mass dan microcalcification menggunakan MIAS dataset dengan algoritma yang terpisah. Pertama-tama Hanmandu melakukan segmentasi microcalcification dengan menggunakan filtering Laplacian of Gaussian (LoG) dan kemudian disegmentasi
30
menggunakan kontras lokal thresholding. Pada bagian mass, akan dilakukan segmentasi
menggunakan
enthropy
thresholding.
Penelitian
ini
dapat
menghasilkan segmentasi yang baik namun tidak disertakan akurasi dari penelitian. (Hanmandlu, Vineel, Madasu, & Vasikarla, 2008) Pada tahun 2011, Indra Kanta Maitra et al mengusulkan metode baru untuk
melakukan
segmentasi
mass
menggunakan
Binary
Homogeneity
Enhancement Algorithm (BHEA). Metode ini sudah terautomisasi sehingga tidak membutuhkan parameter. Penelitian ini dilakukan menggunakan MIAS dataset dan mendapatkan akurasi 99.87% dengan sensitivity 94.21% dan specificity 92.99%.
(Maitra,
Nag,
&
Bandyopadhyay,
AUTOMATED
DIGITAL
MAMMOGRAM SEGMENTATION FOR DETECTION OF ABNORMAL MASSES
USING
BINARY
HOMOGENEITY
ENHANCEMENT
ALGORITHM, 2011) Pada tahun 2011, Indra Kanta Maitra et al mengusulkan metode baru untuk melakukan segmentasi mass menggunakan Divide and Conquer Homogeneity Enhancement Algorithm (DCHEA). Metode ini sudah terautomisasi sehingga tidak membutuhkan parameter. Penelitian ini dilakukan menggunakan MIAS dataset dan mendapatkan akurasi 99.90% dengan sensitivity 96.06% dan specificity 95.21%. (Maitra, Nag, & Bandyopadhyay, Detection of Abnormal Masses using Divide and Conquer Algorithm in Digital Mammogram, 2011) Pada tahun 2011, Zhang et al mengusulkan metode baru untuk melakukan segmentasi microcalcification menggunakan multi-resolution region growth dan segmentasi berdasarkan image difference. Metode ini menggunakan MIAS dataset
31
dan menghasilkan akurasi 94.78% dengan false positive 1.93. (Shengjun, Houjin, & Jupeng, 2011). Adapun beberapa penelitian lain yang telah dilakukan dapat dilihat pada Tabel 2.2. Tabel 2. 2. Perbandingan Beberapa Penelitian terhadap Digital Mammogram Publikasi
Masalah
(Luwinda & Ekstraksi fitur Santika, menggunakan 2012) NMF, LNMF dan nsNMF pada Klasifikasi Mammogram) (David Santika, 2012)
& Computer Aided Diagnosis System untuk Digital Mammogram
(Sanjaya, Sistem Klasifikasi Putra, & Mammogram Santika, 2012)
(Kosasi, Diagnosis Kanker Setiawan, Payudara Sudarsan, & berdasarkan Santika, Microcalcification 2012)
Metode Deteksi
Metode Metode Diagnosis CBIR NMF, LNMF dan nsNMF dengan Classifier Neural Network Dual Tree Complex Wavelet Transform (DT CWT) dengan Classifier Neural Network (NN) Law’s Texture En ergy Measures (LTEM) dengan Classifier KNN (K Nearest Neighbour)
Gray Level Co- Occurrence Matrix (GLCM) dengan Classifier Support Vector Machine (SVM)
32
(Angries Santika, 2012)
& Klasifikasi Kanker Payudara pada Mammogram
(Diana & Santika, 2012) (Pratiwi, Alexander, Harefa, & Nanda, 2015) (Alexander & Santika, 2016)
Sistem pengambilan Citra Mammogram Komparasi Classifier BPNN dan RBFNN pada Mammogram Sistem CADD untuk Deteksi, Diagnosa dan Similarity Search
GLCM, GL RLM, dan Chip Histogram dengan Classifer Naïve Bayes
-
-
NMF dan DT CWT
-
GLCM dengan Classifier BPNN dan RBFNN GLCM dengan Classifier RBFNN
-
Seed Growing, Robust Regression dan Shape Descriptor
GLCM dengan KD-Tree Indexing
Jika dilihat dari perbandingan Tabel 2.2, penelitian sebelumnya hanya menerapkan sistem diagnosis ataupun sistem CBIR pada gambar mammogram. Tidak ada penelitian yang menggabungkan metode deteksi, diagnosis serta similarity search. Mayoritas dari penelitian telah mampu mendeteksi kanker payudara dengan akurasi yang cukup tinggi namun rata-rata penelitian hanya berpusat pada satu jenis kanker yaitu mass atau microcalcification. Melihat dari banyaknya penelitian yang hanya berpusat pada satu jenis kanker dan tidak adanya penggabungan antara metode deteksi, diagnosis dan similarity search, penelitian saat ini akan membangun sebuah sistem CADD yang dapat digunakan untuk mendeteksi, men-diagnosis serta melakukan pencarian kanker sejenis baik mass
maupun
microcalcification.