BAB 3 METODOLOGI
3.1 Rancangan Program 3.1.1 Pemilihan Metode Dalam perancangan program mammogram, telah ditemukan banyak sekali metode yang dapat digunakan. M etode-metode yang ada mencakup program yang akan digunakan, metode dalam pra-proses/pre-processing, metode klasifikasi/classifier ,dan juga metode analisis tekstur. berikut adalah program dan metode yang digunakan disertai penjelasannya: 1. Pra-proses M etode
untuk
pra-prosesmemiliki
pengaruh
yang
cukup
signifikan dalam melakukan klasifikasi mammogram dikarenakan praprosesbertugas
untuk
menghilangkan
noise
pada
mammogram,
melakukan enhancement pada mammogram, dan juga melakukan resampling pada mammogram. oleh karena itu perlu sedikitselektif dalam memilih metode yang akan digunakan. Seleksi akan dipersempit sehingga metode pra-prosesyang ada menjadi 2 yaitu: Wavelets pre-processing dan NSCT (Nonsubsampled Contourlet Transform).Seleksi dimulai dengan membaca dan membandingkan studi-studi yang dilakukan oleh pakar dan ilmuwan dan juga melakukan riset kecil dalam pemilihan salah satu diantara metode pra-prosestersebut.
31
32
Keunggulan-keunggulan pada metode-metode tersebut yang didapat saat melakukan studi literatur dan riset adalah: Wavelet preprocessing merupakan metode pra-prosesuntuk mammogram yang sudah umum. M emiliki kegunaan yang cukup baik serta sudah banyak sekali sistem klasifikasi mammogram yang menggunakan metode ini. sedangkan kekurangan dari wavelet pre-processing ialah, wavelet preprocessing sudah terlalu lama sehingga tidak menutup kemungkinan adanya metode-metode lain yang lebih baik. Sedangkan keunggulan yang penulis temukan pada metode preprocessing pada NSCT ialah hasil pra-prosesmammogram yang lebih baik daripada wavelet. Selain itu, beberapa pakar mengklaim dapat melakukan
klasifikasi dengan
kasat
mata menggunakan
NSCT.
Kekurangan dari NSCT adalah waktu loading yang cukup lama serta memiliki proses yang cukup rumit dan sulit dimengerti pada awalnya. M etode pra-proses yang akhirnya telah dipilih yaitu NSCT (Non Subsampled Contourlet Transform) yang sudah dapat diinstal pada MATLAB.
NSCT pada prinsipnya kurang lebih sama dengan data
pustaka yang ada pada pemrograman yang lain seperti C++ atau java yang berisikan fungsi-fungsi baru yang dapat langsung dipanggil oleh pengguna. NSCT yang digunakan oleh penulis adalah NSCT toolbox yang dapat didownload pada website M ATLAB. NSCT toolbox merupakan implementasi dari paper berjudul “The Nonsubsampled Contourlet Transform : Theory, Design, and Application”
33
yang ditulis oleh A. L. da Cunha, J. Zhou, M . N. Do. Pustaka NSCT toolbox yang akan digunakan juga merupakan pustaka yang dibuat langsung oleh beliau. 2. M etode analisis tekstur menggunakan LTEM (Law’s Texture Energy Measures). Ditemukan dilema saat melakukan riset untuk pemilihan metode analisis tekstur dikarenakan adanya 4 analisis tekstur yang cukup baik untuk digunakan. Antara lain: FOS (First Order Statistic), GLCM s (Gray Level Co-occurences Matrices Features), GLRLM (Gray Level Run Length Matrices Features), dan LTEM (Law’s Texture Energy Measure). M enurut jurnal “Texture Analysis of Tissue Surrounding Microcalcifications on Mammograms for Breast Cancer Diagnosis” yang ditulis oleh A. Karahaliou, M sc dan S Skiadopoulos, Phd dari universitas Patras Yunani, ada 4 metode analisis tekstur yang terbukti cukup mumpuni dalam analisis tekstur mammogram dengan berbagai tingkat akurasi dan fitur yang harus diekstrak. Pada jurnal tersebut, beliau menyatakan bahwa LTEM memiliki keakuratan yang cukup baik dalam ekstraksi fitur pada mammogram. Berikut adalah tabel keakuratan ekstraksi fitur pada mammogram sesuai dengan yang ada pada jurnal.
34
Tabel 3.1 Tabel fitur Textural Feature Category FOS GLCM GLRLM LTEM
Best Feature Set Mean Skewness Mean of Difference Entropy Range of Local Homogeneity Range of Different Variance Mean SRE Mean LRE Skewness from S5L5TR Mean from R5L5TR Mean from L5L5TR STD from S5L5TR STD from W5L5TR
Sensitivity Specifity Overall Accuracy (%) (%) (%) 92,6 63 79 85,2
78,3
82
72,2
54,4
90,7
64
87
89
Dapat dilihat pada tabel 3.1, FOS menduduki peringkat terbaik dalam sensitivitas dengan nilai sebesar 92,6% namun memiliki nilai ratarata yang hanya sebesar 79% namun. Dengan mempertimbangkan nilai dari akurasi rata-rata metode analisis tekstur, pilihan metode analisis tekstur dijatuhkan kepada LTEM (Law’s Texture Energy Measure)yang memiliki sensitivitas sebesar 90,7%, spesifitas 87%, dan akurasi rata-rata sebesar 89%. LTEM sendiri menggunakan 5 set fitur yang akan digunakan dalam ekstraksi fitur daripada mammogram tersebut yaitu:
35
•
Skewness S5L5TR
•
M ean R5L5TR
•
M ean L5L5TR
•
STD S5L5TR
•
STD W5L5TR
3. Klasifikasi menggunakan KNN (K Nearest Neighbour) Banyak sekali metode klasifikasi yang dapat digunakan salah satunya meliputi SVM (Support Vector Machine) dan juga KNN (K Nearest Neighbour) namun, metode klasifikasi yang akhirnya akan digunakan adalah KNN. Pada jurnal tersebut juga menyatakan bahwa metode classifier yang digunakan adalah KNN. Sehingga untuk memperoleh hasil yang baik dan akurat, maka akan digunakan juga metode klasifikasi KNN dengan derajat k = 5 sesuai dengan yang dinyatakan dalam jurnal tersebut.
3.1.2 Perancangan Flow Chart Pertama-tama akan dibuat terlebih dahulu rancangan awal untuk menyelesaikan masalah yang ada. Langkah awal yang penulis lakukan adalah membuat rancangan flow chart. Rancangan awal daripada flow chart yang dibuat adalah sebagai berikut:
36
Gambar 3.1 Flow Chart Flow chart tersebut dibagi atas 2 kelompok menurut jalur masingmasing yaitu kelompok untuk pelatihan data (Training Path) dan juga kelompok untuk pengujian (Testing Path). Kelompok pelatihan data bertujuan untuk melatihmammogram, pra-proses, ekstraksi fitur dan kemudian menyimpan fitur-fitur nya pada program dalam bentuk variabel. Sedangkan kelompok pengujianmerupakan inti dari program ini. yaitu langkah-langkah untuk mengklasifikasikan data sesuai dengan fitur-fitur yang telah didapatkan pada kelompok training data. Berikut gambar untuk Training Path:
37
Gambar 3.2 Training Path Jika ditilik pada gambar 3.1 maka dapat dilihat bahwa ada garis yang memisahkan antara Training Path dan Testing Path. Pada gambar 3.2, flow chart yang ada pada gambar 3.1 akan dipisahkan menjadi gambar baru yaitu gambar 3.2 yang akan menggambarkan dengan lebih detail langkah-langkah yang akan dilakukan saat Training Path. Langkah-langkah yang diambil pada Training Path. Terdapat 5 langkah yaitu : 1. Input Image. Langkah dimana mammogram akan dimasukkan untuk dilakukan pengujian. M ammogram yang dimasukkan harus sudah diketahui kelasnya. Apakah terklasifikasi sebagai M alignant atau Benign. 2. Pre-processing Pada
Pre-processing/pra-proses,metode
pra-proses
NSCT
akan
melakukan pembersihan noise-noise, melakukan enhancement, dan juga melakukan re-samplingpada mammogram yang telah diinput pada
38
langkah sebelumnya sehingga fitur-fitur yang diekstrasi pada langkah selanjutnya dapat lebih akurat. 3. Feature Extraction Feature
Extraction/ekstraksi
fitur
merupakan
langkah
dimana
mammogram akan diekstrasi fitur-fiturnya dengan menggunakan metode LTEM (Law’s Texture Energy M easure). Fitur yang diekstrasi meliputi 5 fitur terbaik yang ada pada tabel 3.1. 4. Data Training Fitur-fitur yang telah diekstraksi pada langkah Feature Extraction kemudian akan disimpan oleh program dalam bentuk matriks pada variabel. Data Training sendiri bisa juga dikategorikan sebagai database daripada mammogram-mammogram yang akan dilatih. data-data yang ada pada Data Training akan digunakan saat proses pengujian.
Gambar 3.3 Testing Path Testing
Path
adalah
kumpulan-kumpulan
langkah
dalam
melakukan pengujian terhadap suatu mammogram untuk menentukan klasifikasi dari kelas mammogram yang diuji. Pada Testing Path, langkah-
39
langkah yang diambil adalah :Input Image – Pre-processing – Feature Extraction – Classification – Result. Berikut adalah penjelasan dari tiap langkah-langkah yang ada pada Testing Path: 1. Input Image Pengguna memasukkan mammogram yang akan dilakukan pengujian dengan tujuan mengetahui klasifikasi dan kelas dari mammogram yang diinput. 2. Pre-Processing Pada
Pre-processing/pra-proses,metode
pra-proses
NSCT
akan
melakukan pembersihan noise-noise, melakukan enhancement, dan juga melakukan re-samplingpada mammogram yang telah diinput pada langkah sebelumnya sehingga fitur-fitur yang diekstrasi pada langkah selanjutnya dapat lebih akurat. 3. Feature Extraction M asih sama seperti pada Training Path, M ammogram yang telah dibersihkan dari noise-noise, dan sebagainya kemudian di ekstrak fiturfitur yang ada dengan menggunakan metode LTEM dan disimpan dalam variabel untuk dimasukkan ke classifier pada langkah berikut. 4. Classifier Classifier/peng-klasifikasi merupakan langkah yang essensial karena pada langkah ini, variabel fitur yang telah diekstrak pada mammogram kemudian akan dijalankan dengan menggunakan algoritma classifier sesuai dengan metode klasifikasi yang akan digunakan yaitu KNN.
40
Klasifikasi-lah yang akan menentukan apakah mammogram tersebut termasuk dalam kategori M alignant, Benign, atau Normal.
3.1.3
Rancangan GUI Rancangan GUI (Graphical User Interface) yang direncanakan adalah sebagai berikut:
Gambar 3.4 Rancangan GUI Rancangan GUI yang dibuat yaitu GUI sederhana dimana semua menu dan tombol hanya terletak di dalam sebuah jendela kerja. Tujuan dari perancangan GUI tersebut agar semua informasi-informasi dapat
41
tersaji di layar utama GUI dan pengguna tidak perlu untuk meng-klik menu-menu lain dengan harapan memenuhi kriteria User-friendly dalam faktor-faktor perancangan GUI. Rancangan GUI yang dibuat meliputi 3 tombol, 2 area gambar, 5 area histogram, dan 1 area teks. Berikut adalah penjelasan dari tiap-tiap bagian dari rancangan GUI yang akan dibuat: •
Tombol 1. Open Tombol open digunakan untuk meng-input mammogram yang telah tersimpan dalam harddisk ke dalam program. Akan dilakukan validasi dimana mammogram yang diinput harus berupa *.bmp, *.jpg , atau *.pgm dan dengan resolusi 256x256. 2. Start Tombol start digunakan untuk menjalankan program. Tombol start hanya bisa dijalankan apabila mammogram telah dimasukkan ke dalam program dengan menggunakan tombol open. 3. Save Tombol save digunakan untuk menyimpan gambar yang telah dilakukan pre-processing dalam format *.jpg, *.bmp, dan *.pgm.
•
Area Gambar 1. Input Image
42
Area gambar pada input image akan muncul setelah pengguna mengklik tombol open dan telah meload mammogram pada program. 2. Pre-processing Area gambar pada Pre-processing akan muncul saat pengguna telah memasukkan mammogram pada program dan telah mengklik tombol start. Area gambar ini menampilkan mammogram yang telah melewati fase pra-proses dan akan menampilkan mammogram yang telah dibersihkan dari noise dan sudah diperjelas pada area gambar ini. •
Area Teks Area teks akan berisi tulisan-tulisan yang memiliki penjelasanpenjelasan yang ditujukan kepada pengguna.
•
Area Histogram 1. Skewness S5L5TR Berisi fitur pada mammogram yang telah diekstrak. Area histogram ini hanya akan muncul apabila pengguna telah mengklik tombol start. Area ini berisi fitur Skewness S5L5TR yang akan ditampilkan dalam bentuk histogram. 2. M ean R5L5TR Berisi fitur pada mammogram yang telah diekstrak. Area histogram ini hanya akan muncul apabila pengguna telah meng-
43
klik tombol start. Area ini berisi fitur M ean R5L5TR yang akan ditampilkan dalam bentuk histogram. 3. M ean L5L5TR Berisi fitur pada mammogram yang telah diekstrak. Area histogram ini hanya akan muncul apabila pengguna telah mengklik tombol start. Area ini berisi fitur M ean R5L5TR yang akan ditampilkan dalam bentuk histogram. 4. STD S5L5TR Berisi fitur pada mammogram yang telah diekstrak. Area histogram ini hanya akan muncul apabila pengguna telah mengklik tombol start. Area ini berisi fitur STD S5L5TR yang akan ditampilkan dalam bentuk histogram. 5. STD W5L5TR Berisi fitur pada mammogram yang telah diekstrak. Area histogram ini hanya akan muncul apabila pengguna telah mengklik tombol start. Area ini berisi fitur STD W5L5TR yang akan ditampilkan dalam bentuk histogram.
3.1.4
MATLAB MATLAB merupakan program yang ditulis menggunakan bahas a C dan Java yang berguna untuk perhitungan matrix dan pembuatan plot. Alasan pemilihan M ATLAB sebagai bahasa pemrograman yang
44
digunakan dikarenakan M ATLAB memiliki kemampuan yang baik dalam operasi-operasi menghitung matrix. System Requirement M ATLAB adalah : • Prosesor Pentium atau AM Dx86 yang mendukung set instruksi SSE2. • 4 Giga Byte spasi pada harddisk. • 1024 M B pada RAM . Versi M ATLAB yang digunakan oleh penulis adalah M ATLAB 7.12.0 r2011a yang dirilis pada 18 maret 2011. Penulis menggunakan versi ini dikarenakan versi ini merupakan versi terbaru saat diunduh oleh penulis. Tidak ada perubahan signifikan pada versi M ATLAB yang berbeda namun ada beberapa isu dari milis bahwa apabila versi M ATLAB berbeda maka program tidak bisa dijalankan sehingga penulis mencantumkan versi MATLAB yang digunakan.
45
Gambar 3.5 M ATLAB Alasan penggunaan M ATLAB dikarenakan M ATLAB merupakan program yag handal dalam menghitung matrix dan juga manipulasi gambar. Selain itu, banyak sekali referensi-referensi program untuk analisis tekstur, classifier, dan ekstraksi fitur menggunakan M ATLAB sehingga penulis bisa menggunakannya sebagai acuan dalam penulisan skripsi ini.
46
3.2 Alur Kerja Program Alur kerja dari jalannya program yang penulis buat adalah sebagai berikut:
Gambar 3.6 Alur kerja program Pada awalnya akan ditampilkan GUI (Graphical User Interface) yang akan menampilkan menu-menu yang adapada program. Apabila pengguna menekan tombol start pada GUI dengan asumsi pengguna telah memasukkan mammogram input maka GUI akan memanggil fungsi-fungsi yang ada pada file processam. File processam itu sendiri akan berinteraksi dengan N SCT toolbox yang telah terintegrasi dengan M ATLAB itu sendiri. Proses ini adalah proses pre-processing dimana NSCT toolbox akan membersihkan dan menajamkan mammogram input
47
agar bebas dari noise saat akan diproses lebih lanjut. M ammogram yang telah selesai diproses oleh nsct toolbox akan dikembalikan ke file processam dan ditampilkan dalam bentuk gambar pada GUI. File processam akan melanjutkan perjalanannya ke file cvKNN. CvKNN itu berisi fungsi-fungsi dalam perhitungan KNN(K Nearest Neighbour) yang berperan dalam mengklasifikasi mammogram yang dimasukkan oleh pengguna yang kemudian akan menampilkan hasil dari klasifikasi-nya kepada pengguna.
3.3 Persiapan Database Database mammogram yang penulis ambil berasal dari database M IAS (M ammogram
Image
Analysis)
yang
dapat
didownload
di
http://peipa.essex.ac.uk/ipa/pix/M IAS/. Database tersebut berisi 322 mammogram dan 1 file readme yang berisi penjelasan dari tiap-tiap mammogram yang ada. M ammogram tersebut disimpan dalam format *.pgm dengan berat masing-masin g mammogram sebesar 1024kb dan dengan resolusi 1024x1024 dan kedalaman warna 8 bit. Nama file mammogram yang ada pada database M IAS diberi nama mdbxxx dimana nilai x berarti nomor urut dari mammogram tersebut. Contoh: mdb001 berarti file mammogram nomor 1, mdb002 file mammogram nomor 2, dan seterusnya. Klasifikasi kelas daripada mammogram dari database M IAS itu akan diperinci dalam file readme yang ada. Database tersebut memiliki klasifikasi sebagai berikut:
48
o
54 mammogram terklasifikasi sebagai M alignant.
o
207 mammogram terklasifikasi sebagai Normal
o
69 mammogram terklasifikasi sebagai Benign
49
Gambar 3.7 Database M IAS
50
Gambar 3.8 Contoh mammogram M IAS mdb001 Dari mammogram tersebut akan diubah menjadi format *.bmp dan akan diubah resolusinya menjadi 256x256 dengan kedalaman warna 8 bit. dengan alasan agar mammogram tersebut menjadi lebih kecil dalam ukuran file yang akan mempercepat proses pada pre-processing. Demi menjaga konsistensi data-data dari mammogram tersebut,maka diperlukan perubahan resolusi dari 1024x1024 menjadi 256x256 pada mammogram dan hanya mengambil ROI (Region of Interest) dari mammogram tersebut dengan tujuan tidak ada pengecilan(resize) dengan cara
51
membuang bagian-bagian yang tidak penting pada gambar seperti bagian hitam pada mammogram. ROI yang diambil juga bukan sembarang ROI. ROI yang diambil harus memiliki referensi dari daerah yang dicurigai terkena kanker. Referensi yang digunakan adalah referensi yang ada pada file readme pada databas e M IAS. Pada file readme M IASakanterdapat 7 kolomdenganrinciansebagaiberikut: Kolom1 : Angkareferensi database M IAS. Kolom2 : Karakterdarijaringandimana
(F=Fatty,
G=Fatty-Glandular,
D=Dense Glandular). Kolom3 : Kelasdaripada
status
CIRC=Circumscribed
abnormal masses,
(CALC=Calcification,
SPIC=Spiculated
masses,
M ISC=miscellanous, ARCH=Architectural distortion, ASYM = Asymmetry,NORM=Normal ). Kolom4 : Tingkat Abnormal (M alignant/Normal). Kolom5 : Koordinat x daripusat abnormal. Kolom6 : Koordinat y daripusat abnormal. Kolom7 : Radius abnormal darititikpusat (dalam pixel). Contoh: “mdb001 G CIRC B 535 425 197” Dari contohdiatasdapatdikatakanbahwa file mdb001 memiliki ROI pada x=535 dan y=425 denganradiusketebalan 197 pixel.Namun, dalamkaryailmiahini radius ketebalan yang digunakanadalah 256 padasumbu x dan 256 padasumbu y.
52
Berikut adalah proses pengambilan ROI yang dimaksud:
Gambar 3.9 Proses pengambilan ROI Berikut adalah contoh dari mammogram yang telah diambil ROI-nya:
Gambar 3.10 ROI pada mammogram mdb001
53
3.3.1
Database Training dan Testing Database M IAS menyediakan 54 mammogram yang terklasifikas i sebagai M alignant, 207 mammogram terklasifikasi sebagai Normal, dan 69 mammogram terklasifikasi sebagai Benign maka diperlukan persiapan mammogram-mammogram yang akan digunakan untuk pelatihan dan pengujian. Asumsi dalam pelatihan dan pengujian adalah : mammogrammammogram yang diuji tidak boleh digunakan untuk pelatihan dan sebaliknya, selain itu untuk keakuratan dari pengujian, setiap kelas (M alignant, Benign, dan Normal) harus dilatih menggunakan jumlah mammogram yang sama. M ammogram yang akan diuji juga harus memiliki jumlah yang sama dengan mammogram uji kelas yang lain. Tujuan dari pelatihan adalah untuk melatih program agar mengenali fiturfitur yang terdapat pada klasifikasi data (M alignant,Benign,Normal) dan disimpan pada feature vector untuk digunakan saat pengujian. Saat testing, pengguna memasukkan mammogram yang tentu saja belum pernah di training oleh program yang kemudian akan diekstrak fitur-fitur pada mammogram tersebut dan akan dimasukkan ke classifier yang akan menentukan klasifikasi dari mammogram yang diinput. Berikut adalah pembagian dari data pada database yang akan dilakukan training:
54
Tabel 3.2 Tabel database M IAS Training M alignant
40
Benign
40
Normal
40
10
Normal
10
50
Normal
50
Testing M alignant
10
Benign Total
M alignant
50
Benign
3.3.2 Mammogram In put Penulis membatasi mammogram yang diinput hanya berformat *.bmp, *.png, *.pgm, dan *.jpg dengan alasan konsistensi penggunaan program. Pada input juga penulis mengingatkan mammogram yang diinput harus berupa mammogram dengan resolusi 256x256. Penulis tidak menggunakan validasi kepada pengguna agar wajib memasukkan mammogram berukuran 256x256 namun apabila pengguna memasukkan mammogram 256x256 maka dipastikan akan terjadi loading yang sangat lama pada pra-proses karena beban komputer yang berat dalam memproses setiap matriks-matriks yang terdapat pada mammogram dan juga akan didapatkan hasil yang tidak optimal karena mammogram yang diujipada program semuanya adalah mammogram ber-resolusi 256x256. Selain itu mammogram yang diinput harus berupa gambar gray-colour dan memiliki kedalaman warna 8bit.
55
3.4 Pre-processing NSCT toolbox berperan penting dalam pra-proses. Yang terjadi saat praproses yaitu mammogram yang telah diinput akan dibersihkan dari noise-noise dan dijernihkan agar dapat diekstrak fiturnya dengan baik. Penulis melakukan preprocessing biasanya menggunakan komputer windows 7 32 bit dengan prosesor Intel Centrino Core2Duo @2.00Ghz dan 3GB ram. Namun, waktu yang dibutuhkan oleh proses pre-processing membutuhkan waktu ±1 menit. Berikut adalah contoh dari mammogram input yang telah melewati preprocessing dengan menggunakan N SCT toolbox
Gambar 3.11 (kiri) sebelum pre-process, (kanan) setelah pre-process Dapat dilihat pada gambar di atas, pre-process menghasilkan gambar yang lebih jernih. Bahkan jaringan payudara pada mammogram tersebut lebih jelas terlihat.
56
3.5Analisis Tekstur Dengan acuan dari tabel 3.1 maka akan digunakan metode analisis teksutr LTEM (Law’s Texture Energy Measure). LTEM adalah metode analisis tekstur yang dikembangkan oleh Kenneth Ivan Laws di University of Southern California yang kini banyak digunakan dalam berbagai macam aplikasi. Pengukuran dimulai dengan penggunaan kernel konvolusi (Convolution Kernel) pada gambar yang akan dianalisa tekstur yang lalu diikuti dengan operasi windowing. Pada dasarnya matriks konvolusi pada LTEM ada dua jenis yaitu 3 dimensi dan 5 dimensi. matriks konvolusi 3 dimensi terdiri dari : L3 = [ 1 2 1 ] E3 = [ 1 0 -1 ] S3 = [ 1 -2 1 ] Lalu matriks konvolusi 5 dimensi terdiri dari : L5 = [ 1 4 6 4 1 ] E5 = [ -1 -2 0 2 1 ] S5 = [ -1 0 2 0 -1 ] W5 = [ -1 2 0 -2 1 ] R5 = [ 1 -4 6 -4 1 ] Huruf-huruf yang ada pada setiap matriks dimensi memiliki arti sebagai berikut: • L = Level (average grey level)
57
• E = Edge (extract edge features) • S = Spot (extract spots) • W = Wave (extract wave features) • R = Ripple (extract ripple features) Penulis menggunakan matriks konvolusi 5 dimensi berdasarkan dari tabel 3.1yang membutuhkan 5 fitur yang akan digunakan dalam ekstraksi fitur yaitu: Skewness S5L5TR, M ean R5L5TR, M ean L5L5TR, STD S5L5TR, dan STD W5L5TR. Proses-proses yang dilakukan oleh penulis dalam LTEM adalah: 1. Perkalian 2 matriks konvolusi yang mengacu pada set fitur pada tabel 3.1 dimana salah satu matriks-nya adalah transpose. Pada feature Skewness S5L5TR, maka akan ada operasi pengalian matriks S5 yang telah ditranspose dengan matriks L5 sehingga akan didapat: S5T * L5 R5T * L5 L5T * L5 S5T * L5 W5T * L5 2. Setelah
itu
dilanjutkan
dengan
operasi
windowing
dengan
menggunakan fungsi “conv2” yang ada pada matlab dimana parameter
58
yang digunakan adalah mammogram yang telah diinput dan hasil dari perkalian langkah pertama. 3. Operasi yang dilakukan pada langkah ketiga yaitu operasi ekstraksi fitur dengan cara menggunakan fungsi skewness,mean,atau STD yang telah ada pada matlab dan digunakan dengan memasukkan variabel dari hasil pada langkah kedua dan dengan acuan pada set fitur. Hasil dari proses diatas akan menghasilkan 5 fitur matriks dengan masing-masing matriks memiliki ukuran 260x1. Dari 5 matriks tersebut maka akan dibuat tabel:
Tabel 3.3 Feature Vector Nama File
F1
F2
F3
F4
F5
Class
mdb001
v1
w1
x1
y1
z1
M alignant
mdb002
v2
w2
x2
y2
z2
Benign
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
mdb00(n)
vn
wn
xn
yn
zn
Normal
Tabel diatas merupakan ilustrasi dari feature set yang telah dilakukan proses ekstrasi fitur. F1,F2,F3,F4,F5 mewakili setiap set feature dan v,w,x,y,z
59
mewakili nilai dari setiap feature yang ada dalam bentuk matriks 260x1. Penulis menampilkan setiap feature pada GUI dengan menggunakan histogram dikarenakan keterbatasan pada tempat dalam menampilkan matriks sepanjang 260x1.
Gambar 3.12 5 fitur dalam bentuk matriks 260x1
60
Gambar 3.13 contoh histogram Dari lima histogram feature di atas yang masing-masing memiliki matriks seluas 260x1 akan digabungkan menjadi satu kesatuan. Dengan demikian maka akan terjadi proses penjumlahan fitur yang ada sebanyak 5 kali yang akan menghasilkan angka 1300. Demikian akan didapat feature vector dengan matriks berluaskan (1300x1)
61
Gambar 3.15 matriks dimensi 1300x1 M aksud penulis dalam meringkas 5 dimensi matriks yang didapat dari 5 set fitur tersebut menjadi 1 matriks dengan luas 1300x1 adalah dengan tujuan efisiensi perhitungan sehingga komputer tidak terbebani dengan melakukan operasi 5 matriks sekaligus pada fase klasifikasi menggunakan KNN. dengan pembuatan matriks 1300x1 ini maka tabel feature vector penulis juga akan berubah menjadi :
62
Tabel 3.4 Tabel feature vector matriks 1300x1
Nama File
V
Class
mdb001
v1
M alignant
mdb002 . . .
v2 . . .
Benign . . .
mdb00(n)
vn
Normal
Dapat dilihat bahwa kini hanya membutuhkan 1 matriks dalam perhitungan untuk klasifikasipada langkah berikutnya dibandingkan 5 matriks. 3.6 Training dan Testing Dalam melakukan pelatihan, akan digunakan cara manual yaitu dengan cara memasukkan matriks-matriks seluas 1300x1 satu persatu pada program. Dapat dilihat pada tabel database, mammogram yang akan di uji sebanyak 120 mammogram dengan rincian 40 mammogram M alignant, 40 mammogram Benign, dan 40 mammogram Normal. 120 mammogram tersebut diekstrasi sehingga akan terdapat 120 vektor fitur yang akan digunakan untuk pelatihan. Berikut adalah tabel dari mammogram-mammogram yang akan dilatih:
63
Tabel 3.5 M ammogram untuk Training Training Mammogram Malignant
Benign
Normal
mdb023
mdb001
mdb003
mdb028
mdb002
mdb004
mdb058
mdb005
mdb006
mdb072
mdb010
mdb007
mdb075
mdb011
mdb008
mdb090
mdb012
mdb009
mdb092
mdb013
mdb014
mdb095
mdb015
mdb016
mdb102
mdb017
mdb018
mdb105
mdb019
mdb020
mdb110
mdb021
mdb022
mdb111
mdb025
mdb024
mdb115
mdb030
mdb026
mdb117
mdb032
mdb027
mdb120
mdb059
mdb029
mdb124
mdb063
mdb031
mdb125
mdb069
mdb033
mdb134
mdb080
mdb034
mdb141
mdb081
mdb035
64
mdb144
mdb083
mdb036
mdb148
mdb091
mdb037
mdb155
mdb097
mdb038
mdb158
mdb099
mdb039
mdb170
mdb104
mdb040
mdb171
mdb107
mdb041
mdb178
mdb121
mdb042
mdb179
mdb126
mdb043
mdb181
mdb127
mdb044
mdb184
mdb130
mdb045
mdb186
mdb132
mdb046
mdb202
mdb142
mdb047
mdb206
mdb145
mdb048
mdb209
mdb150
mdb049
mdb211
mdb152
mdb050
mdb213
mdb160
mdb051
mdb216
mdb163
mdb052
mdb231
mdb165
mdb053
mdb233
mdb167
mdb054
mdb238
mdb175
mdb055
mdb239
mdb188
mdb056
65
Dalam pengujian, sampel mammogram yang akan digunakan untuk pengujian akan dipilih secara acak dengan masing-masing kelas akan digunakan 10 mammogram sehingga akan digunakan 30 mammogram sebagai data untuk pengujian. 3.7 Classifier Classifier yang digunakan untuk mengklasifikasi mammogram yang akan di uji adalah dengan menggunakan metode KNN (k Nearest Neighbour) dengan derajat k = 5 yang merujuk kepada jurnal “Texture Analysis of Tissue Surrounding Microcalcifications on Mammograms for Breast Cancer Diagnosis” yang ditulis oleh A. Karahaliou, M sc dan S Skiadopoulos, Phd dari universitas Patras Yunani. Dengan makin besarnya nilai k maka biasanya hasil klasifikasi makin memiliki hasil yang lebih akurat dan mempunyai nilai toleransi yang cukup besar namun, nilai k yang besar juga terkadang membutuhkan data pelatihan yang cukup banyak agar data-data yang ada menjadi lebih spesifik. Penulis menggunakan metode clustering dimana tiap-tiap mammogram yang akan ditraining akan dikelompokkan menurut kelas masing-masing. Pengguna melakukan klasifikasi dengan menggunakan perintah KNN yang telah ada pada MATLAB (CvKNN).