PENINGKATAN KINERJA PELABELAN OTOMATIS CITRA MENGGUNAKAN BAYESIAN CLASSIFIER PADA TEMU KEMBALI CITRA
DIMAS PERDANA CHRISTIAN KARTIKA PUTRA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
PENINGKATAN KINERJA PELABELAN OTOMATIS CITRA MENGGUNAKAN BAYESIAN CLASSIFIER PADA TEMU KEMBALI CITRA
DIMAS PERDANA CHRISTIAN KARTIKA PUTRA
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
ABSTRACT DIMAS PERDANA CHRISTIAN KARTIKA PUTRA. Improvement of Automatic Image Annotation Performance Using Bayesian Classifier on Image Retrieval. Under the supervision of YENI HERDIYENI. This research proposes Bayesian Classifier to improve image annotation performance on image retrieval. Before being analysed by automatic annotation, descriptions of the image have to be known. Image description is the process of generating descriptions that represent the visual content of images in a certain manner, normally in the form of one or more features. Images are segmented into regions with grid segmentation. Each region are represented by a pre-specifed feature vector. The regions then clustered into a finite set of blobs. The correspondences between the blobs and the words are learned using Statistical Machine Translation and Bayesian Classifier. The experiment result shows that Statistical Machine Translation using Bayesian Classifier can improve precision as compared to Statistical Machine Translation. This method is promising to improve image query result on image retrieval. Keywords: content-based image retrieval, automatic annotation, statistical mashine translation, bayesian classifier, latent semantic indexing.
Judul
:
Nama NIM
: :
Peningkatan Kinerja Pelabelan Otomatis Citra Menggunakan Bayesian Classifier pada Temu Kembali Citra Dimas Perdana Christian Kartika Putra G64053189
Menyetujui:
Pembimbing
Dr. Yeni Herdiyeni, S.Si, M.Kom NIP 19750923 200012 2 001
Mengetahui:
Ketua Departemen Ilmu Komputer Institut Pertanian Bogor
Dr. Ir. Sri Nurdiati, M.Sc NIP 19601126 198601 2 001
Tanggal Lulus:
PRAKATA Alhamdulillahirabbil’alamin, segala puji hanya milik Allah SWT, yang tidak henti-hentinya mencurahkan rahmat dan kasih saying sehingga tugas akhir berjudul Peningkatan Kinerja Pelabelan Otomatis Citra Menggunakan Bayesian Classifier pada Temu Kembali Citra dapat diselesaikan dengan baik. Dalam menyelesaikan tugas akhir ini penulis mendapatkan banyak sekali bantuan dan bimbingan dari berbagai pihak, oleh karena itu penulis mengucapkan terima kasih dan penghargaan kepada: 1 Kedua orangtua tercinta, ibunda Endang Susiati dan bapak Hari Krisdianto, adik Dinda Ayu Permatasari, atas segala do’a, kasih sayang, dan dukungannya. 2 Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom. selaku pembimbing atas bimbingan dan arahan selama pengerjaan tugas akhir ini. 3 Seluruh staf dosen dan karyawan Departemen Ilmu Komputer FMIPA IPB atas segala bimbingan dan bantuannya selama masa perkuliahan Penulis. 4 Kak Imam Abu Daud atas bantuan dan penelitian-penelitiannya. 5 Teman-teman satu bimbingan, Rahmadhani, Indra Nugraha Abdullah, Muhammad Abi Rafdi, Ferry Pratama, Fitria Yuningsih, Vera Yunita, Rahmadi Wisnu, Lies Umi Kulsum, Nurafifah, Ikrima Nurny, Putri H, dan Pak Aristoteles atas kerjasama dan kebersamaan selama masa pembuatan skripsi. 6 Seluruh teman-teman Departemen Ilmu Komputer IPB angkatan 42 dan 43 yang telah meramaikan hari-hari penulis dengan kebersamaan dan waktu-waktu yang tak terlupakan bersama kalian. 7 Teman-teman OMDA IKALULU Vivin, Adho, Devi, Mbak Vitho, Wawan, Dian, Dani, Nanang, Vida, Zoraya, Bayu, Wiwit, Eko, Gayuh, Sobich, Fenny, Samsul, Pratiwi, Sherly, Lorenza, Nova, Evarini, Putri atas do’a dan dukungannya. 8 Teman-teman kos BARISTAR sebagai keluarga kedua penulis selama kuliah di Departemen Ilmu Komputer IPB. Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu pengerjaan tugas akhir ini yang tidak dapat disebutkan satu per satu. Segala kritik dan saran yang membangun akan diterima untuk perbaikan selanjutnya. Semoga penelitian ini dapat bermanfaat. Terima kasih.
Bogor, Juli 2010
Dimas Perdana Christian Kartika Putra
RIWAYAT HIDUP Penulis dilahirkan di Lumajang, Jawa Timur pada tanggal 26 Mei 1987 dari ayah Hari Krisdianto dan ibu Endang Susiati. Penulis adalah anak sulung dari dua bersaudara. Tahun 2005, penulis lulus dari SMAN 1 Lumajang dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Seleksi Penerimaan Mahasiswa Baru. Penulis memilih Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Selama aktif sebagai mahasiswa, penulis bergabung dengan beberapa organisasi dan komunitas teknologi informasi dan hobi di luar kampus. Diantaranya penulis berperan aktif sebagai pengurus Himpunan Mahasiswa Ilmu Komputer tahun 2007 dengan jabatan ketua divisi Troubleshooting, pengurus OMDA IKALULU (Ikatan Keluarga Mahasiswa Lumajang), dan sempat menjadi ketua panitia acara IT Today 2007.
DAFTAR ISI Halaman DAFTAR TABEL....................................................................................................................... vi DAFTAR GAMBAR .................................................................................................................. vi DAFTAR LAMPIRAN ............................................................................................................... vi PENDAHULUAN Latar Belakang ........................................................................................................................ 1 Tujuan ..................................................................................................................................... 1 Ruang Lingkup ........................................................................................................................ 1 TINJAUAN PUSTAKA Content Based Image Retrieval ............................................................................................... 1 Anotasi Citra ........................................................................................................................... 1 Segmentasi .............................................................................................................................. 2 Deskripsi Citra ......................................................................................................................... 2 Representasi Posisi .................................................................................................................. 2 Representasi Warna ................................................................................................................. 2 Reperesentasi Tekstur .............................................................................................................. 3 Statistical Machine Translation (SMT) .................................................................................... 3 Expectation Maximization (EM)............................................................................................... 3 Bayesian Classifier .................................................................................................................. 3 Latent Semantic Indexing (LSI) ................................................................................................ 4 Recall dan Precision ................................................................................................................ 4 METODE PENELITIAN Pembentukan SMT .................................................................................................................. 5 Deskripsi Citra..................................................................................................................... 5 Expectation Maximization (EM)........................................................................................... 6 Pembentukan Model Bayesian Classifier .................................................................................. 6 Anotasi Otomatis Seluruh Citra ................................................................................................ 7 Pembentukan Model LSI .......................................................................................................... 7 Evaluasi Hasil Temu Kembali .................................................................................................. 8 Perangkat Keras dan Perangkat Lunak yang Digunakan ............................................................ 8 HASIL DAN PEMBAHASAN Data Penelitian ........................................................................................................................ 8 Pembentukan SMT .................................................................................................................. 8 Deskripsi Citra..................................................................................................................... 9 Expectation Maximization (EM)........................................................................................... 9 Pembentukan Model Bayesian Classifier .................................................................................. 9 Anotasi Otomatis Seluruh Citra ................................................................................................ 9 Pembentukan Model LSI ........................................................................................................ 10 Evaluasi Hasil Temu Kembali ................................................................................................ 10 KESIMPULAN DAN SARAN Kesimpulan ........................................................................................................................... 11 Saran ..................................................................................................................................... 11 DAFTAR PUSTAKA ................................................................................................................ 12 LAMPIRAN .............................................................................................................................. 13
v
DAFTAR TABEL Halaman 1 Deskripsi ciri tiap region citra ................................................................................................. 5 2 Rataan recall dan precision hasil temu kembali citra pada pemodelan SMT menggunakan bayesian classifier dan tanpa menggunakan bayesian classifier. ...................... 11
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Halaman Proses deskripsi citra. ............................................................................................................. 2 Model representasi warna CIE L*a*b*. ................................................................................... 3 Metodologi penelitian. ............................................................................................................ 5 Ilustrasi ukuran grid pada proses segmentasi. .......................................................................... 5 Proses deskripsi citra. ............................................................................................................. 5 Proses pembentukan tabel translasi. ........................................................................................ 6 Ilustrasi pembentukan tabel frekuensi kata untuk bayesian classifier. ...................................... 7 Proses anotasi otomatis. .......................................................................................................... 7 Pembentukan model LSI. ........................................................................................................ 8 Evaluasi hasil temu kembali. ................................................................................................... 8 Hasil klasifikasi seluruh citra. ............................................................................................... 10 Contoh hasil anotasi.............................................................................................................. 10 Grafik recall dan precision untuk kueri klausa....................................................................... 11 Grafik recall dan precision untuk kueri teks. ......................................................................... 11
DAFTAR LAMPIRAN 1 2 3 4
Halaman Pemodelan dari hasil bayesian classifier................................................................................ 14 Peluang bersyarat pada kelas Boat......................................................................................... 15 Temu kembali citra dengan kueri teks ................................................................................... 16 Temu kembali citra dengan kueri klausa................................................................................ 17
vi
PENDAHULUAN Latar Belakang
Tujuan
Search engine merupakan salah satu media yang sering digunakan oleh manusia untuk mencari suatu informasi. Salah satu informasi yang dapat ditemukembalikan oleh search engine adalah citra. Search engine menerima kueri kata dari pengguna, kemudian citra yang mempunyai label atau nama yang sesuai dengan kueri kata tersebut akan ditemukembalikan. Sebagian besar citra yang memiliki label tersebut adalah hasil pelabelan atau anotasi secara manual yang dilakukan oleh manusia, sehingga deskripsi tekstual dari citra tersebut bersifat subjektif. Untuk menghindari subjektifitas tersebut, anotasi citra secara otomatis sangat diperlukan. Tujuan dari anotasi otomatis adalah untuk memberikan label tekstual pada citra yang belum mempunyai label, sebagai deskripsi dari isi atau objek dalam citra tersebut secara otomatis (Tang 2008).
Tujuan penelitian ini adalah untuk memperbaiki kinerja temu kembali citra dengan anotasi otomatis menggunakan bayesian classifier.
Beberapa penelitian sudah dilakukan untuk menemukan teknik yang dapat meningkatkan hasil temu kembali dalam anotasi otomatis citra. Statistical machine translation merupakan model yang dikembangkan oleh Duygulu (2003) untuk memperbaiki hasil yang diperoleh dari model co-occurrence (Mori et al. diacu dalam Daud 2008) yang memiliki kelemahan utama yaitu kecenderungan untuk memetakan citra kepada kata yang memiliki frekuensi tinggi. Selain itu, model tersebut membutuhkan data latih yang sangat banyak agar dapat berjalan optimal (Daud 2008). Statistical machine translation menggunakan algoritme normalized cut pada saat segmentasi. Tapi algoritme normalized cut terlalu kompleks dan memberikan hasil yang tidak stabil (Duygulu 2003). Daud (2008) menyempurnakan teknik statistical machine translation dengan menggunakan latent semantic indexing pada proses temu kembali yang bertujuan untuk mengeksploitasi makna semantik dari anotasi otomatis. Untuk menyempurnakan pemodelan statistical machine translation, maka penelitian ini akan menggunakan metode bayesian classifier. Penelitian ini akan mengimplementasikan bayesian classifier, sehingga citra bisa diklasifikasikan ke dalam kelas-kelas melalui hasil anotasi sebagai atributnya. Tujuan dari pengelompokan citra tersebut adalah untuk menambahkan hasil anotasi awal dengan kata-kata yang memiliki hubungan yang kuat dari kelasnya (Su 2000).
Ruang Lingkup Ruang lingkup penelitian ini difokuskan pada pemodelan yang dihasilkan dari metode bayesian classifier. Data yang digunakan adalah 1000 citra dengan dimensi 384 × 256 piksel. TINJAUAN PUSTAKA Content Based Image Retrieval Content based image retrieval (CBIR) merupakan suatu teknik untuk pencarian citra yang mempunyai kemiripan dengan kriteria citra tertentu dari basis data citra. Proses secara umum dari CBIR adalah citra yang menjadi kueri akan diekstraksi menurut ciri yang digunakan, begitu juga dengan citra yang berada pada basis data citra. Parameter ciri citra yang dapat digunakan untuk temu kembali adalah warna, tekstur, dan bentuk (Ramadijanti et al. 2003). Proses CBIR antara lain sebagai berikut: Pemahaman citra yang dibutuhkan pengguna dan pencarian informasi. Pengidentifikasian gambar yang dibutuhkan pengguna dan pencarian informasi. Proses ekstraksi ciri citra. Proses pencocokan antara citra kueri dan citra dalam basis data. Penyediaan antarmuka untuk pengguna dari sistem CBIR Anotasi Citra Anotasi citra adalah proses pemberian deskripsi pada suatu citra atau biasa disebut dengan pelabelan citra. Anotasi berisi deskripsi tekstual dari citra seperti nama objek atau isi dari citra seperti nama kejadian, nama tempat dan kegiatan. Tujuan anotasi citra adalah untuk membantu proses temu kembali citra dengan menyediakan label dari hasil anotasi citra untuk proses pencarian yang dilakukan oleh pengguna (Tang 2008). Salah satu teknik pemberian anotasi citra yang sering dilakukan adalah dengan cara otomatis. Alasan menggunakan anotasi citra secara otomatis karena hasil dari anotasi manual bersifat subjektif. Oleh karena itu, teknik 1
anotasi citra otomatis dengan komputer merupakan solusi yang tepat untuk mengatasi masalah ini.
selanjutnya. Ekstraksi ciri memanfaatkan informasi pada citra berdasarkan warna, bentuk, tekstur, dan posisi.
Segmentasi
Tahap ketiga yaitu kuantisasi ciri dari hasil ekstraksi ciri. Kuantisasi ciri merupakan proses mengelompokkan ciri citra yang memiliki kemiripan satu sama lain ke dalam kelas yang sama. Metode yang sering dipakai dalam kuantisasi citra adalah k-means clustering dan Self-Organizing Map (SOM).
Segmentasi bertujuan untuk membagi suatu citra ke dalam beberapa region tertentu. Dalam penelitian ini, segmentasi yang digunakan adalah segmentasi grid, yaitu membagi citra dalam beberapa region bujursangkar. Segmentasi grid merupakan cara yang paling cepat dan mudah dalam membagi citra (Mori et al. diacu dalam Daud 2008). Deskripsi Citra Deskripsi citra merupakan proses untuk menghasilkan deskripsi yang merepresentasikan isi visual dari citra. Tahapan dari deskripsi citra dapat dilihat pada Gambar 1 (Tang 2008).
Tahap keempat adalah representasi blob. Setiap region yang telah dikelompokkan dari hasil kuantisasi citra, akan diberi label berdasarkan cluster keanggotannya, yaitu indeks dari blob (Duygulu 2003). Representasi Posisi Setelah region-region citra diperoleh, maka diperlukan posisi atau koordinat region untuk membedakan region satu dengan yang lainnya dalam satu citra. Selain itu, representasi posisi pada setiap region dalam citra digunakan untuk memberikan bobot tambahan terhadap blob dengan posisi tertentu agar lebih condong ke objek tertentu. Posisi ini dihitung berdasarkan posisi relatif titik tengah region terhadap citra sumber (Daud 2008). Representasi Warna Pada tahun 1976, CIE (Comission Internationale de L’Eclairage atau International Commission on Illumination) merekomendasikan CIE L*a*b* dalam penggunaan representasi warna. Model ini menyediakan skala warna yang seragam sehingga mudah untuk digunakan karena nilai dari warna dapat dibandingkan. Model CIE L*a*b* direpresentasikan dalam bentuk cube.
Gambar 1 Proses deskripsi citra. Tahap pertama dari deskripsi citra adalah pemilihan region. Pemilihan region termasuk dalam pendekatan lokal, yang berarti memilih bagian-bagian dari citra kemudian dicari deskripsi dari masing-masing bagian tersebut. Pemilihan region dibagi menjadi tiga kategori, yaitu pembagian yang tetap, segmentasi, dan saliency. Tahap kedua yaitu mengekstraksi ciri dari setiap region citra. Informasi visual yang dihasilkan dari ekstraksi ciri sangat bermanfaat untuk analisis dan proses deskripsi citra
Sumbu L* berjalan dari atas sampai bawah. Nilai maksimum dari L* adalah 100 yang merepresentasikan warna putih. Sedangkan nilai minimumnya adalah 0 untuk warna hitam. Sumbu a* dan b* tidak mempunyai batasan nilai yang spesifik. Positif a* untuk warna merah, sedangkan negatifnya adalah warna hijau. Untuk positif b* adalah warna kuning dan negatifnya adalah biru (HunterLab 2008). Selain CIE L*a*b, representasi yang cukup baik digunakan dalam merefleksikan visualisasi mata manusia adalah model rgS (Barnard diacu dalam Daud 2008). Perhitungan nilai rgS diperoleh dengan cara: S = R+G+B, r = R/S, dan g = G/S.
2
metode baru dalam algoritme search engine, yaitu Latent Semantic Indexing (LSI). Statistical machine translation melakukan proses anotasi otomatis dengan cara memprediksi kata (w) dengan peluang posterior tertinggi pada citra terhadap blob (b) atau p(w|b). Perhitungan peluang posterior kata citra dapat ditulis: (2) dengan bi adalah blob ke-i dari citra I. anotasi otomatis diperoleh dengan memprediksi n buah kata dengan peluang posterior tertinggi, dengan n merupakan bilangan yang didefinisikan sebelumnya. Expectation Maximization (EM) Gambar 2 Model representasi warna CIE L*a*b*. Kedua model warna tersebut, baik rataan maupun ragam (variance) pada region citra dihitung sebagai ciri yang merepresentasikan warna dari setiap region dalam citra. Reperesentasi Tekstur Mean oriented energy adalah salah satu algoritme yang dapat menentukan tekstur dari citra. Untuk menghitung nilai tekstur citra, maka diperlukan filter berarah. Filter Gabor adalah filter berarah yang biasa dipakai dalam menentukan nilai tekstur citra. Setiap region pada citra dikonvolusi dengan fitur berarah. Nilai dari ciri tekstur tersebut direpresentasikan dengan rataan deviasi absolut dari hasil rataan citra filter region. Persamaan untuk menghitung hasil filter berarah adalah sebagai berikut (Tang 2008): (1) dengan θ = {30°,60°,...,360°}, N merupakan jumlah piksel dalam setiap region, Pθ merupakan rataan nilai piksel Fiθ, dengan Fiθ merupakan piksel hasil filter. Statistical Machine Translation (SMT) Statistical machine translation dikembangkan oleh Duygulu (2003). Duygulu (2003) berpendapat bahwa anotasi otomatis berbasis region lebih baik karena anotasi berbasis global tidak memberikan informasi tentang bagian mana dari citra yang berhubungan dengan label tertentu. Kemudian Daud (2008) mengembangkan model statistical machine translation dengan menggabungkan
Algoritme Expectation Maximization (EM) adalah proses yang efisien untuk menghitung Maximum Likelihood (ML) dari data yang hilang atau tersembunyi. Perhitungan ML digunakan untuk parameter dari model yang akan dipelajari dari data-data yang ada. Setiap iterasi dari algoritme EM terdiri dari dua proses: E-step dan M-step. E-step menghitung dugaan kemungkinan untuk memprediksi data yang tidak lengkap. Dalam M-step, fungsi likelihood dimaksimalkan dengan asumsi data yang tidak lengkap telah diketahui. Perhitungan dari M-step digunakan kembali untuk perhitungan E-step selanjutnya. Proses ini akan berulang hingga didapat nilai yang konvergen untuk meningkatkan nilai likelihood dalam setiap iterasi (Borman 2009). Bayesian Classifier Bayesian classifier adalah suatu pemodelan klasifikasi yang efisien berdasarkan teori probabilitas dan mempunyai tingkat akurasi yang cukup tinggi pada sebagian besar wilayah. Pada banyak aplikasi praktikal, perkiraan parameter untuk pemodelan bayesian classifier menggunakan metode maximum likelihood. Walaupun rancangan dari bayesian classifier bersifat naïve dan asumsinya terlalu disederhanakan, bayesian classifier bekerja lebih baik dari yang diharapkan pada situasi dunia nyata yang kompleks (Ramadan 2006). Penerapan metode bayesian classifier adalah untuk klasifikasi data yang memiliki sejumlah atribut ke dalam kelas yang sudah ditentukan. Misalkan terdapat sejumlah kelas c yang akan digunakan untuk mengklasifikasikan data. Setiap kelas mempunyai peluang priori P(c) yang dapat dihitung dengan cara membagi 3
jumlah data yang termasuk kelas c dengan jumlah seluruh data dari data latih.
dimensi LSI seperti berikut (Garcia diacu dalam Daud 2008):
Peluang data d termasuk kelas c terhadap masing-masing kelas dapat dihitung dengan persamaan:
qLSI = qTUk Sk-1
(3)
(6)
dengan qT adalah kueri dalam bentuk vektor baris, Uk adalah matriks U yang direduksi, dan Sk-1 adalah invers matriks S yang direduksi.
dengan P(tk|c) merupakan peluang bersyarat dari atribut tk yang muncul pada data dalam kelas c. Interpretasi P(tk|c) yaitu sebagai pendekatan untuk mengetahui pengaruh atribut tk dalam mengklasifikasikan data d ke dalam kelas c.
Perhitungan kemiripan dilakukan antara koordinat kueri dengan koordinat seluruh citra pada dimensi LSI menggunakan cosine similarity antara koordinat kueri dengan koordinat citra sesuai persamaan berikut:
Perhitungan peluang bersyarat Ṕ (t|c) sebagai frekuensi atribut t dalam data yang termasuk kelas c adalah sebagai berikut:
(7)
(4)
dengan d adalah koordinat citra dalam dimensi LSI, |q| dan |d| adalah panjang dari kueri qLSI dan citra d.
dengan Tct adalah jumlah kemunculan atribut t pada data latih dari kelas c. Asumsi saling bebas diterapkan pada persamaan tersebut. Latent Semantic Indexing (LSI) Latent Semantic Indexing (LSI) adalah salah satu model dari sistem temu kembali informasi yang merupakan pengembangan dari vector space model. LSI sebagai model temu kembali informasi memiliki kelebihan dalam menangani masalah sinonim dalam kata yang sering ditemui dalam label citra. Dalam prosesnya untuk mengatasi masalah sinonim yang dilakukan oleh LSI adalah dengan memperhitungkan hubungan antar label yang satu dengan yang lain dan hubungan antar label dalam satu citra dengan label-label dalam citra yang lain. Tujuan dari LSI adalah mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan citra yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi objek yang berhubungan (Ferdian et al. 2005). LSI diterapkan menggunakan matriks Singular Value decomposition (SVD) hasil dekomposisi matriks kata-citra. Matriks katacitra tersebut didekomposisi menjadi: T
A = USV
(5)
dengan A adalah matriks kata-citra, matriks U, S, dan VT hasil dekomposisi SVD. Koordinat baru setiap citra pada dimensi LSI diperoleh dari matriks VT , sedangkan matriks S dan U digunakan untuk transformasi kueri ke dalam
Recall dan Precision Recall dan precision adalah dua kriteria yang sering digunakan untuk mengevaluasi kinerja dari sistem content-based image retrieval. Precision adalah rasio citra yang relevan terhadap jumlah total gambar yang dicari di dalam kueri. Recall adalah rasio citra yang relevan terhadap jumlah citra yang berada di dalam basis data. Persamaannya adalah sebagai berikut (Grossman diacu dalam Daud 2008): recall
jumlah citra relevan yang terambil jumlah citra relevan dlm basis data (8)
precision
jumlah citra relevan yang terambil jumlah seluruh citra yang terambil
(9) METODE PENELITIAN Metode penelitian ini terdiri atas lima tahap utama sesuai ilustrasi pada Gambar 3: 1 Pembentukan SMT 2 Pembentukan model bayesian classifier 3 Anotasi Otomatis seluruh citra 4 Pembentukan model LSI 5 Evaluasi hasil temu kembali
4
untuk setiap region dalam grid yaitu sebanyak 26 buah sesuai dengan Tabel 1. Ciri ini dipilih karena cukup baik dalam merepresentasikan citra untuk anotasi otomatis (Duygulu diacu dalam Daud 2008). Tabel 1 Deskripsi ciri tiap region citra. Nama ciri
Gambar 3 Metodologi penelitian. Pembentukan SMT Pembentukan model SMT dilakukan melalui tahap deskripsi citra dan tahap pembentukan tabel translasi melalui algoritme Expectation Maximization (EM). Pertama, citra latih dengan anotasi manualnya dideskripsikan dengan tujuan untuk mendapatkan kata (label) dan blob (karakteristik visual) dari setiap citra. Kedua, algoritme EM diaplikasikan terhadap data latih untuk mendapatkan tabel peluang kata terhadap blob (Duygulu 2003). Proses pelatihan dilakukan dengan menggunakan citra latih sebanyak 750 citra beserta anotasi manualnya yang dipilih secara acak.
Jumlah ciri
Position
2
Average rgS
3
Variance rgS
3
Average CIE Lab
3
Variance CIE Lab
3
Mean oriented energies
12
Ciri citra hasil deskripsi citra masih berbentuk ciri kontinu. Kuantisasi ciri perlu dilakukan untuk memperkecil jumlah ruang ciri (blob) yang ada. Kuantisasi ciri dilakukan dengan menggunakan algoritme k-means. Selanjutnya ciri kontinu untuk setiap region diganti dengan nomor cluster yang merepresentasikan vektor ciri tersebut menjadi blob. Blob dan kata akan menjadi representasi dari citra yang bersangkutan pada tahap selanjutnya. Baik blob maupun kata direpresentasikan dalam bentuk vector space model untuk menyederhanakan komputasi selanjutnya (Daud 2008). Proses deskripsi citra akan diilustrasikan pada Gambar 5.
Deskripsi Citra Deskripsi citra terdiri atas beberapa tahap. Pertama, semua citra latih disegmentasi menjadi beberapa region bujursangkar berdasarkan ukuran grid tertentu. Ukuran grid yang digunakan, yaitu 2×3, 4×6, dan 8×12. Ilustrasi ukuran grid ditunjukkan pada Gambar 4.
Gambar 4 Ilustrasi ukuran grid pada proses segmentasi. Setelah region dibentuk, tahapan selanjutnya yaitu dengan menghitung ciri citra dari tiap region tersebut. Ciri yang digunakan
Gambar 5 Proses deskripsi citra. 5
Proses deskripsi citra menghasilkan sekumpulan blob dan kata untuk setiap citra. Tetapi sekumpulan blob dan kata tersebut tidak memberikan hubungan yang eksplisit blob mana yang berhubungan dengan sekumpulan kata tersebut. Permasalahan tersebut dapat diselesaikan dengan algoritme Expectation Maximization. Expectation Maximization (EM) Tujuan utama algoritme Expectation Maximization (EM) adalah untuk mendapatkan nilai peluang yang optimal dari kata terhadap blob. Tahap pertama, suatu tabel berisi frekuensi kemunculan bersama (co-occurence) dari kata terhadap blob akan dibentuk. Kemudian, algoritme EM beriterasi untuk membentuk tabel translasi dengan nilai peluang tertentu seperti ilustrasi pada Gambar 6 (Daud 2008).
dinormalisasi agar jumlah peluang posterior untuk setiap blob (b) bernilai sama dengan satu. Pembentukan Model Bayesian Classifier Tujuan dari pembentukan model bayesian classifier adalah untuk membentuk tabel peluang kata terhadap kelas sebagai acuan untuk mengklasifikasikan citra. Tahap awal adalah membentuk tabel frekuensi kata terhadap blob. Tahap ini memerlukan tabel co-occurence dan tabel translasi. Tabel co-occurence dan tabel translasi yang dipakai hanya tabel yang dihasilkan dari proses segmentasi grid pada citra dengan ukuran 2×3 karena menurut Daud (2008), segmentasi grid yang optimal adalah ukuran 2×3. Ilustrasi pembentukan tabel frekuensi kata terlihat pada Gambar 7. Nilai dari tabel frekuensi didapatkan dari tabel co-occurrence dengan melihat nilai peluang yang ada dari tabel translasi. Nilai frekuensi dari tabel co-occurrence tidak akan diambil ketika nilai peluang pada tabel translasi bernilai 0. Hal ini dilakukan karena tabel translasi lebih optimal dibandingkan dengan tabel co-occurrence (Duygulu 2003). Proses selanjutnya adalah mengklasifikasikan blob ke dalam kelas yang sudah ditentukan secara manual menurut kata yang muncul dalam tabel frekuensi. Pengklasifikasian dilakukan dengan cara menambahkan indeks kelas pada tiap blob pada tabel frekuensi. Setelah mengklasifikasikan blob secara manual, tahap selanjutnya adalah menciptakan model bayesian classifier. Pemodelan dibentuk dengan menciptakan korespondensi antara kelas dan peluang munculnya kata terhadap kelas tersebut sehingga terbentuk sebuah peluang bersyarat kata terhadap masing-masing kelas. Selain itu, pemodelan juga menghitung peluang priori tiap kelas. Pemodelan ini akan digunakan untuk proses pengklasifikasian citra ke dalam kelas dengan menggunakan persamaan sebagai berikut:
(10) Gambar 6 Proses pembentukan tabel translasi. Tabel translasi berisi peluang posterior untuk setiap blob terhadap seluruh kata (w) dalam kosakata, peluang bersyarat p(w|b) diberikan blob (b). Tabel peluang ini
Perhitungan ini akan dilakukan untuk setiap kelas yang sudah ditentukan saat proses klasifikasi blob. Citra akan diklasifikasikan ke dalam kelas yang mempunyai nilai peluang posterior paling tinggi.
6
Pembentukan tabel frekuensi bayesian
Gambar 7 Ilustrasi pembentukan tabel frekuensi kata untuk bayesian classifier. Anotasi Otomatis Seluruh Citra Proses anotasi otomatis akan dilakukan untuk semua citra basis data. Proses anotasi otomatis terdapat pada Gambar 8.
(11) dengan P(Ci|W) merupakan peluang citra terhadap kelas Ci jika diketahui sekumpulan kata dari word inverted index, P(Ci ) merupakan peluang priori tiap kelas dan P(wj|ci) merupakan peluang bersyarat kata terhadap ci. Nilai P(wj|ci) diperoleh dari tabel pemodelan bayesian classifier. Kemudian nilai ini akan dipangkatkan dengan satu jika suatu kata muncul pada word inverted index. Dan sebaliknya, dipangkatkan dengan nol jika kata tersebut tidak muncul. Nilai P(Ci|W) yang terbesar dari masing-masing kelas tersebut sebagai acuan untuk mengklasifikasikan citra. Tahap kedua adalah pemberian anotasi otomatis awal pada seluruh citra. Hasil anotasi awal dengan menggunakan pemodelan SMT tersebut kemudian dinormalisasi dengan nilai peluang kata pada bayesian classifier model, sehingga didapatkan kata yang baru. Pembentukan Model LSI
Gambar 8 Proses anotasi otomatis. Tahap pertama adalah mengklasifikasikan citra ke dalam kelas sesuai dengan anotasi manualnya. Salah satu hasil dari deskripsi citra adalah word inverted index, tabel ini adalah representasi dari anotasi manual seluruh citra dan memiliki nilai biner untuk kemunculan kata pada tiap citra. Persamaan yang dipakai dalam mengklasifikasikan citra adalah:
Model LSI merupakan suatu pemodelan untuk proses temu kembali yang bertujuan untuk merepresentasikan hubungan antara kata kunci (kueri) dan citra yang dicari. Dari sekumpulan kueri, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekumpulan objek yang berhubungan. Implementasi LSI digunakan untuk mengeksploitasi makna semantik dari hasil anotasi seluruh citra (Daud 2008). Proses pembentukan model LSI dijelaskan pada Gambar 9. 7
Perangkat Keras dan Perangkat Lunak yang Digunakan Penelitian ini dilakukan dengan menggunakan spesifikasi perangkat keras dan perangkat lunak sebagai berikut: Perangkat keras dengan spesifikasi: 1 Prosesor AMD Turion 64 X2 2.0 GHz 2 Memori 1918 MB 3 Harddisk 250 GB Perangkat lunak dengan spesifikasi: 1 Microsoft Windows Vista Ultimate 2 Matlab 7.0.1 Gambar 9 Pembentukan model LSI. Evaluasi Hasil Temu Kembali Evaluasi hasil temu kembali dilakukan menggunakan kueri klausa dan kueri teks. Kueri klausa adalah sekumpulan kata hasil anotasi otomatis terhadap citra tertentu misalnya sky dan bird sebagai sebuah kueri. Kueri teks adalah kueri berupa satu buah kata yang diperoleh dari kosakata kata dari anotasi manual seluruh citra. Proses evaluasi hasil temu kembali mengikuti alur seperti pada Gambar 10. Nilai evaluasi diperoleh dari perhitungan recall dan precision untuk kedua jenis kueri tersebut. Parameter relevansi diperoleh dari anotasi manual seluruh citra latih dan citra uji.
HASIL DAN PEMBAHASAN Fokus utama penelitian ini adalah menerapkan bayesian classifier untuk mengoptimalkan kinerja temu kembali citra dengan cara mengklasifikasikan citra ke dalam kelas-kelas sehingga hubungan antar kata dalam satu kelas dapat dimunculkan. Hasil dari anotasi citra menggunakan pemodelan bayesian classifier akan digunakan untuk pembuatan dimensi latent semantic indexing untuk proses temu kembali citra. Data Penelitian Data penelitian yang digunakan merupakan data yang sama yang dipakai dalam penelitian Daud (2008). Data sebanyak 1000 citra beserta anotasi manualnya didapat dari http://www.stat.psu.edu/~jiali. Dimensi citra berukuran 328 × 256 piksel dengan variasi objek, tema, dan pencahayaan yang beragam. Data dibagi menjadi dua bagian yang dipilih secara acak, yaitu 750 citra untuk data latih dan 250 citra untuk data uji. Data latih digunakan untuk pembentukan model SMT dan pemodelan dari bayesian classifier, sedangkan data uji akan digunakan untuk mengevaluasi hasil anotasi otomatis sesudah dan sebelum menggunakan pemodelan dari bayesian classifier. Pembentukan SMT
Gambar 10 Evaluasi hasil temu kembali.
Proses pembentukan model SMT sesuai dengan penelitian yang dilakukan oleh Daud (2008). Tabel translasi hasil pembentukan SMT, dibagi menjadi tiga sesuai dengan ukuran grid yang dilakukan pada tahap segmentasi grid. Ketiga tabel translasi memiliki perbedaan yang cukup signifikan karena kemunculan bersama blob dan kata dari ketiga data latih, data latih 2 × 3 belajar dari 4500 blob, sedangkan data latih 8
4 × 6 dan 8 × 12 belajar dari 18000 dan 72000 blob. Tabel translasi untuk ketiga data latih memiliki dimensi yang sama. Dimensi ketiga tabel tersebut berukuran 69 (jumlah kosakata label (kata) dalam anotasi manual) dan 500 (jumlah kosakata blob) Deskripsi Citra Tahap pertama dari deskripsi citra adalah proses pemilihan region dengan segmentasi grid. Ukuran grid yang dipilih adalah 2 × 3, 4 × 6, 8 × 12, sehingga region yang tercipta dalam satu citra terdapat 6, 24, dan 96 region untuk masing-masing ukuran grid. Tahap kedua yaitu ekstraksi ciri dari setiap region yang dihasilkan. Setiap region akan dideskripsikan menjadi 26 ciri. Ciri dari setiap region tersebut masih dalam bentuk kontinu, sehingga proses kuantisasi ciri perlu dilakukan. Tahap ketiga adalah kuantisasi ciri. Algoritme yang digunakan adalah k-means clustering dengan jumlah k sebanyak 500. Setelah cluster untuk seluruh region tercipta, maka cluster tersebut dapat dianggap sebagai kosakata bagi ciri region hasil dari deskripsi citra awal yang masih dalam bentuk kontinu (Daud 2008). Setiap ciri region didiskretisasi dengan mengganti ciri region tersebut yang berukuran 26×1 dengan indeks dari cluster yang merepresentasikan ciri tersebut (blob). Ciri blob yang telah didiskretisasi selanjutnya akan direpresentasikan dalam bentuk vector space model dengan dimensi yang seragam yaitu 750×500 untuk setiap data latih. Expectation Maximization (EM) Pembentukan model SMT untuk seluruh data latih dilakukan dengan jumlah iterasi yang sama, yaitu sebanyak 1000 kali. Pemilihan jumlah 1000 karena pada iterasi tersebut nilai likelihood yang dihasilkan tidak bertambah baik dan telah stabil (Daud 2008). Model diambil dari iterasi dengan nilai likelihood terbaik dari seluruh iterasi. Pembentukan Model Bayesian Classifier Tahap pertama adalah membuat tabel frekuensi untuk proses pemodelan. Tabel frekuensi dibentuk dari kombinasi tabel cooccurrence dan tabel translasi dari data latih 2×3. Tabel frekuensi memiliki dimensi 69 (kata) dan 500 (blob).
kata dari tabel frekuensi. Klasifikasi dilakukan dengan menambahkan indeks kelas pada setiap blob dalam tabel frekuensi. Setelah mengklasifikasikan semua blob, peluang priori setiap kelas bisa dihitung. Hasilnya bisa dilihat pada Lampiran 1. Pada Lampiran 1 dapat dilihat peluang priori tertinggi dimiliki oleh kelas Plant. Hal ini dikarenakan blob yang termasuk kelas Plant berjumlah 85 dan paling tinggi di antara kelas yang lainnya. Sedangkan nilai peluang priori terkecil adalah kelas Horse dan Bear yang hanya memiliki jumlah blob sebanyak dua. Setelah peluang priori dihitung, tahap ketiga adalah menghitung peluang bersyarat seluruh kata terhadap masing-masing kelas. Untuk menghindari peluang yang bernilai nol, maka perhitungan Laplace dilakukan dengan mengasumsikan sebaran seragam (Haruechaiyasak 2008). Salah satu contoh nilai peluang bersyarat kata terhadap kelas Boat dapat dilihat pada Lampiran 2. Nilai peluang kata tertinggi pada kelas boat adalah boat (0,2043) diikuti dengan water (0,1533) dan harbor (0,1095). Anotasi Otomatis Seluruh Citra Tahap awal dari anotasi otomatis seluruh citra yaitu dengan mengklasifikasikan citra ke dalam kelas. Tingkat keakuratan hasil klasifikasi mencapai 90%. Hasil klasifikasi citra dapat dilihat pada Gambar 11. Kelas dengan jumlah citra terbanyak adalah kelas Mountain yaitu sebanyak 145 citra. Sedangkan kelas Duck, Seal, Moose, dan Horse tidak memiliki citra keanggotaan. Hal ini dikarenakan nilai peluang priori kelas tersebut sangat kecil, sehingga citra yang seharusnya termasuk dalam kelas tersebut tidak bisa diklasifikasikan secara tepat. Setelah mengklasifikasikan seluruh citra, langkah selanjutnya adalah menganotasikan seluruh data latih 2 × 3. Setelah anotasi awal terbentuk, maka nilai peluang dari tiap kata akan dicari rataannya dengan peluang kata dari pemodelan bayesian classifier menurut hasil klasifikasinya. Kemudian seluruh nilai peluang yang baru akan dicari nilai threshold dengan mengitung nilai rataan peluang bersyarat. Peluang kata yang memiliki nilai lebih besar daripada nilai threshold akan menjadi kata anotasi otomatis akhir.
Tahap kedua adalah mengklasifikasikan 500 blob dengan 26 kelas sesuai dengan munculnya 9
Jumlah citra setiap kelas
Plant Duck Ice Yellow_Flower Housing Bird Rock Water Firework Mountain Orange_Flower Seal Moose Ground Sky Boat Plane Horse Pink_Flower White_Flower Purple_Flower Red_Flower Blue_Flower Cat Bear Building
160 140 139 145 140 122 120 100 69 65 62 80 60 35 32 25 24 40 20 17 18 15 20 11 12 9 7 4 9 20 0 0 0 0 0
Gambar 11 Hasil klasifikasi seluruh citra. manual: boat, harbor
Kelas: Boat Otomatis awal: cloud (0,333), 0,333()
Otomatis akhir: water
boat(0,163), city(0,029), cloud(0,136), harbor(0,087), mountain(0,017), water(0,194)
Gambar 12 Contoh hasil anotasi. Pada Gambar 12, citra diklasifikasikan ke dalam kelas Boat. Anotasi otomatis awal dengan menggunakan pemodelan SMT tidak menghasilkan kata yang sesuai dengan anotasi manualnya. Anotasi akhir dengan menggunakan model bayesian classifier menghasilkan kata boat, city, harbor, dan mountain. Walaupun terdapat kata yang tidak sesuai dengan anotasi manualnya, tetapi hasil anotasi otomatis akhir cukup memuaskan karena dapat memperbaiki anotasi awal dengan menciptakan kata yang sesuai dengan anotasi manual. Pembentukan Model LSI Dimensi LSI yang digunakan dalam pengujian berasal dari vektor kata hasil anotasi otomatis seluruh data citra sebanyak 1000 citra. Hasil anotasi otomatis seluruh citra digunakan sebagai deskripsi citra tersebut. Kemudian matriks kata-citra seluruh citra tersebut akan
menjadi masukan dalam pembentukan dimensi LSI. Hasil dekomposisi matriks kata-citra akan digunakan sebagai model LSI pada sistem temu kembali citra. Dimensi yang digunakan dalam LSI bukan dimensi seluruhnya, melainkan reduksi dimensi LSI dengan nilai k=10. Alasan pemilihan k ini yaitu karena pada nilai k tersebut nilai singular value dekomposisi matriks yang cukup baik dan pada k > 10 tidak mengalami penurunan yang cukup signifikan (Daud 2008). Evaluasi Hasil Temu Kembali Evaluasi terhadap 1000 kueri citra (1000 klausa) dan 69 teks memiliki hasil yang cukup baik. Hasil evaluasi temu kembali citra pada pemodelan SMT menggunakan bayesian classifier dan hasil temu kembali citra pada pemodelan SMT tanpa menggunakan bayesian classifier terdapat pada Tabel 2. Pada Tabel 2, precision klausa untuk setiap recall pemodelan SMT dengan menggunakan bayesian classifier memiliki nilai yang lebih baik daripada nilai precision klausa pemodelan SMT tanpa menggunakan bayesian classifier. Begitu juga dengan nilai precision teks untuk setiap recall pada pemodelan SMT dengan menggunakan bayesian classifier dibandingkan dengan nilai precision teks pada pemodelan SMT tanpa menggunakan bayesian classifier. Di sini terbukti bahwa pemodelan bayesian classifier dapat meningkatkan hasil temu kembali citra. Pada Gambar 13 dan Gambar 14 terdapat grafik untuk perbandingan recall precision kedua pemodelan tersebut.
10
Tabel 2 Rataan recall dan precision hasil temu kembali citra pada pemodelan SMT menggunakan bayesian classifier dan tanpa menggunakan bayesian classifier. Precision klausa
Precision kata
Recall
SMT
SMT + Bayes
SMT
SMT + Bayes
0
1.0000
1.0000
1.0000
1.0000
0.1
0.6194
0.7927
0.2766
0.3537
0.2
0.5808
0.7742
0.2463
0.3134
0.3
0.5591
0.7539
0.2223
0.3051
0.4
0.5400
0.7326
0.1986
0.2914
0.5
0.5205
0.6984
0.1889
0.2615
0.6
0.4976
0.6616
0.1761
0.2290
0.7
0.4690
0.6150
0.1477
0.1923
0.8
0.4358
0.5531
0.1251
0.1691
0.9
0.3978
0.4957
0.0926
0.1291
1
0.3657
0.4272
0.0855
0.0941
Gambar 14 Grafik recall dan precision untuk kueri teks. KESIMPULAN DAN SARAN Kesimpulan Penelitian ini mengimplementasikan pemodelan bayesian classifier untuk memperbaiki hasil anotasi otomatis pada citra yang dihasilkan dari pemodelan stastitical machine translation sehingga dapat meningkatkan hasil temu kembali citra. Implementasi bayesian classifier untuk pemodelan SMT memiliki nilai precision untuk kueri klausa dan teks yang meningkat dibandingkan dengan pemodelan SMT tanpa menggunakan bayesian classifier untuk setiap nilai recall. Hasil temu kembali citra untuk anotasi yang sama, pemodelan SMT menggunakan bayesian classifier lebih baik daripada pemodelan SMT tanpa menggunakan bayesian classifier. Hal ini ditunjukkan dengan citra yang berhasil ditemukembalikan dan relevan sesuai dengan kueri. Saran Berikut ini adalah penelitian lanjutan yang dapat dilakukan berkaitan dengan model bayesian classifier ini:
Gambar 13 Grafik recall dan precision untuk kueri klausa.
1. Penggunaan data latih lainnya yang bervariasi dengan tema citra dengan jumlah yang sama sehingga nilai priori tidak berbeda secara signifikan. 2. Menganalisis penetapan kelas yang lebih baik sehingga hubungan antar kata dalam satu kelas lebih erat.
11
DAFTAR PUSTAKA Borman S. The Expectation Maximization Algorithm A short tutorial. http://www.isi.edu/natural-language/teachin g/cs562/2009/readings/B06.pdf [16 Agustus 2010].
Tang J. 2008. Automatic Image Annotation and Object Detection [tesis]. Faculty of Engineering, Science and Mathematics, School of Electronics and Computer Science, University of Southampton.
Daud IA. 2008. Anotasi Otomatis Citra menggunakan Statistical Machine Translation untuk Temu Kembali Citra [skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Duygulu P. 2003. Translating Images to Words: A Novel Approach For Object Recognition [tesis]. Department of Computer Engineering, The Middle East Technical University. Ferdian E, Hadisaputra R, Madjid N. 2005. Penerapan Metode Latent Semantic Indexing pada Search Engine. Departement Teknik Informatika, Institut Teknologi Bandung. Ghahramani Z, Kim HC. 2003. Bayesian Classifier Combination. Gatsby Computational Neuroscience Unit, University College London. Haruechaiyasak C. 2008. A Tutorial on Naïve Bayes Classification. http://www.spingerlin k.com/index/f!348355784117u7.pdf [20 Mei 2010]. HunterLab. 2008. CIE L*a*b* Color Scale. Virginia: 11491 Sunset Hills Road Reston. Ramadan R. 2006. Penerapan pohon untuk Klasifikasi Dokumen Teks Berbahasa Inggris. Program Studi Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung. Ramadijanti N, Wasista S, Uminsah W. 2003. Content Based Image Retrieval System menggunakan Identifikasi Pola Bentuk dengan Teknik Analisis Komponen Utama. Politeknik Elektronika Negeri Surabaya, Institut Teknologi Sepuluh Nopember Surabaya. Ratanamahatana C, Gunopulos D. 2002. Scaling up the Naïve Bayesian Classifier: Using Decision Trees for Feature Selection. Computer Science Department, University of California. Su Z, Zhang H, Ma S. 2000. Using Bayesian Classifier in Relevant Feedback of Image retrieval. Department of Computing Science, Tsinghua University Beijing. 12
LAMPIRAN
Lampiran 1 Pemodelan dari hasil bayesian classifier. Indeks kelas
Nama kelas
Jumlah blob
Peluang priori
1
Plant
85
0.17
2
Duck
3
0.006
3
Ice
32
0.064
4
Yellow_Flower
13
0.026
5
Housing
28
0.056
6
Bird
45
0.09
7
Rock
16
0.032
8
Water
49
0.098
9
Firework
21
0.042
10
Mountain
43
0.086
11
Orange_Flower
6
0.012
12
Seal
3
0.006
13
Moose
3
0.006
14
Ground
14
0.028
15
Sky
41
0.082
16
Boat
10
0.02
17
Plane
9
0.018
18
Horse
2
0.004
19
Pink_Flower
8
0.016
20
White_Flower
11
0.022
21
Purple_Flower
12
0.024
22
Red_Flower
14
0.028
23
Blue_Flower
7
0.014
24
Cat
6
0.012
25
Bear
2
0.004
26
Building
17
0.034
14
Lampiran 2 Peluang bersyarat pada kelas Boat.
15
Lampiran 3 Temu kembali citra dengan kueri teks. Kueri: snow Pemodelan : SMT
Kueri: snow Pemodelan: SMT+Bayesian Classifier
16
Lampiran 4 Temu kembali citra dengan kueri klausa. Citra: 0769.jpg Grid : 2 × 3
Anotasi otomatis: water (0.5) boat (0.195)
Pemodelan: SMT
Pemodelan: SMT+Bayesian Classifier
17