Search Engine Text Retrieval dan Image Retrieval
YENI HERDIYENI 14 JUNI 2008 Search engine atau mesin pencari merupakan bagian dari teknologi internet yang sangat penting untuk pencarian informasi. Dewasa ini perkembangan teknologi search engine sangat pesat. Bagaimana sebenernya teknologi search engine itu dikembangkan??
DEPARTEMEN ILMU KOMP UTER – FMIPA IPB HTTP://YENIHERDIYENI .WORDPRESS.COM
SEARCH ENGINE Google, Yahoo!, MSN, AOL, dan Altavista merupakan mesin pencari (search engine) berbasis web yang paling popular saat ini. Dengan memasukkan kueri berupa kata kunci kedalam mesin pencari, informasi yang
inginkan dapat
ditampilkan.
Bagaimana mesin
pencari melakukan pencarian informasi tersebut sementara jumlah informasi yang tersedia sangat banyak dan tidak terstruktur …. ?? Adalah temu-kembali informasi (information retrieval ) bidang ilmu yang dapat menjelaskan bagaimana pencarian informasi tersebut dilakukan.
Secara
umum,
proses
temu -kembali
(retrieval)
adalah
sebagai
berikut:
Gambar 1 Proses temu -kembali
Sistem
temu-kembali
informasi
memiliki
keterkaitan
keilmuan
dengan bidang-bidang lain (Gambar 2)
Gambar 2 Keterkaitan sistem temu kembali informasi dengan bidang lain.
MODEL TEMU-KEMBALI INFORMASI Pada IR terdapat dua aktivitas utama pengguna yaitu retrieval dan browsing. Gambar 3 menjelaskan model IR. Set Theoretic Fuzzy Extended Boolean Classic Models
U s e r
boolean vector probabilistic
Retrieval: Adhoc Filtering
Algebraic Generalized Vector Lat. Semantic Index Neural Networks
Structured Models
T a s k
Probabilistic
Non-Overlapping Lists Proximal Nodes
Inference Network Belief Network
Browsing Browsing Flat Structure Guided Hypertext
Gambar 3 Model temu-kembali informasi
TEMU-KEMBALI TEKS (TEKS RETRIEVAL) Sistem temu-Kembali teks (teks retrieval ) adalah sistem penemuan kembali
informasi
dalam
bentuk
dokumen
dengan
mengukur
kemiripan (similarity ) antara informasi yang tersimpan dalam basis data dengan kueri yang dimasukkan oleh pengguna (Salton, 1998). Teknik pencarian informasi pada sistem IR berb eda dengan sistem pencarian
pada
sistem
manajemen
basis data
(DBMS).
perbedaan antara basisdata dengan Information Retrieval .
Berikut
Tabel 1. Perbedaan DBMS dengan sistem temu kembali informasi DBMS
Information Retrieval
Data
Terstruktur
Tidak terstruktur
Field
Memiliki field
Tidak memiliki field
Kueri
Menggunakan bahasa
sintak
SQL
(Structured
Query Language )
Menggunakan alami
(free
bahasa text),
Boolean
Pengukuran
Pengukuran
Kemiripan
pasti (exact matching)
kemiripan
Pengukuran tidak
kemiripan
pasti
(imprecise
measurement)
Dalam sistem temu kembali terdapat dua bagian utama yaitu bagian pengindeksan (indexing) dan pencarian (searching). Kedua bagian tersebut
memiliki
peran
penting
dalam
proses
temu
kembali
informasi. Gambar 4 menjelaskan proses temu kembali informasi. Text
User Interface user need
Text
Text Operations logical view
logical view
Query Operations
user feedback
Indexing
DB Manager Module
inverted file
query Searching
Index
retrieved docs Text Database Ranking ranked docs
Gambar 4. Proses temu kembali informasi
Pada sistem temu-kembali infomasi, kumpulan dokumen direpresentasikan dengan dalam bentuk matriks dokumen (D) dan kata (T). Notasi W merupakan frekuensi kata dalam dokumen.
T1 T2 …. Tt D1 w11 w21 … wt1 D2 w12 w22 … wt2 : :
: :
: :
: :
Dn w1n w2n …
wtn
TEMU-KEMBALI CITRA Sama seperti halnya sistem temu-kembali informasi berbentuk dokumen, sistem temu kembali citra adalah sistem penemuan kembali informasi dalam bentuk citra (gambar) dengan mengukur kemiripan (similarity) antara citra yang tersimpan dalam basis data dengan kueri yang dimasukkan oleh pengguna. Content based image retrieval (CBIR) merupakan suatu pendekatan dalam temu kembali citra yang didasarkan pada informasi yang terkandung di dalam citra itu sendiri seperti warna, bentuk dan tekstur dari citra. Gambar 5 menunjukkan skema CBIR.
Koleksi
CBIR Hasil : User
Gambar 5 Skema CBIR
Pada CBIR sebuah citra direpresentasikan sebagai fungsi dua dimensi f(x,y) di mana x dan y adalah pasangan koordinat spasial, sementara nilai f disebut sebagai derajat tingkat keabuan (gray level) atau intensitas dari citra digital pada koordinat tersebut (Gonzalez et al. 2004). Citra digital direpresentasikan dalam bentuk matriks persegi yang mewakili ukuran dari citra tersebut. Misalkan terdapat sebuah citra digital dengan ukuran NxM, maka citra dapat direpresentasikan dalam sebuah matriks i berukuran NxM sebagai berikut:
i (1,1) i (1,2) i (2,1) i (2,2) i ... ... i ( N ,1) i ( N ,2)
... i (1, M ) ... i (2, M ) ... ... ... i ( N , M )
Gambar 1 Representasi citra digital.
Sumber Pustaka: 1. Salton. 1998. Introduction to Modern Information Retrieval. 2. Deb, S. dan Zhang, Y. 2004. An Overview of Content-Based Image Retrieval Techniques. IEEE. 3. Gonzales dan Woods. 2004. Digital Image Processing Using Matlab. Addison Wesley.