6
BAB II LANDASAN TEORI
2.1 Information Retrieval (IR) Information Retrieval(IR) merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputan user) yang diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam IR menurut referensi merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk yang paling sederhana, sebuah query merupakan suatu keywords (kata kunci) dan dokumen yang mengandung keywords merupakan dokumen yang dicari dalam sistem IR(Manning, Raghavan, & Schütze, 2009).
Gambar 2.1 Arsitektur Information Retrieval
6
7
Proses yang terjadi di dalam Information Retrieval System(IRS) terdiri dari dua bagian utama, yaitu indexing subsystem, dan searching subsystem (matching system). Proses indexing dilakukan untuk membentuk database terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi dua proses, yaitu document indexing dan term indexing. Dari termindexingakan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.
Tahap-tahap yang terjadi pada proses indexing ialah:
1. Word Token,yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase. 2. Stopword Removal yaituproses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not dan sebagainya. 3. Stemming yaitu proses mengubah suatu kata bentukan menjadi kata dasar. 4. Term Weighting yaituproses pembobotan setiap term di dalam dokumen.
Model IR ada tiga jenis, yaitu : 1. Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model. 2. Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang
8
direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vector space model dan latent semantic indexing (LSI). 3. Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.
Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan dokumen.Hasil retrieval yang didapat dari modelmodel ini adalah dokumen terangking yang dianggap paling relevan terhadap query.Dalam model ruang vektor, dokumen dan query direpresentasikan sebagai vektor dalam dalam ruang vektor yang disusun dalam indeks term, kemudian dimodelkan dengan persamaan geometri.Sedangkan model probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan tidak relevan dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap suatu query.
2.2 Content-Based Retrieval (CBR) Pertumbuhan multimedia database sangat pesat seiring dengan perkembangan teknologi image-capturing dan media penyimpanan data. Namun demikian ditemukan kesulitan untuk mendapatkan informasi yang relevan dari multimedia database yang besar tersebut. Saat ini telah dilakukan dua bentuk pendekatan dalam menemukan informasi yang relevan yaitu dengan cara menggunakan metadata dan ekstrak fitur(Oracle, 1999).
9
Metadata adalah informasi yang dimasukkan secara manual kedalam object multimedia data, informasi tersebut dapat berupa judul, kata kunci deskriptif dan informasi lainnya. Ekstrak fitur adalah melakukan pencarian informasi bedasarkan ekstrak data konten yang terdapat pada object database multimedia tersebut. Manfaat utama dari menggunakan ekstrak fitur pada pencarian informasi multimedia data adalahmengurangi waktu dan upaya yang diperlukan untuk memperoleh informasi.Jika menggunakan metadata, seringkali tidak praktis karena harus melakukan entry semua attribute yang mungkin dibutuhkan oleh query.Pencarian informasi berbasis ekstrak fitur menyediakan peningkatan fleksibilitas dan lebih praktis karena tidak semua informasi dapat dituliskan secara text kedalam metadata(Oracle, 1999). Cara kerja CBR adalah dengan pencarian berbasis konten memproses informasi yang terdapat dalam data gambar dan menciptakan sebuah abstraksi dari konten dalam hal atribut visual. Setiap operasi queryakan melakukan abstraksi darikonten. Dengan demikian, setiap foto yang dimasukkan ke dalam database dianalisis, dan representasi isinya dalam vektor fitur. Content base retrieval terdiri dari tiga komponen utama yaitu ekstraksi fitur, pemodelan dan retrieval. Ekstraksi fitur dan pemodelan merupakan komponen indexing. Proses ekstraksi dilakukan secara otomatis terhadap fitur-fitur. Konten yang yang sudah diekstrak ditranformasikan kedalam struktur data dan selanjutnya disimpan kedalam index. Proses retrieval yang dilakukan oleh computer adalah dengan mengukur kemiripan database dengan ekstrak fitur query.
10
Content Based Retrieval (CBR) adalah menemukan kembali informasi relevan dengan menggunakan attribut visual yang terdapat pada objek multimedia data tersebut.Beberapa system CBR yang menonjol adalah IBM dengan QCIC, ViBE pada universitas Purdude, Visualseek dan VideoQ pada Universitas Colombia, Photobook dan FourEyes pada M.I.T, Chabot pada universitas California Berkele, MARS pada UIUC, Virage pada universitas Michigam, Netra pada Universitas California dan Jacob pada Universitas Italy (Mittal, 2006).
2.3 Content-Based Image Retrieval (CBIR) Ada dua cara yang dapat dilakukan dalam retrieval suatu image, yang pertama adalahcontext-basedyaitu pengambilan data dengan merujuk pada kandungan semantik berkaitan dengan image, biasanya berhubungan dengan deskripsi imagemisalnya keyword dari image.Kedua adalahcontent-basedyaitupengambilan data dengan merujuk pada fitur imageseperti warna, tekstur, bentuk, atau kombinasi atau yang biasa desebut dengan content based image retrieval atauCBIR. Pada perkembangannya teknik context based menjadi tidak praktis dikarenakan adanya ukuran basis data yang besar dan penilaian subjektif dalam mengartikan imagedengan text. Untuk menghindari teknik ini, maka digunakan pendekatan lain dalam retrieval imageyaitu content based.CBIR adalah salah satu metodologi untuk melakukan retrieval data imageberdasarkan content sebuah gambar. Teknik CBIR yang banyak digunakan adalah teknik warna, tekstur dan teknik bentuk. Pada sistem CBIR, content visual dari imageakan diekstrak dan diuraikan menggunakan metode ektrak fitur. Pada tahapanretrievalimage, user menginputkan queryimage. Kemudian sistem
11
akan mengekstrak imagetersebut sehingga menghasilkan fitur. Fitur imagequery dan imagedalam database akan dicari kemiripannyanya. Imageyang memiliki nilai kemiripanyang paling tinggi akan muncul diurutan yang paling atas(Mutia, 2008). Framework CBIR secara umum adalah : •
Ekstrak image dengan fitur yang telah ditentukan.
•
Tentukan metode pengukuran kemiripan dari ekstrak fitur.
•
Ketika user melakukan query, sistem akan menampilkan image berdasarkan kemiripannya dengan query image.
Arsitektur CBIR secara umum diperlihatkan pada gambar 2.1.
Gambar 2.2 Arsitektur CBIR secara umum
12
2.4 Image Image adalah merupakan fungsi intensitas 2 dimensi f(x,y), dimana x dan y adalah koordinat spasial dan f pada titik (x,y) merupakan tingkat kecerahan (brightness) suatu citra pada suatu titik. Suatu image diperoleh dari penangkapan kekuatan sinar yang dipantulkan oleh objek. Menurut presisi yang digunakan untuk menyatakan titik-titik koordinatpada domain spasial (bidang) dan untuk menyatakan nilai keabuan, maka secara teoritis image dapat dikelompokkan menjadi empat kelas image, yaitu: kontinu-kontinu, kontinu-diskrit, diskrit-kontinu, diskrit-diskrit. Parameterpertama menyatakan presisi titik koordinat pada bidang, sedangkan parameter kedua menyatakan presisi nilai keabuan.Parameter kontinu berarti nilai yang digunakan adalah tak terbatas dan tak terhingga, sedangkan diskrit menyatakan terbatas dan berhingga. Suatu image merupakan representasi 2-D array sample diskrit suatu image kontinu f(x,y). Amplitudo setiap sample di kuantisasi untuk menyatakan bilangan hingga bit. Setiap elemen array 2-D sample disebut suatu pixel atau pel (picture element). Pengolahan image adalah proses pengolahan image dengan alat bantucomputer. Tingkat resolusi warna pada image tergantung padajumlah ”bit” yang digunakan oleh komputer untuk merepresentasikan setiap pixel tersebut. Tipe yang sering digunakan untuk merepresentasikan citra adalah 8-bit imageatau 256 warna (0 untuk hitam - 255 untuk putih), tetapi dengan kemajuan teknologi perangkat keras grafik, kemampuan tampilan image di komputer hingga 32 bit atau232 warna. Image monochrome atau image hitam-putih merupakan image satu kanal, dimana image f(x,y) merupakan fungsi tingkat keabuan dari hitam ke putih,x
13
menyatakan variabel baris (garis jelajah) dan y menyatakan variabel kolom atau posisi di garis jelajah.
2.5 Ekstrak Fitur Ekstraksi fitur merupakan proses perhitungan dan ekstraksi fitur-fitur suatu image, yang digambarkan dengan vektor multidimensional. Fitur yang diektrak dari sutau image dapat dibedakan atas fitur low level dan high level. Fitur low level atau tingkat rendah adalah seperti warna, tekstur, bentuk objek dan informasi spasial, sedangkan fitur high level atau tingkat tinggi adalah mengenai suatu peristiwa.Pada bidang kesehatan, khususnya pada image mamografi, fitur warna tidak dipergunakan karena image mamografi adalah dalam format grey level.
2.5.1Warna Warna adalah salah satu fitur visual yang yang sangat sering dipergunakan dalam CBIR. Untuk mengekstrak fitur image perlu didefinisikan terlebih dahulu ruang warna yang menspesifikasikan warna antara lain RGB, HSV, CIW, L*U*V dan CIE L*a*b, kemudian metode ekstrak warna dapat digunakan color histogram, color coherencevector, color moments dan color correlogram. Color histogram atau histogram warna sangat sering digunakan dalam teknik ektrak fitur, yaitu menghitung seberapa sering sebuah warna digunakan. Contoh histogram warna dapat dilihat pada gambar 2.3 dan 2.4, pada gambar 2.4 diperlihatkan 4 warna pada gambar ukurn 10 x 10 piksel dengan histogram warna [4, 12, 20, 64].
14
Gambar 2.3 Kupu-kupu dan histogram warnanya
Keuntungan dari penggunaan histogram warna adalah : Mundah dalam perhitungan dan tidak tergantung pada susunan piksel Sesuai dengan persepsi manusia Harga histogram warnanya boleh dalam skala Histogram warna tidak berubah walaupun image diputar, dipindahkan atau dipantulkan.
Gambar 2.4 Gambar digital dengan 4 warna
Keterbatasan dalam menggunakan histogram warna :
15
Distribusi warna tidak diperhitungkan Warna tidak dapat mewakili semantik atau arti Histogram warna akan berubah bila terjadi perubahan skala dalam image.
2.5.2 Tekstur Fitur tekstur dapat diekstrak secara structural atau statiktic.Secara struktural, tekstur suatu image digambarkan dengan mengidentifikasikan aturan penempatan, metodenya terdiri dari mofphologicaloperator atau adjacency graph. Sedangkan secara statistic dengan menganalisa distribusi statistik dari intensitas image, termasuk fourier power, co-occurrence matrice, Tamura features, Wold decomposition, Markov random field, fractal model dan gabor dan wavelet filtering.
2.5.3 Bentuk Metode yang digunakan untuk mengekstrak fitur bentuk objek dapat dibedakan atas dua kategori yakni metode boundary-based termasuk Polygonal approximation, finite element models, fourier-based, shape region based, dan metode region based, misalnyastatistic moments.
2.5.4Pengkodean Image MenurutPavel Praks et al. (2003) bahwaimage dapat dilihat sebagai urutan dari piksel seperti pada gambar 2.5yang kemudian membentuk vektor dimensi-m, dimana m adalah nilai atribut dari piksel. Bila A dinyatakan sebagai notasi dari matrik maka
16
m x n dalah term-dokumen pada n jumlah dokumen image, seperti diperlihatkan pada gambar 2.6(Skopal, Kolovrat, & Snášel, 2005).
Gambar 2.5 image 3 x 2 piksel dikodekan dengan vektor 6 dimensi
Gambar 2.6 Contoh transfomasi image – ke –vektor
17
2.6 D-TCWT Transformasi complex wavelet (CWT) adalah sebuah perluasan nilai variabel kompleks dari Transformasi Wavelet Diskrit (TWD) standar. Transformasi complex wavelet dalam sebuah sinyal menggunakan dua pohon yang terpisah dari filter riil TWD di mana operasinya secara paralel untuk menghasilkan bagian riil dan imajiner dari filter kompleks. Hal itu berarti bahwa jumlah dari koefisien pada output dari CWTadalah dua kali lipat dibandingkan dengan jumlah dari koefisien TWD. Penggandaan dari CWT adalah 2:1 untuk sinyal satu dimensi dan 4:1 untuk sinyal dua dimensi. TWD memiliki beberapa kekurangan yaitu pada shift invariance, yang berarti bahwa pergeseran kecil dalam sinyal inputan dapat menyebabkan variasi yang besar dalam distribusi energi antara koefisien transformasi wavelet pada skala berbeda. Masalah ini disebabkan oleh aliasing yang dilakukan karena subsampling pada setiap level wavelet. Kekurangan yang lainnya adalah buruk dalam directional selectivity untuk feature diagonal. TWD 2 dimensi mendekomposisi gambar dengan arah horizontal (0o) atau HL, vertikal (90o) atau LH dan diagonal (±45o) atau HH.TWD tidak dapat membedakan antara dua arah diagonal yang berlawanan (±75o). Kingsbury (1998), telah menemukan transformasi yang berbasis Complex Wavelet (CWT) yaitu dual-tree complex wavelet Transform (DT-CWT) yang memiliki beberapa kelebihan yaitu : • Bagus dalam shift invariance. • Bagus dalam directional selectivity. • Memiliki Redudansi yang sangat sedikit, (2 :1 m untuk m-dimensi sinyal). • Memiliki algoritma penghitungan yang sedikit.
18
Transformasi ini adalah sebuah variasi dari implementasi TWD tetapi perbedaan utamanya yaitu bahwa D-TCWT menggunakan 2 filter tree seperti yang ditunjukkan oleh gambar 2.7(Coria, Nasiopoulos, Ward, & Pickering, 2007) :
Gambar 2.7 Struktur 2 Filter Tree D-TCWT
Jika level atau skala dari output filter yang ditunjukkan dengan s maka himpunan koefisien highpass complex wavelet yang dihasilkan oleh D-TCWT pada skala s adalah :
ys [k ] = ysa [k ] + jysb [k ] di mana
ysa [k ]
menunjukkan koefisien output dari tree A dan ysb [k ] menunjukkan
koefisien output dari tree B. Koefisien kompleks dapat ditulis dalam bentuk polar sebagai berikut :
ys [k ] = ms [k ]e jθ ,[k ] di mana magnitude/besarnya setiap koefisien sebagai berikut :
19
ms = ysa2 [k ] + ysb2 [k ] Dan faasenya :
⎛ ysa [k ] ⎞ ⎟⎟ [ ] y k ⎝ sb ⎠
θ s [k ] = tan −1 ⎜⎜
Jumlah h dari koefissien komplekks yang dihaasilkan pada skala s adallah
Ns di mana m N 2
adalahh jumlah sam mple sinyal innput.Gambaar-gambar di bawah ini m mengilustrasikan sifat shift innvariance D-TCWT.
Gam mbar 2.8 Sig gnal Input yaang Berisi Seebuah Tepi yang y Digeserr Ke kanan oleh o Satu Saampel.
G Gambar 2.9 Level L 4 Koeefisien-koefissien Output DWT
20
Gambar 2..8 menunjukkkan sejumlaah sinyal inpput yang berrisi sebuah sisi s yang di geser ke k kanan oleeh satu samppel yang berrhubungan dengan d input sebelumnyya. Gambar 2.9 menunjukkan m n level 4 koefisien-kkoefisien output o DWT T dan denngan jelas menun njukkan varriasi dalam koefisien-kkoefisien DW WT. Gambar 2.10 meenunjukkan magniitude dari lev vel 4 koefisiien-koefisienn D-TCWT untuk u setiapp sinyal-sinyal input ini dan reelatif tidak terpengaruhh oleh perggeseran keccil dalam ssinyal input. Sifat ini khususnya bergunna ketika mendeteksi m watermark yang telah mengalamii beberapa distorssi geometri. Semakin invvariance sebbuah transforrmasi yang adalah a pergeeseran kecil di siny yal input, seemakin besaar probabilitaas watermarrk yang telahh disisipkann terdeteksi setelahh mengalami distorsi geoometri.
Gambar 2.10 Level 4 K Koefisien-koeefisien D-TC CWT
ukkan respoon impuls du ua dimensi ddari rekonsttruksi filter Gambar 2..11 menunju dalam m 2D D-TCW WT. Setiap level transformasi meng ghasilkan koefisien komp mpleks yang
21
sesuai dengan output filter 6 arah. Himpunan dari koefisien high-passwavelet kompleks dalam skala s dan arah d dapat ditulis sebagai berikut:
y s ,d [u, v] = ms ,d [u, v]e
jθ s , d [u ,v ]
Untuk d = 1,2....,6. Variable u dan v menentukan lokasi koefisien komplek di tiap subband. Dengan menggunakan notasi matriks, koefisien dalam sebuah subband dilambangkan dengan Ys,ddan jumlah koefisien kompleks dalam tiap subband adalah
N / 2 s × M / 2 s di mana N dan M adalah dimensi citra dalam piksel. Gambar 2.12 enunjukkan struktur output tipe wavelet untuk subband 6 arah pada setiap levelDTCWT. Riil
15o
45 o
75 o
-75 o
-45 o
-15 o
Imajiner Gambar 2.11 Respon Impuls Dua Dimensi dari Rekonstruksi Filter 2D D-TCWT
22
Gambar 2.12Struktur Koefisien D-TCWT untuk Dekomposisi 4 Level
2.7 Latent Semantic Indexing (LSI) Latent Semantic Indexing (LSI)adalah sebuah metode indexing dan retrieval yang menggunakan sebuah teknik matematikan yang disebut singular value decomposition (SVD) untuk mengidentifikasi pola-pola dalam hubungan-hubungan antar kondisi-kondisi dan konsep-konsep yang terdapat dalam sebuah koleksi teks tak berstruktur. Istilah LSI mulai muncul pada tahun 2003 ketika Google membeli sebuah perusahaan bernama Applied Semantik, dimana teknologi piranti lunak dikembangkan untuk dapat mengekstrak dan mengorganisasikan informasi dari situs-situs web layaknya manusia mengerjakan. Tujuan dari Google membeli teknologi tersebut adalah untuk mencocokan iklan Adsense (milik Google) dengan halaman web yang sesuai sehingga
iklan
yang
relevan
akan
muncul
pada
halaman
yang
tepat.
SebelumnyaAdsence hanya mencocokan kata kunci pada suatu halaman dengan kata kunci pada iklan Adsense tersebut. Namun masalah segera muncul ketika jutaan
23
halaman dibuat hanya untuk berisi kata-kata kunci agar menarik (menjebak) pengunjung untuk mengklik iklan. LSI memberikan langkah penting bagi proses pengindeksan dokumen. Selain mencatat kata-kata kunci di dalam sebuah dokumen, ia juga mempelajari dokumen terebut secara keseluruhan. Walaupun demikian, Algoritma LSI sebenarnya tidak memahami arti dari kata-kata, ia hanya memperhatikan pola-pola yag ada sehingga membuata algoritma secara cerdas. SVD dapat dilihat dari 3 sudut pandang. Sudut pandang pertama dapat dinyatakan sebagai metode untuk mentranformasikan variabel yang berhubungan kedalam satu set yang tidak berkorelasi. Sudut pandang kedua SVD adalah metode untuk mengidentifikasi dan mengurutkan dimensi data point. Dan sudut pandan ketiga adalah bahwa SVD memungkinkan untuk menemukan nilai K yang ideal. SVD adalah teknik reduksi dimensi dengan menggunakan menggantikan matrik term-dokumen A dengan matrik baru Ak. Tujuan dari SVD adalah untuk mengitung persamaan dekomposisi :
dimana S adalah matrik diagonal m x n dengan elemen bilangan positif yang disebut dengan nilai singular. U dan VT adalah m x m dan n x n matrik orthogonal, VT = V1, kolom dari matrik U dan VT disebut dengan vector singular kiri dan vector singular kanan(Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990). Pada gambar 2.13 diperlihatkan ilustrasi dari proses dekomposisi matrik.
24
Gambar 2.13 Ilustrasi dekomposisi matrik
Area yang diasir menunjukkan matrik yang dipertahankan, matrik hasil yang didefinisikan setelah dekomposisi adalah :
Prosedur LSIadalah melakukan proses SVD pada semantic matrik image kemudian melakukan perhitungan kemiripan vektor imagequery dengan vektor image dalam database.
2.8 Pengukuran Kesamaan Ada beberapa metode pengukuran kemiripan yang dipergunakan dalam information retrieval.Pengukuran kemiripan ini berdasarkan jarak antara titik atau sudut antara 2 vektor didalam model vektorspace.Jarak antara titip P = (p1, p2, …,pn) dan Q(q1, q2,….,qn) dimana n adalah jumlah dari fitur image. Metode Euclidean distance adalah cara yang biasa dipergunakan dalam menghitung jarak, dimana menggunakan persamaan phitagoras. Persamaan Euclidean distance adalah didefinisikan seperti persamaan berikut ini :
25
Metode Manhattan distance atau dikenal dengan metode City Block distance dapat digambarkan dengan analogi jarak dari 2 lokasi dalam kota dimana jalan sebagai grid(Sonka, Hlavac, & Boyle, 2008). Persamaan Manhattan distance adalah sebagai berikut :
|
|
Metode Chebyshev Distance yang disebut dengan chessboard distance adalah sama dengan pergerakan kinq pada permainan catur yang bergerak dari satu titik ke titik yang lain (Sonka et al., 2008). Persamaan Chebyshev adalah sebagai berikut: |
Dari ketiga metode diatas, dapat diilustrasikan pada gambar 2.14.
Gambar 2.14 Ilustrasi metode pengukuran jarak
26
Pada tesis ini menggunakan metode Cosine Distance, yaitu mengukur sudut antara 2 vektor. Persamaan cosine distance dapat diperlihatkan pada persamaan dibawah ini : .
,
| | || ||
Jika cosine (p,q) = 1, maka sudut antara 2 vektor ini adalah 0o.
2.9 Precision dan Recall Salah satu penerapan prinsip relevansi yang sejak dahulu digunakan dalam pengembangan sistem information retrieval (IR) adalah penggunaan ukuran recall and precision. Sejak teori tentang IR berkembang di tahun 1940an, para ilmuan selalu memeras otak, bagaimana caranya membuat sistem IR yang benar-benar handal. Bagaimana mengukur keefektifan sebuah sistem IR dalam memenuhi permintaan informasi,bagaimana mengukur kemampuan sistem dalam menyediakan dokumen yang relevan dengan kebutuhan pemakai.Recall and precision adalah upaya untuk menjawab persoalan itu. Kedua ukuran di atas biasanya diberi nilai dalam bentuk persentase, 1 sampai 100%. Sebuah sistem informasi akan dianggap baik jika tingkat recall maupun precision-nya tinggi. Jika ada seseorang mencari dokumen tentang “Pangeran Diponegoro” pada sebuah sistem, dan jika sistem tersebut memiliki 100 buku tentang Pangeran Diponegoro, maka kinerja terbaik adalah jika sistem tersebut berhasil menemukan 100 dokumen tentang Pangeran Diponegoro.
27
Kalau sistem tersebut memberikan 100 temuan, dan di temuan tersebut ada 50 dokumen tentang “Pangeran Diponegoro”, maka nilai recall-nya adalah 0,5 (atau 50%) dan nilai precision-nya juga 0,5. Kalau sistem tersebut memberikan 1 dokumen saja, dan dokumen tersebut adalah tentang “Pangeran Diponegoro”, maka recall-nya bernilai 0,01 dan precision-nya bernilai 1. Perhatikan bahwa nilai precision yang tinggi ini sebenarnya terjadi karena sistem memberikan hanya 1 jawaban kepada si pencari informasi. Kalau sistem memberikan 100 dokumen, dan hanya 1 yang relevan, maka nilai recall-nya tetap 0,01 dan precision-nya pun ikut merosot ke 0,01.
2.9.1 Precision Precision dapat diartikan sebagai kepersisan atau kecocokan (antara permintaan informasi dengan jawaban terhadap permintaan itu). Jika seseorang mencari informasi di sebuah sistem, dan sistem menawarkan beberapa dokumen, maka kepersisan ini sebenarnya juga adalah relevansi. Artinya, seberapa persis atau cocok dokumen tersebut untuk keperluan pencari informasi, bergantung pada seberapa relevan dokumen tersebut bagi si pencari. Precision adalah proporsi jumlah dokumen yang ditemukan dan dianggap relevan untuk kebutuhan si pencari informasi.Persamaan precision adalah sebagai berikut : Rumusnya: Jumlah dokumen relevan yang ditemukan dibagi Jumlah semua dokumen yang ditemukan.
28
2.9.2 Recall Recall adalah proporsi jumlah dokumen yang dapat ditemukan-kembali oleh sebuah proses pencarian di sistem IR. Persamaan recall dapat dilihat dibah ini :