PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN
MERISKA DEFRIANI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
PENGGUNAAN OPERATOR BELIEF REVISION PADA TEMU KEMBALI DOKUMEN BAHASA INDONESIA MODEL BOOLEAN
MERISKA DEFRIANI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
ABSTRACT MERISKA DEFRIANI. Application of Belief Revision Operator on Boolean Model Retrieval of Indonesian Documents. Supervised by JULIO ADISANTOSO. Retrieval results of conventional Boolean Model are based only on the exact matching between document and query without ranking. Extended Boolean Model has developed a search process using partial matching and ranking, but it is difficult to be applied for complex queries structures. Belief Revision model was introduced to improve the information retrieved by Boolean Models. The objective of this research is to implement Extended Boolean Model (EBM) and Belief Revision (BR) to rank Indonesian documents. Query and document are weighted in binary. Then, the similarity is calculated to obtain the rank. Information retrieved using EBM equals to BR with average precision of 0.5148. Keywords: Belief Revision, Extended Boolean Model
Judul Skripsi Nama NRP
: Penggunaan Operator Belief Revision pada Temu Kembali Dokumen Bahasa Indonesia Model Boolean : Meriska Defriani : G64080048
Menyetujui: Pembimbing
Ir. Julio Adisantoso, M.Kom. NIP. 19620714 198601 1 002
Mengetahui: Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si., M.Kom. NIP. 19660702 199302 1 001
Tanggal Lulus :
PRAKATA Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wa-ta'ala atas segala rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Penggunaan Operator Belief Revision pada Temu Kembali Dokumen Bahasa Indonesia Model Boolean. Penelitian ini dilaksanakan mulai Oktober 2011 sampai dengan Maret 2012 dan bertempat di Departemen Ilmu Komputer Institut Pertanian Bogor. Penulis juga menyampaikan terima kasih kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, yaitu: 1
Ayahanda Darminto, Ibunda Rustini, serta kakakku Wenny Yuniaris yang selalu memberikan kasih sayang, semangat, dan doa.
2
Bapak Ir. Julio Adisantoso, M.Kom selaku pembimbing yang selalu memberikan ide dan semangat serta bersedia mendengarkan keluh kesah penulis selama pengerjaan penelitian ini.
3
Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony H. Wijaya, S.Kom, M.Kom yang telah bersedia menjadi penguji.
4
Mohamad Firman yang selalu menemani dan memberikan semangat.
5
Teman-teman satu bimbingan Anita, Fania, Zhia, Iki, Aga, Mey, Nofel, Susi, dan Uty semoga cepat menyusul.
6
Rekan-rekan Ilkomerz 45 atas segala kebersamaan, canda tawa, dan kenangan indah yang telah mengisi kehidupan penulis selama di kampus. Terakhir, penulis berharap penelitian ini dapat memberikan manfaat.
Bogor, Mei 2012
Meriska Defriani
RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tangga 16 Desember 1990. Penulis merupakan anak kedua dari pasangan Darminto dan Rustini. Pada tahun 2008, penulis menamatkan pendidikan di SMA Negeri 3 Malang. Pada tahun yang sama, penulis diterima menjadi mahasiswa di Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB. Penulis menjadi mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Pada bulan Juli hingga Agustus 2011, penulis melaksanakan kegiatan Praktik Kerja Lapangan di bagian Pengembangan dan Pemeliharaan Aplikasi Bank Indonesia. Selama menjadi mahasiswa, penulis menjadi asisten praktikum Mata Kuliah Algoritma dan Pemrograman dan Mata Kuliah Basis Data. Selain itu, pada bulan Februari 2012 hingga sekarang, penulis berkesempatan menjadi guru Teknologi Informasi dan Komunikasi (TIK) di SMP Negeri 1 Bogor.
DAFTAR ISI Halaman DAFTAR TABEL ............................................................................................................................ vi DAFTAR GAMBAR ....................................................................................................................... vi DAFTAR LAMPIRAN .................................................................................................................... vi PENDAHULUAN ............................................................................................................................ 1 Latar Belakang .............................................................................................................................. 1 Tujuan Penelitian .......................................................................................................................... 1 Ruang Lingkup Penelitian ............................................................................................................ 1 METODE PENELITIAN .................................................................................................................. 1 Koleksi Dokumen ......................................................................................................................... 1 Pemrosesan Dokumen .................................................................................................................. 1 Pemrosesan Kueri ......................................................................................................................... 2 Ukuran Kesamaan pada Extended Boolean Model ....................................................................... 2 Ukuran Kesamaan pada Belief Revision ....................................................................................... 3 Pemeringkatan Dokumen.............................................................................................................. 4 Evaluasi Hasil Temu kembali ....................................................................................................... 4 Lingkungan Implementasi ............................................................................................................ 4 HASIL DAN PEMBAHASAN ......................................................................................................... 4 Koleksi Dokumen Pengujian ........................................................................................................ 4 Pemrosesan Dokumen .................................................................................................................. 5 Pemrosesan Kueri ......................................................................................................................... 5 Temu Kembali dengan Boolean Model ........................................................................................ 5 Temu Kembali dengan Extended Boolean Model......................................................................... 6 Temu Kembali dengan Belief Revision ......................................................................................... 6 Evaluasi Sistem Temu Kembali .................................................................................................... 7 KESIMPULAN DAN SARAN ......................................................................................................... 8 Kesimpulan ................................................................................................................................... 8 Saran ............................................................................................................................................. 8 DAFTAR PUSTAKA ....................................................................................................................... 8 LAMPIRAN ...................................................................................................................................... 9
v
DAFTAR TABEL Halaman 1 Confusion matrix ......................................................................................................................... 4 2 Deskripsi dokumen pengujian ..................................................................................................... 4 3 Nilai AVP BR1 dan BR2............................................................................................................. 7
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11
Halaman Gambaran umum sistem.............................................................................................................. 2 Sebaran ukuran kesamaan EBM ................................................................................................. 3 Pseudocode Belief Revision ........................................................................................................ 3 Contoh dokumen pertanian ......................................................................................................... 5 Format dokumen setelah dilakukan pembuangan tagging .......................................................... 5 Contoh pemrosesan kueri ............................................................................................................ 5 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan Boolean Model .......................... 6 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan EBM .......................................... 6 Contoh perhitungan algoritma Belief Revision ............................................................................ 6 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan BR ............................................. 6 Grafik R-P perbandingan kinerja BR1 dan BR2 ......................................................................... 7
DAFTAR LAMPIRAN 1 2 3 4 5
Halaman Antarmuka implementasi........................................................................................................... 10 Gugus kueri dan jawaban untuk dokumen pertanian ................................................................. 11 Hasil perhitungan precision pada eleven standard recall .......................................................... 17 Hasil perhitungan precision pada eleven standard recall berbagai kueri Belief Revision (1) ... 18 Hasil perhitungan precision pada eleven standard recall berbagai kueri Belief Revision (2) ... 20
vi
1
PENDAHULUAN Latar Belakang Temu kembali informasi model Boolean merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT (Manning et al. 2008). Dokumen yang dikembalikan merupakan hasil pencocokan secara tepat sama dengan kueri. Model Boolean ini masih diperlukan dalam pencarian dokumen dengan menggunakan search engine karena ekspresi Boolean lebih mirip dengan bahasa alami sehingga mampu merepresentasikan keinginan pengguna dengan lebih baik. Model Boolean menghasilkan sekumpulan dokumen yang cocok tanpa adanya pemeringkatan. Salton et al. (1983) memperkenalkan Extended Boolean Model (EBM) yang juga dikenal sebagai P-Norm Model untuk mengatasi kelemahan tersebut. Penelitian mengenai P-Norm Model pernah dilakukan oleh Lee dan Fox (1988), yaitu membandingkan P-Norm Model dengan Mixed Min and Max Model (MMM) dan Paice Model. Hasil penelitian tersebut menunjukkan bahwa P-Norm Model mendapatkan nilai average precision yang paling baik. P-Norm Model membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan yang berbanding lurus dengan nilai keketatan (p) pada operator Boolean. Namun, untuk struktur kueri yang kompleks, EBM sulit diterapkan sehingga model tersebut disempurnakan dengan menggunakan Belief Revision (BR). BR merupakan logical framework yang dokumen dan kuerinya direpresentasikan dengan formula proposisi. Losada dan Barreiro (1999) melakukan penelitian menggunakan BR untuk pemeringkatan dokumen dalam EBM. Penelitian tersebut membandingkan BR dengan P-Norm Model dengan nilai p=1 dan bobot biner untuk kueri dan dokumen. Hasil dari penelitian tersebut menunjukan bahwa BR memiliki kesamaan dengan P-Norm Model dengan nilai p=1. Selain itu, Putra (2011) membandingkan BR dengan P-Norm Model dengan nilai p=1, 2, 5, dan 9 untuk dokumen berbahasa Indonesia. Penelitian tersebut menggunakan rumus pendekatan hasil penelitian Losada (2001) dalam perhitungan jarak antara kueri dan dokumen. Nilai AVP yang diperoleh untuk
BR dan P-Norm Model pada dokumen pertanian, yaitu 0.5490 dan 0.5489, sedangkan pada tanaman obat 0.8128 dan 0.8378. Namun, penelitian-penelitian tersebut belum diimplementasikan secara keseluruhan sampai diperoleh nilai ukuran kesamaan (similarity measure) yang digunakan untuk pemeringkatan dokumen pada model Boolean. Oleh karena itu, penelitian kali ini akan mengimplementasikan BR secara keseluruhan dengan menggunakan kombinasi kueri dan dokumen dalam perhitungan jarak. Selain itu, dibandingkan juga hasil pemeringkatan antara BR dan EBM. Tujuan Penelitian Tujuan dari penelitian ini ialah mengimplementasikan Extended Boolean Model (EBM) dan Belief Revision (BR) untuk pemeringkatan dokumen bahasa Indonesia. Ruang Lingkup Penelitian Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia, sedangkan kueri yang digunakan diperoleh dari Putra (2011) tanpa menggunakan operator Boolean NOT.
METODE PENELITIAN Penelitian ini dilaksanakan dalam empat tahapan, yaitu: (1) pengumpulan dokumen (korpus) dan pemrosesan dokumen, (2) pemrosesan kueri, (3) perhitungan ukuran kesamaan antara dokumen dengan kueri untuk EBM dan Belief Revision, pemeringkatan dokumen dari hasil perhitungan ukuran kesamaan dokumenkueri, dan (4) evaluasi hasil temu kembali. Tahapan-tahapan tersebut dapat dilihat pada Gambar 1. Koleksi Dokumen Dokumen yang digunakan sebagai pengujian ialah korpus yang tersedia di Laboratorium Temu Kembali Informasi hasil Penelitian Adisantoso dan Ridha (2004). Dokumen tersebut merupakan dokumen pertanian yang berjumlah 1000 dokumen. Pemrosesan Dokumen Pada tahap ini, dilakukan lowercasing terhadap dokumen, yaitu mengubah seluruh huruf menjadi huruf nonkapital agar bersifat case insensitive pada saat dilakukan pemrosesan teks dokumen. Selanjutnya
2
Tahap 1
Tahap 2
Dokumen (d)
Query (q)
Inverted Index
Inverted Term
Tahap 3
Similarity(di,q) EBM
Doc Ranking
Similarity(di,q) Belief Revision
Doc Ranking
Tahap 4 Evaluation
Gambar 1 Gambaran umum sistem. dilakukan proses parsing, yaitu proses memilah dokumen menjadi unit-unit yang lebih kecil seperti kata, frasa, atau kalimat (Ridha 2002). Dalam penelitian ini, unit terkecil yang digunakan ialah kata yang terdiri atas minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen ini dihilangkan karena bukan merupakan penciri dari dokumen. Selanjutnya dilakukan pembuangan stopwords, yaitu kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna seperti kata dan, pada, dan yang. Setelah itu, dilakukan pembobotan pada term. Berdasarkan pembobotannya terdapat dua model temu kembali, yaitu temu kembali Boolean dan Vector Space Model. Temu kembali model Boolean merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT (Manning et al. 2008). Model Boolean hanya mempertimbangkan kemunculan index term sehingga index term diasumsikan memiliki bobot biner, yaitu bernilai 0 atau 1. Kueri yang dimasukkan dapat direpresentasikan menggunakan Disjunctive Normal Form (DNF). Klausa AND dihubungkan dengan penghubung OR. Pada model Boolean, kueri diproses sesuai dengan operator yang digunakan dan hasilnya ditampilkan berdasarkan urutan dokumen yang
ditemukan. Dokumen yang dikembalikan tidak mencerminkan relevansi terhadap kueri yang diberikan karena mengunakan pencocokan tepat sama dengan kueri. Sementara itu, pada temu kembali Vector Space Model bobot yang digunakan diperoleh dari jumlah kemunculan term pada dokumen dan jumlah dokumen yang mengandung term tersebut. Kueri diproses tanpa operator Boolean dan hasilnya ditampilkan berdasarkan nilai ukuran kesamaan. Dokumen yang dikembalikan cenderung lebih mencerminkan relevansi terhadap kueri. Pemrosesan Kueri Pemrosesan pada tahap ini sama halnya dengan pemrosesan dokumen, yaitu dilakukan lowercasing dan parsing. Namun parsing pada tahap ini sedikit berbeda karena kueri yang dimasukkan mengandung operator Boolean sehingga perlu dipisahkan antara term operator Boolean dengan term yang bukan operator Boolean. Pemisahan tersebut dilakukan untuk mengetahui jenis operator yang digunakan untuk mempermudah perhitungan nilai ukuran kesamaan. Setelah itu, akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan. Pada penelitian ini pembobotan yang digunakan sesuai dengan model temu kembalinya, yaitu pembobotan biner. Ukuran Kesamaan pada Extended Boolean Model Extended Boolean Model (EBM) merupakan peningkatan dari model Boolean biasa. EBM menggabungkan karakteristik dari Vector Space Model dengan sifat-sifat aljabar Boolean dan peringkat kesamaan antara kueri dan dokumen (Salton et al. 1983). Dengan cara ini, tingkat relevansi suatu dokumen yang cocok dan dikembalikan dapat menjadi lebih tinggi. Apabila hanya dua kueri yang dimasukkan maka sebaran nilai kesamaan dapat dilihat pada Gambar 2. Pada Gambar 2 dapat dilihat bahwa setiap term digambarkan pada koordinat yang berbeda. Titik (1,1) pada kueri AND merepresentasikan kemunculan kedua term, sedangkan titik (0,0) pada kueri OR merepresentasikan ketidakmunculan kedua term. Jika hanya salah satu term yang muncul, maka nilai ukuran kesamaan akan bernilai 1⁄√2 untuk kueri OR dan 1-1⁄√2 untuk kueri AND, sehingga ukuran kesamaan akan berkisar dari 0 hingga 1. Perhitungan ukuran kesamaan dalam EBM menggunakan
3
persamaan berikut (Salton et al. 1983): d2A + d2B
sim(D,Q(A or B) ) = �
(1)
2
sim(D,Q(A and B) ) = 1-�
Algorithm BRsim:
2
2
(1 - dA ) + (1 - dB ) 2
(2)
dengan dA, dB merupakan bobot biner term A dan bobot biner term B pada dokumen (Putra 2011).
Function Similarityψ,μ Input : query ψ = ψ1,ψ2,… document μ = μ Output : BRsimμ,ψ 1. Distance = 0; 2. Distance_to_ψ = S 3. Extract a new m, model of ψ 4. Compute CDistLITm,μ 5. if CDistLITm,μ
Gambar 3 Pseudocode Belief Revision. Kueri (q) dilambangkan dengan ψ dan I adalah model dokumen (md). Dokumen hanya mempunyai satu model, sedangkan kueri memiliki himpunan model (Mod(ψ)). Untuk model tersebut, digunakan Dalal’s distance sebagai berikut: dist(Mod(ψ),I)=minj∈Mod(ψ) dist(J,I))
Gambar 2 Sebaran ukuran kesamaan EBM. Ukuran Kesamaan pada Belief Revision Belief Revision (BR) berkaitan dengan akomodasi sebuah informasi baru ke dalam knowledge base yang ada. Dalam temu kembali informasi, BR direpresentasikan dalam logika proposisi. Dokumen dan kueri memiliki model yang dibangun dari interpretasi. Interpretasi merupakan sebuah fungsi yang memetakan alfabet dalam logika proposisi ke bentuk himpunan. Pseudocode dari BR yang digunakan dalam implementasi sistem dapat dilihat pada Gambar 3. BR menggunakan symmetric difference antara dua interpretasi yang berbeda yaitu I dan J. Ukuran jarak antar-interpretasi tersebut dapat ditulis sebagai dist(I,J) sehingga jarak antara himpunan model (Mod(ψ)) dan I ialah: dist(Mod(ψ),md) = minj∈Mod(q) dist(J,md))
Formula ini menggunakan jarak antara setiap model antara kueri (J) dan model dokumen (md), lalu dihitung kardinalitas dari masing-masing model kueri terhadap model dokumen. Langkah 1 sampai 7 pada Gambar 3 menunjukkan algoritme untuk mendapatkan ukuran jarak dari formula Dalal’s distance. Langkah pertama, nilai Distance ditetapkan sama dengan nol, kemudian untuk masing-masing model kueri (m), ditetapkan nilai Distance_to_ψ sama dengan banyaknya kata unik (S) dalam koleksi dokumen. Untuk masing-masing m, dihitung nilai d. Jarak dari klausa dokumen ke kueri adalah jarak terdekat dari klausa dokumen ke klausa kueri. CDist(LIT(m),μ ) adalah banyaknya term positif yang muncul dalam klausa satu (LIT(m)) dan term negatif pada klausa lain (μ) atau sebaliknya. Jika nilai CDist(LIT(m),μ )
4
Jarak (Distance) tersebut digunakan untuk menghitung ukuran kesamaan yang dinormalisasi dalam interval [0,1] (Langkah 8 pada Gambar 3) dengan k merupakan banyaknya term yang terdapat dalam klausa ψ. Rumusan tersebut diformulasikan sebagai berikut: distance(d,q) BRsim(d,q)=1 k Ukuran kesamaan (similarity measure) antara dokumen (d) dan kueri (q) dari persamaan di atas diperoleh dengan k adalah jumlah term yang muncul dalam kueri (Losada & Barreiro 1999 dalam Putra 2011). Pemeringkatan Dokumen Pemeringkatan dokumen dilakukan setelah perhitungan nilai kesamaan antara dokumen dengan kueri untuk EBM dan BR. Pemeringkatan dokumen yang dikembalikan sesuai dengan nilai kesamaan yang diperoleh. Semakin besar nilai kesamaan yang diperoleh, peringkat dokumen yang dikembalikan akan semakin tinggi. Evaluasi Hasil Temu kembali Manning (2008) menyatakan bahwa terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu kembali secara efektif, yaitu recall dan precision (R-P). Perhitungan recall-precision diformulasikan berdasarkan Tabel 1. Tabel 1 Confusion matrix Relevant Not Relevant Retrieved tp fp Not Retrieved fn tn dengan demikian, R-P didefinisikan sebagai tp Precision = P = (tp + fp)
Recall = R =
tp (tp + fn)
Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritma temu kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) dengan interpolasi maksimum diperlukan untuk menghitung rata-rata precision pada berbagai tingkat recall, yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut: ��rj �= ∑Nq Pi (r) P i=1 Nq
dengan 𝑃� (rj) adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan Pi(r) adalah precision pada level recall r untuk kueri ke-i. Lingkungan Implementasi Lingkungan digunakan yaitu:
implementasi
yang
Perangkat lunak: • Microsoft Windows 7 Profesional sebagai sistem operasi, • PHP sebagai bahasa pemrograman, • Xampp Server Apache version 2.5.8 sebagai web server, • Notepad++, dan • Microsoft Office 2007 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi. Perangkat Keras: • Processor Intel Core 2 Duo 2.10 GHz, • RAM 2 GB, dan • Hardisk 250 GB.
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Penelitian ini menggunakan 1000 dokumen pertanian yang ada di Laboratorium Temu Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 2. Tabel 2 Deskripsi dokumen pengujian Uraian Dokumen Pertanian Nilai (byte) Ukuran keseluruhan dokumen
4 139 332
Ukuran rata-rata dokumen
4 139
Ukuran dokumen terbesar
54 082
Ukuran dokumen terkecil
451
Dokumen yang digunakan dalam penelitian ini memiliki format plain text dengan struktur XML. Struktur tulisan dokumen tersebut dapat dilihat pada Gambar 4. Dokumen dikelompokkan ke dalam tagtag sebagai berikut: •
, mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.
5
•
, menunjukkan ID dari dokumen. •
, menunjukkan tanggal dari berita. •
, menunjukkan penulis dari berita tersebut. •
, tag ini menunjukkan isi dari dokumen.
balaipenelitian000000001 <TITLE>PRODUKTIVITAS SOM JAWA (Talinum paniculatum Gaertn.)… Ireng Darwati Ireng Darwati, Mono Rahardjo, dan Rosita SMD Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang optimal diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik….
Gambar 4 Contoh dokumen pertanian. Pemrosesan Dokumen Proses awal sebelum dilakukannya pengindeksan ialah pembuangan tagging karena tagging bukan merupakan penciri sebuah dokumen. Format dokumen setelah dilakukan pembuangan tagging dapat dilihat pada Gambar 5.
baca, dan lowercasing. Setelah itu dilakukan pembuatan inverted index kata-kata unik dari masing-masing dokumen dan disimpan ke dalam satu file. Pemrosesan Kueri Kueri yang digunakan dalam penelitian ini merupakan kueri yang berbentuk Boolean. Kata-kata yang ada pada kueri dipisahkan oleh operator Boolean, yaitu AND atau OR. Proses awal yang dilakukan ialah lowercasing, yaitu mengubah seluruh huruf menjadi nonkapital. Setelah itu, dilakukan pengecekan operator Boolean dalam kueri. Apabila dalam kueri terdapat kata yang merupakan operator Boolean maka kata tersebut dijadikan index dan dimasukkan ke dalam array dengan nama ‘i_root’. Kata yang bukan merupakan operator Boolean dijadikan index dan dimasukkan ke dalam array dengan nama ‘i_term’. Apabila terdapat tanda kurung maka kata dijadikan index dan dimasukkan ke dalam array dengan nama ‘brackets’. Pemrosesan kueri ini dilakukan secara rekursif. Contoh pemrosesan kueri dengan kueri ‘gagal AND panen’ dapat dilihat pada Gambar 6. Array ( [i_term] => ( [0] [1] ) [i_root] => ( [0] )
Array => gagal => panen Array => and
)
Gambar 6 Contoh pemrosesan kueri. balaipenelitian000000-001 PRODUKTIVITAS SOM JAWA Ireng Darwati Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang optimal, diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik. Gambar 5 Format dokumen setelah dilakukan pembuangan tagging. Proses selanjutnya ialah parsing dokumen, pembuangan stopword dan tanda
Temu Kembali dengan Boolean Model Pada temu kembali menggunakan Boolean Model, kueri yang dimasukkan mengandung operator Boolean. Kueri diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator yang digunakan adalah AND maka akan dicari posting list dari index ‘i_term’ tersebut dan dilakukan proses intersection. Jika operator yang digunakan adalah OR maka akan dilakukan proses merge terhadap posting list ‘i_term’. Hasil yang dikembalikan dalam Boolean Model relevan atau tidak relevan dari kueri yang diberikan. Hal tersebut disebabkan
6
dalam Boolean Model tidak ada pencocokan sebagian antara dokumen dengan kueri yang diberikan (Putra 2011). Array ( [0] => [1] => [2] => [3] => [4] => [5] => [6] => [7] => [8] => [9] =>
gatra070203.txt gatra161002.txt gatra190802.txt gatra210704.txt gatra260803.txt gatra301002.txt indosiar031203.txt indosiar040903.txt indosiar050704-002.txt indosiar130104.txt
) Gambar 7 Contoh hasil temu kembali kueri 'gagal AND panen' dengan Boolean Model. Gambar 7 merupakan contoh hasil temu kembali menggunakan Boolean Model dengan kueri ‘gagal AND panen’. Temu Kembali dengan Extended Boolean Model Pada temu kembali menggunakan Extended Boolean Model, kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika menggunakan operator OR maka rumus yang digunakan ialah (1) dan (2). Array ( [republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1 [kompas030704.txt] => 1 )
Gambar 8 Contoh hasil temu kembali kueri 'gagal AND panen' dengan EBM. Gambar 8 merupakan sepuluh teratas dokumen hasil temu kembali menggunakan Extended Boolean Model dengan kueri ‘gagal AND panen’.
Temu Kembali dengan Belief Revision Pada temu kembali menggunakan Belief Revision, kueri yang dimasukkan harus dalam bentuk DNF. Pada Gambar 9 dapat dilihat contoh perhitungan untuk algoritma Belief Revision. P = {a,b,c,d} d = (a ˄ b ˄ ¬c ˄ d ) q = (a ˄ b ) Algorithm BRsim-SC: Function Similarity(ψ,μ) Input : query ψ = {ψ} document μ = {μ} Output : BRsim(μ,ψ) 1. Distance = 0; 2. Distance_to_ψ = 4 3. m = {a,b} 4. LIT(m) = {a,b,¬c,¬d}, CDist(LIT(m),μ) = 0 5. Distance_to_ψ = 0 2. Distance_to_ψ = 4 3. m = {a,b, c} 4. LIT(m)= {a,b,c,¬d}, CDist(LIT(m),μ) = 1 5. Distance_to_ψ = 0 2. Distance_to_ψ = 4 3. m = {a,b,d} 4. LIT(m)= {a,b,¬c,d}, CDist(LIT(m),μ) = 0 5. Distance_to_ψ = 0 2. Distance_to_ψ = 4 3. m = {a,b,c,d} 4. LIT(m)= {a,b,c,d}, CDist(LIT(m),μ) = 1 5. Distance_to_ψ = 0 7. Distance = 0 8. return (1 – 0/2 )
Gambar 9 Contoh perhitungan algoritma Belief Revision.
Array ( [republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1 [kompas030704.txt] => 1
) Gambar 10 Contoh hasil temu kembali kueri 'gagal AND panen' dengan BR. Literal P merupakan himpunan kata unik dalam koleksi dokumen, d untuk model dokumen, q untuk model kueri. Dokumen terdiri atas satu model sedangkan kueri terdiri atas empat model. Perhitungan terdiri atas empat iterasi. Pada setiap iterasi, dihitung
7
jarak setiap dokumen dan model kueri. Jarak akhir antara kueri dengan dokumen adalah jarak yang terkecil diantara keempat iterasi tersebut, yaitu 0 sehingga hasil perhitungan ukuran kesamaannya menghasilkan nilai 1. Hal tersebut karena kueri yang dimasukkan (a˄ b) dapat dipenuhi oleh model dokumen.
Gambar 10 merupakan sepuluh contoh teratas hasil temu kembali menggunakan Belief Revision pada dokumen pertanian dengan kueri ‘gagal AND panen’. Evaluasi Sistem Temu Kembali
Proses evaluasi sistem temu kembali (Lampiran 1) dalam penelitian ini dilakukan pada dokumen pertanian. Kueri yang digunakan ialah 30 kueri uji yang digunakan oleh Putra (2011). Kueri-kueri uji tersebut telah ada sebelumnya berikut dokumendokumen yang relevan (Lampiran 2). Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan precision dari sistem. Perbandingan Kinerja Extended Boolean Model dengan Belief Revision
gula) OR (gula AND negeri)’, terdapat perbedaan nilai AVP antara kedua model, yaitu BR lebih baik 0.1315 dibandingkan dengan EBM. Oleh karena itu, untuk kueri yang lebih kompleks dapat dikatakan bahwa BR memiliki kinerja yang lebih baik dibandingkan dengan EBM. Perbandingan Kinerja Belief terhadap Berbagai Jenis Kueri
Revision
Perbedaan Belief Revision (1) hasil penelitian Putra (2011) dengan Belief Revision (2) hasil penelitian ini terletak pada perbedaan proses perhitungan jarak antara kueri dengan dokumen. Perbandingan kinerja Belief Revision (1) dengan Belief Revision (2) dapat dilihat pada Tabel 3, sedangkan ilustrasi perbandingan kinerjanya dapat dilihat pada Gambar 11. Tabel 3 Nilai AVP BR1 dan BR2 Metode AVP Belief Revision (1)
0.4975
Belief Revision (2)
0.5148
Belief Revision memiliki kinerja yang sama dengan Extended Boolean Model. Nilai AVP yang diperoleh dari kedua model tersebut yaitu 0.5148. Kesamaan nilai AVP tersebut menandakan bahwa nilai precision pada setiap tingkat recall BR juga sama dengan EBM (Lampiran 3). Perhitungan ukuran kesamaan model EBM yang menggunakan bobot biner menghasilkan nilai yang sama dengan P-Norm Model dengan p=1. Perhitungan ukuran kesamaan dalam P-Norm Model dengan p=1 menggunakan persamaan berikut (Salton et al. 1983): sim�D, Qand �=
1- �
a1 �1 - dA1 � + a2 �1 - dA2 � + … + an�1 - dAn �
sim�D, Qor �=
a1 + a2 + … + an
a1 dA1 + a2 dA2 + … + andAn a1 + a2 + … + an
�
dengan an adalah bobot term An pada kueri dan dAn adalah bobot term An pada dokumen. Berdasarkan hasil penelitian Losada dan Barreiro (1999), P-Norm Model dengan p=1 memiliki kesamaan dengan BR. Namun, untuk kueri yang lebih kompleks seperti ‘(petani AND tebu) OR (petani AND
Gambar 11 Grafik R-P perbandingan kinerja BR1 dan BR2. Nilai precision pada setiap tingkat recall Belief Revision ini dapat dilihat pada Lampiran 4 dan Lampiran 5. Terdapat empat kueri yang nilai precision pada setiap tingkat recall-nya berbeda, yaitu kueri yang menggunakan operator Boolean AND dan OR. Perbedaan tersebut disebabkan perbedaan proses perhitungan jarak. Pada Belief Revision (1), perhitungan jarak kueri yang menggunakan operator Boolean OR diperoleh dari jarak terkecil antara dokumen dengan setiap klausa kueri. Klausa tersebut merupakan conjunctive clause kueri yang dipisahkan oleh operator Boolean OR. Pada kueri ‘(kelompok AND tani) OR gapoktan’, jarak yang diambil ialah jarak kata ‘gapoktan’ ke dokumen karena
8
nilainya lebih kecil dari jarak klausa ‘kelompok AND tani’. Akan tetapi, ketika nilai jarak tersebut dimasukkan ke dalam perhitungan ukuran kesamaan (similarity), hasil yang diperoleh tidak sama dengan nol. Hal tersebut menandakan bahwa dokumen relevan dengan kueri. sehingga dokumen yang tidak mengandung kata ‘kelompok’, ‘tani’, atau ‘gapoktan’ akan tetap ditemukembalikan. Keadaan itu akan memengaruhi nilai precision dan recall-nya. Menurut Losada dan Barreiro (1999), perhitungan ukuran kesamaan (BRsim) kueri yang menggunakan operator Boolean OR sama dengan ukuran kesamaan (BRsim) kueri yang menggunakan operator Boolean AND. Oleh karena itu, pada Belief Revision (2) perhitungan jarak kueri yang menggunakan operator Boolean OR sama dengan perhitungan jarak kueri yang menggunakan operator Boolean AND, yaitu jarak terkecil antara dokumen dan model kueri. Pada kueri ‘(kelompok AND tani) OR gapoktan’, nilai jarak diperoleh dari kardinalitas symmetric different terkecil antara dokumen dan setiap model kueri. Apabila dokumen tidak mengandung ketiga kata dalam kueri tersebut nilai ukuran kesamaannya akan sama dengan nol dan dokumen tidak akan ditemukembalikan.
KESIMPULAN DAN SARAN Kesimpulan Hasil penelitian ini menunjukkan bahwa: 1 Telah diimplementasikan Extended Boolean Model (EBM) dan Belief Revision (BR) untuk pemeringkatan dokumen bahasa Indonesia. 2 Belief Revision memiliki kinerja yang sama dengan Extended Boolean Model. Nilai AVP yang dihasilkan yaitu 0.5148. Saran Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian selanjutnya, antara lain: 1 Mengembangkan sistem untuk kueri yang lebih kompleks. 2 Menggunakan dokumen uji yang lebih banyak dan beragam. 3 Menggunakan ekspansi kueri atau relevance feedback agar hasil temu kembali lebih optimal.
DAFTAR PUSTAKA Adisantoso J, Ridha A. 2004. Corpus dokumen teks bahasa Indonesia untuk pengujian efektivitas temu kembali informasi. Laporan Akhir Hibah Penelitian SP4, Departemen Ilmu Komputer FMIPA IPB, Bogor. Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. England: Addison Wesley. Lee WC, Fox EA. 1988. Experimental comparation of schemes for interpreting boolean queries [TR-88-27]. Blacksburg, VA: Computer Science, Virginia Polytechnic Institute and State University. Losada DE, Barreiro A. 1999. Using a Belief Revision Operator for Document Ranking in Extended Boolean Models. Di dalam: Proceedings of SIGIR-99 at the 22th ACM Conference on Research and Development in Information Retrieval; Berkeley, 15-19 Agu 1999. New York : ACM. Hlm 66-73. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Putra DDP. 2011. Temu kembali Model Extended Boolean menggunakan P-Norm Model dan Belief Revision [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Ridha A. 2002. Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Petanian Bogor. Salton G, Fox E, Wu H. 1983. Extended boolean information retrieval. Communications of the ACM 26(11):1022-1036.
LAMPIRAN
10
Lampiran 1 Antarmuka implementasi
11
Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian Kueri
Gugus Jawaban
Bencana kekeringan
gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar260803-003, indosiar310504, kompas210504, kompas250803, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-001, republika090804-01, republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704004, republika250604, republika270503, republika270704-002, situshijau181103-001, suarakarya000000-002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002.
Dukungan pemerintah pada pertanian
indosiar070504, jurnal000000-026, kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika251102-001, republika251102-002, republika300604001, situshijau150504-002, situshijau190303-002, situshijau200103-002, situshijau201003-001, situshijau281003-002, suarakarya000000-028, suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007.
Flu burung
gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.
Gabah kering giling
indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika060804-003, republika100704003, republika100804, republika120804-01, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104.
Gagal panen
gatra070203, gatra190802, gatra190902-02, gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar260803-001, indosiar260803-003, kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika030903-002, republika060804-001, republika080703, republika09080401, republika120804-04, republika130704-001, republika130804-02, republika200603, republika230704-005, republika260604-003, situshijau091203002, situshijau100603-003, situshijau110303-002, situshijau280404-002, suarakarya000000-002-02, suarakarya000000-011, suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002.
12
Lanjutan Kueri
Gugus Jawaban
Impor beras Indonesia
gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar300703-002, kompas 170402, kompas 170402, kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika020604-001, republika060804-001, republika090902, republika100703, republika100704-003, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika240604-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001, suaramerdeka270601, suarapembaruan100903, suarapembaruan110903
Industri gula
gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804, republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403
Institut pertanian bogor
gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas150304-001, kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002, republika010704-001, republika061003, republika070604-002, republika100604002, republika100704-002, republika110604-002, republika140704-002, republika160604-002, republika170604-001, republika180303, republika180604, republika190604-001, republika190604-002, republika211002, republika220604001, republika230704-08, situshijau070503, situshijau101103-004, situshijau281003-003, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903, suarapembaruan260703-001
Kelangkaan pupuk
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, republika050604, republika160604-001, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-032, suarakarya000000-038, suaramerdeka161101
Kelompok masyarakat tani
bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-002, kompas270502-002, kompas300502-001, replubika110804, republika030304, republika110604-004, republika131203-001, republika140703, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103
Laboratorium pertanian
balaipenelitian000000-010, gatra100203, indobic130504-002, indosiar010704, jurnal000000-027, kompas220801, kompas241203, kompas300502-002, mediaindonesia290903-002, republika050804-007, republika120704-005, republika230704-004, republika300604-002, situshijau040603, situshijau05110302, situshijau100603-001, situshijau140503-001-01, situshijau150403-002, situshijau180603-003, suarakarya000000-003, suaramerdeka031101
13
Lanjutan Kueri Musim panen
Pembangunan untuk sektor pertanian
Penerapan bioteknologi di indonesia
harga komoditas pertanian
Gugus Jawaban gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-002, indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas030502-001, kompas041103, kompas220901-001, kompas240103, kompas300502-001, mediaindonesia131203-001, mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika060804-001, republika060804003, republika100704-003, republika151202, republika171102, republika240604-005, republika290604-007, republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-004, situshijau250403-004, situshijau270503-002, situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002 gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika131203-001, republika150604-003, republika150903, republika190803, republika251002-003, republika290704003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303 jurnal000000-018, kompas121099, puslitbang000000-001, republika220604003, republika290704-002, situshijau000000-002, situshijau030603-001, situshijau040603, situshijau050703-001, situshijau070103-001, situshijau070103-002, situshijau070103-003, situshijau100603-002, situshijau100603-003, situshijau110303-002, situshijau130103-001, situshijau130503-001, situshijau130503-002, situshijau140103-002, situshijau140103-003, situshijau140503-001-01, situshijau140903-001, situshijau150403-001, situshijau150403-002, situshijau160103, situshijau180603-003, situshijau180803-003, situshijau200103-001, situshijau210103-003, situshijau210503-001, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau300403, situshijau310303, situshijau310303-No, suarakarya000000-001-02, suarakarya000000-014, suarapembaruan020603, suarapembaruan020603-No, suarapembaruan151102, wartapenelitian000000-009 indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304 ,jurnal000000-022,jurnal000000-027,kompas 170402,kompas030502001,kompas030502-002,kompas080702,kompas100399,kompas101004, kompas111099,kompas140802,kompas160304,kompas170104,kompas171002, kompas180502,kompas180504,kompas230603,kompas250901,kompas270203001,kompas270401,kompas270502-001,kompas280602,kompas311203, mediaindonesia060803,mediaindonesia310503,pikiranrakyat240404, pikiranrakyat300604,poskota000000-002,poskota000000-003,republika030804002,republika060503,republika060804-001,republika060804-003, republika061102,republika090902,republika140704-004,situshijau050703-002, situshijau070503,situshijau130203-002,situshijau240203-002,situshijau280203, situshijau280404-001,situshijau280404-002,situshijau280404-003, suarakarya000000-002-02,suarakarya000000-021,suaramerdeka170602-001, suaramerdeka290802,suaramerdeka311003,suarapembaruan100903, suarapembaruan220403,trubus000004,wartapenelitian000000-002
14
Lanjutan Kueri
Gugus Jawaban
Penerapan teknologi pertanian
indosiar250204-001, jurnal000000-001, jurnal000000-011, jurnal000000013, jurnal000000-017, jurnal000000-024, kompas121099, kompas251003, kompas290402, mediaindonesia170403, republika050903, republika131203-001, republika140604-001, republika180504-001, republika201102, republika220604-003, republika230704-08, republika260803, situshijau030603-001, situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau181103-002, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau281003-003, situshijau290503-003, suarakarya000000-034, suarapembaruan020603No, suarapembaruan060602, suarapembaruan160702, wartapenelitian000000-003, wartapenelitian000000-007, wartapenelitian000000-009
Penyakit hewan ternak
gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004, republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01
Penyuluhan pertanian
bitraindonesia000000-001, gatra190902-02, indosiar310504, jurnal000000-005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, mediaindonesia160603, poskota110703, republika030903-002, republika050804-001, republika061003, republika171003, republika180303, republika200203, republika210504-001, republika220604-003, republika260604-003, republika300604-003, situshijau201003-002, situshijau230103-001, situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002, wartapenelitian000000-007
Perdagangan hasil pertanian
gatra011102, indosiar070204, indosiar201103, jurnal000000-002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202, situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002, wartapenelitian000000-006
Sistem pertanian organik
indosiar250204-002, jurnal000000-017, kompas010499, kompas030502002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, republika150303, republika180303, situshijau070503, situshijau091203-001, situshijau091203-004, situshijau290503-003, suarakarya000000-001-02, suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702
Petani tebu
indosiar190504-002, indosiar290604, kompas031003, kompas250901, kompas310702, republika010704-003, republika020804, republika100902, republika140704-004, republika150604-002, republika200704-001, republika220604-002, republika280704-002, republika310704-001, situshijau280203, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403
15
Lanjutan Kueri
Gugus Jawaban
Peternak ayam
gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003, republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802
Produk usaha peternakan rakyat
jurnal000000-003, kompas120101, kompas150201, mediaindonesia010304, mediaindonesia090204, republika100604-002, republika150303, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102
Pupuk organik
balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004, situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202, suarapembaruan130103, suarapembaruan160702, suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008
Riset pertanian
balaipenelitian000000-012, gatra270104-002, indobic130504-001, jurnal000000-008, jurnal000000-015, jurnal000000-018, jurnal000000019, jurnal000000-026, kompas010499, kompas170104, kompas221003, kompas230603, mediaindonesia131003, puslitbang000000-001, republika030903-002, republika070604-002, republika100704-002, republika140104, republika170604-001, republika190604-001, republika190604-002, republika210704-001, republika210704-003, republika220604-003, republika241203, republika260803, republika280703, republika300604-003, situshijau040603, situshijau070503, situshijau080503-001, situshijau091203-003, situshijau101103-004, situshijau130103-001, situshijau130503-002, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau150403-002, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau200103-001-No, situshijau201003-002, situshijau210103-003, situshijau210503-001, situshijau250203, situshijau270303-004, situshijau290503-001, situshijau300403, situshijau310303, suarakarya000000-001-02, suarakarya000000-010, suarakarya000000-019, suarakarya000000-027, suarakarya000000-034, suarakarya000000-037, suaramerdeka270601, suarapembaruan000000002, suarapembaruan020603, suarapembaruan060602, suarapembaruan110702, suarapembaruan110702-01, suarapembaruan151102, suarapembaruan160702, suarapembaruan241003, suarapembaruan290802-001, wartapenelitian000000-007, wartapenelitian000000-009
16
Lanjutan Kueri
Gugus Jawaban
Swasembada pangan
indosiar021203-002, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas170104, kompas230603, kompas230899, kompas270203-001, kompas270401, kompas270502-002, mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika100704-005, republika220604-003, republika220604-003, republika230902-001, republika230902-002, republika231202-001, republika231202-002, suarakarya000000-001-02, suarakarya000000-002-02, suarakarya000000016, suarakarya000000-021, suaramerdeka170602-001, suarapembaruan110903, suarapembaruan221102
Tadah hujan
gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004
Tanaman obat
balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar010704, indosiar260803-002, republika020604-003, republika030804-002, republika270604, republika290604-001, situshijau030203-001, situshijau041203, situshijau060503, situshijau070103-004, situshijau070103-005, situshijau100603-002, situshijau101103-003, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-001, situshijau180203-002, situshijau201003-002, situshijau270303-001, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001
Tanaman pangan
bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104, mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004, republika150903, republika200603, republika220604-003, republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001, situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002
Upaya peningkatan pendapatan petani/peningkatan pendapatan petani
indosiar150104-001, jurnal000000-017, kompas030502-001, kompas031003, kompas100399, kompas170903, kompas200802, kompas210502, kompas260702, kompas270203-001, kompas300402, kompas300502-002, pembaruan110903, poskota110703, republika030804-002, republika030903-001, republika060804-001, republika060804-003, republika230404, republika231202-001, republika231202-002, republika240604-005, republika241203, republika281202, republika300704-002, situshijau140503-001, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau280203, suaramerdeka120104, suaramerdeka170602-001, suarapembaruan060602, suarapembaruan290802-001, wartapenelitian000000-005
17
Lampiran 3 Hasil perhitungan precision pada eleven standard recall
Precision Recall Belief Revision
Extended Boolean Model
0 0.1 0.2
0.7612 0.5899 0.5333
0.7612 0.5899 0.5333
0.3 0.4 0.5 0.6 0.7 0.8
0.4888 0.4772 0.4720 0.4701 0.4678 0.4678
0.4888 0.4772 0.4720 0.4701 0.4678 0.4678
0.9 1
0.4678 0.4666 0.5148
0.4678 0.4666 0.5148
Average Precision
18
Lampiran 4 Hasil perhitungan precision pada eleven standard recall berbagai kueri Belief Revision (1)
Kueri
Nilai precision pada eleven standard recall 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
bencana kekeringan dukungan pemerintah pada pertanian
0.7917
0.7917
0.7917
0.7917
0.7917
0.6897
0.6897
0.6897
0.6897
0.6897
0.6897
1.0000
0.7500
0.3478
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
flu burung
1.0000
1.0000
1.0000
1.0000
1.0000
0.9500
0.9500
0.9500
0.9500
0.9500
0.9130
gabah kering giling
1.0000
0.7143
0.7143
0.5455
0.5455
0.5417
0.5417
0.5417
0.5417
0.5417
0.5417
gagal panen/puso
0.8667
0.8667
0.8667
0.7895
0.6897
0.6897
0.6897
0.6897
0.6897
0.6897
0.6897
impor beras Indonesia
1.0000
0.4545
0.3462
0.3462
0.3462
0.3462
0.3462
0.3462
0.3462
0.3462
0.3462
industri gula
0.2800
0.2800
0.2800
0.2800
0.2759
0.2759
0.2759
0.2759
0.2759
0.2759
0.2759
institut pertanian bogor
1.0000
0.3571
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
kelangkaan pupuk Kelompok masyarakat tani/kelompok tani
1.0000
1.0000
0.8750
0.8750
0.8750
0.8750
0.8750
0.8261
0.8261
0.8261
0.8261
0.3636
0.3636
0.2593
0.2593
0.2593
0.2593
0.2593
0.2593
0.2593
0.2593
0.2593
laboratorium pertanian
0.3000
0.3000
0.3000
0.2692
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
musim panen pembangunan untuk sektor pertanian Penerapan bioteknologi di indonesia
1.0000
0.5000
0.5000
0.4333
0.4333
0.4333
0.4333
0.4333
0.4333
0.4333
0.4333
0.6667
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
1.0000
0.7143
0.6667
0.6500
0.5000
0.5000
0.5000
0.5000
0.5000
0.5000
0.5000
penerapan teknologi pertanian
1.0000
0.4444
0.3000
0.3000
0.3000
0.3000
0.3000
0.3000
0.3000
0.3000
0.3000
Penyakit hewan ternak
1.0000
1.0000
1.0000
0.6667
0.6364
0.6364
0.5909
0.5909
0.5909
0.5909
0.5909
penyuluhan pertanian
1.0000
0.7143
0.6667
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
perdagangan hasil pertanian
1.0000
0.3636
0.3200
0.3200
0.3200
0.3200
0.3200
0.3200
0.3200
0.3200
0.3200
sistem pertanian organic
0.6667
0.6667
0.6667
0.5333
0.4615
0.4615
0.4615
0.4615
0.4615
0.4615
0.4615
petani tebu
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
19
Lanjutan Peternak ayam Produk usaha peternakan rakyat pupuk organic riset pertanian swasembada pangan tadah hujan tanaman obat tanaman pangan Upaya peningkatan pendapatan petani harga komoditas pertanian
1.0000
1.0000
1.0000
1.0000
0.9091
0.9091
0.9091
0.9091
0.9091
0.9091
0.9091
0.2500
0.2500
0.1818
0.1818
0.1818
0.1818
0.1818
0.1818
0.1818
0.1818
0.1818
0.4000 0.3704 0.7826 0.5517 0.6667 0.2800
0.4000 0.3704 0.7826 0.5517 0.5000 0.2800
0.4000 0.3704 0.7826 0.5517 0.5000 0.2800
0.4000 0.3704 0.7826 0.5517 0.4348 0.2800
0.4000 0.3704 0.7826 0.5517 0.4231 0.2800
0.4000 0.3704 0.7826 0.5517 0.4231 0.2800
0.4000 0.3704 0.7692 0.5517 0.4231 0.2800
0.4000 0.3704 0.7500 0.5517 0.4231 0.2800
0.4000 0.3704 0.7500 0.5517 0.4231 0.2800
0.4000 0.3704 0.7500 0.5517 0.4231 0.2800
0.4000 0.3704 0.7500 0.5517 0.4231 0.2800
0.2222
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.3636
0.3478
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
20
Lampiran 5 Hasil perhitungan precision pada eleven standard recall berbagai kueri Belief Revision (2)
Kueri
precision pada elevent standard recall 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
bencana kekeringan dukungan pemerintah pada pertanian
0.7917
0.7917
0.7917
0.7917
0.7917
0.6897
0.6897
0.6897
0.6897
0.6897
0.6897
1.0000
0.7500
0.3478
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
flu burung
1.0000
1.0000
1.0000
1.0000
1.0000
0.9500
0.9500
0.9500
0.9500
0.9500
0.9130
gabah kering giling
1.0000
0.7143
0.7143
0.5455
0.5455
0.5417
0.5417
0.5417
0.5417
0.5417
0.5417
gagal panen
1.0000
0.8889
0.8667
0.7895
0.6552
0.6552
0.6552
0.6552
0.6552
0.6552
0.6552
impor beras Indonesia
1.0000
0.4545
0.3462
0.3462
0.3462
0.3462
0.3462
0.3462
0.3462
0.3462
0.3462
industri gula
0.2800
0.2800
0.2800
0.2800
0.2759
0.2759
0.2759
0.2759
0.2759
0.2759
0.2759
institut pertanian bogor
1.0000
0.3571
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
kelangkaan pupuk
1.0000
1.0000
0.8750
0.8750
0.8750
0.8750
0.8750
0.8261
0.8261
0.8261
0.8261
kelompok masyarakat tani
1.0000
0.5714
0.3684
0.3333
0.3333
0.3333
0.3333
0.3333
0.3333
0.3333
0.3333
laboratorium pertanian
0.3000
0.3000
0.3000
0.2692
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
0.2667
musim panen pembangunan untuk sektor pertanian penerapan bioteknologi di indonesia penerapan teknologi pertanian
1.0000
0.5000
0.5000
0.4333
0.4333
0.4333
0.4333
0.4333
0.4333
0.4333
0.4333
0.6667
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
0.1481
1.0000
1.0000
0.9091
0.6500
0.6500
0.6500
0.6500
0.6500
0.6500
0.6500
0.6500
1.0000
0.4444
0.3000
0.3000
0.3000
0.3000
0.3000
0.3000
0.3000
0.3000
0.3000
penyakit hewan ternak
1.0000
1.0000
1.0000
0.6667
0.6364
0.6364
0.5909
0.5909
0.5909
0.5909
0.5909
penyuluhan pertanian
1.0000
0.7143
0.6667
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
perdagangan hasil pertanian
1.0000
0.3636
0.3200
0.3200
0.3200
0.3200
0.3200
0.3200
0.3200
0.3200
0.3200
sistem pertanian organic
0.6667
0.6667
0.6667
0.5333
0.4615
0.4615
0.4615
0.4615
0.4615
0.4615
0.4615
petani tebu
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
0.6154
21
Lanjutan peternak ayam produk usaha peternakan rakyat
1.0000
1.0000
1.0000
1.0000
0.9091
0.9091
0.9091
0.9091
0.9091
0.9091
0.9091
0.2500
0.2500
0.1818
0.1818
0.1818
0.1818
0.1818
0.1818
0.1818
0.1818
0.1818
pupuk organic
0.4000
0.4000
0.4000
0.4000
0.4000
0.4000
0.4000
0.4000
0.4000
0.4000
0.4000
riset pertanian
1.0000
0.8889
0.5600
0.5357
0.5357
0.5357
0.5357
0.5357
0.5357
0.5357
0.5357
swasembada pangan
0.7826
0.7826
0.7826
0.7826
0.7826
0.7826
0.7692
0.7500
0.7500
0.7500
0.7500
tadah hujan
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
0.5517
tanaman obat
0.6667
0.5000
0.5000
0.4348
0.4231
0.4231
0.4231
0.4231
0.4231
0.4231
0.4231
tanaman pangan upaya peningkatan pendapatan petani
0.2800
0.2800
0.2800
0.2800
0.2800
0.2800
0.2800
0.2800
0.2800
0.2800
0.2800
0.2222
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
0.1379
harga komoditas pertanian
0.3636
0.3478
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
0.3214
Penguji: 1. 2.
Ahmad Ridha, S.Kom, M.S Sony H. Wijaya, S.Kom, M.Kom