1
EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN
MOHAMAD REZA PANCAWAN
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
2
EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI DENGAN TESAURUS DAN BOBOT IRISAN
MOHAMAD REZA PANCAWAN
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
3
ABSTRACT MOHAMAD REZA PANCAWAN. Query Expansion on Information Retrieval System Using Thesaurus and Intersection Weight. Supervised by AHMAD RIDHA. Query expansion is a technique to change the intial query from user in order to improve and optimize result of a retrieval system by getting more relevant documents. Thesaurus is a collection of synonyms and antonyms that can be utilized to get additional terms in query expansion. We propose a method to choose additional terms for query expansion based on insersection betweeen results from original query and results from expanded query. We experiment with synonyms and antonyms using 2095 documents and 20 queries that we made for this research. To make these queries, we use words that are generally different from the words that are contained in the document collection. The result of this research shows that the use of query expansion can improve the performance of the retrieval system in getting more relevant documents. It also shows that the use of two synonym terms result in the best query expansion, retrieving 98.1% relevant documents with an average precision of 0.252, while the use of an antonym is only able to retrieve 86.9% relevant documents with an average precision of 0.173. Keywords: antonym, intersection weight, synonym, thesaurus, query expansion.
ii
Judul Skripsi : Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan Bobot Irisan Nama : Mohamad Reza Pancawan NIM : G64096043
Disetujui Pembimbing
Ahmad Ridha SKom MS NIP 19800507 200501 1 001
Diketahui Ketua Departemen Ilmu Komputer
Dr Ir Agus Buono MSi MKom NIP 19660702 199302 1 001
Tanggal Lulus:
iii
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 11 November 1988 dari bapak bernama Achmad Sjamsu Anwar Asir, dan Ibu Lisma Angrianie. Penulis merupakan anak kelima dari lima bersaudara. Pada tahun 2003, penulis melanjutkan pendidikan di SMA Negeri 106 Jakarta dan lulus pada tahun 2006. Pada tahun 2006, penulis melanjutkan pendidikan di Politeknik Negeri Jakarta dan lulus pada tahun 2009, dan kemudian melanjutkan pendidikan di Program Sarjana Alih Jenis Ilmu Komputer Insititut Pertanian Bogor, Fakultas Matematika dan Ilmu Pengetahuan Alam di tahun yang sama.
iv
PRAKATA Alhamdulillahirobbil’alamin, puji syukur penulis panjatkan ke hadirat Allah Subhanahuwata'ala atas segala rahmat, petunjuk, nikmat, dan karunia-Nya, sehingga penulis dapat menyelesaikan penelitian dengan judul Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan Bobot Irisan. Penulis menyadari bahwa penelitian ini tidak akan selesai tanpa bantuan beberapa pihak. Pada kesempatan ini, penulis ingin mengucapkan rasa terima kasih yang sebesar-besarnya kepada: Kedua orang tua tercinta Bapak Achmad Sjamsu Anwar Asir dan Ibu Lisma Angrianie, serta kakak-kakak tersayang Budi Mahendra Sukarno, Dwi Gita Setiowati, Tri Lestari Indriyani, dan Dyah Senjani Retnosari. Terima kasih atas segala bantuan doa, motivasi, dan dukungan moril yang selalu diberikan untuk penulis. Bapak Ahmad Ridha SKom MS selaku pembimbing. Terima kasih atas bantuan, kesabaran, bimbingan, dukungan, serta waktu dalam proses penyelesaian penelitian ini. Bapak Sony Hartono Wijaya SKom MKom dan Bapak Ir Julio Adisantoso MKom selaku penguji. Terima kasih atas segala saran dan kritik membangun yang diberikan untuk penulis. Rakhma Laila Bing. Terima kasih atas segala bantuan doa dan motivasi yang selalu diberikan untuk penulis. Sahabat-sahabatku satu bimbingan Adi Darliansyah dan Syahrul Fathi. Terima kasih atas kebersamaan dan semangat selama penyelesaian penelitian ini. Sahabat-sahabatku Selamet Subu, Rendy, Sudharmono, Renhard, Sony Muhammad, Ahmad Aunullah dan seluruh sahabatku yang lain di alih jenis Ilkom angkatan 4. Terima kasih atas motivasi dan kebersamaan selama ini. Sahabat-sahabatku di Kost Tm. Malabar 12 Cebong, Bang Oki, Anjas, Adi, Rizka. Terima kasih atas kebersamaan dan keceriaanya selama ini. Auzi Asfarian. Terima kasih atas bantuan yang sudah diberikan untuk penulis. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan dan penyelesaian penelitian ini, yang tidak dapat penulis sebutkan satu per satu. Semoga Allah Subhanahuwata'ala membalas semua kebaikan kalian, amin. Akhir kata penulis berharap semoga penelitian ini dapat bermanfaat.
Bogor, Maret 2012
Mohamad Reza Pancawan
v
DAFTAR ISI Halaman DAFTAR TABEL........................................................................................................................
vi
DAFTAR GAMBAR ...................................................................................................................
vi
DAFTAR LAMPIRAN ................................................................................................................
vi
PENDAHULUAN ....................................................................................................................... Latar Belakang......................................................................................................................... Tujuan ..................................................................................................................................... Ruang Lingkup ........................................................................................................................
1 1 1 1
METODE PENELITIAN ............................................................................................................. Perolehan Dokumen Pengujian ................................................................................................. Praproses Dokumen ................................................................................................................. Pengambilan Istilah Ekspansi ................................................................................................... Pemilihan Istilah Ekspansi........................................................................................................ Evaluasi Temu Kembali ........................................................................................................... Lingkungan Pengembangan......................................................................................................
1 2 2 2 2 3 4
HASIL DAN PEMBAHASAN..................................................................................................... 4 Koleksi Dokumen Pengujian .................................................................................................... 4 Praproses Dokumen ................................................................................................................. 4 Ekspansi Kueri......................................................................................................................... 5 Pengambilan Istilah Ekspansi ............................................................................................... 5 Pemilihan Istilah Ekspansi .................................................................................................... 5 Evaluasi Temu Kembali ........................................................................................................... 5 Evaluasi Tanpa Ekspansi Kueri............................................................................................. 6 Evaluasi Ekspansi Kueri dengan Sinonim ............................................................................. 6 Evaluasi Ekspansi Kueri dengan Antonim............................................................................. 7 Evaluasi Perbandingan Ekspansi Kueri dengan Sinonim dan Antonim ................................... 8 Analisis Perbandingan Sistem .................................................................................................. 8 Analisis Perbandingan Sistem Tanpa Ekspansi Kueri ............................................................ 8 Analisis Perbandingan Sistem dengan Ekspansi Kueri........................................................... 9 Kelemahan Sistem ................................................................................................................... 10 KESIMPULAN DAN SARAN..................................................................................................... 10 Kesimpulan.............................................................................................................................. 10 Saran ....................................................................................................................................... 11 DAFTAR PUSTAKA .................................................................................................................. 11 LAMPIRAN ................................................................................................................................ 12
v
vi
DAFTAR TABEL Halaman 1 2 3 4 5 6 7 8 9 10
Contoh perhitungan bobot irisan ............................................................................................. 3 Perhitungan recall dan precision............................................................................................. 3 Deskripsi koleksi dokumen ..................................................................................................... 4 Nilai recall dan AVP QE0 ...................................................................................................... 6 Nilai recall dan AVP QES1, QES2, dan QES3........................................................................ 6 Nilai recall dan AVP QE0 dan QEA ....................................................................................... 7 Nilai recall dan AVP QES2, dan QEA .................................................................................... 8 Perbandingan recall dan AVP sistem temu kembali tanpa ekspansi ......................................... 8 Perbandingan recall dan AVP sistem dengan ekspansi kueri ................................................... 9 Waktu komputasi sistem temu kembali .................................................................................. 10
DAFTAR GAMBAR Halaman 1 2 3 4 5 6 7 8 9 10 11
Gambaran umum proses temu kembali dengan ekspansi kueri. ................................................ Dua buah hasil temu kembali yang beririsan. .......................................................................... Hasil pembentukan kueri baru................................................................................................. Contoh hasil perhitungan bobot irisan .................................................................................... Kurva recall dan precision QE0.............................................................................................. Kurva recall dan precision QES1, QES2, dan QES3 dengan BM25 ......................................... Kurva recall dan precision QES1, QES2, dan QES3 dengan Proximity BM25 ........................ Kurva recall dan precision QEA. ............................................................................................ Kurva recall dan precision QEA dan QES2. ........................................................................... Kurva recall dan precision tanpa ekspansi cosine atau IDF dan bobot irisan ............................ Kurva recall dan precision dengan ekspansi cosine atau IDF dan bobot irisan .........................
2 3 5 6 6 7 7 8 8 9 9
DAFTAR LAMPIRAN Halaman 1 Contoh dokumen pengujian .................................................................................................... 13 2 Pasangan kueri uji dan dokumen relevan ................................................................................. 14 3 Deskripsi kueri uji .................................................................................................................. 20
vi
1
PENDAHULUAN Latar Belakang Sistem temu kembali informasi bertujuan membantu pengguna mendapatkan informasi yang sesuai dengan kebutuhannya dengan mudah. Untuk mendapatkan informasi tersebut sistem temu kembali membutuhkan masukan yang disebut dengan kueri. Masalah yang sering muncul ialah ketika kueri yang dibuat oleh pengguna masih bersifat terlalu umum atau ketika kata-kata yang digunakan pada kueri tidak sama dengan kata yang umumnya terdapat dalam koleksi dokumen. Masalah-masalah tersebut seringkali akan mempengaruhi kinerja sistem untuk menemukan dokumen relevan. Salah satu cara untuk mengatasi masalahmasalah tersebut ialah dengan ekspansi kueri. Menurut (Imran & Sharan 2009) ekspansi kueri adalah proses penambahan kata atau frasa ke dalam kueri asli untuk meningkatkan kemampuan sistem dalam menemukan dokumen relevan. Menurut Aly (2008) terdapat tiga jenis ekspansi kueri, yaitu Manual Query Expansion (MQE), Interactive Query Expansion (IQE), dan Automatic Query Expansion (AQE). MQE dan IQE memerlukan keterlibatan pengguna untuk menghasilkan kueri baru, sedangkan AQE adalah proses ekspansi kueri tanpa melibatkan pengguna. Sitohang (2010) dan Samana (2011) telah melakukan penelitian tentang ekspansi kueri dengan melakukan penerjemahan kata dari bahasa asing menggunakan kamus dwibahasa. Dari penelitian Samana (2011), diketahui bahwa penggunaan peluang bersyarat untuk memilih istilah ekspansi relatif lebih baik dari penggunaan nilai IDF Sitohang (2010). Akan tetapi, penggunaan kamus dwibahasa untuk mendapatkan istilah ekspansi dirasakan masih kurang optimal karena istilah terjemahan yang dihasilkan kurang baik. Metode ekspansi kueri lain yang diharapkan bisa lebih meningkatkan kinerja sistem temu kembali adalah dengan tesaurus. Berbeda dengan kamus atau kamus dwibahasa yang berisikan makna dari suatu kata, tesaurus adalah kumpulan kata-kata yang memiliki keterkaitan makna satu dengan lainnya seperti sinonim dan antonim. Rahayuni (2011) telah melakukan penelitian tentang ekspansi kueri dengan tesaurus dan menggunakan dua metode pemilihan istilah ekspansi. Rahayuni (2011) menggunakan nilai cosine similarity terbesar sebagai metode pemilihan istilah ekspansi yang pertama dan IDF terendah sebagai metode pemilihan istilah yang kedua.
Nilai IDF terendah hanya digunakan ketika kata pada kueri tidak ada dalam koleksi dokumen, namun tetap memiliki makna dalam tesaurus. Dari penelitian Rahayuni (2011), diperoleh kesimpulan bahwa kinerja sistem yang menerapkan ekspansi kueri menggunakan tesaurus lebih baik dari penggunaan kamus dwibahasa Samana (2011) dan pseudo relevance feedback segmentasi dokumen Anbiana (2009). Akan tetapi, pada penelitian Rahayuni (2011) belum dapat diketahui apakah istilah sinonim atau antonim yang lebih baik digunakan untuk ekspansi kueri. Mengacu pada penelitian-penelitian sebelumnya, penelitian ini menerapkan dan mengevaluasi penerapan automatic query expansion dengan istilah sinonim dan antonim yang diperoleh dari tesaurus. Penelitian ini juga mengembangkan metode bobot irisan sebagai metode pemilihan istilah ekspansi. Bobot irisan adalah metode pemilihan istilah yang memperhatikan jumlah dan peringkat dokumen yang merupakan komplemen dari dokumen dalam irisan. Dokumen dalam irisan ini merupakan dokumen-dokumen yang dihasilkan dari proses temu kembali dengan kueri awal dan temu kembali dengan kueri awal yang sudah ditambahkan istilah sinonim atau antonim. Tujuan Tujuan penelitian ini ialah: Menerapkan dan mengevaluasi penerapan ekspansi kueri pada sistem temu kembali yang menggunakan istilah sinonim dan antonim. Membandingkan hasil penggunaan metode pemilihan istilah ekspansi Rahayuni (2011) dengan metode bobot irisan. Membandingkan hasil pemeringkatan BM25 dengan Proximity BM25 yang terdapat pada framework Sphinx. Ruang Lingkup Ruang lingkup dari penelitian ini ialah: Sinonim dan antonim hanya berasal dari tesaurus berbahasa Indonesia. Menggunakan dokumen dan kueri berbahasa Indonesia.
METODE PENELITIAN Penelitian ini dilakukan dalam lima tahap, yaitu perolehan dokumen pengujian, praproses dokumen, pengambilan istilah ekspansi, pemilihan istilah ekspansi, dan evaluasi temu kembali. Gambaran umum proses temu kembali dengan ekspansi kueri dapat dilihat pada Gambar 1.
2
Perolehan Dokumen Pengujian
Pengambilan Istilah Ekspansi
Penelitian ini menggunakan 2095 dokumen pertanian. Dua ribu dokumen diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 95 dokumen tambahan yang dikumpulkan dari beberapa sumber di internet. Contoh dokumen pengujian dapat dilihat pada Lampiran 1.
Pengambilan isitilah ekspansi bertujuan mendapatkan istilah sinonim dan antonim dari setiap kata pada kueri. Istilah sinonim dan antonim ini diperoleh dari tesaurus berbahasa Indonesia.
Praproses Dokumen Tahap awal dari praproses dokumen ialah tokenisasi. Tokenisasi adalah proses untuk mendapatkan seluruh karakter dari seluruh koleksi dokumen yang sudah dibersihkan dari tanda baca pemisah, seperti titik, koma, dan whitespace. Proses tokenisasi diikuti dengan proses pembuangan kata yang tidak layak untuk dijadikan penciri atau stopwords. Kemudian, tahapan terakhir adalah proses pembobotan untuk menentukan tingkat kepentingan seluruh kata unik hasil tokenisasi. Dokumen Kueri Awal Ekspansi Kueri
Pengambilan Istilah Ekspansi
Praproses Dokumen
Pemilihan Istilah Ekspansi Pemilihan istilah ekspansi bertujuan memilih istilah sinonim atau antonim yang akan digunakan untuk ekspansi kueri. Pemilihan istilah dilakukan menggunakan metode bobot irisan yang terdiri atas dua tahap. Tahap awal pada metode bobot irisan ialah membandingkan similiarity antara kueri awal dan kueri awal yang sudah ditambah istilah sinonim atau antonim, berdasarkan hasil temu kembalinya. Jika qa adalah kueri awal dan qb adalah kueri awal yang sudah ditambah istilah, sim(qa, qb) dapat dihitung dengan menjumlahkan nilai similarity dokumen-dokumen hasil temu kembali qb yang merupakan komplemen dari hasil temu kembali (qa ∩ qb), dan dibagi dengan total nilai similarity semua dokumen hasil temu kembali qb. Mengacu dari persamaan di atas, perhitungan awal bobot irisan dapat dirumuskan sebagai berikut: sim(qa,qb) =
di ∈ Tb ∁ (Ta ∩ Tb) sim di, qb dj ∈ Tb sim dj, qb
.(1)
dengan: Pemilihan Istilah Ekspansi
Inverted Index
Ta Tb (Ta ∩ Tb) Tb ∁ (Ta∩Tb)
Kueri Baru
Temu Kembali Dokumen
Hasil Temu Kembali
Evaluasi Temu Kembali
Gambar 1 Gambaran umum proses temu kembali dengan ekspansi kueri.
sim(di, qb) sim(di, qb)
:.adalah hasil temu kembali qa :.adalah hasil temu kembali qb :.dokumen irisan hasil temu :.kembali qa dan qb :.dokumen Tb yang merupakan :.komplemen dari irisan Ta dan :.Tb :.nilai similarity dokumen ke-i :.pada Tb yang merupakan :.anggota irisan Ta dan Tb :.similarity dokumen ke-j dari Tb
Persamaan (1) akan menghasilkan nilai sim(qa, qb) dengan rentang nilai sama dengan nol dan kurang dari satu. Nilai sim(qa, qb) tidak mungkin bernilai satu karena penelitian ini menggunakan operator OR untuk setiap kata pada kueri. Penggunaan operator OR membuat hasil temu kembali kueri awal yang sudah ditambahkan suatu istilah pasti juga memiliki dokumen-dokumen hasil temu kembali dari kueri awal sebelum ditambahkan istilah. Sementara itu, nilai sim(qa, qb) sama dengan nol menandakan bahwa kueri yang sudah ditambahkan dengan suatu istilah menghasilkan dokumen yang benar-benar sama dengan hasil
3
temu kembali kueri awal. Oleh karena itu, istilah yang dipilih untuk ekspansi kueri adalah istilah yang memiliki nilai similarity terendah atau istilah dengan nilai dissimilarity terbesar. Proses untuk mencari istilah dengan nilai dissimilarity terbesar ini merupakan tahap akhir metode bobot irisan yang dapat dihitung dengan persamaan (2). dissim (qa, qb) = 1 - sim(qa, qb)............(2) dengan: sim(qa, qb): adalah nilai similarity qa dan qb Tingginya nilai dissimilarity menunjukkan bahwa penggunaan istilah tambahan dapat memberikan banyak perbedaan pada hasil temu kembali awal. Perbedaan-perbedaan tersebut diharapkan dapat meningkatkan peluang terambilnya dokumen relevan. Tabel 1 menunjukkan hasil perhitungan bobot irisan dengan persamaan (1) dan (2) untuk Gambar 2. Tabel 1 Contoh perhitungan bobot irisan Ta da db de
Tb (similarity) dg (1) da (0.9) db (0.8) de (0.7) dr (0.6)
Ta ∩ Tb
dissim(qa,qb)
da db de
0.6
BM25=0 foreach(inmatching_keywords){ n=total_matching_docs(keyword) N=total_documents_collection
da
dg
db de
dr
k1=1.2 TF=occurrence_count(keyword) IDF=log((N-n+1)/n)/log(1+N) BM25= BM25 + TF*IDF/(TF+k1) } Normalization: BM25=0.5+BM25 /(2*num_keywords(query))
Pseudo-code pemeringkatan BM25 adalah: 1 2 3 4 5
SPH_BM25 Ranker: field_weights = 0 foreach(field inmatching_fields) field_weights +=user_weight (field) weight=field_weights*1000 +integer(BM25*999)
Berbeda dengan metode pemeringkatan BM25, metode pemeringkatan Proximity BM25 adalah metode pemeringkatan yang menggabungkan faktor Proximity dan faktor BM25. Proximity hanya memperhatikan urutan kata yang terdapat pada kueri dan dokumen sehingga semakin mirip urutan kata-kata yang dalam kueri dengan urutan kata-kata yang ada dalam dokumen maka nilai Proximity-nya menjadi lebih besar. Adapun pseudo-code metode pemeringkatan Proximity BM25 adalah: 1 2 2 3 4
Metode bobot irisan memerlukan nilai similarity antara dokumen dan kueri. Nilai similarity dokumen dan kueri ini diperoleh dari hasil pemeringkatan BM25 dan Proximity BM25 yang terdapat pada framework Sphinx, yang sama-sama menggunakanfaktor BM25 dalam proses perhitungannya. Adapun pseudocode untuk memperoleh faktor BM25 adalah: 1 2 3 4
5 6 9 10 11 12 13
5 6 7
Proximity Value: doc_phrase_weight = 0 foreach (field in matching_fields) { field_phrase_weight = max_common_subsequence_length (query, field) doc_phrase_weight += user_weight (field) * field_phrase_weight } SPH_RANK_PROXIMITY_BM25: weight = doc_phrase_weight*1000 + integer(doc_bm25*999)
Evaluasi Temu Kembali Metode evaluasi yang digunakan ialah recall dan precision. Recall merupakan rasio dari jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen. Precision adalah rasio dari jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen yang ditemukembalikan. Perhitungan recall dan precision dapat diilustrasikan pada Tabel 2. Tabel 2 Perhitungan recall dan precision Retrieved Non Retrieved
Gambar 2 Dua buah hasil temu kembali yang beririsan.
dengan:
Relevant tp fn
Non Relevant fp tn
4
R=
|tp|
...............................................(3) tp + |fn| |tp| P= ...............................................(4) tp + |fp| Evaluasi dilakukan dengan 20 pasang kueri dan dokumen relevan yang dibuat khusus untuk penelitian ini. Daftar pasangan kueri uji dan dokumen relevan dapat dilihat pada Lampiran 2, sedangkan Lampiran 3 berisikan deskripsi dari kueri uji. Nilai recall dan precision yang diperoleh dari seluruh kueri uji kemudian diinterpolasi maksimum dengan 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0,4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Hasil interpolasi maksimum kemudian dirata-ratakan untuk mendapatkan nilai average precision sistem. Adapun 5 jenis evaluasi yang dilakukan pada penelitian ini adalah: QE0, yaitu evaluasi temu kembali tanpa menggunakan ekspansi kueri. QES1, yaitu evaluasi temu kembali dengan menambahkan satu istilah sinonim dengan nilai bobot irisan terendah. QES2, yaitu evaluasi temu kembali dengan menambahkan dua istilah sinonim dengan nilai bobot irisan terendah. QES3, yaitu evaluasi temu kembali dengan menambahkan tiga istilah sinonim dengan nilai bobot irisan terendah. QEA, yaitu evaluasi temu kembali dengan menambahkan satu istilah antonim dengan nilai bobot irisan terendah. Selain melakukan evaluasi terhadap hasil temu kembali dengan ekspansi kueri, pada penelitian ini juga dilakukan analisis perbandingan metode pemilihan istilah ekspansi kueri Rahayuni (2011) yang menggunakan cosine similarity atau IDF dengan metode bobot irisan. Lingkungan Pengembangan Perangkat lunak yang digunakan dalam penelitian ialah:
Windows 7 Ultimate sebagai sistem operasi. XAMPP-win32-1.7.2 sebagai web server. Notepad ++ 5.7 sebagai text editor. Sphinx search 2.0.1 sebagai framework search engine. Microsoft Excel 2007, sebagai aplikasi untuk evaluasi sistem. Perangkat keras yang digunakan dalam penelitian ialah: AMD Turion-X2 2.2 GHz.
RAM 3 GB. Harddisk dengan kapasitas 250 GB.
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Koleksi dokumen yang digunakan dalam penelitian ini sebanyak 2095 dokumen pertanian. Dua ribu dokumen diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 95 dokumen lainnya dikumpulkan dari berbagai sumber di internet. Tabel 3 merupakan deskripsi koleksi dokumen uji. Tabel 3 Deskripsi koleksi dokumen Keterangan Ukuran seluruh dokumen Ukuran rata-rata dokumen Ukuran dokumen terbesar Ukuran dokumen terkecil
Ukuran (byte) 6 894 430 3 290.89 138 539 412
Koleksi dokumen yang digunakan berformat teks (.txt) dengan struktur tag XML pada setiap dokumennya. Tag XML yang terdapat dalam koleksi dokumen pengujian ialah:
, mewakili keseluruhan dokumen. Di dalamnya juga terdapat beberapa tag lain yang mendeskripsikan isi dokumen secara lebih jelas.
, mewakili ID dokumen. ID yang dipakai merupakan kombinasi dari sumber berita, tanggal, dan urutan berita dari tanggal yang sama. <TITLE> , mewakili judul dokumen.
, mewakili penulis dokumen.
, mewakili tanggal penulisan atau tanggal terbit dokumen.
, mewakili isi dokumen. Praproses Dokumen Praproses dokumen melibatkan beberapa proses yaitu tokenisasi, pembuangan stopwords, dan pembobotan. Praproses dokumen dilakukan secara otomatis menggunakan fungsi indexing Sphinx. Proses tokenisasi bertujuan mendapatkan token atau kata unik dari seluruh koleksi dokumen yang sudah dipisahkan dari karakter pemisah, seperti titik, koma, dan whitespace. Praproses dokumen hanya dilakukan pada bagian dokumen yang diapit oleh tag
,<TITLE> , dan
.
5
Proses tokenisasi diikuti dengan proses pembuangan stopwords. Pembuangan stopwords adalah proses untuk membuang token atau kata yang dianggap kurang memiliki arti dan tidak tepat untuk dijadikan penciri suatu dokumen, seperti kata sambung, kata depan, atau kata singkatan. Proses pembuangan stopwords dilakukan dengan cara mencocokan token hasil tokenisasi dengan kata-kata yang ada dalam stoplist. Apabila token tersebut ada dalam stoplist, token akan dihapus. Hasil proses tokenisasi dan pembuangan stopwords adalah sejumlah token dan frekuensi kemunculannya (tf) pada tiap-tiap dokumen serta jumlah dokumen yang mengandung token tersebut (df). Nilai (df) kemudian digunakan untuk menghasilkan nilai (idf). Nilai (tf) maupun (idf) dari masing-masing token digunakan sebagai komponen pembobot pada pembobotan BM25. Ekspansi Kueri Proses ekspansi kueri yang diterapkan pada penelitian ini terdiri atas dua tahap, yaitu pengambilan istilah ekspansi dan pemilihan istilah ekspansi. Pengambilan Istilah Ekspansi Pengambilan istilah ekspansi bertujuan untuk mendapatkan istilah sinonim atau antonim dari tesaurus. Terdapat dua kondisi pengambilan istilah ekspansi yaitu pengambilan istilah sinonim dan pengambilan istilah antonim. Pengambilan istilah sinonim dilakukan dengan mengikuti Algoritme 1. Algoritme 1. 1 2 3 4 5
for each (term_in_query){ get synonym(term)from_thesaurus if(!synonym(term)in_stoplist)) synonym_list=synonym(term) }
Algoritme 1 menerangkan bahwa istilah sinonim diperoleh dari setiap kata pada kueri awal. Istilah sinonim yang digunakan adalah istilah yang tidak ada dalam stoplist. Istilah sinonim yang terpilih kemudian diapit dengan tanda kutip agar istilah sinonim yang terdiri dari dua kata dianggap menjadi satu kata. Sementara itu, proses pengambilan istilah antonim dilakukan dengan mengikuti Algoritme 2. Algoritme 2. 1 2 3 4 5 6
for each (term_in_query){ get synonym(term)from_thesaurus get antonym(synonym(term)) from_thesaurus if(!antonim(term)in_stoplist)) antonym_list = tidak .antonym(term) }
Algoritme 2 menerangkan bahwa istilah antonim diperoleh dari semua istilah sinonim yang diperoleh dari setiap kata pada kueri awal. Istilah antonim yang digunakan adalah istilah yang tidak terdapat dalam stoplist. Istilah antonim yang terpilih kemudian dimodifikasi dengan menambahkan kata “tidak” sebelum setiap antonim. Kemudian, istilah antonim yang sudah ditambahkan kata “tidak” ini diapit dengan tanda kutip agar istilah tersebut dianggap menjadi satu kata. Penambahan kata “tidak” sebelum istilah antonim ini bertujuan agar istilah antonim memiliki makna yang sama dengan kata yang ada pada kueri awal sehingga tidak mengubah konteks pencarian. Pemilihan Istilah Ekspansi Istilah-istilah yang sudah diperoleh pada tahap pengambilan istilah ekspansi digunakan untuk membentuk beberapa kueri baru. Kueri baru dibentuk dengan cara menambahkan istilah sinonim atau antonim ke dalam kueri awal. Kemudian, dilakukan proses temu kembali dengan semua kueri baru tersebut untuk memperoleh dokumen-dokumen yang digunakan dalam proses perhitungan bobot irisan dengan persamaan (1) dan (2). Gambar 3 adalah contoh hasil pembentukan kueri baru dan Gambar 4 adalah contoh hasil perhitungan bobot irisan. Istilah yang dipilih adalah istilah yang memiliki nilai dissimilarity terbesar yang berada dalam rentang nilai sama dengan nol dan kurang dari satu. Nilai dissimilarity yang rendah menandakan bahwa istilah tersebut tidak dapat memberikan banyak perbedaan pada hasil temu kembali awal. Sementara itu, nilai dissimilarity yang tinggi menandakan bahwa istilah tersebut mampu menghasilkan beberapa dokumen baru yang sebelumnya tidak ditemukan. Evaluasi Temu Kembali Evaluasi temu kembali bertujuan mengetahui kinerja sistem temu kembali sebelum dan setelah menerapkan ekspansi kueri. Evaluasi juga bertujuan membandingkan hasil temu kembali yang menggunakan metode Kueri awal: sawah rusak berat Kueri baru dengan sinonim: (sawah|rusak|berat|”lahan”) (sawah|rusak|berat|”sulit”) (sawah|rusak|berat|”hancur”) Kueri baru dengan antonim: (sawah|rusak|berat|”tidak mudah”)
Gambar 3 Hasil pembentukan kueri baru.
6
Array ( [0] => Array( [bobot] => 0.87401129 [istilah] => lahan ) [1] => Array( [bobot] => 0.96099290 [istilah] => sulit ) [2] => Array( [bobot] => 0.97240143 [istilah] => hancur ) [3] => Array( [bobot] => 1 [istilah] => ladang ) )
Gambar 4 Contoh hasil perhitungan bobot irisan. pemeringkatan BM25 dan Proximity BM25. Evaluasi Tanpa Ekspansi Kueri Evaluasi tanpa ekspansi kueri (QE0) dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 20 kueri uji. Hasil evaluasi QE0 ditunjukkan pada Tabel 4. Tabel 4 Nilai recall dan AVP QE0 Metode QE0 (BM25) QE0 (Proximity BM25)
Recall 0.89 0.89
AVP 0.168 0.175
Dari Tabel 4, dapat diketahui bahwa sistem temu kembali tanpa ekspansi yang digunakan pada penelitian ini mampu menghasilkan nilai recall sebesar 0.89. Hal ini menunjukkan bahwa sistem mampu mengembalikan 89% dokumen relevan dari seluruh dokumen relevan yang ada dalam koleksi. Dari Tabel 4, juga dapat diketahui bahwa nilai AVP yang dihasilkan oleh pemeringkatan Proximity BM25 lebih tinggi 4.41% dari AVP yang dihasilkan oleh pemeringkatan BM25. Proximity BM25 akan menghasilkan bobot atau nilai similarity yang lebih tinggi untuk kueri-kueri yang memiliki pola urutan kata yang sama dengan urutan kata yang ada dalam koleksi dokumen. Untuk beberapa kueri uji, Proximity BM25 mampu mengembalikan dokumen relevan dengan peringkat yang lebih baik daripada pemeringkatan BM25, sehingga nilai AVP yang dihasilkan oleh pemeringkatan Proximity BM25 menjadi sedikit lebih baik dari
pemeringkatan BM25. Gambar 5 adalah kurva recall dan precision dari QE0. Evaluasi Ekspansi Kueri dengan Sinonim Evaluasi ekspansi kueri dengan 1 sinonim (QES1), 2 sinonim (QES2), dan 3 sinonim (QES3) dilakukan untuk melihat pengaruh penggunaan istilah sinonim untuk ekspansi kueri. Evaluasi dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 20 kueri uji. Hasil evaluasi QES1, QES2, dan QES3 ditunjukkan pada Tabel 5. Tabel 5 Nilai recall dan AVP QES1, QES2, dan QES3 Metode QES1 (BM25) QES2 (BM25) QES3 (BM25) QES1 (Proximity BM25) QES2 (Proximity BM25) QES3 (Proximity BM25)
Recall 0.945 0.981 0.985 0.945 0.981 0.985
AVP 0.225 0.230 0.220 0.212 0.224 0.233
Dari Tabel 5, dapat diketahui bahwa semakin banyak istilah sinonim yang ditambahkan dalam kueri awal, akan semakin meningkatkan recall. Peningkatan recall ini disebabkan oleh adanya dokumen-dokumen relevan yang baru ditemukan setelah menggunakan istilah ekspansi. Jika dibandingkan dengan hasil temu kembali QE0, peningkatan nilai recall untuk QES1 ialah sebesar 6.60%, 10.66% untuk QES2, dan 11.05% untuk QES3. Selain meningkatkan recall, ekspansi kueri dengan istilah sinonim juga mampu meningkatkan nilai AVP. Jika dibandingkan dengan nilai AVP QE0 dari masing-masing metode pemeringkatan, 1 0.9 0.8 0.7 0.6 0.5
P r e c i s i 0.4 o 0.3 n 0.2 0.1
QE0-BM25 QE0-Proximity BM25
0 0 0.1 0.2 0.3 0.40.5 0.6 0.7 0.8 0.9 1 Recall Gambar 5 Kurva recall dan precision QE0.
7
peningkatan AVP untuk metode pemeringkatan BM25 ialah sebesar 34.01% untuk QES1, 36.71% untuk QES2, dan 31.30% untuk QES3. Sementara itu, peningkatan AVP untuk metode pemeringkatan Proximity BM25 ialah sebesar 20.74% untuk QES1, 27.79% untuk QES2, dan 32.75% untuk QES3. Peningkatan AVP yang terjadi pada ketiga tipe ekspansi kueri sinonim ini disebabkan oleh adanya istilah-istilah ekspansi yang mampu memperbaiki peringkat dokumen relevan untuk menempati peringkat yang lebih tinggi dari peringkat sebelumnya. Dari Tabel 5, juga diketahui bahwa QES3 dari metode pemeringkatan BM25 memiliki nilai recall yang paling tinggi jika dibandingkan dengan QES1 dan QES2, namun nilai AVP yang dihasilkan QES3 justru lebih rendah dari nilai AVP QES2. Hal ini disebabkan oleh jumlah dokumen tidak relevan yang ikut terambil dalam proses temu kembali QES3 lebih banyak dan di antaranya juga menempati peringkat yang lebih tinggi dari dokumen relevan. Pada metode pemeringkatan Proximity BM25, diketahui bahwa semakin banyak jumlah istilah ekspansi ternyata dapat semakin meningkatkan nilai AVP. Hal ini disebabkan oleh adanya istilah-istilah ekspansi yang mampu meningkatkan nilai Proximity sehingga dapat memperbaiki peringkat dokumen relevan untuk menempati peringkat yang lebih tinggi. Berdasarkan pada peningkatan AVP yang terjadi pada kedua metode pemeringkatan ini, metode pemeringkatan BM25 dapat dikatakan sedikit lebih baik daripada metode pemeringkatan Proximity BM25. Metode pemeringkatan BM25 mampu meningkatkan nilai AVP sampai dengan 36.71% (QES2), sedangkan metode Proximity BM25 hanya 1 0.9 0.8 0.7 0.6 0.5
P r e c i s i 0.4 o 0.3 n 0.2 0.1
QE1-BM25 QE2-BM25 QE3-BM25
0 0 0.1 0.20.3 0.40.5 0.6 0.7 0.80.9 1 Recall Gambar 6 Kurva recall dan precision QES1, QES2, dan QES3 dengan BM25.
mampu meningkatkan nilai AVP sampai dengan 32.75% (QES3). Gambar 6 adalah kurva recall dan precision QES1, QES2, dan QES3 dengan pemeringkatan BM25. Gambar 7 adalah kurva recall dan precision QES1, QES2, dan QES3 dengan pemeringkatan Proximity BM25. Evaluasi Ekspansi Kueri dengan Antonim Evaluasi ekspansi kueri dengan istilah antonim (QEA) dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 16 kueri uji. Istilah antonim yang digunakan adalah istilah antonim yang sudah ditambahkan kata “tidak” pada awalan antonim. Penambahan kata “tidak” pada setiap awalan antonim bertujuan agar istilah tersebut memiliki makna yang sama dengan kata pada kueri awal sehingga tidak merubah konteks pencarian. Tabel 6 menunjukkan hasil evaluasi QE0 dan QEA dengan 16 kueri uji. Tabel 6 Nilai recall dan AVP QE0 dan QEA Metode QE0 (BM25) QEA (BM25) QE0 (Proximity BM25) QEA (Proximity BM25)
Recall 0.867 0.869 0.867 0.869
AVP 0.173 0.173 0.177 0.165
Dari Tabel 6, dapat diketahui bahwa penambahan istilah antonim untuk ekspansi kueri hanya mampu meningkatkan recall sebesar 0.21%. Dari Tabel 6, juga dapat diketahui bahwa penggunaan Proximity BM25 pada ekspansi kueri antonim justru menurunkan nilai AVP sebesar 4.59%. Hal ini disebabkan oleh adanya dokumen-dokumen tidak relevan yang memiliki nilai similarity yang lebih tinggi sehingga dokumen-dokumen tersebut 1 0.9 0.8 0.7 0.6 0.5
P r e c i s i 0.4 o 0.3 n 0.2
QE1- Proximity BM25 QE2- Proximity BM25 QE3- Proximity BM25
0.1 0 0 0.1 0.20.3 0.4 0.5 0.60.7 0.8 0.9 1 Recall Gambar 7 Kurva recall dan precision QES1, QES2, dan QES3 dengan Proximity BM25.
8
menempati peringkat yang lebih tinggi dari dokumen relevan. Gambar 8 adalah kurva recall dan precision QEA dengan pemeringkatan BM25 dan Proximity BM25. Evaluasi Perbandingan Ekspansi dengan Sinonim dan Antonim
Kueri
Evaluasi perbandingan ekspansi kueri bertujuan mengetahui penggunaan istilah sinonim atau antonim yang lebih baik digunakan untuk ekspansi kueri. Tipe ekspansi sinonim dan antonim yang dibandingkan adalah QES2 dan QEA dengan metode pemeringkatan BM25. Evaluasi perbandingan dilakukan dengan membandingkan nilai recall dan AVP dari 16 kueri uji. Perbandingan nilai recall dan AVP dari hasil evaluasi ekspansi sinonim dan antonim ditunjukkan pada Tabel 7. Tabel 7 Nilai recall dan AVP QES2, dan QEA Metode QES2 QEA
Recall 0.981 0.869
AVP 0.252 0.173
Dari Tabel 7, dapat diketahui bahwa penggunaan dua istilah sinonim (QES2) untuk ekspansi kueri lebih baik daripada penggunaan istilah antonim (QEA). Jika dibandingkan dengan hasil evaluasi QE0, QES2 dapat meningkatkan nilai recall dan juga AVP masing-masing sebesar 13.12% dan 45.93%, sedangkan QEA hanya dapat meningkatkan nilai recall sebesar 0.21%. Perbedaan tersebut disebabkan oleh jumlah dokumen yang dihasilkan oleh QES2 dan QEA tidak sama. Pada umumnya, koleksi dokumen lebih banyak mengandung istilah sinonim daripada istilah antonim yang sudah ditambahkan kata „tidak‟ di awal antonim. Hal tersebut membuat jumlah dokumen tambahan yang dihasilkan oleh istilah 1 0.9 0.8 0.7 0.6 0.5
QEA-BM25
sinonim menjadi lebih banyak. Hasil temu kembali yang lebih banyak inilah yang membuat metode ekspansi kueri dengan istilah sinonim memiliki peluang yang lebih besar untuk mendapatkan dokumen relevan lebih banyak. Gambar 9 adalah kurva recall dan precision QEA dan QES2. Analisis Perbandingan Sistem Analisis perbandingan sistem bertujuan membandingkan hasil temu kembali dari sistem yang digunakan Rahayuni (2011) dengan sistem yang digunakan pada penelitian ini. Terdapat dua kondisi analisis perbandingan, yaitu perbandingan sistem tanpa ekspansi kueri dan perbandingan sistem dengan ekspansi kueri. Analisis Perbandingan Sistem Tanpa Ekspansi Kueri Analisis perbandingan sistem tanpa ekspansi kueri bertujuan membandingkan kinerja kedua sistem sebelum menerapkan ekspansi kueri. Analisis perbandingan dilakukan dengan membandingkan nilai recall dan AVP dari 20 kueri uji yang dihasilkan oleh masing-masing sistem. Tabel 8 menunjukkan perbandingan nilai recall dan AVP yang dihasilkan oleh kedua sistem tanpa ekspansi kueri. Tabel 8 Perbandingan recall dan AVP sistem temu kembali tanpa ekspansi Metode Tanpa ekspansi cosine atau IDF Tanpa ekspansi bobot irisan
1 0.9 0.8 0.7 0.6 0.5
0.1 0
0
QEA-Proximity BM25
0 0.1 0.2 0.3 0.4 0.5 0.60.7 0.8 0.9 1 Recall Gambar 8 Kurva recall dan precision QEA.
AVP
0.176
0.081
0.89
0.168
Dari Tabel 8, dapat diketahui bahwa sistem temu kembali tanpa ekspansi yang digunakan pada penelitian ini mampu memperoleh nilai
P r e c i s i 0.4 o 0.3 n 0.2 0.1
P r e c i s i 0.4 o 0.3 n 0.2
Recall
QEA
QES2
0 0.1 0.20.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall Gambar 9 Kurva recall dan precision QEA dan QES2.
9
recall dan AVP yang lebih baik daripada sistem yang digunakan Rahayuni (2011), dengan perbedaan nilai recall sebesar 0.714 dan AVP sebesar 0.087. Faktor utama yang menyebabkan terjadinya perbedaan tersebut ialah pemrosesan kueri. Pada sistem temu kembali tanpa ekspansi Rahayuni (2011), dokumen yang dianggap relevan adalah dokumen yang benar-benar mengandung semua kata dalam kueri, atau dengan kata lain terdapat operator AND pada setiap kata di dalam kueri. Penggunaan operator AND mengakibatkan hasil temu kembali yang dihasilkan menjadi lebih sedikit dan terbatas. Sementara itu, penelitian ini menganggap dokumen relevan adalah dokumen yang mengandung minimal satu atau seluruh kata di dalam kueri, atau dengan kata lain terdapat operator OR untuk setiap kata pada kueri. Hasil temu kembali yang lebih banyak ini yang membuat sistem temu kembali tanpa ekspansi pada penelitian ini mampu menghasilkan nilai recall dan AVP yang lebih tinggi dari sistem temu kembali tanpa ekspansi Rahayuni (2011). Gambar 10 adalah kurva recall dan precision hasil temu kembali tanpa ekspansi Rahayuni (2011) dan temu kembali tanpa bobot irisan. Analisis Perbandingan Sistem dengan Ekspansi Kueri Analisis perbandingan sistem dengan ekspansi kueri bertujuan untuk membandingkan kinerja kedua sistem setelah menerapkan ekspansi kueri dengan metode pemilihan istilah ekspansi yang berbeda. Analisis perbandingan dilakukan dengan membandingkan nilai recall dan AVP dari 20 kueri uji. Tipe ekspansi kueri yang digunakan untuk perbandingan adalah QES2 dengan metode pemeringkatan BM25. Adapun tipe ekspansi kueri Rahayuni (2011) yang digunakan untuk perbandingan adalah 1 0.9 0.8 0.7 0.6 0.5
Tanpa Ekspansi Cosine atau IDF
ekspansi kueri dengan penambahan satu istilah. Tabel 9 menunjukkan perbandingan nilai recall dan AVP dari kedua sistem setelah menerapkan ekspansi kueri. Tabel 9 Perbandingan recall dan AVP sistem dengan ekspansi kueri Metode Ekspansi tesaurus cosine atau IDF Ekspansi tesaurus bobot irisan
1 0.9 0.8 0.7 0.6 0.5
0.1 0
0
Tanpa Ekspansi Bobot Irisan
0 0.1 0.20.3 0.4 0.5 0.60.7 0.8 0.9 1 Recall Gambar 10 Kurva recall dan precision tanpa ekspansi cosine atau IDF dan bobot irisan.
AVP
0.276
0.099
0.981
0.230
Dari Tabel 9, dapat diketahui bahwa ekspansi kueri yang diterapkan oleh kedua sistem sama-sama mampu meningkatkan nilai recall dan juga AVP. Sistem temu kembali dengan ekspansi kueri Rahayuni (2011) mampu meningkatkan nilai recall dan AVP masingmasing sebesar 57.10% dan 22.54%, sedangkan sistem temu kembali dengan ekspansi kueri pada penelitian ini mampu meningkatkan nilai recall dan AVP masing-masing sebesar 10.22% dan 36.71%. Gambar 11 adalah kurva recall dan precision untuk hasil temu kembali ekspansi kueri Rahayuni (2011) dan bobot irisan. Rahayuni (2011) menggunakan cosine similarity terbesar sebagai metode pertama untuk memilih istilah ekspansi. Pemilihan istilah dengan cosine similarity cukup baik, karena cosine similarity memperhatikan pola dan panjang vektor istilah dari semua koleksi dokumen. Semakin mirip kedua vektor, maka nilai similarity akan semakin besar, namun metode ini hanya dapat dilakukan ketika kata dalam kueri ada dalam koleksi dokumen. Jika kata dalam kueri tidak ada dalam koleksi dokumen, namun masih memiliki makna di tesaurus, istilah ekspansi dipilih berdasarkan nilai IDF terendah. Penggunaan nilai IDF terendah sebagai pelengkap seringkali akan
P r e c i s i 0.4 o 0.3 n 0.2 0.1
P r e c i s i 0.4 o 0.3 n 0.2
Recall
Ekspansi Kueri Cosine atau IDF Ekspansi Kueri Bobot Irisan
0 0.1 0.20.3 0.40.5 0.60.7 0.80.9 1 Recall Gambar 11 Kurva recall dan precision dengan ekspansi cosine atau IDF dan bobot irisan.
10
menurunkan kinerja sistem. Nilai IDF adalah nilai yang menunjukkan tingkat kepentingan suatu istilah di dalam koleksi dokumen. Nilai IDF yang tinggi menandakan bahwa istilah tersebut hanya berada di beberapa dokumen tertentu dan baik untuk dijadikan penciri dokumen. Nilai IDF yang rendah menandakan bahwa istilah tersebut banyak terdapat di koleksi dokumen, dan kurang baik untuk dijadikan penciri dokumen. Penelitian ini menggunakan metode bobot irisan untuk memilih istilah ekspansi. Metode bobot irisan memilih istilah dengan mempertimbangkan keberagaman hasil temu kembali dan nilai similarity dokumen yang dihasilkan oleh suatu kueri. Nilai similarity dokumen digunakan untuk memperhatikan posisi dan peringkat dokumen yang terdapat di dalam komplemen irisan. Kueri-kueri yang menghasilkan dokumen komplemen irisan pada peringkat yang tinggi semakin berpeluang untuk terpilih sebagai istilah ekspansi. Posisi peringkat yang tinggi menandakan bahwa beberapa dokumen komplemen dari irisan tersebut lebih relevan dari dokumen yang ada dalam irisan. Jadi, semakin berbeda (dissimilar) hasil temu kembali kueri awal sdengan kueri awal setelah ditambah suatu istilah, nilai bobot irisannya akan semakin besar dan istilah tersebut cocok untuk dijadikan istilah ekspansi. Dari peningkatan AVP yang dihasilkan oleh kedua sistem, metode bobot irisan untuk memilih istilah ekspansi dapat dikatakan relatif lebih baik dari metode pemilihan istilah ekspansi cosine similarity atau IDF Rahayuni (2011). Medode bobot irisan mampu meningkatkan nilai AVP sampai dengan 36.71%, sedangkan metode cosine atau IDF Rahayuni (2011) hanya mampu meningkatkan nilai AVP sebesar 22.54%. Kelemahan Sistem Kelemahan sistem yang pertama ialah algoritme pengambilan istilah ekspansi. Algoritme pengambilan istilah ekspansi masih bersifat word by word sehingga dua kata yang merupakan satu frase akan dikenali sebagai dua kata yang terpisah. Sebagai contoh, ketika terdapat frasa “air bah” pada kueri, sistem akan mencari makna sinonim atau antonim untuk kata “air” dan kata “bah” secara terpisah. Kelemahan lainnya ialah waktu proses temu kembali ketika menerapkan ekspansi kueri. Tabel 10 menunjukkan perbandingan waktu komputasi sistem tanpa ekspansi kueri dan waktu komputasi sistem ketika menerapkan ekspansi kueri.
Tabel 10 Waktu komputasi sistem temu kembali Metode
Waktu Komputasi (detik) Rata-Rata
QE0 QES1 QES2 QES3 QEA
2.18 42.04 42.26 42.45 8.93
Simpangan Baku 0.81 34.07 34.26 34.26 5.72
Nilai rata-rata dan simpangan baku pada Tabel 10, menunjukkan bahwa waktu komputasi untuk setiap kueri uji cukup bervariasi dengan waktu komputasi tertinggi ialah 126.54 detik, untuk kueri “dana bidang pertanian rendah” dan waktu komputasi terendah ialah 6.06 detik, untuk kueri “permintaan humus naik”. Variasi waktu komputasi pada setiap kueri tersebut disebabkan oleh adanya perbedaan jumlah istilah sinonim atau antonim yang diperoleh dari tesaurus dan juga perbedaan jumlah dokumen yang dihasilkan pada setiap iterasi temu kembali. Dari Tabel 10, juga dapat diketahui bahwa penerapan ekspansi kueri dengan istilah sinonim membutuhkan waktu komputasi yang jauh lebih lama daripada ekspansi kueri dengan istilah antonim. Hal ini disebabkan oleh istilah antonim yang terdapat dalam tesaurus jumlahnya jauh lebih sedikit daripada istilah sinonim. Hal tersebut menyebabkan jumlah iterasi pada proses perhitungan bobot irisan untuk ekspansi kueri dengan sinonim menjadi lebih banyak. Selain dipengaruhi oleh banyaknya jumlah istilah dalam tesaurus, perbedaan waktu komputasi ini juga disebabkan oleh adanya perbedaan jumlah dokumen yang dihasilkan oleh kedua tipe ekspansi. Ekspansi kueri dengan istilah antonim menghasilkan dokumen yang jauh lebih sedikit daripada ekspansi kueri dengan istilah sinonim. Banyaknya dokumen yang diproses pada setiap iterasi inilah yang menyebabkan waktu proses temu kembali dengan ekspansi kueri sinonim menjadi jauh lebih lama.
KESIMPULAN DAN SARAN Kesimpulan Dari penelitian yang telah dilakukan, dapat disimpulkan bahwa: Penggunaan istilah sinonim untuk ekspansi kueri lebih baik jika dibandingkan dengan penggunaan istilah antonim.
11
Metode pemeringkatan BM25 mengalami peningkatkan nilai AVP yang lebih tinggi dari metode pemeringkatan Proximity BM25 untuk proses temu kembali dengan ekspansi kueri. Penggunaan bobot irisan untuk menentukan istilah ekspansi relatif lebih baik jika dibandingkan dengan pemilihan istilah cosine similarity atau IDF. Hasil temu kembali dari sistem yang menggunakan operator OR untuk setiap kata pada kueri lebih baik jika dibandingkan dengan sistem yang menggunakan operator AND. Saran Untuk penelitian selanjutnya yang terkait dengan ekspansi kueri, disarankan untuk melakukan penelitian dengan: Menggunakan jumlah koleksi dokumen dan kueri uji yang lebih beragam. Melakukan analisis pengaruh penggunaan sample dokumen pada proses perhitungan bobot irisan untuk mempersingkat waktu perhitungan. Membandingkan hasil ekspansi kueri yang menerapkan metode pemilihan istilah dengan bobot irisan dengan metode pemilhan istilah lain.
DAFTAR PUSTAKA Aly AA. 2008. Using a query expansion technique to improve document retrieval. International Journal “Information of Technologies and Knowledge” 2: 343-348.
Anbiana ED. 2009. Pseudo-Relevance Feedback pada sistem temu kembali menggunakan segementasi dokumen [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Imran H, Sharan A. 2009. Thesaurus and query expansion. International Journal of Computer Science & Information Technology (IJCSIT) 1(2): 89-97. Rahayuni N. 2011. Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan thesaurus [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Rusidi. 2008. Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan peluang bersyarat [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Samana MA. 2011. Ekspansi kueri berdasarkan kamus dwibahasa menggunakan peluang bersyarat [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Sitohang NL. 2009. Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia Menggunakan kamus dwibahasa [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
12
LAMPIRAN
13
Lampiran 1 Contoh dokumen pengujian
kompas031100 <TITLE>Pertanian Tak Menjanjikan Petani Jepara Beralih ke Sektor Industri (son) Jumat, 3 November 2000 Jepara, Kompas
Akibat harga gabah dan hasil pertanian lain tidak pernah sesuai dengan harapan, sementara upah buruh tani rendah, ribuan petani di Kabupaten Jepara, Jawa Tengah (Jateng) beralih ke sektor industri. Bahkan 60.000 tenaga kerja industri mebel ukir Jepara yang ada saat ini, hampir semuanya berasal dari petani. Secara keseluruhan jumlah petani di Jepara berkisar 240.000 orang.
Tidak hanya itu, lahan pertanian di beberapa tempat terutama di Kota Jepara dan sekitarnya kini mulai terancam berkurang, karena dialihfungsikan menjadi tempat industri mebel ukir. Kondisi ini terjadi sejak lima tahun terakhir, yakni tahun 1995 hingga saat ini.
Bupati Jepara Drs Soenarto, didampingi Kepala Kanwil (Kakanwil) Departemen Pertanian (Deptan) Jateng Ir Triyono, mengemukakan ini kepada wartawan yang mengikuti press tour bersama Sekretariat Pengendali Bimbingan Massal (Bimas), Deptan dan Kehutanan, Rabu (1/11) di Jepara.
"Bagi sejumlah petani Jepara, sektor pertanian kini tidak lagi menjanjikan. Mereka kini lebih memilih bekerja di sektor industri mebel ketimbang menjadi petani. Apalagi sejak krisis ekonomi, ekspor mebel di Jepara meningkat," jelas Soenarto.
Selama ini, kata Soenarto, produksi pertanian terutama padi selalu mengecewakan. Bahkan, antara biaya dan tenaga yang dikeluarkan petani dengan hasil yang diperoleh, selalu saja tidak sebanding. "Biaya yang dikeluarkan petani mulai dari tenaga kerja, bibit, pupuk dan obat-obatan terlalu besar, sementara ketika panen nilai jualnya rendah. Gabah kering panen (GKP) misalnya, tidak pernah lebih dari Rp 800 per kilogram atau jauh dari harga patokan pemerintah," katanya.
Oleh karena itu, perlahan-lahan minat petani beralih bekerja di sektor industri. Apalagi, beberapa tahun terakhir terutama saat krisis ekonomi berlangsung, industri mebel ukir Jepara menjadi andalan ekspor Jateng. "Saat ini Jepara memiliki 2.500 pengusaha mebel, 200 di antaranya eksportir. Ini menyebabkan, banyak tenaga kerja di sektor agraris ditarik ke sektor industri," tandasnya.
Diakuinya, dorongan petani beralih ke sektor industri cukup besar. Sebab, bekerja di sektor pertanian membutuhkan waktu, tenaga dan biaya yang cukup besar, hasilnya pun tidak bisa diprediksi. Bekerja di sektor industri, hasilnya bisa dinikmati dalam waktu tidak terlalu panjang. Dia mencontohkan, untuk mengampelas (menghaluskan) mebel saja, sehari mendapat bayaran Rp 10.000 per orang.
Krida Pertanian
Mengatasi persoalan ini, Soenarto menyatakan, sejak tahun 1997 pemerintah Jepara melaksanakan Gerakan Krida Pertanian. Salah satu gebrakan yang dilakukan adalah pencanangan gerakan pisangisasi (penanaman tananan pisang) di seluruh Jepara.
"Saat ini Jepara sudah menghasilkan pisang, termasuk jenis chavendis. Kini sedang dipikirkan pemasarannya," katanya.
Tekad Pemda Jepara menggerakkan sektor pertanian di Jepara didukung Satpel Bimas Deptan. "Tugas Satpel Bimas menggerakkan sektor pertanian di Jepara cukup berat karena pergeseran struktur ekonomi dari agrobisnis ke industri," jelas Soenarto.
Sedangkan untuk mencegah supaya luas lahan pertanian tidak semakin banyak dialihfungsikan ke sektor industri, Bupati Jepara menginstruksikan pejabat terkait agar menyeleksi ketat izin pembangunan kawasan industri. "Selain proses per
izinannya dipersulit, harus ada uji kelayakan," tandasnya.
14
Lampiran 2 Pasangan kueri uji dan dokumen relevan Kueri
nilai jual komoditas rendah
persediaan padi memadai
sawah hancur terendam air
sawah kering kekurangan air
Dokumen Relavan balipost030608, BisnisIndonesia22022001, gatra030408, indosiar071103, indosiar190504-002, indosiar240604, indosiar300304, indosiar300703002, jurnalHorti113, kompas030502-002, kompas031100, kompas101004, kompas161000, kompas171002, kompas200803, kompas240803, kompas250901, kompas270203-001, kompas270502-001, kompas300502-001, mediaindonesia060803, mediaindonesia170303, mediaindonesia250304, mediaindonesia310503, okezone20022008, panturanews220611, pertaniansehat21042008, pertaniansehat3112200703, pikiranrakyat21042010, pikiranrakyat240404, pikiranrakyat300604, poskota000000-003, republika020804, republika05052010, republika060503, republika060804-001, republika060804-003, republika140503, republika211208-049, republika240604-005, republika241008-042, republika300704-002, situshijau15, situshijau181103-001, situshijau280203, situshijau280404-001, situshijau280404-002, situshijau280404-003, suarakarya000000-021, suarakarya000000-025, suaramerdeka000000-001, suaramerdeka290303, suarapembaruan110903, suarapembaruan290802-001 antarajawabarat211211, beritasore080711, bisnis_jabar191211, bisnisindonesia140911, deptan28052008, eksposnews161211, gatra161711, gatra190902, gatra190902-02, gatra230408, gatra230802, globalnews190911, harian_aceh291011, incestordaily310711, indosiar221003, indosiar240703, kbrh211111, kompas160704, kompas221011, kompas260711, korankaltim260811, malukunews090811, mediaindonesia231111, menkokesra71211, okezone080711, okezone130711, okezone31701, poskota000000-001, radarbangka040811, republika061102, republika100704-003, republika180504-002, republika210704-001, republika290604-007, sinartani1075, suaramerdeka090911, suaramerdeka170602, tempointeraktif150205-032, tempointeraktif181108-065, tribunnews300711, vivanews122111, vivanews190911 gatra011200, gatra040108, gatra070203, gatra200210, indosiar020104, indosiar021203-001, indosiar031203, indosiar050704-002, indosiar130104, indosiar130504, indosiar140204, indosiar160304, indosiar180304, kompas170504, kompas210403, mediaindonesia050604001, mediaindonesia130210, mediaindonesia140203, mediaindonesia170209, mediaindonesia180110, mediaindonesia200110, okezone03032010, okezone12112007, okezone17012008, okezone20022008, pertaniansehat21042008, pikiranrakyat18052010, pikiranrakyat21052010-01, pikiranrakyat21052010-02, pikiranrakyat23042010, radarbogor020110, situshijau280404-002, suarakarya000000-011, suarakarya000000-015, suaramerdeka251001, surabayapost29010, tempointeraktif160209-060 deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704, gatra270709, gatra301002, gatra301002-01, gatra310709, indosiar010903, indosiar040903, indosiar170603, indosiar180304, indosiar220503, indosiar240703, indosiar260803-001, indosiar260803-003, indosiar310504, kompas030704, korantempo3, mediaindonesia050604001, mediaindonesia110703, mediaindonesia160603, mediaindonesia210709, mediaindonesia240503, mediaindonesia300909, mediaindonesia310503, okezone01062008, okezone13062008, okezone13062008-01, okezone14072009, okezone19052008, okezone26042008-01, okezone26052009, radarbogor050608, radarbogor14082008, republika030903-001, republika030903-002,
15
Lampiran 2 Lanjutan Kueri
Dokumen Relavan republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika230903, republika270503, republika270704-002, republika290604-007, suarakarya000000-002-01, suarakarya000000-002-02, suarakarya000000021, suaramerdeka130602, suaramerdeka190903, suaramerdeka290901, suarapembaruan110903, suarapembaruan190809, suarapembaruan260703001, suarapembaruan260703-002, tempointeraktif081008-061
area pertanian semakin berkurang
tarif humus tinggi
upaya peningkatan produksi pertanian
balipost050908, balipost301208, deptan28052008-1, deptan31072007, gatra100509, gatra230503, jurnal000000-004, kompas020603, kompas030403, kompas031100, kompas101001, kompas120702, kompas130603-001, kompas150104, kompas170504, kompas170903, kompas171002, kompas180303, kompas181202, kompas220399, kompas230899, kompas240503, kompas260203, kompas270203-002, kompas270502-001, kompas290404, kompas290508, kompas290803, kompas310703, korantempo3, mediaindonesia010310, mediaindonesia021109-2, mediaindonesia050104, mediaindonesia050709, mediaindonesia120609, mediaindonesia170210, mediaindonesia180210, mediaindonesia180210-2, mediaindonesia191209, mediaindonesia230104, mediaindonesia281109, mediaindonesia301009, okezone16092009, okezone24012008, okezone24012010, republika030304, republika060804004, republika080703, republika090902, republika110604-002, republika120803, republika130804-02, republika150704-004, republika170604-003, republika170704-004, republika190309-011, republika230704-003, republika240604-005, republika241203, republika291008-040, satudunia21102009, situshijau281003-004, suarakarya000000-002-02, suarakarya000000-021, suaramerdeka170602001, suarapembaruan040603, suarapembaruan060602, sumutpos26052010, tempo251211, tempointeraktif110210-030, tempointeraktif120707-050, tempointeraktif160207-025, tempointeraktif181108-065, tempointeraktif231203-029, tempointeraktif231203-078, tempointeraktif240804-017 harianhaluan291111, indosiar060204, indosiar240604, indosiar270504, indosiar290604, kbr68h041211, kompas100901, kompas110302, kompas210504, kompas211211, kompas241203, kompas270502-002, kompas300502-001, liputan6_100611, mamorema01, metrotvnews221111, okezone27112008, panturanews220611, pertaniansehat09072008, pikiranrakyat010504-003, pikiranrakyat05042010, pikiranrakyat05052010, republika160703, situshijau15, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-025, suarakarya000000-029, suarakarya000000-030, suaramerdeka161101, waspada120611 deptan11062008, deptan14082007, deptan14112007, deptan18022010, deptan22022008, deptan25022008, deptan25022008-1, deptan29072009, deptan31032008, deptan31072007, gatra050508, gatra060206, gatra080102, gatra121108, gatra200103, gatra220604, gatra240203, gatra260408, indosiar030304, indosiar150104-002, indosiar180304, jurnalHorti210, jurnal000000-005, jurnal000000-013, jurnalHorti1, jurnalHorti87, kompas031100, kompas160704, kompas200802, kompas210502, kompas230209, kompas240103, kompas240302, kompas280502, kompas300502-002, kompas310703, kompas311203, kompas311203-2, mediaindonesia020809, mediaindonesia021209, mediaindonesia080210, mediaindonesia091109, mediaindonesia120604-002, mediaindonesia120609, mediaindonesia131209-2, mediaindonesia190210, mediaindonesia210210, mediaindonesia270309, mediaindonesia270809,
16
Lampiran 2 Lanjutan Kueri
Dokumen Relavan okezone12072009, okezone26042008, okezone27112008, pertaniansehat09012008, pertaniansehat21042008, pertaniansehat31122007, republika010704-003, republika040303, republika050803, republika050903, republika09042010, republika100210-001, republika100210-030, republika100309-031, republika100902, republika110604-003, republika120804-02, republika120804-03, republika140109-047, republika140703, republika150703, republika150903, republika151202, republika170704-006, republika230704-08, republika230902-001, republika230902-002, republika230903, republika240604-005, republika241203, republika260604-001, republika260803, republika290604-007, republika301002, republika310109-017, republika311002-001, republika311002-002, situshijau070103-002, situshijau070503, situshijau140103-001, situshijau180803-001, situshijau200103-001, situshijau281003-004, situshijau290403-002, situshijau310303-No, suarakarya000000-011, suarakarya000000-016, suarakarya000000-028, suarakarya000000-037, suaramerdeka071102, suaramerdeka120104, suaramerdeka190903, suarapembaruan130103, suarapembaruan140303, suarapembaruan220802, suarapembaruan290802-001, surabayapost020210, surabayapost070110, tempointeraktif051103-021, tempointeraktif160209060, tempointeraktif160210-020, tempointeraktif160210-075, tempointeraktif2000608-026, tempointeraktif270707-047, tempointeraktif270707-063, tempointeraktif280609-055, wartapenelitian000000-003
produk asing murah
produksi pertanian menurun
analisdaiy211011, indosiar300703-002, kompas100702, kompas101002, kompas131211, kompas170104, kompas180502, kompas250901, kompas270203-002, kompas280602, lampungpost201011, mediaindonesia060803, mediaindonesia170303, okezone210111, poskota000000-003, republika060503, suaramerdeka130104, suarapembaruan100903, suarapembaruan110903, tempo141011 deptan18042007, gatra010307, gatra030203, gatra030203-01, gatra180103, gatra220802, gatra220802-01, gatra240203, indosiar010504, indosiar010803, indosiar270504, kompas030403, kompas050303, kompas060503, kompas120102, kompas170402, kompas171002, kompas180303, kompas211211, kompas240103, kompas260902, kompas270203-001, kompas270401, kompas270502-001, mediaindonesia050709, mediaindonesia090409, mediaindonesia131209-2, mediaindonesia281109, mediaindonesia300909, okezone09012008, pikiranrakyat020804-001, pikiranrakyat09052010, pikiranrakyat17052010, poskota000000-002, republika010704-005, republika030903-002, republika110604-002, republika130804-02, republika170908-027, republika201102, republika231202-001, republika241203, republika281202, situshijau030603-002, situshijau140503-001, situshijau180603-001, situshijau280203, suarakarya000000-001-01, suaramerdeka290901, suarapembaruan290803, surabayapost020310, tempointeraktif081008-061, tempointeraktif110210-030, tempointeraktif160209-060, vivanews122111
17
Lampiran 2 Lanjutan Kueri
produktivitas pertanian rendah
petani sulit mendapatkan humus
sawah rusak berat
Dokumen Relavan balipost301208, deptan18042007, deptan22022008, deptan23072008, gatra010307, gatra180103, gatra240203, indosiar180304, jurnal000000-001, jurnal000000-013, kompas030403, kompas091003, kompas101004, kompas110302, kompas140802, kompas171208, kompas180701, kompas220399, kompas270203-001, kompas270203-002, kompas270401, kompas280602, mediaindonesia050709, mediaindonesia090409, mediaindonesia190210, mediaindonesia220303, mediaindonesia250304, mediaindonesia250809, mediaindonesia301009, okezone09012008, okezone24012008, okezone24012010, okezone280111, pertaniansehat12062008, pertaniansehat28022008-01, pikiranrakyat09052010, republika020604-001, republika140109-047, republika150703, republika151202, republika220604-003, republika241008-042, republika311002-001, republika311002-002, seputarindonesia16052010, situshijau070103-002, situshijau101103-004, situshijau130203-002, situshijau130303-001, situshijau180803-001, situshijau190303-002, situshijau200103-001, situshijau240203-001, situshijau280203, situshijau281003-004, situshijau281003-005, situshijau310303-No, suarakarya000000-028, tempointeraktif300108-022 banjarmasinpost181211, gatra230609, harianhaluan291111, indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar290604, kompas210504, kompas211211, kompas300502-001, liputan6_100611, mamorema01, mediaindonesia211211, metrotvnews221111, okezone27112008, pertaniansehat09072008, pertaniansehat30032008, pikiranrakyat010504-003, republika050604, republika160604-001, republika190504-002, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-031, suarakarya000000-038, suaramerdeka161101, surya121111, tribunnews51011, waspada120611 gatra030706, gatra040108, gatra060907, gatra070203, gatra120210, gatra190802, gatra190902, gatra190902-02, gatra260803, gatra301002, gatra301002-01, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar240703, indosiar260803-001, kompas170504, kompas260902, mediaindonesia030603, mediaindonesia050204, mediaindonesia050604-001, mediaindonesia110309, mediaindonesia110703, mediaindonesia130210, mediaindonesia131209-2, mediaindonesia140203, mediaindonesia160603, mediaindonesia170209, mediaindonesia190503, okezone01062008, okezone12112007, okezone17012008, okezone20022008, okezone26052009, pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat18052010, pikiranrakyat21052010-01, pikiranrakyat23042010, pikiranrakyat25052010, radarbogor050608, republika010704-005, republika030903-001, republika030903-002, republika07052010, republika130804-02, republika200603, republika230903, republika25052010-01, republika29042010, situshijau110303-002, situshijau280404-002, suarakarya000000-011, suarakarya000000-033, suaramerdeka131001, suaramerdeka190903, suarapembaruan120104, suarapembaruan260703001, suarapembaruan260703-002, surabayapost100210, tempointeraktif050205-006, tempointeraktif160209-060
18
Lampiran 2 Lanjutan Kueri
mutu hasil pertanian rendah
produksi pertanian meningkat
kesejahteraan petani rendah
wereng serang lahan pertanian
Dokumen Relavan Deptan04122009, gatra011102, gatra180103, indosiar150104-002, jurnal000000-013, jurnalHorti103, jurnalHorti113, kompas050303, kompas100702, kompas101002, kompas161000, kompas180502, kompas220801, kompas290404, mediaindonesia030104, mediaindonesia170403, pikiranrakyat21042010, republika05052010, republika140109-047, republika150604-001, republika211208-049, situshijau01, situshijau030203-002, situshijau070103-002, situshijau080503-004, situshijau110603-001, situshijau15, situshijau240203-002, situshijau280404-002, situshijau281003-005, suarakarya000000-013, suaramerdeka000000-001, suarapembaruan100903 deptan01072008, deptan01092008, deptan03112009, deptan04032008, deptan04082008, deptan04112008, deptan14072008, deptan14112007, deptan19012009, deptan20102008, deptan25022008-1, deptan27032010, deptan28052008-1, detikfinance27122009, gatra010307, gatra100509, gatra121108, gatra230802, gatra310807, indosiar021203-002, kompas060503, kompas150104, kompas160704, kompas180701, mediaindonesia020809, mediaindonesia080210, mediaindonesia210210, mediaindonesia250809, mediaindonesia291209, pikiranrakyat10042010, pikiranrakyat23052010, republika080703, republika09042010, republika100704-003, republika110309-021, republika120804-03, republika130209-045, republika281202, republika300704-002, suarakarya000000-037, surabayapost020310, surabayapost070110, surabayapost110210, surabayapost250110, tempointeraktif130107-064 balipost030608, gatra230109, jurnal000000-027, kompas030403, kompas031003, kompas110504, kompas120204, kompas161000, kompas170903, kompas220399, kompas240803, kompas290404, mediaindonesia120209, panturanews220611, pertaniansehat16052008, poskota270411, republika100804, republika110604-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021, suarapembaruan100903, suarapembaruan190809, tempointeraktif200696-016, tempointeraktif211003-001, tempointeraktif211003-003, tempointeraktif300108-022 balipost290708, gatra011200, gatra030203, gatra030203-01, gatra120210, gatra190902, gatra190902-02, indosiar010504, indosiar010803, indosiar070504, indosiar150104-002, indosiar240604, indosiar270504, indosiar310304, kompas170903, kompas200803, kompas211211, mediaindonesia020310, mediaindonesia030603, mediaindonesia050204, mediaindonesia050309, mediaindonesia050604-001, mediaindonesia090409, mediaindonesia110309, mediaindonesia120110, mediaindonesia131209, mediaindonesia131209-2, mediaindonesia190503, mediaindonesia221209, mediaindonesia240110, okezone09012008, okezone23022008, okezone26052008, pikiranrakyat020804-001, pikiranrakyat04052010, pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat21042010, pikiranrakyat25052010, pikiranrakyat26052010, radarbogor050608, republika07052010, republika170908-027, republika19052010, republika19052010-01, republika240604-003, republika25052010-01, republika260604-003, republika29042010, situshijau030203-002, situshijau030603-002, situshijau110303-002, situshijau14, situshijau180603-001, suarakarya000000-011, suarakarya000000-033, suaramerdeka131001, suarapembaruan120104, surabayapost100210, surabayapost231209, tempointeraktif090609-076, tempointeraktif130107-064
19
Lampiran 2 Lanjutan Kueri
bidang pertanian belum berkembang
angsuran pertanian sedikit
Dokumen Relavan balipost030608, balipost050908, balipost301208, gatra230109, gatra290903, jurnal000000-027, kompas030403, kompas031003, kompas050303, kompas091003, kompas120204, kompas150304-002, kompas170104, kompas171002, kompas180504, kompas220399, kompas240803, kompas270502-001, mediaindonesia050604-002, mediaindonesia100203, mediaindonesia180504, mediaindonesia250803, metrotvnews17112009, okezone280111, poskota270411, republika080210002, republika080210-033, republika091009-016, republika190504-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021, tempointeraktif160209-060, tempointeraktif200696-016, tempointeraktif211003-001, tempointeraktif211003-003, tempointeraktif260607-008 ahmadheryawan251211, antaranews031110, beritadaerah081111, bisnisindonesia101211, bisnisjabar080911, detik100211, inilahjabar221211, kabarbisnis291211, kompas110201, kompas120204, kompas140209, kompas170911, kompas220901-001, korankaltim001, medanbisnis060911, mediaindonesia170712, mediaindonesia260711, metrotvnews181211, pikiranrakyat161211, republika110504, republika110604-003, seputarsulawesi081111, suaramerdeka090707, tempointeraktif180809-028, theglobejurnal290709, tribunnews151211, ujungpadangekspres091111, wartakota0001, wsp_agro01, yiela120910
dana bidang pertanian rendah
antaranews211111, banjarmasinpost180711, bataviase070710, gatra131011, kompas040111, kompas210502, lampungpost081211, mediaindonesia090903, metrotvnews261211, neraca180811, okezone280111, panturanews220611, partaimerdeka01, poskota270411, prakarsa_rakyat190811, republika110504, republika110604-003, republika290704-001, seputarindonesia051011, seputarindonesia271211, sinartani00002, sinartani291211, sinartani291211, tempo251211, tribunnews061211, waspada101011
permintaan humus naik
bataviase200511, gatra230609, kbr68h041211, kompas151211, kompas210504, kompas211211, kompas230209, kompas300502-001, lampungpost121111, metrotvnews221111, pertaniansehat30032008, pikiranrakyat010504-003, pikiranrakyat07052010, pikiranrakyat100310, pikiranrakyat16042010, pikiranrakyat160420102, poskota190511, radarmadiun01, rakyatmerdeka180711, republika190504-002, republika201102, suarakarya000000-002, suarakarya000000-030, suarakarya000000-031
20
Lampiran 3 Deskripsi kueri uji Kueri
Deskripsi Kueri
nilai jual komoditas rendah
Kueri untuk mencari dokumen yang membahas tentang harga jual hasil pertanian yang rendah.
persediaan padi memadai
Kueri untuk mencari dokumen yang membahas tentang jumlah stok beras dalam negeri yang masih bisa mencukupi kebutuhan dalam negeri.
sawah hancur terendam air
Kueri untuk mencari dokumen yang membahas tentang area pertanian yang rusak karena banjir atau terendam air.
sawah kering kekurangan air
Kueri untuk mencari dokumen yang membahas tentang area pertanian yang rusak karena kekeringan.
area pertanian semakin berkurang
Kueri untuk mencari dokumen yang membahas tentang banyaknya lahan pertanian yang beralih fungsi atau penyempitan lahan pertanian.
tarif humus tinggi
Kueri untuk mencari dokumen yang membahas tentang harga humus, pupuk, urea yang mahal dikalangan petani.
upaya peningkatan produksi pertanian
Kueri untuk mencari dokumen yang membahas tentang hal yang sudah dilakukan pemerintah/petani/balitbang/instansi yang berkaitan dengan peningkatkan produksi pertanian dalam negeri.
produk asing murah
Kueri untuk mencari dokumen yang membahas tentang harga komoditas impor yang lebih murah daripada produk lokal.
produksi pertanian rendah
Kueri untuk mencari dokumen yang membahas tentang hasil produksi dalam negeri yang lebih rendah dari waktu produksi sebelumnya.
produktivitas pertanian rendah
Kueri untuk mencari dokumen yang membahas tentang hasil pertanian atau produktivitas pertanian dalam negeri yang rendah.
petani sulit mendapatkan humus
Kueri untuk mencari dokumen yang membahas tentang kondisi petani yang kesulitan untuk memperoleh humus, pupuk, urea.
sawah rusak berat
Kueri untuk mencari dokumen yang membahas tentang kondisi sawah yang rusak berat atau puso karena serangan hama, banjir, dan kekeringan
mutu hasil pertanian rendah
Kueri untuk mencari dokumen yang membahas tentang mutu hasil pertanian dalam negeri yang masih rendah, atau tidak memenuhi syarat pasar international.
produksi pertanian meningkat
Kueri untuk mencari dokumen yang membahas tentang hasil produksi dalam negeri yang mengalami peningkatan dari waktu sebelumnya.
kesejahteraan petani rendah
Kueri untuk mencari dokumen yang membahas tentang kesejahteraan petani yang masih terus rendah atau miskin.
wereng serang lahan pertanian
Kueri untuk mencari dokumen yang membahas tentang hama tikus, belalang, ulat, dan lainya yang menyerang area pertanian.
bidang pertanian belum berkembang
Kueri untuk mencari dokumen yang membahas tentang kondisi bidang atau sektor pertanian yang belum atau tidak banyak berkembang sampai saat ini.
angsuran pertanian sedikit
Kueri untuk mencari dokumen yang membahas tentang angsuran atau kredit untuk sektor pertanian atau petani yang sedikit.
21
Lampiran 3 Lanjutan Kueri
Deskripsi Kueri
dana bidang pertanian rendah
Kueri untuk mencari dokumen yang membahas tentang pemberian dana anggaran untuk bidang pertanian masih sedikit.
permintaan humus naik
Kueri untuk mencari dokumen yang membahas tentang adanya peningkatan permintaan pupuk dikalangan petani.