EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM)
SRI RAHAYU ISMANI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM)
SRI RAHAYU ISMANI
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
ABSTRACT SRI RAHAYU ISMANI. Query Expansion Method Using Semantic Similarity Retrieval Model (SSRM). Supervised by JULIO ADISANTOSO. The main objective of this study was to applied the method of semantic similarity in the proccesed of query expansion in information retrieval systems in the Indonesian language. Selection of partners in selecting candidates expansion will be used phrase pairs that have been made In research Kartina (2010) in which the phrase pairs with the largest value of similarity between the words that will be selected. Used by 10 groups of queries not clear who obtained manually and 30 groups of queries in 2000 agricultural document, document search results will be compared with the addition one-term of expansion, two-term of expansion, and three-term of expansion. The results of this study suggest five things. The first that the expansion of the query by added one term produces better results than the addition of two terms and three terms. The second that query expansion used by 10 groups of queries produces a higher precision values than using 30 groups of queries. The third that the used of the semantic similarity method produces better performance than the use of a thesaurus on the method of similarity retrieval Vektor Space Model (VSM). The fourth that the used of semantic similarity methods have not been able to produce better performance than the used of the method of conditional probabilities in the selection of expansion terms resulting from the translation of bilingual dictionary. The fifth that the used of the phrase paired in determining the candidate expansion terms can not maximize the search results using the method of semantic similarity of documents, because each pair selected does not necessarily have a semantic relationship with a given query. Keywords: information retrieval, query expansion, semantic similarity.
Judul
: Ekspansi Kueri Menggunakan Metode Semantic Similarity Retrieval Model (SSRM)
Nama
: Sri Rahayu Ismani
NRP
: G64062227
Menyetujui:
Pembimbing,
Ir. Julio Adisantoso, M. Kom NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer,
Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001
Tanggal Lulus:
RIWAYAT HIDUP Penulis dilahirkan di Jakarta, 04 Februari 1988. Penulis merupakan anak kedua dari empat bersaudara dari pasangan Bapak Hamdi Ismani dan Ibu Rum Sari. Penulis memulai pendidikan sekolah dasar di SD Negeri Sukatani 1 pada tahun 1994. Setelah lulus pada tahun 2000, penulis melanjutkan ke pendidikan menengah di SMP Negeri 233 Jakarta pada tahun yang sama dan kemudian dilanjutkan ke SMU Negeri 105 Jakarta pada tahun 2003. Tahun 2006 penulis lulus dari SMU dan diterima menjadi salah satu mahasiswa Institut Pertanian Bogor memalui jalur Undangan Seleksi Masuk IPB (USMI). Setahun kemudian penulis berhasil diterima menjadi salah satu mahasiswa Program Studi Ilmu Komputer IPB. Selama mengikuti perkuliahan, penulis aktif di organisasi Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) dan bergabung dengan divisi multimedia tahun kepengurusan 2008/2009. Tahun 2009 penulis menjalankan Praktek Kerja Lapangan (PKL) di Direktorat Komunikasi dan Sistem Informasi (DKSI) Institut Pertanian Bogor selama kurang lebih dua bulan.
PRAKATA Puji dan syukur penulis panjatkan ke hadirat Allah SWT atas segala rahmat dan karunia-Nya sehingga tugas akhir dengan judul Ekspansi Kueri Menggunakan Metode Semantic Similarity Retrieval Model (SSRM) dapat diselesaikan dengan baik. Penyelesaian tugas akhir ini tidak lepas dari bantuan berbagai pihak, untuk itu ucapan terima kasih penulis sampaikan kepada: 1. Ayah, Ibu, Kakak, Adik, serta segenap keluarga besar yang selalu mendukung, mengingkatkan dan memberikan semangat selama proses pembuatan tugas akhir ini. 2. Bapak Ir. Julio Adisantoso, M. Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan dan dukungan dalam penyelesaian tugas akhir ini. 3. Bapak Ahmad Ridha, S. Kom, MS dan Bapak Sony Hartono Wijaya, S. Kom, M. Kom selaku dosen penguji, Ibu Dr. Sri Nurdiati, M.Sc selaku Kepala Departemen Ilmu Komputer serta seluruh staf Departemen Ilmu Komputer FMIPA IPB. 4. Teman-teman satu bimbingan Ka Mutia, Hendrex, Awet, Tina, Rio, Iyam, Wildan, Eka, Adit, Devi, Nova, Dina, Woro, Isna, Agus, Yoga, dan Ade. Terima kasih atas bantuan, semangat dan kebersamaannya selama melakukan penelitian. 5. Sahabat-sahabatku Inez, Yuli, Ardan, Prames, Uut, Irawan, Roni, Wendhy dan seluruh sahabatku Ilkomerz43. Terima kasih atas motivasi, kebersamaan dan kenangan selama tiga tahun yang tak terlupakan. 6. Sahabat-sahabat baikku, Hana, Ziffy, Della, Nagi, Vely, terima kasih atas nasihat dan dukungan yang selalu diberikan. 7. Teman-teman Wisma Arini 3 Mba Titi, Uni, Aron, Tia, terima kasih atas dukungan dan candaancandaan yang menghibur. 8. Seluruh pihak yang membantu baik secara langsung maupun tidak langsung dalam pelaksaan tugas akhir ini. Penulis berharap tulisan ini dapat bermanfaat di masa yang akan datang.
Bogor, Januari 2012
Sri Rahayu Ismani
DAFTAR ISI Halaman DAFTAR GAMBAR ....................................................................................................................... vi DAFTAR TABEL............................................................................................................................ vi DAFTAR LAMPIRAN .................................................................................................................... vi PENDAHULUAN ............................................................................................................................ 1 Latar belakang............................................................................................................................... 1 Tujuan .......................................................................................................................................... 1 Ruang Lingkup.............................................................................................................................. 1 TINJAUAN PUSTAKA .................................................................................................................... 1 Temu Kembali Informasi ............................................................................................................... 1 Ekspansi Kueri .............................................................................................................................. 2 Semantic Similarity Retrieval Model (SSRM) ................................................................................ 2 Evaluasi Sistem Temu Kembali Informasi ..................................................................................... 3 METODE PENELITIAN .................................................................................................................. 3 Koleksi Dokumen.......................................................................................................................... 4 Indexing ........................................................................................................................................ 4 Matriks Kesamaan ......................................................................................................................... 4 Ekspansi Kueri .............................................................................................................................. 5 Pengujian Kinerja Sistem .............................................................................................................. 5 Analisis Pembandingan Metode Ekspansi ...................................................................................... 5 Asumsi-asumsi .............................................................................................................................. 5 Lingkungan Implementasi ............................................................................................................. 5 HASIL DAN PEMBAHASAN.......................................................................................................... 6 Koleksi Dokumen.......................................................................................................................... 6 Indexing ........................................................................................................................................ 6 Ekspansi Kueri .............................................................................................................................. 7 Pencarian Dokumen ...................................................................................................................... 7 Pengujian Kinerja Sistem .............................................................................................................. 8 Analisis Pembandingan Metode Ekspansi ...................................................................................... 9 KESIMPULAN DAN SARAN........................................................................................................ 10 Kesimpulan ................................................................................................................................. 10 Saran........................................................................................................................................... 10 DAFTAR PUSTAKA ..................................................................................................................... 11 LAMPIRAN ................................................................................................................................... 12
v
DAFTAR GAMBAR Halaman 1 Gambaran umum sistem temu kembali informasi ........................................................................... 3 2 Grafik recall terhadap precision pada QE0 .................................................................................... 8 3 Grafik recall terhadap precision pada QX0 .................................................................................... 8 4 Grafik recall terhadap precision pada QE0, QE1, QE2, dan QE3 ................................................... 8 5 Grafik recall terhadap precision pada QX0, QX1, QX2, dan QX3 .................................................. 9
DAFTAR TABEL Halaman 1 Ilustrasi perhitungan recall & precision ......................................................................................... 3 2 Deskripsi dokumen pengujian ........................................................................................................ 6 3 Hasil proses tokenisasi .................................................................................................................. 6 4 Contoh pasangan kata.................................................................................................................... 7 5 Normalisasi peluang pasangan kata................................................................................................ 7 6 Perbandingan nilai presisi sistem pada 1000 dan 2000 dokumen..................................................... 9 7 AVP berdasarkan penelitian Paiki (2006)..................................................................................... 10 8 AVP berdasarkan penelitian Samana (2011) ................................................................................ 10
DAFTAR LAMPIRAN Halaman 1 Contoh dokumen dalam koleksi .................................................................................................... 13 2 Daftar 30 kueri dan jumlah dokumen relevan ................................................................................ 14 3 Daftar 10 kueri dan jumlah dokumen relevan ................................................................................ 15
vi
PENDAHULUAN Latar belakang Search Engine atau mesin pencari adalah salah satu contoh aplikasi dalam penggunaan sistem temu kembali informasi. Mesin pencari melakukan pencarian informasi dari sekumpulan dokumen berdasarkan kebutuhan informasi pengguna yang dimasukkan dalam bentuk kueri. Kueri tersebut bisa berupa kata atau serangkaian kata yang berkaitan dengan topik tertentu. Terdapat masalah yang sering ditemui dalam pencarian informasi tersebut, yaitu pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Untuk memecahkan masalah tersebut perlu dilakukan ekspansi kueri, yaitu kueri yang diberikan pengguna akan dimodifikasi, kemudian kueri yang baru tersebut akan digunakan untuk pencarian berikutnya (kueri akhir). Paiki (2006) telah melakukan penelitian mengenai ekspansi kueri dengan menggunakan metode similarity thesaurus. Dalam penelitian tersebut diberikan bobot yang sama untuk setiap istilah-istilah yang berkaitan dengan kueri. Hal ini tidak dapat meningkatkan kinerja sistem khususnya pada saat ekspansi kueri. Sedangkan Rusidi (2008) melakukan ekspansi kueri dengan mengambil istilah ekspansi berdasarkan keeratan hubungan istilah dalam kueri dengan istilah lain yang berada dalam indeks. Keeratan hubungan antar istilah ini diukur dengan menggunakan metode peluang bersyarat. Hasil dalam penelitian tersebut menunjukkan jumlah istilah ekspansi yang lebih sedikit lebih baik dibandingkan dengan mengunakan jumlah istilah kueri yang lebih banyak. Sitohang (2009) telah mengimplementasikan metode penerjemahan kueri dengan menggunakan kamus dwibahasa dalam mencari istilah ekspansi. Dalam kamus dwibahasa tersebut akan dicari istilah kata yang memiliki makna hampir sama dengan kueri yang telah diberikan dan akan dipilih istilah untuk ekspansi dengan menggunakan nilai idf istilah yang dihasilkan dari penerjemahan. Tetapi dalam penggunaan metode ini hanya dapat meningkatkan relevansi hasil temu kembali untuk beberapa kueri tertentu. Sedangkan Samana (2011) melakukan penelitian mengenai ekspansi kueri dengan berfokus pada pemilihan istilah ekspansi yang dihasilkan oleh penerjemahan dwibahasa menggunakan metode peluang bersyarat. Ekspansi kueri yang dilakukan pada penelitian tersebut mengakibat menurunnya nilai presisi.
Hliaoutakis et al. (2006) melakukan penelitian untuk membuat sistem temu kembali informasi menggunakan WordNet dengan metode semantic similarity. WordNet merupakan sebuah database kamus bahasa Inggris yang dikembangkan oleh Princeton University. Pada penelitian tersebut WordNet digunakan untuk mencari ekspansi kata dari kueri yang telah diberikan. Selain penelitian tersebut, penelitian yang menggunakan metode semantic similarity juga dilakukan pada data medis. Dalam penelitiannya, Hliaoutakis telah membuat database yang berisi hubungan kesamaan makna antara kata-kata mengenai medis dalam bahasa Inggris. Database tersebut bernama MeSH, kemudian digunakan metode semantic similarity retrieval model (SSRM) untuk perhitungan bobot dari kueri (Hliaoutakis et al. 2006). Oleh karena belum adanya database kamus bahasa Indonesia, maka pada penelitian ini akan dicari istilah yang berkaitan dengan kata dalam kueri dengan cara menghitung peluang antar kata yang terdapat dalam dokumen dengan menggunakan teknik pembentukan frase yang dihasilkan pada penelitian Kartina (2010). Tujuan Tujuan utama dari penelitian adalah mengimplementasikan metode Semantic Similarity Retrieval Model (SSRM) dalam proses pembobotan ekspansi kueri dalam sistem temu kembali informasi untuk koleksi dokumen teks berbahasa Indonesia. Ruang Lingkup Ruang lingkup penelitian ini adalah: Penelitian ini menggunakan dokumen serta kueri berbahasa Indonesia. Menggunakan frase yang terdiri atas dua kata yang dihasilkan pada penelitian Kartina (2010) sebagai kandidat istilah ekspansi.
TINJAUAN PUSTAKA Temu Kembali Informasi Information retrieval atau temu kembali informasi merupakan pencarian material, yang biasanya dokumen, dari sesuatu yang tidak terstruktur, biasanya teks, yang memenuhi kebutuhan informasi dari sekumpulan koleksi yang besar yang biasanya disimpan di komputer (Manning et al. 2008). Untuk menemukembalikan informasi terdapat proses indexing yang bertujuan menentukan kata mana saja yang menjadi penciri suatu dokumen. Tiap
1
dokumen diwujudkan sebagai sebuah vektor dengan elemen sebanyak kata yang berhasil dikenali dari proses pemisahan kata. Vektor tersebut beranggotakan bobot dari tiap kata yang dihitung berdasarkan metode tf-idf. Metode tf-idf ini merupakan metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency (tf), dan inverse document frequency (idf)
Wt , d
N Tft. log Dft
[1]
dengan wt,d adalah bobot dari kata t dalam dokumen d sedangkan tft adalah frekuensi kata t dalam dokumen d(tf) dengan N merupakan ukuran data training yang digunakan untuk penghitungan idf. Adapun dft adalah jumlah dari dokumen yang di-training yang mengandung nilai t. Ekspansi Kueri Selberg (1997) dalam Paiki (2006) menyatakan bahwa ekspansi kueri adalah sekumpulan teknik untuk memodifikasi kueri dengan tujuan untuk memenuhi sebuah kebutuhan informasi. Ekspansi kueri dapat berarti penambahan maupun pengurangan kata pada kueri. Terdapat tiga cara yang dapat digunakan dalam melakukan ekspansi kueri yakni: manual, interaktif, dan automatic. Terkadang pengguna tidak dapat memberikan informasi yang cukup untuk melakukan ekspansi kueri (manual dan interaktif), maka dibutuhkan suatu metode ekspansi yang tidak memerlukan keterlibatan pengguna di dalamnya (Automatic). Automatic Queri Ekspansion (AQE) merupakan proses penambahan istilah atau frase pada kueri asli untuk meningkatkan kinerja temu kembali tanpa intervensi dari pengguna (Imran & Sharan 2009, dalam Samana 2011). Pada ekspansi kueri terdapat dua metode analisis yang digunakan, yaitu analisis lokal dan analisis global. Ekspansi kueri dengan analisis lokal hanya menggunakan kueri dan dokumendokumen yang sudah dutemukembalikan pada pencarian awal. Dalam hal ini, analisis lokal digunakan untuk menentukan istilah-istilah yang tepat untuk ekspansi kueri. Sedangkan analisis global, prinsip dasarnya adalah dengan memanfaatkan konteks suatu kata untuk menentukan kesamaannya dengan kata yang lain (Baeza-Yates & Ribeiro-Neto dalam Paiki 2006).
Semantic Similarity Retrieval Model (SSRM) Umumnya pada temu kembali informasi, sebuah dokumen direpresentasikan oleh vektor kata dan setiap kata dihitung dengan menggunakan pembobot tf-idf. SSRM bekerja dalam tiga tahap : 1 Pembobotan ulang kata Bobot qi dari kata i pada kueri ditetapkan berdasarkan hubungannya dengan persamaan semantik kata j dalam vektor yang sama ji
qi qi
q .sim(i, j)
[2]
j
sim(i, j) t
dengan t didefinisikan sebagai threshold. Persamaan semantik antar kata yang dihitung berdasarkan persamaan cosine
sim(i, j )
V (i).V ( j )
[3]
V (i) V ( j ) dengan merupakan dot product vektor i dan vektor j, merupakan panjang vektor kata i, dan merupakan panjang vektor kata j. 2 Ekspansi kata Pertama-tama akan dicari pasangan kata dari setiap kata dalam kueri awal yang memiliki nilai kesamaan paling besar. Kemudian, setiap kata i dalam kueri akhir diberikan bobot sebagai berikut
q' i qi
ji
1 qj.sim(i, j) n sim(i, j) T and jQ
[4]
dengan n adalah jumlah pasangan frase dari setiap kata yang yang ada dalam kueri, q i merupakan bobot kata i sebelum dilakukan ekspansi, dan Q merupakan subset dari sekumpulan kata yang asli pada kueri yang menuju ke kata baru yang akan ditambahkan ke dalam kata yang sudah diekspansi. Jika kata i tidak berada pada kueri awal, maka nilai qi = 0. 3 Kesamaan Dokumen Persamaan antara ekspansi dan pembobotan ulang sebuah kueri q dan sebuah dokumen d dihitung dengan ukuran kesamaan dokumen sebagai berikut
sim(q, d )
q .d .sim(i, j ) q .d i
i
j
i
j
j
i
[5]
j
2
dengan i dan j merupakan kata dalam kueri dan dokumen secara berurutan dalam satu dokumen. Ukuran kesamaan pada persamaan [3] rata-rata bobotnya telah dinormalisasikan pada batas [0,1].
Tabel 1 Ilustrasi perhitungan recall & precision Relevant
Non-relevant
Retrieved
tp
fp
Non-retrieved
fn
tn
Evaluasi Sistem Temu Kembali Informasi Dalam sistem temu kembali informasi diperlukan suatu ukuran untuk mengevaluasi kinerja sistem dalam menemukembalikan dokumen-dokumen yang relevan. Terdapat enam jenis ukuran yang dapat digunakan untuk mengukur kinerja sistem yaitu coverage, time lag, presentation, effort, recall, dan precision (Cleverdon dalam Paiki 2006). Recall dan precision merupakan salah satu ukuran yang paling sering digunakan dalam mengevaluasi sistem. Recall merupakan rasio jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen relevan dalam koleksi. Precision merupakan rasio jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen yang ditemukembalikan. Ilustrasi perhitungan Recall dan precision dapat dilihat pada Tabel 1 (Manning et al. 2008).
Sehingga:
Re call
tp (tp fp )
Pr ecision
tp (tp fn )
[6]
[7]
Average precision (AVP) adalah suatu ukuran evaluasi kinerja temu-kembali yang diperoleh dengan menghitung average precision menggunakan eleven standard recall yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1 (Manning et al. 2008).
METODE PENELITIAN Penelitian ini akan dilakukan melalui beberapa tahap yaitu : (1) indexing, (2) matriks kesamaan, (3) ekspansi kueri, (4) pengujian kinerja sistem, dan (5) analisis pembandingan kinerja sistem. Alur kerja dari sistem dapat dilihat pada Gambar 1.
Gambar 1 Alur kerja sistem temu kembali informasi.
3
Gambar 1 menunjukkan alur dari sistem yang dilakukan secara offline (1, 2, 3) dan online (4, 5, 6, 7) dengan penjelasan sebagai berikut: Masukan: Query q, Dokumen d. Keluaran: Top-N dokumen. 1. Menghitung frekuensi kata. 2. Menghitung bobot dari seluruh kata yang terdapat dalam dokumen dengan perhitungan tf.idf 3. Menghitung nilai sim dari pasangan kata yang nilai peluangnya ≥ 0.3 4. Mencari kandidat untuk kueri ekspansi dengan memilih pasangan kata yang memiliki nilai sim terbesar 5. Menghitung bobot baru perhitungan SSRM tahap 1
kueri
dengan
ji
qi qi
q .sim(i, j) j
sim(i, j) t
6. Menghitung bobot dari kueri ekspansi yang didapatkan dengan perhitungan SSRM tahap 2 ji
1 qj.sim(i, j) , sim(i, j) T and jQ n kueri baru q' i
i
adalah
ji
1 qj.sim(i, j) , i adalah sim(i, j) T and jQ n kueri dalam qi q' i qi
7. Menghitung nilai kesamaan dokumen dengan kueri dengan perhitungan SSRM tahap 3
sim(q, d )
q .d .sim(i, j) q .d i
i
j
i
j
j
i
j
Koleksi Dokumen Dokumen yang digunakan adalah dokumen berita dalam bidang pertanian berbahasa Indonesia sebanyak 2000 dokumen. Dokumen berita yang digunakan merupakan koleksi berita dari beberapa sumber di Internet. Gugus kueri dan dokumen yang digunakan dalam penelitian ini menggunakan 30 kueri yang diambil dari koleksi yang ada di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 10 kueri tidak jelas yang didapatkan secara manual.
Indexing Tahap indexing merupakan kumpulan dari beberapa langkah awal dalam melakukan tahap pemodelan temu kembali informasi, yang diantaranya: tokenisasi, pembuangan stopwords, dan pembobotan kata dalam seluruh dokumen. Dalam penelitian ini, proses indexing dijalankan secara offline. Pada tahap tokenisasi akan dilakukan pembacaan karakter yang bertujuan membedakan karakter-karakter yang bersifat separator dan yang bukan. Dalam penelitian ini, karakter angka akan dianggap sebagai separator, karena karakter angka dianggap kurang representatif dalam menggambarkan suatu dokumen tertentu. Sebelum memasuki tahap pembobotan kata, masing-masing token tersebut akan diperiksa keberadaannya di dalam stopwords. Jika token tersebut terdapat dalam daftar stopwords, maka akan dibuang dan sebaliknya jika tidak, maka token tersebut akan digunakan dalam tahap pembobotan. Setelah itu, akan dilakukan pembobotan kata, tujuan dari pembobotan ini adalah untuk menentukan tingkat kepentingan suatu token di dalam dokumen. Metode yang digunakan adalah tf-idf dan Semantic Similarity Retrieval Model. Pembobotan tf-idf digunakan pada proses indexing, sedangkan pembobotan menggunakan Semantic Similarity Retrieval Model digunakan pada saat ekspansi kueri. Matriks Kesamaan Berdasarkan indeks yang sudah dibuat akan dihasilkan matriks kesamaan secara automatis. Ukuran kesamaan yang digunakan adalah ukuran kesamaan cosine. Semakin besar jumlah istilah unik yang didapatkan dalam indeks, maka semakin besar pula ukuran matriks kesamaannya. Untuk mengatasi besarnya ukuran matriks kesamaan, setiap pasangan frase yang dihasilkan pada penelitian Kartina (2010) akan dihitung nilai kedekatannya dengan menggunakan persamaan [3]. Jika pasangan frase tersebut memiliki jumlah yang sedikit pada dokumen yang sama, secara otomatis akan dibuang. Dengan demikian, diharapkan jumlah pasangan frase yang digunakan sebagai kandidat kueri ekspansi akan berkurang, sehingga waktu komputasi dapat dipersingkat.
4
Ekspansi Kueri Pemilihan kandidat kueri ekspansi pada penelitian ini akan menggunakan pasangan frase yang dihasilkan pada penelitian Kartina (2010) yang telah dihitung nilai nilai kedekatannya. Pasangan frase dengan nilai kesamaan antarkata terbesar akan dijadikan kueri ekspansi dan ditambahkan pada kueri awal yang diberikan pengguna (kueri akhir), untuk kemudian dilakukan pembobotan ulang dengan menggunakan metode Semantic Similarity Retrieval Model. Pengujian Kinerja Sistem Hal utama yang akan diuji dari sistem ini yakni presisi dari hasil pencarian dokumen berdasarkan kueri masukan. Metode evaluasi yang digunakan untuk menghitung presisi dari sistem ialah metode recall-precision. nilai recall dan precision dari setiap pencarian dengan kueri tertentu akan dihitung dan selanjutnya diambil nilai rata-ratanya untuk mendapatkan nilai average precision dari sistem. Dengan menghitung nilai average precision dari sistem, nilai presisi sistem secara keseluruhan akan dapat diketahui. Terdapat delapan asumsi kondisi pengujian presisi sistem, yakni: 1. Kondisi pertama (QE0): evaluasi proses temu kembali 30 kueri tanpa menggunakan ekspansi kueri. 2. Kondisi kedua (QE1): evaluasi proses temu kembali 30 kueri dengan menambahkan satu istilah pada masing-masing kata dalam kueri. 3. Kondisi ketiga (QE2): evaluasi proses temu kembali 30 kueri dengan menambahkan dua istilah pada masing-masing kata dalam kueri. 4. Kondisi keempat (QE3): evaluasi proses temu kembali 30 kueri dengan menambahkan tiga istilah pada masingmasing kata dalam kueri. 5. Kondisi pertama (QX0): evaluasi proses temu kembali 10 kueri tanpa menggunakan ekspansi kueri. 6. Kondisi keempat (QX1): evaluasi proses temu kembali 10 kueri dengan menambahkan satu istilah pada masingmasing kata dalam kueri. 7. Kondisi keempat (QX2): evaluasi proses temu kembali 10 kueri dengan menambahkan dua istilah pada masingmasing kata dalam kueri. 8. Kondisi keempat (QX3): evaluasi proses temu kembali 10 kueri dengan
menambahkan tiga istilah pada masingmasing kata dalam kueri. Evaluasi presisi pencarian sistem akan diuji pada dua jenis koleksi dokumen pengujian. Koleksi pertama ialah menguji sistem pada pengolah 1000 dokumen dan membandingkan hasil presisi dengan hasil penelitian Paiki (2006). Koleksi kedua ialah koleksi dokumen yang memiliki ukuran lebih yakni 2000 dokumen. Analisis Pembandingan Metode Ekspansi Penelitian ini menggunakan metode semantic similarity dalam proses pembobotan pada ekspansi kueri, ekspansi kueri dengan 30 kueri akan dibandingkan dengan penelitian yang telah dilakukan oleh Paiki (2006) yang melakukan ekspansi kueri dengan menggunakan metode similarity thesaurus yang diimplementasikan pada temu kembai vektor dan ekspansi kueri dengan 10 kueri akan dibandingkan dengan penelitian yang telah dilakukan oleh Samana (2011) yang melakukan ekspansi kueri dengan menggunakan metode peluang bersyarat dalam pemilihan istilah ekspansi dalam penerjemahan kamus dwibahasa. Analisis lebih jauh diperlukan untuk mengetahui metode mana yang lebih baik digunakan dalam ekspansi kueri. Asumsi-asumsi Asumsi-asumsi yang penelitian ini antara lain:
digunakan
dalam
Token hasil tokenizing merupakan istilah yang belum tentu bernilai benar secara bahasa Setiap token hasil tokenizing telah memiliki pasangan frase masing-masing Setiap pasangan frase yang didapatkan sebagai kandidat istilah ekspansi memiliki makna semantik yang ambigu Jumlah dokumen relevan untuk tiap kueri telah diketahui sebelumnya Pilihan istilah yang didapatkan pada hasil ekspansi kueri belum tentu bernilai benar secara bahasa Lingkungan Implementasi Perangkat lunak yang digunakan dalam melakukan penelitian yaitu: Windows 7 Starter sebagai sistem operasi ActivePerl-5.10.1.1007 sebagai interpreter bahasa pemrograman Perl yang digunakan
5
Notepad++ v.5.9 Microsoft Excel 2007 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam mengevaluasi sistem Perangkat keras yang digunakan untuk penelitian meliputi: AMD Dual-Core Processor E-350 CPU @ 1,6 GHz
Indexing
RAM 2 GB Harddisk dengan kapasitas 320 GB
HASIL DAN PEMBAHASAN Koleksi Dokumen Tahapan pengumpulan dokumen telah menghasilkan koleksi yang terdiri atas 2000 dokumen pertanian yang seluruhnya berasal dari lab Temu Kembali Informasi dan merupakan dokumen berita dalam bidang pertanian berbahasa Indonesia. Deskripsi dari dokumen yang digunakan dapat dilihat pada Tabel 2.
Nilai (byte)
Ukuran keseluruhan dokumen
6438425
Ukuran rata-rata dokumen
3219
Ukuran dokumen terbesar
53309
Ukuran dokumen terkecil
412
Seluruh isi dokumen yang dikumpulkan menggunakan Bahasa Indonesia semiformal/formal. Jumlah stopword yang diperoleh dari 2000 dokumen adalah sebanyak 1074 kata, diantaranya adalah kata-kata umum, tetapi, tersebut, tanpa, dan setelah. Contoh dari dokumen pengujian dapat dilihat pada Lampiran 1, dan format dokumen yang terkumpul diformat dengan susunan tag sebagai berikut :
nomor dokumen <TITLE> judul dokumen nama/inisial penulis tanggal dokumen isi teks lengkap
Tahap indexing berjalan secara offline dan dilakukan untuk menghasilkan kata-kata yang akan digunakan sebagai penciri dokumen. Dari indexing yang dilakukan tercatat 31454 buah istilah unik. Berikut lima istilah dengan frekuensi tertinggi adalah : Pertanian (1472 dokumen, 8946 kata) Petani (1091 dokumen, 5477 kata) Tanaman (954 dokumen, 3695 kata) Tahun (1148 dokumen, 3507 kata) Indonesia (921 dokumen, 3315 kata)
Tabel 2 Deskripsi dokumen pengujian Uraian
Selain itu untuk mengevaluasi sistem yang dihasilkan dari penelitian ini digunakan 30 kueri yang diambil dari koleksi yang ada di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 10 kueri tidak jelas yang didapatkan oleh penulis secara manual. Daftar kueri dan jumlah dokumen relevan dapat dilihat pada Lampiran 2 dan Lampiran 3.
Tahap tokenisasi dilakukan dengan memilah kata tertentu berdasarkan frekuensi kemunculannya dalam setiap dokumen, sehingga diperoleh sebanyak 259460 kata dengan frekuensi kemunculan yang bervariasi. Penjelasan hasil tokenisasi ditunjukkan oleh Tabel 3. Tabel 3 Hasil proses tokenisasi Uraian Rata-rata token tiap dokumen Jumlah token keseluruhan
Nilai 130 259460
Jumlah token terbesar
8946
Jumlah token terkecil
1
Stopword yang diperoleh sebanyak 1074 kata sehingga menunjukkan bahwa frekuensi kemunculannya sangat banyak dalam dokumen. Stopword merupakan daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti yang ditemukan dalam seluruh dokumen sehingga perlu dibuang untuk efisiensi, seperti : adalah, akan, atau, dan bagi. Setelah tahap pembuangan stopword kemudian dilakukan pembobotan terhadap kata. Tahap ini dilakukan untuk mendapatkan hasil sejumlah kata yang sering muncul pada suatu dokumen sehingga dapat diketahui pentingnya kata tersebut untuk dokumen yang
6
bersangkutan. Pendekatan yang digunakan adalah dengan term frequency (tf) dan inverse document frequency (idf), dalam penelitian ini kata yang akan dihitung bobotnya hanya kata dengan nilai idf >= 0.3, dari hasil kali terhadap keduanya sehingga diperoleh nilai bobot setiap term t pada dokumen d.
Tabel 5 Normalisasi peluang pasangan kata Peluang
Frekuensi
< peluang ≤ 0.1
213718
0.1 < peluang ≤ 0.2
19431
0.2 < peluang ≤ 0.3
68
Seluruh hasil dari tahap indexing disimpan dalam table hash frek.dat untuk kemudian dipakai dalam tahap perhitungan bobot dari seluruh kata dalam dokumen dengan menggunakan persamaan [1]. Sedangkan hasil dari perhitungan bobot kata disimpan dalam table hash tfIdf.dat.
0.3 < peluang ≤ 0.4
6467
0.4 < peluang ≤ 0.5
7905
0.5 < peluang ≤ 0.6
319
0.6 < peluang ≤ 0.7
812
0.7 < peluang ≤ 0.8
277
Ekspansi Kueri
0.8 < peluang ≤ 0.9
111
Sejumlah 270262 pasangan kata beserta dengan masing-masing peluangnya telah didapatkan dari penelitian Kartina (2010). Pasangan kata yang akan digunakan dalam penelitian ini akan dibatasi dengan hanya mengambil pasangan kata yang memiliki nilai peluang lebih dari sama dengan 0.3, sehingga didapat 31014 pasangan kata yang akan disimpan dan dihitung kesamaan antar kata dengan menggunakan persamaan [3] untuk disimpan dalam table hash cosineKata.dat untuk kemudian dijadikan kandidat istilah pada ekspansi kueri. Contoh pasangan kata yang telah dihitung nilai kedekatannya dapat dilihat pada Tabel 4. Tabel 4 Contoh pasangan kata Pasangan kata
Ukuran Matriks Kesamaan
Nilai Peluang
Asam Lemak
0.0880
0.4078
Proyek Stadion
0.0774
0.4193
Pupuk Kandang
0.0267
0.6580
Jalan Tol
0.0304
0.5833
Bawang Bombai
0.0012
1
Nilai peluang dari pasangan kata yang dinormalisasikan dalam batas [0,1] dapat dilihat pada Tabel 5.
0
0.9 < peluang ≤ 1
15055
Pencarian Dokumen Pencarian dokumen dilakukan dengan menghitung ukuran kesamaan antara kueri yang diberikan dan tiap dokumen. Semakin tinggi nilai ukuran kesamaan dengan suatu dokumen maka dapat diartikan dokumen relevan dengan kueri yang diberikan. Proses awal pencarian dokumen dilakukan dengan cara menghitung bobot dari kueri yang dimasukan oleh pengguna (kueri awal) dengan menggunakan rumus tfIdf. Setelah didapatkan bobot dari kueri yang diberikan, sistem akan mencari kandidat kueri ekspansi dalam table hash cosineKata.dat untuk kemudian dipilih yang memiliki nilai kesamaan antarkata paling besar yang akan dijadikan kueri ekspansi (kueri akhir). Metode SSRM bekerja dalam tiga tahap yaitu: pembobotan ulang kata, ekspansi kueri, dan kesamaan dokumen. Tahap pembobotan ulang kata dimulai dengan menghitung bobot dari kueri awal dengan menambahkan jumlah dari seluruh nilai kesamaan pasangan kata yang telah dipilih dengan menggunakan persamaan [2] dengan nilai threshold 0,001. Kueri akhir yang didapatkan akan masuk ke tahap kueri ekspansi untuk kemudian dihitung kembali bobotnya dengan menggunakan persamaan [4] dengan nilai threshold 0,001. Pasangan kata yang dipakai pada persamaan ini menggunakan pasangan kata yang telah dicari dari table hash cosineKata.dat. Ukuran kesamaan dokumen pada metode SSRM menggunakan persamaan [5], untuk setiap i dan j (i dan j merupakan pasangan kata yang telah dicari pada tahap ekspansi kueri)
7
Pengujian Kinerja Sistem Proses evaluasi dilakukan untuk mengetahui seberapa baik kinerja dari suatu sistem temu kembali informasi. Proses evaluasi dalam penelitian ini menggunakan 30 macam kueri yang diambil dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 10 macam kueri tidak jelas yang ditentukan secara manual oleh pengguna dan telah diketahui dokumen-dokumen relevannya, dan kinerja dari sistem pada penelitian ini akan diuji dengan menggunakan nilai recall dan precision sebagai tolok ukur yang menggambarkan seberapa baik sistem yang telah dibangun, setelah itu dilakukan interpolasi untuk mengetahui nilai Average Precision.
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Recall Gambar 3
Grafik recall terhadap precision pada QX0.
Nilai recall dan precision dari pencarian tanpa ekspansi dengan menggunakan metode Vector Space Model (VSM) akan digunakan sebagai pembanding oleh pencarian yang menggunakan ekspansi, baik satu, dua, maupun pencarian yang menggunakan tiga buah ekspansi dari setiap kata dalam kueri awal. Nilai average precision (AVP) dari menu pencarian untuk gugus 30 kueri dan gugus 10 kueri masing-masing adalah sebesar 0.495 dan 0.796. Kondisi pengujian lainnya, QE1, QE2, dan QE3 yang merupakan pengujian untuk pencarian 30 kueri yang dilakukan dengan menambahkan istilah ekspansi pada kueri awal. Hasil dari pengujian tersebut akan dibandingkan dengan pencarian tanpa ekspansi (QE0).
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Gambar 2
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0
Grafik recall terhadap precision pada QE0.
Precision
Precision
Tahap awal akan dilakukan pengujian untuk pencarian dokumen tanpa melakukan ekspansi kueri menggunakan pembobotan VSM. Hasil pengujian untuk QE0 dan QX0 dapat dilihat pada Gambar 2 dan Gambar 3.
Precision
akan dihitung jumlah vektor kueri i dikalikan dengan vektor dokumen yang mengandung kata j dan dikalikan dengan ukuran kesamaan antara kata i dan j.
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
QE0 QE1 QE2 QE3
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Gambar 4
Grafik recall terhadap precision pada QE0, QE1, QE2, dan QE3.
8
Precision
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
QX0 QX1 QX2 QX3
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Gambar 5
Grafik recall terhadap precision pada QX0, QX1, QX2, dan QX3.
Perbandingan untuk tiga pengujian dengan ekspansi kueri dapat dilihat pada Gambar 4 dan Gambar 5. Dari grafik terlihat bahwa penggunaan metode semantic similarity dalam menghitung pembobotan kueri pada pengujian yang dilakukan untuk 30 kueri hanya mampu meningkatkan nilai precision untuk dua kueri masukan dari 30 kueri yang diujikan, dan peningkatan terjadi pada saat penambahan satu istilah ekspansi (QE1). Sedangkan pada pengujian yang dilakukan untuk 10 kueri hanya mampu meningkatkan nilai precision untuk empat kueri masukan dari 10 kueri yang diujikan, dan peningkatan terjadi pada saat penambahan satu istilah ekspansi (QX1). Pada Tabel 6 dapat dilihat perbandingan nilai AVP dari pengujian QE0, QE1, QE2, QE3, QX0, QX1, QX2, dan QX3. Pada pengujian untuk hasil temu kembali yang menggunakan ekspansi kueri (QE1, QE2, QE3, QX1, QX2, QX3) menghasilkan nilai AVP yang lebih kecil dibandingkan tanpa menggunakan ekspansi kueri (QE0, QX0) dan nilai AVP semakin menurun dengan penambahan istilah ekspansi. Hal ini dikarenakan dalam tahap kesamaan antar dokumen, setiap kandidat pasangan kata kueri yang terpilih sangat mempengaruhi perhitungan kedekatan antara kueri ekspansi dan dokumen. Sedangkan kandidat pasangan kata yang didapatkan pada proses pemilihan pasangan ekspansi cukup banyak, dan beberapa diantaranya tidak sesuai dengan konteks pencarian dan juga belum tentu setiap kandidat pasangan kata yang terpilih berada dalam satu dokumen. Masalah tersebut mengakibatkan hasil temu kembali yang diperoleh tidak sesuai dengan yang diharapkan. Akan tetapi untuk beberapa kueri masukan, hasil pencarian menggunakan ekspansi kueri dapat menghasilkan hasil pencarian yang lebih baik.
Selain itu, hal yang menyebabkan kecilnya nilai AVP dapat dikarenakan kondisi dokumen pada korpus, dimana terdapat kesalahan penulisan isi pada koleksi dokumen. Selain itu penyebab dari kecilnya nilai AVP dikarenakan untuk setiap pasang kueri dengan dokumen relevan, terdapat banyak kueri dan pasangannya yang memiliki sedikit jumlah dokumen yang relevan sehingga jika dibandingkan dengan jumlah dokumen yang besar akan menghasilkan nilai recall dan precision yang kecil. Tabel 6 Perbandingan nilai presisi sistem pada 1000 dan 2000 dokumen Average Precision Kondisi Pengujian
1000 dokumen
2000 dokumen
QE0
0.544
0.495
QE1
0.262
0.253
QE2
0.257
0.246
QE3
0.197
0.187
QX0
0.712
0.796
QX1
0.604
0.744
QX2
0.600
0.739
QX3
0.589
0.739
Pengujian juga dilakukan pada 1000 dokumen pertanian. Pada Tabel 6 terlihat bahwa hasil perbandingan pengujian 30 kueri pada 1000 dokumen dengan 2000 dokumen memperlihatkan penurunan presisi pencarian. Hal ini dapat dikarenakan jumlah dokumen yang dibandingkan dengan dengan dokumen yang relevan lebih sedikit. Sedangkan hasil perbandingan pengujian 10 kueri pada 1000 dokumen dengan 2000 dokumen memperlihatkan adanya kenaikan nilai presisi. Analisis Pembandingan Metode Ekspansi Pada penelitian sebelumnya Paiki (2006) telah menggunakan similarity thesaurus pada ekspansi kueri yang diimplementasikan pada temu kembali berbasis vektor. Pengujian untuk melihat kinerja sistem akan dilakukan dengan membandingkan antara temu kembali dengan menggunakan metode similarity thesaurus dan temu kembali dengan menggunakan metode semantic similarity. Perbandingan dilakukan pada dua kegiatan temu kembali, yaitu temu kembali lima istilah dan sepuluh istilah pada penggunan similarity thesaurus dan temu
9
kembali satu istilah dan dua istilah pada penggunaan semantic similarity. Tabel 7 menunjukkan AVP dari hasil pengujian yang dilakukan dalam penelitian sebelumnya. Tabel 7 AVP berdasarkan penelitian Paiki (2006) Average Precision Pengujian
Similarity Thesaurus
Semantic Similarity
TH5-1
0.201
0.253
TH10-1
0.166
0.246
Penelitian ini menunjukkan hasil yang relatif lebih baik daripada ekspansi kueri menggunakan similarity thesaurus (Paiki, 2006). Hal ini karena terdapat perbedaan saat pembobotan ulang kata yang terjadi setelah ekspansi kueri. Pembobotan ulang kata yang dilakukan dalam penelitian ini sangat dipengaruhi oleh setiap kandidat ekspansi kueri, sedangkan pada penelitian sebelum kandidat ekspansi tidak mempengaruhi pembobotan ulang. Sehingga bobot kueri pada penelitian ini lebih besar dibandingkan dengan penelitian yang dilakukan sebelumnnya. Pengujian metode ekspansi selanjutnya akan dibandingkan dengan penelitian yang telah dilakukan oleh Samana (2011). Dalam penelitian tersebut digunakan metode peluang bersyarat dalam pemilihan istilah ekspansi yang dihasilkan dari penerjemahan kamus dwibahasa. Pengujian untuk melihat kinerja sistem akan dilakukan perbandingan antara temu kembali menggunakan peluang bersyarat dengan temu kembali 10 kueri dengan menggunakan metode semantic similarity. Tabel 8 menunjukkan bahwa pada pengujian penambahan satu istilah ekspansi, dua istilah ekspansi, dan penambahan tiga istilah ekspansi pada penelitian sebelumnya menghasilkan nilai AVP yang lebih besar dibandingkan dengan penelitian ini. Hal tersebut dapat terjadi karena terdapat perbedaan teknik dalam pemilihan kandidat ekspansi. Dalam penelitian sebelumnya pemilihan kandidat ekspansi dipilih dengan mengggunakan nilai peluang yang tertinggi dari penerjemahan kamu dwibahasa dan pada saat ekspansi kueri dan tidak terjadi pembobotan ulang kata. Sedangkan dalam penelitian ini terjadi pembobotan ulang kata dimana pembobotan ulang kata sangat dipengaruhi oleh kandidat ekspansi yang dipilih. Teknik pemilihan kandidat ekspansi yang digunakan dalam penelitian ini masih
kurang baik dibandingkan teknik yang dilakukan dalam penelitian sebelumnya sehingga pembobotan ulang kata menghasilkan bobot yang lebih kecil dibandingkan dengan penelitian sebelumnya. Tabel 8 AVP berdasarkan penelitian Samana (2011) Average Precision Pengujian
Peluang Bersyarat
Semantic Similarity
QX1
0.784
0.744
QX2
0.765
0.739
QX3
0.734
0.739
KESIMPULAN DAN SARAN Kesimpulan Hasil penelitian menunjukkan: 1. Ekspansi kueri dengan penambahan satu istilah ekspansi menghasilkan nilai AVP dengan nilai lebih tinggi daripada penambahan dua istilah dan penambahan tiga istilah. 2. Kinerja sistem yang didapatkan sudah cukup baik bila dilakukan pengujian pada 10 kueri tidak jelas karena nilai AVP yang dihasilkan masih lebih dari 50%, dibandingkan dengan pengujian pada 30 kueri yang menghasilkan nilai AVP kurang dari 50%. 3. Ekspansi kueri dengan metode semantic Similarity mampu meningkatkan kinerja pencarian jika dibandingkan metode similarity thesaurus pada model temu kembali vektor. 4. Ekspansi kueri dengan metode semantic Similarity belum mampu meningkatkan kinerja pencarian jika dibandingkan metode peluang bersyarat dalam pemilihan istilah ekspansi yang dihasilkan dari penerjemahan kamus dwibahasa. 5. Penggunaan pasangan frase dalam menentukan kandidat istilah ekspansi tidak dapat memaksimalkan hasil pencarian dokumen dengan metode semantic Similarity. Saran Untuk penelitian selanjutnya terdapat beberapa hal yang dapat ditambahkan atau diperbaharui: 1. Menggunakan koleksi dokumen yang lebih besar.
10
2. Menggunakan thesaurus dalam menentukan istilah mana saja yang akan ditambahkan pada kueri awal.
DAFTAR PUSTAKA Hliaoutakis A, Varelas G, Petrakis EGM, Milios E. 2006. MedSearch: A Retrieval for Medical Information Based on Semantic Similarity. In: 10th ECDL European Conference on Research and Advanced Technology for Digital Libraries (ACDL 2006), Alicante, Spain 17-22. Hliaoutakis A, Varelas G, Voutsakis E, Petrakis EGM, Milios E. 2006. Information Retrieval by Semantic Similarity, Journal on Semantic Web and Information System (IJSWIS), Special Issue of Multimedia Semantics, Vol.3, No.3, Juli/September, 2006, PP. 55-73, copyright 2006, Idea Group Inc. ww.idea-group.com. Posted by Permission of the Publisher. Kartina. 2010. Analisis Pertanyaan Bernahasa Indonesia pada Question Answering System (QAS). [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Manning CD, Raghavan P, Schütze H. 2008. Introduction to Information Retrieval. America, New York. Paiki FF. 2006. Evaluasi Penggunaan Similarity Thesaurus Terhadap Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Rusidi. 2008. Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Peluang Bersyarat. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Samana MA. 2011. Ekspansi kueri Berdasarkan Kamus Dwibahasa Menggunakan Peluang Bersayarat. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Sitohang NL. 2009. Ekspansi Kueri pada Sistem Temu Kembali Informasi Menggunakan Kamus Dwibahasa. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
11
LAMPIRAN
Lampiran 1 Contoh dokumen dalam koleksi
mediaindonesia 160110 <TITLE>Lawan Produk China dengan Pertanian Kasriadi Sabtu, 16 Januari 2010 PALU--MI: Ketua Umum Himpunan Pengusaha Muda Indonesia (HIPMI) Erwin Aksa mengatakan, untuk menghadapi gempuran pasar industri produk China yang saat ini telah membanjiri pasar domestik diperlukan penguatan sektor perkebunan dan pertanian. Erwin mengakui, tantangan terbesar yang dihadapi Indonesia pasca ditandatanganinya perjanjian perdagangan bebas Indonesia-China saat ini adalah membanjirnya produk industri dari negara itu. "Ada empat hal yang diperkuat untuk menghadapi produk dari China, yakni pertambangan, perkebunan/pertanian, properti, dan infrastruktur," kata Erwin Aksa saat menghadiri Rapat Kerja HIPMI Sulteng dan Seminar Daerah Arah dan kebijakan Perkebunan Sulawesi Tengah di Palu, Sabtu (16/1). Erwin mengatakan, empat sektor itu perlu diperhatikan oleh pengusaha dalam negeri karena Indonesia memiliki sumber daya yang cukup besar di sektor tersebut yang tidak dimiliki China. Sektor perkebunan, misalnya, Indonesia memiliki luas lahan yang besar. Hanya, saat ini tidak ada lagi kapling lahan dalam jumlah yang luas. Lahan dalam jumlah besar telah dikapling oleh pengusaha-pengusaha besar. Sektor perkebunan membutuhkan keterlibatan pengusaha lokal atau daerah karena pengusaha luar negeri kurang berminat dengan lahan yang kecil. "Investor luar negeri tidak tertarik dengan lahan yang kecil. Mereka membutuhkan lahan ratusan ribu hektare untuk mengembangkan investasi perkebunan. Di sinilah perlunya keterlibatan pengusaha lokal," kata Erwin. Pemerintah daerah perlu fokus pada pembangunan perkebunan. Soalnya, untuk bersaing di sektor industri tekstil atau alas kaki, Indonesia sudah ketinggalan. Industri tersebut sudah dikuasai China. Industri tekstil di negara itu tumbuh 10 kali lipat dari industri dalam negeri. "Perkebunan rakyat perlu dikembangkan dengan memanfaatkan pengusaha-pengusaha di daerah," kata Erwin.
13
Lampiran 2 Daftar 30 kueri dan jumlah dokumen relevan Kueri
Jumlah Dokumen Relevan
gagal panen
114
petani tebu
25
industri gula
30
perdagangan hasil pertanian
56
penerapan teknologi pertanian
99
pupuk organik
66
penyakit hewan ternak
30
penerapan bioteknologi
53
laboratorium pertanian
53
riset pertanian
84
harga komoditas pertanian
65
tanaman pangan
53
kelompok tani
43
musim panen
49
tanaman obat
31
gabah kering giling
37
impor beras indonesia
50
sistem pertanian organik
28
swasembada pangan
42
penyuluhan pertanian
38
tadah hujan
29
bencana kekeringan
44
peternak ayam
30
flu burung
37
institut pertanian bogor
62
pembangunan untuk sektor pertanian
103
upaya peningkatan pendapatan petani
61
produk usaha peternakan rakyat
35
kelangkaan pupuk
35
dukungan pemerintah pada pertanian
53
14
Lampiran 3 Daftar 10 kueri dan jumlah dokumen relevan Kueri
Jumlah Dokumen Relevan
buah
157
bunga
66
ekonomi
303
hama
118
hujan
141
impor
221
lingkungan
191
panen
280
pupuk
149
tanaman
523
15