EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT
MUHAMMAD AWET SAMANA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA MENGGUNAKAN PELUANG BERSYARAT
MUHAMMAD AWET SAMANA
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
ABSTRACT MUHAMMAD AWET SAMANA. Query Expansion based on Bilingual Dictionary Using Conditional Probability. Supervised by JULIO ADISANTOSO. Query expansion is a technique that can be used to bridge vocabulary gaps between queries and documents in the collection. With query expansion, user will be helped to formulate queries well so that user will optimize the search result. In this study, the expansion term was resulted from the translation of bilingual dictionary. Subsequently, several terms of expansion were elected based on the closeness of its relationship with the original query. This research showed that conditional probability can be used to select expansion term in bilingual translation method query expansion. The result of 1000 documents was more than 97% relevan document can be retrieved by this system. The more expansion term used, the larger number relevan document was retrieved.
Keyword: query expansion, conditional probability, query translation, bilingualism dictionary
Judul
: Ekspansi Kueri Berdasarkan Kamus Dwibahasa Menggunakan Peluang Bersyarat
Nama
: Muhammad Awet Samana
NRP
: G64061749
Menyetujui:
Pembimbing,
Ir. Julio Adisantoso, M. Kom NIP. 19620714 198601 1 002
Mengetahui: Ketua Departemen Ilmu Komputer,
Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001
Tanggal Lulus:
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 14 Juni 1989. Penulis merupakan anak kedua dari empat bersaudara dari pasangan Muh. Wardani dan Budiyati. Pada Tahun 2006 penulis menamatkan pendidikannya dari SMA Islam Al Azhar Syifa Budi Jakarta dan diterima menjadi salah satu mahasiswa Institut Pertanian Bogor melalui jalur SPMB. Setahun kemudian penulis berhasil diterima menjadi salah satu mahasiswa Program Studi Ilmu Komputer IPB. Pada tahun 2008 penulis aktif di organisasi Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) dan bergabung dengan divisi networking. Pada tahun yang sama penulis juga tergabung dalam organisasi Badan Kerohanian Ilmu Komputer (BANKERS) dan menjabat sebagai sekretaris umum.
KATA PENGANTAR Alhamdulillahirobbilβalamin, segala puji syukur penulis panjatkan ke hadirat Allah SWT atas limpahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Ekspansi Kueri Berdasarkan Kamus Dwibahasa Menggunakan Peluang Bersyarat. Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada: 1.
2. 3.
4. 5. 6. 7.
Orang tua tercinta, Kakak saya Adam Ginanjar, kedua adik yang saya sayangi Moch. Zarkasi dan Siti Tinitah serta segenap keluarga besar, terima kasih atas doa dan dukungan yang diberikan. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini. Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony Hartono Wijaya, S. Kom, M.Kom selaku dosen penguji, Dr. Sri Nurdiati, MSc selaku Kepala Departemen Ilmu Komputer serta seluruh staf Departemen Ilmu Komputer FMIPA IPB. Teman-teman satu bimbingan Hendrex, Wildan, Rio, Ekachu, Iyam, Tina, Yucan, dan Adit. Terima kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini. Sahabat-sahabatku Sandi, Aadun, Windu, Ericson, Bayu dan seluruh sahabatku Ilkomerz 43. Terima kasih atas motivasi dan kebersamaannya selama ini. Sahabat-sahabatku di Kontrakan Al Kautsar Adrian, Habib, Wahyu, Wiwid, Budi, Fandi, dan lain-lain. Terima kasih atas kebersamaan dan keceriannya selama ini. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan di dalamnya. Hal ini dikarenakan oleh keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, Maret 2011
Muhammad Awet Samana
DAFTAR ISI Halaman DAFTAR GAMBAR .................................................................................................................. iv DAFTAR TABEL ...................................................................................................................... iv DAFTAR LAMPIRAN ............................................................................................................... iv PENDAHULUAN Latar Belakang......................................................................................................................... 1 Tujuan ..................................................................................................................................... 1 Ruang Lingkup ........................................................................................................................ 1 Manfaat ................................................................................................................................... 2 TINJAUAN PUSTAKA Ekspansi Kueri......................................................................................................................... 2 Penerjemahan Kueri ................................................................................................................. 2 Peluang Bersyarat .................................................................................................................... 2 Ukuran Kemiripan Cosine ........................................................................................................ 3 Evaluasi Temu Kembali Informasi ........................................................................................... 3 METODE PENELITIAN Perolehan Dokumen Pengujian ................................................................................................. 3 Pengembangan Sistem ............................................................................................................. 3 Pengujian Kinerja Sistem ......................................................................................................... 4 Analisis Pembandingan Kinerja Sistem .................................................................................... 4 Lingkungan Implementasi ........................................................................................................ 5 HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian .................................................................................................... 5 Pengembangan Sistem ............................................................................................................. 5 Pengujian Kinerja Sistem ......................................................................................................... 8 Kelemahan Sistem ................................................................................................................. 10 Analisis Perbandingan Pemilihan Istilah Ekspansi .................................................................. 10 KESIMPULAN DAN SARAN Kesimpulan............................................................................................................................ 11 Saran ..................................................................................................................................... 11 DAFTAR PUSTAKA ................................................................................................................ 11 LAMPIRAN .............................................................................................................................. 13
iii
DAFTAR GAMBAR Halaman 1 Gambaran umum sistem temu-kembali yang dikembangkan ...................................................... 3 2 Bagian dokumen yang diproses ................................................................................................. 6 3 Grafik Nilai recall dan precision dari pencarian tanpa ekspansi (QE0) ........................................ 8 4 Grafik nilai recall dan precision pada pencarian QE1 dibandingkan dengan QE0 ....................... 8 5 Grafik nilai recall dan precision pada pencarian QE2 dibandingkan dengan QE0 ....................... 9 6 Grafik nilai recall dan precision pada pencarian QE3 dibandingkan dengan QE0 ....................... 9
DAFTAR TABEL Halaman 1 Deskripsi dokumen pengujian .................................................................................................. 5 2 Nilai recall dan AVP semua kondisi pencarian .......................................................................... 9 3 Penerjemahan yang menghasilkan kata berimbuhan dari kata awal........................................... 10 4 Perbandingan nilai AVP dari kedua sistem .............................................................................. 10 5 Perbandingan nilai presisi sistem pada penggunaan 1000 dan 2000 dokumen. .......................... 11
DAFTAR LAMPIRAN Halaman 1 Daftar Kueri untuk Pengujian Waktu Pencarian Sistem ............................................................ 14 2 Contoh dokumen pengujian ..................................................................................................... 15 3 Daftar istilah kueri dan istilah hasil terjemahannya .................................................................. 16
iv
PENDAHULUAN Latar Belakang Sistem temu kembali informasi merupakan suatu sistem yang dapat membantu seseorang dalam menemukan suatu informasi yang dibutuhkannya. Sistem ini memerlukan sebuah masukan (kueri) yang akan menjadi acuan dalam menemukan informasi. Dengan kueri tersebut, sistem akan menghasilkan dokumen relevan atau dokumen yang memunyai topik yang berkaitan dengan kebutuhan informasi pengguna. Seringkali pengguna mengalami kesulitan dalam membentuk kueri yang ditujukan untuk menemukembalikan informasi hal ini dikarenakan mereka tidak mengetahui detail dari konstruksi koleksi dan lingkungan temu kembali (Baeza-Yates & Ribeiro-Neito 1999). Padahal, jumlah dokumen relevan yang diperoleh dipengaruhi oleh jumlah kata kunci dalam kueri. Hal ini akan mengakibatkan hasil pencarian yang dilakukan pun menjadi kurang optimal. Ekspansi kueri merupakan salah satu teknik yang dapat digunakan dalam membantu pengguna dalam memberikan kueri yang baik. Ekspansi kueri dapat berperan sebagai penghubung karena adanya vocabulary gaps antara kueri dan dokumen (Fang 2008). Dalam teknik ini kueri awal akan dimodifikasi dan akan ditambahkan istilah-istilah tertentu. Rusidi (2008) telah melakukan penelitian untuk menggunakan peluang bersyarat dan mengaplikasikannya dalam ekspansi kueri suatu sistem temu kembali informasi. Ia mengambil istilah ekspansi dari istilah yang berada dalam indeks dan memilihnya berdasarkan keeratan hubungan suatu istilah dengan istilah lainnya. Keeratan hubungan ini diukur dengan menggunakan peluang bersyarat. Namun, metode ini dianggap kurang mempertimbangkan apakah istilah tersebut memiliki makna yang berkaitan dan jauh dari konsep dalam kueri yang dimasukkan pengguna. Sitohang (2009) telah menggunakan metode kamus dwibahasa dalam melakukan ekspansi pada kueri pengguna. Kamus dwibahasa digunakan untuk mendapatkan padanan kata yang merupakan sinonim dari kueri atau memiliki makna yang hampir sama dengan kueri awalnya. Ia menggunakan nilai
IDF untuk memilih kueri ekspansi yang dihasilkan dari penerjemahan. Penggunaan nilai IDF ini masih dirasa kurang optimal dalam memilih istilah ekspansi. Hal ini dikarenakan kurangnya perhatian terhadap keeratan hubungan antar istilah ekspansi dengan kueri awal. Untuk itu, ada beberapa metode yang dapat digunakan dalam menemukan keeratan hubungan ini di antaranya: korelasi, ukuran kesamaan, dan dengan menggunakan peluang bersyarat. Keeratan hubungan berdasarkan kemunculan suatu objek sebaiknya menggunakan peluang bersyarat karena korelasi maupun ukuran kesamaan lainnya umumnya diberlakukan bagi data berskala ordinal atau interval (Adisantoso 1997). Penelitian ini akan berfokus pada pemilihan istilah ekspansi yang dihasilkan oleh penerjemahan dwibahasa dengan menggunakan metode peluang bersyarat. Metode ini diharapkan dapat memperoleh istilah ekspansi yang benar-benar merupakan istilah yang memiliki makna yang berkaitan sekaligus memiliki keeratan hubungan dengan kueri awal. Tujuan Penelitian ini bertujuan untuk: 1. Menerapkan metode peluang bersyarat untuk melakukan pemilihan istilah pada ekspansi kueri dengan menggunakan kamus dwibahasa. 2. Membandingkan hasil penggunaan metode peluang bersyarat ini dengan penggunaan nilai IDF sebagai ukuran dalam memilih istilah ekspansi. Ruang Lingkup Ruang lingkup penelitian ini adalah: 1. Penelitian ini akan menggunakan dokumen serta kueri berbahasa indonesia. 2. Istilah ekspansi didapatkan dari penerjemahan dengan menggunakan kamus dwibahasa Indonesia-Inggris dan Inggris-Indonesia. 3. Kamus dwibahasa yang digunakan merupakan kamus yang sama yang digunakan oleh Sitohang (2009). 4. Pada penelitian ini penulis tidak melakukan perubahan apapun terhadap dokumen uji maupun kamus dwibahasa yang digunakan.
1
5. Pembobotan kata yang digunakan dalam proses pengindeksan dokumen ialah metode pembobotan tf-idf.
memilih beberapa kueri baru yang dinilai sebagai respon dari kueri yang dimasukkan pengguna.
Manfaat
Penerjemahan Kueri
Penggunaan kamus dwibahasa dan pendekatan peluang bersyarat ini diharapkan dapat membantu pengguna sistem temu kembali untuk dapat membentuk kueri sehingga diharapkan akan menghasilkan dokumen-dokumen temu kembali yang lebih banyak dan lebih relevan.
Beberapa pendekatan yang terdapat dalam penerjemahan kueri yakni menggunakan mesin penerjemah, language specific stemmers, kamus, thesaurus, dan pembangkitan daftar istilah dwibahasa otomatis untuk menerjemahkan kueri dalam bahasa L ke dalam bahasa target Lβ (Grossman & Frieder 2004).
TINJAUAN PUSTAKA Ekspansi Kueri Suatu sistem temu kembali informasi tidak memberi tahu pengguna mengenai masalah yang ditanyakan. Sistem ini hanya memberitahukan keadaan dan keterangan dokumen yang berhubungan dengan permintaan pengguna (Rijsbergen 1979). Sistem-sistem ini bisa berupa sistem yang berdasarkan boolean, vektor maupun berdasarkan model peluang. Tiap model memiliki keterbatasan sehingga menyebabkan ketidakseimbangan proporsi jumlah dokumen yang diinginkan (relevan) dengan jumlah dokumen yang ditemu kembalikan oleh sistem. Salah satu solusi yang ada untuk mengatasinya ialah dengan menggunakan automatic query expansion (Aly 2008). Sebenarnya terdapat tiga cara yang dapat digunakan dalam melakukan ekspansi kueri yakni : manual, interaktif, dan automatic (Imran & Sharan 2009). Terkadang pengguna tidak dapat memberikan informasi yang cukup untuk melakukan ekspansi kueri (manual dan interaktif), maka dibutuhkan suatu metode ekspansi yang tidak memerlukan keterlibatan pengguna di dalamnya (automatic). Automatic query expansion (AQE) merupakan proses penambahan istilah atau frase pada kueri asli untuk meningkatkan kinerja temu kembali tanpa intervensi dari pengguna (Imran & Sharan 2009). Aly (2008) mengatakan bahwa suatu algoritme ekspansi kueri akan mengevaluasi kueri yang diberikan pada dokumen dan memilih istilah yang sesuai dari dokumen relevan. Sistem memberikan input tambahan pada kueri awal berupa kata atau frase (Manning et al 2008). Beberapa mesin pencari (dalam web) telah menggunakan teknik ini dengan menyarankan pengguna untuk
Salah satu penerjemahan yang dapat dilakukan dalam penelitian ini ialah penerjemahan kueri dengan menggunakan kamus dwibahasa. Sitohang (2009) melakukan penerjemahan kueri dengan menggunakan kamus dwibahasa. Penerjemahan ini dilakukan dengan menerjemahkan kata-perkata dari kueri. Teknik pemilihan kata hasil terjemahan adalah berdasarkan analisa statistik. Peluang Bersyarat Koopman (1997) mengemukakan bahwa peluang bersyarat B setelah A merupakan kependekan dari "peluang bersyarat bahwa B akan terjadi jika diketahui bahwa A telah atau pasti akan terjadi". Ruang contohnya telah diperkecil menjadi kejadian A. Ruang kejadiannya merupakan kejadian yang mempunyai sifat-sifat kejadian A dan B, sehingga peluang B setelah A yakni: P(B | A) =
π(A β©B) π(A )
atau P(B | A) =
π(A β©B) π(A )
Adisantoso (1997) menggunakan formula peluang bersyarat tj setelah ti yang dinyatakan sebagai berikut: P(tj | ti ) =
π(π‘ π β© π‘ π ) π(π‘ π )
dengan P(tiβ©tj) =
ππππ’πππ π¦πππ πππ π‘ π πππ π‘ π ππππ’πππ πππ πππ’ππ’ βππ
dan P(ti ) =
ππππ’πππ π¦πππ πππ π‘ π ππππ’πππ πππ πππ’ππ’ βππ
Dengan demikian peluang bersyarat tj setelah ti dapat dihitung dengan menggunakan formula:
2
P(tj|ti ) =
ππππ’πππ π¦πππ πππ π‘ π πππ π‘ π ππππ’πππ π¦πππ πππ π‘ π
Ukuran Kemiripan Cosine Ukuran cosine telah menjadi salah satu ukuran kemiripan dokumen yang populer karena kepekaannya terhadap pola vektor dokumen sekaligus ketidakpekaan terhadap variasi bobot. Pengukuran ini berdasarkan operasi inner product dan normalisasi dari panjang dokumen. Ukuran ini akan memberikan ukuran kemiripan yang tinggi ketika suatu dokumen-dokumen mempunyai pola vektor yang mirip (Jones & Furnas 1987 diacu dalam Jung et al 2007). sim(q, dj) =
π π .π (π π ) π π . π (π π )
Dengan q adalah kueri yang dimasukkan penguna dan dj adalah dokumen ke-j. π π dan π (ππ ) menjelaskan vektor dari kueri (q) dan dokumen ke-j (dj). π π dan π(ππ ) menunjukkan panjang dari vektor kueri dan vektor dokumen ke-j.
Selanjutnya penelitian ini akan dibagi ke dalam empat tahap yakni: perolehan dokumen pengujian, pengembangan sistem, pengujian kinerja sistem, dan analisis pembandingan kinerja sistem. Gambaran umum dari sistem pencarian yang dikembangkan dapat dilihat pada Gambar 1. Perolehan Dokumen Pengujian Penelitian ini akan menggunakan koleksi dokumen berita dalam bidang pertanian. Dokumen ini merupakan dokumen-dokumen berbahasa Indonesia yang berisikan sekitar 2000 buah dokumen. Dalam penelitian ini juga digunakan pasangan kueri-dokumen relevan yang diambil dari koleksi yang ada di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Kueri
Dokumen
Ekspansi Kueri
Penerjemahan Kueri
Evaluasi Temu Kembali Informasi Efektifitas merupakan suatu ukuran murni yang menyatakan kemampuan suatu sistem untuk memuaskan pengguna dalam hal relevansi dari dokumen hasil pencarian. Dua ukuran mendasar yang sering dipakai dalam menentukan efektifitas suatu sistem temu kembali informasi ialah recall dan precision. (Manning et al 2008) Recall merupakan nilai yang menyatakan proporsi antara dokumen relevan yang dihasilkan dengan keseluruhan dokumen relevan dalam koleksi, sedangkan precision menyatakan proporsi antara dokumen relevan yang dihasilkan dengan seluruh dokumen yang dihasilkan (retrieved documents). Dari berbagai tingkat recall yang ada, ratarata precision akan dihitung. Biasanya digunakan sebelas tingkat recall standar yakni 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1 (Baeza-yates & Ribeiro-Neto 1999).
METODE PENELITIAN Penelitian ini merupakan penerapan salah satu metode ekspansi kueri yang ada ke dalam sebuah sistem temu-kembali informasi. Metode yang dimaksud ialah metode penerjemahan kamus dwibahasa ditambah metode peluang bersyarat sebagai cara pemilihan istilah ekspansi yang dihasilkan.
Indexing
Pemilihan Istilah Ekspansi
Hasil Ekspansi
Pencarian Dokumen
Top n Document
Evaluasi
Gambar 1 Gambaran umum sistem temukembali yang dikembangkan Pengembangan Sistem Sistem temu-kembali yang dikembangkan merupakan suatu aplikasi berbasis web yang menggunakan bahasa pemrograman perl. Bahasa pemrograman ini dipilih karena relatif
3
mudah dan memiliki fungsi-fungsi yang mendukung dalam pengolahan teks. Terdapat beberapa modul pengerjaan dari sistem yang dikembangkan, antara lain: 1. Pengindeksan Dalam modul pengindeksan dokumendokumen yang ada akan mengalami beberapa proses yakni tokenisasi, pembuangan kata buangan (stopwords), dan melakukan pembobotan dengan metode pembobotan tf.idf. 2. Penerjemahan kamus dwibahasa Penerjemahan dilakukan untuk mendapatkan istilah lain dengan makna yang hampir serupa dengan kueri awal. Penerjemahan dilakukan dengan menggunakan database kamus yang sama dengan yang digunakan dalam penelititan Sitohang (2009). 3. Penghitungan peluang bersyarat Setelah didapatkan istilah kandidat ekspansi dari proses penerjemahan, langkah selanjutnya ialah memilih istilah mana saja yang akan ditambahkan ke dalam kueri awal. Kriteria yang dipilih untuk menambahkan istilah ekspansi ialah berdasarkan peluang bersyarat kemunculan istilah terjemahan setelah istilah kueri. 4. Pencarian dokumen Pencarian dokumen dilakukan dengan menghitung ukuran kesamaan bobot kueri dengan bobot dari dokumen. Pemberian peringkat dilakukan terhadap dokumen berdasarkan ukuran kesamaannya terhadap kueri. Pengujian Kinerja Sistem Terdapat dua hal utama yang akan diuji dari sistem yakni presisi hasil pencarian dan waktu yang dibutuhkan untuk melakukan pencarian dokumen berdasarkan kueri masukan. 1. Presisi hasil pencarian dokumen Metode evaluasi yang digunakan untuk menghitung presisi dari sistem ialah metode recall-precision. Nilai recall dan precision dari setiap pencarian dengan kueri tertentu akan dihitung dan selanjutnya diambil nilai rata-ratanya untuk mendapatkan nilai average precision dari sistem. Dengan menghitung nilai average precision dari sistem, nilai precisi sistem secara keseluruhan akan dapat
diketahui. Terdapat pula empat asumsi kondisi pengujian presisi sistem, yakni: ο· Kondisi pertama (QE0): evaluasi proses temu kembali tanpa menggunakan ekspansi kueri. ο· Kondisi kedua (QE1): evaluasi proses temu kembali dengan menambahkan satu istilah pada masing-masing kata dalam kueri. ο· Kondisi ketiga (QE2): evaluasi proses temu kembali dengan menambahkan dua istilah pada masing-masing kata dalam kueri. ο· Kondisi keempat (QE3): evaluasi proses temu kembali dengan menambahkan tiga istilah pada masing-masing kata dalam kueri. Evaluasi presisi pencarian sistem akan diuji pada dua jenis koleksi dokumen pengujian. Koleksi pertama ialah menguji sistem pada pengolah 1000 dokumen dan membandingkan hasil presisi dengan hasil penelitian Sitohang (2009). Koleksi kedua ialah koleksi dokumen yang memiliki ukuran lebih besar yakni 2000 dokumen. 2. Waktu pencarian dokumen Untuk mengetahui seberapa cepat sistem menemukembalikan dokumen digunakan beberapa macam kueri masukan. Kueri ini dibagi berdasarkan jumlah kata yang terdapat dalam masing-masing kueri, yakni satu, dua, tiga, empat, dan lima kata dalam masingmasing kueri. Selanjutnya pengujian akan dipisah berdasarkan menu pencarian yang ada dalam sistem (QE0, QE1, QE2, dan QE3). Untuk setiap menu akan dilakukan proses pencarian dengan sebuah kueri sebanyak lima kali ulangan. Daftar kueri yang digunakan untuk pengujian ini dapat dilihat pada Lampiran 1. Analisis Pembandingan Kinerja Sistem Penelitian ini menggunakan metode penerjemahan yang sama dengan penelitian yang telah dilakukan oleh Sitohang(2009) untuk mendapatkan istilah ekspansi dari kueri awal. Walaupun menggunakan cara yang sama dalam mendapatkan istilah ekspansinya, penelitian ini menggunakan metode berbeda dalam memilih istilah mana saja yang akan ditambahkan pada kueri awal. Analisis lebih jauh diperlukan untuk membandingkan hasil pemilihan istilah yang menggunakan nilai IDF pada penelitian Sitohang (2009) dengan penggunaan peluang bersyarat. Dengan demikian dapat diketahui
4
metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal.
ο·
Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu: 1. Windows Vista Bussiness SP2 sebagai sistem operasi, 2. Strawberry-perl 5.10.1.0 sebagai interpreter bahasa pemrograman perl yang digunakan, 3. Apache xampp-win32-1.7.1 sebagai web server,
5. Microsoft Excell 2007 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras yang digunakan untuk penelitian meliputi: 1. Intel(R) Core(TM) 2 Duo CPU @2GHz, 2. RAM 2 GB, 3. Harddisk dengan kapasitas 160 GB.
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Penelitian ini menggunakan 2000 buah dokumen yang berasal dari Laboratorium Temu Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1. Tabel 1 Deskripsi dokumen pengujian
Ukuran keseluruhan dokumen
ο· ο·
Pengembangan Sistem 1. Pengindeksan
4. Notepad++ 5.8.2, dan
Uraian
ο·
beberapa tag-tag lain yang lebih spesifik di dalamnya.
, tag ini menunjukkan ID dari dokumen. ID yang ada merupakan kombinasi dari nama sumber berita, tanggal berita, urutan berita dengan sumber dan tanggal yang sama.
, menunjukkan tanggal dari berita
, menunjukkan penulis dari berita tersebut.
, tag ini menunjukkan isi dari dokumen.
Nilai (byte) 6.472.697
Ukuran rata-rata dokumen
3236
Ukuran dokumen terbesar
54.082
Ukuran dokumen terkecil
412
Contoh dari dokumen pengujian dapat dilihat pada Lampiran 2. Dokumen ini merupakan dokumen plain-text yang memilki struktur XML di dalamnya. Isi dari dokumen dikelompokan ke dalam tag-tag sebagai berikut: ο·
, tag ini mewakili keseluruhan dokumen. Tag ini melingkupi
Modul paling awal yang dikerjakan dalam pengembangan sistem ini ialah modul pengindeksan dokumen. Pengindeksan dokumen yang dilakukan meliputi proses tokenisasi, pembuangan stopword, dan pembobotan dengan menggunakan metode pembobotan tf-idf. Tokenisasi merupakan proses yang dilakukan untuk memecah isi dokumen menjadi token-token. Proses tokenisasi dilakukan berdasarkan langkah-langkah berikut: ο· Proses tokenisasi tidak dilakukan pada seluruh bagian dokumen, tetapi hanya pada bagian yang diapit oleh tag-tag <TITLE><TITLE> dan
. Gambar 2 menunjukkan ilustrasi bagianbagian dokumen yang diproses. ο· Semua huruf dalam dokumen diubah menjadi huruf kecil. Penyeragaman ini dilakukan agar token yang sama namun memiliki besar kecil huruf yang berbeda tidak dianggap menjadi token-token yang berbeda. ο· Karakter-karakter yang akan yang akan dijadikan sebagai pemisah token didefinisikan dengan ekspresi regular berikut: [\s+\/%,.\"\];()*<>&\':=`?\[!@]+
Selanjutnya pembuangan stopword dilakukan pada hasil tokenisasi dokumen. Hal ini bertujuan untuk menghilangkan kata-kata yang dianggap tidak penting seperti: kata sambung, kata keterangan, kata depan, kata ganti, kata dengan partikel (-lah, -kah, -pun), dan kata-kata tidak penting lainnya yang mempunyai frekuensi kemunculan tinggi. Kata-kata tersebut dianggap tidak penting karena dianggap kurang bisa mencirikan dokumen yang mengandungnya. Sebagai
5
contoh: kata βadalahβ merupakan kata yang tidak penting. Kata ini mungkin terdapat hampir di setiap dokumen sehingga tak dapat mencirikan dokumen tertentu.
situshijau180603002 <TITLE> Ditunggu, PP Pembebasan............. ................................ .... Kamis, 15 Februari 2001 Ely Pemerintah hendaknya segera......... ................................ ....
bagian dokumen yang digunakan untuk proses tokenisasi
Gambar 2 Bagian dokumen yang diproses Setelah dilakukan tokenisasi berikut pembuangan stopword, token-token yang dihasilkan akan diberi bobot tertentu. Metode pembobotan yang digunakan ialah metode pembobotan tf-idf. Pembobotan dilakukan dengan menggunakan lima fungsi utama dari program pengindeksan yang diberi nama Indexing.pl. Kelima fungsi utama tersebut antara lain: ο· Fungsi untuk mendapatkan frekuensi tiap token di dalam setiap dokumen (TF). ο· Fungsi untuk mendapatkan jumlah dokumen yang mengandung token tertentu (DF). ο· Fungsi untuk mendapatkan nilai IDF (Inverse document frequency) dari setiap token. Nilai IDF ini didapatkan dengan menggunakan rumus: idft = log
df t N
dengan dft merupakan nilai df (jumlah dokumen yang mengandung token tertentu) dan N merupakan jumlah dokumen yang ada dalam koleksi. ο· Fungsi untuk mendapatkan nilai tf-idf dari setiap token. Nilai tf-idf ini didapatkan dengan menggunakan rumus: tf-idft = tft * idft
dengan tf merupakan frekuensi kemunculan kata dalam dokumen dan idf merupakan nilai invers document frequency dari kata tersebut. ο· Fungsi untuk mengetahui panjang dari masing-masing dokumen. Nilai ini diperlukan karena dokumen pengujian dimodelkan menjadi ruang vektor (vektor space model). Nilai-nilai yang dihasilkan setiap fungsi disimpan dalam bentuk file hash dengan ekstension β.datβ. Dalam pemrograman perl file ini dapat langsung digunakan dengan menggunakan fungsi retrieve (). Hash yang sebelumnya sudah dibuat akan disimpan di-memory. Jadi lebih mudah dan cepat untuk menggunakan hash berukuran besar dalam program yang berbeda. Sebagai contoh, jika ingin mendapatkan nilai IDF dari suatu kata, maka dapat digunakan cuplikan program yang ada pada Modul 1. Modul 1 # retrieve hasil pengindeksan my $indexingResult = retrieve(βStored File/IndexingResult.datβ) or die $!; # nilai IDF hasil pengindeksan my %idfterm = ${$IndexingResult->{βidfβ}}; # nilai Idf untuk kata βtaniβ $tani_idf = $idfterm{βtaniβ} ;
2. Penerjemahan Kamus Dwibahasa Penerjemahan kamus dwibahasa dilakukan dengan tujuan mendapatkan istilah lain dengan makna yang sama atau berkaitan dengan kueri awal. Penerjemahan dilakukan dengan mengikuti Algoritme 1. Algoritme 1 Untuk setiap kata dalam kueri lakukan: Ambil hasil terjemahan dari kamus Indonesia-Inggris. Untuk setiap kata hasil penerjamahan, lakukan: Ambil hasil terjemahan dari kamus InggrisIndonesia.
6
Algoritme 1 merupakan algoritme yang sama yang digunakan oleh Sitohang (2009) dalam mendapatkan istilah ekspansi bagi penelitiannya. Selain menggunakan algoritme yang sama, penelitian ini juga menggunakan kamus yang sama untuk melakukan penerjemahan kueri awal. Penerjemahan kueri akan dilakukan sebanyak pencarian yang dilakukan. Dengan demikian eksekusi kueri pada database juga akan dilakukan dalam jumlah yang sama. Penggunaan database untuk penerjemahan ini akan memperbanyak waktu yang dibutuhkan untuk melakukan pencarian. Jadi perlu dicari bentuk penerjemahan yang lebih baik untuk mengoptimalkan waktu pencarian. Untuk membuatnya lebih efisien, penggunaan database akan digantikan dengan hash. Hal ini hampir serupa dengan penggunaan hash pada modul pengindeksan. Untuk melakukan penerjemahan hal yang perlu dilakukan hanyalah mengakses alamat dari hash tersebut. Contoh yang sederhana dari penggunaan hash ini dapat dilihat pada cuplikan program berikut: $transpetani= $hK{βpetaniβ};
digunakan semuanya. Penambahan istilah ekspansi yang terlalu banyak hanya akan mengurangi kinerja sistem temu kembali. Untuk itu diperlukan suatu ukuran untuk dapat memilih istilah ekspansi yang dapat digunakan. Ukuran yang digunakan dalam penelitian ini ialah peluang bersyarat kemunculan bersama antara kueri dan istilah ekspansinya. Peluang bersyarat ini akan menggambarkan suatu keterkaitan antara kata dalam kueri awal dan hasil terjemahannya. Ilustrasi penentuan nilai peluang bersyarat antara kata βhujanβ dengan istilah hasil terjemahannya dapat dilihat pada Modul 3. Modul 3 $hExp{hujan}{awan}= 0.9 $hExp{hujan}{megnhujani}= 0 $hExp{hujan}{menghujan}= 0 $hExp{hujan}{musim}=0.336
Selanjutnya akan dipilih tiga istilah dengan nilai peluang bersyarat tertinggi serta nilai peluang bersyaratnya > 0. Hasilnya disimpan dalam sebuah file yang berisi hash dengan struktur yang dapat diilustrasikan pada Modul 4.
Cuplikan program ini akan mengembalikan hasil penerjemahan dengan kamus dwibahasa ke variabel $transpetani. Cara ini dianggap lebih efisien daripada harus melakukan eksekusi kueri pada tiap kata yang ingin diterjemahkan.
Modul 4
Untuk mengubah bentuk kamus yang berupa database menjadi bentuk hash digunakan sebuah program sederhana getHashKamus.pl. Program ini melakukan penerjemahan berdasarkan Algoritme 1. Hasil penerjemahan diberikan dalam bentuk array seperti ilustrasi pada Modul 2.
Proses pencarian dokumen dilakukan sesuai dengan pilihan tindakan ekspansi yang dipilih oleh pengguna. Terdapat empat pilihan tindakan ekspansi di dalam sistem ini, di antaranya: pencarian tanpa melakukan ekspansi pada kueri, satu istilah ekspansi, dua istilah ekspansi, dan tiga istilah ekspansi. Masing-masing angka di atas menunjukkan jumlah istilah ekspansi yang ditambahkan pada tiap kata dalam kueri awal.
Modul 2 $hK{menyandang}[0]= $hK{menyandang}[0]= $hK{menyandang}[0]= $hK{menyandang}[0]= $hK{menyandang}[0]= $hK{menyandang}[0]=
mengangkat membawa memenangkan menggotong menerima meloloskan
Hasil penerjemahan serupa yang dilakukan pada beberapa kata dalam kueri uji dapat dilihat pada Lampiran 3.
$hExp{hujan}[0]= musim $hExp{hujan}[0]= awan
4. Pencarian Dokumen
Hasil dari proses pencarian dokumen merupakan dokumen-dokumen yang dianggap memiliki kemiripan dengan kueri yang diberikan atau memiliki nilai ukuran kesamaan > 0. Pemeringkatan dokumen hasil pencarian juga dilakukan dan disajikan berdasarkan urutan menurun dari nilai ukuran kesamaannya.
3. Penghitungan Peluang Bersyarat Istilah-istilah baru yang didapatkan dari proses penerjemahan tidaklah dapat
7
Pengujian Kinerja Sistem 1. Pengujian Presisi Pencarian Dokumen Proses evaluasi dalam penelitian ini menggunakan 30 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan dengannya. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan precision dari sistem. Nilainilai ini diukur dari setiap dokumen yang dihasilkan dari proses pencarian atau yang memiliki ukuran kesamaan > 0. Setelah didapatkan nilai-nilai recall dan precisionnya, interpolasi dilakukan untuk mendapatkan nilai average precision yang akan menggambarkan bagaimana kinerja dari sistem secara keseluruhan. Pada tahap awal akan dihitung hasil pengujian untuk pencarian dokumen tanpa melakukan ekspansi (QE0). Gambar 3 merupakan grafik recall dan precision untuk hasil pencarian tanpa ekspansi dari ke-30 kueri uji yang ada. 1 0,9 0,8 Precision
0,7 0,6 0,5
menambahkan istilah ekspansi pada kueri awal. Hasil dari masing-masing pengujian akan dibandingkan dengan pencarian tanpa ekspansi (QE0). a. QE1 dibandingkan dengan QE0 QE1 merupakan kondisi pengujian dengan melakukan pencarian dokumen disertai dengan penambahan satu istilah ekspansi pada masing-masing kata dalam kueri awal. Istilah yang ditambahkan tidak lain adalah istilah terjemahan masing-masing kata yang memiliki nilai peluang bersyarat tertinggi. QE1 menghasilkan pencarian dengan nilai recall rata-rata sebesar 0.982. Hal ini menunjukkan bahwa 98,2% dari total dokumen relevan yang ada dalam koleksi dokumen dihasilkan dari tiap pencarian dengan kueri uji. Nilai ini lebih tinggi 0,7% dibandingkan pencarian yang dilakukan tanpa penambahan istilah ekspansi. Walaupun dapat meningkatkan nilai recall, pencarian dengan kondisi ini dapat menurunkan nilai presisi dari hasil pencarian. Nilai AVP dari kondisi pencarian ini ialah sebesar 0.487 atau 0.043 lebih rendah daripada nilai AVP yang dimiliki pencarian tanpa tambahan istilah ekspansi (QE0). Grafik perbandingan nilai presisi pencarian antara QE1 dan QE0 dapat dilihat pada Gambar 4.
0,4 0,3
1
0,2
0,9
0,1
0,8
0
QE0 QE1
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Recall
1
Gambar 3 Grafik Nilai recall dan precision dari pencarian tanpa ekspansi (QE0) Nilai recall dan precision dari pencarian tanpa ekspansi ini akan digunakan sebagai pembanding oleh pencarian yang menggunakan ekspansi, baik satu, dua, maupun pencarian yang menggunakan tiga buah ekspansi dari setiap kata dalam kueri awal. Nilai recall yang dihasilkan dari menu pencarian ini rata-rata sebesar 0,975. Nilai average precision (AVP) dari menu pencarian ini sebesar 0,530. Hal ini menunjukkan bahwa pencarian tanpa ekspansi yang dilakukan sistem ini rata-rata menemukembalikan 97,5% dokumen relevan dari semua dokumen relevan yang ada dalam koleksi dokumen. Tiga kondisi pengujian selanjutnya yakni QE1, QE2, dan QE3 merupakan pengujian untuk pencarian yang dilakukan dengan
Precision
0,7 0
0,6 0,5 0,4 0,3 0,2 0,1 0 0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Recall
1
Gambar 4 Grafik nilai recall dan precision pada pencarian QE1 dibandingkan dengan QE0 b. QE2 dibandingkan dengan QE0 Kondisi pengujian ini melakukan pencarian dengan menambahkan dua istilah ekspansi pada setiap kata dalam kueri awal. Hasil pencarian QE2 menghasilkan nilai recall rata-rata sebesar 0,982. Dengan melihat nilai recall yang dimilikinya dapat diketahui bahwa rata-rata 98,2% dari total dokumen
8
relevan yang ada dalam koleksi dokumen dapat dihasilkan dari tiap pencarian. Namun, seperti halnya QE1, penambahan dua istilah ekspansi pada setiap kata dalam kueri awal ini dapat pula menurunkan nilai presisi pencarian jika dibandingkan dengan pencarian tanpa ekspansi (QE0). Dengan kondisi pencarian QE2 terjadi penurunan nilai presisi menjadi 0.453. Penurunan ini malah lebih parah jika dibandingkan dengan QE1. Grafik perbandingan nilai presisi pancarian antara QE2 dengan QE0 dapat dilihat pada Gambar 5. 1 0,9
QE0
0,8
QE2
Precision
0,7 0,6 0,5
pencarian QE0, QE1, QE2, dan QE3. Tabel 2 juga menunjukkan bahwa semakin banyak istilah ekspansi yang ditambahkan pada kueri awal maka semakin tinggi rata-rata nilai recall hasil pencariannya. Dapat pula dikatakan akan semakin banyak dokumen relevan yang ditemukembalikan pada hasil pencarian. Meskipun banyak dokumen relevan yang ditemukembalikan, namun penurunan nilai precision dari hasil pencarian tetap terjadi. Hal ini dikarenakan penambahan istilah yang dilakukan mengakibatkan dokumen-dokumen yang tak relevan juga ikut ditemukembalikan oleh sistem. Dokumen-dokumen tak relevan ini sebagian menempati peringkat yang lebih tinggi daripada dokumen relevan yang ditemukembalikan sehingga nilai precision menjadi lebih rendah dibandingkan dengan pencarian yang tidak menggunakan penambahan istilah ekspansi.
0,4
0,3 0,2
1
0,1
0,9
0
0,8 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Recall
1
Gambar 5 Grafik nilai recall dan precision pada pencarian QE2 dibandingkan dengan QE0
QE3
0,7 Precision
0
QE0
0,6 0,5 0,4 0,3 0,2
c. QE3 dibandingkan dengan QE0 Seperti halnya QE2 dan QE1, QE3 juga melakukan pencarian yang disertai dengan penambahan istilah ekspansi pada setiap kata dalam kueri awal. Jumlah istilah yang ditambahkan pada kondisi pencarian QE3 ialah sebanyak tiga istilah ekspansi pada masing-masing kata dalam kueri awal. Hasil pencarian QE3 dapat memberikan nilai recall rata-rata sebesar 0.983. Sebesar 98,3% dari total dokumen relevan dapat dikembalikan dengan kondisi pencarian QE3. Nilai ini lebih tinggi dibandingkan tiga kondisi pencarian lainnya yakni QE0, QE1, dan QE2. Walaupun demikian nilai presisi atau precision yang dihasilkan dari kondisi pencarian ini merupakan yang terendah dibandingkan dengan tiga kondisi pencarian lainnya. Nilai precision yang dihasilkan dari kondisi pencarian QE3 ialah sebesar 0.435. Grafik perbandingan nilai recall dan precision dari QE0 dan QE3 dapat dilihat pada Gambar 6. Tabel 2 akan menampilkan nilai rata-rata recall dan AVP untuk masing-masing kondisi
0,1 0
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Recall
1
Gambar 6 Grafik nilai recall dan precision pada pencarian QE3 dibandingkan dengan QE0 Tabel 2 Nilai recall dan AVP semua kondisi pencarian Kondisi Pencarian QE0
Nilai Recall 0.975
Nilai AVP
QE1
0.982
0.487
QE2
0.982
0.453
QE3
0.983
0.435
0.530
2. Pengujian Waktu Pencarian Dokumen Pengujian Untuk setiap kueri pengujian yang ada dalam Lampiran 1, dilakukan pencarian sebanyak lima kali ulangan. Hasil yang diperolah yakni tidak ditemukannya pengaruh secara nyata dari banyaknya kata dalam kueri terhadap waktu yang dibutuhkan utnuk
9
melakukan sebuah pencarian. Hal ini tidak hanya berlaku untuk pencarian tanpa ekspansi (QE0), tetapi juga untuk pencarian yang dilakukan dengan menggunakan ekspansi (QE1, QE2, dan QE3). Kelemahan Sistem Salah satu kelemahan utama dari sistem yang dikembangkan yakni algoritme penerjemahan yang digunakan. Algoritme penerjemahan yang ada dalam penelitian ini terkadang menghasilkan istilah ekspansi yang terlihat seperti hanya diberi imbuhan dan bukan diterjemahkan. Pada Lampiran 3 dapat dilihat beberapa kata yang diterjemahkan menjadi kata awal yang hanya diberi imbuhan saja. Beberapa dari kata tersebut ditunjukkan pada Tabel 3. Selain itu algoritme penerjemahan yang digunakan merupakan penerjemahan word-byword atau penerjemahan kata-per-kata. Dengan penerjemahan seperti ini, dua kata yang merupakan frase akan dikenali sebagai dua kata terpisah tanpa ada keterkaitan. Untuk mengujinya, penulis memasukkan kata βrumah sakitβ. Terjemahan yang diharapkan untuk kata ini ialah βhospitalβ. Lain halnya dengan hasil yang didapatkan dengan algoritme penerjemahan ini. Kata terjemahan yang dihasilkan ialah βhouseβ dan βillβ. Jadi penerjemahan dilakukan secara terpisah untuk masing-masing kata βrumahβ dan βsakitβ. Tabel 3 Penerjemahan yang menghasilkan kata berimbuhan dari kata awal kueri
Istilah terjemahan
pupuk
Memupuk
harga
Dihargai, menghargai, berharga
Tani
Petani
Analisis Perbandingan Pemilihan Istilah Ekspansi Penelitian ini menggunakan metode ekspansi kueri yang sama dengan ekspansi kueri yang dilakukan oleh Sitohang (2009). Namun penelitian ini memiliki beberapa perbedaan dalam hal metode pemilihan istilah ekspansi yang digunakan. Sitohang (2009) menggunakan nilai IDF sebagai ukuran utama untuk menentukan pemilihan istilah ekspansi yang akan ditambahkan pada kueri awal, sedangkan penelitian ini menggunakan peluang kejadian bersama antara dua istilah.
Penelitian Sitohang (2009) hanya menunjukkan 2 dari 30 kueri uji yang mengalami peningkatan nilai AVP setelah dilakukan ekspansi kueri terhadapnya. Peningkatan tersebut terjadi pada penambahan satu istilah ekspansi pada masing-masing kata pada kueri awal. Pada penelitian ini keberhasilan kueri uji dalam meningkatkan nilai AVP terjadi pada setiap kondisi pengujian. QE1 menunjukkan bahwa 7 dari 30 kueri pengujian mengalami peningkatan AVP. QE2 menunjukkan bahwa 7 dari 30 kueri uji mengalami peningkatan nilai AVP dan kondisi pengujian QE3 menunjukkan bahwa 5 dari 30 kueri mengalami peningkatan nilai AVP. Perbandingan nilai AVP untuk tiap kondisi pengujian dapat dilihat pada Tabel 4. Tabel 4 Perbandingan nilai AVP dari kedua sistem Average Precision Kondisi Pengujian
Pemilihan dengan Nilai IDF
Pemilihan dengan Peluang bersyarat
QE0
0.524
0.530
QE1
0.461
0.487
QE2
0.429
0.453
QE3
0.407
0.435
Pada Tabel 4 dapat dilihat bahwa pada tiap kondisi pengujian yang sama penggunaan peluang bersyarat memberikan hasil yang lebih tinggi. Pada pengujian QE0 sistem ini memiliki nilai AVP yang lebih tinggi daripada sistem yang dikembangkan dalam penelitian Sitohang (2009). Hal ini dapat disebabkan perlakuan tokenisasi yang berbeda pada saat proses pengindeksan dokumen. Selain itu penelitian ini juga menggunakan pembuangan stopword dengan daftar stopword yang berbeda. Proses pengindeksan yang dilakukan Sitohang(2009) menghasilkan 23.775 istilah berbeda dari 1000 dokumen pengujian. Sementara penelitian ini menghasilkan 24.443 istilah berbeda dari penggunaan dokumen pengujian yang sama. Hasil yang lebih tinggi juga terdapat pada nilai AVP pencarian yang menggunakan tambahan istilah ekspansi. Baik QE1, QE2,
10
maupun QE3 memperlihatkan bahwa ekspansi yang dilakukan pada penelitian ini memiliki hasil yang lebih baik daripada penelitian Sitohang (2009). Penelitian ini menggunakan metode yang sama dalam mendapatkan istilah ekspansinya yakni dengan menggunakan metode penerjemahan kamus dwibahasa. Dengan metode ini kedua penelitian menghasilkan sejumlah istilah yang sama yang dapat ditambahkan ke dalam kueri awal. Kedua penelitian ini menjadi berbeda ketika akan memilih istilah mana saja yang akan ditambahkan ke dalam kueri. Sitohang (2009) memilih nilai IDF sebagai ukuran untuk memilih istilah terjemahan yang akan ditambahkan ke dalam kueri. Nilai IDF merupakan nilai yang menunjukkan tingkat kepentingan suatu kata dalam koleksi. Semakin tinggi nilai IDF berarti semakin jarang kata itu muncul di banyak dokumen dan semakin mungkin kata itu dapat digunakan untuk mencirikan suatu dokumen. Dengan mengunakan nilai IDF sebagai pemilihan istilah ekspansi berarti mengambil istilah terjemahan yang merupakan kata terpenting untuk ditambahkan ke dalam kueri awal. Mengingat algoritme penerjemahan yang kurang baik digunakan dalam penelitiannya maka tingkat kepentingan kata menjadi kurang berarti. Peluang bersyarat yang digunakan dalam penelitian ini dapat sedikit mengatasi masalah penerjemahan tersebut. Walaupun hasil terjemahan yang didapat kurang mencapai konsep kueri, namun dengan peluang bersyarat pencarian akan tetap berada pada sekitar kata yang memiliki keterkaitan dengan kueri awal. Pengujian pada koleksi dokumen yang lebih besar Pengujian ini menggunakan tambahan 1000 dokumen lagi pada koleksi dokumen sebelumnya. Total 2000 dokumen digunakan pada pengujian ini. Pengujian ini juga menggunakan kueri-kueri yang telah ditentukan dokumen-dokumen mana yang relevan dengannya. Ternyata sistem memperlihatkan penurunan presisi pencarian jika dilakukan penambahan dokumen terhadapnya. Tabel 5 di bawah ini akan memperlihatkan perbandingan nilai presisi sistem pada penggunaan 1000 dan 2000 dokumen.
Tabel 5 Perbandingan nilai presisi sistem pada penggunaan 1000 dan 2000 dokumen. Average Precision Kondisi Pengujian
1000 dokumen
2000 dokumen
QE0
0.530
0.470
QE1
0.487
0.421
QE2
0.453
0.385
QE3
0.435
0.368
KESIMPULAN DAN SARAN Kesimpulan Hasil penelitian ini menunjukkan bahwa: 1. Ekspansi kueri yang dilakukan pada sistem ini akan mengakibatkan menurunnya nilai presisi bila dibandingkan dengan pencarian tanpa melakukan ekspansi kueri. 2. Metode pemilihan istilah ekspansi dengan peluang bersyarat relatif lebih baik jika dibandingkan dengan penggunaan nilai IDF pada metode ekspansi yang sama, yakni metode penerjemahan kamus dwibahasa. 3. Banyaknya kata dalam kueri tidak memiliki pengaruh secara nyata terhadap waktu pencarian sistem. Saran Untuk penelitian-penelitian yang berkaitan dengan ekspansi kueri, disarankan untuk melakukan penelitian dengan: 1. Penggunaan koleksi dokumen yang lebih besar 2. Penggunaan metode pembobotan lainnya, seperti BM25. DAFTAR PUSTAKA Adisantoso J. 1997. Temu Kembali Infomasi Menggunakan Peluang Bersyarat. Tesis. Program Studi Ilmu Komputer Universitas Indonesia. Jakarta. Aly AA. 2008. Using a Query Expansion Technique to Improve Document Retrieval. Information Technologies and Knowledge, vol. 2. Baeza-Yates R, Riberio-Neito B. 1999. Modern Information Retrieval. New York, Adison Weasley.
11
Fang H. 2008. A Re-examination of Query Expansion Using Lexical Resources. Proceedings of ACL-08. Hal. 139-147. Grossman DA, Frieder O. 2004. Information Retrieval: Algorithms and Heuristics Second Edition. Springer, Netherlands. Imran H, Sharan A. 2009. Thesaurus and Query Expansion. International Journal of Computer science & Information Technology (IJCSIT), Vol 1, No 2 Jung Y, Park H, Du D. 2007. A Balance TermWeighting Scheme For Improve Document Comparison And Classification. Departemen of Computer Science and Engineering, University of Minnesota, Minneapolis. Koopmans, L.H. 1997. Pengantar ke Statistika Kontemporer. Terjemahan: Bambang Sumantri, Departemen Statistika IPB Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. America, New York. Rijsbergen CJ. 1979. Information Retrieval Second Edition. Butterworths, London. Rusidi. 2008. Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Peluang Bersyarat. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Sitohang, NL. 2009. Ekpansi Kueri pada Sistem Temu Kembali Informasi Menggunakan Kamus Dwibahasa. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
12
LAMPIRAN
Lampiran 1 Daftar Kueri untuk Pengujian Waktu Pencarian Sistem Banyak kata dalam kueri
Kueri Petani Sawah
1 kata
Ladang Instesifikasi Irigasi Hama padi Sistem ijon
2 kata
Harga gabah Masa tanam Ladang jagung Manfaat intensifikasi pertanian Sistem perikanan tambak
3 kata
Kerugian pupuk kimia Sawah tadah hujan Usaha perkebunan rakyat Mahasiswa institut pertanian bogor Pendidikan pertanian bagi remja
4 kata
Prospek usaha tani gurem Hasil pertanian dalam negeri Investasi perkebunan dalam negeri Program kerja menteri pertanian indonesia Perkembangan teknologi pertanian dalam negeri
5 kata
Sistem pertanian tradisional rakyat daerah Penyebaran penyakit kuku dan mulut di Indonesia Usaha menuju swasembada pangan Indonesia
14
Lampiran 2 Contoh Dokumen Pengujian
indosiar300703-001 <TITLE>Meski Diambil Alih, Distribusi dan HET Pupuk Tetap Pataruddin/Idh 30/7/2003 indosiar.com, Makassar - Meski terjadi pengalihan distribusi pupuk di wilayah timur oleh PT Pupuk Kaltim (PKT), masalah distribusi dan Harga Eceran tertinggi (HET) pupuk tetap.
Menurut Kepala Wilayah Pusri Abdul Wasji, sudah ada kerjasama, termasuk pengantongan
semuanya akan berlabel PKT, begitupula dengan masalah distribusi mulai dari lini 1 (kota provinsi) hingga lini 4 (kota kecamatan) akan ditangani PKT dengan tetap memakai distribusi Pusri.
Sementara Muhammad Hasyim Jafar, distributor CV Astri berharap kepada PKT agar dalam
pendistribusian pupuk nantinya tetap ditangani oleh distributor yang ada dan sudah menjadi rekanan Pusri selama ini. ''Ini bisa menjadi gejolak nantinya,'' ujar Hasyim.
Sementara itu, terkait dengan rencana subsidi pupuk yang mulai berlaku 1 Agustus besok,
ditegaskan PKT dan Pusri bahwa tidak ada penurunan harga. Sebab pemberian subsidi tersebut bukan untuk pupuk, namun ditujukan untuk pembelian gas bagi produsen. Sehingga Harga Eceran tertinggi (HET) yang berlaku secara nasional itu tetap Rp 1.150.
Meski ada subsidi, harga pupuk tidak akan mengalami perubahan. Alasannya karena subsidi
yang diberikan adalah kepada produsen untuk pembelian gas yang mengalami kenaikan dari harga sebelumnya US$ 1.000 naik menjadi US$1.800. Apalagi dalam SK Menteri Pertanian menyebutkan bahwa harga eceran tertinggi untuk pupuk secara nasional sebesar Rp1.150 perkilogram.
Sementara itu menyangkut apakah kemungkinan akan dilakukan pengalihan aset Pusri kepada
PKT, Triyoga mengaku belum sampai ke sana. Karena dalam operasionalnya nanti, PKT akan tetap memanfaatkan jaringan-jaringan distribusi serta gudang-gudang milik Pusri. Jadi pada dasarnya, aset milik Pusri tidak akan mengalami pengalihan.
15
Lampiran 3 Daftar Istilah Kueri dan Istilah Hasil Terjemahannya Kueri
Istilah hasil terjemahan
Ayam
Ditakuti, jago, keran, jantan, melirik, mudah
Bencana
Mala, petaka, merusakkan, malapetaka, kegagalan, kerusakan, besar
Beras
Nasi, gabah, padi
Dukungan
Penyokong, sokongan, sandaran, menyangga, tiang, dinding, penyangga, persetujuan, bantuan, membantu
Flu
Pingsan, pilek, nada, berdarah, huruf, dingin, angin, tertarik, kelas, angka, mata, sekali, pertama, masuk, satu
Gabah
Tangkai, mengejar, padang, mengikuti, batang, sawah, padi
Gagal
Lalai, menjatuhkan, lupa, gangguan, kelemahan, kegagalan, meninggalkan, jatuh, kerusakan, kekurangan, rusak
Giling
Menggiling, pemintalan, menggulung, gulungan, menggelinding, gulung, penggilingan, rol
Gula
Manisan, sayang, apel, enak, manis, uang, hati, bersifat, membuat, hadiah,
Harga
Menghargai, berharga, ganti, ongkos, dihargai, korban, menetapkan, menilai, harganya, meminta, nilai
Hasil
Mengalah, menyerah, panenang, gandum, pemilihan, sukses, keberhasilan, karya, mengakibatkan, menghasilkan, kali, panen, produksi, pertanian
Hewan
Hewani, binatang, protein, pemeliharaan, ilmu, peternakan
Hujan
Awan, hujan, turun, musim
Impor
Membawakan, menyadarkan, pengimpor, mendatangkan, diimpor, mengajukan, importir, mengadakan, mengimpor, membawa, menimbulkan, barang, kepetingan, menyebabkan, menghasilkan, perdagangan, luar, negeri
Indonesia
Bahasa
Industri
Baja, kerajinan, perindustrian, proyek, kota
Institut
Mengadakan, lembaga
Kekeringan
Mengeringkan, dikeringkan, pengeringan, sifat, kemarau, sekali, kering, musim, masa
Kelangkaan
Bakar, kayu, kekurangan
Kelompok
Pengelompokan, grup, berkumpul, tandan, sekelompok, anggur, kategori, golongan, buah, kelompok, kecil
Kering
Mengeringkan, gersang, dikeringkan, pengeringan, menarik, menguntungkan, tanah
Komoditas
Dagangan, keperluan, pokok, barang, utama, bahan
Laboratorium
Mantri, pembantu, asisten
Musim
Masa
16
Lampiran 3 Lanjutan Kueri
Istilah terjemahan
Obat
Serbuk, racun, kedokteran, belajar, ilmu, kimia, bahan
Organik
Karbon , mengandung, dasar
Panen
Pemungutan, memungut, memotong, memanen, padi, hasil
Pangan
Masakan, makanan, bahan
Pembangunan
Susunan, pendirian, penegakan, pembentukan, bangunan, pembukaan, pembuatan, perkembangan, pertumbuhan, bentuk, perusahaan
Pemerintah
Pemerintahan, politik, ilmu
Pendapatan
Bayaran, gaji, upah, penghasilan, memperoleh
Penerapan
Penggunaan, ketekunan, pemasangan, majelis, kumpulan, pertemuan, permintaan
Peningkatan
Daftar, meratakan, mempertinggi, timbangan, nada, melontarkan, melancarkan, huruf, naiknya, reaksi, menaikkan, berkembangnya, memperluas, derajat, pertambahan, dataran , ketinggian, kelas, permukaan, bertamabah, kenaikan
Penyakit
Jahat, menyusahkan, penyebar, kesusahan, kekacauan, jelek, susah, busuk, sakit, buruk, mengganggu, keadaan, meminta, persoalan
Penyuluhan
hiasan, uraian, penerangan, penjelasanm keterangan, memperoleh, bagian, pusat
Perdagangan
Kejuruan, keterampilan, langganan, menukar, berdagang, pembeli, tukar, tambah
Petani
Tani, petani
Peternak
Keturunannya
Peternakan
Hewani, binatang, protein, pemeliharaan, ilmu, hewan, pertanian
Produk
Kali, hasil, pertanian
Pupuk
Memupuk
Rakyat
Khalayak, ramai, mass, penduduk
Riset
Menyelidiki, penyelidikan, meneliti, ilmiah, penelitian
Sektor
Kawasan, bidang
Sistem
Sistim, susunan, jaringan, cara
Swasembada
Secukupnya, dirinya, mengatur, diri, sendiri, cukup
17
Lampiran 3 Lanjutan Kueri
Istilah terjemahan
Tadah
Lubuk, tangki, bak, kolam, dibawah, wadah, menempatkan, penyimpanan, waduk, gudang, tempat, tanah, air
Tanaman
Bangunan, gedung, tumbuhan, penanaman, pabrik, tumbuh, tanam, panen, hasil
Tani
Petani
Tebu
Rotan, buluh, tongkat, alang, kursi, memukul, sayang, bermacam, sejenis, manis, semacam, uang, alat, kebun, gula
Teknologi
Keahlian, mesin, pabrik
Ternak
Gerobak, lembu, menaikkan, menambah, sapi, daging, ternak, peternakan
Unggas
Tangkis, bola, bulu, burung
Upaya
Harta, kekayaan, karya, alat, cara, usaha
Usaha
Pengerahan, kejuruan, pemerasan, paksa, langganan, ketrampilan, menukar, sukar, mengerjakan, penyelenggaraan, mengusahakan, menjalankan, pembeli, tukar, mengolah, buruh, tugas, pekerjaan, karya, dibuat, tambah, upaya, kerja
18