3
p( i |qj ) adalah peluang kata dalam i dokumen setelah qj diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan oleh pengguna. Pada setiap kata, akan dilakukan penilaian dengan menggunakan formula sebagai berikut: p
c q
∑
q q
… 2)
adalah model kueri perbaikan, R q }: adalah variabel indikator, nilai ={ yang digunakan pada penelitian ini bernilai 1, ∑ adalah total kata yang dinilai relevan. Setiap kata yang dinilai relevan akan diberikan penilaian menggunakan formula(2) dengan memberikan nilai adalah 1 dan setiap kata yang dianggap tidak relevan diberikan nilai adalah 0. Hasil perhitungan tersebut akan digunakan untuk modifikasi kueri awal. Formulasi Kueri Formulasi kueri baru dilakukan untuk memperbaiki hasil temu-kembali, yaitu dapat menggeser dokumen relevan ke atas dan dokumen yang tidak relevan ke bawah. Kata dengan peluang tertinggi yang merupakan term dari hasil feedback pengguna digunakan untuk merumuskan kueri baru yang diformulasikan sebagai berikut: q qA q … 3) adalah formulasi kueri baru, q adalah formulasi kueri awal, dan q adalah kueri dari perhitungan peluang term feedback dari penilaian pengguna. Kueri baru yang telah diformulasikan digunakan dalam proses temu kembali selanjutnya. Evaluasi Hasil Pada proses evaluasi hasil similarity, dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision pada Tabel 1 untuk menentukan tingkat keefektifan proses temu-kembali. Average precision (AVP) dihitung berdasarkan 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (BaezaYates & Ribeiro-Neto 1999).
Tabel 1 Perhitungan recall-precision Relevant
Not Relevant
Retrieved
tp
fp
Not Retrieved
fn
tn
Recall-precision berikut:
didefinisikan
sebagai
Precision = P = tp/(tp + fp)…. 4) Recall = R = tp/(tp+fn) ….. 5) Perhitungan AVP dapat diformulasikan sebagai berikut: ̅(rj )
∑i q
i r q
…. 6)
̅(rj ) adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan Pi(r) adalah precision pada level recall r untuk kueri ke-i. Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat lunak: Sistem operasi Windows 7 Ultimate sebagai sistem operasi, PHP sebagai bahasa pemrograman. Sphinx Search sebagai platform untuk pencarian berbasis teks, Wamp Server Apache version 2.5 sebagai web server, Notepad++ sebagai editor, dan Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras: Processor Intel Core 2 Duo 1,66GHz RAM 2 GB Harddisk dengan kapasitas 120 GB
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Penelitian ini menggunakan 2095 dokumen yang ada di Laboratorium Temu Kembali. Deskripsi dari dokumen ini dapat dilihat pada Tabel 2.
4
Tabel 2 Deskripsi dokumen pengujian Uraian Dokumen Pertanian Ukuran keseluruhan dokumen
Nilai (byte) 6 568 124
Ukuran rata-rata dokumen
3 135
Ukuran dokumen terbesar
52 955
Ukuran dokumen terkecil
412
Dokumen pertanian tersebut dikelompokkan ke dalam tag-tag sebagai berikut:
, tag ini mewakili keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik.
, tag ini menunjukkan ID dari dokumen. <TITLE>, menunjukkan judul berita.
, menunjukkan penulis dari berita tersebut.
, tag ini menunjukkan isi dari dokumen. Contoh salah satu dokumen pertanian yang digunakan tercantum pada Gambar 2.
situshijau07 <TITLE Temulawak untuk Gangguan Hati dtk Gunakan ramuan temulawak untuk mengobati gangguan pada hati. …… Gambar 2 Contoh dokumen pertanian. Pemrosesan Dokumen Tahapan awal yang dilakukan pada penelitian ini adalah tahap pemrosesan dokumen dengan Sphinx. Pada tahap awal dilakukan proses konfigurasi dokumen. Cuplikan konfigurasi untuk dokumen pertanian tercantum pada Gambar 3. Penjelasan untuk konfigurasi yang digunakan pada Sphinx yaitu: source = srcxml, konfigurasi menandakan bahwa sumber
untuk yang
digunakan atau file yang akan diindeks berupa file dengan format XML. path=c:/DTF/data/test2, konfigurasi untuk mengatur lokasi file hasil indexing disimpan. index test2 { source = srcxml path = c:/DTF/data/test2 docinfo = extern min_word_len = 3 charset_type = utf-8 enable_star = 0 html_strip = 0 stopwords = c:/DTF/data/StopWords.txt } Gambar 3 Konfigurasi dokumen pertanian pada Sphinx. docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil indexing. Dalam hal ini, konfigurasi extern menunjukkan bahwa hasil indexing akan disimpan dalam file terpisah dengan nama file yang sama. min_word_len = 3, konfigurasi ini menjelaskan panjang minimal kata yang diindeks, yaitu minimal 3 karakter. charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang digunakan, yaitu utf-8. enable_star = 0, konfigurasi untuk pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan pengindeksan untuk prefiks. html_strip = 0, konfigurasi untuk menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag. Stopwords=c:/DTF/data/StopWords.txt, konfigurasi untuk eliminasi kata buangan. Indexing Proses indexing dilakukan dengan beberapa proses, yaitu tokenisasi, pembuangan stopwords, dan pembobotan kata. Proses tokenisasi dilakukan untuk mendapatkan kata token atau kata unik dari seluruh dokumen. Proses tokenisasi diikuti dengan proses pembuangan stopwords. Pembuangan stopwords adalah proses untuk membuang token atau kata yang dianggap kurang memiliki arti dan tidak tepat untuk
5
dijadikan penciri suatu dokumen, seperti kata sambung, kata depan, atau kata singkatan. Hasil proses indexing menghasilkan matriks term-dokumen dan proses indexing juga dilakukan pada kueri yang dimasukkan oleh pengguna yang menghasilkan matriks kueri yang akan digunakan pada tahap ukuran kesamaan. Ukuran Kesamaan (Similarity) Pada tahap ini, setelah terbentuknya matriks term-dokumen dan matriks termkueri, dilakukan ukuran kesamaan antara kueri dokumen untuk mengetahui dokumen yang memiliki similarity tertinggi terhadap kueri yang dimasukkan. Dokumen yang memiliki similarity tertinggi akan berada pada peringkat teratas. Ukuran kesamaan yang digunakan pada penelitian ini ialah ukuran kesamaan default SpinxSearch, yaitu SPH_RANK_PROXIMITY_BM25. Urutan dokumen yang ditampilkan sesuai dengan kemiripan antara suatu dokumen dan kueri yang diberikan menggunakan mode SPH_SORT_RELEVANCE pada Sphinx yang merupakan urutan dokumen default pada Sphinx. Pada tahap ini, diperoleh n dokumen teratas dari hasil pencarian dan diambil konten/isi dari dokumen format XML yang merupakan dokumen dengan kemiripan tertinggi dengan kueri. Informasi lain dalam dokumen tersebut seperti id dokumen, tanggal, judul, dan nama pengarang tidak disertakan. Pemilihan Kata Hasil top n tersebut kemudian diambil dan digunakan untuk proses pemilihan kata yang akan ditampilkan kepada pengguna untuk dinilai relevansinya. Top n dokumen yang didapat kemudian dipecah menjadi term/kata yang sudah dilakukan pembuangan stopword. Untuk setiap term tersebut, kemudian dilakukan perhitungan peluang kata pada dokumen menggunakan formula (1). Proses perhitungan tersebut dilakukan untuk melihat peluang kemunculan kata pada dokumen. Setelah diperoleh nilai dari setiap term, term tersebut diurutkan dari peluang terbesar ke peluang terkecil. N term peluang terbesar akan ditampilkan kepada pengguna untuk dinilai relevansinya.
Formulasi Kueri Proses formulasi kueri ini dilakukan dengan melihat term yang dinilai relevan dan tidak relevan oleh pengguna. Pada hasil dari proses penilaian relevansi tersebut, kemudian dilakukan perhitungan dengan menggunakan metode DTF persamaan (2) untuk setiap term yang dinilai relevan dan tidak relevan oleh pengguna. Hasil yang diperoleh dari masing-masing term akan diurutkan dari nilai terbesar ke terkecil dan term dengan nilai terbesar digunakan untuk formulasi kueri baru menggunakan operator AND persamaan (3). Pengujian Kinerja Sistem Proses evaluasi dalam penelitian ini dilakukan pada koleksi dokumen pertanian. Proses evaluasi pada dokumen pertanian menggunakan 20 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Metode pemilihan kata yang digunakan untuk pengujian sistem dilakukan secara acak dan sesuai menurut penulis berdasrkan kueri yang dimasukkan. Proses evaluasi dilakukan dengan menghitung recall-precision dari masing-masing kueri uji menggunakan source code yang telah dibuat oleh Rahayuni (2011) dan dimodifikasi oleh penulis. Dokumen Relevan Pseudo-relevance feedback (PRF) merupakan teknik analisis lokal yang menganggap n dokumen teratas sebagai dokumen yang relevan. Evaluasi PRF dengan mengambil dokumen peringkat 1, 2, dan 3 teratas dilakukan untuk mengetahui pengaruh pengambilan dokumen peringkat n teratas. Gambar 4 mengilustrasikan pengambilan satu dokumen teratas (Lampiran 3). Kondisi pengambilan satu dokumen teratas menghasilkan nilai average precision (AVP) sebesar 0.3214. Hal ini menunjukkan bahwa kondisi pencarian dengan satu dokumen teratas memiliki tingkat relevansi sebesar 32%. Kinerja sistem pada pengambilan dua dokumen teratas diilustrasikan pada Gambar 5 dan Lampiran 4. Pada kondisi pencarian ini, didapatkan nilai AVP sebesar 0.3230. Hal ini menunjukkan bahwa pencarian dengan dua dokumen teratas memiliki tingkat relevansi yang hampir sama dengan satu dokumen teratas yaitu sebesar 32%.
6
1.00
Gambar 6 menunjukkan kinerja pencarian dengan pengambilan tiga dokumen teratas (Lampiran 5). Pada kondisi pencarian dengan pengambilan tiga dokumen teratas, didapatkan nilai AVP yang lebih besar dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas, yaitu sebesar 0.3582 atau sebesar 35%.
0.90 0.80
precision
0.70 0.60 0.50 0.40 0.30
0.30
Hasil pengujian menunjukkan bahwa pengambilan top n tertinggi diperoleh pada pengambilan tiga dokumen teratas. Hal ini disebabkan pengambilan tiga dokumen teratas memiliki dokumen dengan kata yang lebih beragam dan memiliki kata yang lebih relevan untuk dinilai relevansinya oleh pengguna jika dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas. Pengambilan tiga dokumen teratas memiliki nilai AVP lebih lebih tinggi dibandingkan dengan dokumen satu teratas dan dua dokumen teratas yaitu sebesar 35%. Hal ini disebabkan banyaknya dokumen yang terambil menyebabkan banyaknya kata-kata yang lebih beragam dan lebih relevan untuk dinilai relevansinya oleh pengguna sehingga nilai AVP pada tiga dokumen teratas lebih baik jika dibandingkan dengan dua dokumen teratas lainnya.
0.20
Panjang Kueri
0.20 0.10 1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.00
0.00
recall Gambar 4
Grafik R-P untuk pengambilan satu dokumen teratas pada dokumen pertanian.
1.00 0.90 0.80
precision
0.70 0.60 0.50 0.40
0.10 1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.00
0.00
recall Gambar 5 Grafik R-P untuk pengambilan dua dokumen teratas pada dokumen pertanian. 1.00 0.90 0.80
precision
0.70 0.60 0.50 0.40 0.30 0.20 0.10
Gambar 6
1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.00
0.00
recall Grafik R-P untuk pengambilan tiga dokumen teratas pada dokumen pertanian.
Panjang kueri diduga akan mempengaruhi kinerja perluasan kueri. Dalam penelitian ini, digunakan dua kelompok kueri, yaitu kueri dengan panjang tiga dan empat kata. Kueri uji yang berjumlah dua puluh dipisahkan menjadi dua kelompok sesuai dengan panjang kata. Kelompok pertama untuk kueri dengan panjang tiga kata sebanyak sepuluh kueri dan kelompok kedua untuk kueri dengan panjang empat kata sebanyak sepuluh kueri. Kedua kelompok kueri tersebut selanjutnya diekspansi atau diperluas dengan menambahkan satu kata ekspansi dan dua kata ekspansi. Pemilihan kata yang digunakan untuk masing-masing kueri uji dilakukan secara acak dengan memperhatikan kesesuaian kata dengan kueri berdasarkan kesesuaian menurut penulis. Tabel 3 mengilustrasikan perbandingan nilai AVP untuk setiap kelompok kueri yang diperluas dengan satu kata (Lampiran 6) dan dua kata (Lampiran 7). Ekspansi kueri untuk setiap kelompok dilakukan dengan mengambil tiga dokumen teratas.
7
Pada pengukuran kinerja sistem ini, pemilihan term untuk masing-masing kueri uji dilakukan secara acak dan banyaknya term yang dipilih untuk setiap kueri uji sebanyak lima term (Lampiran 8). Hal ini disebabkan kinerja sistem pada DTF menghasilkan nilai ekspansi paling bagus untuk ekspansi penambahan satu kata yang menyebabkan berapapun banyaknya term yang dipilih maka untuk proses ekspansi kueri hanya dilakukan perluasan ekspansi satu kata untuk masingmasing kueri. Kelima kata tersebut dipilih secara acak dan dilakukan dengan mempertimbangkan sesuai atau tidaknya kata tersebut menurut penulis. Semakin kata tersebut relevan terhadap kueri, hasil ekspansi kueri akan semakin lebih baik. Pada kinerja sistem ini, kandidat kata yang memiliki kesesuaian yang baik dengan kueri uji adalah pada saat pengambilan tiga dokumen teratas. Hal ini terlihat pada nilai AVP yang lebih besar dibandingkan dengan satu dokumen dan dua dokumen teratas. Formulasi Kueri Pengukuran formulasi kueri pada kinerja sistem dibagi menjadi dua kelompok, yaitu pengujian dengan melakukan formulasi kueri menggunakan operator AND (Lampiran 1) dan pengujian dengan melakukan formulasi kueri menggunakan operator OR (Lampiran 9). Tabel 4 mengilustrasikan perbandingan
Kinerja DTF Gambar 7 menunjukkan perbandingan kinerja sistem DTF dengan ekspansi kueri dan DTF tanpa ekspansi. 1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
non ekspansi
recall
1.00
Pemilihan Term
Pada Tabel 4, terlihat bahwa nilai AVP terbesar untuk setiap pengambilan top n dokumen pada formulasi kueri menggunakan operator AND dengan nilai tertinggi berada pada pengambilan tiga dokumen teratas. Formulasi kueri menggunakan operator AND menemukembalikan dokumen dalam jumlah yang lebih sedikit dibandingkan dengan formulasi kueri menggunakan operator OR. Akan tetapi, dokumen yang ditemukembalikan pada formulasi operator AND lebih relevan, sedangkan untuk operator OR meskipun menemukembalikan dokumen lebih banyak, tidak semua dokumen yang di temukembalikan adalah relevan sehingga nilai AVP menggunakan formulasi AND lebih baik dibandingkan dengan formulasi OR.
0.90
Pada Tabel 3, terlihat bahwa nilai AVP tertinggi untuk ekspansi kueri berada pada saat ekspansi kueri satu kata untuk masingmasing panjang kueri. Hal ini menyatakan bahwa perluasan kueri satu kata membuat kinerja sistem lebih baik dibanding perluasan kueri dua kata karena perluasan kueri yang semakin banyak akan membuat kueri menjadi tidak lebih baik untuk dilakukan proses ekspansi. Pada Tabel 3, terlihat bahwa nilai AVP tertinggi berada pada saat ekspansi kueri satu kata dengan panjang kueri empat kata yaitu sebesar 49%.
0.80
0.46042
0.70
0.49274
0.60
4 Kata
0.50
0.18195
0.40
0.19378
0.30
3 Kata
Tabel 4 Perbandingan nilai AVP untuk kedua jenis operator Top n dokumen OR AND top 1 0.1418 0.3214 top 2 0.1498 0.3230 top 3 0.1568 0.3582
0.20
Ekspansi Dua Kata
0.10
Ekspansi Satu Kata
0.00
Panjang Kueri
nilai AVP untuk setiap kelompok formulasi kueri yang digunakan.
precision
Tabel 3 Perbandingan nilai AVP untuk setiap panjang kueri
ekspansi DTF
Gambar 7 Kinerja perbandingan sistem DTF dengan ekspansi dan tanpa ekspansi. Nilai AVP untuk sistem DTF tanpa ekspansi kueri yaitu 0.3033 (Lampiran 10), sedangkan sistem DTF dengan ekspansi kueri memiliki nilai AVP yang lebih besar, yaitu