XML RETRIEVAL DOKUMEN BAHASA INDONESIA MENGGUNAKAN ALGORITME SIMNOMERGE
ANELA FEBRID YUNITA
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
XML RETRIEVAL DOKUMEN BAHASA INDONESIA MENGGUNAKAN ALGORITME SIMNOMERGE
ANELA FEBRID YUNITA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
ABSTRACT ANELA FEBRID YUNITA. XML Retrieval for Bahasa Indonesia Document using Simnomerge Algorithm. Supervised by JULIO ADISANTOSO. XML Retrieval is one of the information retrieval system which use structured elements in documents as a unit that can be retrieved. Queries used in XML Retrieval are tagged pieces of the document collection. This research is comparing the retrieval of relevant documents to irrelevant documents by using 130 documents of medicinal plants and 20 queries. Simnomerge algorithm is used in this research because different XML contexts are kept separate for the weighting. Each query is divided into 5 queries for unstructured retrieval system, 8 queries for XML retrieval with XML context depth 1, and 7 queries for XML retrieval with XML context depth 2. The result of this research shows that the XML retrieval can improve performance of the retrieval system by getting more relevant documents. At the relevant documents, average precision of XML retrievals query for an XML context depth 1 is 0.911, or a 15.5% increase from the unstructured retrieval system. Average precision of XML retrievals query for XML context depth 2 is 0.981, or a 22.5% increase from the unstructured retrieval system. Meanwhile, for the irrelevant document the average precision of XML retrieval for XML context depth 1 is 0.246 or a 36.5% decrease from the unstructured retrieval system. The average precision of XML retrieval for XML context depth 2 is 0.329 or a 28.8% decrease from the unstructured retrieval system. Keywords: Simnomerge Algorithm, XML Retrieval
Judul Skripsi : XML Retrieval Dokumen Bahasa Indonesia Menggunakan Algoritme Simnomerge Nama : Anela Febrid Yunita NIM : G64096009
Disetujui Pembimbing
Ir Julio Adisantoso MKom NIP 19620714 198601 1 002
Diketahui Ketua Departemen Ilmu Komputer
Dr Ir Agus Buono MSi MKom NIP 19660702 199302 1 001
Tanggal Lulus:
RIWAYAT HIDUP Penulis dilahirkan di Mataram, Nusa Tenggara Barat pada tanggal 25 Februari 1988 dari Bapak Setyo Trie Warsono (Alm.) dan Ibu Sis Wahyuni. Penulis merupakan putri kedua dari tiga bersaudara. Pada tahun 2006 penulis lulus dari SMA Negeri 1 Mataram dan pada tahun yang sama lulus seleksi masuk Diploma IPB Program Keahlian Teknik Komputer melalui jalur Reguler. Pada tahun 2009, penulis lulus dari Diploma IPB dan pada tahun yang sama diterima di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
PRAKATA Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan ke hadirat Allah Subhanahuwa ta’ala atas segala karunia-Nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir yang dipilih dalam penelitian adalah XML Retrieval Dokumen Bahasa Indonesia Menggunakan Algoritme Simnomerge. Penulis mengucapkan terima kasih yang sebesar-besarnya kepada: Orang tua tercinta Bapak Setyo Trie Warsono dan Ibu Sis Wahyuni, Kakak Elena Astrid Yunita, Adik Rizky Rio Pamungkas, serta seluruh keluarga besar atas segala doa dan dukungan yang selalu diberikan. Bapak Ir Julio Adisantoso MKom selaku dosen pembimbing tugas akhir. Terima kasih atas bantuan, pengarahan dan kesabarannya selama penyelesaian tugas akhir ini. Bapak Ahmad Ridha Skom MS dan Bapak Sony Hartono Wijaya SKom MKom selaku penguji. Terima kasih atas segala saran dan kritik membangun yang diberikan. Rekan-rekan satu bimbingan Rina Kurniawati dan Dewi Susanti. Terima kasih atas kebersamaan dan semangat selama penyelesaian penelitian ini. Yunie Purnamasari, Syahrul Fathi, Adi Darliansyah, Aokirinduan Hayyi A.Q. dan teman-teman Ilkom X4 lainnya. Terima kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir. Semoga Allah subhanahu wata’ala membalas amal baik dan jasa seluruh pihak yang turut membantu dalam pelaksanaan tugas akhir.
Bogor, Juni 2012
Anela Febrid Yunita
DAFTAR ISI Halaman DAFTAR TABEL ................................................................................................................................. vi DAFTAR GAMBAR ............................................................................................................................. vi DAFTAR LAMPIRAN.......................................................................................................................... vi PENDAHULUAN Latar Belakang .................................................................................................................................... 1 Tujuan ................................................................................................................................................. 1 Ruang Lingkup ................................................................................................................................... 1 TINJAUAN PUSTAKA Sistem Temu Kembali Informasi ........................................................................................................ 1 XML Retrieval .................................................................................................................................... 1 Pembobotan BM25 ............................................................................................................................. 2 Simnomerge Similarity ....................................................................................................................... 2 Recall dan Precision ........................................................................................................................... 2 METODE PENELITIAN Koleksi Dokumen Pengujian .............................................................................................................. 2 Praproses Dokumen ............................................................................................................................ 3 Context Resemblance (CR) ................................................................................................................. 3 Algoritme Simnomerge ....................................................................................................................... 3 Pengujian Sistem Temu Kembali ........................................................................................................ 3 Asumsi ................................................................................................................................................ 3 Lingkungan Pengembangan ................................................................................................................ 3 HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian .............................................................................................................. 3 Praproses Dokumen ............................................................................................................................ 4 Pemrosesan Query .............................................................................................................................. 4 Hasil Temu Kembali ........................................................................................................................... 4 Pengujian Sistem Temu Kembali ........................................................................................................ 4 Pengujian pada Dokumen Relevan ................................................................................................. 4 Pengujian pada Dokumen Tidak Relevan ....................................................................................... 6 Analisis Perbandingan Sistem............................................................................................................. 7 Analisis Perbandingan Sistem Temu Kembali Informasi Berbasis Teks ........................................ 7 Analisis Perbandingan Sistem XML Retrieval ............................................................................... 7 KESIMPULAN DAN SARAN Kesimpulan ......................................................................................................................................... 8 Saran ................................................................................................................................................... 8 DAFTAR PUSTAKA ............................................................................................................................. 8 LAMPIRAN ........................................................................................................................................... 9
v
DAFTAR TABEL Halaman 1 2 3 4 5
Deskripsi koleksi dokumen ............................................................................................................... 3 Hasil perhitungan AVP pada dokumen relevan ................................................................................ 5 Hasil perhitungan AVP pada dokumen tidak relevan ....................................................................... 6 Perbandingan AVP sistem temu kembali berbasis teks .................................................................... 7 Perbandingan AVP XML retrieval ................................................................................................... 7
DAFTAR GAMBAR Halaman 1 2 3 4 5 6 7 8 9 10 11
Gambaran umum XML retrieval. ..................................................................................................... 3 Kurva recall dan precision tanpa tagging. ....................................................................................... 5 Kurva recall dan precision dengan konteks XML 1. ....................................................................... 5 Kurva recall dan precision dengan konteks XML 2. ....................................................................... 5 Kurva recall dan precision dokumen relevan. ................................................................................. 5 Kurva recall dan precision tanpa tagging. ....................................................................................... 6 Kurva recall dan precision dengan konteks XML 1. ...................................................................... 6 Kurva recall dan precision dengan konteks XML 2. ...................................................................... 6 Kurva recall dan precision dokumen tidak relevan. ......................................................................... 6 Perbandingan AVP sistem temu kembali informasi berbasis teks. ................................................... 7 Perbandingan AVP XML retrieval. .................................................................................................. 8
DAFTAR LAMPIRAN Halaman 1 2 3 4 5 6 7 8
Contoh dokumen pengindeksan pada Sphinx Search ..................................................................... 10 Contoh dokumen pengujian ............................................................................................................ 11 Deskripsi query ............................................................................................................................... 12 Daftar query dan dokumen relevan ................................................................................................. 14 Daftar query dan dokumen yang tidak relevan ............................................................................... 15 Hasil kinerja sistem dalam temu kembali dokumen relevan ........................................................... 16 Hasil kinerja sistem dalam temu kembali dokumen yang tidak relevan ......................................... 17 Antarmuka sistem ........................................................................................................................... 18
vi
1
PENDAHULUAN Latar Belakang Sistem temu kembali informasi merupakan sarana bagi seseorang untuk mendapatkan berbagai informasi yang diinginkan dengan mudah. Informasi yang ingin didapat direpresentasikan dalam bentuk query. Query tersebut nantinya akan mengalami proses temu kembali sehingga menghasilkan informasi atau dokumen yang relevan. Pada dasarnya, pengolahan data pada sistem temu kembali informasi dapat dilakukan secara tidak terstruktur dan terstruktur. Sistem temu kembali informasi tidak terstruktur membandingkan kemiripan (similarity) query dengan semua kumpulan term pada dokumen. Kumpulan term pada dokumen dapat berupa kata-kata, gambar, dan lain-lain. Dengan kata lain, sistem temu kembali informasi tidak pernah memperhatikan struktur dokumen. Selain itu, unit yang akan ditemukembalikan berupa dokumen secara lengkap, sedangkan pada sistem temu kembali informasi terstruktur setiap elemen terstruktur yang terdapat pada dokumen dapat menjadi unit yang akan ditemukembalikan. Metode pada sistem temu kembali informasi terstruktur dikenal dengan sebutan XML retrieval. Pada XML retrieval, format dokumen yang digunakan adalah dokumen dengan struktur XML. XML retrieval menggunakan query dengan struktur tagging dari koleksi dokumen XML dan akan dibandingkan kemiripannya dengan setiap elemen XML pada koleksi dokumen tersebut sehingga lebih fleksibel. Permasalahan dalam XML retrieval adalah pengguna hanya ingin mengembalikan bagian dari dokumen, bukan keseluruhan dokumen seperti sistem temu kembali informasi yang tidak terstruktur. Oleh karena itu di dalam XML retrieval unit-unit yang akan diindeks harus bisa mempresentasikan keseluruhan elemen yang ada di dalam dokumen. Permasalahan lainnya, ialah cara membedakan konteks yang berbeda dari setiap term ketika menghitung peringkat. Terdapat beberapa penelitian terkait mengenai XML retrieval. Carmel et al. (2002) membangun sistem XML retrieval dengan menambahkan vector space model untuk menemukembalikan dokumen. Lalmas (2009) melakukan pendekatan terhadap query pada tagging XML yang tidak lengkap dan mempresentasikan hasil peringkat dokumen XML terurut secara relevan. Gusdiana (2011) mengimplementasikan algoritme Simnomerge untuk membangun sistem temu kembali dengan
koleksi dokumen XML dan membandingkan kinerja pembobotan tf, idf, dan tf-idf. Bahi (2011) membangun sistem XML retrieval menggunakan koleksi dokumen dalam bahasa Indonesia. Namun, koleksi dokumen yang digunakan memiliki struktur XML yang belum lengkap dan spesifik untuk setiap dokumennya. Oleh karena itu pada penelitian ini, akan diterapkan metode XML retrieval menggunakan koleksi dokumen dengan struktur yang lengkap sehingga diharapkan hasil pengembalian informasi lebih baik dan spesifik. Tujuan Tujuan penelitian ini ialah: Mengimplementasikan XML retrieval menggunakan algoritme Simnomerge untuk dokumen berbahasa Indonesia. Membandingkan kinerja sistem temu kembali informasi menggunakan metode XML retrieval dengan sistem temu kembali informasi tidak terstruktur (berbasis teks). Ruang Lingkup Ruang lingkup penelitian ini ialah: Pengguna mengetahui struktur XML pada dokumen. Struktur tagging pada dokumen XML yang digunakan dalam pengindeksan memiliki kedalaman konteks 1.
TINJAUAN PUSTAKA Sistem Temu Kembali Informasi Temu kembali informasi berkaitan dengan cara merepresentasikan, menyimpan, mengorganisasikan dan mengakses informasi. Mengorganisasikan dan merepresentasikan informasi harus memudahkan pengguna dalam mengakses informasi yang dibutuhkan. Namun, mengetahui karakterisasi informasi yang dibutuhkan pengguna bukanlah hal yang sederhana. Pengguna harus menerjemahkan terlebih dahulu informasi yang dibutuhkan menjadi query yang akan diproses oleh sistem temu kembali informasi. Tujuan utama sistem temu kembali informasi adalah mengembalikan informasi yang mungkin berguna atau relevan (Baeza-Yates & Ribeiro-Neto 1999). XML Retrieval Dokumen XML disusun dalam bentuk diagram pohon dan diberi label. Setiap node dari pohon merupakan elemen XML yang ditandai dengan tag pembuka dan tag penutup. Setiap elemen dapat memiliki satu atau lebih atribut XML.
2
XML retrieval merupakan metode sistem temu kembali terstuktur menggunakan dokumen XML. Tujuan XML retrieval adalah mengembalikan bagian dokumen yaitu pada elemen XML yang merupakan hasil temu kembali dari sebuah query (Manning et al. 2008). Pembobotan BM25 Pembobotan BM25 telah dikembangkan sejak awal tahun 1980, tetapi sampai saat ini masih digunakan secara luas. Ide utama BM25 adalah memberi pembobotan pada dokumen yang memiliki query yang langka dan sering muncul pada dokumen tersebut (Aksyonoff 2011). Pseudocode untuk memperoleh BM25 yang digunakan pada Sphinx Search ialah: 1
BM25=0
2
foreach(inmatching_keywords) {
3
n=total_matching_docs(keyword)
4
N=total_documents_collection
5
k1=1.2
6
TF=occurrence_count(keyword) IDF=log((N-n+1)/n)/log(1+N)
10
BM25= BM25 + TF*IDF/(TF+k1)
11
}
12
Normalization:
13
BM25=0.5+BM25 /(2*num_keywords(query))
c
cd
c ,cd ∑
√∑c
t
,t
dengan adalah himpunan kata unik, kumpulan semua konteks XML, c panjangnya node pada query, cd panjangnya node pada dokumen, adalah bobot term pada konteks ,t,cd adalah bobot term t pada dokumen dan √∑c
d,t,c
,t
d,t,c
adalah adalah adalah ,t,c query, konteks adalah
fungsi normalizer untuk menormalisasi panjang dokumen. Recall dan Precision
a
Precision adalah perbandingan antara dokumen relevan yang ditemukembalikan a dan dokumen yang ditemukembalikan A (Baeza-Yates & Ribeiro-Neto 1999). recision
Simnomerge Similarity
a A
Average precision (AVP) berfungsi untuk mengevaluasi secara kuantitatif kinerja temu kembali yang diperoleh dengan menggunakan eleven standard recall yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1 (Baeza-Yates & Ribeiro-Neto 1999).
METODE PENELITIAN
Fungsi ukuran kesamaan pada XML retrieval disebut Simnomerge karena setiap konteks XML yang berbeda disimpan terpisah untuk tujuan pembobotan. Dalam Simnomerge similarity, terdapat nilai Context Resemblance (CR) yang merupakan ukuran kemiripan konteks query dan konteks dokumen (Manning et al. 2008), yang dirumuskan sebagai berikut: c cd
,t,cd
,t,c
Recall adalah perbandingan antara dokumen relevan yang ditemukembalikan a dan dokumen relevan yang terdapat pada korpus ( )
dengan: N : Total dokumen dalam korpus, n : Total dokumen yang mengandung query, TF : Frekuensi term t pada dokumen, IDF : Inverted indeks dokumen, dan k1 : Positif parameter (1.2).
{
∑∑
ecall
9
(c ,cd )
( ,d)
c c
cd cd
dengan |c | adalah banyaknya node pada query dan cd adalah banyaknya node pada dokumen. Oleh karena itu, Simnomerge similarity dapat dirumuskan sebagai berikut (Manning et al. 2008):
Penelitian ini dilakukan dalam empat tahap, antara lain, praproses, penghitungan nilai CR untuk menentukan tingkat kemiripan antara query dengan konteks XML yang ada pada indeks, pemeringkatan dokumen menggunakan algoritme Simnomerge, dan evaluasi. Gambaran umum proses XML retrieval menggunakan algoritme Simnomerge dapat dilihat pada Gambar 1. Koleksi Dokumen Pengujian Koleksi dokumen yang digunakan dalam penelitian ini terdiri atas 130 artikel berbahasa Indonesia yang seluruhnya berkaitan dengan tanaman obat di Indonesia. Koleksi dokumen tersebut memiliki stuktur XML.
3
Algoritme Simnomerge Kumpulan konteks XML yang telah diperoleh selanjutnya diboboti dan diurutkan. Kemudian, hasil pencarian ditampilkan. Pengujian Sistem Temu Kembali Pengujian dilakukan dengan mengukur akurasi kinerja sistem. Parameter yang digunakan untuk mengukur akurasi tersebut adalah nilai recall dan precision yang dihasilkan. Semakin baik nilai recall dan precision, maka akan semakin baik kemampuan suatu sistem temu kembali informasi. Perhitungan recall dan precision dilakukan pada potongan tagging yang berbeda untuk setiap query, sesuai dengan kedalaman masing-masing tagging. Hasil perhitungan recall dan precision akan dibandingkan dalam bentuk kurva. Selain itu, akan dihitung pula nilai average precision. Asumsi Asumsi-asumsi yang digunakan pada penelitian ini ialah: Tidak ada kesalahan dalam pengetikan query. Query berkaitan dengan koleksi dokumen. Lingkungan Pengembangan
Gambar 1 Gambaran umum XML retrieval. Praproses Dokumen Pada praproses, setiap dokumen dari koleksi dokumen akan diberi tag. Pada tahap selanjutnya dilakukan proses penghilangan kata-kata umum yang tidak memiliki makna atau disebut dengan stopwords. Dokumen hasil praproses akan diboboti dan diindeks sehingga inverted index diperoleh dan pencarian dokumen berdasarkan query yang diberikan dapat dilakukan. Pembobotan yang digunakan pada penelitian ini adalah pembobotan BM25. Context Resemblance (CR) Query yang dimasukkan setelah mengalami praproses akan dihitung nilai CRnya. Nilai CR diperoleh ketika XML path pada query terdapat pada XML path koleksi dokumen. Diperoleh konteks XML yang memiliki kemiripan antara konteks XML yang dibentuk dari query dengan konteks XML yang berada pada koleksi dokumen. Query dengan nilai CR lebih besar dari nol memenuhi syarat untuk memasuki tahap selanjutnya.
Perangkat lunak yang digunakan pada penelitian ini ialah: Sistem Operasi Windows 7. Sphinx Search. Apache Xampp. Notepad++, sebagai program editor. Perangkat keras yang digunakan pada penelitian ini adalah: Prosesor Intel Core i5 2.40 GHz. RAM 4 GB. Harddisk 500 GB.
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Penelitian ini menggunakan 130 dokumen mengenai tanaman obat di Indonesia. Dokumen diperoleh dari website Sentra Informasi IPTEK. Deskripsi dari dokumen dapat dilihat pada Tabel 1. Tabel 1 Deskripsi koleksi dokumen Keterangan Ukuran seluruh dokumen Ukuran rata-rata dokumen Ukuran dokumen terbesar Ukuran dokumen terbesar
Nilai (bytes) 536576 4128 8192 4096
4
Dokumen pada penelitian ini memiliki struktur tagging bersarang, tetapi pada saat pengindeksan menggunakan Sphinx Search, struktur tagging yang digunakan tidak bersarang (Lampiran 1 - 2). Dokumen tanaman obat dikelompokkan ke dalam tag-tag berikut: <doc>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik. <docno>, tag ini menunjukkan ID dari dokumen.
, tag ini menunjukkan nama dari suatu jenis tanaman obat dan melingkupi tag
dan tag
.
, tag ini menunjukkan nama latin tanaman obat
, tag ini menunjukkan nama daerah tanaman obat. <sinonim>, tag ini menunjukkan nama sinonim dari tanaman obat.
, tag ini menunjukkan nama famili dari tanaman obat. <deskripsi>, tag ini menunjukkan deskripsi dari tanaman obat.
, tag ini menunjukkan habitat dari tanaman obat.
, tag ini menunjukkan bagian tanaman obat yang digunakan. <manfaat>, tag ini menunjukkan manfaat dan penyakit yang dapat disembuhkan dari jenis tanaman obat. <sifat>, tag ini menunjukkan sifat kimiawi dan efek farmakologis dari tanaman obat.
, tag ini menunjukkan kandungan kimia dari tanaman obat.
, tag ini menunjukkan penyakit yang dapat disembuhkan dari jenis tanaman obat. Praproses Dokumen Praproses dokumen dilakukan dengan menggunakan fungsi indexing Sphinx Search. Sphinx Search tidak dapat melakukan pengindeksan dokumen dengan struktur tagging bersarang, sehingga digunakan struktur tagging tidak bersarang. Praproses dokumen melibatkan proses pembuangan stopwords. Pemrosesan Query Jumlah query yang digunakan pada penelitian ini ialah 20 query (Lampiran 3 - 5). Query pada sistem ini menggunakan query XML. Setiap query dipasangkan dengan
tagging XML pada dokumen. Struktur XML yang digunakan pada dokumen ialah struktur tagging bersarang sehingga menghasilkan kedalaman konteks XML yang berbeda-beda. Query tanpa menggunakan potongan tagging, antara lain: sakit kuning masuk angin asam urat kulit kencing manis Query yang menggunakan tagging dengan kedalaman konteks XML 1, antara lain: /manfaat#tekanan darah tinggi /manfaat#muntah darah /manfaat#radang paru /manfaat#infeksi ginjal /penyakit#saluran kemih /sifat#anti radang /manfaat#kanker darah /manfaat#radang saluran napas Query yang menggunakan tagging dengan kedalaman konteks XML 2, antara lain: /nama/nama-lokal#asam jawa /nama/nama-lokal#bayam /nama/nama-lokal#belimbing asam /nama/nama-lokal#daun jintan /nama/nama-lokal#sirih /nama/nama-lokal#buah makasar /nama/nama-lokal#ekor kucing Hasil Temu Kembali Pada penelitian ini, pembobotan yang digunakan yaitu fungsi pembobotan BM25 yang telah disediakan oleh Sphinx Search. Jumlah dokumen teratas yang diambil adalah 30 dokumen. Pengujian Sistem Temu Kembali Proses pengujian dilakukan untuk membandingkan kinerja sistem pada dokumen relevan dan dokumen yang tidak relevan atau yang tidak seharusnya muncul pada hasil temu kembali. Pengujian pada Dokumen Relevan Pengujian dilakukan pada 20 query uji. Proses temu kembali informasi dengan query uji dilakukan untuk mendapatkan nilai recall dan precision untuk 30 dokumen teratas. Setelah itu, dilakukan perhitungan interpolasi maksimum untuk mendapatkan nilai AVP (Lampiran 6). Pengujian terhadap query uji terbagi menjadi tiga jenis query, yaitu: 1 Query tanpa memperhatikan struktur XML dokumen
5
Pengujian query tanpa memperhatikan struktur XML dokumen ini bertujuan membandingkan kinerja sistem temu kembali tidak berstruktur dengan XML retrieval. Gambar 2 mengilustrasikan kinerja sistem temu kembali tidak terstruktur. Nilai AVP dari proses temu kembali sebesar 0.756.
Gambar 4 Kurva recall dan precision dengan konteks XML 2.
Gambar 2 Kurva recall dan precision tanpa tagging. 2 Query XML dengan kedalaman konteks XML sebesar 1 Nilai AVP dari pencarian query XML dengan kedalaman konteks XML 1 sebesar 0.911 atau meningkat 15.5% dari query tanpa memperhatikan struktur tagging. Gambar 3 mengilustrasikan hasil kinerja sistem pada query XML dengan kedalaman konteks 1.
Gambar 3 Kurva recall dan precision dengan konteks XML 1.
Tabel 2 menunjukkan bahwa kinerja XML retrieval meningkat 15.5% dan 22.5% dibandingkan dengan kinerja sistem temu kembali tidak terstruktur. Hasil pengujian ini menunjukkan pembobotan BM25 dan Simnomerge similarity menghasilkan temu kembali yang lebih baik. Hal ini dikarenakan XML retrieval menggunakan query dengan potongan tagging dari koleksi dokumen XML dalam proses perhitungan, sehingga temu kembali informasi menghasilkan jawaban yang lebih spesifik dan relevan sesuai dengan kebutuhan pengguna. Tabel 2 Hasil perhitungan AVP pada dokumen relevan Jenis Query Tanpa tagging Kedalaman konteks sebesar 1 Kedalaman konteks sebesar 2
AVP 0.756 0.911 0.981
Gambar 5 menunjukkan bahwa XML retrieval peningkatan kinerja yang lebih baik dibandingkan sistem temu kembali tidak terstruktur. Kedalaman konteks juga mempengaruhi kinerja sistem temu kembali informasi. Penambahan tag bersarang pada dokumen dapat meningkatkan kinerja sebesar 98.1%.
3 Query XML dengan kedalaman konteks XML sebesar 2 Nilai AVP dari pencarian query XML dengan kedalaman konteks XML 2 sebesar 0,981 atau meningkat 22.5% dari query tanpa memperhatikan struktur tagging. Gambar 4 mengilustrasikan hasil kinerja sistem pada query XML dengan kedalaman konteks 2. Gambar 5 Kurva recall dan precision dokumen relevan.
6
Pengujian pada Dokumen Tidak Relevan Pengujian dilakukan pada 20 query uji sama seperti pengujian pada dokumen relevan. Proses temu kembali informasi dengan query uji dilakukan untuk mendapatkan nilai recall dan precision untuk 30 dokumen teratas. Selain itu, dilakukan perhitungan interpolasi maksimum untuk mendapatkan nilai AVP (Lampiran 7). Pengujian terhadap query uji terbagi menjadi 3 jenis query yaitu:
memerhatikan struktur tagging. Gambar 8 mengilustrasikan hasil kinerja sistem pada query XML dengan kedalaman konteks 2.
1 Query tanpa memerhatikan struktur XML dokumen Gambar 6 mengilustrasikan kinerja sistem temu kembali tidak terstruktur. Nilai AVP dari proses temu kembali sebesar 0.611.
Gambar 6 Kurva recall dan precision tanpa tagging. 2 Query XML dengan kedalaman konteks XML sebesar 1 Nilai AVP dari pencarian query XML dengan kedalaman konteks XML 1 sebesar 0.246 atau menurun 36.5% dari query tanpa memerhatikan struktur tagging. Gambar 7 mengilustrasikan hasil kinerja sistem pada query XML dengan kedalaman konteks 1.
Gambar 8 Kurva recall dan precision dengan konteks XML 2. Nilai AVP pada pengujian sistem temu kembali dengan dokumen yang tidak relevan mengalami penurunan dibandingkan dengan pengujian sistem temu kembali dengan dokumen relevan. Penurunan pada pengujian query tanpa memperhatikan struktur tagging tidak telalu signifikan dibandingkan dengan pengujian menggunakan query XML. XML retrieval dapat mengurangi kinerja sistem temu kembali dalam menemukembalikan dokumen yang tidak relevan. Gambar 9 menunjukkan bahwa kinerja XML retrieval menurun masing-masing sebesar 36.5% dan 28.2% dibandingkan dengan kinerja sistem temu kembali tidak terstruktur. Nilai AVP masing-masing query dapat dilihat pada Tabel 3. Tabel 3 Hasil perhitungan AVP pada dokumen tidak relevan Jenis Query Tanpa tagging Kedalaman konteks sebesar 1 Kedalaman konteks sebesar 2
AVP 0.611 0.246 0.329
Gambar 7 Kurva recall dan precision dengan konteks XML 1. 3 Query XML dengan kedalaman konteks XML sebesar 2 Nilai AVP dari pencarian query XML dengan kedalaman konteks XML 2 sebesar 0.329 atau menurun 28.2% dari query tanpa
Gambar 9 Kurva recall dan precision dokumen tidak relevan.
7
Analisis Perbandingan Sistem Analisis perbandingan sistem bertujuan membandingkan hasil temu kembali sistem yang digunakan oleh Bahi (2011) dengan sistem yang digunakan pada penelitian ini. Sistem yang digunakan oleh Bahi (2011) menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat. Sistem yang menggunakan 1000 dokumen pertanian menggunakan 30 query uji dan hanya menemukembalikan tag title dan tag text. Sistem yang menggunakan 93 dokumen tanaman obat menggunakan 13 query uji dan hanya melakukan temu kembali pada tag content dan tag penyakit. Terdapat dua kondisi analisis perbandingan dalam penelitian ini, yaitu perbandingan sistem informasi berbasis teks analisis perbandingan XML retrieval. Analisis Perbandingan Sistem Kembali Informasi Berbasis Teks
Temu
Analisis perbandingan sistem temu kembali informasi berbasis teks bertujuan membandingkan kinerja kedua sistem sebelum menerapkan XML retrieval. Analisis perbandingan dilakukan dengan membandingkan nilai AVP dari query uji yang dihasilkan oleh masing-masing sistem. Pada penelitian ini, sistem tidak memperhatikan struktur tagging, sedangkan pada sistem yang digunakan Bahi (2011), untuk 1000 dokumen pertanian, sistem melakukan temu kembali pada tag title dan tag text saja. Untuk 93 dokumen tanaman obat, sistem melakukan temu kembali pada tag content dan penyakit saja. Tabel 4 menunjukkan perbandingan nilai AVP yang dihasilkan kedua sistem informasi berbasis teks. Tabel 4
Perbandingan AVP sistem temu kembali berbasis teks
Jenis Tagging Tanpa tagging title & text content & penyakit
Jumlah Query 20 query 30 query 13 query
AVP 0.7560 0.6153 0.8589
Dari Tabel 4 diketahui bahwa sistem yang digunakan oleh Bahi (2011) mampu memperoleh nilai AVP yang lebih baik ketika sistem tersebut menggunakan 93 dokumen tanaman obat, dengan perbedaan nilai AVP sebesar 0.1029. Namun, sistem pada penelitian ini mampu memperoleh nilai AVP yang lebih baik dibanding sistem yang digunakan oleh Bahi (2011) ketika menggunakan 1000 dokumen pertanian, dengan perbedaan nilai AVP sebesar 0.1407.
Gambar 10 Perbandingan AVP sistem temu kembali informasi berbasis teks. Gambar 10 menunjukkan perbandingan kinerja sistem temu kembali informasi berbasis teks. Analisis Retrieval
Perbandingan
Sistem
XML
Analisis perbandingan sistem XML retrieval bertujuan membandingkan kinerja kedua sistem saat menerapkan XML retrieval. Analisis perbandingan dilakukan dengan membandingkan nilai AVP dari query uji yang dihasilkan oleh masing-masing sistem dengan kedalaman konteks XML 1 dan kedalaman konteks XML 2. Tabel 5 menunjukkan perbandingan nilai AVP yang dihasilkan kedua sistem XML retrieval. Tabel 5 Perbandingan AVP XML retrieval Jenis Tagging Kedalaman konteks 2 Kedalaman konteks 1 Tagging title Tagging text Tagging content Tagging penyakit
Jumlah Query Uji 20 query 20 query 30 query 30 query 13 query 13 query
AVP 0.9810 0.9110 0.5005 0.6156 0.5968 0.6273
Dari Tabel 5, diketahui bahwa XML retrieval yang digunakan pada penelitian ini mampu memperoleh nilai AVP yang lebih baik dibandingkan sistem yang digunakan oleh Bahi (2011). Dokumen XML yang digunakan pada sistem ini memiliki struktur dengan kedalaman konteks XML hingga 2 (tag bersarang), mampu meningkatkan kinerja sistem. Faktor utama yang menyebabkan terjadinya perbedaan tersebut adalah perbedaan proses penamaan struktur tagging XML. Struktur XML yang digunakan pada sistem ini lebih lengkap dan detail sehingga hasil temu kembali informasi lebih spesifik.
8
Saran Penelitian selanjutnya yang terkait dengan XML retrieval disarankan untuk melakukan penelitian dengan: Menggunakan jumlah koleksi dokumen yang lebih banyak. Menggunakan dokumen XML dengan struktur yang lebih bervariasi.
DAFTAR PUSTAKA Aksyonoff A. 2011. Introduction to Search with Sphinx b s p l: O’ lly
Gambar 11 Perbandingan AVP XML retrieval. Gambar 11 menunjukkan perbandingan kinerja XML retrieval dengan kedalaman konteks XML 1 dan 2. Pada gambar tersebut diketahui bahwa, struktur XML dokumen dengan kedalaman konteks 2 dapat meningkatkan kinerja sistem temu kembali.
KESIMPULAN DAN SARAN Kesimpulan Dari penelitian yang telah dilakukan, dapat disimpulkan bahwa: XML retrieval dapat menghasilkan lebih banyak dokumen yang relevan. Kedalaman konteks XML dapat meningkatan kinerja sistem sehingga dihasilkan jawaban yang lebih spesifik. Struktur XML yang lebih lengkap pada dokumen dapat meningkatkan kinerja XML retrieval.
Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. Harlow: Addison Wesley. Bahi MN. 2011. XML retrieval untuk dokumen bahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam,. Institut Pertanian Bogor. Carmel D, Efraty N, Landau GM, Maarek YS, Mass Y. 2002. An extension of the vector space model for querying XML documents via XML fragments. Di dalam: Proceedings of the SIGIR 2002 Workshop on XML and Information Retrieval; Tempere, 11-15 Agu 2002. Tempere: SIGIR. hlm 14-25. Gusdiana B. 2010 Implementasi algoritme simnomerge untuk information retrieval dengan koleksi dokumen terstruktur XML [skripsi]. Bandung: Fakultas Teknik Informatika, Institut Teknologi Telkom. Lalmas M. 2009. XML retrieval. Synthesis Lectures on Information Concepts, Retrieval and Services 1:1-111. Manning CD, Rhagavan P, Schütze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press.
LAMPIRAN
10
Lampiran 1 Contoh dokumen pengindeksan pada Sphinx Search <sphinx:document id="34"> <docno>034
Blustru Luffa cylindrica [L.] Roem. NAMA DAERAH: Sumatera: blustru (Melayu),- hurung jawa, ketola, timput (Palembang). Jawa: lopang, oyong (Sunda), bestru, blestru, blustru (Jawa). Maluku: dodahala (Halmahera), petola panjang, p. cina. NAMA ASING: Si gua luo (C), patola, taboboc (Tag.), sponskomkommer, zeefkomkommer (B), sponge gourd, gourd towel, loofah (I). Nama simplisia Retinervus Luffae Fructus (sabut buah blustru), Luffae Folium, (daun blustru). <sinonim>L.aegyptica Mill., L. pentandra Roxb., L. cattupincinna Ser., L. faetida Sieb. et Zucc., L. petola Ser., Momordica cylirzdrica L.
cucurbitaceae. <deskripsi>Terna semusim, panjang batangnya dapat mencapai 2-10 m, memanjat dengan sulur-sulur (alat pembelit) yang keluar dari ketiak daun. Daun tunggal, panjang tangkai daun 4-9 cm, letak berseling. Helaian daun bulat telur melebar, berlekuk menjari 5-7 buah, pangkal daun berbentuk jantung, tulang daun menonjol di bawah, warna permukaan atas daun hijau tua, warna permukaan bawah daun hijau muda, panjang 6-25 cm, lebar 7,5-27 cm. Bunga berkelamin tunggal, terdapat dalam satu pohon. Kata kunci : Blustru, nyeri sendi
Blustru ditanam di ladang, dirambatkan pada pagar halaman sebagai tanaman sayur, atau tumbuh liar di semak, tepi sungai, dan pantai; Bagian tumbuhan yang digunakan sebagai obat adalah seluruh bagian tumbuhan, seperti buah, kulit buah, tangkai buah, biji, sabut, daun, bunga, batang, dan akar. <manfaat>1. Buah digunakan untuk mengatasi: demam, rasa haus, batuk sesak, keputihan,h aid tidak teratur, air susu ibu (ASI) tidak lancar, sukar buang air besar, pendarahan, seperti air seni berdarah, mimisan, dan bisul; 2. Biji digunakan untuk mengatasi : muka,tangan, dan kaki bengkak (edema), batu saluran kencing, cacingan, sakit pinggang, dan wasir; 3. Daun digunakan untuk mengatasi: sesak napas, tidak datang haid (amenore), orkitis, luka bakar, bisul, kurap, dan digigit ular; 4. Kulit buah digunakan untuk mengatasi: bisul, abses daerah rektum (ujung usus besar), dan luka; 5. Bunga digunakan untuk mengatasi: batuk disertai sesak, sakit tenggorokan, sinusitis, wasir, dan bisul; 6. Sabut digunakan untuk mengatasi: sakit dada, sakit perut, sakit pinggang, rematik sendi, pegal linu, batuk berdahak, tidak datang haid, payudara bengkak, air susu ibu (ASI) sedikit, wasir, orkitis, dan bisul; 7. Arang dari sabut digunakan untuk : menghentikan pendarahan, seperti pendarahan diluar haid, air seni berdarah, dan berak darah; 8. Akar digunakan untuk mengatasi: migrain,sakit pinggang, sakit tenggorokan, bisul yang tidak mau pecah, dan payudara bengkak (mastitis); 9. Batang digunakan untuk mengatasi: rasa baal, haid tidak teratur, hidung berlendir, dan bengkak (edema); 10. Tangkai buah digunakan untuk pengobatan: cacar air pada anak-anak. Kata kunci : Blustru, nyeri sendi <sifat>Blustru berkhasiat sebagai peluruh dahak, penghenti pendarahan (hemostatis), pencahar ringan (laksatif), serta membersihkan panas;
Buah Blustru mengandung saponin triterpen, luffein (zat pahit), citrulline, dan cucurbitacin. Getah mengandung saponin, lendir, lemak, protein, xylan, dan vitamin (B dan C). Biji mengandung minyak lemak, squalene, a-spinasterol, cucurbitacin B, dan protein. Bunga mengandung glutamin, asam aspartat, arginin, lisin, dan alanin. Sabut mengandung xylan, xylose, mannosan, galactan, saponin, selulosa, galaktosa, manitosa, dan vitamin (A, B, dan C). Daun dan batang mengandung saponin dan tanin. kulit, pendarahan, nyeri sendi
11
Lampiran 2 Contoh dokumen pengujian <doc> <docno>034
Blustru Luffa cylindrica [L.] Roem. NAMA DAERAH: Sumatera: blustru (Melayu),- hurung jawa, ketola, timput (Palembang). Jawa: lopang, oyong (Sunda), bestru, blestru, blustru (Jawa). Maluku: dodahala (Halmahera), petola panjang, p. cina. NAMA ASING: Si gua luo (C), patola, taboboc (Tag.), sponskomkommer, zeefkomkommer (B), sponge gourd, gourd towel, loofah (I). Nama simplisia Retinervus Luffae Fructus (sabut buah blustru), Luffae Folium, (daun blustru). <sinonim>L.aegyptica Mill., L. pentandra Roxb., L. cattupincinna Ser., L. faetida Sieb. et Zucc., L. petola Ser., Momordica cylirzdrica L.
cucurbitaceae. <deskripsi>Terna semusim, panjang batangnya dapat mencapai 2-10 m, memanjat dengan sulur-sulur (alat pembelit) yang keluar dari ketiak daun. Daun tunggal, panjang tangkai daun 4-9 cm, letak berseling. Helaian daun bulat telur melebar, berlekuk menjari 5-7 buah, pangkal daun berbentuk jantung, tulang daun menonjol di bawah, warna permukaan atas daun hijau tua, warna permukaan bawah daun hijau muda, panjang 6-25 cm, lebar 7,5-27 cm. Bunga berkelamin tunggal, terdapat dalam satu pohon. Kata kunci : Blustru, nyeri sendi
Blustru ditanam di ladang, dirambatkan pada pagar halaman sebagai tanaman sayur, atau tumbuh liar di semak, tepi sungai, dan pantai; Bagian tumbuhan yang digunakan sebagai obat adalah seluruh bagian tumbuhan, seperti buah, kulit buah, tangkai buah, biji, sabut, daun, bunga, batang, dan akar. <manfaat>1. Buah digunakan untuk mengatasi: demam, rasa haus, batuk sesak, keputihan,h aid tidak teratur, air susu ibu (ASI) tidak lancar, sukar buang air besar, pendarahan, seperti air seni berdarah, mimisan, dan bisul; 2. Biji digunakan untuk mengatasi : muka,tangan, dan kaki bengkak (edema), batu saluran kencing, cacingan, sakit pinggang, dan wasir; 3. Daun digunakan untuk mengatasi: sesak napas, tidak datang haid (amenore), orkitis, luka bakar, bisul, kurap, dan digigit ular; 4. Kulit buah digunakan untuk mengatasi: bisul, abses daerah rektum (ujung usus besar), dan luka; 5. Bunga digunakan untuk mengatasi: batuk disertai sesak, sakit tenggorokan, sinusitis, wasir, dan bisul; 6. Sabut digunakan untuk mengatasi: sakit dada, sakit perut, sakit pinggang, rematik sendi, pegal linu, batuk berdahak, tidak datang haid, payudara bengkak, air susu ibu (ASI) sedikit, wasir, orkitis, dan bisul; 7. Arang dari sabut digunakan untuk : menghentikan pendarahan, seperti pendarahan diluar haid, air seni berdarah, dan berak darah; 8. Akar digunakan untuk mengatasi: migrain,sakit pinggang, sakit tenggorokan, bisul yang tidak mau pecah, dan payudara bengkak (mastitis); 9. Batang digunakan untuk mengatasi: rasa baal, haid tidak teratur, hidung berlendir, dan bengkak (edema); 10. Tangkai buah digunakan untuk pengobatan: cacar air pada anak-anak. Kata kunci : Blustru, nyeri sendi <sifat>Blustru berkhasiat sebagai peluruh dahak, penghenti pendarahan (hemostatis), pencahar ringan (laksatif), serta membersihkan panas;
Buah Blustru mengandung saponin triterpen, luffein (zat pahit), citrulline, dan cucurbitacin. Getah mengandung saponin, lendir, lemak, protein, xylan, dan vitamin (B dan C). Biji mengandung minyak lemak, squalene, a-spinasterol, cucurbitacin B, dan protein. Bunga mengandung glutamin, asam aspartat, arginin, lisin, dan alanin. Sabut mengandung xylan, xylose, mannosan, galactan, saponin, selulosa, galaktosa, manitosa, dan vitamin (A, B, dan C). Daun dan batang mengandung saponin dan tanin. kulit, pendarahan, nyeri sendi
12
Lampiran 3 Deskripsi query Query
Deskripsi
sakit kuning
Query untuk mencari dokumen mengenai tanaman obat yang dapat mengobati sakit kuning. Pencarian dilakukan tanpa memperhatikan tag
masuk angin
Query untuk mencari dokumen mengenai tanaman obat yang dapat mengobati masuk angin. Pencarian dilakukan tanpa memperhatikan tag
asam urat
Query untuk mencari dokumen mengenai tanaman obat yang dapat mengobati asam urat. Pencarian dilakukan tanpa memperhatikan tag
kulit
Query untuk mencari dokumen mengenai tanaman obat yang dapat mengobati penyakit pada kulit atau luka. Pencarian dilakukan tanpa memperhatikan tag
kencing manis
Query untuk mencari dokumen mengenai tanaman obat yang dapat mengobati kencing manis. Pencarian dilakukan tanpa memperhatikan tag
/manfaat#tekanan darah tinggi
Query untuk mencari dokumen mengenai tanaman obat yang memiliki manfaat dapat mengobati tekanan darah tinggi. Pencarian dilakukan berdasarkan tag <manfaat>
/manfaat#muntah darah
Query untuk mencari dokumen mengenai tanaman obat yang memiliki manfaat dapat mengobati muntah darah. Pencarian dilakukan berdasarkan tag <manfaat>
/manfaat#radang paru
Query untuk mencari dokumen mengenai tanaman obat yang memiliki manfaat dapat mengobati radang paru. Pencarian dilakukan berdasarkan tag <manfaat>
/manfaat#infeksi ginjal
Query untuk mencari dokumen mengenai tanaman obat yang memiliki manfaat dapat mengobati infeksi ginjal. Pencarian dilakukan berdasarkan tag <manfaat>
/penyakit#saluran kemih
Query untuk mencari dokumen mengenai tanaman obat yang dapat mengobati penyakit pada saluran kemih. Pencarian dilakukan berdasarkan tag
/sifat#anti radang
Query untuk mencari dokumen mengenai tanaman obat yang memiliki sifat sebagai anti radang. Pencarian dilakukan berdasarkan tag <sifat>
/manfaat#kanker darah
Query untuk mencari dokumen mengenai tanaman obat yang memiliki manfaat dapat mengobati tekanan darah tinggi. Pencarian dilakukan berdasarkan tag <manfaat>
/manfaat#radang saluran napas
Query untuk mencari dokumen mengenai tanaman obat yang memiliki manfaat dapat mengobati radang saluran napas. Pencarian dilakukan berdasarkan tag <manfaat>
/nama/namalokal#asam jawa
Query untuk mencari dokumen mengenai nama lokal tanaman obat asam jawa. Pencarian dilakukan berdasarkan tag
/nama/namalokal#bayam
Query untuk mencari dokumen mengenai nama lokal tanaman obat bayam. Pencarian dilakukan berdasarkan tag
13
Lajutan Lampiran 3 Query
Deskripsi
/nama/namalokal#belimbing asam
Query untuk mencari dokumen mengenai nama lokal tanaman obat belimbing asam. Pencarian dilakukan berdasarkan tag
/nama/nama-lokal#daun jintan
Query untuk mencari dokumen mengenai tanaman obat daun jintan. Pencarian dilakukan berdasarkan tag
/nama/nama-lokal#sirih
Query untuk mencari dokumen mengenai nama lokal tanaman obat sirih. Pencarian dilakukan berdasarkan tag
/nama/nama-lokal#buah makasar
Query untuk mencari dokumen mengenai nama lokal tanaman obat buah makasar. Pencarian dilakukan berdasarkan tag
/nama/nama-lokal#ekor kucing
Query untuk mencari dokumen mengenai nama lokal tanaman obat ekor kucing. Pencarian dilakukan berdasarkan tag
14
Lampiran 4 Daftar query dan dokumen relevan Query
Dokumen Relevan
sakit kuning
011, 017, 020, 038, 046, 049, 069, 072, 074, 087, 114
masuk angin
017, 020, 094
asam urat
114
kulit
002, 006, 007, 009, 011, 013, 014, 015, 016, 020, 027, 028, 030, 032, 033, 034, 038, 046, 049, 051, 061, 064, 067, 068, 072, 076, 078, 080, 081, 082, 090, 092, 094, 097, 099, 102, 103, 106, 107, 108, 116, 118, 121, 122, 123, 127, 129
kencing manis
002, 007, 009, 012, 019, 023, 024, 029, 031, 033, 038, 041, 048, 063, 066, 074, 080, 089, 091, 093, 094, 095, 104, 108, 114
/manfaat#tekanan tinggi
darah
022, 024, 025, 054, 055, 060, 083, 087, 089, 110, 111, 114,
006, 007, 020, 023, 024, 025, 035, 043, 046, 048, 050, 055, 062, 074, 077, 085, 091, 096, 114, 12
/manfaat#muntah darah
001, 006, 010, 018, 029, 031, 035, 049, 068, 077, 078, 100, 108, 125
/manfaat#radang paru
016, 031, 033, 054, 090, 100
/manfaat#infeksi ginjal
006, 011, 069, 085, 091, 100, 102, 126
/penyakit#saluran kemih
001, 006, 009, 022, 033, 038, 041, 043, 047, 048, 050, 057, 058, 066, 083, 085, 091, 094, 100, 102, 105, 114, 116, 126, 127, 128
/sifat#anti radang
001, 002, 003, 004, 007, 010, 024, 025, 030, 031, 040, 043, 044, 047, 049, 055, 065, 067, 069, 072, 080, 084, 086, 097, 100, 103, 106, 108, 114, 118, 120, 125, 126, 127, 130
/manfaat#kanker darah
029, 070
/manfaat#radang saluran napas
004, 022, 028, 042, 043, 047, 054, 058, 071, 072, 074, 077, 084, 096, 101, 110, 127
/nama/nama-lokal#asam jawa
014
/nama/nama-lokal#bayam
001, 021, 022, 035
/nama/namalokal#belimbing asam
023, 025
/nama/nama-lokal#daun jintan
071
/nama/nama-lokal#sirih
015, 110
/nama/nama-lokal#buah makasar
039
/nama/nama-lokal#ekor kucing
078
15
Lampiran 5 Daftar query dan dokumen yang tidak relevan Query
masuk angin
Dokumen Tidak Relevan 007, 014, 024, 025, 031, 039, 043, 061, 062, 063, 107, 108, 112, 118, 122, 127, 128 074, 086, 102
asam urat
006, 074, 075
kulit
018, 031, 047, 048, 050, 057, 059, 062, 063, 065, 077, 084, 093, 095, 101, 109, 113, 117 025, 118, 126, 127
sakit kuning
kencing manis /manfaat#tekanan tinggi
darah
021, 053
/manfaat#muntah darah
053
/manfaat#radang paru
084, 102, 114, 127
/manfaat#infeksi ginjal
074
/penyakit#saluran kemih /sifat#anti radang /manfaat#kanker darah
031, 043, 114, 123
/manfaat#radang saluran napas /nama/nama-lokal#asam jawa
023, 025, 055, 109
/nama/nama-lokal#bayam /nama/namalokal#belimbing asam /nama/nama-lokal#daun jintan
103
/nama/nama-lokal#sirih /nama/nama-lokal#buah makasar
051
/nama/nama-lokal#ekor kucing
035
16
Lampiran 6 Hasil kinerja sistem dalam temu kembali dokumen relevan Recall
Precision Tanpa Tagging
Kedalaman Konteks 1
Kedalaman Konteks 2
0
0.827
0.958
1.000
0.1
0.807
0.958
1.000
0.2
0.765
0.958
1.000
0.3
0.773
0.952
1.000
0.4
0.773
0.952
1.000
0.5
0.765
0.952
1.000
0.6
0.765
0.863
1.000
0.7
0.765
0.863
1.000
0.8
0.718
0.855
1.000
0.9
0.717
0.855
1.000
1
0.637
0.855
0.786
Average Precision
0.756
0.911
0.981
17
Lampiran 7 Hasil kinerja sistem dalam temu kembali dokumen yang tidak relevan Recall
Precision Tanpa Tagging
Kedalaman Konteks 1
Kedalaman Konteks 2
0
0.713
0.280
0.329
0.1
0.713
0.280
0.329
0.2
0.713
0.280
0.329
0.3
0.636
0.249
0.329
0.4
0.611
0.249
0.329
0.5
0.611
0.249
0.329
0.6
0.611
0.235
0.329
0.7
0.561
0.235
0.329
0.8
0.516
0.235
0.329
0.9
0.516
0.235
0.329
1
0.516
0.181
0.329
Average Precision
0.611
0.246
0.329
18
Lampiran 8 Antarmuka sistem