XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA
MARYAM NOVIYANA BAHI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA
MARYAM NOVIYANA BAHI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA
MARYAM NOVIYANA BAHI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
ABSTRACT MARYAM NOVIYANA BAHI. XML Retrieval for Document in Bahasa Indonesia. Under direction of JULIO ADISANTOSO. XML (eXtensible Markup Language) retrieval is the content based retrieval of documents structured with XML and aims to implement focused retrieval strategies aiming at returning document components, which is XML elements instead of whole documents in response to a user query. Query languages for XML retrieval can be classified into content only (CO) and content and structure (CAS) query languages. Content only queries usually used for information retrieval where user does not know structure of a document but can get a specific answer from the query. Whereas, for content and structure queries used for XML retrieval systems which aims to answering user query on retrieve specific part of a document from content and structure XML documents. In this research queries are use content and structure (CAS) character with XML query additional fragments tagging of documents structured with XML. The purpose of this reasearch is to implement XML retrieval for document in Bahasa Indonesia using XML query additional fragments tagging with SIMNOMERGE similarity. The testing used 2 documents i.e. agricultural document and medicinal plants document. For the testing agricultural documents used 30 queries and 1000 documents. Whereas for medicinal plants documents used 13 queries and 93 documents. The testing result showed that the perfomance of information search engine is better when we use the medicinal plants documents than agricultural document. However, the performance of search engine with XML query additional fragment tagging with content and disease in madicinal plants document gave good result with around 0.8589 average precision and for XML query additional fragment tagging with text in agricultural document gave result with around 0.6156 average precision. Keywords : content and structure, content only, SIMNOMERGE, XML retrieval.
Penguji : 1. Ahmad Ridha, S.Kom, MS 2.
Sony Hartono Wijaya, S.Kom, M.Kom
Judul Skripsi Nama NRP
: XML Retrieval untuk Dokumen Bahasa Indonesia : Maryam Noviyana Bahi : G64060199
Menyetujui: Pembimbing,
Ir. Julio Adisantoso, M.Kom NIP. 19620714 198601 1 002
Mengetahui: Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom. NIP. 19660702 199302 1 001
Tanggal Lulus:
RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tanggal 7 November 1988 dan merupakan anak pertama dari dua bersaudara dengan ayah bernama Mastan Harun dan ibu bernama Cicilia Blae. Pada tahun 2006 penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 8 Bogor dan diterima di Institut Pertanian Bogor melalui jalur USMI (Undangan Seleksi Mahasiswa IPB). Pada tahun 2007 penulis diterima di Departemen Ilmu Komputer IPB setelah mengikuti Tingkat Persiapan Bersama (TPB) selama setahun di IPB.
PRAKATA Alhamdulilahirobbil'alamin, segala puji syukur penulis panjatkan ke hadirat Allah subhanallah wata'ala atas segala karunia-Nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir yang dipilih dalam penelitian ini adalah XML Retrieval untuk Dokumen Bahasa Indonesia. Penulis sadar bahwa tugas akhir ini tidak akan terwujud tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada : 1
Orang tua tercinta, adikku Muhammad Nasir Bahi serta segenap keluarga besar, terima kasih atas doa dan dukungan yang tiada henti.
2
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima Kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini.
3
Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony Hartono Wijaya, S.Kom, M.Kom selaku dosen penguji, Dr. Ir. Agus Buono, M.Si, M.Kom. selaku Kepala Departemen Ilmu Komputer serta seluruh staf Departemen Ilmu Komputer FMIPA IPB.
4
Teman-teman satu bimbingan Ilkom 43 dan Ilkom 44 Yucan, Hendrex, Tina, Awet, Eka, Wildan, Rio, Adit, Woro, Dhina, Devi, Agus, Nova, Isna, Fandi dan Nutri. Terima Kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini.
5
Sahabat-sahabatku Uut, Mames, Iki, Syamsul Bachri, dan seluruh sahabatku di Ilkomerz 43. Terima kasih atas motivasi dan kebersamaannya selama ini.
6
Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempunaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, Maret 2012
Maryam Noviyana Bahi
DAFTAR ISI Halaman DAFTAR TABEL...............................................................................................................................v DAFTAR GAMBAR..........................................................................................................................v DAFTAR LAMPIRAN......................................................................................................................v PENDAHULUAN Latar Belakang...............................................................................................................................1 Tujuan.............................................................................................................................................1 Ruang Lingkup...............................................................................................................................1 TINJAUAN PUSTAKA Information Retrieval (Temu-Kembali Informasi).........................................................................1 XML Retrieval................................................................................................................................1 Vector Space Model untuk XML Retrieval....................................................................................2 Recall dan Precision.......................................................................................................................2 METODE PENELITIAN Evaluasi Sistem..............................................................................................................................3 Asumsi............................................................................................................................................3 Lingkungan Implementasi..............................................................................................................3 HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian..........................................................................................................3 Pemrosesan Dokumen....................................................................................................................4 Pengindeksan..................................................................................................................................4 Pemrosesan Kueri...........................................................................................................................4 Hasil Temu Kembali.......................................................................................................................4 Pengujian Kinerja Sistem...............................................................................................................5 KESIMPULAN DAN SARAN Kesimpulan.....................................................................................................................................7 Saran...............................................................................................................................................8 DAFTAR PUSTAKA.........................................................................................................................8 LAMPIRAN.......................................................................................................................................9
v
DAFTAR TABEL 1 2 3
Halaman Deskripsi koleksi dokumen.........................................................................................................3 Hasil perhitungan average precision pada dokumen pertanian...................................................6 Hasil perhitungan average precision pada dokumen tanaman obat ...........................................7
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11 12
Halaman Diagram alur penelitiaan..............................................................................................................2 Format dokumen dokumen pertanian...........................................................................................4 Format dokumen tanaman obat ...................................................................................................4 Contoh tree pada kueri.................................................................................................................4 Grafik R-P untuk tagging title......................................................................................................5 Grafik R-P untuk tagging text......................................................................................................5 Grafik R-P untuk tagging title and text .......................................................................................5 Grafik R-P untuk dokumen pertanian .........................................................................................6 Grafik R-P untuk tagging penyakit..............................................................................................6 Grafik R-P untuk tagging content................................................................................................6 Grafik R-P untuk tagging content dan penyakit...........................................................................7 Grafik R-P untuk dokumen tanaman obat ...................................................................................7
DAFTAR LAMPIRAN 1 2 3 4 5 6
Halaman Antarmuka implementasi sistem pertanian................................................................................10 Antarmuka implementasi sistem tanaman obat.........................................................................11 Daftar kueri dan jumlah dokumen relevan pada sistem pertanian............................................12 Daftar kueri dan jumlah dokumen relevan pada sistem tanaman obat......................................13 Hasil perhitungan precision pada elevent standard recall untuk sistem pertanian...................14 Hasil perhitungan precision pada elevent standard recall untuk sistem tanaman obat.............15
vi
1
PENDAHULUAN
sehingga dokumen dihasilkan lebih spesifik dari sebuah jawaban kueri yang diberikan.
Latar Belakang
Tujuan
Pada saat ini, informasi dapat diperoleh secara cepat dan mudah dengan menggunakan metode temu-kembali informasi. Sistem temukembali mendapatkan informasi dengan menggunakan kueri tertentu. Dengan kueri tersebut, sistem akan melakukan proses temukembali sehingga menemukan informasi atau dokumen yang dicari sesuai urutan relevansinya.
Tujuan dari penelitian ini ialah mengimplementasikan XML retrieval pada dokumen bahasa Indonesia.
Dalam sistem temu kembali informasi, data semi terstruktur dapat direpresentasikan menjadi dua bagian, yaitu sistem temukembali informasi biasa dan sistem XML retrieval. Sistem temu kembali informasi biasa membandingkan semua kumpulan dari term yang ada berupa gambar, kata-kata, ciri-ciri, dan lain-lain, sedangkan sistem XML retrieval membandingkan kata yang digambarkan dengan suatu struktur sehingga lebih fleksibel (Manning et al. 2008). Permasalahan di XML retrieval adalah pengguna ingin mengembalikan bagian dari dokumen pada elemen XML bukan dokumen secara keseluruhan dan membedakan konteks yang berbeda dari setiap term dalam pemeringkatan (Manning et al., 2008). Immaneni dan Thirunarayan (1999) melakukan penelitian terhadap bahasa kueri yang fleksibel dan mengembangkan semantik intuitif dengan ekstraksi dari potonganpotongan dokumen XML yang relevan. Carmel et al. (2002) menambahkan vector space model untuk menemukan dokumen XML dengan menggunakan kueri pada potongan tagging XML dan menghasilkan peringkat sesuai relevansi yang terurut. Fuhr dan Gövert (2002) menggunakan content and structure (CAS) queries dan content only (CO) queries serta dianalisis menggunakan recall dan precision. Lalmas (2009) telah melakukan pendekatan terhadap kueri pada potongan tagging XML dan merepresentasikan hasil peringkat dokumen XML yang terurut secara relevan. Penelitian yang telah dilakukan dengan menggunakan metode XML retrieval baru diterapkan menggunakan koleksi bahasa Inggris. Untuk itu, penelitian kali ini akan menerapkan metode XML retrieval menggunakan koleksi dokumen bahasa Indonesia dengan menggunakan kueri XML dengan potongan tagging dari dokumen
Ruang Lingkup Ruang lingkup penelitian ini ialah menggunakan korpus berupa dokumen bahasa Indonesia dengan menggunakan struktur tag XML yang sama untuk setiap dokumen.
TINJAUAN PUSTAKA Information Infomasi)
Retrieval
(Temu
Kembali
Temu-kembali informasi berkaitan dengan cara merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu, pengguna harus mentransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses oleh mesin pencari sehingga kueri tersebut akan merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, sistem akan menemukembalikan informasi yang relevan dengan kueri (Baeza-Yates & RibeiroNeto, 1999). XML Retrieval XML singkatan dari Extensible Markup Language. Extensible mengandung arti bahasa XML dapat diperluas sendiri sehingga tag-tag atau kode-kode di dalamnya dapat didefinisikan sendiri. Markup berarti bahasa ini berisi kode-kode instruksi yang harus diterjemahkan oleh suatu aplikasi lain untuk menjalankan proses eksekusi yang sesungguhnya (Siregar, 2003). Sebuah dokumen XML adalah sebuah tree yang terurut dan terlabeli. Setiap node dari tree adalah sebuah elemen XML yang ditandai dengan sebuah tag pembuka dan tag penutup. Sebuah elemen dapat memiliki satu atau lebih atribut (Manning et al., 2008). XML retrieval merupakan metode sistem temu-kembali menggunakan dokumen XML yang berstruktur. Tujuan XML retrieval adalah
2 mengimplementasikan temu-kembali yang berfokus pada strategi pengembalian komponen dokumen yaitu pada elemen XML yang merupakan jawaban dari sebuah kueri. Bahasa kueri pada XML retrieval dapat direpresentasikan menjadi dua, yaitu content and structure (CAS) queries dan content only (CO) queries. (CAS) queries merupakan kata kunci yang sifatnya berstruktur sehingga informasi yang didapat lebih spesifik berupa isi dan struktur dari dokumen XML, sedangkan (CO) queries merupakan kata kunci yang sifatnya tidak berstruktur yang biasa dimasukkan dalam sistem temu-kembali biasa (Lalmas, 2009).
SIMNOMERGE q ,d = ∑ ∑ CR c q ,c d ∑ weightq ,t , c q cq ∈ B cd ∈ B
weight2 d , t ,c
Recall adalah perbandingan antara dokumen relevan yang ditemukembalikan ∣Ra∣ dengan dokumen relevan yang ada pada korpus ∣R∣ . Recall=
∣Ra∣ ∣R∣
Precision adalah perbandingan antara dokumen relevan yang ditemukembalikan ∣Ra∣ dengan dokumen yang ∣A∣ ditemukembalikan (Baeza-Yates & Ribeiro-Neto, 1999).
Pembobotan tf-idf memberikan bobot pada term t dalam dokumen d dengan nilai:
Precision=
tft,d ×idft
∣Ra∣ ∣A∣
Average precision (AVP) adalah suatu ukuran evaluasi kinerja temu-kembali yang diperoleh dengan menghitung average precision menggunakan eleven standard recall yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1 (Baeza-Yates & Ribeiro-Neto, 1999).
N , tft,d adalah frekuensi df t term t pada dokumen d, N adalah jumlah dokumen dalam koleksi, dan dft adalah jumlah dokumen yang mengandung term t. dengan idft = log
Vector space model untuk XML Retrieval dapat ditentukan dengan menghitung SIMNOMERGE similarity yang nilai kemiripannya dapat lebih besar dari 1. Dalam SIMNOMERGE similarity, terdapat nilai context resemblance yang merupakan ukuran sederhana dari kemiripan setiap context query dan context document (Manning et al., 2008) yang dirumuskan sebagai berikut:
{
c ∈B, t∈ V
Recall dan Precision
Dalam temu-kembali vector space model, dokumen dan kueri direpresentasikan sebagai vektor (Ogilvie, 2010). Term frequency (tf) merupakan frekuensi kemunculan suatu term t pada dokumen d. Document frequency (df) merupakan banyaknya dokumen dalam korpus yang mengandung kata tertentu (Manning et al., 2008).
1∣c q∣ jika c q cocok dengan c d 1∣c d∣ 0 jika c q tidak cocok dengan c d
weight d, t , cd
∑
dengan V adalah himpunan kata yang unik, B adalah kumpulan semua konteks XML, cq adalah panjang konteks pada kueri, cd adalah panjang konteks pada dokumen, weight(q,t,cq) merupakan bobot term t pada konteks kueri, weight(d,t,cd) adalah bobot term t pada konteks dokumen, dan 2 adalah normalisasi ∑c ∈ B, t ∈V weight d , t ,c panjang dokumen.
Vector Space Model untuk XML Retrieval
CRc q ,c d =
t∈V
METODE PENELITIAN Gambaran umum sistem penelitian yang dikembangkan dapat dilihat pada Gambar 1.
}
dengan |cq| adalah banyaknya node pada kueri dan |cd| adalah banyaknya node pada dokumen. Oleh karena itu, SIMNOMERGE similarity dapat dirumuskan sebagai berikut (Manning et al., 2008): Gambar 1 Diagram alur penelitian.
3 Tahap awal dari penelitian ini adalah mengambil koleksi dokumen terstruktur XML yang terdapat pada satu direktori, kemudian dilakukan pembuangan kata-kata yang tidak penting (stopwords) dan indexing terhadap dokumen. Dari hasil pengindeksan, dilakukan pembentukan inverted index dan terbentuk pencarian dokumen dengan kueri yang diberikan dapat dilakukan. Evaluasi Sistem Evaluasi dilakukan terhadap 30 dokumen teratas untuk sistem pertanian, sedangkan untuk sistem tanaman obat evaluasi dilakukan terhadap 20 dokumen teratas untuk setiap hasil temu-kembali sistem berdasarkan kueri yang diberikan. Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan precision dalam menentukan tingkat keefektifan proses hasil temu-kembali. Dalam perhitungan recall, digunakan eleven standard recall yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Perhitungan ini dilakukan untuk masing-masing jenis kueri dengan potongan tagging XML yang berbeda dari sistem pertanian dan sistem tanaman obat . Hasil perhitungan recall dan precision untuk masing-masing pembobotan akan dibandingkan dalam bentuk grafik recallprecision. Selain itu, juga akan dihitung nilai average precision dari jenis kueri dengan potongan tagging XML yang berbeda dari sistem pertanian dan sistem tanaman obat untuk memperoleh sistem yang lebih baik dalam metode XML retrieval mengunakan dokumen bahasa Indonesia. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian, yaitu:
Microsoft Windows XP Professional sebagai sistem operasi. Apache di dalam XAMPP-win32-1.7.1 sebagai web server. Notepad++ sebagai program editor.
Perangkat keras yang digunakan untuk penelitian, yaitu:
Prosesor Intel Celeron 2.0 GHz. RAM 2 GB. Harddisk 80 GB.
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat. Dokumen-dokumen ini berasal dari Laboratorium Temu Kembali, Departemen Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1. Tabel 1 Deskripsi koleksi dokumen Uraian Dokumen Pertanian Ukuran keseluruhan dokumen
Nilai (bytes) 4 104 253
Ukuran rata-rata dokumen
4 101
Ukuran dokumen terbesar
52 755
Ukuran dokumen terkecil
243
Uraian Dokumen Tanaman Obat Ukuran keseluruhan dokumen
Nilai (bytes) 302 977
Ukuran rata-rata dokumen
3 258
Ukuran dokumen terbesar
13 684
Ukuran dokumen terkecil
868
Dokumen-dokumen ini memiliki bentuk XML yang seragam untuk setiap dokumen. Format struktur XML dapat dilihat pada Gambar 2 untuk dokumen pertanian dan Gambar 3 untuk dokumen tanaman obat. Dokumen pertanian dikelompokkan ke dalam tag-tag berikut:
•
, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag yang lebih spesifik.
•
, tag menunjukkan ID dari dokumen.
ini
•
<TITLE>, tag menunjukkan judul dokumen diberitakan.
ini yang
•
, tag ini menunjukkan nama pengarang berita tersebut.
•
, tag ini menunjukkan isi dari dokumen.
•
, tag ini menunjukkan nama dari tanaman obat.
4
•
, tag ini menunjukkan nama latin dari tanaman obat.
•
, tag ini mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya.
•
, tag ini menunjukkan nama family dari tanaman obat.
•
, tag ini menunjukkan nama penyakit yang berkaitan dengan tanaman obat.
suaramerdeka1201 04 <TITLE>Pemerintah Larang Impor Beras pada Pra dan Pascapanen Raya (ant-82) <SOURCE>suaramerdeka 12/1/2004 JAKARTA- Pemerintah mengeluarkan ketentuan larangan melakukan impor beras pada satu bulan sebelum saat.....
Gambar 2 Format dokumen dokumen pertanian. 017 Sosor Bebek Kalanchoe pinnata Lamk. Famili : Crassulaceae. Nama Lokal : Cakar itek (Sunda); dan sosor bebek.... Crassulaceae Kulit
Gambar 3 Format dokumen tanaman obat. Pemrosesan Dokumen Sebelum dilakukan proses pengindeksan koleksi, dokumen terlebih dahulu dipisahkan berdasarkan jenis tag. Dokumen pertanian dibedakan dalam tiga tagging: title, text, dan title & text sedangkan untuk dokumen tanaman obat adalah penyakit, content, dan content & penyakit dengan menggunakan fungsi preg_split. Pengindeksan Pengindeksan dokumen dimulai dengan melakukan parsing terhadap setiap file yang
dibedakan berdasarkan pemisahan tagging, kemudian dilakukan pembuangan stopwords yang terdapat pada file “stopwords.txt”. File ini terdiri atas 661 kata yang dipisahkan dengan newline. Selanjutnya, term diubah ke lower case dengan fungsi preg_match. Pengindeksan 1000 dokumen pertanian dan 93 dokumen tanaman obat pada setiap tagging menghasilkan jumlah kata unik dan frekuensi total setiap kata. Pemrosesan Kueri Untuk menjalankan proses evaluasi, kueri dimasukkan pada sistem mesin pencari (Lampiran 1 dan Lampiran 2). Jumlah kueri yang digunakan pada penelitian ini ialah 30 untuk dokumen pertanian (Lampiran 3) dan 13 untuk dokumen tanaman obat (Lampiran 4). Kueri-kueri ini tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer. Kueri pada sistem ini menggunakan kueri XML, yaitu berupa kueri yang dipasangkan dengan potongan tagging XML yang bersifat terstruktur. Pada kueri XML, potongan tagging yang dipakai pada dokumen pertanian adalah 1. kueri 2. kueri 3. kueri Tagging yang dipakai pada dokumen tanaman obat adalah 1. kueri 2. kueri 3. kueri Penghitungan panjang konteks pada kueri dapat dicontohkan sebagai berikut: “ gagal panen” Kueri tersebut diilustrasikan menjadi tree yang digambarkan pada Gambar 4. Gambar 4 menunjukkan bahwa panjang konteks pada kueri ialah 3. title
gagal
panen
Gambar 4 Contoh tree pada kueri. Hasil Temu Kembali Pada penelitian ini, pembobotan yang
5 digunakan yaitu tf-idf. Jumlah dokumen teratas yang diambil adalah 30 untuk sistem dokumen pertanian dan 20 untuk sistem dokumen tanaman obat. Pengujian Kinerja Sistem
sebesar 0.6156 atau meningkat 12% dari kueri XML dengan potongan tagging title. Hal ini menyebabkan kata konteks kueri banyak yang sama dengan konteks dokumen yang menyebabkan nilai average precision meningkat sebesar 12%.
Proses evaluasi dalam penelitian ini dilakukan pada dua koleksi dokumen yaitu dokumen pertanian dan dokumen, tanaman obat beserta kueri uji yang berbeda. Pengujian pada Dokumen Pertanian
Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji yang telah ada sebelumnya berikut dokumen yang relevan. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan precision untuk 30 dokumen teratas yang ditemukembalikan oleh sistem dan dilakukan perhitungan interpolasi terhadap maksimum untuk mendapatkan nilai average precision (AVP). Pengujian terhadap kueri XML pada dokumen pertanian terdapat tiga jenis potongan tagging dari struktur dokumen XML di koleksi, yaitu : a Kueri XML dengan potongan tagging title
0.9 0.8
precision
1
1.0
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
recall
Gambar 6 Grafik R-P untuk tagging text. c Kueri XML dengan potongan tagging title and text Gambar 7 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging title dan text. 1.0
Gambar 5 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging title. Nilai average precision dari pencarian kueri XML dengan potongan tagging title sebesar 0.5005. 0.9 0.8
precision
0.7 0.6 0.5
precision
1.0
0.9 0.8
0.4 0.3
0.7
0.2 0.1
0.6
0.0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.5 0.4
recall
0.3
Gambar 7 Grafik R-P untuk potongan tagging title & text.
0.2 0.1 0.0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
recall
Gambar 5 Grafik R-P untuk tagging title. b Kueri XML dengan potongan tagging text Gambar 6 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging text. Nilai average precision dari pencarian kueri XML dengan potongan tagging text
Nilai average precision dari pencarian kueri XML dengan potongan tagging title and text sebesar 0.6153 atau lebih rendah 0.0003 dari kueri XML dengan potongan tagging text dan meningkat 12% dari kueri XML dengan potongan tagging title. Average precision masing-masing potongan tagging pada kueri XML dapat dilihat pada Tabel 2. Kinerja temu-kembali diilustrasikan dengan grafik recall-precision yang ditunjukan pada Gambar 8.
6 pencarian dokumen dengan kueri XML dengan mengambil 20 dokumen teratas. Pengujian terhadap kueri XML pada dokumen tanaman obat terdapat tiga jenis potongan tagging dari struktur dokumen XML di koleksi dokumen pertanian, yaitu :
1.0 0.9 0.8
0.5 0.4
a Kueri XML dengan potongan tagging penyakit
tagging title tagging text tagging title & text
0.3 0.2 0.1 0.0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
recall
Gambar 8
Grafik R-P untuk dokumen pertanian.
Gambar 8 menunjukkan bahwa untuk perbedaan jenis potongan tagging telah memiliki perbedaan yang signifikan terhadap penambahan potongan tagging XML dan panjangnya kata pada suatu konteks di dokumen pertanian. Tabel 2 Hasil perhitungan average precision pada dokumen pertanian
Gambar 9 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging penyakit. Pada pengujian sistem pada pencarian kueri XML dengan potongan tagging penyakit, nilai average precision yang didapat sebesar 0.5968. Pengaturan skala sumbu y pada Gambar 9 dimulai dengan skala minimum 0.5750 dan skala maksimum 0.6150. Hal ini dilakukan untuk melihat grafik R-P potongan tagging penyakit telah relevan. 0.6150 0.6100 0.6050 0.6000 precision
precision
0.7 0.6
0.5950 0.5900
Jenis Tagging
AVP
Title
0.5005
0.5800
Text
0.6156
0.5750
Title & Text
0.6153
Tabel 2 menunjukkan bahwa kinerja sistem pada pembobotan tf-idf dengan SIMNOMERGE similarity memberikan temukembali lebih baik yaitu pada kueri XML dengan potongan tagging text dan tagging title and text sebesar 62%. Berarti, secara rata-rata pada tiap recall point, 62% hasil temu-kembali relevan dengan kueri dan meningkat sebesar 12% dari kueri XML dengan potongan tagging title.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 recall
Gambar 9 Grafik R-P untuk tagging penyakit. b Kueri content
1.0 0.9 0.8
Pengujian pada Dokumen Tanaman Obat
Proses evaluasi pada dokumen tanaman obat menggunakan 13 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan. Pengujian yang dilakukan sama seperti sebelumnya, yaitu melakukan perhitungan recall-precision terhadap kueri XML dan dilakukan tahap perhitungan interpolasi masksimum untuk mendapakan nilai average precision (AVP) yang akan menggambarkan nilai kinerja pada sistem secara keseluruhan. Pada pengujian sistem dilakukan untuk
XML dengan Potongan tagging
Gambar 10 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging content.
0.7 0.6
Precision
2
0.5850
0.5 0.4 0.3 0.2 0.1 0.0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Recall
Gambar 10 Grafik R-P untuk tagging content.
7 Nilai average precision dari pencarian kueri XML dengan potongan tagging content sebesar 0.6273 atau lebih tinggi sebesar 0.0305 dari kueri XML dengan potongan tagging penyakit. c Kueri XML dengan potongan tagging content dan penyakit Gambar 11 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging content dan penyakit. Nilai average precision dari pencarian kueri XML dengan potongan tagging content dan penyakit sebesar 0.8589. Perbedaan kinerja sistem pada kueri potongan tagging content dan content & penyakit di sistem tanaman obat diilustrasikan pada grafik recall-precision yang dapat dilihat Gambar 12 dan uraian masing-masing nilai average precision terhadap kueri XML di tanaman obat dapat dilihat pada Tabel 3. 1.0 0.9 0.8 0.7
precision
0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 recall
Gambar 11 Grafik R-P untuk tagging content dan penyakit. 1.0 0.9 0.8 0.7
penyatuan potongan tagging pada sistem tanaman obat, yaitu content dan penyakit. Di potongan tagging tersebut, terdapat banyak kueri yang dicari oleh pengguna sehingga banyak terambil dokumen yang relevan pada pengujian kueri XML dengan potongan tagging content dan penyakit. Tabel 3 Hasil perhitungan average precision pada dokumen tanaman obat Jenis Tagging
AVP
Penyakit
0.5968
Content
0.6273
Content & Penyakit 0.8589 Hasil pada Tabel 3 menunjukkan bahwa kinerja sistem untuk tanaman obat dengan nilai average precision yang sangat baik mencapai 86% pada kueri XML dengan potongan tagging content dan penyakit. Berarti, secara rata-rata pada tiap recall point, 86% hasil temu-kembali relevan dengan kueri. Kinerja pengujian kueri XML dengan potongan tagging content dan penyakit meningkat 23% dari potongan tagging content atau meningkat 26% dari potongan tagging penyakit. Hasil pengujian pada dokumen tanaman obat lebih baik daripada pengujian dokumen pertanian. Hal ini dikarenakan isi konteks dokumen banyak yang sama dengan representasi dari kueri uji yang dilakukan. Hal ini mengakibatkan sistem dapat menghasilkan dokumen yang spesifik dari kueri XML dengan potongan tagging di dokumen tanaman obat. Selain itu, dokumen tanaman obat juga bersifat berbeda antar dokumennya. Setiap dokumen pada setiap tagging memiliki penciri yang berbeda dari dokumen lainnya sehingga membuat hasil temu-kembali menjadi semakin baik.
precision
0.6 0.5 0.4 0.3 0.2 0.1
tagging content tagging content & penyakit
0.0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 recall
Gambar 12 Grafik R-P untuk dokumen tanaman obat. Dari Gambar 12, dapat dilihat bahwa terjadi perubahan signifikan terhadap
KESIMPULAN DAN SARAN Kesimpulan Hasil penelitian ini menunjukkan bahwa: 1
Kinerja kueri XML pada sistem dokumen tanaman obat lebih baik daripada dokumen pertanian.
2
Kueri XML dengan potongan tagging content dan penyakit di dokumen tanaman obat mendapatkan nilai average precision yang baik yaitu sebesar 0.8589, sedangkan pada dokumen pertanian nilai
8 average precision maksimumnya mencapai 0.6156 pada kueri XML dengan potongan tagging text. Saran Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian ke depannya, seperti: 1
Membandingkan kinerja pada sistem ini menggunakan pembobotan dan similarity lainnya yang ada pada metode di XML retrieval.
2
Menggunakan dokumen XML dengan struktur yang lebih kompleks.
DAFTAR PUSTAKA Anbiana ED. 2009. Pseudo-Relevance Feedback pada temu kembali menggunakan segmentasi dokumen [skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York: Addison Wesley. Carmel D, Efraty N, Landau GM, Maarek YS, Mass Y. 2002. An Extension of the Vector Space Model for Querying XML Documents via XML Fragments. Haifa: Haifa University. Fuhr N, Gövert N. 2002. INEX: Initiative for the Evaluation of XML Retrieval. London: University of Dortmund, Germany and Queen Mary University of London, UK. Immaneni T, Thirunarayan K. 1999. Flexible Querying of XML Documents. Ohio: Department of Computer Science and Engineering Wright State University. Lalmas M. 2009. XML Information retrieval. Glasgow: University of Glasgow. Manning CD. Raghavan P, Schütze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Ogilvie P. 2010. Retrieval Using Document Structure and Annotations. Pittsburgh: Language Technologies Institute. Siregar ABS. 2003. Dukungan XML pada pengembangan perangkat lunak untuk sistem pembelajaran jarak jauh di Magister Teknologi Informasi Universitas Gajah Mada [skripsi]. Yogyakarta: Universitas Gajah Mada.
LAMPIRAN
10 Lampiran 1 Antarmuka implementasi Sistem Pertanian
11 Lampiran 2 Antarmuka implementasi Sistem Tanaman Obat
12 Lampiran 3 Daftar kueri dan jumlah dokumen relevan pada Sistem Pertanian No
Kueri
Jumlah dokumen relevan
1
Bencana kekeringan
39
2
Dukungan pemerintah pada pertanian
29
3
Flu burung
21
4
Gabah kering giling
24
5
Gagal panen
48
6
Harga komoditas pertanian
57
7
Impor beras indonesia
43
8
Industri gula
19
9
Institut pertanian bogor
40
10
Kelangkaan pupuk
20
11
Kelompok masyarakat tani
32
12
Laboratorium pertanian
21
13
Musim panen
40
14
Pembangunan untuk sektor pertanian
46
15
Penerapan bioteknologi di indonesia
42
16
Penerapan teknologi pertanian
39
17
Penyakit hewan ternak
13
18
Penyuluhan pertanian
27
19
Perdagangan hasil pertanian
30
20
Pertanian organik
24
21
Petani tebu
20
22
peternak unggas
20
23
Produk usaha peternakan rakyat
19
24
Pupuk organik
20
25
Riset pertanian
69
26
Swasembada pangan
30
27
Tadah hujan
18
28
Tanaman obat
29
29
Tanaman pangan
43
30
Upaya peningkatan pendapatan petani
35
13 Lampiran 4 Daftar kueri dan jumlah dokumen relevan pada Sistem Tanaman Obat No
Kueri
Jumlah dokumen relevan
1
Batuk rejan
6
2
Diabetes mellitus
16
3
Gangguan pencernaan
19
4
Kencing manis
16
5
Kronis
9
6
Kulit
10
7
Masuk angin
12
8
Muntah darah
15
9
Nyeri radang demam
19
10
Pencernaan
19
11
Perawatan
24
12
Pernapasan
5
13
Saluran kemih
6
14 Lampiran 5 Hasil perhitungan precision pada eleven standard recall untuk Sistem Pertanian Precision Recall
Tagging Title
Tagging Text
Tagging Title + Text
0
0.7762
0.9125
0.9144
0,1
0.6106
0.8581
0.8674
0,2
0.5294
0.7418
0.7400
0,3
0.4754
0,6075
0.6126
0,4
0.4643
0.5580
0.5537
0,5
0.4451
0.5203
0.5174
0,6
0.4431
0.5148
0.5125
0,7
0.4405
0.5148
0.5125
0,8
0.4405
0.5148
0.5125
0,9
0.4405
0.5148
0.5125
1
0.4405
0.5148
0.5125
Average Precision
0,5005
0.6156
0.6153
15 Lampiran 6 Hasil perhitungan precision pada eleven standard recall untuk Sistem Tanaman Obat Precision Recall
Tagging Penyakit
Tagging Content
Tagging Content + Penyakit
0
0.6154
0.7194
0.9308
0,1
0.6000
0.7066
0.9308
0,2
0.6000
0.6874
0.9308
0,3
0.5962
0.6617
0.9308
0,4
0.5962
0.6468
0.9212
0,5
0.5962
0.6426
0.8931
0,6
0.5962
0.6356
0.8658
0,7
0.5911
0.5898
0.8073
0,8
0.5911
0.5604
0.7722
0,9
0.5911
0.5552
07671
1
0.5911
0.4949
0.6983
Average Precision
0.5968
0.6273
0.8589