RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS
REZA KEMAL ZAEN
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul RDF Retrieval untuk Dokumen Bahasa Indonesia dengan Pembobotan Per Konteks adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Desember 2015 Reza Kemal Zaen NIM G64110003
ABSTRAK REZA KEMAL ZAEN. RDF Retrieval untuk Dokumen Bahasa Indonesia dengan Pembobotan Per Konteks. Dibimbing oleh JULIO ADISANTOSO. Penelitian temu kembali informasi pada dokumen RDF sudah dilakukan. Akan tetapi, penelitian tersebut belum memperhatikan struktur dari dokumen RDF. Penelitian ini mengembangkan sistem temu kembali informasi pada dokumen RDF dengan memperhatikan struktur dokumen yaitu dengan membedakan bobot pada setiap konteks (tag) yang ada pada dokumen RDF. Pembobotan yang digunakan adalah tf-idf. Bobot yang dihasilkan pada setiap konteks dikalikan dengan suatu koefisien dengan nilai 0.2, 0.4, 0.6, 0.8, atau 1.0. Sistem temu kembali informasi yang dibangun dievaluasi dengan menggunakan 29 kueri. Penelitian ini menghasilkan nilai average precision (AVP) sebesar 0.89721. Nilai tersebut lebih tinggi 1.91% jika dibandingkan dengan sistem temu kembali informasi yang tidak membedakan bobot per konteks. Kata kunci: pembobotan konteks, RDF, temu kembali informasi.
ABSTRACT REZA KEMAL ZAEN. RDF Retrieval of Document Bahasa Indonesia Using Context Weighting. Supervised by JULIO ADISANTOSO. Research on information retrieval using RDF document has been conducted, but the study did not consider the structure of RDF documents. This research develops an information retrieval system for RDF documents to distinguish weights of each context in an RDF document. The weighting used is tf-idf. Weights in each context are multiplied by a coefficient with a value of 0.2, 0.4, 0.6, 0.8, or 1.0. The information retrieval system is evaluated by using 29 queries. As the result of this experiment, an average precision value of 0.89721 was obtained. The value increased by 1.91% compared with the information retrieval system without context weighting. Keywords: context weighting, information retrieval, RDF.
RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS
REZA KEMAL ZAEN
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
Penguji : 1 Ahmad Ridha, SKom MS 2 Dr. Irman Hermadi, SSi MS
Judul Skripsi : RDF Retrieval untuk Dokumen Bahasa Indonesia dengan Pembobotan Per Konteks Nama : Reza Kemal Zaen NIM : G64110003
Disetujui oleh
Ir. Julio Adisantoso, MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga tugas akhir ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan September 2014 ini ialah temu kembali informasi, dengan judul RDF Retrieval untuk Dokumen Bahasa Indonesia dengan Pembobotan Per Konteks. Terima kasih penulis ucapkan kepada Bapak Ir. Julio Adisantoso M.Kom selaku pembimbing yang telah membantu penulis dalam menyusun tugas akhir ini. Ungkapan terima kasih juga disampaikan kepada ayah, ibu, kakak, adik, serta seluruh keluarga, atas segala doa dan dukungan yang selalu diberikan. Begitu pula rasa terima kasih penulis ungkapkan kepada Rizki dan Luthfi selaku teman seperjuangan dalam menyelesaikan tugas akhir ini serta teman-teman Ilmu Komputer angkatan 48 atas kebersamaan, dukungan semangat yang diberikan kepada penulis. Semoga tugas akhir ini dapat bermanfaat.
Bogor, Desember 2015 Reza Kemal Zaen
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Dokumen RDF
3
Penyimpanan Dokumen pada Sesame
3
Proses Indexing
4
Pencarian Dokumen
4
Evaluasi Sistem
5
HASIL DAN PEMBAHASAN
6
Dokumen RDF
6
Penyimpanan Dokumen pada Sesame
7
Proses Indexing
7
Pencarian Dokumen
8
Evaluasi Sistem
8
Temu Kembali Informasi Dokumen RDF Gen SIMPULAN DAN SARAN
12 13
Simpulan
13
Saran
14
DAFTAR PUSTAKA
14
LAMPIRAN
15
RIWAYAT HIDUP
22
DAFTAR TABEL 1 Relevant dan retrieved dokumen 2 Hasil pencarian dokumen RDF 3 Hasil interpolasi antara precision dan recall untuk setiap kombinasi pada sistem temu kembali yang membedakan bobot per konteks 4 Predikat pada dokumen RDF gen
5 9 10 12
DAFTAR GAMBAR 1 Diagram alur penelitian 2 Grafik perbandingan sistem temu kembali yang tidak membedakan bobot per konteks ( ) dengan yang membedakan bobot per konteks( ) 3 Potongan dokumen RDF gen 4 Kueri SPARQL yang digunakan untuk parsing data RDF Tanaman Obat 5 Kueri SPARQL yang digunakan untuk parsing data RDF Gen
2
11 12 12 13
DAFTAR LAMPIRAN 1 2 3 4
Contoh dokumen RDF tanaman obat Daftar kombinasi koefisien bobot yang digunakan dalam penelitian Daftar kueri dan dokumen relevan Nilai precision berdasarkan 11 standar recall tanpa pembobotan per konteks 5 Nilai precision berdasarkan 11 standar recall dengan pembobotan per konteks pada AVP tertinggi
15 16 17 18 20
PENDAHULUAN Latar Belakang Seiring dengan berkembangnya teknologi informasi mengakibatkan semakin bertambah banyaknya jumlah informasi. Bertambahnya jumlah informasi menimbulkan masalah bagaimana mendapatkan infomasi yang dibutuhkan secara cepat dan akurat. Temu kembali informasi (information retrieval) merupakan suatu bidang ilmu dalam ilmu komputer yang menjawab permasalahan tersebut. Tujuan dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (BaezaYates dan Ribeiro-Neto 1999). Dalam pengembangan temu kembali informasi pada dokumen, format dokumen yang biasa digunakan adalah eXtensible Markup Language (XML). XML memiliki kemampuan untuk menyimpan data secara terstruktur serta sebagai format dalam pertukaran data. Selain XML, terdapat format data lain terstruktur yaitu Resource Description Framework (RDF). RDF merupakan model metadata dari bahasa yang direkomendasikan oleh W3C untuk membangun infrastruktur web semantik (Gutierrez et al. 2007). Dalam web semantik, RDF dapat merepresentasikan data berbasis ontologi. Penggunaan ontologi dalam temu kembali informasi memungkinkan untuk mendapatkan konsep dan relasi yang merepresentasikan pengetahuan dari suatu dokumen dalam domain yang spesifik, sehingga dokumen bisa diinterpretasikan bukan hanya secara sintak, tetapi juga secara semantik. Penelitian di bidang temu kembali informasi pada dokumen RDF sudah banyak dilakukan, di antaranya adalah Minack (2008) yang melakukan penelitian dengan membuat full-text search pada dokumen RDF. Penelitian dokumen RDF lainnya dilakukan oleh Noviandi (2014) yaitu dengan membuat search engine dokumen RDF tanaman obat menggunakan Sesame dan Lucene. Pada penelitian tersebut, struktur konteks (tag) pada Dokumen RDF tanaman obat yang digunakan tidak diperhatikan sehingga bobot dari setiap konteks pada dokumen RDF tidak dibedakan. Setiap konteks pada dokumen RDF memiliki tingkat kepentingan yang berbeda. Membedakan tingkat kepentingan dari setiap konteks yang ada pada dokumen RDF dapat dilakukan dengan memberikan bobot yang berbeda pada setiap konteks. Oleh karna itu, penelitian ini mengembangkan sistem temu kembali informasi pada dokumen terstruktur RDF dengan memperhatikan struktur dokumen yaitu dengan memberikan bobot pada setiap konteks yang ada pada dokumen RDF. Hasil penelitian ini diharapkan dapat memperbaiki nilai average precision pada temu kembali informasi dokumen RDF bahasa Indonesia.
Perumusan Masalah 1
Perumusan masalah dari penelitian ini adalah: Bagaimana mengimplementasikan sistem temu kembali informasi dokumen RDF pada dokumen bahasa Indonesia dengan memperhatikan struktur dokumen?
2 2 Bagaimana kinerja sistem yang dibangun dalam mengembalikan jawaban yang relevan dari kumpulan dokumen RDF? 3 Apakah pemberian bobot pada konteks dapat memperbaiki kinerja sistem? Tujuan Penelitian Tujuan dari penelitian ini adalah: 1 Mengimplementasikan sistem temu kembali informasi RDF pada dokuman bahasa Indonesia dengan memperhatikan struktur dokumen. 2 Menelaah kinerja sistem yang dibangun dalam mengembalikan jawaban yang relevan dari kumpulan dokumen RDF. Manfaat Penelitian Hasil penelitian ini diharapkan dapat menbantu pengguna dalam menemukan dokumen RDF yang sesuai dengan kueri yang dimasukkan. Ruang Lingkup Penelitian Ruang lingkup penelitian ini antara lain: 1 Dokumen yang digunakan dalam penelitian adalah dokumen RDF tanaman obat yang masing-masing dokumen memiliki struktur yang sama. 2 Dokumen RDF tidak sampai membentuk ontologi.
METODE Secara garis besar penelitian dilakukan dalam beberapa tahap, yaitu perolehan dokumen RDF, menyimpan dokumen dalam aplikasi Sesame, proses indexing, pencarian dokumen, dan evaluasi sistem. Gambaran umum sistem yang dikembangkan dapat dilihat pada Gambar 1.
Mulai
Dokumen RDF
Query
Proses Indexing
Penyimpanan Dokumen pada Sesame
Similarity
Evaluasi
Selesai
Gambar 1 Diagram alur penelitian
3 Dokumen RDF RDF merupakan bahasa yang digunakan untuk merepresentasikan metadata. RDF mendukung interoperabilitas antar-aplikasi yang mempertukarkan informasi yang bersifat machine undestandable pada web. Web semantik terdiri dari data yang ditulis dalam bahasa yang dapat dimengerti oleh mesin seperti RDF dan XML. RDF menggunakan graf untuk merepresentasikan kumpulan pernyataan. Simpul dalam graf mewakili suatu entitas, dan tanda panah mewakili relasi. Model konseptual pada RDF adalah graf dan untuk mempertukarkan metadata pada RDF digunakan sintaks dasar XML sehingga disebut juga RDF/XML (Manola dan Miller, 2004). RDF dan XML merupakan model metadata dari bahasa yang direkomendasikan oleh W3C untuk membangun infrastruktur web semantik. Tetapi keduanya memiliki fungsi yang berbeda dalam infrastruktur semantik. XML berkaitan dengan format pertukaran data, sedangkan RDF berkaitan dengan konten informasi. Pada RDF, sebuah deskripsi dari sumber direpresentasikan sebagai sejumlah triple, tiga bagian dari setiap triple disebut subjek, predikat, dan objek. Subjek dari triple adalah Uniform Resource Identifier (URI) yang mendefinisikan sumber. Objek dapat berupa nilai literal sederhana, seperti string, numerik, tanggal, atau URI dari sumberdaya lainnya yang berkaitan dengan subjek. Predikat mengindikasikan hubungan antara subjek dan objek. Koleksi dokumen yang digunakan dalam penelitian ini adalah dokumen tanaman obat berbahasa Indonesia yang berjumlah 99 dokumen. Dokumendokumen tersebut berasal dari Laboratorium Temu Kembali Departemen Ilmu Komputer IPB. Koleksi dokumen tersebut memiliki struktur RDF yang seragam. Koleksi dokumen tersebut memiliki struktur sebagai berikut:
…………….…….…… ……….….…... ………..……… ………….……… ………..……. …….….… ….... ……….. ……….... Selain dokumen tanaman obat, digunakan juga dokumen RDF gen yang berasal dari ICS-FORTH (Institute of Computer Science - Foundation of Research Technology Hellas - Greece) dan dokumen tersebut diambil dari situs http:// 139.91.183.30:9090/RDF/VRP/Examples/go.rdf. Penyimpanan Dokumen pada Sesame Sesame merupakan aplikasi yang dikembangkan oleh Aduna yang menyediakan fungsi untuk parsing, menyimpan, dan kueri pada data RDF. Sesame menyediakan dua bahasa kueri yaitu SeRQL dan SPARQL. SeRQL dan
4 SPARQL merupakan bahasa kueri yang dikembangkan oleh Aduna yang digunakan untuk memanipulasi data dan parsing data RDF. Koleksi dokumen RDF tanaman obat yang digunakan untuk penelitian disimpan di dalam aplikasi Sesame. Dokumen RDF tanaman obat disimpan pada aplikasi Sesame untuk di parsing menggunakan kueri SPARQL Proses Indexing Dalam sistem temu kembali informasi, dokumen yang ditemukembalikan akan melalui proses indexing sebelum dicocokkan dengan kueri. Beberapa tahapan dalam indexing pada di antaranya adalah tokenisasi, pembuangan stopwords, pemotongan imbuhan (stemming), pembobotan dan pembuatan indeks. Tokenisasi berfungsi untuk memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal dan pengubahan setiap kata menjadi huruf kecil. Stemming berfungsi untuk menghilangkan variasi morfologi kata dengan cara menghilangkan imbuhan pada setiap kata. Stopword merupakan proses penghilangan kata-kata umum yang tidak memiliki makna penting. Stopwords dibuang karena dianggap akan mengurangi akurasi dari informasi yang di temu-kembalikan (Manning et al. 2008). Pembobotan pada Lucene menggunakan pembobotan tf-idf. Term frequency (tf) merupakan frekuensi kemunculan suatu term t pada dokumen d. Document frequency (df) merupakan banyaknya dokumen dalam korpus yang mengandung kata tertentu. Pembobotan tf-idf memberikan bobot term t dalam dokumen d dengan nilai (Manning et al. 2008) wd,t = tft,d × idft
(1)
dengan tft,d merupakan frekuensi term t pada dokumen d, idf = 1+log(N/dft), N adalah jumlah dokumen dalam koleksi, dan dft adalah dokumen yang mengandung term t. Pada penelitian ini, pembobotan dari setiap konteks yang ada pada dokumen RDF akan dibedakan. Bobot pada setiap konteks akan dikalikan dengan suatu nilai koefisien, nilai koefisien tersebut adalah 0.2, 0.4, 0.6, 0.8, dan 1.0. Terdapat 8 konteks pada dokumen RDF yang akan dikalikan dengan nilai koefisien. 8 konteks tersebut adalah ‘nama’, ‘famili’, ‘latin’, ‘bagian’, ‘manfaat’, ‘kandungan’, ‘deskripsi’, dan ‘penyakit’. Pencarian Dokumen Proses pencarian dapat dilakukan jika dokumen sudah terindeks. Proses pencarian dilakukan dengan mencari kata-kata dalam sebuah indeks untuk menemukan dokumen dimana dokumen-dokumen itu muncul. Pencarian dilakukan dengan menghitung nilai kemiripan kueri dengan dokumen. Lucene menggunakan model matematika Vector Space Model (VSM) untuk menentukan bahwa sebuah dokumen itu relevan terhadap sebuah informasi. Model ini akan menghitung derajat kesamaan antara setiap dokumen yang disimpan di dalam sistem dengan kueri yang diberikan oleh pengguna. Dalam VSM terdapat beberapa ukuran kesamaan yang dapat digunakan di antaranya adalah inner, product, cosine, dice, jaccard, overlap dan asymmetric. Rahman (2006) membandingkan kinerja 4 ukuran kesamaan yaitu cosine, dice,
5 jaccard, dan overlap, dan mendapatkan hasil bahwa cosine memiliki kinerja yang lebih baik dalam temu kembali informasi. Cosine menghitung nilai cosinus sudut antara 2 vektor. Jika terdapat dua vektor dokumen d dan kueri q, serta t term diekstrak dari koleksi dokumen maka nilai cosinus antara d dan q didefinisikan sebagai (Manning et al. 2008): (2)
la
Lucene memodifikasi ukuran kesamaan cosine untuk mencari nilai scoring dan similarity menjadi: la
(
)
(3)
∑
dengan 𝑡𝑓 adalah frekuensi e pada dokumen, 𝑡𝑓 adalah frekuensi e pada kueri, |𝑞| adalah panjang vektor kueri, |𝑑| adalah panjang vektor dokumen, dan adalah nilai e yang diberikan terhadap e pada kueri dengan nilai e aul 1. . Evaluasi Sistem Dua ukuran yang sering dipakai untuk mengukur efektifitas suatu sistem temu kembali informasi adalah recall dan precision. Recall adalah rasio antara dokumen relevan yang berhasil ditemukembalikan dari seluruh dokumen relevan yang ada di dalam sistem, sedangkan precision adalah rasio dokumen relevan yang berhasil ditemukembalikan dari seluruh dokumen yang berhasil ditemukembalikan (Manning et al. 2008). Tabel 1 Relevant dan retrieved dokumen Retrieved Not retrieved
Relevant True positives (tp) False negatives (fn)
Nonrelevant False positive (fp) True negatives (tn)
Berdasarkan Tabel 1, nilai recall dan precision dapat ditulis sebagai: e
(4)
e all
(5)
dengan tp adalah dokumen relevan yang ditemukembalikan, fp adalah dokumen tidak relevan yang ditemukembalikan, fn merupakan dokumen relevan yang tidak ditemukembalikan, dan tn merupakan dokumen tidak relevan yang tidak
6 ditemukembalikan. tp+fp merupakan semua dokumen yang ditemukembalikan dan tp+fn merupakan semua dokumen yang relevan. Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan precision dalam menentukan tingkat keefektifan proses hasil temu-kembali. Jumlah kueri yang digunakan yaitu 29 kueri yang didapatkan dari penelitian Herawan (2011). Dalam perhitungan precision, digunakan 11 titik recall standar, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Hasil perhitungan recall dan precision untuk masing-masing koefisien bobot akan dibandingkan agar diketahui kombinasi koefisien bobot yang terbaik. Selain itu, nilai average precision juga dihitung. Selain pada dokumen RDF tanaman obat, pembangunan sistem temu kembali informasi juga dilakukan pada data dokumen RDF gen. Akan tetapi, dalam pengembangannya tidak dilakukan pembobotan per konteks dan tahap evaluasi. Pengembangan sistem temu kembali dokumen RDF gen dilakukan untuk diketahui apakah sistem temu kembali dokumen RDF dapat diterapkan pada dokumen RDF lainnya.
HASIL DAN PEMBAHASAN Dokumen RDF Koleksi dokumen yang digunakan dalam penelitian ini adalah dokumen tanaman obat berbahasa Indonesia yang berjumlah 99 dokumen. Dokumendokumen tersebut berasal dari Laboratorium Temu Kembali Departemen Ilmu Komputer IPB. Semua dokumen tanaman obat digabung dalam satu file dengan format RDF. Keloksi dokumen tersebut memiliki struktur tag yang seragam. Struktur tag yang digunakan dalam dokumen adalah:
, mewakili namespace untuk dokumen RDF.
, mewakili keseluruhan isi dari dokumen. Di dalamnya terdapat tag lain yang mewakili atribut dokumen.
, mewakili id dokumen atau merupakan subjek pada RDF.
, mewakili id dari tanaman obat.
, mewakili famili tanaman obat.
, mewakili nama tanaman obat.
, mewakili nama latin tanaman obat.
, mewakili bagian yang digunakan pada tanaman obat
, mewakili manfaat dari tanaman obat.
, mewakili kandungan dari tanaman obat.
, mewakili deskripsi dari tanaman obat.
7
, mewakili penyakit yang dapat disembuhkan oleh tanaman obat.
Pada field
dan dibuat dalam bentuk rdf:Bag karena dokumen tanaman obat memiliki manfaat dan kandungan yang banyak. Rdf:Bag merupakan tipe data dari RDF yang mendefinisikan bentuk list. Contoh dokumen RDF yang digunakan dapat dilihat pada Lampiran 1. Pada RDF, sebuah deskripsi dari sumber direpresentasikan sebagai sejumlah triple, tiga bagian dari setiap triple disebut subjek, predikat, dan objek. Contoh dokumen RDF tanaman obat (Lampiran 1) dapat didefinisikan menjadi: tanaman_1 memiliki famili Pancdanaceae tanaman_1 memiliki nama Pandan Wangi tanaman_1 memiliki latin Pandanaus amaryllifolius Roxb tanaman_1 memiliki bagian daun yang dapat dimanfaatkan tanaman_1 memiliki manfaat rambut rontok, menghitamkan rambut, menghilangkan ketombe, lemah saraf, tidak nafsu makan, rematik, pegal linu, dan sakit disertai gelisah. tanaman_1 memiliki kandungan alkaloida, saponin, flavonoida, tannin, polifenol dan zat warna. tanaman_1 memiliki deskripsi Tumbuh di tempat yang agak lembap, tumbuh subur dari daerah pantai, daerah dengan ketinggian 500m dpl. Batang bulat dengan bekas duduk daun, bercabang, menjalar, akar tunjang keluar di sekitar pangkal batang dan cabang. Penyimpanan Dokumen pada Sesame Koleksi dokumen RDF tanaman obat yang digunakan untuk penelitian disimpan didalam aplikasi Sesame. Dokumen RDF tanaman obat disimpan pada aplikasi Sesame untuk di parsing menggunakan kueri SPARQL. Dokumen RDF tanaman obat disimpan pada repositori Sesame dengan nama tanaman-obat. Proses Indexing Proses indexing dilakukan dengan menggunakan fungsi yang ada pada Lucene. Pembobotan pada Lucene menggunakan pembobotan tf-idf. Bobot pada masing-masing konteks pada dokumen RDF dibedakan dengan cara mengalikan hasil pembobotan tf-idf dengan suatu nilai koefisien bobot. Nilai koefisien yang digunakan adalah 0.2, 0.4, 0.6, 0.8, dan 1.0. Nilai koefisien bobot tersebut dikombinasikan dengan 8 konteks yang ada pada dokumen RDF tanaman obat. Koefisien bobot diberikan pada setiap konteks. Pemberian koefisien bobot diawali pada konteks ‘deskripsi’. Konteks ‘deskripsi’ dikombinasikan dengan semua koefisien bobot yang digunakan. Koefisien bobot yang terbaik pada konteks ‘deskripsi’ kemudian digunakan pada pengombinasian koefisien bobot konteks lainnya. Penentuan koefisien bobot terbaik di lihat berdasarkan nilai average precision. Daftar hasil kombinasi koefisien bobot yang dilakukan pada penelitian dapat dilihat pada Lampiran 2.
8 Pencarian Dokumen Pencarian Dokumen dapat dilakukan setelah proses indexing. Pencarian dokumen dilakukan dengan menggunakan 29 kueri yang terdiri dari 15 kata tunggal dan 14 frase. Kueri akan diproses oleh sistem kemudian sistem akan meretrieve dan mengurutkan dokumen berdasarkan nilai kesamaan antara dokumen dengan kueri. Hasil pencarian dokumen dapat dilihat pada Tabel 2. Nilai precision pada Tabel 2 didapat berdasarkan perhitungan Persamaan 4. Nilai precision didapat dengan membagi dokumen relevan yang ditemukembalikan dengan dokumen yang ditemukembalikan. Seperti contoh pada kueri ‘Bergerigi’ terdapat 12 dokumen relevan yang ditemukembalikan dan 16 dokumen yang ditemukembalikan. Berdasarkan Persamaaan 4 maka nilai precision untuk kueri ‘Bergerigi’ adalah 12 dibagi dengan 16 sehingga nilainya adalah 0.75. Nilai recall pada Tabel 2 didapat berdasarkan perhitungan persamaan 5. Nilai recall didapat dengan membagi banyaknya dokumen relevan yang ditemukembalikan dengan banyaknya dokumen yang relevan. Seperti contoh pada kueri ‘Bergerigi’ terdapat 12 dokumen relevan yang ditemukembalikan dan 12 dokumen yang relevan. Berdasarkan Persamaaan 5 maka nilai recall untuk kueri ‘Bergerigi’ adalah 12 dibagi dengan 12 sehingga nilainya adalah 1. Evaluasi Sistem Pengujian sistem dilakukan dengan mengukur recall dan precision dalam proses hasil temu-kembali. Jumlah kueri yang digunakan yaitu 29 kueri yang terdiri dari 15 kata tunggal dan 14 frase (Lampiran 3). Dalam perhitungan precision, digunakan 11 titik recall standar, yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Nilai precision dari masing-masing kueri diinterpolasi maksimum pada 11 titik recall standar untuk menghitung nilai average precision (AVP). Nilai AVP dari sistem temu kembali yang tidak membedakan bobot per konteks dibandingkan sistem temu kembali yang membedakan bobot per konteks. Sistem temu kembali yang tidak membedakan bobot per konteks memiliki nilai AVP sebesar 0.87809. Grafik hasil interpolasi antara precision dan recall pada sistem temu kembali yang tidak membedakan bobot per konteks dapat dilihat pada Gambar 2. Perhitungan nilai AVP berdasarkan hasil interpolasi antara precision dan recall untuk setiap kombinasi (Lampiran 2) pada sistem temu kembali yang membedakan bobot per konteks ditunjukkan pada Tabel 3 Penentuan koefisien bobot dilakukan secara satu per satu untuk setiap konteks. Berdasarkan Tabel 3, Penentuan koefisien bobot diawali pada konteks ‘deskripsi’. Koefisien bobot terbaik pada konteks ‘deskripsi’ berdasarkan nilai average precision adalah 1. Koefisien bobot terbaik pada konteks ‘deskripsi’ kemudian digunakan dalam penentuan koefisien bobot terbaik pada konteks yang lainnya. Penentuan koefisien bobot pada konteks lainnya dilakukan sama seperti penentuan koefisien bobot pada konteks ‘deskripsi’.
9 Tabel 2 Hasil pencarian dokumen RDF No.
Kueri
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Kanker Flu Diabetes Pusing Merambat Menjari Bergerigi Menyirip Vitamin Antioksidan Protein Kalsium Diseduh Ditumbuk Diperas Batuk Pilek Kencing Batu Datang Bulan Gatal-gatal Sesak Nafas Tumbuhan Merambat Tanaman Hias Daun Elips Buah Buni Kalsium Oksalat Zat Warna Obat Diseduh Obat Ditumbuk Buah Diperas
18 19 20 21 22 23 24 25 26 27 28 29
Dokumen Dokemen Dokumen di Relevan yang Precision Relevan Retrieve di Retrieve 4 4 4 1.00 3 3 3 1.00 20 20 20 1.00 3 3 3 1.00 2 2 2 1.00 3 3 3 1.00 16 12 12 0.75 24 19 19 0.79 20 19 19 0.95 1 1 1 1.00 10 7 7 0.70 16 11 11 0.69 12 11 11 0.92 13 12 12 0.92 7 7 7 1.00 28 3 3 0.11 49 4 4 0.08 13 3 3 0.23 11 4 4 0.36 9 6 6 0.67 47 2 2 0.04 60 26 26 0.43 90 4 4 0.04 67 15 15 0.22 16 7 7 0.44 54 5 5 0.09 43 4 4 0.09 40 8 8 0.20 66 3 3 0.05
Recall 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
10 Tabel 3 Hasil interpolasi antara precision dan recall untuk setiap kombinasi pada sistem temu kembali yang membedakan bobot per konteks Koefisien Bobot Per Konteks
AVP
Deskripsi
bagian
kandungan
nama
latin
famili
penyakit
manfaat
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
0.87809
0.8 0.6
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
0.87185 0.86903
0.4 0.2
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
0.86903 0.86903
1.0
0.8
1.0
1.0
1.0
1.0
1.0
1.0
0.87348
1.0 1.0
0.6 0.4
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
0.87348 0.87865
1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.2 0.2 0.2 0.2 0.2 0.2 0.2
1.0 0.8 0.6 0.4 0.2 0.6 0.6
1.0 1.0 1.0 1.0 1.0 0.8 0.6
1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.88975 0.88909 0.88975 0.88934 0.88828 0.88975 0.88975
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2
0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6
0.4 0.2 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 0.8 0.6 0.4 0.2 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 0.8 0.6
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.88975 0.88975 0.88975 0.88975 0.88975 0.88975 0.88975 0.88975
1.0
0.2
0.6
1.0
1.0
0.4
1.0
1.0
0.88975
1.0 1.0 1.0 1.0 1.0
0.2 0.2 0.2 0.2 0.2
0.6 0.6 0.6 0.6 0.6
1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0
0.2 1.0 1.0 1.0 1.0
1.0 0.8 0.6 0.4 0.2
1.0 1.0 1.0 1.0 1.0
0.88975 0.88975 0.88975 0.88975 0.88975
1.0
0.2
0.6
1.0
1.0
1.0
1.0
0.8
0.89448
1.0 1.0 1.0
0.2 0.2 0.2
0.6 0.6 0.6
1.0 1.0 1.0
1.0 1.0 1.0
1.0 1.0 1.0
1.0 1.0 1.0
0.6 0.4 0.2
0.89721 0.89270 0.89254
Nilai koefisien bobot terbaik untuk masing-masing konteks berdasarkan Tabel 3 adalah 1.0 pada ‘deskripsi’, 0.2 pada ‘bagian’, 0.6 pada ‘kandungan’, 1.0
11 pada ‘nama’, 1.0 pada ‘latin’, 1.0 pada ‘famili’, 1.0 pada ‘penyakit’ dan 0.6 pada ‘manfaat’ dengan nilai AVP sebesar 0.89721. Nilai tersebut lebih tinggi 1.91% jika dibandingkan dengan sistem temu kembali informasi yang tidak membedakan bobot per konteks. Pada konteks ‘nama’, ‘latin’, ‘famili’, dan ‘penyakit’, pemberian nilai koefisien bobot yang berbeda tidak mempengaruhi nilai AVP. Hal ini disebabkan kueri yang digunakan dalam pengujian tidak merepresentasikan isi dari ke empat konteks. Selain itu dapat juga disebabkan oleh isi dari konteks yang bersifat unik atau tidak ada pada konteks lain. Dalam penentuan koefisien bobot untuk kasus tersebut, koefisien bobot yang digunakan adalah 1.0. Pemberian koefisien bobot bernilai 1.0 dikarenakan nilai bobot jika dikalikan dengan koefisien 1.0 hasilnya akan tetap sama. Berdasarkan Lampiran 4 dan 5, peningkatan nilai precision terjadi pada kueri ‘Daun Elips’, ‘Buah Buni’ dan ‘Buah Diperas’. Hal ini dikarenakan pemberian bobot yang berbeda pada konteks ‘deskripsi’, ‘bagian’, ‘manfaat’, dan ‘kandungan’. Seperti contoh pada kueri ‘Daun Elips’, pengguna menginginkan informasi daun yang memiliki bentuk elips, tetapi sistem akan menemukembalikan dokumen yang mengandung kata ‘Daun’ dan ‘Elips’. Kata ‘Daun’ terdapat pada konteks ‘bagian’ dan ‘deskripsi’ sedangkan kata ‘Elips’ terdapat pada konteks ‘deskripsi’, sehingga pemberian bobot yang lebih tinggi pada konteks ‘deskripsi’ dibandingkan dengan konteks ‘bagian’ dapat meningkatkan nilai precision. 1 0.9 0.8
Precision
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Recall Gambar 2 Grafik perbandingan sistem temu kembali yang tidak membedakan bobot per konteks ( ) dengan yang membedakan bobot per konteks( ) Gambar 2 menunjukan grafik perbandingan hasil interpolasi antara precision dan recall pada sistem temu kembali yang tidak membedakan bobot per konteks dengan sistem temu kembali pembobotan per konteks yang memiliki nilai AVP tertinggi. Nilai precision pada 11 standar recall untuk pembobotan per konteks yang memiliki nilai AVP tertinggi dapat dilihat pada Lampiran 5.
12 Temu Kembali Informasi Dokumen RDF Gen Selain pada dokumen RDF tanaman obat, pembangunan sistem temu kembali informasi juga dilakukan pada data dokumen RDF gen. akan tetapi, dalam pengembangannya tidak dilakukan pembobotan per konteks dan tahap evaluasi. Pengembangan sistem temu kembali dokumen RDF gen dilakukan untuk diketahui apakah sistem temu kembali dokumen RDF dapat diterapkan pada dokumen RDF lainnya. Untuk dapat membangun sistem temu kembali RDF gen diperlukan kueri SPARQL pada RDF gen agar dokumen RDF gen dapat di-parsing dengan menggunakan Sesame. Untuk mengetahui kueri SPARQL perlu diketahui terlebih dahulu predikat yang dimiliki dokumen RDF gen. Gambar 3 merupakan potongan dokumen RDF gen. Berdasarkan potongan dokumen tersebut, predikat yang digunakan pada RDF gen adalah sebagai berikut: Tabel 4 Predikat pada dokumen RDF gen PREFIX go:
Predikat accession name definition
Keterangan Menjelaskan id dari gen Menjelaskan nama gen Menjelaskan definisi gen
Setiap predikat merupakan URI. Untuk mempermudah penulisan URI dalam kueri, PREFIX digunakan untuk mempersingkat penulisan URI. Contohnya URI http://139.91.183.30:9090/RDF/VRP/Examples/schema_go.rdfaccession
menjadi go: accession.
GO0004791 thioredoxin reductase (NADPH) A flavoprotein catalyzing the reaction: NADPH oxidised thoredoxin = NADP(+) + reduced thioredoxin. }
+
Gambar 3 Potongan dokumen RDF gen PREFIX tanaman: SELECT * WHERE { ?tanaman tanaman:nama ?nama . ?tanaman tanaman:habitus ?habitus . ?tanaman tanaman:penyakit ?penyakit . ?tanaman tanaman:famili ?famili . ?tanaman tanaman:bagian ?bagian . ?tanaman tanaman:latin ?latin . ?tanaman tanaman:deskripsi ?deskripsi . }
Gambar 4 Kueri SPARQL yang digunakan untuk parsing data RDF Tanaman Obat
13 Gambar 4 merupakan kueri SPARQL yang digunakan pada dokumen RDF gen untuk melakukan parsing. Untuk dapat digunakan pada dokumen RDF gen kueri SPARQL tersebut harus disesuaikan. PREFIX pada dokumen RDF gen adalah go:. Selain itu dilakukan juga penyesuaian pada predikat untuk mendapatkan hasil kueri yang diinginkan. Untuk mendapatkan hasil kueri dari accesion diperlukan URI predikat dari accession yaitu . Penyesuaian Kueri SPARQL yang digunakan pada dokumen RDF gen dapat dilihat pada Gambar 5.
$sparql = "PREFIX go: SELECT * WHERE { ?go ?accession ?go ?name ?go ?definition }";
Gambar 5 Kueri SPARQL yang digunakan untuk parsing data RDF Gen Setelah kueri SPARQL didapat, proses parsing dapat dilakukan. Pencarian dokumen dilakukan dengan memasukkan kueri yang berkaitan dengan gen. Kueri akan diproses oleh sistem kemudian sistem akan me-retrieve dan mengurutkan dokumen berdasarkan nilai kesamaan antara dokumen dan kueri.
SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang dilakukan, dapat disimpulkan bahwa pemberian nilai koefisien bobot yang berbeda pada masing-masing konteks dalam dokumen RDF tanaman obat dapat meningkatkan nilai average precision (AVP). AVP pada hasil pencarian dengan tidak membedakan bobot masing-masing konteks bernilai 0.87809. Nilai AVP tertinggi pada hasil pencarian dengan membedakan bobot pada masing-masing konteks bernilai 0.8972 dengan nilai koefisien bobotnya yaitu 1.0 pada ‘deskripsi’, 0.2 pada ‘bagian’, 0.6 pada ‘kandungan’, 1.0 pada ‘nama’, 1.0 pada ‘latin’, 1.0 pada ‘famili’, 1.0 pada ‘penyakit’ dan 0.6 pada ‘manfaat’. Nilai AVP tersebut lebih tinggi 1.91% jika dibandingkan dengan sistem temu kembali informasi yang tidak membedakan bobot per konteks.
14 Saran Beberapa hal yang perlu dikembangkan dalam penelitian selanjutnya yang terkait dengan RDF Retrieval antara lain sebagai berikut: 1 Menggunakan jumlah koleksi dokumen yang lebih banyak. 2 Menggunakan ontologi pada dokumen RDF agar makna pada dokumen RDF dapat lebih spesifik. 3 Melakukan analisis perbandingan dengan metode pencarian koefisien bobot per konteks lainnya.
DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. Harlow (UK): Addison Wesley. Gutierrez C, Hurtado C, Vaisman A. 2007. Introducing time into RDF. IEEE Trans. Knowl. Data Eng.. 19(2):207-218. doi:10.1109/tkde.2007.34. Herawan Y, 2011. Ekstraksi ciri dokumen tumbuhan obat menggunakan chikuadrat dengan klasifikasi naive bayes [skripsi]. Bogor (ID): Institut Pertanian Bogor. Manning CD. Raghavan P, Schütze H. 2008. Introduction to Information Retrieval. New York (US): Cambridge University Press. Manola F, Miller E. 2004. RDF Primer. http://www.w3.org/TR/2004/REC-rdfprimer-20040210/ [17 November 2014]. Minack E, Sauermann L, Grimnes Gunnar, Fluit C, Broekstra J. 2008. The Sesame LuceneSail: RDF Queries with Full-text Search. http://www.dfki.unikl.de/~sauermann/papers/Minack+2008.pdf [4 April 2015] Noviandi L. 2014. Search engine dokumen RDF tanaman obat menggunakan Sesame dan Lucene [skripsi]. Bogor (ID): Institut Pertanian Bogor. Rahman A. 2006. Perbandingan kinerja beberapa ukuran kesamaan pada temu kembali informasi dokumen XML [skripsi]. Bogor (ID): Institut Pertanian Bogor.
15
LAMPIRAN Lampiran 1 Contoh dokumen RDF tanaman obat 1 Pancdanaceae Pandan Wangi Pandanaus amaryllifolius Roxb Daun rambut rontok menghitamkan rambut menghilangkan ketombe lemah saraf (neurastenia) tidak nafsu makan rematik pegal linu sakit disertai gelisah alkaloida saponin flavonoida tannin polifenol zat warna Tumbuh di tempat yang agak lembap, tumbuh subur dari daerah pantai - daerah dengan ketinggian 500m dpl. Perdu tahunan, tinggi 1m-2m. Batang bulat dengan bekas duduk daun, bercabang, menjalar, akar tunjang keluar di sekitar pangkal batang dan cabang. Daun tunggal, duduk, dengan pangkal memeluk batang, tersusun berbaris tiga dalam garis spiral. Helai daun berbentuk pita, tipis, licin, ujung runcing, tepi rata, bertulang sejajar, panjang 40cm-80cm, lebar 3cm-5cm, berduri pada ibu tulang daun permukaan bawah bagian ujung-ujungnya, warna hijau. Bunga majemuk, bentuk bongkol, warnanya putih. Buahnya buah batu, menggantung, bentuk bola, diameter 4cm-7.5cm, dinding buah berambut, warnanya jingga Perawatan
16 Lampiran 2 Daftar kombinasi koefisien bobot yang digunakan dalam penelitian deskripsi
bagian
kandungan
nama
latin
famili
penyakit
manfaat
1.0 0.8
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
0.6 0.4
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
0.2
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0 1.0
0.8 0.6
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0
0.4
1.0
1.0
1.0
1.0
1.0
1.0
1.0 1.0
0.2 0.2
1.0 0.8
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
0.2 0.2
0.6 0.4
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0 1.0 1.0
0.2 0.2 0.2 0.2
0.2 0.6 0.6 0.6
1.0 0.8 0.6 0.4
1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0
1.0
0.2
0.6
0.2
1.0
1.0
1.0
1.0
1.0 1.0
0.2 0.2
0.6 0.6
1.0 1.0
0.8 0.6
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0 1.0 1.0 1.0
0.2 0.2 0.2 0.2 0.2
0.6 0.6 0.6 0.6 0.6
1.0 1.0 1.0 1.0 1.0
0.4 0.2 1.0 1.0 1.0
1.0 1.0 0.8 0.6 0.4
1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0
1.0
0.2
0.6
1.0
1.0
0.2
1.0
1.0
1.0 1.0
0.2 0.2
0.6 0.6
1.0 1.0
1.0 1.0
1.0 1.0
0.8 0.6
1.0 1.0
1.0 1.0 1.0
0.2 0.2 0.2
0.6 0.6 0.6
1.0 1.0 1.0
1.0 1.0 1.0
1.0 1.0 1.0
0.4 0.2 1.0
1.0 1.0 0.8
1.0 1.0
0.2 0.2
0.6 0.6
1.0 1.0
1.0 1.0
1.0 1.0
1.0 1.0
0.6 0.4
1.0
0.2
0.6
1.0
1.0
1.0
1.0
0.2
17 Lampiran 3 Daftar kueri dan dokumen relevan No Kueri 1 Kanker 2 Flu 3
Diabetes
4 5 6
Pusing Merambat Menjari
7
Bergerigi
8
Menyirip
9
Vitamin
10 11 12 13
Antioksidan Protein Kalsium Diseduh
14
Ditumbuk
15 16 17 18 19 20
Diperas Batuk Pilek Kencing Batu Datang Bulan Gatal-gatal Sesak Nafas Tumbuhan Merambat
21 22
Tanaman Hias
23
Daun Elips
24
Buah Buni
25 26 27 28 29
Kalsium Oksalat Zat Warna Obat Diseduh Obat Ditumbuk Buah Diperas
Dokumen Relevan d15, d86, d88, d95 d45, d65, d99 d2, d5, d14, d18, d33, d37, d39, d54, d55, d58, d59, d70, d78, d79, d81, d85, d86, d95, d97, d99 d38, d76, d84 d3, d94 d6, d2, d99 d8, d17, d36, d52, d62, d64, d68, d69, d73, d85, d93, d94 d8, d9, d19, d22, d25, d52, d57, d64, d69, d73, d80, d81, d87, d89, d94, d95, d96, d97, d98 d18, d20, d23, d28, d34, d39, d44, d55, d59, d60, d64, d73, d77, d79, d84, d94, d95, d97, d99 d79 d60, d64, d73, d94, d95, d97, d99 d50, d60, d64, d68, d73, d78, d84, d85, d94, d97, d99 d41, d53, d56, d60, d70, d80, d82, d83, d84, d85, d90 d39, d40, d51, d55, d59, d66, d67, d68, d70, d71, d77, d86 d34, d40, d60, d64, d68, d77, d84 d45, d50, d65 d47, d62, d85, d36 d60, d54, d58 d48, d51, d52, d69 d7, d28, d29, d30, d34, d60 d3, d94 d12, d21, d23, d24, d25, d32, d35, d37, d38, d50, d51, d52, d61, d63, d64, d65, d67, d69, d70, d71, d72, d73, d76, d77, d78, d86 d14, d29, d85, d86 d9, d13, d23, d26, d32, d53, d61, d64, d71, d73, d79, d80, d84, d89, d81 d20, d23, d50, d64, d73, d78, d94 d1, d31, d42, d66, d74 d80, d84, d60, d85 d39, d40, d51, d53, d55, d59, d68, d70 d34, d60, d84
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
Kanker Flu Diabetes Pusing
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
Merambat Menjari Bergerigi Menyirip Vitamin Antioksidan Protein
1.00 1.00 1.00 1.00 1.00 1.00 1.00
1.00 1.00 0.75 1.00 1.00 1.00 1.00
1.00 1.00 0.75 1.00 1.00 1.00 1.00
1.00 1.00 0.75 1.00 1.00 1.00 1.00
1.00 1.00 0.75 1.00 1.00 1.00 1.00
1.00 1.00 0.75 0.94 1.00 1.00 1.00
1.00 1.00 0.75 0.94 1.00 1.00 1.00
1.00 1.00 0.75 0.94 1.00 1.00 1.00
1.00 1.00 0.75 0.90 0.95 1.00 0.88
1.00 1.00 0.75 0.90 0.95 1.00 0.88
1.00 1.00 0.75 0.86 0.95 1.00 0.88
Kalsium Diseduh Ditumbuk Diperas Batuk Pilek Kencing Batu Datang Bulan
1.00 1.00 1.00 1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00 1.00 1.00 1.00
1.00 0.92 0.92 1.00 1.00 1.00 1.00
1.00 0.92 0.92 1.00 0.67 1.00 1.00
1.00 0.92 0.92 1.00 0.67 1.00 1.00
1.00 0.92 0.92 1.00 0.67 1.00 1.00
1.00 0.92 0.92 1.00 0.30 1.00 1.00
0.83 0.92 0.92 1.00 0.30 0.50 1.00
0.83 0.92 0.92 1.00 0.30 0.50 1.00
0.73 0.92 0.92 1.00 0.30 0.50 1.00
Gatal-gatal
1.00
1.00
1.00
0.40
0.40
0.40
0.40
0.40
0.40
0.40
0.40
18
Nilai precision pada 11 standar recall
Lampiran 4 Nilai precision berdasarkan 11 standar recall tanpa pembobotan per konteks
kueri
Nilai precision pada 11 standar recall 0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
Sesak Nafas Tumbuhan Merambat Tanaman Hias Daun Elips Buah Buni Kalsium Oksalat Zat Warna Obat Diseduh Obat Ditumbuk
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.92 1.00 1.00 1.00 1.00 1.00 0.35
0.92 1.00 0.67 1.00 1.00 1.00 0.35
0.92 1.00 0.60 1.00 1.00 1.00 0.35
0.92 1.00 0.60 1.00 1.00 0.29 0.35
0.92 1.00 0.60 1.00 1.00 0.29 0.35
0.92 1.00 0.60 1.00 1.00 0.29 0.35
0.92 0.06 0.60 1.00 1.00 0.29 0.35
0.92 0.06 0.60 1.00 1.00 0.29 0.35
0.92 0.06 0.60 1.00 1.00 0.29 0.35
0.90 0.06 0.60 1.00 1.00 0.29 0.35
0.90 0.06 0.60 1.00 1.00 0.29 0.35
Buah Diperas
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.75
0.75
0.75
0.75
Lampiran 4 Lanjutan
kueri
19
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
Kanker Flu Diabetes Pusing
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00
Merambat Menjari Bergerigi Menyirip Vitamin Antioksidan Protein
1.00 1.00 1.00 1.00 1.00 1.00 1.00
1.00 1.00 0.75 1.00 1.00 1.00 1.00
1.00 1.00 0.75 1.00 1.00 1.00 1.00
1.00 1.00 0.75 1.00 1.00 1.00 1.00
1.00 1.00 0.75 1.00 1.00 1.00 1.00
1.00 1.00 0.75 0.94 1.00 1.00 1.00
1.00 1.00 0.75 0.94 1.00 1.00 1.00
1.00 1.00 0.75 0.94 1.00 1.00 1.00
1.00 1.00 0.75 0.90 0.95 1.00 0.88
1.00 1.00 0.75 0.90 0.95 1.00 0.88
1.00 1.00 0.75 0.86 0.95 1.00 0.88
Kalsium Diseduh Ditumbuk Diperas Batuk Pilek Kencing Batu Datang Bulan
1.00 1.00 1.00 1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00 1.00 1.00 1.00
1.00 1.00 1.00 1.00 1.00 1.00 1.00
1.00 0.92 0.92 1.00 1.00 1.00 1.00
1.00 0.92 0.92 1.00 0.67 1.00 1.00
1.00 0.92 0.92 1.00 0.67 1.00 1.00
1.00 0.92 0.92 1.00 0.67 1.00 1.00
1.00 0.92 0.92 1.00 0.30 1.00 1.00
0.83 0.92 0.92 1.00 0.30 0.36 1.00
0.83 0.92 0.92 1.00 0.30 0.36 1.00
0.73 0.92 0.92 1.00 0.30 0.36 1.00
Gatal-gatal
1.00
1.00
1.00
0.40
0.40
0.40
0.40
0.40
0.40
0.40
0.40
20
Nilai precision pada 11 standar recall
Lampiran 5 Nilai precision berdasarkan 11 standar recall dengan pembobotan per konteks pada AVP tertinggi
kueri
Nilai precision pada 11 standar recall 0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
Sesak Nafas Tumbuhan Merambat Tanaman Hias Daun Elips Buah Buni Kalsium Oksalat Zat Warna Obat Diseduh Obat Ditumbuk
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.92 1.00 1.00 1.00 1.00 1.00 0.35
0.92 1.00 1.00 1.00 1.00 1.00 0.35
0.92 1.00 1.00 1.00 1.00 1.00 0.35
0.92 1.00 0.63 1.00 1.00 0.29 0.35
0.92 1.00 0.61 1.00 1.00 0.29 0.35
0.92 1.00 0.61 1.00 1.00 0.29 0.35
0.92 1.00 0.61 1.00 1.00 0.29 0.35
0.92 1.00 0.61 1.00 1.00 0.29 0.35
0.92 1.00 0.61 1.00 1.00 0.29 0.35
0.90 1.00 0.61 1.00 1.00 0.29 0.35
0.90 1.00 0.60 1.00 1.00 0.29 0.35
Buah Diperas
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Lampiran 5 Lanjutan
kueri
21
22
RIWAYAT HIDUP
Penulis dilahirkan di Bogor, Jawa Barat pada tanggal 6 Juni 1993 dari pasangan Zaenal Abidin dan Ane Rufaedah. Penulis merupakan anak ketiga dari empat bersaudara. Tahun 2011 penulis lulus dari Madrasah Aliyah Negeri 2 Bogor dan pada tahun yang sama penulis diterima di Institut Pernatian Bogor melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN) Undangan pada Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) IPB.